文 |余凱文
來(lái)源 | 智能相對(duì)論(ID:aixdlun)
在人機(jī)交互不再滿足于“聽(tīng)”時(shí),“說(shuō)”的環(huán)節(jié)變得尤為重要,“怎么說(shuō)”、“誰(shuí)來(lái)說(shuō)”成了關(guān)鍵按鈕。
而目前語(yǔ)音產(chǎn)品賽道逐漸進(jìn)入了常規(guī)化模式,邀請(qǐng)明星出聲也成為了基本操作,相比傳統(tǒng)的機(jī)械式AI聲音,真人語(yǔ)音無(wú)論是在效果還是情感方面都是無(wú)可比擬的,再加上明星效應(yīng),用戶的體驗(yàn)效果將來(lái)得更加直觀。
12月24日,百度地圖官方宣布湯唯正式簽約代言人,同時(shí)上線“湯唯導(dǎo)航語(yǔ)音”。在“說(shuō)”的領(lǐng)域,百度地圖這款“新一代人工智能地圖”又邁出了一步。
從語(yǔ)音導(dǎo)航到湯唯定制語(yǔ)音,百度地圖“AI+女神”到底進(jìn)化了什么
傳統(tǒng)語(yǔ)音導(dǎo)航,是單調(diào)無(wú)聊的,定制語(yǔ)音將其變?yōu)榱诉^(guò)去式。擁有湯唯的柔美聲音作為導(dǎo)航,在體驗(yàn)上有什么差別?當(dāng)“前方路段交通擁擠,請(qǐng)小心駕駛”變成“前方行駛緩慢,慢慢欣賞路上風(fēng)景”,會(huì)不會(huì)覺(jué)得這才是“人性化”服務(wù)?
1、擺脫中性,湯唯帶給我們的不只是女神之聲
很多人會(huì)問(wèn),一定要給AI加上性別嗎?不,AI不一定需要性別,但語(yǔ)音最好有。
以往我們聽(tīng)到的AI語(yǔ)音都是機(jī)械式的聲音,是“中性”或者說(shuō)是“無(wú)性”的聲音,帶來(lái)的問(wèn)題也很直接,就是太冰冷、沒(méi)個(gè)性。之前也有說(shuō)到,目前個(gè)性化、表現(xiàn)力正是語(yǔ)音合成所追求的方向之一,所以百度地圖帶來(lái)的湯唯語(yǔ)音也就不止是一款語(yǔ)音那么簡(jiǎn)單。可以說(shuō)湯唯語(yǔ)音從一個(gè)功能點(diǎn)體現(xiàn)出結(jié)合了人工智能的百度地圖正在變得越來(lái)越強(qiáng)大。
聲音具有和視覺(jué)傳達(dá)一樣很強(qiáng)的感染力,甚至有時(shí),以聲音為主的交互會(huì)帶來(lái)更好的沉浸感。
并且語(yǔ)音合成研究已開(kāi)始從文字到語(yǔ)音的轉(zhuǎn)換階段向概念到語(yǔ)音的轉(zhuǎn)換階段發(fā)展。所涉及的技術(shù)也更加復(fù)雜,百度地圖就是利用其深度神經(jīng)網(wǎng)絡(luò)技術(shù)、深度學(xué)習(xí)技術(shù),再結(jié)合車內(nèi)應(yīng)用場(chǎng)景進(jìn)行打造。例如百度語(yǔ)音合成系統(tǒng)采用的全深度學(xué)習(xí)的框架,是在語(yǔ)音合成領(lǐng)域首次采用全深度學(xué)習(xí)框架,實(shí)現(xiàn)了語(yǔ)言合成上的個(gè)性化、口語(yǔ)化。
2、語(yǔ)音算法模型讓機(jī)器人性化
女神湯唯之所以能完成高質(zhì)量的語(yǔ)音包,語(yǔ)音合成技術(shù)功不可沒(méi),在龐大的道路信息和交通數(shù)據(jù)之下,誰(shuí)也無(wú)法通過(guò)直錄的方式通通記錄,這時(shí)就需要靠語(yǔ)音系統(tǒng)來(lái)支撐。
以湯唯語(yǔ)音包來(lái)說(shuō),就是先錄制湯唯聲音特點(diǎn)的第一手資料,錄制的語(yǔ)句包含一些常見(jiàn)的導(dǎo)航提示語(yǔ)句和一些覆蓋到常見(jiàn)的中文發(fā)音的句子。
其實(shí)無(wú)論語(yǔ)音還是文字,在計(jì)算機(jī)看來(lái)都是數(shù)字化的,語(yǔ)音合成模型的任務(wù)就是要建立這兩組數(shù)字之間的關(guān)系,通過(guò)一系列的計(jì)算,將文本的輸入轉(zhuǎn)化為語(yǔ)音的輸出。首先需要建立一個(gè)神經(jīng)網(wǎng)絡(luò)的模型,去學(xué)習(xí)湯唯錄制的語(yǔ)音和錄音文字之間的映射關(guān)系,就好比讓一個(gè)不會(huì)發(fā)音的孩子學(xué)湯唯說(shuō)話。而在合成時(shí),它就可以讀取導(dǎo)航語(yǔ)句,并大聲朗讀出來(lái)了。
AI浪潮之下,語(yǔ)言合成才是語(yǔ)音技術(shù)的高地
使電腦具有類似于人一樣的說(shuō)話能力,是當(dāng)今時(shí)代信息產(chǎn)業(yè)的重要競(jìng)爭(zhēng)市場(chǎng),不過(guò)大家的注意力多集中在語(yǔ)音合成之外。
1、差點(diǎn)被忽略的“黃金”場(chǎng)景
目前,語(yǔ)音技術(shù)的應(yīng)用多為了語(yǔ)音喚醒和交互,在智能硬件和軟件上都有很多典型應(yīng)用——智能音箱、智能電視、智能掃地機(jī)器人、百度地圖、百度輸入法等等。但不可否認(rèn)的是,智能硬件的側(cè)重仍在于“語(yǔ)音識(shí)別”,對(duì)于“語(yǔ)音合成”的應(yīng)用有,可還不夠深。
語(yǔ)音合成本是把文本經(jīng)一系列計(jì)算處理后輸出對(duì)應(yīng)音頻,通過(guò)機(jī)械的、電子的方法產(chǎn)生人造語(yǔ)音技術(shù)。因?yàn)橥昝赖娜藱C(jī)交互體驗(yàn)無(wú)法忽略“說(shuō)”的環(huán)節(jié),所以語(yǔ)音合成的重要性日益凸顯。
從早期的機(jī)械化語(yǔ)音合成開(kāi)始發(fā)展至今,語(yǔ)音合成的應(yīng)用場(chǎng)景也經(jīng)歷了較大的轉(zhuǎn)變,以前語(yǔ)音合成應(yīng)用都是在相對(duì)單調(diào)的場(chǎng)景,現(xiàn)在應(yīng)用場(chǎng)景更加復(fù)雜,對(duì)于語(yǔ)音合成技術(shù)的要求自然變得更高。
例如,在有聲讀物方面,用戶需求越來(lái)越個(gè)性化,單調(diào)的機(jī)械聲已經(jīng)完全不夠;在機(jī)場(chǎng)、車站廣播等服務(wù)行業(yè),需要的是溫柔、甜美的音質(zhì);在辦事機(jī)構(gòu)、窗口機(jī)關(guān)又需要嚴(yán)謹(jǐn)、有力的聲音。而百度地圖上線湯唯語(yǔ)音,也是給在路上的用戶更加磁性、知性的嗓音。
在外部,車內(nèi)空間顯然是一塊“寶地”,車內(nèi)空間的交互可以說(shuō)是市場(chǎng)剛需,截止到2018年9月,全國(guó)機(jī)動(dòng)車保有量已經(jīng)達(dá)到了3.22億輛,機(jī)動(dòng)車駕駛?cè)藬?shù)超過(guò)了4億人,交互價(jià)值巨大。
百度地圖等加速車內(nèi)空間交互,是將傳統(tǒng)的“室內(nèi)交互”做了外延,給百度帶來(lái)的也不僅僅是用戶層面的拓寬,更體現(xiàn)出百度搜索之外的野心。
2、技術(shù)上,語(yǔ)音合成一直是語(yǔ)音技術(shù)的高山和壁壘
語(yǔ)音合成可以說(shuō)是人工智能的“嘴”,是人機(jī)交互的基礎(chǔ),一個(gè)沒(méi)有“嘴”的人工智能何談什么交互?
就現(xiàn)階段而言,語(yǔ)音識(shí)別已經(jīng)不再是語(yǔ)音技術(shù)的關(guān)鍵問(wèn)題,很多產(chǎn)品的語(yǔ)音識(shí)別率都到達(dá)了95%以上。但在語(yǔ)音生成上,能讓機(jī)器說(shuō)的話與人類說(shuō)出來(lái)的話相近依舊很難,即便是一些簡(jiǎn)單的詞組,你我也能一耳就聽(tīng)出是機(jī)器合成的還是真人播報(bào)。
如果將語(yǔ)音合成技術(shù)拆解,可以分為文本分析、韻律分析和聲學(xué)分析三個(gè)部分,每一個(gè)部分都是技術(shù)難點(diǎn)。首先需要對(duì)文本進(jìn)行解析,對(duì)文本的語(yǔ)言、字符進(jìn)行分析,提取出文本特征;接著在文本信息的基礎(chǔ)上,要判斷文本信息字符間奏、長(zhǎng)度、頻率等多種特征;然后通過(guò)聲學(xué)模型實(shí)現(xiàn)從前端參數(shù)到語(yǔ)音參數(shù)的映射,最后通過(guò)聲碼器合成語(yǔ)音。
而且,目前主流的語(yǔ)音合成方法為統(tǒng)計(jì)參數(shù)語(yǔ)音合成和波形拼接的語(yǔ)音合成,統(tǒng)計(jì)參數(shù)語(yǔ)音合成由前端文本分析、統(tǒng)計(jì)參數(shù)模型和聲碼器三個(gè)部分組成,對(duì)語(yǔ)料庫(kù)的時(shí)長(zhǎng)要求較低且在合成目標(biāo)波形時(shí)具有較高靈活性,但重建出來(lái)的語(yǔ)音比較機(jī)械,缺乏自然度。主要為聲碼器在對(duì)語(yǔ)音信號(hào)建模時(shí)舍棄了語(yǔ)音細(xì)節(jié),合成的語(yǔ)音相比原始語(yǔ)音丟失部分信息。
而百度地圖采用的百度語(yǔ)音合成系統(tǒng),可以將很多模塊用深度神經(jīng)網(wǎng)絡(luò)去實(shí)現(xiàn),有效解決了使用統(tǒng)計(jì)參數(shù)合成時(shí)所帶來(lái)的問(wèn)題。
波形拼接的語(yǔ)音合成不使用聲碼器,直接通過(guò)拼接原始錄制語(yǔ)音片段來(lái)合成目標(biāo)語(yǔ)音,相比參數(shù)法,合成的語(yǔ)音更加自然真實(shí)。由于直接面向語(yǔ)料庫(kù)操作,故對(duì)語(yǔ)料時(shí)長(zhǎng)和基元種類具有較高要求。
當(dāng)然,當(dāng)語(yǔ)音流暢度達(dá)到人們預(yù)期時(shí),也并不是完結(jié),音質(zhì)、自然度和情感等要素也依舊需要攻克。
就拿漢語(yǔ)語(yǔ)音合成來(lái)說(shuō),目前在單字和詞組一級(jí)上,合成語(yǔ)音的可懂度和自然度已基本解決,但是到句子乃至篇章一級(jí)時(shí)其自然度問(wèn)題就比較大。
比如,國(guó)內(nèi)外大多數(shù)語(yǔ)音合成研究是針對(duì)文語(yǔ)轉(zhuǎn)換系統(tǒng),且只能解決以某種朗讀風(fēng)格將書(shū)面語(yǔ)言轉(zhuǎn)換成口語(yǔ)輸出,缺乏不同年齡、性別特征及語(yǔ)氣、語(yǔ)速的表現(xiàn),更不用說(shuō)賦予個(gè)人的感情色彩。
3、比起聽(tīng)得清和聽(tīng)得懂,“說(shuō)得好”要求的是更懂人
正如上文所提到過(guò)的,目前大部分產(chǎn)品的語(yǔ)音識(shí)別率都達(dá)到了95%以上,卻無(wú)法像人類一樣表達(dá),其根本原因就是還“不懂人”。
何為“懂人”?我們?nèi)伺c人之間可以從對(duì)方的音量、聲調(diào)、語(yǔ)速、用詞等方面聽(tīng)懂對(duì)方的要求、情緒、心情、狀態(tài),這就是所謂的“懂人”。
說(shuō)得直白點(diǎn)就是“情感表達(dá)”,這是目前而言語(yǔ)音合成技術(shù)需要攻克的關(guān)鍵要素。
想要達(dá)成這一目標(biāo),針對(duì)普通生活場(chǎng)景的語(yǔ)音合成是提高情感表達(dá)的最佳方式。目前使用語(yǔ)音合成技術(shù)播報(bào)下天氣或者閱讀簡(jiǎn)訊,無(wú)疑能合成出完美的語(yǔ)音,但遇到生活化的場(chǎng)景,或者在特定氛圍之下,語(yǔ)音合成的效果就會(huì)降低很多。一方面由于系統(tǒng)對(duì)韻律信息的捕獲不準(zhǔn)確,另一方面由于生成的聲學(xué)參數(shù)存在誤差。當(dāng)語(yǔ)音合成可以完美消化各類生活化的語(yǔ)境時(shí),其應(yīng)用場(chǎng)景將得到極大的拓寬。
另外,在語(yǔ)音合成的應(yīng)用中,大多都是單人、單語(yǔ)言、單語(yǔ)音,如何能由單變多也是語(yǔ)音合成應(yīng)用中的一大困擾。在“3單”語(yǔ)境的限制下,語(yǔ)言合成技術(shù)難以完成應(yīng)用突破,而目前一些解決“3單”語(yǔ)境的解決方案也不夠完美,或多或少都存在瑕疵,并且也沒(méi)有足夠的語(yǔ)料素材來(lái)進(jìn)行支撐。
如何使計(jì)算機(jī)算法能夠自適應(yīng)技術(shù)實(shí)現(xiàn)任意說(shuō)話人、不同風(fēng)格的高質(zhì)量語(yǔ)音合成,如何充分挖掘不同語(yǔ)言的發(fā)音空間,在語(yǔ)料受限條件下實(shí)現(xiàn)多語(yǔ)言語(yǔ)音合成,也是語(yǔ)音合成現(xiàn)階段的一大挑戰(zhàn)。
百度地圖在深度神經(jīng)網(wǎng)絡(luò)技術(shù)的支撐下,已經(jīng)開(kāi)始對(duì)“3單”語(yǔ)境作出反應(yīng),并已收到成效,百度語(yǔ)音合成開(kāi)始支持中文英文混讀,可以提供數(shù)十種不同音色,更支持語(yǔ)速、音調(diào)、音量設(shè)置。這些技術(shù)活功能上的增加,無(wú)疑將給語(yǔ)音合成帶來(lái)更加廣闊的想象空間。
近年來(lái),在語(yǔ)音技術(shù)行業(yè)中開(kāi)始流行一句話:“得語(yǔ)音合成者得天下”,百度地圖此時(shí)牽手國(guó)民女神,導(dǎo)航語(yǔ)音全量上線似乎也在卡這個(gè)時(shí)間點(diǎn)。
語(yǔ)音技術(shù)個(gè)性化時(shí)代,百度地圖占領(lǐng)AI地圖高地
地圖從羊皮到紙卷,從PC到手機(jī),其實(shí)一直在隨技術(shù)的進(jìn)步而進(jìn)化。放眼整個(gè)行業(yè),在人工智能浪潮下,百度地圖已經(jīng)走在了前列。語(yǔ)音合成上越來(lái)越講究個(gè)性化,個(gè)性化的需求就無(wú)法繞開(kāi)大數(shù)據(jù)和AI,而在這兩個(gè)方面百度的經(jīng)驗(yàn)正好合適。
1、湯唯女神的定制語(yǔ)音,不止是百度語(yǔ)音合成技術(shù)體現(xiàn)出情感特征的標(biāo)志
賦予合成語(yǔ)音情感,讓合成語(yǔ)音表現(xiàn)出個(gè)性生理、心理等特點(diǎn),是語(yǔ)音合成領(lǐng)域一個(gè)難題。
百度地圖在推出湯唯語(yǔ)音導(dǎo)航的同時(shí),也足以證明其語(yǔ)音組技術(shù)能力的成熟。
神經(jīng)網(wǎng)絡(luò)的模型隨著百度技術(shù)經(jīng)驗(yàn)的積累,也越來(lái)越精巧和高效。湯唯采用的模型,正是百度近期研發(fā)出的高質(zhì)量合成模型,具有很好的音質(zhì),音色還原度和自然度。
讓語(yǔ)音合成具備情感,還要建立多視角情感描述模型,需要描述認(rèn)知、心理、生理等影響因素之間的關(guān)聯(lián)性,再通過(guò)語(yǔ)音頻譜特征表現(xiàn)出來(lái)。并且不能一廂情愿,還需要從用戶的角度模擬不同人群的使用習(xí)慣,偏好等。
而這一系列過(guò)程背后,是一套復(fù)雜且龐大的數(shù)據(jù)系統(tǒng)在支撐,百度之所以能夠完成還得益于百度地圖大數(shù)據(jù)的豐富。目前百度地圖覆蓋了全球209個(gè)國(guó)家及地區(qū)超過(guò)850萬(wàn)公里道路里程,每日響應(yīng)位置服務(wù)近千億次等,這些正是百度語(yǔ)音組在打造語(yǔ)音合成技術(shù)時(shí)的基石。
2、兩款導(dǎo)航語(yǔ)音開(kāi)始滿足個(gè)性化需求,百度地圖AI化已經(jīng)不再只是技術(shù)端
在今年3月,百度地圖事業(yè)部正式并入AI技術(shù)平臺(tái)體系(AIG),不僅是對(duì)其作為基礎(chǔ)性服務(wù)地位的肯定,也意味著百度地圖能夠獲得更直接的AI技術(shù)支持。
依托于整個(gè)百度,百度地圖在AI技術(shù)研發(fā)上處于先發(fā)行列,有著比較全面的AI技術(shù)積累,涵蓋語(yǔ)音、圖像、大數(shù)據(jù)智能等。
而“湯唯迷人語(yǔ)音”和“湯唯常規(guī)語(yǔ)音”兩款導(dǎo)航語(yǔ)音就能直觀體現(xiàn)出百度語(yǔ)音組在韻律模型、聲學(xué)模型預(yù)測(cè)(神經(jīng)網(wǎng)絡(luò)的模型)、彈性單元挑選技術(shù)等技術(shù)上的功力。
從AI技術(shù)應(yīng)用來(lái)看,百度地圖已經(jīng)表現(xiàn)出強(qiáng)大的AI能力,除了能提供實(shí)時(shí)路況、提前規(guī)劃路線,推測(cè)擁堵等智能地圖的“常規(guī)功能”外,百度地圖開(kāi)始提供更加個(gè)性化的交互,例如,AR實(shí)景導(dǎo)航、全景地圖、旅游地圖、充電樁地圖、急救車讓行播報(bào)等個(gè)性化功,這些創(chuàng)新功能不止是聽(tīng)覺(jué)還包括視覺(jué)上。值得一提的是,百度智能地圖還能夠“學(xué)習(xí)”不同路段對(duì)應(yīng)的交規(guī)信息,這一點(diǎn)是極具應(yīng)用價(jià)值的。
由此可見(jiàn),百度地圖AI化已經(jīng)真正意義上實(shí)現(xiàn)了從技術(shù)端走到了應(yīng)用端。
結(jié)論
湯唯女神導(dǎo)航語(yǔ)音對(duì)于百度地圖而言是一個(gè)標(biāo)志性事件,是在AI風(fēng)口下,百度地圖作出的重大變革之一,意味著百度地圖AI能力呈現(xiàn)立體化。
從楊洋到湯唯,百度地圖致力于展現(xiàn)地圖AI的先進(jìn)性,一直不竭余力,智能語(yǔ)音助手作為一個(gè)輔助功能,對(duì)于其他地圖產(chǎn)品的無(wú)足輕重,百度地圖則是高度重視,僅在視覺(jué)提供上,百度地圖的語(yǔ)音助手就一定會(huì)是在最顯眼的位置,并且不止于輔助,百度為語(yǔ)音助手所寄予的是“交互”,充分發(fā)揮導(dǎo)航語(yǔ)音“聽(tīng)”和“說(shuō)”的能力。
如今,百度地圖邀請(qǐng)女神湯唯“獻(xiàn)聲”,無(wú)疑是給百度地圖語(yǔ)音的錦上添花,在打造新一代人工智能地圖上百度地圖又先行一步。
從以前的聽(tīng)清、聽(tīng)懂到滿足,發(fā)展到在滿足之后更有“反饋和應(yīng)變”。在交互方式上也由單一交互變?yōu)榱苏嬲碾p向交互。
同時(shí)在百度地圖“更精準(zhǔn)、更豐富、更易用”的理念基礎(chǔ)上可以再加上一條“更具情感”。
在搶占智能地圖高地上,百度地圖已然領(lǐng)先。
*以上圖片來(lái)源于網(wǎng)絡(luò)。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 這里不止“羊毛月”,少年也在以電商助農(nóng)
- 同仁堂醫(yī)養(yǎng)IPO: “三位一體”診療服務(wù)體系高效協(xié)同 “中醫(yī)+”健康服務(wù)未來(lái)可期
- 國(guó)產(chǎn)手機(jī)大勝,蘋(píng)果銷量大跌,難怪急哄哄降價(jià)千元
- 走出群山,長(zhǎng)賽道“攀登者”vivo
- 三線結(jié)構(gòu)光與升降LDS激光雷達(dá) 石頭自清潔掃拖機(jī)器人G30導(dǎo)航避障新里程
- 石頭科技閃耀CES2025 首創(chuàng)仿生機(jī)械手掃拖機(jī)器人
- TCL華星亮相CES2025,印刷OLED等創(chuàng)新顯示技術(shù)全球吸睛
- 科技云報(bào)到:從大模型到云端,“AI+云計(jì)算”還能講出什么新故事?
- 承載AI的云南花卉,正在盛開(kāi)
- 打造個(gè)人辦公新范式,科大訊飛召開(kāi)辦公智能體產(chǎn)品升級(jí)發(fā)布會(huì)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。