詹姆斯· 弗拉霍斯在《智能語音時(shí)代》中有一個(gè)大膽的預(yù)測:智能語音有可能成為最有感情的技術(shù)。
不過在太多人眼中,當(dāng)下的合成語音很難和情感特征相關(guān)聯(lián),韻律表現(xiàn)上不夠靈活,聲音變化上相對死板。幾乎無法讓人相信那些冷冰冰的機(jī)械音可以承載豐富的情感,直到百度地圖的一場發(fā)布會(huì)。
用戶只需要在百度地圖App上錄制20句話,然后等待15分鐘左右的時(shí)間,即可生成有自己聲音特色的個(gè)性化語音包。有些預(yù)料之外的是,原本被某手機(jī)廠商預(yù)定的朋友圈,猛然被百度地圖語音定制的截圖刷了屏。
以至于有人在朋友圈中寫下了這樣一句話:充滿“人氣”的導(dǎo)航語音定制,正在打破語音時(shí)代的“花園圍墻”。
只要20分鐘,聽見自己的聲音
作為對新技術(shù)永遠(yuǎn)有著嘗鮮欲望的泛極客,我在第一時(shí)間去AppStore更新了最新版的百度地圖,滿懷期待地錄制了自己的語音包。為了方便大家對“語音定制功能”的理解,這里將整個(gè)體驗(yàn)分為三個(gè)過程:
第一步,錄制環(huán)境的準(zhǔn)備。
語音導(dǎo)航早已不是什么新事物,之所以在過去那么長時(shí)間里沒有出現(xiàn)個(gè)性化定制的語音包,最大的門檻就在于錄制條件:首先要找到一個(gè)專業(yè)的錄音棚,然后錄制上萬句導(dǎo)航文本,最后花上半年的時(shí)間進(jìn)行處理。即便是定制化的明星語音包,也需要在通用語音庫的基礎(chǔ)上錄制一兩千句語音,大概要在錄音棚里待兩個(gè)禮拜的時(shí)間,再花兩個(gè)月的時(shí)間用語音技術(shù)生成語音包。
“想要定制自己的導(dǎo)航語音,要么你爸爸是王健林,要么你自己是王思聰。”大概就是很多人對語音定制的原始印象。
但在最新版的百度地圖App中,只需要語音喚醒“小度小度”后說“錄制我的語音”,或者在個(gè)人中心中找到“語音定制”的按鈕,即可進(jìn)入到語音定制的界面。不需要跑到專業(yè)的錄音棚中,只要不是那么嘈雜的環(huán)境,達(dá)到系統(tǒng)自動(dòng)檢測的噪音標(biāo)準(zhǔn)后,即可在手機(jī)上定制屬于自己的語音包。
第二步,語音定制的過程。
進(jìn)入語音定制的界面后,百度地圖提供了個(gè)性化的選擇,在性別上可以選擇男聲、女聲以及童聲女和童聲男,可供選擇的錄制文本包括推薦文本、卡通文本、電影臺(tái)詞和超短文本。比較貼心的是,卡通文本中可以看到《喜羊羊與灰太狼》、《超級(jí)飛俠》、小豬佩奇等時(shí)下熱門動(dòng)畫片的臺(tái)詞,并且在朗讀文本前設(shè)定了“自動(dòng)跟讀”,針對兒童群體進(jìn)行了一系列細(xì)節(jié)上的打磨優(yōu)化。
占用5分鐘的時(shí)間錄制20句左右的文本,然后等待15分鐘上下的時(shí)間進(jìn)行云端語音處理,即可下載自己專屬的語音包。
簡單的對比即可以發(fā)現(xiàn),百度地圖已然最大程度的降低了語音定制的門檻,原本動(dòng)輒幾個(gè)月的語音包生產(chǎn)過程,被壓縮到幾分鐘的時(shí)間,重新定義語音包生產(chǎn)模式的同時(shí),也讓語音定制進(jìn)一步普惠化。不再局限在幾個(gè)明星的語音包,人人都可以是“大明星”。
第三步,場景體驗(yàn)的感受。
市面上并不缺少商用語音合成的產(chǎn)品和服務(wù),但絕大多數(shù)都是構(gòu)建在傳統(tǒng)的TTS框架上,至于語音合成的效果,往往少不了合成語音的機(jī)械感。
關(guān)于百度地圖“語音定制”的體驗(yàn),最大的感受就是驚艷。
首先在音色上,合成語音和原始聲音的相似度在90%以上,或許一些實(shí)驗(yàn)室里可以做到95%左右的水平,考慮到百度地圖的規(guī)?;瘧?yīng)用,這樣的成績已經(jīng)足夠令人興奮。同樣讓人驚嘆的是,僅僅錄制了20個(gè)短句,有個(gè)人特色的短句方式被完美保留,比如我在讀一個(gè)長句時(shí)習(xí)慣在中間進(jìn)行停頓,百度地圖的語音包中精準(zhǔn)呈現(xiàn)了這一細(xì)節(jié)。
其次在場景上,本以為只是應(yīng)用在路線導(dǎo)航的特定場景中,在使用自己的語音包后,每次在百度地圖中喚醒“小度小度”,聽到的居然是自己的聲音,進(jìn)一步深入體驗(yàn)后發(fā)現(xiàn)定制的語音包可以在景區(qū)智能語音導(dǎo)覽、智能語音交互、導(dǎo)航等全部場景使用。
不客氣地說,如果Siri的出現(xiàn)開啟了語音助理的時(shí)代,百度地圖的“語音定制功能”開啟了智能語音規(guī)?;瘧?yīng)用的先河。告別冷冰冰的機(jī)械感,自然、有情感、高表現(xiàn)力的聲音,將是語音技術(shù)進(jìn)一步在生活中滲透的開始。
7年技術(shù)打磨,語音合成的進(jìn)階
羅馬不是一天建成的,語音技術(shù)也是如此。
原先幾個(gè)月才能搞定的語音包,百度為何在15分鐘的時(shí)間內(nèi)完成,百度語音首席架構(gòu)師賈磊在百度地圖的發(fā)布會(huì)上進(jìn)行了“揭秘”:
先來熟悉下百度在語音技術(shù)上的深耕,也許是讀懂百度語音合成技術(shù)躍遷的關(guān)鍵。
我在之前的文章中梳理過語音識(shí)別的進(jìn)化簡史,比如百度2012年開始把深度學(xué)習(xí)技術(shù)DNN技術(shù)用于語音搜索,2013年開始基于CNN模型進(jìn)行研究,2015年初推出基于LSTM –HMM的語音識(shí)別,年底發(fā)展出基于LSTM-CTC的端對端語音識(shí)別系統(tǒng),今年1月份又發(fā)布了流式多級(jí)的截?cái)嘧⒁饬δP汀?/p>
其實(shí)百度的語音技術(shù)進(jìn)化還存在另一條曲線,即語音合成技術(shù)的創(chuàng)新進(jìn)化史。2013年就已啟動(dòng)TSS研發(fā),2014年實(shí)現(xiàn)了HTS離線參數(shù)合成,2016年在基于深度學(xué)習(xí)的語音合成產(chǎn)品落地上持續(xù)發(fā)力,并打造了世界上第一個(gè)能在云端提供大規(guī)模WaveRNN實(shí)時(shí)語音合成服務(wù)的系統(tǒng)……
僅以WaveRNN技術(shù)為例,傳統(tǒng)的RNN技術(shù)是單點(diǎn)遞推的,只有計(jì)算完當(dāng)前的音頻點(diǎn),才能計(jì)算下一個(gè)音頻點(diǎn),而百度創(chuàng)新的并行WaveRNN技術(shù),可以把一句話分成若干個(gè)音節(jié),每個(gè)音節(jié)同時(shí)并行合成,從而實(shí)現(xiàn)了WaveRNN技術(shù)可以線上大規(guī)模使用,為語音合成的商業(yè)化應(yīng)用奠定了基礎(chǔ)。
當(dāng)然作為普通的“吃瓜群眾”,我們無須熟知上述提到的專有名詞,在討論百度地圖的語音定制功能時(shí),還要從百度獨(dú)創(chuàng)的風(fēng)格遷移技術(shù)Meitron模型說起,特點(diǎn)主要體現(xiàn)在音色轉(zhuǎn)換、多情感朗讀和韻律遷移三個(gè)方面。
關(guān)于“音色轉(zhuǎn)換”可能很多人并不陌生,在動(dòng)畫片《名偵探柯南》中,柯南正是通過胸口的“蝴蝶結(jié)變聲器”模仿其他人的聲音?,F(xiàn)實(shí)中的“音色轉(zhuǎn)換”少了些魔法的光環(huán),需要收集大量的聲音數(shù)據(jù),生成訓(xùn)練模型,再通過個(gè)性化的學(xué)習(xí)完成音色的變換。但在百度的Meitron模型中,可以利用少量語音快速合成一個(gè)人的專屬音庫。
“多情感朗讀”顧名思義就是讓合成語音擁有自然、有情感的聲音,常見的思路是從說話人的情感語音語料中獲得平均音模型,對說話人的情感說句進(jìn)行自適應(yīng)變換,構(gòu)建目標(biāo)情感的聲學(xué)參數(shù)模型,繼而合成出目標(biāo)說話人的情感語音效果。同樣的,Meitron模型減少了語音庫中的個(gè)體差異,只需要少量語料,就能在合成的語音中注入不同的情感。
“韻律遷移”通俗的說就是一個(gè)人的聲音可以講出不同風(fēng)格的文本,比如一個(gè)人說話時(shí)的音調(diào)、音節(jié)、停頓等,目的是讓合成語音正確表達(dá)語義,聽起來更加自然。倘若缺少韻律前移模型,無法無法精確控制語音的發(fā)聲,語音的表現(xiàn)力和自然地也就無從談起。百度地圖的“語音定制功能”之所以可以實(shí)現(xiàn)個(gè)性化的語音合成,與“韻律遷移”方面的方面的深厚積累無不關(guān)系。
從時(shí)間上來看,百度并非是第一家進(jìn)行語音合成研究的公司,然而百度地圖“語音定制”的國民級(jí)應(yīng)用,無疑闡述了這樣一個(gè)事實(shí):那些動(dòng)輒需要幾十個(gè)小時(shí)的語音采集,消耗幾個(gè)月的時(shí)間進(jìn)行拼接合成的語音技術(shù)已經(jīng)過時(shí),在人工智能技術(shù)的賦能下,語音合成技術(shù)正在創(chuàng)造無限可能。
分鐘級(jí)語音定制,開啟大生產(chǎn)時(shí)代
在體驗(yàn)和技術(shù)之外,不應(yīng)該被忽略的是,百度地圖選擇在這個(gè)時(shí)間點(diǎn)上線“語音定制功能”,本質(zhì)上在于解決了兩個(gè)棘手問題:
一是語音合成技術(shù)本身,業(yè)已實(shí)現(xiàn)了核心技術(shù)的突破,以及與工業(yè)級(jí)應(yīng)用的結(jié)合;
二是語音合成的成本控制,百度深度學(xué)習(xí)平臺(tái)飛槳實(shí)現(xiàn)了純端側(cè)的廉價(jià)GPU部署,無疑是個(gè)性化語音合成技術(shù)規(guī)?;涞氐年P(guān)鍵。
由此來看,百度語音技術(shù)的想象空間遠(yuǎn)沒有局限在百度地圖的個(gè)性化語音包上,開始從積累和沉淀進(jìn)入商業(yè)化的爆發(fā)期。
就應(yīng)用場景而言,除了導(dǎo)航語音之外,電子閱讀、智能硬件、智能音箱、機(jī)器人等都將是個(gè)性化語音的潛在市場。特別是即將到來的5G時(shí)代,或?qū)⒂猩习賰|臺(tái)設(shè)備入網(wǎng),作為萬物互聯(lián)以及AIoT的一個(gè)重要入口,智能語音賽道終將成為搜索、電商、社交之外的下一個(gè)“現(xiàn)金奶?!?。
就情感維系來說,鍵盤、觸控乃至現(xiàn)階段的語音,以往的人機(jī)交互都是效率主導(dǎo)的,在很大程度上缺少了人情味兒,但百度的個(gè)性化語音定制已經(jīng)釋放了積極的信號(hào),語音不僅是高效的交互方式,也是情感的載體,人類與機(jī)器之間的隔閡勢必會(huì)進(jìn)一步縮小,取而代之的是親和力。
同時(shí)對于百度這樣的互聯(lián)網(wǎng)巨頭而言,過去幾十年中的技術(shù)深耕,注定會(huì)在人工智能進(jìn)入大生產(chǎn)時(shí)代時(shí)一步步變現(xiàn)。
作者 | Alter 公眾號(hào) | Alter聊IT
作者系獨(dú)立撰稿人,微信號(hào)imhefei
鈦媒體2018十大作者
品途商業(yè)評(píng)論2018十佳專欄作者
百家號(hào)千分好文出彩創(chuàng)作者
人人都是產(chǎn)品經(jīng)理年度作者
入駐虎嗅、創(chuàng)業(yè)邦、界面等50余家科技媒體
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 華為研發(fā)中心入駐上海青浦致小鎮(zhèn)房租大漲,帶動(dòng)周邊租房市場熱潮
- 華為員工涌入蘇滬兩地,房東狂歡:租金幾近翻倍,跨省租房成新常態(tài)
- 制造業(yè)巨頭空客計(jì)劃裁員2500人,應(yīng)對航天業(yè)務(wù)虧損與供應(yīng)鏈挑戰(zhàn)
- 科技創(chuàng)新引領(lǐng)產(chǎn)業(yè)發(fā)展:江陰市與清華大學(xué)攜手推進(jìn)重大科技項(xiàng)目
- 美國或再升級(jí)出口管制:考慮限制AI芯片對中東出口
- 劉強(qiáng)東章澤天報(bào)案:京東發(fā)言人證實(shí)夫婦倆遭有組織造謠,警方已介入
- 東方甄選擬15億出售教育業(yè)務(wù)
- 虧764億上熱搜 蔚來裁員10%,銷量跌出前三
- IBM設(shè)立5億元AI創(chuàng)投基金
- 聯(lián)想發(fā)布 ThinkStation P8工作站
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。