詹姆斯· 弗拉霍斯在《智能語音時代》中有一個大膽的預測:智能語音有可能成為最有感情的技術。
不過在太多人眼中,當下的合成語音很難和情感特征相關聯(lián),韻律表現(xiàn)上不夠靈活,聲音變化上相對死板。幾乎無法讓人相信那些冷冰冰的機械音可以承載豐富的情感,直到百度地圖的一場發(fā)布會。
用戶只需要在百度地圖App上錄制20句話,然后等待15分鐘左右的時間,即可生成有自己聲音特色的個性化語音包。有些預料之外的是,原本被某手機廠商預定的朋友圈,猛然被百度地圖語音定制的截圖刷了屏。
以至于有人在朋友圈中寫下了這樣一句話:充滿“人氣”的導航語音定制,正在打破語音時代的“花園圍墻”。
只要20分鐘,聽見自己的聲音
作為對新技術永遠有著嘗鮮欲望的泛極客,我在第一時間去AppStore更新了最新版的百度地圖,滿懷期待地錄制了自己的語音包。為了方便大家對“語音定制功能”的理解,這里將整個體驗分為三個過程:
第一步,錄制環(huán)境的準備。
語音導航早已不是什么新事物,之所以在過去那么長時間里沒有出現(xiàn)個性化定制的語音包,最大的門檻就在于錄制條件:首先要找到一個專業(yè)的錄音棚,然后錄制上萬句導航文本,最后花上半年的時間進行處理。即便是定制化的明星語音包,也需要在通用語音庫的基礎上錄制一兩千句語音,大概要在錄音棚里待兩個禮拜的時間,再花兩個月的時間用語音技術生成語音包。
“想要定制自己的導航語音,要么你爸爸是王健林,要么你自己是王思聰?!贝蟾啪褪呛芏嗳藢φZ音定制的原始印象。
但在最新版的百度地圖App中,只需要語音喚醒“小度小度”后說“錄制我的語音”,或者在個人中心中找到“語音定制”的按鈕,即可進入到語音定制的界面。不需要跑到專業(yè)的錄音棚中,只要不是那么嘈雜的環(huán)境,達到系統(tǒng)自動檢測的噪音標準后,即可在手機上定制屬于自己的語音包。
第二步,語音定制的過程。
進入語音定制的界面后,百度地圖提供了個性化的選擇,在性別上可以選擇男聲、女聲以及童聲女和童聲男,可供選擇的錄制文本包括推薦文本、卡通文本、電影臺詞和超短文本。比較貼心的是,卡通文本中可以看到《喜羊羊與灰太狼》、《超級飛俠》、小豬佩奇等時下熱門動畫片的臺詞,并且在朗讀文本前設定了“自動跟讀”,針對兒童群體進行了一系列細節(jié)上的打磨優(yōu)化。
占用5分鐘的時間錄制20句左右的文本,然后等待15分鐘上下的時間進行云端語音處理,即可下載自己專屬的語音包。
簡單的對比即可以發(fā)現(xiàn),百度地圖已然最大程度的降低了語音定制的門檻,原本動輒幾個月的語音包生產過程,被壓縮到幾分鐘的時間,重新定義語音包生產模式的同時,也讓語音定制進一步普惠化。不再局限在幾個明星的語音包,人人都可以是“大明星”。
第三步,場景體驗的感受。
市面上并不缺少商用語音合成的產品和服務,但絕大多數(shù)都是構建在傳統(tǒng)的TTS框架上,至于語音合成的效果,往往少不了合成語音的機械感。
關于百度地圖“語音定制”的體驗,最大的感受就是驚艷。
首先在音色上,合成語音和原始聲音的相似度在90%以上,或許一些實驗室里可以做到95%左右的水平,考慮到百度地圖的規(guī)?;瘧?,這樣的成績已經足夠令人興奮。同樣讓人驚嘆的是,僅僅錄制了20個短句,有個人特色的短句方式被完美保留,比如我在讀一個長句時習慣在中間進行停頓,百度地圖的語音包中精準呈現(xiàn)了這一細節(jié)。
其次在場景上,本以為只是應用在路線導航的特定場景中,在使用自己的語音包后,每次在百度地圖中喚醒“小度小度”,聽到的居然是自己的聲音,進一步深入體驗后發(fā)現(xiàn)定制的語音包可以在景區(qū)智能語音導覽、智能語音交互、導航等全部場景使用。
不客氣地說,如果Siri的出現(xiàn)開啟了語音助理的時代,百度地圖的“語音定制功能”開啟了智能語音規(guī)?;瘧玫南群?。告別冷冰冰的機械感,自然、有情感、高表現(xiàn)力的聲音,將是語音技術進一步在生活中滲透的開始。
7年技術打磨,語音合成的進階
羅馬不是一天建成的,語音技術也是如此。
原先幾個月才能搞定的語音包,百度為何在15分鐘的時間內完成,百度語音首席架構師賈磊在百度地圖的發(fā)布會上進行了“揭秘”:
先來熟悉下百度在語音技術上的深耕,也許是讀懂百度語音合成技術躍遷的關鍵。
我在之前的文章中梳理過語音識別的進化簡史,比如百度2012年開始把深度學習技術DNN技術用于語音搜索,2013年開始基于CNN模型進行研究,2015年初推出基于LSTM –HMM的語音識別,年底發(fā)展出基于LSTM-CTC的端對端語音識別系統(tǒng),今年1月份又發(fā)布了流式多級的截斷注意力模型……
其實百度的語音技術進化還存在另一條曲線,即語音合成技術的創(chuàng)新進化史。2013年就已啟動TSS研發(fā),2014年實現(xiàn)了HTS離線參數(shù)合成,2016年在基于深度學習的語音合成產品落地上持續(xù)發(fā)力,并打造了世界上第一個能在云端提供大規(guī)模WaveRNN實時語音合成服務的系統(tǒng)……
僅以WaveRNN技術為例,傳統(tǒng)的RNN技術是單點遞推的,只有計算完當前的音頻點,才能計算下一個音頻點,而百度創(chuàng)新的并行WaveRNN技術,可以把一句話分成若干個音節(jié),每個音節(jié)同時并行合成,從而實現(xiàn)了WaveRNN技術可以線上大規(guī)模使用,為語音合成的商業(yè)化應用奠定了基礎。
當然作為普通的“吃瓜群眾”,我們無須熟知上述提到的專有名詞,在討論百度地圖的語音定制功能時,還要從百度獨創(chuàng)的風格遷移技術Meitron模型說起,特點主要體現(xiàn)在音色轉換、多情感朗讀和韻律遷移三個方面。
關于“音色轉換”可能很多人并不陌生,在動畫片《名偵探柯南》中,柯南正是通過胸口的“蝴蝶結變聲器”模仿其他人的聲音?,F(xiàn)實中的“音色轉換”少了些魔法的光環(huán),需要收集大量的聲音數(shù)據(jù),生成訓練模型,再通過個性化的學習完成音色的變換。但在百度的Meitron模型中,可以利用少量語音快速合成一個人的專屬音庫。
“多情感朗讀”顧名思義就是讓合成語音擁有自然、有情感的聲音,常見的思路是從說話人的情感語音語料中獲得平均音模型,對說話人的情感說句進行自適應變換,構建目標情感的聲學參數(shù)模型,繼而合成出目標說話人的情感語音效果。同樣的,Meitron模型減少了語音庫中的個體差異,只需要少量語料,就能在合成的語音中注入不同的情感。
“韻律遷移”通俗的說就是一個人的聲音可以講出不同風格的文本,比如一個人說話時的音調、音節(jié)、停頓等,目的是讓合成語音正確表達語義,聽起來更加自然。倘若缺少韻律前移模型,無法無法精確控制語音的發(fā)聲,語音的表現(xiàn)力和自然地也就無從談起。百度地圖的“語音定制功能”之所以可以實現(xiàn)個性化的語音合成,與“韻律遷移”方面的方面的深厚積累無不關系。
從時間上來看,百度并非是第一家進行語音合成研究的公司,然而百度地圖“語音定制”的國民級應用,無疑闡述了這樣一個事實:那些動輒需要幾十個小時的語音采集,消耗幾個月的時間進行拼接合成的語音技術已經過時,在人工智能技術的賦能下,語音合成技術正在創(chuàng)造無限可能。
分鐘級語音定制,開啟大生產時代
在體驗和技術之外,不應該被忽略的是,百度地圖選擇在這個時間點上線“語音定制功能”,本質上在于解決了兩個棘手問題:
一是語音合成技術本身,業(yè)已實現(xiàn)了核心技術的突破,以及與工業(yè)級應用的結合;
二是語音合成的成本控制,百度深度學習平臺飛槳實現(xiàn)了純端側的廉價GPU部署,無疑是個性化語音合成技術規(guī)?;涞氐年P鍵。
由此來看,百度語音技術的想象空間遠沒有局限在百度地圖的個性化語音包上,開始從積累和沉淀進入商業(yè)化的爆發(fā)期。
就應用場景而言,除了導航語音之外,電子閱讀、智能硬件、智能音箱、機器人等都將是個性化語音的潛在市場。特別是即將到來的5G時代,或將有上百億臺設備入網(wǎng),作為萬物互聯(lián)以及AIoT的一個重要入口,智能語音賽道終將成為搜索、電商、社交之外的下一個“現(xiàn)金奶?!?。
就情感維系來說,鍵盤、觸控乃至現(xiàn)階段的語音,以往的人機交互都是效率主導的,在很大程度上缺少了人情味兒,但百度的個性化語音定制已經釋放了積極的信號,語音不僅是高效的交互方式,也是情感的載體,人類與機器之間的隔閡勢必會進一步縮小,取而代之的是親和力。
同時對于百度這樣的互聯(lián)網(wǎng)巨頭而言,過去幾十年中的技術深耕,注定會在人工智能進入大生產時代時一步步變現(xiàn)。
作者 | Alter 公眾號 | Alter聊IT
作者系獨立撰稿人,微信號imhefei
鈦媒體2018十大作者
品途商業(yè)評論2018十佳專欄作者
百家號千分好文出彩創(chuàng)作者
人人都是產品經理年度作者
入駐虎嗅、創(chuàng)業(yè)邦、界面等50余家科技媒體
免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。
免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。