蜜月av影院在线免费观看,精品裸体舞一区二区三区

詹姆斯· 弗拉霍斯在《智能語(yǔ)音時(shí)代》中有一個(gè)大膽的預(yù)測(cè)：智能語(yǔ)音有可能成為最有感情的技術(shù)。

不過(guò)在太多人眼中，當(dāng)下的合成語(yǔ)音很難和情感特征相關(guān)聯(lián)，韻律表現(xiàn)上不夠靈活，聲音變化上相對(duì)死板。幾乎無(wú)法讓人相信那些冷冰冰的機(jī)械音可以承載豐富的情感，直到百度地圖的一場(chǎng)發(fā)布會(huì)。

用戶(hù)只需要在百度地圖App上錄制20句話(huà)，然后等待15分鐘左右的時(shí)間，即可生成有自己聲音特色的個(gè)性化語(yǔ)音包。有些預(yù)料之外的是，原本被某手機(jī)廠(chǎng)商預(yù)定的朋友圈，猛然被百度地圖語(yǔ)音定制的截圖刷了屏。

以至于有人在朋友圈中寫(xiě)下了這樣一句話(huà)：充滿(mǎn)“人氣”的導(dǎo)航語(yǔ)音定制，正在打破語(yǔ)音時(shí)代的“花園圍墻”。

只要20分鐘，聽(tīng)見(jiàn)自己的聲音

作為對(duì)新技術(shù)永遠(yuǎn)有著嘗鮮欲望的泛極客，我在第一時(shí)間去AppStore更新了最新版的百度地圖，滿(mǎn)懷期待地錄制了自己的語(yǔ)音包。為了方便大家對(duì)“語(yǔ)音定制功能”的理解，這里將整個(gè)體驗(yàn)分為三個(gè)過(guò)程：

第一步，錄制環(huán)境的準(zhǔn)備。

語(yǔ)音導(dǎo)航早已不是什么新事物，之所以在過(guò)去那么長(zhǎng)時(shí)間里沒(méi)有出現(xiàn)個(gè)性化定制的語(yǔ)音包，最大的門(mén)檻就在于錄制條件：首先要找到一個(gè)專(zhuān)業(yè)的錄音棚，然后錄制上萬(wàn)句導(dǎo)航文本，最后花上半年的時(shí)間進(jìn)行處理。即便是定制化的明星語(yǔ)音包，也需要在通用語(yǔ)音庫(kù)的基礎(chǔ)上錄制一兩千句語(yǔ)音，大概要在錄音棚里待兩個(gè)禮拜的時(shí)間，再花兩個(gè)月的時(shí)間用語(yǔ)音技術(shù)生成語(yǔ)音包。

“想要定制自己的導(dǎo)航語(yǔ)音，要么你爸爸是王健林，要么你自己是王思聰?！贝蟾啪褪呛芏嗳藢?duì)語(yǔ)音定制的原始印象。

但在最新版的百度地圖App中，只需要語(yǔ)音喚醒“小度小度”后說(shuō)“錄制我的語(yǔ)音”，或者在個(gè)人中心中找到“語(yǔ)音定制”的按鈕，即可進(jìn)入到語(yǔ)音定制的界面。不需要跑到專(zhuān)業(yè)的錄音棚中，只要不是那么嘈雜的環(huán)境，達(dá)到系統(tǒng)自動(dòng)檢測(cè)的噪音標(biāo)準(zhǔn)后，即可在手機(jī)上定制屬于自己的語(yǔ)音包。

第二步，語(yǔ)音定制的過(guò)程。

進(jìn)入語(yǔ)音定制的界面后，百度地圖提供了個(gè)性化的選擇，在性別上可以選擇男聲、女聲以及童聲女和童聲男，可供選擇的錄制文本包括推薦文本、卡通文本、電影臺(tái)詞和超短文本。比較貼心的是，卡通文本中可以看到《喜羊羊與灰太狼》、《超級(jí)飛俠》、小豬佩奇等時(shí)下熱門(mén)動(dòng)畫(huà)片的臺(tái)詞，并且在朗讀文本前設(shè)定了“自動(dòng)跟讀”，針對(duì)兒童群體進(jìn)行了一系列細(xì)節(jié)上的打磨優(yōu)化。

占用5分鐘的時(shí)間錄制20句左右的文本，然后等待15分鐘上下的時(shí)間進(jìn)行云端語(yǔ)音處理，即可下載自己專(zhuān)屬的語(yǔ)音包。

簡(jiǎn)單的對(duì)比即可以發(fā)現(xiàn)，百度地圖已然最大程度的降低了語(yǔ)音定制的門(mén)檻，原本動(dòng)輒幾個(gè)月的語(yǔ)音包生產(chǎn)過(guò)程，被壓縮到幾分鐘的時(shí)間，重新定義語(yǔ)音包生產(chǎn)模式的同時(shí)，也讓語(yǔ)音定制進(jìn)一步普惠化。不再局限在幾個(gè)明星的語(yǔ)音包，人人都可以是“大明星”。

第三步，場(chǎng)景體驗(yàn)的感受。

市面上并不缺少商用語(yǔ)音合成的產(chǎn)品和服務(wù)，但絕大多數(shù)都是構(gòu)建在傳統(tǒng)的TTS框架上，至于語(yǔ)音合成的效果，往往少不了合成語(yǔ)音的機(jī)械感。

關(guān)于百度地圖“語(yǔ)音定制”的體驗(yàn)，最大的感受就是驚艷。

首先在音色上，合成語(yǔ)音和原始聲音的相似度在90%以上，或許一些實(shí)驗(yàn)室里可以做到95%左右的水平，考慮到百度地圖的規(guī)?；瘧?yīng)用，這樣的成績(jī)已經(jīng)足夠令人興奮。同樣讓人驚嘆的是，僅僅錄制了20個(gè)短句，有個(gè)人特色的短句方式被完美保留，比如我在讀一個(gè)長(zhǎng)句時(shí)習(xí)慣在中間進(jìn)行停頓，百度地圖的語(yǔ)音包中精準(zhǔn)呈現(xiàn)了這一細(xì)節(jié)。

其次在場(chǎng)景上，本以為只是應(yīng)用在路線(xiàn)導(dǎo)航的特定場(chǎng)景中，在使用自己的語(yǔ)音包后，每次在百度地圖中喚醒“小度小度”，聽(tīng)到的居然是自己的聲音，進(jìn)一步深入體驗(yàn)后發(fā)現(xiàn)定制的語(yǔ)音包可以在景區(qū)智能語(yǔ)音導(dǎo)覽、智能語(yǔ)音交互、導(dǎo)航等全部場(chǎng)景使用。

不客氣地說(shuō)，如果Siri的出現(xiàn)開(kāi)啟了語(yǔ)音助理的時(shí)代，百度地圖的“語(yǔ)音定制功能”開(kāi)啟了智能語(yǔ)音規(guī)?；瘧?yīng)用的先河。告別冷冰冰的機(jī)械感，自然、有情感、高表現(xiàn)力的聲音，將是語(yǔ)音技術(shù)進(jìn)一步在生活中滲透的開(kāi)始。

7年技術(shù)打磨，語(yǔ)音合成的進(jìn)階

羅馬不是一天建成的，語(yǔ)音技術(shù)也是如此。

原先幾個(gè)月才能搞定的語(yǔ)音包，百度為何在15分鐘的時(shí)間內(nèi)完成，百度語(yǔ)音首席架構(gòu)師賈磊在百度地圖的發(fā)布會(huì)上進(jìn)行了“揭秘”：

先來(lái)熟悉下百度在語(yǔ)音技術(shù)上的深耕，也許是讀懂百度語(yǔ)音合成技術(shù)躍遷的關(guān)鍵。

我在之前的文章中梳理過(guò)語(yǔ)音識(shí)別的進(jìn)化簡(jiǎn)史，比如百度2012年開(kāi)始把深度學(xué)習(xí)技術(shù)DNN技術(shù)用于語(yǔ)音搜索，2013年開(kāi)始基于CNN模型進(jìn)行研究，2015年初推出基于LSTM –HMM的語(yǔ)音識(shí)別，年底發(fā)展出基于LSTM-CTC的端對(duì)端語(yǔ)音識(shí)別系統(tǒng)，今年1月份又發(fā)布了流式多級(jí)的截?cái)嘧⒁饬δＰ汀?/p>

其實(shí)百度的語(yǔ)音技術(shù)進(jìn)化還存在另一條曲線(xiàn)，即語(yǔ)音合成技術(shù)的創(chuàng)新進(jìn)化史。2013年就已啟動(dòng)TSS研發(fā)，2014年實(shí)現(xiàn)了HTS離線(xiàn)參數(shù)合成，2016年在基于深度學(xué)習(xí)的語(yǔ)音合成產(chǎn)品落地上持續(xù)發(fā)力，并打造了世界上第一個(gè)能在云端提供大規(guī)模WaveRNN實(shí)時(shí)語(yǔ)音合成服務(wù)的系統(tǒng)……

僅以WaveRNN技術(shù)為例，傳統(tǒng)的RNN技術(shù)是單點(diǎn)遞推的，只有計(jì)算完當(dāng)前的音頻點(diǎn)，才能計(jì)算下一個(gè)音頻點(diǎn)，而百度創(chuàng)新的并行WaveRNN技術(shù)，可以把一句話(huà)分成若干個(gè)音節(jié)，每個(gè)音節(jié)同時(shí)并行合成，從而實(shí)現(xiàn)了WaveRNN技術(shù)可以線(xiàn)上大規(guī)模使用，為語(yǔ)音合成的商業(yè)化應(yīng)用奠定了基礎(chǔ)。

當(dāng)然作為普通的“吃瓜群眾”，我們無(wú)須熟知上述提到的專(zhuān)有名詞，在討論百度地圖的語(yǔ)音定制功能時(shí)，還要從百度獨(dú)創(chuàng)的風(fēng)格遷移技術(shù)Meitron模型說(shuō)起，特點(diǎn)主要體現(xiàn)在音色轉(zhuǎn)換、多情感朗讀和韻律遷移三個(gè)方面。

關(guān)于“音色轉(zhuǎn)換”可能很多人并不陌生，在動(dòng)畫(huà)片《名偵探柯南》中，柯南正是通過(guò)胸口的“蝴蝶結(jié)變聲器”模仿其他人的聲音?，F(xiàn)實(shí)中的“音色轉(zhuǎn)換”少了些魔法的光環(huán)，需要收集大量的聲音數(shù)據(jù)，生成訓(xùn)練模型，再通過(guò)個(gè)性化的學(xué)習(xí)完成音色的變換。但在百度的Meitron模型中,可以利用少量語(yǔ)音快速合成一個(gè)人的專(zhuān)屬音庫(kù)。

“多情感朗讀”顧名思義就是讓合成語(yǔ)音擁有自然、有情感的聲音，常見(jiàn)的思路是從說(shuō)話(huà)人的情感語(yǔ)音語(yǔ)料中獲得平均音模型，對(duì)說(shuō)話(huà)人的情感說(shuō)句進(jìn)行自適應(yīng)變換，構(gòu)建目標(biāo)情感的聲學(xué)參數(shù)模型，繼而合成出目標(biāo)說(shuō)話(huà)人的情感語(yǔ)音效果。同樣的，Meitron模型減少了語(yǔ)音庫(kù)中的個(gè)體差異，只需要少量語(yǔ)料，就能在合成的語(yǔ)音中注入不同的情感。

“韻律遷移”通俗的說(shuō)就是一個(gè)人的聲音可以講出不同風(fēng)格的文本，比如一個(gè)人說(shuō)話(huà)時(shí)的音調(diào)、音節(jié)、停頓等，目的是讓合成語(yǔ)音正確表達(dá)語(yǔ)義，聽(tīng)起來(lái)更加自然。倘若缺少韻律前移模型，無(wú)法無(wú)法精確控制語(yǔ)音的發(fā)聲，語(yǔ)音的表現(xiàn)力和自然地也就無(wú)從談起。百度地圖的“語(yǔ)音定制功能”之所以可以實(shí)現(xiàn)個(gè)性化的語(yǔ)音合成，與“韻律遷移”方面的方面的深厚積累無(wú)不關(guān)系。

從時(shí)間上來(lái)看，百度并非是第一家進(jìn)行語(yǔ)音合成研究的公司，然而百度地圖“語(yǔ)音定制”的國(guó)民級(jí)應(yīng)用，無(wú)疑闡述了這樣一個(gè)事實(shí)：那些動(dòng)輒需要幾十個(gè)小時(shí)的語(yǔ)音采集，消耗幾個(gè)月的時(shí)間進(jìn)行拼接合成的語(yǔ)音技術(shù)已經(jīng)過(guò)時(shí)，在人工智能技術(shù)的賦能下，語(yǔ)音合成技術(shù)正在創(chuàng)造無(wú)限可能。

分鐘級(jí)語(yǔ)音定制，開(kāi)啟大生產(chǎn)時(shí)代

在體驗(yàn)和技術(shù)之外，不應(yīng)該被忽略的是，百度地圖選擇在這個(gè)時(shí)間點(diǎn)上線(xiàn)“語(yǔ)音定制功能”，本質(zhì)上在于解決了兩個(gè)棘手問(wèn)題：

一是語(yǔ)音合成技術(shù)本身，業(yè)已實(shí)現(xiàn)了核心技術(shù)的突破，以及與工業(yè)級(jí)應(yīng)用的結(jié)合；

二是語(yǔ)音合成的成本控制，百度深度學(xué)習(xí)平臺(tái)飛槳實(shí)現(xiàn)了純端側(cè)的廉價(jià)GPU部署，無(wú)疑是個(gè)性化語(yǔ)音合成技術(shù)規(guī)模化落地的關(guān)鍵。

由此來(lái)看，百度語(yǔ)音技術(shù)的想象空間遠(yuǎn)沒(méi)有局限在百度地圖的個(gè)性化語(yǔ)音包上，開(kāi)始從積累和沉淀進(jìn)入商業(yè)化的爆發(fā)期。

就應(yīng)用場(chǎng)景而言，除了導(dǎo)航語(yǔ)音之外，電子閱讀、智能硬件、智能音箱、機(jī)器人等都將是個(gè)性化語(yǔ)音的潛在市場(chǎng)。特別是即將到來(lái)的5G時(shí)代，或?qū)⒂猩习賰|臺(tái)設(shè)備入網(wǎng)，作為萬(wàn)物互聯(lián)以及AIoT的一個(gè)重要入口，智能語(yǔ)音賽道終將成為搜索、電商、社交之外的下一個(gè)“現(xiàn)金奶?！薄?/p>

就情感維系來(lái)說(shuō)，鍵盤(pán)、觸控乃至現(xiàn)階段的語(yǔ)音，以往的人機(jī)交互都是效率主導(dǎo)的，在很大程度上缺少了人情味兒，但百度的個(gè)性化語(yǔ)音定制已經(jīng)釋放了積極的信號(hào)，語(yǔ)音不僅是高效的交互方式，也是情感的載體，人類(lèi)與機(jī)器之間的隔閡勢(shì)必會(huì)進(jìn)一步縮小，取而代之的是親和力。

同時(shí)對(duì)于百度這樣的互聯(lián)網(wǎng)巨頭而言，過(guò)去幾十年中的技術(shù)深耕，注定會(huì)在人工智能進(jìn)入大生產(chǎn)時(shí)代時(shí)一步步變現(xiàn)。

作者 | Alter 公眾號(hào) | Alter聊IT

作者系獨(dú)立撰稿人，微信號(hào)imhefei

鈦媒體2018十大作者

品途商業(yè)評(píng)論2018十佳專(zhuān)欄作者

百家號(hào)千分好文出彩創(chuàng)作者

人人都是產(chǎn)品經(jīng)理年度作者

入駐虎嗅、創(chuàng)業(yè)邦、界面等50余家科技媒體

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個(gè)人觀點(diǎn)，與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

智能語(yǔ)音私有化，百度地圖邁入AI時(shí)代下一個(gè)強(qiáng)“音”

下一篇

智能語(yǔ)音私有化，百度地圖邁入AI時(shí)代下一個(gè)強(qiáng)“音”

下一篇

智能語(yǔ)音私有化，百度地圖邁入AI時(shí)代下一個(gè)強(qiáng)“音”