人與機器的自然交互一直是人類孜孜不倦的奮斗目標(biāo)。隨著移動互聯(lián)網(wǎng)時代的發(fā)展,聲音與圖片成為了人機交互更為自然的表達方式。作為最核心的入口,語音技術(shù)就成為了科技巨頭們爭相攻下的堡壘。而人工智能的進步與發(fā)展也讓語音技術(shù)的識別率突飛猛進,也使其有了產(chǎn)品化的機會。
李彥宏曾在劍橋名家講堂等多個公開場合說過,百度大腦涉及百度最為核心的人工智能內(nèi)容,具體包括語音、圖像、自然語言理解和用戶畫像等四個核心能力,此外還有機器學(xué)習(xí)平臺;吳恩達也在公開場合演講時表達了同樣的觀點。
3 月 14 日,百度硅谷研究院于推出了一款基于人工智能的轉(zhuǎn)錄應(yīng)用 SwiftScribe 。基于百度于 2015 年年底推出的語音識別產(chǎn)品 Deep Speech 2,其神經(jīng)網(wǎng)絡(luò)通過輸入數(shù)千小時的標(biāo)記音頻數(shù)據(jù),從中學(xué)習(xí)特定的單詞與詞組。百度推出 SwiftScribe 主要面向經(jīng)常需要使用轉(zhuǎn)錄功能的企業(yè)及個人,甚于它的使用廣泛性,SwiftScribe認(rèn)為能夠讓一大批用戶受益,包括醫(yī)學(xué)健康、法律部門、商業(yè)媒體等領(lǐng)域。
語音技術(shù)主要分為識別與合成兩大領(lǐng)域,對于百度而言,歷年來的研究院技術(shù)突破也讓識別性能有了重大的提升。雷鋒網(wǎng)整理了百度在語音技術(shù)的相關(guān)研究成果,借此拋磚引玉,得以一窺百度在語音領(lǐng)域的技術(shù)積累。
語音識別
viayuyin.baidu
早在 2010 年,百度開始進行智能語音及相關(guān)技術(shù)研發(fā),并于同年 10 月在掌上百度上推出語音搜索,當(dāng)時的宣傳語是這樣說的:「語音搜索就用掌上百度」,這也是第一代基于云端識別的互聯(lián)網(wǎng)應(yīng)用。
在 2012 年左右,研究者們開始采用 DNN 進行語音識別的相關(guān)研究。經(jīng)過近兩年的發(fā)酵,2012 年 11 月百度上線了第一款基于 DNN 的漢語語音搜索系統(tǒng),這讓百度成為最早采用 DNN 技術(shù)進行商業(yè)語音服務(wù)的公司之一。研究顯示百度在當(dāng)時就呈現(xiàn)了優(yōu)秀的語音識別能力,「在安靜情況下,百度的普通話識別率已達到 95% 以上」。
在 2013 年 1 月,李彥宏提出百度成立深度學(xué)習(xí)研究院,并于同年 4 月設(shè)立了硅谷人工智能實驗室,彼時雷鋒網(wǎng)也做過相關(guān)覆蓋與報道。而隔年百度硅谷人工智能實驗室(SVAIL)正式成立,加上吳恩達的加盟,更多的研究與投入也讓百度開始在語音技術(shù)上展露頭角。
根據(jù)吳恩達在百度語音開放平臺三周年大會上的演講,百度于 2014 年采用 Sequence Discriminative Training(序列區(qū)分度訓(xùn)練),當(dāng)時的識別準(zhǔn)確率為 91.5%。
在同年年底,吳恩達帶領(lǐng)團隊發(fā)布了第一代深度語音識別系統(tǒng) Deep Speech的研究論文,系統(tǒng)采用了端對端的深度學(xué)習(xí)技術(shù),也就是說,系統(tǒng)不需要人工設(shè)計組件對噪聲、混響或揚聲器波動進行建模,而是直接從語料中進行學(xué)習(xí)。
團隊采用 7000 小時的干凈語音語料,通過添加人工噪音的方法生成 10 萬小時的合成語音語料,并在 SWITCHBOARD(沿用近20年的標(biāo)準(zhǔn)語料庫,被視為識別的“試金石”) 上獲得了 16.5% 的 WER(詞錯誤率,是一項語音識別的通用評估標(biāo)準(zhǔn))。當(dāng)時的實驗顯示,百度的語音識別效果比起谷歌、Bing 與 Apple API 而言優(yōu)勢明顯。
雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))AI科技評論了解到,近年來在 ImageNet 的競賽中,CNN 的網(wǎng)絡(luò)結(jié)構(gòu)在不斷加深(比如微軟亞洲研究院的 152 層深度殘差網(wǎng)絡(luò)),錯誤率則逐步下降。百度通過借鑒這一研究進展,將深度學(xué)習(xí)在圖像識別領(lǐng)域的進展應(yīng)用于語音識別,嘗試將 Deep CNN 架構(gòu)配合 HMM (隱含馬爾科夫模型)語音識別系統(tǒng),也呈現(xiàn)出很好的表現(xiàn)。
而 2015 年初基于 LSTM-HMM 的語音識別技術(shù)也逐步發(fā)展為基于 LSTM-CTC (Connectionist Temporal Classification)的端對端語音識別技術(shù),通過將機器學(xué)習(xí)領(lǐng)域的 LSTM 建模與 CTC 訓(xùn)練引入傳統(tǒng)的語音識別框架里,提出了具有創(chuàng)新性的漢字語音識別方法。
2015 年 8 月,百度研究院新增了漢語的識別能力,準(zhǔn)確率高達 94%。這也讓端到端的深度學(xué)習(xí)算法成為語音識別提升最重要的手段之一。在 2015 年 9 月份的百度世界大會上,吳恩達也在較為嘈雜的情況下,驗證了機器的語音識別已經(jīng)超過人類;而李彥宏彼時也宣布,百度語音識別的準(zhǔn)確率能夠達到 97%。
而在 2015 年年底,百度 SVAIL 推出了Deep Speech 2,它能夠通過深度學(xué)習(xí)網(wǎng)絡(luò)識別嘈雜環(huán)境下的兩種完全不同的語言——英語與普通話,而端到端的學(xué)習(xí)能夠使系統(tǒng)處理各種條件下的語音,包括嘈雜環(huán)境、口音及區(qū)別不同語種。而在 Deep Speech 2 中,百度應(yīng)用了 HPC 技術(shù)識別縮短了訓(xùn)練時間,使得以往在幾個星期才能完成的實驗只需要幾天就能完成。在基準(zhǔn)測試時,系統(tǒng)能夠呈現(xiàn)與人類具有競爭力的結(jié)果。(雷鋒網(wǎng)按:HPC 指的是使用多處理器或某一集群中的數(shù)臺計算機搭建的計算系統(tǒng)與環(huán)境,百度所應(yīng)用的 HPC 技術(shù)實際上是 OpenMPIRing Allreduce的修改版本。)
得益于在語音交互的突破,百度的深度語音識別技術(shù)在 2016 年入選 MIT 十大突破技術(shù)。
根據(jù)研究院的官方消息,百度 SVAIL 已于2017 年 2 月成功將HPC 技術(shù)移植到深度學(xué)習(xí)平臺,借此加速 GPU 之間的數(shù)據(jù)傳輸速率。該算法以庫和Tensorflow補丁的形式向開發(fā)者開源,分別為baidu-allreduce 和tensorflow-allreduce,目前已在 GitHub 上線。
3 月 14 日,百度硅谷研究院也推出了一款基于 Deep Speech2 的 AI 轉(zhuǎn)錄應(yīng)用 SwiftScribe,其神經(jīng)網(wǎng)絡(luò)通過輸入數(shù)千小時的標(biāo)記音頻數(shù)據(jù),從中學(xué)習(xí)特定的單詞與詞組。
語音合成
viayuyin.baidu
如果說語音識別是讓機器聽懂人類的語言,那么語音合成便是讓機器開口說話。
語音合成即文本轉(zhuǎn)換技術(shù)(TTS),根據(jù)百度官網(wǎng)的介紹,它是“實現(xiàn)人機語音交互,建立一個有聽和講能力的交互系統(tǒng)所必需的關(guān)鍵技術(shù),是將計算機自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚摹⒘骼目谡Z輸出的技術(shù)”。
早期的語音合成做法是機械地將預(yù)先錄制好的聲音拼接在一起,也就是我們經(jīng)常聽到的拼接式合成(concatenative TTS),采用語音編碼技術(shù)存儲合適的語音單元,在合成時通過解碼與波形編輯拼接處理后生成相應(yīng)的語句,一般合成的內(nèi)容也比較有限,比如自動報時或報站等相對固定的內(nèi)容,便適合采用這樣的方法。
而參數(shù)合成法(parametric TTS)則相對復(fù)雜,涉及對語音信號的分析并提取參數(shù),再由人工控制參數(shù)的合成。但實現(xiàn)合成的全過程可謂兼具高難度與強工作量:首先需要涵蓋語音在合成出所有可能出現(xiàn)的聲音;隨后根據(jù)文本的內(nèi)容選擇對應(yīng)的聲學(xué)參數(shù),再實現(xiàn)合成。
在 2015 年,手機百度小說頻道上線了情感語音合成模塊,系統(tǒng)可提供「磁性男聲」的朗讀版本;而百度新聞也支持語音播報。實際上這兩個技術(shù)都涉及語音合成技術(shù)(TTS)。此外,百度還采用此技術(shù)復(fù)原了張國榮的聲音,目前可達到接近真人的發(fā)聲效果。
百度 SVAIL 在今年正式推出了 Deep Voice,即一個實時語音合成的神經(jīng)網(wǎng)絡(luò)系統(tǒng)(Real-Time Neural Text-to-Speech for Production),目前論文已經(jīng)投遞 ICML 2017。實驗顯示,在同樣的 CPU 與 GPU 上,系統(tǒng)比起谷歌 DeepMind 在去年 9 月發(fā)布的原始音頻波形深度生成模型 WaveNet 要快上 400 倍。
在去年年末的百度語音開放平臺三周年大會上,吳恩達就已經(jīng)表示,「現(xiàn)在百度在中國語音合成的能力已經(jīng)達到業(yè)界領(lǐng)先的水平?!箍梢姲俣仍谡Z音合成領(lǐng)域已經(jīng)是胸有成竹了。
兩大應(yīng)用方向
目前百度的語音技術(shù)分為兩大應(yīng)用方向:語音識別(及語音喚醒)還有語音合成。
在語音識別領(lǐng)域,結(jié)合自然語言處理技術(shù),百度能夠提供高精度的語音識別服務(wù),實現(xiàn)多場景的智能語音交互:
手機百度和百度輸入法自不必說,它們能夠直接通過語音輸入匹配搜索結(jié)果,提升輸入效率。
主要合作伙伴:艾米智能行車助手;樂視語音助手;海爾智能家居;陌陌;神武游戲等。
而百度的語音喚醒則支持自定義設(shè)置語音指令,為應(yīng)用提供流暢對話。比如:
通過百度語音喚醒技術(shù)可以喚醒度秘,滿足用戶真人化的需求;
在百度 Carlife 、 百度CoDriver 及百度地圖中,語音喚醒技術(shù)能夠幫助駕駛員實現(xiàn)撥打電話、播放音樂、導(dǎo)航等多項操作。
在語音合成領(lǐng)域,最典型的例子莫過于人聲朗讀了。
百度地圖利用合成技術(shù)生成導(dǎo)航語音,能夠幫助用戶實現(xiàn)流暢的人機交互;
iReader 也采用了百度語音合成技術(shù)實現(xiàn)語音朗讀效果,目前支持中文普通話播報、中英文混讀播報,音色支持男聲和女聲。
主要合作伙伴:塔讀文學(xué)、AA拼車等。
吳恩達在接受華爾街日報采訪時表示了對語音技術(shù)的信心與期待:「至少在中國,我們會在接下來幾年時間普及語音識別應(yīng)用,讓人機溝通成為一件非常自然的事。你會很快習(xí)慣與機器流暢交流的時光,而忘記以前是如何與機器交互的?!估卒h網(wǎng)也相信,百度未來會在語音技術(shù)上取得更大突破,并讓人們獲得良好的人機交互體驗。
- 文心智能體平臺全量上線DeepSeek滿血版
- 比亞迪:對1位重大黑公關(guān)線索提供人獎勵100萬元
- 達拉斯聯(lián)儲長警告:需維持利率穩(wěn)定 相當(dāng)一段時間
- 蛇年科技股盛宴:私募積極布局,市場全面走強
- 內(nèi)酰胺價格上揚,產(chǎn)業(yè)鏈回暖趨勢顯現(xiàn)
- 面板市場新趨勢:價格持續(xù)上漲,行業(yè)發(fā)展新篇章開啟
- 基金回暖成長熱,熙攘背后藏機遇
- 德國去年12月工業(yè)新訂單環(huán)比增長6.9%:經(jīng)濟復(fù)蘇持續(xù)
- 國泰君安:未來油運供需改善,風(fēng)險收益比提升,投資價值顯現(xiàn)
- 新春理財攻略:開啟開工理財,穩(wěn)健投資新篇章
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。