人與機(jī)器的自然交互一直是人類孜孜不倦的奮斗目標(biāo)。隨著移動(dòng)互聯(lián)網(wǎng)時(shí)代的發(fā)展,聲音與圖片成為了人機(jī)交互更為自然的表達(dá)方式。作為最核心的入口,語(yǔ)音技術(shù)就成為了科技巨頭們爭(zhēng)相攻下的堡壘。而人工智能的進(jìn)步與發(fā)展也讓語(yǔ)音技術(shù)的識(shí)別率突飛猛進(jìn),也使其有了產(chǎn)品化的機(jī)會(huì)。
李彥宏曾在劍橋名家講堂等多個(gè)公開(kāi)場(chǎng)合說(shuō)過(guò),百度大腦涉及百度最為核心的人工智能內(nèi)容,具體包括語(yǔ)音、圖像、自然語(yǔ)言理解和用戶畫(huà)像等四個(gè)核心能力,此外還有機(jī)器學(xué)習(xí)平臺(tái);吳恩達(dá)也在公開(kāi)場(chǎng)合演講時(shí)表達(dá)了同樣的觀點(diǎn)。
3 月 14 日,百度硅谷研究院于推出了一款基于人工智能的轉(zhuǎn)錄應(yīng)用 SwiftScribe ?;诎俣扔?2015 年年底推出的語(yǔ)音識(shí)別產(chǎn)品 Deep Speech 2,其神經(jīng)網(wǎng)絡(luò)通過(guò)輸入數(shù)千小時(shí)的標(biāo)記音頻數(shù)據(jù),從中學(xué)習(xí)特定的單詞與詞組。百度推出 SwiftScribe 主要面向經(jīng)常需要使用轉(zhuǎn)錄功能的企業(yè)及個(gè)人,甚于它的使用廣泛性,SwiftScribe認(rèn)為能夠讓一大批用戶受益,包括醫(yī)學(xué)健康、法律部門、商業(yè)媒體等領(lǐng)域。
語(yǔ)音技術(shù)主要分為識(shí)別與合成兩大領(lǐng)域,對(duì)于百度而言,歷年來(lái)的研究院技術(shù)突破也讓識(shí)別性能有了重大的提升。雷鋒網(wǎng)整理了百度在語(yǔ)音技術(shù)的相關(guān)研究成果,借此拋磚引玉,得以一窺百度在語(yǔ)音領(lǐng)域的技術(shù)積累。
語(yǔ)音識(shí)別
viayuyin.baidu
早在 2010 年,百度開(kāi)始進(jìn)行智能語(yǔ)音及相關(guān)技術(shù)研發(fā),并于同年 10 月在掌上百度上推出語(yǔ)音搜索,當(dāng)時(shí)的宣傳語(yǔ)是這樣說(shuō)的:「語(yǔ)音搜索就用掌上百度」,這也是第一代基于云端識(shí)別的互聯(lián)網(wǎng)應(yīng)用。
在 2012 年左右,研究者們開(kāi)始采用 DNN 進(jìn)行語(yǔ)音識(shí)別的相關(guān)研究。經(jīng)過(guò)近兩年的發(fā)酵,2012 年 11 月百度上線了第一款基于 DNN 的漢語(yǔ)語(yǔ)音搜索系統(tǒng),這讓百度成為最早采用 DNN 技術(shù)進(jìn)行商業(yè)語(yǔ)音服務(wù)的公司之一。研究顯示百度在當(dāng)時(shí)就呈現(xiàn)了優(yōu)秀的語(yǔ)音識(shí)別能力,「在安靜情況下,百度的普通話識(shí)別率已達(dá)到 95% 以上」。
在 2013 年 1 月,李彥宏提出百度成立深度學(xué)習(xí)研究院,并于同年 4 月設(shè)立了硅谷人工智能實(shí)驗(yàn)室,彼時(shí)雷鋒網(wǎng)也做過(guò)相關(guān)覆蓋與報(bào)道。而隔年百度硅谷人工智能實(shí)驗(yàn)室(SVAIL)正式成立,加上吳恩達(dá)的加盟,更多的研究與投入也讓百度開(kāi)始在語(yǔ)音技術(shù)上展露頭角。
根據(jù)吳恩達(dá)在百度語(yǔ)音開(kāi)放平臺(tái)三周年大會(huì)上的演講,百度于 2014 年采用 Sequence Discriminative Training(序列區(qū)分度訓(xùn)練),當(dāng)時(shí)的識(shí)別準(zhǔn)確率為 91.5%。
在同年年底,吳恩達(dá)帶領(lǐng)團(tuán)隊(duì)發(fā)布了第一代深度語(yǔ)音識(shí)別系統(tǒng) Deep Speech的研究論文,系統(tǒng)采用了端對(duì)端的深度學(xué)習(xí)技術(shù),也就是說(shuō),系統(tǒng)不需要人工設(shè)計(jì)組件對(duì)噪聲、混響或揚(yáng)聲器波動(dòng)進(jìn)行建模,而是直接從語(yǔ)料中進(jìn)行學(xué)習(xí)。
團(tuán)隊(duì)采用 7000 小時(shí)的干凈語(yǔ)音語(yǔ)料,通過(guò)添加人工噪音的方法生成 10 萬(wàn)小時(shí)的合成語(yǔ)音語(yǔ)料,并在 SWITCHBOARD(沿用近20年的標(biāo)準(zhǔn)語(yǔ)料庫(kù),被視為識(shí)別的“試金石”) 上獲得了 16.5% 的 WER(詞錯(cuò)誤率,是一項(xiàng)語(yǔ)音識(shí)別的通用評(píng)估標(biāo)準(zhǔn))。當(dāng)時(shí)的實(shí)驗(yàn)顯示,百度的語(yǔ)音識(shí)別效果比起谷歌、Bing 與 Apple API 而言優(yōu)勢(shì)明顯。
雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))AI科技評(píng)論了解到,近年來(lái)在 ImageNet 的競(jìng)賽中,CNN 的網(wǎng)絡(luò)結(jié)構(gòu)在不斷加深(比如微軟亞洲研究院的 152 層深度殘差網(wǎng)絡(luò)),錯(cuò)誤率則逐步下降。百度通過(guò)借鑒這一研究進(jìn)展,將深度學(xué)習(xí)在圖像識(shí)別領(lǐng)域的進(jìn)展應(yīng)用于語(yǔ)音識(shí)別,嘗試將 Deep CNN 架構(gòu)配合 HMM (隱含馬爾科夫模型)語(yǔ)音識(shí)別系統(tǒng),也呈現(xiàn)出很好的表現(xiàn)。
而 2015 年初基于 LSTM-HMM 的語(yǔ)音識(shí)別技術(shù)也逐步發(fā)展為基于 LSTM-CTC (Connectionist Temporal Classification)的端對(duì)端語(yǔ)音識(shí)別技術(shù),通過(guò)將機(jī)器學(xué)習(xí)領(lǐng)域的 LSTM 建模與 CTC 訓(xùn)練引入傳統(tǒng)的語(yǔ)音識(shí)別框架里,提出了具有創(chuàng)新性的漢字語(yǔ)音識(shí)別方法。
2015 年 8 月,百度研究院新增了漢語(yǔ)的識(shí)別能力,準(zhǔn)確率高達(dá) 94%。這也讓端到端的深度學(xué)習(xí)算法成為語(yǔ)音識(shí)別提升最重要的手段之一。在 2015 年 9 月份的百度世界大會(huì)上,吳恩達(dá)也在較為嘈雜的情況下,驗(yàn)證了機(jī)器的語(yǔ)音識(shí)別已經(jīng)超過(guò)人類;而李彥宏彼時(shí)也宣布,百度語(yǔ)音識(shí)別的準(zhǔn)確率能夠達(dá)到 97%。
而在 2015 年年底,百度 SVAIL 推出了Deep Speech 2,它能夠通過(guò)深度學(xué)習(xí)網(wǎng)絡(luò)識(shí)別嘈雜環(huán)境下的兩種完全不同的語(yǔ)言——英語(yǔ)與普通話,而端到端的學(xué)習(xí)能夠使系統(tǒng)處理各種條件下的語(yǔ)音,包括嘈雜環(huán)境、口音及區(qū)別不同語(yǔ)種。而在 Deep Speech 2 中,百度應(yīng)用了 HPC 技術(shù)識(shí)別縮短了訓(xùn)練時(shí)間,使得以往在幾個(gè)星期才能完成的實(shí)驗(yàn)只需要幾天就能完成。在基準(zhǔn)測(cè)試時(shí),系統(tǒng)能夠呈現(xiàn)與人類具有競(jìng)爭(zhēng)力的結(jié)果。(雷鋒網(wǎng)按:HPC 指的是使用多處理器或某一集群中的數(shù)臺(tái)計(jì)算機(jī)搭建的計(jì)算系統(tǒng)與環(huán)境,百度所應(yīng)用的 HPC 技術(shù)實(shí)際上是 OpenMPIRing Allreduce的修改版本。)
得益于在語(yǔ)音交互的突破,百度的深度語(yǔ)音識(shí)別技術(shù)在 2016 年入選 MIT 十大突破技術(shù)。
根據(jù)研究院的官方消息,百度 SVAIL 已于2017 年 2 月成功將HPC 技術(shù)移植到深度學(xué)習(xí)平臺(tái),借此加速 GPU 之間的數(shù)據(jù)傳輸速率。該算法以庫(kù)和Tensorflow補(bǔ)丁的形式向開(kāi)發(fā)者開(kāi)源,分別為baidu-allreduce 和tensorflow-allreduce,目前已在 GitHub 上線。
3 月 14 日,百度硅谷研究院也推出了一款基于 Deep Speech2 的 AI 轉(zhuǎn)錄應(yīng)用 SwiftScribe,其神經(jīng)網(wǎng)絡(luò)通過(guò)輸入數(shù)千小時(shí)的標(biāo)記音頻數(shù)據(jù),從中學(xué)習(xí)特定的單詞與詞組。
語(yǔ)音合成
viayuyin.baidu
如果說(shuō)語(yǔ)音識(shí)別是讓機(jī)器聽(tīng)懂人類的語(yǔ)言,那么語(yǔ)音合成便是讓機(jī)器開(kāi)口說(shuō)話。
語(yǔ)音合成即文本轉(zhuǎn)換技術(shù)(TTS),根據(jù)百度官網(wǎng)的介紹,它是“實(shí)現(xiàn)人機(jī)語(yǔ)音交互,建立一個(gè)有聽(tīng)和講能力的交互系統(tǒng)所必需的關(guān)鍵技術(shù),是將計(jì)算機(jī)自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月?tīng)得懂的、流利的口語(yǔ)輸出的技術(shù)”。
早期的語(yǔ)音合成做法是機(jī)械地將預(yù)先錄制好的聲音拼接在一起,也就是我們經(jīng)常聽(tīng)到的拼接式合成(concatenative TTS),采用語(yǔ)音編碼技術(shù)存儲(chǔ)合適的語(yǔ)音單元,在合成時(shí)通過(guò)解碼與波形編輯拼接處理后生成相應(yīng)的語(yǔ)句,一般合成的內(nèi)容也比較有限,比如自動(dòng)報(bào)時(shí)或報(bào)站等相對(duì)固定的內(nèi)容,便適合采用這樣的方法。
而參數(shù)合成法(parametric TTS)則相對(duì)復(fù)雜,涉及對(duì)語(yǔ)音信號(hào)的分析并提取參數(shù),再由人工控制參數(shù)的合成。但實(shí)現(xiàn)合成的全過(guò)程可謂兼具高難度與強(qiáng)工作量:首先需要涵蓋語(yǔ)音在合成出所有可能出現(xiàn)的聲音;隨后根據(jù)文本的內(nèi)容選擇對(duì)應(yīng)的聲學(xué)參數(shù),再實(shí)現(xiàn)合成。
在 2015 年,手機(jī)百度小說(shuō)頻道上線了情感語(yǔ)音合成模塊,系統(tǒng)可提供「磁性男聲」的朗讀版本;而百度新聞也支持語(yǔ)音播報(bào)。實(shí)際上這兩個(gè)技術(shù)都涉及語(yǔ)音合成技術(shù)(TTS)。此外,百度還采用此技術(shù)復(fù)原了張國(guó)榮的聲音,目前可達(dá)到接近真人的發(fā)聲效果。
百度 SVAIL 在今年正式推出了 Deep Voice,即一個(gè)實(shí)時(shí)語(yǔ)音合成的神經(jīng)網(wǎng)絡(luò)系統(tǒng)(Real-Time Neural Text-to-Speech for Production),目前論文已經(jīng)投遞 ICML 2017。實(shí)驗(yàn)顯示,在同樣的 CPU 與 GPU 上,系統(tǒng)比起谷歌 DeepMind 在去年 9 月發(fā)布的原始音頻波形深度生成模型 WaveNet 要快上 400 倍。
在去年年末的百度語(yǔ)音開(kāi)放平臺(tái)三周年大會(huì)上,吳恩達(dá)就已經(jīng)表示,「現(xiàn)在百度在中國(guó)語(yǔ)音合成的能力已經(jīng)達(dá)到業(yè)界領(lǐng)先的水平?!箍梢?jiàn)百度在語(yǔ)音合成領(lǐng)域已經(jīng)是胸有成竹了。
兩大應(yīng)用方向
目前百度的語(yǔ)音技術(shù)分為兩大應(yīng)用方向:語(yǔ)音識(shí)別(及語(yǔ)音喚醒)還有語(yǔ)音合成。
在語(yǔ)音識(shí)別領(lǐng)域,結(jié)合自然語(yǔ)言處理技術(shù),百度能夠提供高精度的語(yǔ)音識(shí)別服務(wù),實(shí)現(xiàn)多場(chǎng)景的智能語(yǔ)音交互:
手機(jī)百度和百度輸入法自不必說(shuō),它們能夠直接通過(guò)語(yǔ)音輸入匹配搜索結(jié)果,提升輸入效率。
主要合作伙伴:艾米智能行車助手;樂(lè)視語(yǔ)音助手;海爾智能家居;陌陌;神武游戲等。
而百度的語(yǔ)音喚醒則支持自定義設(shè)置語(yǔ)音指令,為應(yīng)用提供流暢對(duì)話。比如:
通過(guò)百度語(yǔ)音喚醒技術(shù)可以喚醒度秘,滿足用戶真人化的需求;
在百度 Carlife 、 百度CoDriver 及百度地圖中,語(yǔ)音喚醒技術(shù)能夠幫助駕駛員實(shí)現(xiàn)撥打電話、播放音樂(lè)、導(dǎo)航等多項(xiàng)操作。
在語(yǔ)音合成領(lǐng)域,最典型的例子莫過(guò)于人聲朗讀了。
百度地圖利用合成技術(shù)生成導(dǎo)航語(yǔ)音,能夠幫助用戶實(shí)現(xiàn)流暢的人機(jī)交互;
iReader 也采用了百度語(yǔ)音合成技術(shù)實(shí)現(xiàn)語(yǔ)音朗讀效果,目前支持中文普通話播報(bào)、中英文混讀播報(bào),音色支持男聲和女聲。
主要合作伙伴:塔讀文學(xué)、AA拼車等。
吳恩達(dá)在接受華爾街日?qǐng)?bào)采訪時(shí)表示了對(duì)語(yǔ)音技術(shù)的信心與期待:「至少在中國(guó),我們會(huì)在接下來(lái)幾年時(shí)間普及語(yǔ)音識(shí)別應(yīng)用,讓人機(jī)溝通成為一件非常自然的事。你會(huì)很快習(xí)慣與機(jī)器流暢交流的時(shí)光,而忘記以前是如何與機(jī)器交互的。」雷鋒網(wǎng)也相信,百度未來(lái)會(huì)在語(yǔ)音技術(shù)上取得更大突破,并讓人們獲得良好的人機(jī)交互體驗(yàn)。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 宇樹(shù)科技“機(jī)器狗”亮相MBBF2024,5G-A×AI加持,行動(dòng)精準(zhǔn)敏捷
- “智網(wǎng)慧城”計(jì)劃啟動(dòng)全球招募,加速5G-A與AI雙向賦能
- 華為公布前三季度業(yè)績(jī):銷售額5859億元,利潤(rùn)628.7億元
- 京東App開(kāi)通支付寶付款,平臺(tái)互聯(lián)互通邁出又一大步
- 馬斯克眼中的“第三大市場(chǎng)”,收入大跌89.8%,利潤(rùn)僅38萬(wàn)美元
- IDC智能家居設(shè)備跟蹤:2025年將出貨9.311億臺(tái),家庭安防品類崛起
- 中國(guó)全球創(chuàng)新力排名上升至11位,近10年上升最快國(guó)家
- “精裝版”Model Y挑戰(zhàn)本尊,智界R7上市33天大定超3萬(wàn)臺(tái)
- 臺(tái)積電創(chuàng)始人張忠謀警告:半導(dǎo)體行業(yè)的自由貿(mào)易已經(jīng)死亡
- 被美股投資者起訴“二選一”,阿里斥資$4.335億和解,但并不承認(rèn)過(guò)錯(cuò)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。