手机看片1024欧美,久久中文字幕人妻熟av女蜜柚M,亚洲国产中文成人高清影视

人與機(jī)器的自然交互一直是人類孜孜不倦的奮斗目標(biāo)。隨著移動(dòng)互聯(lián)網(wǎng)時(shí)代的發(fā)展，聲音與圖片成為了人機(jī)交互更為自然的表達(dá)方式。作為最核心的入口，語(yǔ)音技術(shù)就成為了科技巨頭們爭(zhēng)相攻下的堡壘。而人工智能的進(jìn)步與發(fā)展也讓語(yǔ)音技術(shù)的識(shí)別率突飛猛進(jìn)，也使其有了產(chǎn)品化的機(jī)會(huì)。

李彥宏曾在劍橋名家講堂等多個(gè)公開(kāi)場(chǎng)合說(shuō)過(guò)，百度大腦涉及百度最為核心的人工智能內(nèi)容，具體包括語(yǔ)音、圖像、自然語(yǔ)言理解和用戶畫(huà)像等四個(gè)核心能力，此外還有機(jī)器學(xué)習(xí)平臺(tái)；吳恩達(dá)也在公開(kāi)場(chǎng)合演講時(shí)表達(dá)了同樣的觀點(diǎn)。

3 月 14 日，百度硅谷研究院于推出了一款基于人工智能的轉(zhuǎn)錄應(yīng)用 SwiftScribe ?；诎俣扔?2015 年年底推出的語(yǔ)音識(shí)別產(chǎn)品 Deep Speech 2，其神經(jīng)網(wǎng)絡(luò)通過(guò)輸入數(shù)千小時(shí)的標(biāo)記音頻數(shù)據(jù)，從中學(xué)習(xí)特定的單詞與詞組。百度推出 SwiftScribe 主要面向經(jīng)常需要使用轉(zhuǎn)錄功能的企業(yè)及個(gè)人，甚于它的使用廣泛性，SwiftScribe認(rèn)為能夠讓一大批用戶受益，包括醫(yī)學(xué)健康、法律部門、商業(yè)媒體等領(lǐng)域。

語(yǔ)音技術(shù)主要分為識(shí)別與合成兩大領(lǐng)域，對(duì)于百度而言，歷年來(lái)的研究院技術(shù)突破也讓識(shí)別性能有了重大的提升。雷鋒網(wǎng)整理了百度在語(yǔ)音技術(shù)的相關(guān)研究成果，借此拋磚引玉，得以一窺百度在語(yǔ)音領(lǐng)域的技術(shù)積累。

語(yǔ)音識(shí)別

viayuyin.baidu

早在 2010 年，百度開(kāi)始進(jìn)行智能語(yǔ)音及相關(guān)技術(shù)研發(fā)，并于同年 10 月在掌上百度上推出語(yǔ)音搜索，當(dāng)時(shí)的宣傳語(yǔ)是這樣說(shuō)的：「語(yǔ)音搜索就用掌上百度」，這也是第一代基于云端識(shí)別的互聯(lián)網(wǎng)應(yīng)用。

在 2012 年左右，研究者們開(kāi)始采用 DNN 進(jìn)行語(yǔ)音識(shí)別的相關(guān)研究。經(jīng)過(guò)近兩年的發(fā)酵，2012 年 11 月百度上線了第一款基于 DNN 的漢語(yǔ)語(yǔ)音搜索系統(tǒng)，這讓百度成為最早采用 DNN 技術(shù)進(jìn)行商業(yè)語(yǔ)音服務(wù)的公司之一。研究顯示百度在當(dāng)時(shí)就呈現(xiàn)了優(yōu)秀的語(yǔ)音識(shí)別能力，「在安靜情況下，百度的普通話識(shí)別率已達(dá)到 95% 以上」。

在 2013 年 1 月，李彥宏提出百度成立深度學(xué)習(xí)研究院，并于同年 4 月設(shè)立了硅谷人工智能實(shí)驗(yàn)室，彼時(shí)雷鋒網(wǎng)也做過(guò)相關(guān)覆蓋與報(bào)道。而隔年百度硅谷人工智能實(shí)驗(yàn)室（SVAIL）正式成立，加上吳恩達(dá)的加盟，更多的研究與投入也讓百度開(kāi)始在語(yǔ)音技術(shù)上展露頭角。

根據(jù)吳恩達(dá)在百度語(yǔ)音開(kāi)放平臺(tái)三周年大會(huì)上的演講，百度于 2014 年采用 Sequence Discriminative Training（序列區(qū)分度訓(xùn)練），當(dāng)時(shí)的識(shí)別準(zhǔn)確率為 91.5%。

在同年年底，吳恩達(dá)帶領(lǐng)團(tuán)隊(duì)發(fā)布了第一代深度語(yǔ)音識(shí)別系統(tǒng) Deep Speech的研究論文，系統(tǒng)采用了端對(duì)端的深度學(xué)習(xí)技術(shù)，也就是說(shuō)，系統(tǒng)不需要人工設(shè)計(jì)組件對(duì)噪聲、混響或揚(yáng)聲器波動(dòng)進(jìn)行建模，而是直接從語(yǔ)料中進(jìn)行學(xué)習(xí)。

團(tuán)隊(duì)采用 7000 小時(shí)的干凈語(yǔ)音語(yǔ)料，通過(guò)添加人工噪音的方法生成 10 萬(wàn)小時(shí)的合成語(yǔ)音語(yǔ)料，并在 SWITCHBOARD（沿用近20年的標(biāo)準(zhǔn)語(yǔ)料庫(kù)，被視為識(shí)別的“試金石”）上獲得了 16.5% 的 WER（詞錯(cuò)誤率，是一項(xiàng)語(yǔ)音識(shí)別的通用評(píng)估標(biāo)準(zhǔn)）。當(dāng)時(shí)的實(shí)驗(yàn)顯示，百度的語(yǔ)音識(shí)別效果比起谷歌、Bing 與 Apple API 而言優(yōu)勢(shì)明顯。

雷鋒網(wǎng)(公眾號(hào)：雷鋒網(wǎng))AI科技評(píng)論了解到，近年來(lái)在 ImageNet 的競(jìng)賽中，CNN 的網(wǎng)絡(luò)結(jié)構(gòu)在不斷加深（比如微軟亞洲研究院的 152 層深度殘差網(wǎng)絡(luò)），錯(cuò)誤率則逐步下降。百度通過(guò)借鑒這一研究進(jìn)展，將深度學(xué)習(xí)在圖像識(shí)別領(lǐng)域的進(jìn)展應(yīng)用于語(yǔ)音識(shí)別，嘗試將 Deep CNN 架構(gòu)配合 HMM （隱含馬爾科夫模型）語(yǔ)音識(shí)別系統(tǒng)，也呈現(xiàn)出很好的表現(xiàn)。

而 2015 年初基于 LSTM-HMM 的語(yǔ)音識(shí)別技術(shù)也逐步發(fā)展為基于 LSTM-CTC （Connectionist Temporal Classification）的端對(duì)端語(yǔ)音識(shí)別技術(shù)，通過(guò)將機(jī)器學(xué)習(xí)領(lǐng)域的 LSTM 建模與 CTC 訓(xùn)練引入傳統(tǒng)的語(yǔ)音識(shí)別框架里，提出了具有創(chuàng)新性的漢字語(yǔ)音識(shí)別方法。

2015 年 8 月，百度研究院新增了漢語(yǔ)的識(shí)別能力，準(zhǔn)確率高達(dá) 94%。這也讓端到端的深度學(xué)習(xí)算法成為語(yǔ)音識(shí)別提升最重要的手段之一。在 2015 年 9 月份的百度世界大會(huì)上，吳恩達(dá)也在較為嘈雜的情況下，驗(yàn)證了機(jī)器的語(yǔ)音識(shí)別已經(jīng)超過(guò)人類；而李彥宏彼時(shí)也宣布，百度語(yǔ)音識(shí)別的準(zhǔn)確率能夠達(dá)到 97%。

而在 2015 年年底，百度 SVAIL 推出了Deep Speech 2，它能夠通過(guò)深度學(xué)習(xí)網(wǎng)絡(luò)識(shí)別嘈雜環(huán)境下的兩種完全不同的語(yǔ)言——英語(yǔ)與普通話，而端到端的學(xué)習(xí)能夠使系統(tǒng)處理各種條件下的語(yǔ)音，包括嘈雜環(huán)境、口音及區(qū)別不同語(yǔ)種。而在 Deep Speech 2 中，百度應(yīng)用了 HPC 技術(shù)識(shí)別縮短了訓(xùn)練時(shí)間，使得以往在幾個(gè)星期才能完成的實(shí)驗(yàn)只需要幾天就能完成。在基準(zhǔn)測(cè)試時(shí)，系統(tǒng)能夠呈現(xiàn)與人類具有競(jìng)爭(zhēng)力的結(jié)果。（雷鋒網(wǎng)按：HPC 指的是使用多處理器或某一集群中的數(shù)臺(tái)計(jì)算機(jī)搭建的計(jì)算系統(tǒng)與環(huán)境，百度所應(yīng)用的 HPC 技術(shù)實(shí)際上是 OpenMPIRing Allreduce的修改版本。）

得益于在語(yǔ)音交互的突破，百度的深度語(yǔ)音識(shí)別技術(shù)在 2016 年入選 MIT 十大突破技術(shù)。

根據(jù)研究院的官方消息，百度 SVAIL 已于2017 年 2 月成功將HPC 技術(shù)移植到深度學(xué)習(xí)平臺(tái)，借此加速 GPU 之間的數(shù)據(jù)傳輸速率。該算法以庫(kù)和Tensorflow補(bǔ)丁的形式向開(kāi)發(fā)者開(kāi)源，分別為baidu-allreduce 和tensorflow-allreduce，目前已在 GitHub 上線。

3 月 14 日，百度硅谷研究院也推出了一款基于 Deep Speech2 的 AI 轉(zhuǎn)錄應(yīng)用 SwiftScribe，其神經(jīng)網(wǎng)絡(luò)通過(guò)輸入數(shù)千小時(shí)的標(biāo)記音頻數(shù)據(jù)，從中學(xué)習(xí)特定的單詞與詞組。

語(yǔ)音合成

viayuyin.baidu

如果說(shuō)語(yǔ)音識(shí)別是讓機(jī)器聽(tīng)懂人類的語(yǔ)言，那么語(yǔ)音合成便是讓機(jī)器開(kāi)口說(shuō)話。

語(yǔ)音合成即文本轉(zhuǎn)換技術(shù)（TTS），根據(jù)百度官網(wǎng)的介紹，它是“實(shí)現(xiàn)人機(jī)語(yǔ)音交互，建立一個(gè)有聽(tīng)和講能力的交互系統(tǒng)所必需的關(guān)鍵技術(shù)，是將計(jì)算機(jī)自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月?tīng)得懂的、流利的口語(yǔ)輸出的技術(shù)”。

早期的語(yǔ)音合成做法是機(jī)械地將預(yù)先錄制好的聲音拼接在一起，也就是我們經(jīng)常聽(tīng)到的拼接式合成（concatenative TTS），采用語(yǔ)音編碼技術(shù)存儲(chǔ)合適的語(yǔ)音單元，在合成時(shí)通過(guò)解碼與波形編輯拼接處理后生成相應(yīng)的語(yǔ)句，一般合成的內(nèi)容也比較有限，比如自動(dòng)報(bào)時(shí)或報(bào)站等相對(duì)固定的內(nèi)容，便適合采用這樣的方法。

而參數(shù)合成法（parametric TTS）則相對(duì)復(fù)雜，涉及對(duì)語(yǔ)音信號(hào)的分析并提取參數(shù)，再由人工控制參數(shù)的合成。但實(shí)現(xiàn)合成的全過(guò)程可謂兼具高難度與強(qiáng)工作量：首先需要涵蓋語(yǔ)音在合成出所有可能出現(xiàn)的聲音；隨后根據(jù)文本的內(nèi)容選擇對(duì)應(yīng)的聲學(xué)參數(shù)，再實(shí)現(xiàn)合成。

在 2015 年，手機(jī)百度小說(shuō)頻道上線了情感語(yǔ)音合成模塊，系統(tǒng)可提供「磁性男聲」的朗讀版本；而百度新聞也支持語(yǔ)音播報(bào)。實(shí)際上這兩個(gè)技術(shù)都涉及語(yǔ)音合成技術(shù)（TTS）。此外，百度還采用此技術(shù)復(fù)原了張國(guó)榮的聲音，目前可達(dá)到接近真人的發(fā)聲效果。

百度 SVAIL 在今年正式推出了 Deep Voice，即一個(gè)實(shí)時(shí)語(yǔ)音合成的神經(jīng)網(wǎng)絡(luò)系統(tǒng)（Real-Time Neural Text-to-Speech for Production），目前論文已經(jīng)投遞 ICML 2017。實(shí)驗(yàn)顯示，在同樣的 CPU 與 GPU 上，系統(tǒng)比起谷歌 DeepMind 在去年 9 月發(fā)布的原始音頻波形深度生成模型 WaveNet 要快上 400 倍。

在去年年末的百度語(yǔ)音開(kāi)放平臺(tái)三周年大會(huì)上，吳恩達(dá)就已經(jīng)表示，「現(xiàn)在百度在中國(guó)語(yǔ)音合成的能力已經(jīng)達(dá)到業(yè)界領(lǐng)先的水平?！箍梢?jiàn)百度在語(yǔ)音合成領(lǐng)域已經(jīng)是胸有成竹了。

兩大應(yīng)用方向

目前百度的語(yǔ)音技術(shù)分為兩大應(yīng)用方向：語(yǔ)音識(shí)別（及語(yǔ)音喚醒）還有語(yǔ)音合成。

在語(yǔ)音識(shí)別領(lǐng)域，結(jié)合自然語(yǔ)言處理技術(shù)，百度能夠提供高精度的語(yǔ)音識(shí)別服務(wù)，實(shí)現(xiàn)多場(chǎng)景的智能語(yǔ)音交互：

手機(jī)百度和百度輸入法自不必說(shuō)，它們能夠直接通過(guò)語(yǔ)音輸入匹配搜索結(jié)果，提升輸入效率。

主要合作伙伴：艾米智能行車助手；樂(lè)視語(yǔ)音助手；海爾智能家居；陌陌；神武游戲等。

而百度的語(yǔ)音喚醒則支持自定義設(shè)置語(yǔ)音指令，為應(yīng)用提供流暢對(duì)話。比如：

通過(guò)百度語(yǔ)音喚醒技術(shù)可以喚醒度秘，滿足用戶真人化的需求；

在百度 Carlife 、百度CoDriver 及百度地圖中，語(yǔ)音喚醒技術(shù)能夠幫助駕駛員實(shí)現(xiàn)撥打電話、播放音樂(lè)、導(dǎo)航等多項(xiàng)操作。

在語(yǔ)音合成領(lǐng)域，最典型的例子莫過(guò)于人聲朗讀了。

百度地圖利用合成技術(shù)生成導(dǎo)航語(yǔ)音，能夠幫助用戶實(shí)現(xiàn)流暢的人機(jī)交互；

iReader 也采用了百度語(yǔ)音合成技術(shù)實(shí)現(xiàn)語(yǔ)音朗讀效果，目前支持中文普通話播報(bào)、中英文混讀播報(bào)，音色支持男聲和女聲。

主要合作伙伴：塔讀文學(xué)、AA拼車等。

吳恩達(dá)在接受華爾街日?qǐng)?bào)采訪時(shí)表示了對(duì)語(yǔ)音技術(shù)的信心與期待：「至少在中國(guó)，我們會(huì)在接下來(lái)幾年時(shí)間普及語(yǔ)音識(shí)別應(yīng)用，讓人機(jī)溝通成為一件非常自然的事。你會(huì)很快習(xí)慣與機(jī)器流暢交流的時(shí)光，而忘記以前是如何與機(jī)器交互的。」雷鋒網(wǎng)也相信，百度未來(lái)會(huì)在語(yǔ)音技術(shù)上取得更大突破，并讓人們獲得良好的人機(jī)交互體驗(yàn)。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

從SwiftScribe說(shuō)起回顧百度在語(yǔ)音技術(shù)的七年積累

下一篇

從SwiftScribe說(shuō)起 回顧百度在語(yǔ)音技術(shù)的七年積累

下一篇

從SwiftScribe說(shuō)起回顧百度在語(yǔ)音技術(shù)的七年積累