11月22日,百度語音開放平臺(tái)三周年慶活動(dòng)在京舉辦,百度宣布將向公眾開放四個(gè)全新的語音技術(shù)接口。據(jù)百度公司首席科學(xué)家吳恩達(dá)介紹,這四項(xiàng)語音技術(shù)分別為情感合成、遠(yuǎn)場方案、喚醒二期技術(shù)和長語音方案,即日起這幾項(xiàng)旨在提升語音交互用戶體驗(yàn)和推動(dòng)語音交互落地普及的技術(shù),將免費(fèi)開放給用戶和開發(fā)者共享。
智能語音交互,前景與問題交織
智能語音交互作為一個(gè)依仗新興技術(shù)而誕生發(fā)展的行業(yè),不僅有著充足的發(fā)展?jié)摿ΓS著近年相關(guān)技術(shù)的快速迭代迎來了爆發(fā)期。
中國工信部的報(bào)告指出,2016年全球智能語音產(chǎn)業(yè)規(guī)模為82.3億美元,近五年復(fù)合增長率高達(dá)35.1%,而根據(jù)Research and Markets 發(fā)布的調(diào)查數(shù)據(jù)顯示,2020年全球智能語音市場規(guī)模預(yù)計(jì)將達(dá)到191.7億美元。因此對(duì)于科技巨頭來說,這一領(lǐng)域已經(jīng)成為兵家必爭之地。
事實(shí)上國內(nèi)外諸多科技巨頭近年來都已意識(shí)到了語音交互行業(yè)的發(fā)展?jié)摿Γ⒓娂娫谶@一領(lǐng)域大展拳腳。亞馬遜旗下家庭智能語音交互產(chǎn)品Amazon Echo就幫助其占據(jù)了智能家居語音交互領(lǐng)域的半壁江山,蘋果的Sir更以問答交互形式開啟了語音交互新世界的大門,除此之外,微軟、谷歌、Facebook、百度、訊飛等國內(nèi)外巨頭都早已在這一領(lǐng)域爭相競逐。
但在巨頭紛紛布局的今天,智能語音行業(yè)仍然存在不少問題。語音交互產(chǎn)品在識(shí)別快速話語時(shí),往往或難以識(shí)別或頻頻出錯(cuò),而這與開發(fā)者語音識(shí)別技術(shù)的不到位有著直接關(guān)系。此外,語音交互助手目前的應(yīng)用場景仍然談不上寬泛,當(dāng)前一些已知的應(yīng)用場景不要說智能化,甚至給人一種生搬硬造應(yīng)用場景的感覺。
事實(shí)上,不同于移動(dòng)互聯(lián)網(wǎng)技術(shù)的全面開花,當(dāng)前的智能語音交互行業(yè)很大程度上都是各家企業(yè)在閉門造車,行業(yè)環(huán)境不夠開放是最大的問題。技術(shù)上的缺乏交流制約著行業(yè)的進(jìn)一步提升。而本次百度開放關(guān)鍵性技術(shù)則對(duì)改善上述問題明顯有著重要意義,通過多項(xiàng)關(guān)鍵技術(shù)的開源共享,行業(yè)死水將被盤活,當(dāng)前行業(yè)因技術(shù)障礙存在的問題,比如語音識(shí)別距離短,語音喚醒率不盡如人意等勢必將得到改善。
百度的四項(xiàng)技術(shù),應(yīng)用與指導(dǎo)意義
本次百度宣布開放共享的情感合成、遠(yuǎn)場方案、喚醒二期技術(shù)和長語音方案這四項(xiàng)技術(shù),實(shí)質(zhì)上包含的是語音交互領(lǐng)域的合成,識(shí)別,喚醒和理解這四大基礎(chǔ)板塊。
語音合成技術(shù)歷來給用戶的印象或許就是機(jī)械,刻板的電子聲,而這種不自然的聲音也在一定程度上影響了用戶群體對(duì)智能語音產(chǎn)品的接受程度。而百度的情感合成技術(shù)通過百小時(shí)級(jí)別以上的語音音控大數(shù)據(jù)采集和獨(dú)有的人類發(fā)言韻律停頓預(yù)測技術(shù)處理后,電子聲變得更加接近真人聲音,一個(gè)典型的例子是百度今年早些時(shí)候曾利用此技術(shù),復(fù)原已逝明星張國榮的聲音。
而遠(yuǎn)場方案則對(duì)解決智能語音交互技術(shù)的應(yīng)用場景不夠?qū)挿簡栴}有重要意義,這項(xiàng)技術(shù)得到分享之后,開發(fā)者可以利用這一接口,使語音識(shí)別距離增加到3到5米,同時(shí)擁有93%以上的語音識(shí)別率,這將為語音技術(shù)帶來遠(yuǎn)比現(xiàn)在更多的想象空間,而不只是遙控電視或解鎖手機(jī)。
作為業(yè)界公認(rèn)的智能語音交互的基礎(chǔ)組成技術(shù),所謂喚醒可以簡單的視為給智能語音產(chǎn)品加上了一雙“耳朵”,有了這一能力,產(chǎn)品才能聽到用戶的呼喚并響應(yīng)操作。百度語音喚醒技術(shù)則有以下幾個(gè)特點(diǎn):支持用戶自定義喚醒詞,不僅滿足了用戶的個(gè)性化需求,在與系統(tǒng)指令喚醒詞相結(jié)合之后還提升了產(chǎn)品性能,比如可同時(shí)下達(dá)拍照和照明的指令;加入雙層解號(hào)器,提高了喚醒準(zhǔn)確率,目前百度語音喚醒準(zhǔn)確率高達(dá)95%,誤報(bào)次數(shù)被控制在24小時(shí)一次以內(nèi);在喚醒功耗方面,百度語音喚醒的功耗則是國內(nèi)很多競品的三分之一。
當(dāng)前市場上的主流語音識(shí)別應(yīng)用,其絕大部分都是短語音識(shí)別。比如搜索使用的是關(guān)鍵詞,地圖語音輸入的是地址,語音助手輸入的是指令,輸入法使用語音看似是長語音,實(shí)際上最長支持不超過60秒。因此,長語音識(shí)別技術(shù)再次拓寬了智能語音交互的應(yīng)用場景,一個(gè)簡單的例子就是語音輸入法不再受時(shí)間限制,用戶可以用口述“寫文章”,“寫日記”。而長語音使用環(huán)境下,語音識(shí)別的準(zhǔn)確率既是重點(diǎn),也是難點(diǎn),百度長語音技術(shù)則從多個(gè)方面實(shí)現(xiàn)了突破:使用了LSTM對(duì)語音進(jìn)行噪聲進(jìn)行建模,切分準(zhǔn)確率超過99%;生成模型使用了說話人自適應(yīng),保證了每個(gè)人說話時(shí)間越長識(shí)別效果就會(huì)越好;還實(shí)現(xiàn)了對(duì)識(shí)別結(jié)果的智能糾錯(cuò),從結(jié)果層面保證了識(shí)別準(zhǔn)確率。
不難看出,百度開放的這四項(xiàng)全新技術(shù)對(duì)于當(dāng)前智能語音交互領(lǐng)域技術(shù)的推進(jìn)、落地和產(chǎn)品的優(yōu)化有著重要作用。事實(shí)上,這些技術(shù)并不僅僅存在于理論上或?qū)嶒?yàn)室中,百度已經(jīng)在多個(gè)實(shí)際場景中成功運(yùn)用了這些技術(shù),與包括聯(lián)想、中興、長虹、康佳、SONY、特斯拉、途勝、惠普、艾米通訊等手機(jī)、家居、汽車、服務(wù)行業(yè)的眾多企業(yè)均展開了合作,新興技術(shù)的成功落地應(yīng)用對(duì)整個(gè)語音交互行業(yè)走下云端普惠C端有著一定的指導(dǎo)作用。
新一輪變革在即,產(chǎn)業(yè)化時(shí)代來臨
到目前為止,百度語音開放平臺(tái)已經(jīng)交出了一份令人滿意的答卷,平臺(tái)開發(fā)者數(shù)量已超過14萬,每天識(shí)別的在線請求數(shù)在1億以上,合成的在線請求數(shù)在2億以上,百度語音搜索的整體用戶量在2015年增長超過3倍。
而在此之前,百度也已經(jīng)開源了深度學(xué)習(xí)開源平臺(tái)PaddlePaddle、人工智能技術(shù)平臺(tái)Warp-CTC等,同樣推動(dòng)了新興技術(shù)的傳播與發(fā)展,對(duì)業(yè)界產(chǎn)生了積極影響。隨著語音交互領(lǐng)域多項(xiàng)先進(jìn)技術(shù)的開源,這一領(lǐng)域的競爭將變得更加激烈,同時(shí)將有更多科技巨頭愿意分享先進(jìn)技術(shù),推動(dòng)行業(yè)發(fā)展。
更重要的是,傳統(tǒng)的語音交互技術(shù)將受到極大挑戰(zhàn),例如百度當(dāng)前的語音交互架構(gòu)相對(duì)于工業(yè)界主流的CLDNN 結(jié)構(gòu),錯(cuò)誤率相對(duì)降低了10%以上,共享技術(shù)之后,當(dāng)前主流架構(gòu)將被逐漸淘汰已經(jīng)在情理之中。同時(shí),在快速發(fā)展、迭代的語音技術(shù)下,組建新知識(shí)產(chǎn)權(quán)產(chǎn)業(yè)聯(lián)盟已經(jīng)勢在必行,業(yè)界先例是2015年底百度開放上百項(xiàng)智能語音專利并與海爾、京東、中興通訊在內(nèi)的 20 多家企業(yè)組建了智能語音知識(shí)產(chǎn)權(quán)產(chǎn)業(yè)聯(lián)盟,
隨著語音交互技術(shù)的進(jìn)一步開放,這種開放式創(chuàng)新和開放式知識(shí)產(chǎn)權(quán)許可的結(jié)合,或許會(huì)取代傳統(tǒng)的語音專利池,成為智能語音未來的產(chǎn)業(yè)核心模式。事實(shí)上,在百度、谷歌、亞馬遜等國內(nèi)外科技巨頭的緊逼下,智能語音行業(yè)格局已然改變,傳統(tǒng)語音技術(shù)巨頭Nuance集團(tuán)在2014年還占據(jù)語音交互領(lǐng)域60%市場份額,2015年末就遭到腰斬,僅為31%,隨著行業(yè)技術(shù)的開放和發(fā)展,產(chǎn)業(yè)格局將繼續(xù)發(fā)生變化。
可以說,隨著技術(shù)的開放和進(jìn)步,語音交互的應(yīng)用場景將更加寬泛,落地商用速度也將加快,語音交互領(lǐng)域即將進(jìn)入大規(guī)模產(chǎn)業(yè)化的時(shí)代,新一輪的變革來臨之際,核心技術(shù)和能力比拼正是個(gè)中關(guān)鍵,誰能掌握這兩點(diǎn),誰就能獲得領(lǐng)跑的資格,而對(duì)于用戶群體來說,智能語音交互的未來足夠光明值得期待。
- 世間將再無松下電視:松下官宣解散家電子公司并徹底放棄電視機(jī)業(yè)務(wù)
- 雅迪集團(tuán)與南都電源簽署協(xié)議:攜手共繪固態(tài)電池未來藍(lán)圖
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測量系統(tǒng)引關(guān)注
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。