123,123,123

很久以前，比爾蓋茨便曾經(jīng)預(yù)言，語音交互將會成為未來人機(jī)交互技術(shù)三大主要方向之一。不管是從自然性、便捷性還是學(xué)習(xí)成本來說，語言都是進(jìn)行信息傳達(dá)最好的方式之一。只不過在過去，語言僅限于人與人之間的交流，而現(xiàn)在我們則希望通過自然語言做到和機(jī)器交流。不管是科幻小說還是為數(shù)眾多的影視作品，都會經(jīng)常出現(xiàn)人通過語音對設(shè)備進(jìn)行操控的場景，內(nèi)里則蘊(yùn)含著人類對語音交互潛在的感情。

導(dǎo)演們負(fù)責(zé)將人類對語音交互的期許在影視作品中實現(xiàn)，而科學(xué)家則致力于將這項技術(shù)從電影帶到現(xiàn)實生活中來。不管是國內(nèi)還是國外，針對自然語言的識別、理解，以及將自然語言識別理解和設(shè)備交互結(jié)合方面的學(xué)習(xí)和研究從未停止過。早在2011年，蘋果便推出了語音識別助手Siri，開啟了移動智能設(shè)備語音交互的先河。與此同時，如Google、微軟等科技巨頭也紛紛開展自身對語音識別和自然語義理解的研究工作，分別推出了Google Now和Cortana，而國內(nèi)的百度、搜狗、科大訊飛等企業(yè)也在進(jìn)行同樣的工作。即便專注于設(shè)計的Facebook近期也是通過收購Wit.ai的方式進(jìn)入了這一領(lǐng)域。如今，語音技術(shù)儼然成為了科技行業(yè)的熱門話題，也被譽(yù)為是下一次人機(jī)交互的突破口之一。

從使用場景來看，語音交互可發(fā)揮作用的地方特別多，如文字輸入、實時翻譯、人機(jī)交互等。不管軟件還是硬件，都可以將語音作為一個信息輸入源，并且將其變成次要或者主要的輸入、交互方式。在現(xiàn)實應(yīng)用中，我們看到如各大主流輸入法工具都具備了語音輸入的功能，而在智能家居行業(yè)中，如何通過自然語音操控家電產(chǎn)品的話題也為大眾所津津樂道。而自Siri推出后，語音助手更是成為主流中高端旗艦智能手機(jī)的標(biāo)準(zhǔn)配置。

盡管語音交互已經(jīng)在不同的業(yè)界得到了較為廣泛的應(yīng)用，但不得不承認(rèn)的是，語音交互目前還遠(yuǎn)未成為人機(jī)交互的主流應(yīng)用方式，蓋因目前主流的語音助手尚存在一些”短板“：

1、特別依賴基礎(chǔ)網(wǎng)絡(luò)的建設(shè)

語音識別和自然語義理解，都依賴龐大的語料庫及強(qiáng)大的運(yùn)算能力，但語音交互的應(yīng)用多見于不管是存儲和運(yùn)算能力都極其有限的移動智能設(shè)備，因此目前主流的解決方案多用云技術(shù)，也就是將語音進(jìn)行壓縮及特征提煉，將壓縮提煉后的內(nèi)容上傳到云端，在云端進(jìn)行識別和理解，然后再將識別理解結(jié)果返回。但這種解決方案也帶來一個問題，對移動網(wǎng)絡(luò)的帶寬和網(wǎng)速有一定的要求。在基礎(chǔ)網(wǎng)絡(luò)建設(shè)未達(dá)到要求以前，要么識別速度慢，要么干脆無法識別，極大程度限制了語音交互技術(shù)的普及。

隨著國內(nèi)外移動網(wǎng)絡(luò)的提速和覆蓋，特別是4G/5G網(wǎng)絡(luò)的鋪設(shè)，目前基礎(chǔ)網(wǎng)絡(luò)對語音識別的限制已經(jīng)越來越小。

2、應(yīng)用方式有限，淪為玩具

目前智能手機(jī)上主流的語音交互工具，大部分僅限于少數(shù)幾個功能，遠(yuǎn)未達(dá)到能夠?qū)θ藗冋Ｊ褂弥悄苁謾C(jī)需求功能覆蓋的程度。即便以Siri為例，也僅是能夠進(jìn)行諸如播放音樂、打電話、打開特定應(yīng)用程序等少數(shù)幾個功能，且在使用上要通過物理觸控的方式先打開語音助手，才能進(jìn)行接下來的操作，并未達(dá)到語音交互”解放雙手“的終極目標(biāo)，甚至從某種程度來說是更麻煩了。

因此在現(xiàn)實中看到的情況是Siri等語音助手更多的是成為人們的玩具，并未達(dá)到取代傳統(tǒng)操控方式的目的。如果想要達(dá)到這樣的程度，必須將語音交互技術(shù)和手機(jī)的操作系統(tǒng)進(jìn)行深層次的整合，能夠直接在系統(tǒng)層面，以語音的方式對大部分功能進(jìn)行直接操控。

3、識別準(zhǔn)確度、深度、連續(xù)性不夠

盡管已經(jīng)可以做到對簡單語言的識別和理解，但目前的語音技術(shù)在自然語義理解上面還存在很大的提升空間，甚至連基本的識別準(zhǔn)確度仍然和人類存在較大的差距。這些同樣決定了只能用語音對設(shè)備進(jìn)行一些簡單的操作，一旦涉及到復(fù)雜、連續(xù)性的操控，語音交互就無能為力了，只能回歸到傳統(tǒng)的操控方式，這種”間斷使用“也會極大程度降低語音交互的體驗程度。

但我們也要看到隨著人工智能、神經(jīng)網(wǎng)絡(luò)、云計算等先進(jìn)技術(shù)的快速發(fā)展，目前的語音識別能力和對自然語義的理解能力每天都在快速發(fā)展，使語音交互的應(yīng)用場景不斷得到擴(kuò)充。在一些特殊的場合，比如開車時；或者一些特殊的人群，比如盲人，語音助手已經(jīng)成為主要的人機(jī)交互方式，這些都代表著語音交互行業(yè)的發(fā)展情況。

語音交互是未來的趨勢

不得不承認(rèn)的是，觸控仍然是現(xiàn)在時代環(huán)境下最佳的人機(jī)交互方式，但是也有其眾多的缺點所在。在未來，語音交互必然會從目前的邊緣性交互、輔助性交互成長為主流的交互方式，甚至成為最重要的人機(jī)交互方式。這有賴于基礎(chǔ)網(wǎng)絡(luò)、語音技術(shù)的發(fā)展，也有賴于以智能手機(jī)為代表的移動設(shè)備生產(chǎn)廠商不斷的去探索語音和設(shè)備之間的關(guān)系。在這方面，傳統(tǒng)的語音應(yīng)用開發(fā)商具有天然的劣勢，因為其只能基于設(shè)備支持的端口進(jìn)行頂層開發(fā)。只有終端生產(chǎn)廠商才能真正做到基于底層硬件開始開發(fā)，做到深層次與語音交互技術(shù)的結(jié)合。因此未來語音交互的發(fā)展方向必然是眾多相關(guān)機(jī)構(gòu)聯(lián)合，以產(chǎn)業(yè)聯(lián)盟的方式進(jìn)行推動，在這方面，國內(nèi)的中興已經(jīng)在開始進(jìn)行有益的探索，如其發(fā)起成立的智慧語音聯(lián)盟便是將語音處理芯片商、語音識別軟件商和搜索服務(wù)提供商、內(nèi)容提供商等有效結(jié)合起來，并且結(jié)合中科院等強(qiáng)大的研究機(jī)構(gòu)，推動智慧語音的規(guī)?；瘧?yīng)用和普及。在2015年CES上，中興新推出的主打語音交互的手機(jī)星星2號榮獲大會最受歡迎十大手機(jī)之一，或許正代表國際主流對語音交互技術(shù)的認(rèn)可。

于此同時，Google、蘋果等智能手機(jī)行業(yè)巨頭同樣在推動語音交互技術(shù)的深度發(fā)展，如Google在著名工程師Johan Schalkwyk帶領(lǐng)下進(jìn)行語音識別和人工智能方面的研究，期望在2年內(nèi)推出具有突破性的語音設(shè)備。而蘋果每年同樣投入巨資，希望Siri和iPhone進(jìn)行更深度的整合。

從本質(zhì)上來說，人類習(xí)慣于用語音進(jìn)行交流，代表人類百萬年來最自然、最習(xí)慣的溝通方式。一旦這種溝通方式在人類和設(shè)備之間的籬笆被打破，或許便會是智能設(shè)備下一個春天的到來。語音交互的大勢已經(jīng)慢慢造就，最終將如同現(xiàn)在的觸控技術(shù)一樣，真正融入到每一個人的生活中，如水，如空氣。

作者大南，公眾號：daxiaov

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

語音趨勢會成為智能手機(jī)新賣點嗎？

下一篇