很久以前,比爾蓋茨便曾經預言,語音交互將會成為未來人機交互技術三大主要方向之一。不管是從自然性、便捷性還是學習成本來說,語言都是進行信息傳達最好的方式之一。只不過在過去,語言僅限于人與人之間的交流,而現(xiàn)在我們則希望通過自然語言做到和機器交流。不管是科幻小說還是為數(shù)眾多的影視作品,都會經常出現(xiàn)人通過語音對設備進行操控的場景,內里則蘊含著人類對語音交互潛在的感情。
導演們負責將人類對語音交互的期許在影視作品中實現(xiàn),而科學家則致力于將這項技術從電影帶到現(xiàn)實生活中來。不管是國內還是國外,針對自然語言的識別、理解,以及將自然語言識別理解和設備交互結合方面的學習和研究從未停止過。早在2011年,蘋果便推出了語音識別助手Siri,開啟了移動智能設備語音交互的先河。與此同時,如Google、微軟等科技巨頭也紛紛開展自身對語音識別和自然語義理解的研究工作,分別推出了Google Now和Cortana,而國內的百度、搜狗、科大訊飛等企業(yè)也在進行同樣的工作。即便專注于設計的Facebook近期也是通過收購Wit.ai的方式進入了這一領域。如今,語音技術儼然成為了科技行業(yè)的熱門話題,也被譽為是下一次人機交互的突破口之一。
從使用場景來看,語音交互可發(fā)揮作用的地方特別多,如文字輸入、實時翻譯、人機交互等。不管軟件還是硬件,都可以將語音作為一個信息輸入源,并且將其變成次要或者主要的輸入、交互方式。在現(xiàn)實應用中,我們看到如各大主流輸入法工具都具備了語音輸入的功能,而在智能家居行業(yè)中,如何通過自然語音操控家電產品的話題也為大眾所津津樂道。而自Siri推出后,語音助手更是成為主流中高端旗艦智能手機的標準配置。
盡管語音交互已經在不同的業(yè)界得到了較為廣泛的應用,但不得不承認的是,語音交互目前還遠未成為人機交互的主流應用方式,蓋因目前主流的語音助手尚存在一些”短板“:
1、特別依賴基礎網絡的建設
語音識別和自然語義理解,都依賴龐大的語料庫及強大的運算能力,但語音交互的應用多見于不管是存儲和運算能力都極其有限的移動智能設備,因此目前主流的解決方案多用云技術,也就是將語音進行壓縮及特征提煉,將壓縮提煉后的內容上傳到云端,在云端進行識別和理解,然后再將識別理解結果返回。但這種解決方案也帶來一個問題,對移動網絡的帶寬和網速有一定的要求。在基礎網絡建設未達到要求以前,要么識別速度慢,要么干脆無法識別,極大程度限制了語音交互技術的普及。
隨著國內外移動網絡的提速和覆蓋,特別是4G/5G網絡的鋪設,目前基礎網絡對語音識別的限制已經越來越小。
2、應用方式有限,淪為玩具
目前智能手機上主流的語音交互工具,大部分僅限于少數(shù)幾個功能,遠未達到能夠對人們正常使用智能手機需求功能覆蓋的程度。即便以Siri為例,也僅是能夠進行諸如播放音樂、打電話、打開特定應用程序等少數(shù)幾個功能,且在使用上要通過物理觸控的方式先打開語音助手,才能進行接下來的操作,并未達到語音交互”解放雙手“的終極目標,甚至從某種程度來說是更麻煩了。
因此在現(xiàn)實中看到的情況是Siri等語音助手更多的是成為人們的玩具,并未達到取代傳統(tǒng)操控方式的目的。如果想要達到這樣的程度,必須將語音交互技術和手機的操作系統(tǒng)進行深層次的整合,能夠直接在系統(tǒng)層面,以語音的方式對大部分功能進行直接操控。
3、識別準確度、深度、連續(xù)性不夠
盡管已經可以做到對簡單語言的識別和理解,但目前的語音技術在自然語義理解上面還存在很大的提升空間,甚至連基本的識別準確度仍然和人類存在較大的差距。這些同樣決定了只能用語音對設備進行一些簡單的操作,一旦涉及到復雜、連續(xù)性的操控,語音交互就無能為力了,只能回歸到傳統(tǒng)的操控方式,這種”間斷使用“也會極大程度降低語音交互的體驗程度。
但我們也要看到隨著人工智能、神經網絡、云計算等先進技術的快速發(fā)展,目前的語音識別能力和對自然語義的理解能力每天都在快速發(fā)展,使語音交互的應用場景不斷得到擴充。在一些特殊的場合,比如開車時;或者一些特殊的人群,比如盲人,語音助手已經成為主要的人機交互方式,這些都代表著語音交互行業(yè)的發(fā)展情況。
語音交互是未來的趨勢
不得不承認的是,觸控仍然是現(xiàn)在時代環(huán)境下最佳的人機交互方式,但是也有其眾多的缺點所在。在未來,語音交互必然會從目前的邊緣性交互、輔助性交互成長為主流的交互方式,甚至成為最重要的人機交互方式。這有賴于基礎網絡、語音技術的發(fā)展,也有賴于以智能手機為代表的移動設備生產廠商不斷的去探索語音和設備之間的關系。在這方面,傳統(tǒng)的語音應用開發(fā)商具有天然的劣勢,因為其只能基于設備支持的端口進行頂層開發(fā)。只有終端生產廠商才能真正做到基于底層硬件開始開發(fā),做到深層次與語音交互技術的結合。因此未來語音交互的發(fā)展方向必然是眾多相關機構聯(lián)合,以產業(yè)聯(lián)盟的方式進行推動,在這方面,國內的中興已經在開始進行有益的探索,如其發(fā)起成立的智慧語音聯(lián)盟便是將語音處理芯片商、語音識別軟件商和搜索服務提供商、內容提供商等有效結合起來,并且結合中科院等強大的研究機構,推動智慧語音的規(guī)模化應用和普及。在2015年CES上,中興新推出的主打語音交互的手機星星2號榮獲大會最受歡迎十大手機之一,或許正代表國際主流對語音交互技術的認可。
于此同時,Google、蘋果等智能手機行業(yè)巨頭同樣在推動語音交互技術的深度發(fā)展,如Google在著名工程師Johan Schalkwyk帶領下進行語音識別和人工智能方面的研究,期望在2年內推出具有突破性的語音設備。而蘋果每年同樣投入巨資,希望Siri和iPhone進行更深度的整合。
從本質上來說,人類習慣于用語音進行交流,代表人類百萬年來最自然、最習慣的溝通方式。一旦這種溝通方式在人類和設備之間的籬笆被打破,或許便會是智能設備下一個春天的到來。語音交互的大勢已經慢慢造就,最終將如同現(xiàn)在的觸控技術一樣,真正融入到每一個人的生活中,如水,如空氣。
作者大南,公眾號:daxiaov
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 華為研發(fā)中心入駐上海青浦致小鎮(zhèn)房租大漲,帶動周邊租房市場熱潮
- 華為員工涌入蘇滬兩地,房東狂歡:租金幾近翻倍,跨省租房成新常態(tài)
- 制造業(yè)巨頭空客計劃裁員2500人,應對航天業(yè)務虧損與供應鏈挑戰(zhàn)
- 科技創(chuàng)新引領產業(yè)發(fā)展:江陰市與清華大學攜手推進重大科技項目
- 美國或再升級出口管制:考慮限制AI芯片對中東出口
- 劉強東章澤天報案:京東發(fā)言人證實夫婦倆遭有組織造謠,警方已介入
- 東方甄選擬15億出售教育業(yè)務
- 虧764億上熱搜 蔚來裁員10%,銷量跌出前三
- IBM設立5億元AI創(chuàng)投基金
- 聯(lián)想發(fā)布 ThinkStation P8工作站
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。