語(yǔ)音并不是一個(gè)新鮮事物,2011年,Siri被內(nèi)置在iPhone 4s之中橫空出世時(shí),曾掀起一波語(yǔ)音技術(shù)和討論熱潮和語(yǔ)音助手的創(chuàng)業(yè)熱潮。時(shí)隔五年之后,Google AlphaGo人機(jī)大戰(zhàn)將AI(人工智能)從實(shí)驗(yàn)室技術(shù)變成坊間熱議的話題,人工智能成為國(guó)內(nèi)外科技巨頭的爭(zhēng)奪焦點(diǎn),語(yǔ)音則成為巨頭進(jìn)軍AI的必經(jīng)之路。
Google I/O大會(huì)上,最重要的項(xiàng)目便是Google Assistant(谷歌助理)和Google Home(類(lèi)似于Amazon Echo的智能家庭音箱助手),Google Home的基礎(chǔ)則是語(yǔ)音。
蘋(píng)果WWDC開(kāi)發(fā)者大會(huì)上,5歲的Siri終于兼容了Mac,并向開(kāi)發(fā)者開(kāi)放,能完成更多任務(wù)。
Amazon Echo成為Amazon 最成功的硬件產(chǎn)品,這款產(chǎn)品銷(xiāo)量已達(dá)到400萬(wàn),家庭智能語(yǔ)音音箱,被視作是智能手機(jī)之后的又一個(gè)爆款品類(lèi)。
KPCB合伙人、享有“互聯(lián)網(wǎng)女皇”稱號(hào)的瑪麗·米克爾在今年的互聯(lián)網(wǎng)趨勢(shì)報(bào)告中,將超過(guò)十分之一的篇幅給了“語(yǔ)音”二字,在其看來(lái),“觸摸屏+麥克風(fēng)”正在取代“鍵盤(pán)+鼠標(biāo)”的交互方式。
如此重要的技術(shù)革命,中國(guó)巨頭自然不會(huì)缺席。截止目前,中國(guó)市場(chǎng)還沒(méi)有與Amazon Echo媲美的中國(guó)版智能語(yǔ)音音箱,但在軟件層面互聯(lián)網(wǎng)公司卻一直在想方設(shè)法入局。Siri發(fā)布的第二年,搜狗便發(fā)布了語(yǔ)音助手,搜狗也是中國(guó)最積極投資語(yǔ)音的互聯(lián)網(wǎng)巨頭之一,阿里、騰訊、網(wǎng)易、京東等巨頭在語(yǔ)音上雖然偶爾有零星動(dòng)作,但并未將之視作重點(diǎn),要么是第三方合作,要么是蜻蜓點(diǎn)水。搜狗是搜索引擎,均崇尚技術(shù),這是其押注語(yǔ)音的原因所在。
輸入成中國(guó)玩家進(jìn)軍語(yǔ)音的亮點(diǎn)
輸入是語(yǔ)音最典型的應(yīng)用場(chǎng)景,戶外、家里、走路、開(kāi)車(chē),人們有許多時(shí)候都不便于打字,或者說(shuō)懶得打字,抑或打字效率不夠高,語(yǔ)音就成為一種選擇。隨著語(yǔ)音技術(shù)的發(fā)展,識(shí)別準(zhǔn)確率、方言兼容度、噪音抗干擾諸多難題都已得到解決,語(yǔ)音識(shí)別率已達(dá)到實(shí)用水平。
在語(yǔ)音輸入法上,搜狗輸入法、訊飛輸入法和百度輸入法是最主要的三個(gè)玩家??拼笥嶏w憑借著語(yǔ)音技術(shù)切入輸入法領(lǐng)域,宣稱用戶數(shù)已過(guò)億;百度輸入法也將語(yǔ)音當(dāng)做亮點(diǎn),其宣稱借助于DeepSpeech技術(shù)解決了噪音問(wèn)題。語(yǔ)音輸入量工具最大的則是搜狗輸入法,其7%的用戶會(huì)用到語(yǔ)音識(shí)別功能,這一功能每天會(huì)有超過(guò)1億次的語(yǔ)音轉(zhuǎn)化量,在整體1.4億的請(qǐng)求次數(shù)中占據(jù)相當(dāng)比例,這也側(cè)面表明,搜狗語(yǔ)音應(yīng)用最關(guān)鍵還是輸入。
搜狗輸入法做語(yǔ)音則有5年歷史,與訊飛語(yǔ)音輸入法強(qiáng)調(diào)識(shí)別率不同,搜狗輸入法更強(qiáng)調(diào)智能輸入。識(shí)別率再高,語(yǔ)音輸入依然會(huì)有錯(cuò)字現(xiàn)象,手工更改成痛點(diǎn)——用語(yǔ)音輸入就是因?yàn)椴幌雱?dòng)手。搜狗輸入法的解決方案是智能交互,比如用戶說(shuō)“航天一院”很可能被識(shí)別為“航天醫(yī)院”,用戶就可再說(shuō)“一二三四的一”,搜狗輸入法就會(huì)將“醫(yī)”改為“一”。這樣的交互能實(shí)現(xiàn),關(guān)鍵不在于識(shí)別率,而是語(yǔ)義理解,如果沒(méi)有語(yǔ)義理解技術(shù),就會(huì)直接將“一二三四的一”轉(zhuǎn)化為文字。好的語(yǔ)義理解,需要應(yīng)用深度學(xué)習(xí)為基礎(chǔ)的人工智能技術(shù),這是互聯(lián)網(wǎng)公司尤其是搜索公司擅長(zhǎng)的地方。
語(yǔ)音輸入法成為中國(guó)互聯(lián)網(wǎng)巨頭做語(yǔ)音的一大亮點(diǎn),美國(guó)用戶并不需要“輸入法”,系統(tǒng)自帶功能就可滿足,因此美國(guó)并沒(méi)有類(lèi)似于搜狗這樣的輸入法巨頭。當(dāng)然,英文會(huì)需要語(yǔ)音輸入,不過(guò)這并沒(méi)有成為Siri的重點(diǎn),未來(lái)或許會(huì)出現(xiàn)英文版的語(yǔ)音輸入法。
汽車(chē)成中國(guó)巨頭最親睞的場(chǎng)景
在語(yǔ)音使用場(chǎng)景方面,美國(guó)科技巨頭更親睞“家”,Amazon Echo、Google Home均是面向家庭這一場(chǎng)景。家是封閉空間,相對(duì)更安靜,并且干擾他人和被他人干擾的問(wèn)題更小,還能與智能家居打通,是非常適合的語(yǔ)音場(chǎng)景。不過(guò),由于做硬件需要較強(qiáng)的“硬實(shí)力”,與智能家居打通則需要大量的產(chǎn)業(yè)整合,不是一時(shí)半會(huì)能實(shí)現(xiàn)的,因此中國(guó)互聯(lián)網(wǎng)巨頭均對(duì)這個(gè)場(chǎng)景望而卻步,阿里、京東有嘗試與第三方合作推出與Echo類(lèi)似的產(chǎn)品,市場(chǎng)表現(xiàn)卻很平淡。
與“家”同等重要的語(yǔ)音場(chǎng)景非汽車(chē)莫屬:車(chē)主在駕駛時(shí)雙眼和雙手都被占用,語(yǔ)音成為最佳輸入方式。過(guò)去汽車(chē)內(nèi)的語(yǔ)音輸入存在許多痛點(diǎn),自帶語(yǔ)音功能只支持少數(shù)英文命令,并且還要給更多錢(qián)買(mǎi)“豪華版”才會(huì)配置。汽車(chē)內(nèi)的語(yǔ)音交互充滿著互聯(lián)網(wǎng)巨頭最向往的顛覆機(jī)會(huì)。
搜狗針對(duì)汽車(chē)發(fā)布了智能語(yǔ)音導(dǎo)航App,可實(shí)現(xiàn)駕駛之外的常規(guī)車(chē)內(nèi)交互,包括打電話、發(fā)短信、查天氣、歌曲播放等等,這款產(chǎn)品可運(yùn)行在智能手機(jī)上,還可通過(guò)車(chē)機(jī)互聯(lián)協(xié)議使之運(yùn)行于汽車(chē)屏幕,如果汽車(chē)廠商與搜狗進(jìn)行前裝合作則可獨(dú)立運(yùn)行于汽車(chē)的OS上。不久前,YunOS與上汽合作的國(guó)內(nèi)首款互聯(lián)網(wǎng)汽車(chē),語(yǔ)音交互被當(dāng)做一個(gè)賣(mài)點(diǎn):阿里巴巴CEO張勇展示了用語(yǔ)音打開(kāi)天窗這樣的操作。在未來(lái),汽車(chē)內(nèi)的語(yǔ)音交互將成為標(biāo)配。
智能技術(shù)確保語(yǔ)音能夠聽(tīng)得懂
Siri才五年歷史,但語(yǔ)音卻有十分悠久的歷史:科大訊飛在1999年就已成立,現(xiàn)在是A股市場(chǎng)上市值400億元的語(yǔ)音巨頭。不過(guò),語(yǔ)音走向大眾,徹底改變?nèi)藱C(jī)交互方式,卻是近幾年才發(fā)生的事情。從國(guó)內(nèi)外科技巨頭的動(dòng)作來(lái)看,智能技術(shù)和云端服務(wù)已成為語(yǔ)音的兩大支柱。
語(yǔ)音技術(shù)過(guò)去是基于“規(guī)則”而不是“統(tǒng)計(jì)”,基于一定規(guī)則,對(duì)海量的語(yǔ)料庫(kù)進(jìn)行處理之后就能不斷提高識(shí)別準(zhǔn)確率。深度學(xué)習(xí)為基礎(chǔ)的人工智能技術(shù)加入之后,語(yǔ)音技術(shù)就變成通過(guò)機(jī)器集群去學(xué)習(xí)海量語(yǔ)料數(shù)據(jù),并尋找到各種規(guī)律,進(jìn)而進(jìn)行準(zhǔn)確的語(yǔ)音識(shí)別和語(yǔ)義理解。
不論是語(yǔ)音輸入的智能糾錯(cuò),還是語(yǔ)音搜索對(duì)用戶請(qǐng)求的準(zhǔn)確理解,抑或Siri響應(yīng)用戶諸如“幫我設(shè)置一個(gè)提醒,明天9:00取快遞”這樣的復(fù)雜命令,底層均是人工智能技術(shù),AlphaGo掀起的AI啟蒙運(yùn)動(dòng)則將會(huì)成為語(yǔ)音普及的助力。
搜狗與清華大學(xué)聯(lián)合成立“天工智能實(shí)驗(yàn)室”,正在人工智能技術(shù)這個(gè)“根”上布局,以求贏在起跑線上。借助于人工智能技術(shù),搜狗宣稱語(yǔ)音識(shí)別準(zhǔn)確率高于97%,識(shí)別速度高達(dá)每分鐘400字以上,在語(yǔ)音修改方面,支持替換、插入、刪除等幾百種改錯(cuò)操作 ,修改成功率達(dá)到90%以上,處于行業(yè)領(lǐng)先水平。
云端服務(wù)則決定語(yǔ)音能夠做什么
智能技術(shù)確保了人與機(jī)器能夠順暢地對(duì)話和交互。云端服務(wù)整合能力,則決定機(jī)器在聽(tīng)懂人話之后能做什么。
Siri相比Google Now的劣勢(shì)是,許多Siri無(wú)法回答的問(wèn)題,Google Now可通過(guò)搜索解決。Amazon Echo之所以有很大價(jià)值,在于其能夠去Amazon網(wǎng)站下單購(gòu)物。這些均體現(xiàn)了云端的服務(wù)整合能力,正是意識(shí)到這一點(diǎn)的重要性,今年的WWDC上蘋(píng)果決定開(kāi)放Siri給開(kāi)發(fā)者,讓開(kāi)發(fā)者來(lái)豐富Siri的服務(wù)。
云端服務(wù)上,搜狗擁有搜狗地圖、搜狗搜索、搜狗號(hào)碼通、搜狗問(wèn)問(wèn)、搜狗百科等產(chǎn)品,未來(lái)搜狗語(yǔ)音還可整合其伙伴如京東、知乎、騰訊的諸多服務(wù),比如QQ音樂(lè)、騰訊視頻、京東購(gòu)物等等,甚至用語(yǔ)音給微信好友點(diǎn)個(gè)贊。相對(duì)來(lái)說(shuō),互聯(lián)網(wǎng)巨頭云端服務(wù)整合能力更強(qiáng),搜索引擎憑借著強(qiáng)大的內(nèi)容整合和服務(wù)連接能力表現(xiàn)又更突出。
僅僅是整合“在線服務(wù)”并不足夠,互聯(lián)網(wǎng)巨頭要做語(yǔ)音,下一步重點(diǎn)將是努力去與實(shí)體世界服務(wù)實(shí)現(xiàn)整合,比如讓用戶能夠通過(guò)語(yǔ)音訂外賣(mài),可以通過(guò)語(yǔ)音打開(kāi)門(mén)禁,通過(guò)語(yǔ)音來(lái)打開(kāi)車(chē)窗……整合方式有兩種方向:一種是手機(jī)App與各種服務(wù)連接起來(lái);還有一種是語(yǔ)音inside各種硬件之中,例如機(jī)器人,汽車(chē)等等??傊?,整合實(shí)體世界服務(wù)之后,語(yǔ)音就不會(huì)只是回答用戶的問(wèn)題,而是要幫助用戶完成任務(wù),成為全能助理。
語(yǔ)音市場(chǎng)在AlphaGo掀起人工智能熱潮之后又迎來(lái)新的發(fā)展契機(jī),語(yǔ)音正在徹底顛覆人與機(jī)器的交互方式,百度和搜狗為代表的中國(guó)科技巨頭正在輸入、汽車(chē)等場(chǎng)景上尋求突破,在智能技術(shù)和云端服務(wù)上進(jìn)行雙重布局。不過(guò),要讓麥克風(fēng)取代鍵盤(pán),科技巨頭還有很長(zhǎng)的路要走,可謂任重道遠(yuǎn)。
微博@互聯(lián)網(wǎng)阿超 微信 羅超(luochaotmt)
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋(píng)果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢(qián)通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購(gòu)和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營(yíng)
- 蘋(píng)果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過(guò)熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長(zhǎng)?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無(wú)人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開(kāi)展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車(chē)整車(chē)股盤(pán)初強(qiáng)勢(shì)拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。