亞馬遜在蘋果、谷歌前找到了語音識別的答案,它是怎么做到的?

序 · Fire Phone失敗了,但Echo成功了

兩年前,亞馬遜經(jīng)歷了一場戲劇性變化——被寄予厚望的智能手機(jī)Fire Phone在上市遭遇慘敗,幾個月后推出的智能音箱Echo卻大獲成功。亞馬遜沒有花費(fèi)太多時間思考,很快作出決定:放棄Fire Phone,押注Echo。一年之后,它收到了Echo結(jié)出的成功果實(shí):

- 據(jù)研究機(jī)構(gòu)CIRP的統(tǒng)計,Echo上市一年多后,銷量已經(jīng)突破300萬臺。僅僅是2015年暑假,亞馬遜就賣出超過100萬臺Echo

- 2015年3月-12月,Echo的用戶認(rèn)知度從20%提升至47%。今年6月公開的新銷售計劃顯示,亞馬遜計劃在2017年賣出第1000萬臺Echo

難能可貴的是,Echo在實(shí)現(xiàn)高銷量的同時還保持著出色的口碑——它在亞馬遜的頁面下?lián)碛谐^40000條用戶評論,評分達(dá)到4.4星。贊美之詞不勝枚舉。

一 · 語音識別:亞馬遜“后發(fā)制人”

Echo不是一臺傳統(tǒng)音箱,亞馬遜在里面注入了最新的語音識別助手“Alexa”。除了聽音樂,用戶還能用Echo叫外賣、打車、安排日程、查詢天氣——你只需對著它說出命令即可。

智能手機(jī)的故事已經(jīng)基本講完,行業(yè)將迎來人工智能的高速發(fā)展。蘋果、谷歌、微軟……人們熟知的硅谷巨頭都在調(diào)轉(zhuǎn)船頭,發(fā)力人工智能。

語音識別被認(rèn)為是人工智能的核心應(yīng)用之一。蘋果在亞馬遜三年前就推出了智能語音產(chǎn)品;谷歌稍晚,但也比亞馬遜早兩年。然而現(xiàn)在亞馬遜憑借Echo實(shí)現(xiàn)“后發(fā)制人”,谷歌已經(jīng)成為它的模仿者。

它是怎么做到的?

二 · 只提供一種交互,迫使用戶使用語音

如何讓用戶使用語音服務(wù)?蘋果和谷歌采用了相同的方案。它們將語音服務(wù)整合進(jìn)手機(jī)系統(tǒng)內(nèi),通過高使用頻率的手機(jī)來帶動用戶對語音服務(wù)的使用。

但問題是,智能手機(jī)擁有成熟的輸入方案——文字輸入法比語音更便捷、更高效,語音服務(wù)缺乏足夠的使用理由。研究機(jī)構(gòu)Creative Strategies的調(diào)查顯示,62%的安卓用戶表示很少或偶爾使用語音助手,iPhone對應(yīng)的比例為70%。

為了“迫使”用戶使用語音,亞馬遜Echo只提供語音一種交互方案。除了揚(yáng)聲器和麥克風(fēng),Echo沒有其它交互接口。

Echo對交互的限制,保證了語音交互的純粹性和持續(xù)性:用戶只能使用語音,不會被其它輸入方式帶走。當(dāng)習(xí)慣養(yǎng)成后,他們會持續(xù)不斷地用語音與設(shè)備互動。

三 · 定位于家庭,緩解與機(jī)器對話的尷尬

只提供語音交互并非Echo成功的唯一因素。如果沒有解決用戶不愿使用語音的根本問題,這樣做可能會帶來另一個問題——用戶放棄使用產(chǎn)品。亞馬遜顯然不愿看到這樣的結(jié)果。

Echo成功的另一因素在于它定位于家居,而非個人助理。

Siri和Google Now定位于個人助理,于是它們依附于手機(jī),期待通過手機(jī)的高頻使用普及服務(wù)。但手機(jī)作為個人設(shè)備,多數(shù)情況下在公開場合下使用。在公開場合下用語音對手機(jī)發(fā)號施令,使用者很容易陷入尷尬。

Creative Strategies調(diào)查了300名手機(jī)用戶在公開場合下使用語音助手的比例。結(jié)果顯示,安卓用戶中,只有12%會在公開場合下使用語音助手;iPhone的比例更低,只有3%。

產(chǎn)品和使用場景沒有恰當(dāng)匹配,造成了Siri和Google Now的使用尷尬。

Echo采用了不同的產(chǎn)品定位,巧妙地避開了用戶使用語音助手的尷尬。它從一開始就定位于家庭設(shè)備——體積較大,不宜隨身攜帶;沒有獨(dú)立電池,必須連接室內(nèi)電源才能使用。盡管對著機(jī)器說話依舊怪異,但家庭環(huán)境緩解了用戶的使用壓力。用戶面對的是熟悉的家人而非公共環(huán)境下的陌生人。

四 · 提供針對性軟、硬件優(yōu)化,適時開放產(chǎn)品

在明確Echo的交互方式和產(chǎn)品定位之后,亞馬遜對它進(jìn)行了針對性的硬件和軟件優(yōu)化。

為了能讓用戶在家中的任何位置都能喚醒Echo,亞馬遜設(shè)計了一個名為ARS的自動語音識別處理系統(tǒng)。ARS由七個麥克風(fēng)和一個音頻信號過濾系統(tǒng)構(gòu)成。七個麥克風(fēng)組成的列陣能讓Echo捕捉到環(huán)境中的細(xì)微聲音,音頻信號過濾系統(tǒng)過濾掉環(huán)境噪音,從而辨別出人聲。使用ARS后,即使用戶在25英尺(7.62米)之外發(fā)出命令,Echo也能夠準(zhǔn)確識別。

識別之后,如何理解用戶的語音命令?亞馬遜又設(shè)計了“關(guān)鍵詞識別”系統(tǒng)。Echo收到的語音命令被系統(tǒng)拆分為多個字段,它們與云端儲存的關(guān)鍵詞模型逐一比對,匹配度最高的部分被認(rèn)為是用戶發(fā)出的語音命令。

在先后增加對多款智能家電的支持之后,2015年6月,亞馬遜推出了語音服務(wù)“Alexa”開發(fā)包,正式開放Echo。兩家為Echo開發(fā)音樂播放和家電控制服務(wù)的公司還獲得了亞馬遜提供的1億美元資金。

開放策略收效顯著。2015年,Echo整合的第三方服務(wù)只有14項,今年已經(jīng)上升至950項。目前這個數(shù)字在持續(xù)增長。

今年3月,亞馬遜又推出了兩款面向中、低端市場的智能音箱:Tap和Dot。Echo家族的設(shè)備和服務(wù)在不斷壯大。

結(jié)語 · 手機(jī)紅利消失,人工智能將啟航

2007年,第一代IPhone推出。在接下來的近十年里,它和安卓至少帶動了硬件銷售、移動通訊、電商、手機(jī)游戲四個領(lǐng)域的發(fā)展。移動互聯(lián)網(wǎng)風(fēng)生水起。

但高速發(fā)展之后,智能手機(jī)和它所帶動的相關(guān)產(chǎn)業(yè)都陷入了發(fā)展瓶頸。代表性的變化是,iPhone在今年第三季度的銷量下降15%,營收同比下滑23%。移動通訊、O2O、手機(jī)游戲等領(lǐng)域的格局也已基本確定,市場被大公司把持。

人工智能被認(rèn)為是下一個科技熱潮。語音、圖像識別,深度學(xué)習(xí)等技術(shù)將大大拓寬現(xiàn)有技術(shù)的應(yīng)用邊界,工業(yè)、農(nóng)業(yè)、醫(yī)療等互聯(lián)網(wǎng)化程度低的產(chǎn)業(yè)都將被重新改造。

作為核心技術(shù)之一,智能語音能夠應(yīng)用于汽車、通訊、企業(yè)服務(wù)等多個領(lǐng)域,它可以讓車主在駕車時與汽車互動,也可以改善智能手表等小屏設(shè)備的輸入體驗……人機(jī)交互將因此改變。

Echo讓智能語音的發(fā)展再進(jìn)一步。過去幾年,蘋果、谷歌都推出了自己的語音助手,但它們更多是手機(jī)的輔助,目的是讓手機(jī)更好用。Echo則不同,它完全為語音設(shè)計、不依賴手機(jī),同時成功地趕上了物聯(lián)網(wǎng)繁榮的時期。Echo的成功歸功于亞馬遜對產(chǎn)品定位、使用場景和市場前景的準(zhǔn)確判斷,這些經(jīng)驗會讓亞馬遜在未來人工智能的競爭中走得更加從容。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2016-08-16
亞馬遜在蘋果、谷歌前找到了語音識別的答案,它是怎么做到的?
兩年前,亞馬遜經(jīng)歷了一場戲劇性變化——被寄予厚望的智能手機(jī)Fire Phone在上市遭遇慘敗,幾個月后推出的智能音箱Echo卻大獲成功。

長按掃碼 閱讀全文