【網易智能訊 8月11日消息】人工智能語音設備不僅僅是一臺可以表達觀點的自動唱機,它們很可能成為人機互動的主要方式之一。
Alexa的誕生與技能擴張
2012年8月31日,四名亞馬遜工程師注冊了一項基礎性專利,這項專利的內容日后最終演變成了Alexa。專利涉及了一種人工智能系統,該系統旨在與人類語言,這一世界上最大、最復雜的數據集進行互動。工程師當時只需要使用11個單詞和一個簡單的圖表就能描述它的工作原理。
一個男性用戶在一個安靜的房間里說:“請播放甲殼蟲樂隊的Let It Be。”
一臺小型臺式電腦回答說:“沒問題。”
然后系統開始播放這首歌曲。
由此開始,家用語音人工智能成為了亞馬遜的一項重要業(yè)務,而這一領域也成為亞馬遜與其科技界的競爭對手們較量的重要戰(zhàn)場。谷歌,蘋果、三星和微軟都在這一領域投入了上千名研究人員和商業(yè)專家,以期待制造出可以同人類進行交流,且便于使用的強大設備。
直到現在,我們還必須去打字、敲擊或者滑動來解鎖設備和操作。而目前,新的用戶界面正在逐漸適應人類,Witlingo公司的首席執(zhí)行官Ahmed Bouzid說道。該公司制造了各種各樣適用于銀行、大學、法律公司和其他企業(yè)的語音驅動應用程序。
對于亞馬遜來說,其最初只是想制造一個自動唱機,但后來這一項目變得越來越大:它變成了一種基于人類數據并且可以不斷學習的人工智能系統。它生產的Echo和體積更小的Dot是無處不在的家庭好幫手,它們可以關燈,講笑話,或者讓你不用手就能知曉天下事。
他們還收集了大量關于用戶的數據,這些數據被用來改善設備本身,并增加他們的功能。自2014年上市以來,已經售出了上千萬臺的Alexa設備。據第三方機構統計,亞馬遜目前已經占據了美國人工智能語音設備70%的市場。
(圖:溝通的原則:亞馬遜設備能聽懂的指令越來越多,以下是當你想讓它調整房間燈光亮度時,一些可以奏效或不能奏效的指令,紅色為不能奏效的)
目前,Alexa同超過50種智能照明系統合作,包括飛利浦、通用電氣和宜家等。 2016年,德語版的Alexa誕生,其他非英語語種的Alexa也將陸續(xù)誕生。但是,亞馬遜并沒有試圖從可與Alexa相連接設備的制造商那里獲得收入,這些設備包括智能恒溫器、燈泡等。不過,照這樣的趨勢發(fā)展,未來亞馬遜與這些公司之間很有可能會簽訂收入共享合同或者是采取其他的支付方式。這三個市場中最小的一個是家庭自動化市場,在這一市場中每年的支出已經超過了50億美元,而去年美國的零售總額為4.9萬億美元。
如今,亞馬遜通過出售這些設備來賺錢,設備的價格從50美元到230美元不等,最高端的Echo show產品帶有視頻屏幕。如果選購這些設備的用戶最終在亞馬遜龐大的網上商店中購買了更多的商品,那么亞馬遜就能再賺上一筆(不過亞馬遜是不會透露這些數據的)。若要讓Echo像智能手機那樣普及,他們還需要更多的努力。為此,亞馬遜鼓勵獨立開發(fā)者在其平臺上開發(fā)新服務,正如蘋果長期以來與所做的那樣。
到目前為止,已經出現了超過15000個這樣的“技能”或應用程序。應用程序構建工具十分易于使用,以至于不具備太多知識的人現在可以在大約一小時內打造出一個簡單的技能。其中最受歡迎的應用是優(yōu)步和Lyft的叫車服務。而Duds擁有48種不同的技能,可以以狂轟濫炸之勢詆毀它的聽眾。
而那些最具雄心的開發(fā)商中包括了制造、銷售與Alexa配合的硬件或服務的公司。例如,CapitalOne向其銀行客戶提供基于Alexa的賬單支付服務。而總部位于多倫多的Ecobee公司是一家智能恒溫器制造商,該公司生產的恒溫器可以受Alexa控制,用戶可以僅僅通過幾個簡單的指令就能夠提高或降低室溫。
“我們的客戶都很忙,”Ecobee的首席執(zhí)行官StuartLombard說。該公司現在從其與Alexa合作的產品中獲得的銷售額占總銷售額的40%,這些產品也成為了該公司10年來增長最快的業(yè)務。
“為了回家,他們不得不忍受交通擁堵,然后他們還要給孩子們喂飯,換尿布,誰知道還要干什么別的。”
“我們讓他們不用雙手就能完成一些工作,這樣他們就可以‘多管齊下’了。”
Google Home也有了數百萬的銷量,蘋果和微軟也在研發(fā)他們自己的設備。這些努力的最終回報是有機會可以占領或至少可以影響三個重要的市場:家庭自動化、家庭娛樂和購物。
雖然可能沒有太多人愿意和他們的冰箱交談,但不可否認的是,生活方式在發(fā)生巨大改變。正如同智能手機改變了生活的方方面面,語音人工智能設備也在變革著我們的居家生活。為什么需要從床上爬起來去鎖門,或者是在大冷天還要去手動開啟車上的暖風呢?Alexa或是它的“親戚”們就能幫你做這些事了。
當話語遇見AI
基于語音的人工智能技術之所以如此吸引消費者,是因為它滿足了人類的要求:它按照人類的交流方式進行交流和思考,而使我們不再需要在鍵盤或屏幕上打字。
但這樣的技術同時也很難打造。人類在說話時完全不考慮規(guī)律性。相反,我們打斷自己的話。我們的思維時常反反復復。我們還常常莫名其妙地說出一些只言片語,有時點頭有時搖頭,甚至有時支支吾吾說不出話。對于人類,有時明明是在胡說八道,我們仍相信自己說的話有道理。
數千名亞馬遜員工正在努力應對這一挑戰(zhàn),這包括在其位于西雅圖、加州森尼維爾和馬薩諸塞州劍橋等地研究中心的研究人員們。即便如此,亞馬遜最近還在為1100個分布在各個部門的、和Alexa相關的工作崗位進行招聘,其中包括215個機器學習專家職位。在公司位于劍橋的辦公室召開的一次會議上,經過詢問Alexa的首席科學家RohitPrasad關于為什么他需要這么多的人,以及他的研究團隊何時才能完全建成等問題。Prasad回答說:“你的問題在我聽來簡直太好笑了。我已經從事了20年的語音技術研究工作,絕大多數時候,我們取得進展的速度都非常緩慢。然而,在過去的五年里出現了很多難逢的良機。”
發(fā)明一個真正奏效的語音激活式人工智能系統是一個非常復雜且尚未被攻克的難題。在過去,語言科學家們在試圖一次性確定雜亂語句的具體含義時遇到了困難。而現在,新的機器學習方法另覓蹊徑,以期待能解決這一問題:他們在一開始時就著手處理那些不完美的詞語搭配,繼而通過臨時性的猜測快速調整這些搭配。
Prasad表示:“問題的關鍵是具備處理大量用戶數據的能力,并可以從之前的錯誤中吸取教訓。隨著Alexa同用戶相處的時間增加,它收集到的數據會越來越多,它也隨之變得越來越聰明。伴隨著這些進步,越來越多的機會出現,隨之而來也需要越來越多的人力。”這也就是為什么需要招聘這么多人的原因。
“讓我給你舉個例子,”Prasad說,“如果你問‘阿黛爾的第一張專輯是什么’?答案應該是《19》。如果你說‘播放它’,那么Alexa就可以獲得足夠多的信息,并開始播放那張專輯。但如果有一些對話式的玩笑夾雜其間會怎么樣呢?如果你先問一下專輯是哪一年出版的,它賣了多少張,又會發(fā)生什么呢?如果進行了上述對話,最后用一個具有困惑性的‘播放它’結束,那么早期版本的Alexa可能就會被難住。而現在這項技術可以遵循一種思維方式,這使得它至少在部分時間可以意識到‘播放它’中的‘它’仍然意味著專輯《19》。”
這種改進來自于機器學習技術對于此前數千次類似交流的反思,在這些交流中Alexa被搞糊涂過。系統了解了用戶真正想聽的是哪首歌曲,以及具體是在之前對話的什么地方出現了那首歌曲的名字。麻省理工學院口語系統小組的負責人JamesGlass說:“一開始你需要做一些關于人們如何提要求的假設,然后收集數據,對你的模型進行調整。”Glass表示,這種機器學習方法得到了廣泛的認可,但如果想讓它發(fā)揮作用,那需要的數據則遠遠超過了大學研究人員所能掌握的。
隨著Alexa的使用量激增,亞馬遜現在擁有了一個巨大的人機對話數據庫——這讓它在改進語音技術方面擁有了一定的優(yōu)勢,而谷歌長期以來一直憑借其文本搜索查詢獲得的數據進行這樣的改進。外部數據也是有幫助的:例如,2016年一個龐大的歌詞數據庫被載入了Alexa中,這可以幫助確保當客戶提出想聽“drovemyChevytothelevee”(歌曲《American Pie》中的歌詞)時,系統可以自動播放歌手DonMcLean的名曲《American Pie》。
Prasad團隊的一個最新項目凸顯了這一方法的靈活性。這一項目致力于破解用戶在何時會重新提及他們之前提過的要求。提示方式可能千差萬別:有些人常說“不,不,不”,但另一些人偏向于使用“停止那個”,也有人喜歡嘗試不同的表達,比如“等一下,實際上,我是想這么做”。但Alexa不需要解碼所有的話語。大規(guī)模的樣本數據和半監(jiān)督式機器學習使系統能夠勾畫出一組可能的否定性語言標記,之后它可以在這些表達出現變化時,從這組標記中找到一個易于理解的新的請求方式。
除了將Alexa打造成一個更好的聽眾之外,亞馬遜的人工智能專家還在使用大量的數據來讓它成為一個更好的演講者,對機器合成女聲的話語節(jié)奏進行調整,以使其可以更好地被使用。傳統的語音合成依靠的是將眾多被記錄下的人類語言片段進行融合。雖然這種技術可以產生一種相當自然的聲音,但它并不能表達竊竊私語、諷刺或其他類型的話語模式,而這些模式在人類交談中會被使用到。為了繼續(xù)加強Alexa對于從活潑的對話到深沉的朗誦等不同類型話語的把控能力,亞馬遜的機器學習算法采取了不同以往的方法去訓練Alexa,使其能夠掌握或急切或焦慮等聽起來很逼真的聲音,那聽起來就像是專業(yè)的播音員發(fā)出的。
據悉,亞馬遜擁有自己的有聲讀物出版機構Audible,這對這項研究有所幫助。
如何幫助更多人
語音人工智能技術最熱情的使用者是那些無法輕易在手機或平板電腦上打字的人。據外媒報道,費城的Inglis公司為殘疾人提供住房和其他服務,其首席執(zhí)行官Gavin Kerr在8個居民住宅中安裝了亞馬遜Echo和Dot設備。他希望在先期試點測試完成后,最終可以為所有300座住宅全部配備這樣的設備。“這對當地居民來說是一個難以置信的好消息,”Kerr說,“他們會過得更舒服。因為這使得他們可以‘獨立’”。
據悉,Kerr公司的服務對象是數百名患有多發(fā)性硬化癥或其他身體衰弱狀況的人。對于那些臥床不起或坐著輪椅的人來說,夠不到墻上的溫度控制器是非常痛苦的。“他們因為身體問題,很難調節(jié)室內室溫,”Kerr解釋道。“而72華氏度的房間對他們來說可能一會覺得熱,一會覺得冷”。由于行動障礙,他們很難讓室溫保持舒適,特別是在沒有全天候護理人員的情況下。
在對Alexa進行一些小改動后,它就可以為那些語言功能嚴重受限的人群提供服務了。Kerr提到了一個快四十歲男人的故事,這名男士想要離開長期護理機構,重返日常生活。Kerr回憶道:“他告訴我們,我永遠都無法說出Alexa的指令。”于是我們問他:“你能說什么呢?然后我們重新修改了軟件,這樣Alexa就可以根據他的情況工作了?,F在當他想打開廚房燈時,他可以說‘媽媽’,當他想打開浴室燈時,他可以說‘約翰’。”
盡管Inglis公司為新的Echo用戶提供了四個小時的培訓,但通常是靠新用戶是自己探索發(fā)現的。將新的Echo從包裝盒里拿出來,包裝上會特別說明一些常見的功能,比如播放音樂、設置鬧鐘或更新購物清單。對產品有良好了解的用戶可以通過他們筆記本或智能手機進入Alexa的控制界面,以修改設置,尋找新的應用程序,或者了解如何讓一款應用最好地發(fā)揮作用。
六月,在一篇閱讀量很高的博客中,微軟的產品經理Darren Austin寫道,Alexa取得的更大的成功在于它能夠緩解過于忙碌的生活帶來的壓力,它是一個可以隨時幫助你的好伴侶。他說:“通過簡單的提問,Alexa可以解決因為不確定性而帶來的負面情緒和人們對遺忘的恐懼。”他說用戶們喜歡隨時給Alexa出一些難題,或者將自己的愿望告訴它,而它就是一個隨時都可以跟你互動的好伙伴。
Alexa的總經理Rob Pulciani通常會每周或更頻繁地查看關于Alexa和Dot用戶最常用語言的總體數據統計。通常情況下,這一列表的頂部是對于音樂、新聞、天氣、交通和游戲的請求。然而,今年春天,列表上卻出現了一個新晉“熱詞”。這個熱門短語就是“Alexa,幫我放松一下。”
當用戶發(fā)出這個請求時,他們會聽到一系列令人情緒舒緩的聲音:小鳥唧唧喳喳地叫著,遠處的海浪沖擊著海岸,或是貨運列車隆隆地穿過黑夜。如果用戶要求,這樣的聲音可以持續(xù)播放幾個小時。當這些應用程序在2015年第一次出現在Alexa的平臺上時,Pulciani覺得這只是小眾人群的“怪癖好”。但這些應用很快就獲得了大批追隨者,壓力纏身的成年人會聽著這些聲音入睡。父母們會把它們變成搖籃曲的替代品。
當Pulciani發(fā)現這一點之后,他和他的同事們在幾周內對Alexa的內部結構進行了調整,以使新的Echo買家可以迅速發(fā)現這些撫慰人心的聲音,在他們要求系統推薦新技能以供嘗試時,這一功能會被推薦給他們。
下一個目標:持續(xù)性對話
在研究中,谷歌、蘋果、微軟和亞馬遜的人工智能平臺顯示出了不同的優(yōu)勢。其中,谷歌助理在大范圍搜索指令上表現最出色。而蘋果的Siri和微軟的Cortana在其他一些方面天賦異稟。但在購物指令方面,Alexa表現最佳。
具備與用戶進行一場合理的、持續(xù)多分鐘的對話將會是語音人工智能技術的終極目標。這樣宏偉目標的實現要求機器具備非常強的意圖識別能力,即便是說話人沒有提出明確的要求。如果一個人說“我?guī)字軟]去健身房了”,那他的朋友可能會猜出來他想要談談自己面對的壓力或者是與自尊心相關的話題。對于人工智能軟件來說,這一關卻很難過。對于話題的突然轉換,或者隱晦的暗示,人工智能也很難理解。
為了加強其與新一代人工智能和語音技術研究人員的聯系,亞馬遜在一年前邀請了世界各地十幾所大學工程專業(yè)的學生,讓他們制造能進行20分鐘對話的語音機器人。在今年11月截止之前,取得最大進展的學校將獲得50萬美元的獎金。
研究人員在用一個周末的時間測試了6個這樣的機器人,對他們提出各種問題,包括簡單的請求和較為復雜的開放式觀點陳述,而后者可能會有很多種回復方式。
一個機器人問:“你最近看了什么電影嗎?”這是個良好的開局。
“是的,”研究人員回答,“我們看了《隱藏人物》。”
對于這部講述NASA早年歷史,風格深刻而辛辣的電影,機器人并沒有做出與報刊影評類似的評論。相反,這個社交機器人回復說:“我覺得《隱藏人物》對數學問題的處理上沒有太多說服力。”
這可不是研究人員對這部電影的觀點,但對一個人工智能程序來說,這樣的回應似乎很可愛,也很合理。之后的交談很快結束了,但至少人機之間擁有了一個短暫而美好的瞬間。可惜的是,其他機器人都無法做到這一點。最令人困惑的一個回答是“你喜歡吃路邊攤嗎?”而研究人員想跟他談的話題和網站有關。但當人類可能是說到了機器人的局限性時,這一話題似乎有點尖銳,卻得到了驢唇不對把嘴地反問“你們能進行集體協商嗎?”
幾天后,當研究人員向亞馬遜公司的Prasad詢問他對社交機器人的看法時,他卻表示并不為智能機器人早期的挫折而感到失望。“這是一個非常重要的領域,”Prasad告訴我。“而在這些領域Alexa可以繼續(xù)提升,變得更智能。”
但這比下圍棋或象棋要難多了。因為在這些游戲中,即使有很多可能的動作,但你知道游戲最終的目標是什么。而在對話中,你可能甚至都不知道對方想要達到什么目的。當Alexa最終能夠解決這個問題時,我們就能實現真正的交流了。
【網易智能訊 8月11日消息】人工智能語音設備不僅僅是一臺可以表達觀點的自動唱機,它們很可能成為人機互動的主要方式之一。
Alexa的誕生與技能擴張
2012年8月31日,四名亞馬遜工程師注冊了一項基礎性專利,這項專利的內容日后最終演變成了Alexa。專利涉及了一種人工智能系統,該系統旨在與人類語言,這一世界上最大、最復雜的數據集進行互動。工程師當時只需要使用11個單詞和一個簡單的圖表就能描述它的工作原理。
一個男性用戶在一個安靜的房間里說:“請播放甲殼蟲樂隊的Let It Be。”
一臺小型臺式電腦回答說:“沒問題。”
然后系統開始播放這首歌曲。
由此開始,家用語音人工智能成為了亞馬遜的一項重要業(yè)務,而這一領域也成為亞馬遜與其科技界的競爭對手們較量的重要戰(zhàn)場。谷歌,蘋果、三星和微軟都在這一領域投入了上千名研究人員和商業(yè)專家,以期待制造出可以同人類進行交流,且便于使用的強大設備。
直到現在,我們還必須去打字、敲擊或者滑動來解鎖設備和操作。而目前,新的用戶界面正在逐漸適應人類,Witlingo公司的首席執(zhí)行官Ahmed Bouzid說道。該公司制造了各種各樣適用于銀行、大學、法律公司和其他企業(yè)的語音驅動應用程序。
對于亞馬遜來說,其最初只是想制造一個自動唱機,但后來這一項目變得越來越大:它變成了一種基于人類數據并且可以不斷學習的人工智能系統。它生產的Echo和體積更小的Dot是無處不在的家庭好幫手,它們可以關燈,講笑話,或者讓你不用手就能知曉天下事。
他們還收集了大量關于用戶的數據,這些數據被用來改善設備本身,并增加他們的功能。自2014年上市以來,已經售出了上千萬臺的Alexa設備。據第三方機構統計,亞馬遜目前已經占據了美國人工智能語音設備70%的市場。
(圖:溝通的原則:亞馬遜設備能聽懂的指令越來越多,以下是當你想讓它調整房間燈光亮度時,一些可以奏效或不能奏效的指令,紅色為不能奏效的)
目前,Alexa同超過50種智能照明系統合作,包括飛利浦、通用電氣和宜家等。 2016年,德語版的Alexa誕生,其他非英語語種的Alexa也將陸續(xù)誕生。但是,亞馬遜并沒有試圖從可與Alexa相連接設備的制造商那里獲得收入,這些設備包括智能恒溫器、燈泡等。不過,照這樣的趨勢發(fā)展,未來亞馬遜與這些公司之間很有可能會簽訂收入共享合同或者是采取其他的支付方式。這三個市場中最小的一個是家庭自動化市場,在這一市場中每年的支出已經超過了50億美元,而去年美國的零售總額為4.9萬億美元。
如今,亞馬遜通過出售這些設備來賺錢,設備的價格從50美元到230美元不等,最高端的Echo show產品帶有視頻屏幕。如果選購這些設備的用戶最終在亞馬遜龐大的網上商店中購買了更多的商品,那么亞馬遜就能再賺上一筆(不過亞馬遜是不會透露這些數據的)。若要讓Echo像智能手機那樣普及,他們還需要更多的努力。為此,亞馬遜鼓勵獨立開發(fā)者在其平臺上開發(fā)新服務,正如蘋果長期以來與所做的那樣。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 蘋果CEO庫克盛贊MacBook Pro:樹立筆記本行業(yè)新標桿
- 性能之光 年度電競性能旗艦iQOO 13發(fā)布 3999元起
- 曝各大廠商正在籌備7000mAh電池新機:OPPO/一加或率先領銜
- 蘋果在印度的iPhone出口額激增,半年內接近60億美元
- 蘋果M5芯片預計2025年底推出,將采用臺積電3nm制程
- 蘋果發(fā)布2024款24英寸iMac:搭載M4芯片,起售價10999元
- 蘋果iOS/iPadOS 18.1亮點更新:通話錄音功能上線,Apple Intelligence初登場
- 三季度國內市場智能手機出貨量報告:蘋果iPhone排名第二,vivo領跑
- 蘋果或將于明年發(fā)布致敬iMac G4設計的智能家居顯示器
- 三季度中國學習平板賣出122.6萬臺,同比大增38%
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。