普惠、克制,和天貓精靈累計銷售額破100萬后,接受鋅財經(jīng)專訪時一樣,淺雪在阿里巴巴人工智能實驗室2018春季發(fā)布會,及之后的采訪中,反復強調(diào)著這兩個詞。
不一樣的是,曾經(jīng)說要給產(chǎn)品做減法,不做視覺、手勢識別,不把所有黑科技一股腦丟進去,閃瞎用戶雙眼的她,在百度正式發(fā)布智能視頻音箱“小度在家”的前72小時,宣布發(fā)布人機交互系統(tǒng)AliGenie2.0,在聽和說的基礎上引入了視覺能力。
這意味著,通過天貓精靈XHolder包含的二維碼,建立XHolder與天貓精靈的第一次連接后,手機可直接用作屏幕,體驗“精靈火眼”帶來的視覺能力。換句話說,天貓精靈在幾乎沒有增加硬件設備成本的情況下,具備了視覺識別能力。
這一次,阿里這個中國智能音響市場的后入局者,搶在了所有人前面,試圖以在兩三年前被證偽的視覺交互,重新定義人機交互方式,并用最低的成本顛覆競爭對手的下一代產(chǎn)品。
在此之前,通過狼性的打法,他們達成的成績是:上市的200多天里,銷量突破200萬臺,連接家用電器4500萬臺,執(zhí)行任務9億次,回答問題1億次,講笑話1296萬次,逗樂人類347萬次……
每一個簡單粗暴的數(shù)字背后,都有著更深的意味。比如全球市場,最暢銷的智能音箱亞馬遜Echo,達到這一200完萬臺的銷售,用了一年多時間,由此得出的結(jié)論是,在中國做智能音響或許不是偽命題;業(yè)內(nèi)人士默認,目前最優(yōu)智能家居生態(tài)構(gòu)建者,小米可連接設備8500萬臺,近一半是路由器和手環(huán),而天貓精靈4500萬可連接的設備均為家用電器………
在雙11以粗暴的價格拉動消費,反逼著供應鏈往前跑后,AliGenie2.0這樣的系統(tǒng)升級,以及同時發(fā)布的搭載AliGenie2.0系統(tǒng)的天貓精靈曲奇版、天貓魔屏S1和天貓路由器,將給產(chǎn)業(yè)鏈帶來又一次沖擊。
“這是懂商業(yè)的技術(shù)公司,靠著強悍的資源市場突破能力,進行的一場降維打擊?!?/strong>發(fā)布會結(jié)束后,有同行這樣評價。
下面是發(fā)布會結(jié)束后,鋅財經(jīng)做的進一步采訪。
阿里巴巴人工智能實驗室負責人 | 淺雪
Q:一下子發(fā)布三款產(chǎn)品,背后的邏輯是什么?
A:三款產(chǎn)品相互之間是有一定關(guān)聯(lián)的:天貓精靈曲奇是輸入設備,天貓路由器是鏈接設備,天貓魔屏是輸出設備,這恰恰是人機交互里面比較關(guān)鍵的三個點。
也就是說,我們將語音交互、視覺交互、機器行動力結(jié)合在一起,推動家庭智聯(lián)網(wǎng)的落地,而不是什么品類都亂入。
Q:不是什么品類都亂入?具體而言,邊界在哪?
A:我并不想給自己設一個限制。
本質(zhì)上來講,我們的關(guān)注點在于整個系統(tǒng)上,而不是硬件的邊界,這兩種思維方式是不太一樣的。硬件可以有很多種變形,比如天貓精靈火眼完全可以變成另外一個樣子,但是這個系統(tǒng)是唯一不變的東西。
Q:為什么不直接推出帶屏幕版的智能音箱?
A:我理解的人工智能,第一是計算量,第二是有認知能力。單純做硬件的疊加(加一塊屏幕),是非常簡單的事,但只有屏幕沒有認知能力是假人工智能。
如果是其他廠商做,在硬件上可能會用非常好的攝像頭,用非常好的傳感器、屏幕來降低挑戰(zhàn)和難度。但我們強調(diào)的是惠普科技,我們要做的是讓天貓精靈在幾乎沒有增加硬件設備成本的情況下,具備視覺識別能力。
Q:智能音箱市場的終局會是什么樣?
A:智能音箱市場處于起步階段,但“百箱大戰(zhàn)”的情況不會持續(xù)很久。
未來的競爭會在三個維度:產(chǎn)品、場景、生態(tài),產(chǎn)品體驗是核心,既包括產(chǎn)品本身的體驗,也包括系統(tǒng)的能力。大多數(shù)沒有技術(shù)投入、生態(tài)建設的產(chǎn)品會很快死掉,最終可能會留下兩到三家。
阿里巴巴人工智能實驗室產(chǎn)品總監(jiān) | 釋空
Q:很多硬件廠商的做法都是軟件套盒子,真的那么簡單嗎?
A:是這些廠商不太負責任。就我自己來說,先試著跟別人合作,后來自己做系統(tǒng)、做硬件,可以說研發(fā)這個產(chǎn)品整整耗了三年的青春。如果只做系統(tǒng),不把產(chǎn)業(yè)鏈完整地走一遍,可能真的發(fā)現(xiàn)不了軟件和硬件適配的問題,只有你自己挽起袖子,弄臟雙手,才會知道里面到底有多少坑要走。
我說一個很小的點:為了天貓精靈的音效最優(yōu),我們在深圳泡了七天左右,其中兩天是24小時通宵的,就為了調(diào)麥克風消噪和敏感度。出來之后,基本上是誰都別跟我說話的狀態(tài)。
Q:天貓精靈火眼誕生的背后有哪些故事?
A:第一,為什么要做?;鹧巯到y(tǒng)的誕生,比天貓精靈的語音系統(tǒng)還要久。我們先推出了更成熟的語音系統(tǒng),但在這個過程中并沒有放棄對視覺的思考。包括在去年,我們已經(jīng)做過預告,未來的機器交互一定是具備五官能力的。未來幾年,我們還會延著這樣的方向探索,只是說技術(shù)能不能有合適的場景拿出來給用戶使用,如果沒有,我們就先憋著。
第二,我們在做的過程中,關(guān)于要不要帶屏,內(nèi)部有非常大的爭議,最后我們選擇用XHolder加火眼做這個嘗試。兼容現(xiàn)有的產(chǎn)品,其實是最難的,比完全從零開始開模具難太多。最開始我們配有一個轉(zhuǎn)折鏡,能夠把桌面上任何東西投射到攝像頭里,在不知道開了多少次模后,我們選擇把鏡子拿掉了,當時技術(shù)人員就炸了,說沒法兒做,他們最后還是被反逼著不知道打磨了多少遍,才成功。
Q:視覺能力需要大量現(xiàn)實場景的圖像數(shù)據(jù),現(xiàn)在,阿里有足夠的訓練素材了嗎?
A:我們的視覺識別分為兩個,一個是2D識別,一個是3D識別?,F(xiàn)場演示的藥盒、圖書、卡片,更多是2D,這一塊的圖像數(shù)據(jù)主要采用眾包的形式,數(shù)據(jù)也比較多。
關(guān)于3D識別,仍然沒有解決大規(guī)模商用的技術(shù)問題,而且3D的圖像素材,現(xiàn)在整個行業(yè)都是缺的。
阿里巴巴人工智能實驗室北京中心首席科學家 | 聶再清
Q:天貓精靈和別的智能音響比,在技術(shù)上有什么優(yōu)勢?
A:打比方說有一個東西叫情景感知。我們會知道大部分用戶在做這件事情的時候,他到底還會做什么事情,然后主動做一些動作。比如,你問了天氣,如果知道要下雨的話,我可能會提醒你不要忘記帶傘。
另外還有主動學習的能力。自然語言很大的難點來自于它的多樣性,一個意思可能有無數(shù)種說法,那么,怎么通過開發(fā)人員跟大數(shù)據(jù)的交互,主動進行挖掘,把各種說法都完善了,讓機器能聽懂。
這是我們技術(shù)上的優(yōu)勢。
Q:具體落到語音識別這一塊,天貓精靈具備了怎樣的能力?
A:我把對話分為四種。
第一種,任務完成型。用戶想讓天貓精靈做這件事,那就必須把這件事做了。
第二種,知識問答型。用戶有一個問題要問天貓精靈,我們就要用上所有我們知道的知識圖譜,去回答用戶的問題。這種情況下,就不用重復喚醒天貓精靈這個動作了。
第三種,智能聊天型。用戶腦子里面沒有一個任務要我們完成,他也沒有問題,就是想和天貓精靈聊聊天打發(fā)打發(fā)時間。
第四種,閑聊。來一句話,不管是用戶離得很遠,還是有口音,都得接住。
現(xiàn)在,這四種類型我們都具備,包括其實天貓精靈第一次喚醒之后,在2.5秒左右的范圍內(nèi)能跟你連續(xù)對話。具體什么時候放出來要聽釋空的。
Q:將視覺與語音打通的最大技術(shù)難度是什么?
A:首先,視覺效果與語音的同步,要求極高的實時性。
其次,視覺需要理解語音返回的結(jié)果,包括意圖、情緒等等,邏輯處理復雜。而純粹的語音技術(shù),終端往往只需要執(zhí)行音頻資源的播放控制即可。
除此之外,還有很多,比如 聲紋和人臉如何很好的互補或結(jié)合,識別不同的物體,在不同距離,不同角度,不同光線情況下,都能識別成功……
文章∣詩琦
編輯∣陵魚
攝影∣黃碩
手繪∣陵魚
?本文版權(quán)歸“鋅財經(jīng)”所有
部分圖片來自網(wǎng)絡
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。