11月26日消息,在搜狐科技主辦的2019搜狐科技AI峰會(huì)上,搜狗公司CEO王小川表示,AI時(shí)代個(gè)人硬件趨勢(shì)是變得更IO,更便捷。
王小川認(rèn)為,音箱不會(huì)成為AI時(shí)代具有重大潛力的產(chǎn)品。雖然現(xiàn)在亞馬遜開了頭,但因?yàn)橐粝浔銛y能力不夠,不是跟著個(gè)人走的產(chǎn)品,也就是聲音進(jìn)去聲音出來,這樣的場(chǎng)景IO能力有限,后面的AI能力就會(huì)受到巨大的限制。
因此,王小川預(yù)言,未來五到十年間眼鏡可能會(huì)成為取代手機(jī)最重要的個(gè)人設(shè)備。
他認(rèn)為,關(guān)于互聯(lián)網(wǎng)和人工智能的未來,將從個(gè)人互聯(lián)網(wǎng)演變成為產(chǎn)業(yè)互聯(lián)網(wǎng),最終形態(tài)是IoT,商業(yè)邏輯也或從賦能于人變成商業(yè)智能再變成機(jī)器人。具體來說,語言AI的發(fā)展方向是自然交互+知識(shí)計(jì)算。
他談到,有了機(jī)器智能之后,已經(jīng)從人適應(yīng)機(jī)器,變成了機(jī)器適應(yīng)人。AI帶來的語音、圖像技術(shù)的突破,也會(huì)讓人們的生活更加便捷。
以下為王小川演講全文:
尊敬的各位嘉賓、各位朋友,很榮幸,也很有壓力在鄔院士之后做我的演講。我的主題分為兩個(gè)部分:語言AI,以及2020+,因?yàn)?030年太遠(yuǎn)了,也許這件事情2030年就干完了,所以就定在2020年。
在此之前搜狐科技的朋友都跟我說來點(diǎn)硬的,所以我?guī)砹诉@樣一款錄音筆,這是搜狗發(fā)布的硬件產(chǎn)品,也在“雙十一”的多個(gè)平臺(tái)銷量第一??梢钥吹竭@幾年當(dāng)中錄音筆是一個(gè)很小眾的市場(chǎng),2015年就開始有所下滑,每年銷量也就是400多萬支,但是搜狗為什么選擇這樣一件事情呢?因?yàn)?019年這個(gè)市場(chǎng)發(fā)生了逆轉(zhuǎn),圖中桔色的線是去年錄音筆市場(chǎng),可以看到由于手機(jī)的高度智能,這個(gè)市場(chǎng)開始減小,但是今年1-2月份搜狗發(fā)布新的產(chǎn)品之后,整個(gè)市場(chǎng)開始出現(xiàn)逆轉(zhuǎn),好像電商搜索平臺(tái)的量又開始增加了。我們也成立了AI創(chuàng)新聯(lián)盟,核心就是錄音相關(guān)的,也把索尼、愛國者、紐曼這些巨頭都組建起來,應(yīng)該說也是搜狗牽頭引領(lǐng)錄音筆行業(yè)發(fā)生的變化。
我們可以看到在這當(dāng)中有一個(gè)巨大的趨勢(shì),也就是兩個(gè)基本斷言,這個(gè)時(shí)代的硬件會(huì)呈現(xiàn)兩個(gè)特點(diǎn):一個(gè)是更加IO,一個(gè)是更加便攜,這是技術(shù)、網(wǎng)絡(luò)以及各種各樣硬的能力給我們帶來的變化。
回顧一下二十多年前,我們用的都是臺(tái)式機(jī),很重很笨,隨著技術(shù)的提升,一個(gè)巨大的提升就是更加的便捷化。以前的臺(tái)式機(jī)到筆記本、Pad和手機(jī),再往下開始出現(xiàn)手表,耳機(jī)今年也非?;穑偻驴赡芫褪茄坨R,所以硬件從計(jì)算力到連接能力以及AI化之后的一個(gè)趨勢(shì)就是更加便攜。另一個(gè)趨勢(shì)就是更加強(qiáng)調(diào)IO能力。以前都是一個(gè)鍵盤、一個(gè)鼠標(biāo)作為輸入,一個(gè)屏幕作為輸出,今天以手機(jī)為代表的大量虛擬觸屏和語音設(shè)備,也有強(qiáng)大的攝像頭,甚至開始有人臉識(shí)別、觸控模式,包括手表開始走向心律、心電圖的檢測(cè),就是越來越強(qiáng)調(diào)IO。個(gè)人判斷音箱不會(huì)成為AI時(shí)代當(dāng)中具有重大潛力的產(chǎn)品,雖然現(xiàn)在是亞馬遜開頭,因?yàn)橐粝浔銛y能力不夠,不是跟著個(gè)人走的產(chǎn)品,IO能力不足,也就是聲音進(jìn)去聲音出來,這樣的場(chǎng)景IO能力有限,后面的AI能力就會(huì)受到巨大的限制,我們預(yù)言未來五到十年間眼鏡可能會(huì)成為取代手機(jī)最重要的個(gè)人設(shè)備。
這些是我對(duì)人工智能和信息化的理解,也和鄔院士有所不同,代表著2C從業(yè)人員的判斷,如果有矛盾之處還是以鄔院士的為準(zhǔn)。要把人和簡單的設(shè)備連接在一塊,能夠發(fā)郵件、聊天、看新聞看視頻,這些已經(jīng)做得非常好了。有人說互聯(lián)網(wǎng)已經(jīng)進(jìn)入下半場(chǎng)了,好像做著做著就快沒了,只能往下深挖,但我并沒有看到瓶頸和限制,隨著5G和6G技術(shù)的出現(xiàn),網(wǎng)絡(luò)正在不斷出現(xiàn),升級(jí)依然是主旋律,互聯(lián)網(wǎng)文明仍然在往前走,那么就是工業(yè)互聯(lián)網(wǎng)、產(chǎn)業(yè)互聯(lián)網(wǎng)和IoT。
產(chǎn)業(yè)互聯(lián)網(wǎng)更像鄔院士講的運(yùn)營網(wǎng)絡(luò),使得網(wǎng)絡(luò)底層的數(shù)據(jù)都被信息化,通過SaaS等模式大大改進(jìn)公司的運(yùn)作效率,以前靠人做決策的事情現(xiàn)在逐步交給機(jī)器,甚至使得公司數(shù)據(jù)走出公司邊界,就像阿里的網(wǎng)絡(luò)協(xié)同、菜鳥網(wǎng)絡(luò)、小二以及其它廣告設(shè)計(jì),大家都在同一張網(wǎng)上把底層數(shù)據(jù)打通。
IoT就是InternetofThings,所以是互聯(lián)網(wǎng)的一部分,但是中文翻譯的時(shí)候可能帶來一些誤解,因此往下信息化依然會(huì)強(qiáng)烈地展開。
人工智能這個(gè)詞從2016年開始就被問到非常多,如果我們忘掉這個(gè)詞,而是今天我們所說的數(shù)據(jù)智能,智能來自于數(shù)據(jù),沒有數(shù)據(jù)的地方機(jī)器是沒有能力去做模仿的,更沒有能力去進(jìn)行創(chuàng)造和推理,更多的就是在數(shù)據(jù)當(dāng)中學(xué)習(xí),有多少數(shù)據(jù)就能做多少人工智能,信息化做到多深人工智能就能做到多深,也就是穿透行業(yè)看到的視角。
談到語言AI,搜狗具有得天獨(dú)厚的優(yōu)勢(shì),就是讓語言更加性感。語言是人工智能皇冠上的明珠,代表著人工智能當(dāng)中的最高水平。如果機(jī)器能夠和人對(duì)話,這個(gè)機(jī)器肯定擁有很強(qiáng)的人工智能,就像人一樣。我們看到一個(gè)機(jī)器,判斷它智能不智能第一做法是和它聊兩句。我們和外國人對(duì)音樂、視覺的理解都是一樣的,唯獨(dú)語言需要經(jīng)過長期的學(xué)習(xí)。我們發(fā)明了語言,通過一種符號(hào)描述這個(gè)世界,也是知識(shí)和思維的載體,這是語言的魅力。
語言為核心的自然交互使得機(jī)器能夠接受人的表達(dá)。八十年代的時(shí)候如果大家已經(jīng)從業(yè),1990年之前學(xué)電腦就是學(xué)打字,我們當(dāng)時(shí)最關(guān)心的就是如何把我們的表達(dá)讓機(jī)器能夠理解,甚至上升到國家領(lǐng)導(dǎo)人的重要課題。李嵐清到我們學(xué)校視察的時(shí)候我們就在演示新的技術(shù),總理就說小同學(xué),一分鐘能打多少字?當(dāng)時(shí)我聽了很生氣,這么低級(jí)的問題,但現(xiàn)在想起來,糧食的產(chǎn)量是物質(zhì)的基礎(chǔ),漢字的產(chǎn)量代表著人和電腦結(jié)合最基礎(chǔ)的元素。那個(gè)年代我們還在學(xué)習(xí)五筆,但往后走就是越來越智能,隨著機(jī)器能力的提升就從人適應(yīng)機(jī)器變成了機(jī)器適應(yīng)人,我們開始有了語音和視覺的識(shí)別,所以人機(jī)交互會(huì)構(gòu)成一個(gè)不變的主題,如何能夠讓機(jī)器理解人最自然的表達(dá)方式。
今天的時(shí)代已經(jīng)變得非常好了,隨著AI出現(xiàn)之后語音和圖像的突破,使得機(jī)器對(duì)人的表達(dá)能夠做得更好,那么就會(huì)帶來新的智能硬件,手機(jī)作為載體已經(jīng)發(fā)展到了極致的狀態(tài),往下也會(huì)把自然交互做得更高。
再就是知識(shí)計(jì)算,今天這在AI領(lǐng)域還是一個(gè)沒有被攻克的問題,就是讓機(jī)器產(chǎn)生像人一樣通過語言進(jìn)行分析思考。目前我們是在垂直領(lǐng)域來做這項(xiàng)局部的工作,比如現(xiàn)在整個(gè)通用的計(jì)算能力不夠就放在醫(yī)療和客服,然后在局部領(lǐng)域把這樣的通用智能能力限制以后降到具體的行業(yè)當(dāng)中,實(shí)現(xiàn)局部的計(jì)算力。看一看現(xiàn)在人工智能在兩個(gè)領(lǐng)域的能力,自然交互屬于感知的問題,感知的問題使語音圖像在今天得到深度學(xué)習(xí)的高度發(fā)展,而且是可靠的,甚至可以取代人,能夠比人更加精準(zhǔn)地工作,但知識(shí)計(jì)算是更前沿的工作,也就是對(duì)語言和符號(hào)的理解。
菜菜醬15:55:14
前來說就是兩種做法:人機(jī)交互知識(shí)圖譜,或者我們?cè)谧鏊阉鞯臅r(shí)候,人和機(jī)器配合起來一塊工作,要么就是讓用戶去做選擇,機(jī)器不能獨(dú)立完成取代人的工作,也就是語言本身到現(xiàn)在還是一個(gè)懸而未決的難題。
自然交互當(dāng)中最簡單的課題就是語音識(shí)別,隨著最近幾年深度學(xué)習(xí)的發(fā)展,已經(jīng)達(dá)到了一個(gè)新的高度,搜狗輸入法支持每天峰值超過8億次的語音識(shí)別請(qǐng)求,積累了大量的數(shù)據(jù)和能力,包括方言、語種、語音增強(qiáng)的問題,也有很多實(shí)用性部署,所以今天這個(gè)時(shí)代語音識(shí)別已經(jīng)不是什么難題了,但在這背后還有很多技術(shù),我們來看這樣一個(gè)語音識(shí)別的場(chǎng)景。
可以看到這種語音識(shí)別融合了很多技術(shù),科大訊飛北京研究院的朋友也在這里,一看就知道里面有些全能力的展示,不僅是識(shí)別得準(zhǔn),中間還包括了人身分離,通過AI算法可以知道聲音不一樣,除了語音之外也可以做笑聲掌聲方面的結(jié)構(gòu)化識(shí)別,能夠進(jìn)行符號(hào)化,也就是我們所說的感知不同類型的符號(hào)。再就是英文混說,由于深度學(xué)習(xí)原理當(dāng)中并不具有中英文混說的數(shù)據(jù)樣本,所以傳統(tǒng)語言人在做英文識(shí)別的時(shí)候不是調(diào)動(dòng)感知的反應(yīng),發(fā)現(xiàn)不對(duì)的話我們就在想到底什么英文詞能夠恰如其分地進(jìn)行這種嵌入和轉(zhuǎn)化?這對(duì)核心語音識(shí)別系統(tǒng)是非常有挑戰(zhàn)性的事情,所以語音識(shí)別背后還有若干工作需要去做。
關(guān)于降噪這件事情,原來是聽不清楚一切都白搭,今天我們可以通過AI算法對(duì)歷史上發(fā)生過的4萬多種噪音進(jìn)行相應(yīng)的搜集和處理,也是做了非常大量的工作,能夠?qū)Ω鞣N噪音進(jìn)行學(xué)習(xí),在這種情況下就能夠把背景噪音進(jìn)行很好的識(shí)別處理?,F(xiàn)場(chǎng)有回響的回音和音樂的聲音,我們可以把噪聲進(jìn)行分離。這是拿一個(gè)小的錄音筆作為例子,背后顯現(xiàn)出了很強(qiáng)的AI技術(shù),并且已經(jīng)做到極致。
除了語音識(shí)別之外,很重要的就是語音合成,前面大家可能覺得惟妙惟肖,已經(jīng)和真人很接近了,但由于我們對(duì)語義有相應(yīng)的理解,不同的段落當(dāng)中會(huì)有抑揚(yáng)頓挫和情感表達(dá),到現(xiàn)在沒有一個(gè)系統(tǒng)能夠用獨(dú)立的文字轉(zhuǎn)化成一部長篇的故事或者長篇付費(fèi)的音頻節(jié)目,也就是出現(xiàn)同樣的情感表達(dá),因?yàn)楸澈笥欣斫夂捅硌莸某煞?。兩周之前我們第一次在邏輯思維付費(fèi)的音頻節(jié)目當(dāng)中實(shí)現(xiàn)了本人語音合成技術(shù),這種技術(shù)不是用文字和語音的轉(zhuǎn)換,我們可以嘗試用另外一個(gè)人來做一次朗讀,把自己的情感和自己對(duì)語音的理解代入進(jìn)去,然后通過綜合遷移的方法把聲音皮膚附上去,這樣就是一種新的分工,有的負(fù)責(zé)語義理解,有的負(fù)責(zé)表演工作。
這是全球首次能夠把這種真人語音合成技術(shù)帶入實(shí)用,而且是在付費(fèi)音頻節(jié)目當(dāng)中,大概50%的聽眾都沒有聽出來和真人有什么區(qū)別,可能有的覺得沙啞一些,覺得感冒了,也有的很憤怒,我是來聽本人的表演,是花了錢的,你卻拿機(jī)器人來糊弄我,這種觀眾占到20%,可以看到這樣一些小心思。我們把制作和IP做到分離,生產(chǎn)之后能夠24小時(shí)不間斷地做商業(yè)節(jié)目,“假如生活欺騙了你,不要抱怨,抱我”,這項(xiàng)技術(shù)在未來各種場(chǎng)景當(dāng)中都有實(shí)際用處,目前已經(jīng)有31%的小朋友在聽“凱叔講故事”,很多都只認(rèn)凱叔不認(rèn)自己的爹了,我們可以把凱叔的表演和我的聲音合在一塊。
我們最早做語音技術(shù)的時(shí)候做了很好的唇語識(shí)別,不僅通過聲波可以知道說什么,我們也可以轉(zhuǎn)化為文字,這是一維的深度學(xué)習(xí)方式,要是只通過嘴唇運(yùn)動(dòng)進(jìn)行識(shí)別,由此研發(fā)了基于三維的視覺表達(dá),達(dá)到特定場(chǎng)景90%的效果。實(shí)驗(yàn)室技術(shù)也有進(jìn)行實(shí)用,如果大家感興趣的話可以在后面的展廳去嘗試,想出任何一句詩詞,不用發(fā)聲機(jī)器就可以知道說的是什么內(nèi)容,十句當(dāng)中有九句都可以識(shí)別出來?,F(xiàn)在我們是從嘴形到文字變成到從文字到嘴形的合成,由此開始做這樣的分聲技術(shù),就是人機(jī)交互不僅是人講的機(jī)器能懂,機(jī)器也可以通過交互像人一樣去做表達(dá)。
這是最近我們和新華社合作的一款產(chǎn)品,新華社從今年2月份開始就用機(jī)器取代人進(jìn)行新聞播報(bào),之后我們又做了好幾版的升級(jí),能夠使得產(chǎn)品升級(jí)從表情、手勢(shì)都會(huì)變得更好。這樣的一個(gè)主持人從原來每周下午一、二、五上班,現(xiàn)在轉(zhuǎn)變?yōu)橥耆夥?,開始升級(jí)成了一個(gè)采訪記者,拿著攝像機(jī)和麥克風(fēng)去做實(shí)際的采訪,所以原有的工作已經(jīng)被機(jī)器完整取代,不用化妝、燈光和攝像。新聞行業(yè)當(dāng)中第一個(gè)被取代的職位反而是新聞主播,說明新聞主播本身的技術(shù)含量不是很高,不涉及到很多情感的表演表達(dá)。
平安普惠產(chǎn)品已經(jīng)上線,以前都是靠人面對(duì)面的簽約服務(wù),隨著技術(shù)的進(jìn)步,人工客服已經(jīng)被完全取代,我們提供語音合成和視覺合成能力,不過都是客服當(dāng)中簡單的確認(rèn)性服務(wù),要是銷售的話估計(jì)這樣會(huì)把客戶嚇跑。
目前語音視覺已經(jīng)開始逐步走向語言,今天能夠摸得到邊的技術(shù)就是翻譯,全球有70億人當(dāng)中漢語為母語的人口占到多少?大概20%,全球英文母語的占到多少?其實(shí)只排在全球人口的第四名,要比葡萄牙語和印地語還少,但英文是今天全球通用的語言,網(wǎng)頁上95%的有效信息都是英文寫的,100%的商貿(mào)活動(dòng)都是用英文。所以作為中國人很難堪的是,當(dāng)我們?nèi)H上交流的時(shí)候需要被迫做多年的英文學(xué)習(xí),除非是在當(dāng)?shù)厣罨蛘呃斫馔鈬奈幕?,那么需要精深的學(xué)習(xí),大多數(shù)投入的學(xué)習(xí)成本和得到的收益是并不值當(dāng)?shù)?,是否能夠讓機(jī)器幫助我們做到更好的翻譯工作?
六十年代有了人工智能之后就一直在進(jìn)行翻譯,直到最近才大放異彩,中國的機(jī)器翻譯是比美國做得更好,原因不在于技術(shù)更領(lǐng)先,而是態(tài)度更認(rèn)真,今天的AI不僅靠算法,還要靠背后的數(shù)據(jù)驅(qū)動(dòng),中國公司是很努力地進(jìn)行大量的數(shù)據(jù)搜集和加工工作。搜狗在2016年1月是全球首個(gè)在通用場(chǎng)景和大會(huì)上發(fā)布了這樣一個(gè)英到中的同傳系統(tǒng),2017年1月也是行業(yè)當(dāng)中首個(gè)英文檢索,識(shí)別中文詞語之后可以轉(zhuǎn)化為英文,這對(duì)英文不是足夠良好的人來講有機(jī)會(huì)在全球獲得交流信息,也是使用了一定的機(jī)器計(jì)算工作,加上很好的交互,使得我們的信息獲取方式極大地拓展。
2017年10月,我們首個(gè)發(fā)布離線深度學(xué)習(xí)產(chǎn)品,也是一款翻譯機(jī)。今天的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)特別大,如何把這種結(jié)構(gòu)裝到一個(gè)小設(shè)備當(dāng)中?到了2018年我們是首個(gè)能夠在Q3做到英到中的同傳系統(tǒng),也已經(jīng)進(jìn)入了使用狀態(tài),包括在蘋果發(fā)布會(huì)當(dāng)中進(jìn)行精準(zhǔn)轉(zhuǎn)寫,不過需要定期進(jìn)行優(yōu)化,包括醫(yī)療、科技、教育和物理學(xué)等等,因?yàn)闄C(jī)器并不具備足夠高的認(rèn)知能力,需要不斷優(yōu)化才能逐漸靠譜。
我們發(fā)現(xiàn)從感知到翻譯正在走向更深的體系,人機(jī)對(duì)談也是目前最有魅力的人工智能語言前景,就是蘋果的Siri再到Echo,我們正在努力構(gòu)造對(duì)話問答系統(tǒng),這也代表人工智能2C的最高水準(zhǔn)。前些日子我們發(fā)明了針對(duì)問答的機(jī)器,也是在節(jié)目當(dāng)中做了表現(xiàn)。由于這款產(chǎn)品收窄到了知識(shí)類的問答,就是問的問題一定是有答案的,在這種情況下機(jī)器是可以超過人的。這是2016年的“一站到底”節(jié)目,最早的時(shí)候是可以PK過人的,系統(tǒng)升級(jí)到了選手冠軍PK,再到后來要求先讓人三分,就是3:0開始去做,關(guān)閉了機(jī)器的搶答能力,在這種情況下我們依然做到了不錯(cuò)的效果。因?yàn)檫@不是簡單的數(shù)據(jù)庫檢索,而是主持人提問,通過語音和視覺,閱讀網(wǎng)上上百億的網(wǎng)頁然后找到相關(guān)的答案,實(shí)時(shí)反饋比人更快,也是在搜索當(dāng)中得到充足的使用。
面向個(gè)人的語言AI產(chǎn)品矩陣進(jìn)行預(yù)測(cè),一方面是自然交互的工作,文字到語音到圖像的展開,這件事情會(huì)使得感知方面機(jī)器能夠比人進(jìn)行更好的取代,另一方面就是信息到知識(shí)計(jì)算的能力,所以可以看到橫向跑得很快,就是輸入法到智能硬件,不管是音箱到未來的耳機(jī)和眼鏡,這些都是視覺聽覺當(dāng)中可以做得足夠的好,縱向就是需要收窄領(lǐng)域,畫虛線的也有醫(yī)療的問題,IBMWatson做了很久還沒有很大的突破。
電影《Her》當(dāng)中最需要解決的就是一個(gè)性感的個(gè)人助理,交互層面方面我們已經(jīng)可以解決,但是對(duì)知識(shí)的理解還是下一個(gè)十年我們希望能夠有突破的領(lǐng)域,就是讓人人都能夠有一個(gè)助理,甚至成為你的分身,這也是搜狗目前的使命。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )