AI:我又又又打敗了人類冠軍!小學(xué)生:叫爸爸!

原標(biāo)題:AI:我又又又打敗了人類冠軍!小學(xué)生:叫爸爸!

看到“雙節(jié)”期間中國有5.5億人出行的新聞,我不由得虎軀一震。想到了人會多,但沒想到會這么多!看來大家都充滿了探索欲,希望在難得的假期去往自己熟悉或未知的地方。

就算你選擇了“家里蹲”,也一定會通過網(wǎng)上沖浪、閱讀游戲等方式,來探索自己的內(nèi)心世界。

探索是人類的本能,從嬰兒時期開始,好奇心就驅(qū)動著我們?nèi)ヌ剿鞑⒗斫庾约核诘氖澜纾?AI的成長則離不開對人類的觀察與模仿,其中,就包括探索的能力。

這種能力被算法掌握之后,出現(xiàn)了阿爾法狗打敗人類棋圣,也出現(xiàn)了OpenAIFive——在電子游戲領(lǐng)域完虐人類玩家。不過即便如此,人類的探索能力依然令最高級的AI都望塵莫及。

比如嬰兒可以從爬行和探索中學(xué)會認知三維空間,而一些計算機視覺還總被曝出被平面照片所欺騙過去的新聞,上馬更高性能的3D視覺算法則需要耗費巨大的算力資源,從這個角度看,人腦無疑在效果和效率上都碾壓了AI。

那么,能不能引入兒童的學(xué)習(xí)能力,來實現(xiàn)更聰明的AI呢?這個猜測,就像是“把愛因斯坦的大腦給我我也能拿諾貝爾獎”一樣,是一個有點鐵憨憨,又有點重要的問題。

5歲小孩碾壓AI,“玩”就夠了

大家不妨在假期做一個生活觀察,看看小孩子們是如何探索世界的?

如果一個玩具看起來有很多玩法,但他們不知道哪一個是正確的,小孩子們會進行假設(shè)驅(qū)動的探索,如果“假設(shè)”失敗了,他們就會轉(zhuǎn)向新的玩具。

有研究顯示,一個11個月大的嬰兒,在看到許多違反物理定律的現(xiàn)象時,會忍不住對其進行更多的探索,甚至?xí)龀鲆恍┻`規(guī)行為來實踐自己的假設(shè)。

比如看到一輛漂浮在空中的汽車,有點顛覆以往的認知了,你會怎么做?嬰兒會選擇將玩具砰地扔到桌子上,想知道這種“不合常理”的情況是怎么出現(xiàn)的(所以阻止熊孩子弄壞你手辦的唯一辦法,就是根本不要讓他們看到它們)。

這種“不見黃河心不死”式的自由探索,有時會令家長和大人們不堪其擾,但抽象化的“假設(shè)”能夠讓人類做出大量預(yù)測,想象出許多新的可能性,不僅是一種極為有意義的學(xué)習(xí)方式,更是人類創(chuàng)造力的由來。

不過就像小王子覺得枯燥的大人們看不到“蟒蛇肚子里的大象”一樣,令人遺憾的是,這種探索能力是幼兒的專長,大部分情況下只存在在5歲以前,這也讓他們成為宇宙中最好的學(xué)習(xí)者。

既然兒童行為如此有參考意義,科學(xué)家們自然也想得到。事實上,兒童發(fā)展學(xué)對AI的進展起到了重要的方向牽引作用。

科學(xué)家們曾將好奇心引入神經(jīng)網(wǎng)絡(luò),打造了深度增強學(xué)習(xí),通過獎勵反饋來鼓勵智能體(agent)主動探索和理解環(huán)境,更新模型參數(shù)。這讓AI能夠自主獲得技能,在電子游戲等需要通用智能的復(fù)雜場景中能夠做出自己的決策,而不是人類預(yù)先通過龐大的標(biāo)注數(shù)據(jù)集給定答案。

其他類型的兒童行為亦有價值。前面提到的“不見黃河心不死”的探索,就被化作深度優(yōu)先搜索策略,DeepMind和加州大學(xué)伯克利分校的研究人員,開發(fā)了一個3D導(dǎo)航和解謎環(huán)境。智能體(agent)沿著特定路徑進行探索,如果遇到死胡同,那就回去找到下一條沒有探索過的道路,繼續(xù)前進。

聽起來是不是很像小孩子走迷宮的游戲?這能讓智能體接觸到各種各樣的經(jīng)驗,在信息較少的環(huán)境中工作;減少對數(shù)據(jù)量的依存,改變目前算力資源緊張的局面,讓許多小數(shù)據(jù)、少樣本的領(lǐng)域(如金融、醫(yī)療)也能實現(xiàn)智能化。

將兒童探索行為應(yīng)用于AI,一切都能變得更好,理想層面上確實如此,但現(xiàn)實總喜歡跟科學(xué)家們開玩笑,也算是給人類保留了一個“殺手锏”吧。

AI能力暴漲的當(dāng)下,人類為什么還能穩(wěn)坐智慧王座?

需要注意的是,這些類似兒童探索的策略,通常更多被用在訓(xùn)練期間提高代理人的經(jīng)驗值,而不是在決策時支持快速學(xué)習(xí)和探索。用人話說就是“懂得了許多道理,卻不一定能過好這一生”,因為一到關(guān)鍵選擇時刻就會掉鏈子。

就拿前面提到的深度優(yōu)先搜索(DFS)來說,科學(xué)家們發(fā)現(xiàn),如果讓孩子們自由探索,那么他們與智能體按DFS做出的行動有90%的相似,而以目標(biāo)為導(dǎo)向(找到橡皮糖)來探索的話,有96%的路線都是相似的。但不同的是,探索越多的孩子,最后能花費更少的時間完成任務(wù),智能體卻相反。

如果智能體發(fā)現(xiàn)一個地方很有趣(能得到獎勵),就會一直重新訪問該區(qū)域,直到它終于終于終于覺得那里不再有趣了,這會導(dǎo)致其概括性不佳(無法形成最佳策略)。

其中的差別就在于,孩子不是被動地孤立學(xué)習(xí)或由目標(biāo)驅(qū)動,而是在不斷實驗和收集信息,將自己的認知和經(jīng)驗與獲得的信息結(jié)合起來,編織出一個豐富的世界模型。而即使最復(fù)雜的機器探索方法,也只能為特定的目標(biāo)服務(wù),一時半會還無法完美匹配這個充滿了各種“意外”的真實世界。

為什么有了一定的探索能力,AI智能體的表現(xiàn)還是不盡如人意呢?

首當(dāng)其沖就是實驗室與現(xiàn)實環(huán)境的巨大不同。

深度強化學(xué)習(xí)過去都是“機上談兵”,不是跟人類在二維游戲里PK,就是數(shù)字網(wǎng)格里下棋,而兒童的探索則是發(fā)生在信息豐富的三維現(xiàn)實世界之中,許多潛在因素很難被應(yīng)用到實驗中。

這也是為什么,當(dāng)今最強大的AI智能機器人也達不到一個僅小學(xué)畢業(yè)的優(yōu)秀人類服務(wù)員的工作能力,能像他們一樣快速適應(yīng)環(huán)境、完成各種復(fù)雜任務(wù)。

此外,兒童的發(fā)展心理學(xué)研究很難在AI產(chǎn)業(yè)鏈中形成“閉環(huán)”。要真正激發(fā)AI生長出服務(wù)現(xiàn)實的能力,不僅要構(gòu)建出具有更強探索能力的智能體,還要繼續(xù)學(xué)習(xí)人類的認知能力,推進人工智能自身的理論創(chuàng)新和軟硬件升級(比如搭建三維訓(xùn)練環(huán)境),這一系列鏈式突破,才能最終將技術(shù)構(gòu)想轉(zhuǎn)化為現(xiàn)實生產(chǎn)力?!按罅Τ銎孥E”的深度學(xué)習(xí),其高光時刻就是這么來的。

沿著這個方向,我們可以進一步了解,怎樣才能彌合智能體與人類之間的差距。

下一代AI,逐漸浮出迷霧的真實未來

在過去的數(shù)年里,深度學(xué)習(xí)做到了傳統(tǒng)算法所無法企及的進度,催生了大量的工業(yè)界應(yīng)用,但其實,現(xiàn)在的深度學(xué)習(xí)還是很傻——舉個例子,大部分人都可以通過幾十個小時的學(xué)習(xí)學(xué)會開小汽車,而完全自動的L5級無人汽車至今還是個遙遠的夢。

圖靈獎得主Geoffrey Hinton就一直非??释业揭环N新的實現(xiàn)深度網(wǎng)絡(luò)的方法,認為目前(最廣泛的反向傳播算法)根本不是大腦的工作機制。

另一位圖靈獎得主Yann Lecun,就認為在某些游戲中,需要大量增加模型訓(xùn)練時間才能達到或超過專業(yè)人類玩家的水平。

通過兒童的學(xué)習(xí)模式,發(fā)現(xiàn)當(dāng)前最優(yōu)秀的AI也比不上5歲小孩的智力,或許我們可以回答“下一代AI應(yīng)該是什么樣”,這個神經(jīng)網(wǎng)絡(luò)最重要的未解難題之一。

至少要有兩重升級:

1.有意識。目前公認文字表達能力最高、模型最為龐大的GPT-3也曾被專家吐槽是“無腦作業(yè)”,其實并不真正理解自己寫出的句子。而具有自主探索、決策、推理能力的AI,可以理解自己周圍的環(huán)境,才是真正的人工智能。

2.能效比。為什么即使存在缺陷,依然沒有妨礙深度學(xué)習(xí)帶領(lǐng)AI進來發(fā)展熱潮呢?核心原因就在于深度神經(jīng)網(wǎng)絡(luò)大幅度降低了全社會處理、挖掘、應(yīng)用大數(shù)據(jù)的成本。相對人腦而言,現(xiàn)有的計算硬件功耗都很高,不斷提升AI性價比,是避免再次陷入寒冬的唯一方法,也在呼喚更高級的算法。

這兩個基本難題,只能交給科學(xué)家和工程師們在針尖上做大文章了。對于我們普通人來說,保有一顆如兒童般對世界的好奇心,觸碰充滿各種信息的大自然,由此得來的系統(tǒng)認知與思維能力,或許才是機器永遠無法企及,且彌足珍貴的。

這個假期,你們都有過哪些有趣的探索呢?快來評論區(qū)告訴我呀!

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2020-10-05
AI:我又又又打敗了人類冠軍!小學(xué)生:叫爸爸!
將兒童探索行為應(yīng)用于AI,一切都能變得更好,理想層面上確實如此,但現(xiàn)實總喜歡跟科學(xué)家們開玩笑,也算是給人類保留了一個“殺手锏”吧。

長按掃碼 閱讀全文