123,123,123

原標(biāo)題：AI：我又又又打敗了人類冠軍！小學(xué)生：叫爸爸！

看到“雙節(jié)”期間中國(guó)有5.5億人出行的新聞，我不由得虎軀一震。想到了人會(huì)多，但沒(méi)想到會(huì)這么多！看來(lái)大家都充滿了探索欲，希望在難得的假期去往自己熟悉或未知的地方。

就算你選擇了“家里蹲”，也一定會(huì)通過(guò)網(wǎng)上沖浪、閱讀游戲等方式，來(lái)探索自己的內(nèi)心世界。

探索是人類的本能，從嬰兒時(shí)期開(kāi)始，好奇心就驅(qū)動(dòng)著我們?nèi)ヌ剿鞑⒗斫庾约核诘氖澜纾?AI的成長(zhǎng)則離不開(kāi)對(duì)人類的觀察與模仿，其中，就包括探索的能力。

這種能力被算法掌握之后，出現(xiàn)了阿爾法狗打敗人類棋圣，也出現(xiàn)了OpenAIFive——在電子游戲領(lǐng)域完虐人類玩家。不過(guò)即便如此，人類的探索能力依然令最高級(jí)的AI都望塵莫及。

比如嬰兒可以從爬行和探索中學(xué)會(huì)認(rèn)知三維空間，而一些計(jì)算機(jī)視覺(jué)還總被曝出被平面照片所欺騙過(guò)去的新聞，上馬更高性能的3D視覺(jué)算法則需要耗費(fèi)巨大的算力資源，從這個(gè)角度看，人腦無(wú)疑在效果和效率上都碾壓了AI。

那么，能不能引入兒童的學(xué)習(xí)能力，來(lái)實(shí)現(xiàn)更聰明的AI呢？這個(gè)猜測(cè)，就像是“把愛(ài)因斯坦的大腦給我我也能拿諾貝爾獎(jiǎng)”一樣，是一個(gè)有點(diǎn)鐵憨憨，又有點(diǎn)重要的問(wèn)題。

5歲小孩碾壓AI，“玩”就夠了

大家不妨在假期做一個(gè)生活觀察，看看小孩子們是如何探索世界的？

如果一個(gè)玩具看起來(lái)有很多玩法，但他們不知道哪一個(gè)是正確的，小孩子們會(huì)進(jìn)行假設(shè)驅(qū)動(dòng)的探索，如果“假設(shè)”失敗了，他們就會(huì)轉(zhuǎn)向新的玩具。

有研究顯示，一個(gè)11個(gè)月大的嬰兒，在看到許多違反物理定律的現(xiàn)象時(shí)，會(huì)忍不住對(duì)其進(jìn)行更多的探索，甚至?xí)龀鲆恍┻`規(guī)行為來(lái)實(shí)踐自己的假設(shè)。

比如看到一輛漂浮在空中的汽車，有點(diǎn)顛覆以往的認(rèn)知了，你會(huì)怎么做？嬰兒會(huì)選擇將玩具砰地扔到桌子上，想知道這種“不合常理”的情況是怎么出現(xiàn)的（所以阻止熊孩子弄壞你手辦的唯一辦法，就是根本不要讓他們看到它們）。

這種“不見(jiàn)黃河心不死”式的自由探索，有時(shí)會(huì)令家長(zhǎng)和大人們不堪其擾，但抽象化的“假設(shè)”能夠讓人類做出大量預(yù)測(cè)，想象出許多新的可能性，不僅是一種極為有意義的學(xué)習(xí)方式，更是人類創(chuàng)造力的由來(lái)。

不過(guò)就像小王子覺(jué)得枯燥的大人們看不到“蟒蛇肚子里的大象”一樣，令人遺憾的是，這種探索能力是幼兒的專長(zhǎng)，大部分情況下只存在在5歲以前，這也讓他們成為宇宙中最好的學(xué)習(xí)者。

既然兒童行為如此有參考意義，科學(xué)家們自然也想得到。事實(shí)上，兒童發(fā)展學(xué)對(duì)AI的進(jìn)展起到了重要的方向牽引作用。

科學(xué)家們?cè)鴮⒑闷嫘囊肷窠?jīng)網(wǎng)絡(luò)，打造了深度增強(qiáng)學(xué)習(xí)，通過(guò)獎(jiǎng)勵(lì)反饋來(lái)鼓勵(lì)智能體（agent）主動(dòng)探索和理解環(huán)境，更新模型參數(shù)。這讓AI能夠自主獲得技能，在電子游戲等需要通用智能的復(fù)雜場(chǎng)景中能夠做出自己的決策，而不是人類預(yù)先通過(guò)龐大的標(biāo)注數(shù)據(jù)集給定答案。

其他類型的兒童行為亦有價(jià)值。前面提到的“不見(jiàn)黃河心不死”的探索，就被化作深度優(yōu)先搜索策略，DeepMind和加州大學(xué)伯克利分校的研究人員，開(kāi)發(fā)了一個(gè)3D導(dǎo)航和解謎環(huán)境。智能體（agent）沿著特定路徑進(jìn)行探索，如果遇到死胡同，那就回去找到下一條沒(méi)有探索過(guò)的道路，繼續(xù)前進(jìn)。

聽(tīng)起來(lái)是不是很像小孩子走迷宮的游戲？這能讓智能體接觸到各種各樣的經(jīng)驗(yàn)，在信息較少的環(huán)境中工作；減少對(duì)數(shù)據(jù)量的依存，改變目前算力資源緊張的局面，讓許多小數(shù)據(jù)、少樣本的領(lǐng)域（如金融、醫(yī)療）也能實(shí)現(xiàn)智能化。

將兒童探索行為應(yīng)用于AI，一切都能變得更好，理想層面上確實(shí)如此，但現(xiàn)實(shí)總喜歡跟科學(xué)家們開(kāi)玩笑，也算是給人類保留了一個(gè)“殺手锏”吧。

AI能力暴漲的當(dāng)下，人類為什么還能穩(wěn)坐智慧王座？

需要注意的是，這些類似兒童探索的策略，通常更多被用在訓(xùn)練期間提高代理人的經(jīng)驗(yàn)值，而不是在決策時(shí)支持快速學(xué)習(xí)和探索。用人話說(shuō)就是“懂得了許多道理，卻不一定能過(guò)好這一生”，因?yàn)橐坏疥P(guān)鍵選擇時(shí)刻就會(huì)掉鏈子。

就拿前面提到的深度優(yōu)先搜索（DFS）來(lái)說(shuō)，科學(xué)家們發(fā)現(xiàn)，如果讓孩子們自由探索，那么他們與智能體按DFS做出的行動(dòng)有90%的相似，而以目標(biāo)為導(dǎo)向（找到橡皮糖）來(lái)探索的話，有96%的路線都是相似的。但不同的是，探索越多的孩子，最后能花費(fèi)更少的時(shí)間完成任務(wù)，智能體卻相反。

如果智能體發(fā)現(xiàn)一個(gè)地方很有趣（能得到獎(jiǎng)勵(lì)），就會(huì)一直重新訪問(wèn)該區(qū)域，直到它終于終于終于覺(jué)得那里不再有趣了，這會(huì)導(dǎo)致其概括性不佳（無(wú)法形成最佳策略）。

其中的差別就在于，孩子不是被動(dòng)地孤立學(xué)習(xí)或由目標(biāo)驅(qū)動(dòng)，而是在不斷實(shí)驗(yàn)和收集信息，將自己的認(rèn)知和經(jīng)驗(yàn)與獲得的信息結(jié)合起來(lái)，編織出一個(gè)豐富的世界模型。而即使最復(fù)雜的機(jī)器探索方法，也只能為特定的目標(biāo)服務(wù)，一時(shí)半會(huì)還無(wú)法完美匹配這個(gè)充滿了各種“意外”的真實(shí)世界。

為什么有了一定的探索能力，AI智能體的表現(xiàn)還是不盡如人意呢？

首當(dāng)其沖就是實(shí)驗(yàn)室與現(xiàn)實(shí)環(huán)境的巨大不同。

深度強(qiáng)化學(xué)習(xí)過(guò)去都是“機(jī)上談兵”，不是跟人類在二維游戲里PK，就是數(shù)字網(wǎng)格里下棋，而兒童的探索則是發(fā)生在信息豐富的三維現(xiàn)實(shí)世界之中，許多潛在因素很難被應(yīng)用到實(shí)驗(yàn)中。

這也是為什么，當(dāng)今最強(qiáng)大的AI智能機(jī)器人也達(dá)不到一個(gè)僅小學(xué)畢業(yè)的優(yōu)秀人類服務(wù)員的工作能力，能像他們一樣快速適應(yīng)環(huán)境、完成各種復(fù)雜任務(wù)。

此外，兒童的發(fā)展心理學(xué)研究很難在AI產(chǎn)業(yè)鏈中形成“閉環(huán)”。要真正激發(fā)AI生長(zhǎng)出服務(wù)現(xiàn)實(shí)的能力，不僅要構(gòu)建出具有更強(qiáng)探索能力的智能體，還要繼續(xù)學(xué)習(xí)人類的認(rèn)知能力，推進(jìn)人工智能自身的理論創(chuàng)新和軟硬件升級(jí)（比如搭建三維訓(xùn)練環(huán)境），這一系列鏈?zhǔn)酵黄?，才能最終將技術(shù)構(gòu)想轉(zhuǎn)化為現(xiàn)實(shí)生產(chǎn)力。“大力出奇跡”的深度學(xué)習(xí)，其高光時(shí)刻就是這么來(lái)的。

沿著這個(gè)方向，我們可以進(jìn)一步了解，怎樣才能彌合智能體與人類之間的差距。

下一代AI，逐漸浮出迷霧的真實(shí)未來(lái)

在過(guò)去的數(shù)年里，深度學(xué)習(xí)做到了傳統(tǒng)算法所無(wú)法企及的進(jìn)度，催生了大量的工業(yè)界應(yīng)用，但其實(shí)，現(xiàn)在的深度學(xué)習(xí)還是很傻——舉個(gè)例子，大部分人都可以通過(guò)幾十個(gè)小時(shí)的學(xué)習(xí)學(xué)會(huì)開(kāi)小汽車，而完全自動(dòng)的L5級(jí)無(wú)人汽車至今還是個(gè)遙遠(yuǎn)的夢(mèng)。

圖靈獎(jiǎng)得主Geoffrey Hinton就一直非?？释业揭环N新的實(shí)現(xiàn)深度網(wǎng)絡(luò)的方法，認(rèn)為目前（最廣泛的反向傳播算法）根本不是大腦的工作機(jī)制。

另一位圖靈獎(jiǎng)得主Yann Lecun，就認(rèn)為在某些游戲中，需要大量增加模型訓(xùn)練時(shí)間才能達(dá)到或超過(guò)專業(yè)人類玩家的水平。

通過(guò)兒童的學(xué)習(xí)模式，發(fā)現(xiàn)當(dāng)前最優(yōu)秀的AI也比不上5歲小孩的智力，或許我們可以回答“下一代AI應(yīng)該是什么樣”，這個(gè)神經(jīng)網(wǎng)絡(luò)最重要的未解難題之一。

至少要有兩重升級(jí)：

1.有意識(shí)。目前公認(rèn)文字表達(dá)能力最高、模型最為龐大的GPT-3也曾被專家吐槽是“無(wú)腦作業(yè)”，其實(shí)并不真正理解自己寫(xiě)出的句子。而具有自主探索、決策、推理能力的AI，可以理解自己周圍的環(huán)境，才是真正的人工智能。

2.能效比。為什么即使存在缺陷，依然沒(méi)有妨礙深度學(xué)習(xí)帶領(lǐng)AI進(jìn)來(lái)發(fā)展熱潮呢？核心原因就在于深度神經(jīng)網(wǎng)絡(luò)大幅度降低了全社會(huì)處理、挖掘、應(yīng)用大數(shù)據(jù)的成本。相對(duì)人腦而言，現(xiàn)有的計(jì)算硬件功耗都很高，不斷提升AI性價(jià)比，是避免再次陷入寒冬的唯一方法，也在呼喚更高級(jí)的算法。

這兩個(gè)基本難題，只能交給科學(xué)家和工程師們?cè)卺樇馍献龃笪恼铝恕?duì)于我們普通人來(lái)說(shuō)，保有一顆如兒童般對(duì)世界的好奇心，觸碰充滿各種信息的大自然，由此得來(lái)的系統(tǒng)認(rèn)知與思維能力，或許才是機(jī)器永遠(yuǎn)無(wú)法企及，且彌足珍貴的。

這個(gè)假期，你們都有過(guò)哪些有趣的探索呢？快來(lái)評(píng)論區(qū)告訴我呀！

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

AI：我又又又打敗了人類冠軍！小學(xué)生：叫爸爸！

下一篇

AI：我又又又打敗了人類冠軍！小學(xué)生：叫爸爸！