credit: 123RF
我好奇我按下這個(gè)按鈕會(huì)發(fā)生什么?擁有好奇心的算法正在教會(huì)自己探索并解決它們從未見過的問題。
面對(duì)超級(jí)馬里奧的第一關(guān),一個(gè)好奇心驅(qū)動(dòng)的AI學(xué)會(huì)了如何探索地圖,避開深坑,以及躲開并消滅敵人。這可能聽起來不那么厲害——算法在電子游戲領(lǐng)域把人類虐爆已經(jīng)好幾年了——但這個(gè)AI的技能都是借助于它內(nèi)建的對(duì)游戲世界的探索欲望而學(xué)會(huì)的。
傳統(tǒng)的AI是通過正面強(qiáng)化學(xué)習(xí)的。它們?cè)谕瓿赡撤N外界目標(biāo)時(shí)會(huì)得到獎(jiǎng)勵(lì),比如把游戲總分提高一分時(shí)。這鼓勵(lì)它們做出能提高分?jǐn)?shù)的行為——例如在超級(jí)馬里奧中踩扁敵人——并阻礙它們做出不能提高分?jǐn)?shù)的行為,例如掉進(jìn)深坑。
這種方法叫做增強(qiáng)學(xué)習(xí),它曾被用來創(chuàng)造 AlphaGo,來自谷歌 DeepMind 的在去年以四比一的成績(jī)擊敗韓國(guó)圍棋大師李世石的圍棋AI。在經(jīng)歷數(shù)千盤真實(shí)與模擬的棋局的過程中,AlphaGo 學(xué)會(huì)了追求能帶來終極獎(jiǎng)勵(lì)——?jiǎng)倮牟呗浴?/p>
然而,在現(xiàn)實(shí)世界中并非到處都有獎(jiǎng)勵(lì),領(lǐng)導(dǎo)了加州大學(xué)伯克利分校的這項(xiàng)研究的 Deepak Pathak 如是說道。“作為替代,人類擁有內(nèi)稟的好奇心來幫助他們學(xué)習(xí)?!?他說。這或許能解釋為什么我們不需要刻意學(xué)習(xí)就能輕松地掌握領(lǐng)域廣泛的各種技能。
因此,Pathak 給他自己的增強(qiáng)學(xué)習(xí)算法加入了好奇心,并觀察這是否足以讓它學(xué)會(huì)許多技能。當(dāng) Pathak 的算法加深了它對(duì)周邊環(huán)境的理解,特別是對(duì)那些能直接影響環(huán)境的因素的理解時(shí),它便會(huì)獲得獎(jiǎng)勵(lì)。所以,這個(gè)算法會(huì)因探索和掌握那些使它更加理解游戲世界的技能而獲得獎(jiǎng)勵(lì),而非在游戲世界中直接尋找獎(jiǎng)勵(lì)。
這種方法能加快學(xué)習(xí)并提高算法的效率,來自谷歌的AI公司 DeepMind 的 Max Jaderberg 說道。這家公司在去年用了一種類似的技巧去訓(xùn)練一個(gè)AI去探索一個(gè)虛擬迷宮。它的算法學(xué)習(xí)的速度比起傳統(tǒng)的增強(qiáng)學(xué)習(xí)算法快了很多?!拔覀兊腁I學(xué)習(xí)時(shí)快得多,并且訓(xùn)練時(shí)需要少得多的來自環(huán)境的經(jīng)驗(yàn),這使得它在利用數(shù)據(jù)方面效率更高?!?他說道。
高效學(xué)習(xí)者
憑借著好奇心,Pathak 自己的AI學(xué)會(huì)了在超級(jí)馬里奧中踩扁敵人并跳過深坑,還學(xué)會(huì)了在另一個(gè)類似 Doom 的游戲中探索遙遠(yuǎn)的房間和穿越走廊。它還能夠在更后面的馬里奧關(guān)卡中應(yīng)用它新得到的技能,即使它從未見過這些關(guān)卡。
但是好奇心只能讓這個(gè)算法在超級(jí)馬里奧中達(dá)到一定水平。平均來說,它只探索了第一關(guān)的百分之三十,因?yàn)樗麤]能找到越過只能用一段超過十五次操作的連擊穿過的一系列深坑的途徑。當(dāng)AI到達(dá)這一地點(diǎn)時(shí),它并不會(huì)信仰之躍跳向死亡,而是學(xué)會(huì)了轉(zhuǎn)身停下。
這個(gè)AI如此困惑的原因,可能是它不知道在這個(gè)深坑之后還有關(guān)卡的另一部分,Pathak 如是說道。它沒有學(xué)會(huì)持續(xù)地利用游戲中的捷徑,因?yàn)檫@會(huì)讓它的探索范圍減小,從而無法滿足它的探索欲望。
Pathak 如今在研究機(jī)械臂是否能通過好奇心學(xué)會(huì)抓取新物體。“比起讓它隨機(jī)地行動(dòng),你可以利用這種方法讓它更有價(jià)值地活動(dòng)?!?他說。他還打算研究一個(gè)類似的算法是否能用在像 Roomba 吸塵器這樣的家用機(jī)器人上。
但 Jaderberg 并不確定這種算法已經(jīng)準(zhǔn)備好被正式使用了。“現(xiàn)在談實(shí)際應(yīng)用還為時(shí)尚早?!?他說。
論文地址:arXiv:1705.05363
本文譯自 New Scientist,由譯者 Zeno 基于創(chuàng)作共用協(xié)議(BY-NC)發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )