當(dāng)初谷歌DeepMind的阿爾法狗橫空出世,使人類領(lǐng)教到了現(xiàn)代AI的恐怖潛力。從那時起,每隔幾個月DeepMind就會推出一篇重磅論文,從阿爾法狗到阿爾法零,進步之速令觀者咋舌。
或許正是因為DeepMind的AI技術(shù)階段性突破頻繁,逐漸令大眾產(chǎn)生了審美疲勞。幾天前,谷歌又搞出了一個MuZero,而關(guān)心者人數(shù)就已不及當(dāng)初。
癥結(jié)或許在這里:在棋藝上,阿爾法狗已經(jīng)完虐人類了,之后阿爾法零又完虐了狗,以后肯定又會出現(xiàn)新的AI完爆阿爾法零……如此以往,沒啥新意啊。此外,超越人類是一個坎,至于之后又勝過人類上萬倍還是百萬倍,都難以對公眾形成刺激。
好吧,說了這么多,MuZero到底有啥特殊之處呢,值得單獨拿出來說一說?
簡單梳理一下。
最開始的阿爾法狗向人類學(xué)習(xí)圍棋,最終超越了人類。我們或許可以將它看做是人類圍棋的頂峰。
隨后,阿爾法零在僅僅知道規(guī)則的情況下,自己演化圍棋棋理,最終超越了狗。它是第一位真正意義上的AI圍棋大師,所取得的成就與人類圍棋的歷史毫無關(guān)系。
到MuZero,它壓根不知道什么圍棋!就是在棋盤上胡亂擺放棋子,工程師在幾個節(jié)點稍微誘導(dǎo)一下,使它產(chǎn)生偏向性。最終,MuZero發(fā)明了圍棋!
除了發(fā)明圍棋外,它還以更快的速度發(fā)展出更加高明的棋理。它是AI世界中的圍棋創(chuàng)造者。
直觀上,MuZero具有內(nèi)部驅(qū)動力——精確設(shè)計游戲規(guī)則的動力。
正如DeepMind研究人員所解釋的那樣,強化學(xué)習(xí)的一種形式——模型是MuZero和AlphaZero的核心技術(shù),其中的獎勵系統(tǒng)將AI帶向目標(biāo)。
通常,基于模型的強化學(xué)習(xí)側(cè)重于直接在像素級別對觀察流進行建模,但是這種粒度級別在大規(guī)模的情景計算中非常昂貴。從根本上說,MuZero會接收觀察結(jié)果(即Go木板或Atari屏幕的圖像)并將其轉(zhuǎn)換為隱藏狀態(tài)。 該隱藏狀態(tài)通過接收先前狀態(tài)和假定的下一個動作的過程進行迭代更新,并且在每個步驟中,模型都會給出對策(例如,下棋),價值函數(shù)(例如,預(yù)期的獲勝者)和獎勵(例如,通過打法得分)。
MuZero與阿爾法零對弈,前者的搜索步數(shù)更少卻更加精妙,因為它對圍棋的理解更深。它不僅比阿爾法零更強大,而且在架構(gòu)上更簡單,更高效。
DeepMind認為,現(xiàn)實生活中的許多問題(如股票,軍事行動)都沒有明確的規(guī)則,或者規(guī)則隨時變動。所以,需要未來的決策AI自行摸索。這就是他們的研發(fā)方向。
本文譯自 venturebeat,由譯者 majer 基于創(chuàng)作共用協(xié)議(BY-NC)發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )