繼AlphaGo之后,AlphaGo Zero為何再次刷屏

今天,谷歌旗下人工智能(AI)實驗室DeepMind在Nature發(fā)布了這篇論文——在這篇名為《Mastering the game of Go without human knowledge》(不使用人類知識掌握圍棋)的論文中,Deepmind展示了他們更強大的新版本圍棋程序“AlphaGo Zero”, AlphaGo Zero是對著名的AI程序AlphaGo的改進和提升。

AlphaGo AI因在去年3月份擊敗了韓國世界圍棋冠軍李世石(Lee Sedol),又在今年5月烏鎮(zhèn)圍棋大賽時擊敗現(xiàn)任世界圍棋冠軍柯潔而名聲大噪,但它依然無法與AlphaGo Zero相媲美,經(jīng)過3天的訓練,AlphaGo Zero就以100:0的比分完勝對陣李世石的那版AlphaGo。

繼AlphaGo之后,AlphaGo Zero為何再次刷屏

AlphaGo Zero為何如此強大?

一、與自己對弈、自我學習

老版AlphaGo AI與AlphaGo Zero之間的主要區(qū)別在于,前者通過吸收人類數(shù)據(jù)學習下棋,而后者則不需要。之前所有的AlphaGo AI都是從網(wǎng)站上下載人類數(shù)據(jù)(業(yè)余和職業(yè)圍棋)開始訓練的。它們觀看了數(shù)千場比賽,并被告知人類專家在某些位置上的特定動作。但是,AlphaGo Zero并不使用任何人類數(shù)據(jù)。相反,AlphaGo Zero通過與自己對弈學會了如何玩圍棋,完全是“無師自通”。

繼AlphaGo之后,AlphaGo Zero為何再次刷屏

據(jù)DeepMind AlphaGo項目首席研究員大衛(wèi)·西爾弗(David Silver)介紹,AlphaGo Zero使用了一種新的強化學習形式,在這一過程中,它成為了自己的老師。它的起點是一個對圍棋一無所知的神經(jīng)網(wǎng)絡,它會與自己進行數(shù)千場對弈。它所走的每一步棋就是把這個神經(jīng)網(wǎng)絡與強大的搜索算法結(jié)合起來,然后用它來選擇下一個動作。

二、不斷更新自身神經(jīng)網(wǎng)絡

被美國主流網(wǎng)絡媒體BI稱為谷歌DeepMind的無名英雄的西爾弗繼介紹說:“在每場對弈結(jié)束后,AlphaGo Zero實際上都訓練了一個新的神經(jīng)網(wǎng)絡。它改進了自己的神經(jīng)網(wǎng)絡,預測AlphaGo Zero自己的棋路,同時也預測了這些游戲的贏家。當AlphaGo Zero這樣做的時候,實際上會產(chǎn)生一個更強大的神經(jīng)網(wǎng)絡,這將導致‘玩家’進行新的迭代。因此,我們最終得到了一個新版AlphaGo Zero,它比之前的版本更強大。而且隨著這個過程不斷重復,它也可以產(chǎn)生更高質(zhì)量的數(shù)據(jù),并用于訓練更好的神經(jīng)網(wǎng)絡。”

三、依賴先進的算法

AlphaGo Zero使用的計算能力也比AlphaGo之前的版本要少得多,這表明,算法的進步遠比計算能力或數(shù)據(jù)進步更重要。AlphaGo Zero是一項重大突破,它為DeepMind的研究贏得了更大的聲譽。在AI研究領域,讓機器在某些任務中成為“超人”,而不是為它們提供人類數(shù)據(jù)進行訓練始終是一項長期存在的挑戰(zhàn)。由于人類數(shù)據(jù)太昂貴、太不可靠或根本無法獲取,從而導致AI研究進展緩慢。

西爾弗補充道:“由于不使用這些人類數(shù)據(jù)、特性或?qū)I(yè)技術(shù),我們實際上已經(jīng)消除了人類知識的局限性。因此,AlphaGo Zero能夠從最初的原則,從空白石板中創(chuàng)造知識,并制定出自己的策略,以及自己獨特的下棋方式。這使它能夠比以前的版本強大得多?!?/p>

盡管AlphaGo Zero的突破已讓人驚嘆,但是研究人員還遠沒有研究出像好萊塢電影中描述的《機械姬》(Ex-Machina)或《她》(Her)那樣的AI。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )

贊助商
2017-10-19
繼AlphaGo之后,AlphaGo Zero為何再次刷屏
今天,谷歌旗下人工智能(AI)實驗室DeepMind在Nature發(fā)布了這篇論文——在這篇名為《Mastering the game of Go without human knowledge》(不使

長按掃碼 閱讀全文