通過自我學習,新版AlphaGo如同屠殺般完勝舊版

通過自我學習,新版AlphaGo如同屠殺般完勝老版

credit 123RF

在AlphaGo橫掃人類頂級棋手幾個月后,人工智能棋手如今再次打破瓶頸,將以往的困難險阻化作大道坦途:最新版本的AlphaGo完全靠自學來實現(xiàn)前所未有的圍棋策略。該項目的新一輪智能棋手被稱為AlphaGo Zero,在不需要人為的輸入任何有關圍棋招法的情況下,僅僅三天的時間里,重新發(fā)明了人類棋手在數(shù)千年的下棋歷史中所掌握的定式,以及從未被人類發(fā)現(xiàn)的更先進的圍棋理念。通過將人工智能從對人類知識的依賴中解放出來,實現(xiàn)了突破智能機器自主思考限制的可能性。

人類使用兩種方法教授早期版本的AlphaGo下棋。第一種被稱為監(jiān)督學習,研究人員為程序提供了10萬盤業(yè)余頂級高手的對局,并教會了它模仿它所看到的內容。第二個,被稱為強化學習,他們讓程序自我發(fā)揮并從結果中學習改進。

AlphaGo Zero跳過了第一步。程序開始是一個白板,只知道圍棋的基本規(guī)則,然后開始一個人和自己的對弈。起初,它將棋子隨機放到棋盤上。隨著時間的推移,它開始學會判斷局勢和利弊取舍。它還發(fā)現(xiàn)了圍棋策略里的的許多規(guī)范要素,并發(fā)現(xiàn)了前所未有的新定式。密西根大學計算機科學家Satinder Singh說:“模仿人類的最好方式就是模仿人類,”他沒有參與AlphaGo的開發(fā), “在許多復雜的情況下,你也將永遠受限于人類。”

經(jīng)過三天的學習和490萬次對局訓練,研究人員令AlphaGo Zero與早期的AlphaGo對弈。 AlphaGo Zero以100:0懸殊比分贏下比賽。

對于專家來說,老版本的潰敗十分驚人。純粹強化學習似乎與圍棋的計算復雜性格格不入,圍棋比國際象棋要復雜得多:可以預期AlphaGo Zero將永遠追求最正確的下一步,如此它應該花費大量時間用于計算。但實際情況相反,它迅速成長,如有神助。

高效的學習過程歸功于反饋循環(huán)。像其前代一樣,AlphaGo Zero通過稱為“樹搜索”的過程來確定要下一步走法。該程序從當前局面開始,并考慮后續(xù)可能的動作。并加入考慮其對手可以在未來棋路中施加的影響因素,最后找到可以應對的措施,……如此這般,創(chuàng)建一個分支樹形圖,模擬出不同組合的局面演化,從而導致不同的應對策略。

AlphaGo Zero無法遍歷樹的每一個分支,因為這將需要過多的計算能力。相反,它通過決定哪些路徑似乎最有希望獲勝來選擇性地修剪分支。它可以根據(jù)早期的學習內容,計算出修剪哪些路徑,以獲得有助于引導向勝利的局勢。

AlphaGo的早期版本也遵循這樣的思路設計的。AlphaGo Zero的新能力是它會記住選擇了某個搜索樹的分支會導致怎樣的游戲結果,而不是僅僅運行樹搜索和照此運行結果移動。使用這些信息更新其對局面的評估,和選擇不同落子位置的獲勝概率。因此,下一次運行樹搜索時,可以使用修正過的估計值,反復用以前的樹搜索結果進行訓練,一次次生成更好的估計值。到最后,它的每一步落子都會增加終盤時獲勝的可能性。

既然AlphaGo Zero的能力是從極其大量的可能性中找到實現(xiàn)最佳可能性的路徑,在發(fā)表在《自然》上的論文里,AlphaGo Zero的研發(fā)者表示,他們的系統(tǒng)可以在材料物理學中發(fā)揮作用——為了產(chǎn)生具有不同性質的材料,你需要弄清各種原子組合會產(chǎn)生什么結果;以及研究折疊蛋白質分子的性質——需要了解蛋白質精確的三維構架結構并確定其功能。

至于圍棋,AlphaGo Zero可能引發(fā)了一場地震。迄今為止,還沒有哪家游戲公司開發(fā)出世界級的圍棋軟件。 但是AlphaGo Zero可能會改變這一局面。美國圍棋協(xié)會執(zhí)行副總裁Andrew Jackson認為,指導人類下棋的圍棋app不久就會出現(xiàn)在市場上。這將改變人類棋手訓練的方式。它也會使作弊變得容易。

對于AlphaGo來說,未來是開放的。 圍棋是一項非常復雜的智力活動,誰也說不清這套自我學習的程序未來可以達到何種高度; 現(xiàn)在能確定的是它掌握了一套學習方法來應對它爆炸性增長的復雜度,這也本來就是AlphaGo的存在意義。

本文譯自quantamagazine,由譯者 majer 基于創(chuàng)作共用協(xié)議(BY-NC)發(fā)布。

(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )

贊助商
2017-10-20
通過自我學習,新版AlphaGo如同屠殺般完勝舊版
在AlphaGo橫掃人類頂級棋手幾個月后,人工智能棋手如今再次打破瓶頸,將以往的困難險阻化作大道坦途:最新版本的AlphaGo完全靠自學來實現(xiàn)前所未有的圍棋策略。

長按掃碼 閱讀全文