123,123,123

通過(guò)自我學(xué)習(xí)，新版AlphaGo如同屠殺般完勝老版

credit 123RF

在AlphaGo橫掃人類(lèi)頂級(jí)棋手幾個(gè)月后，人工智能棋手如今再次打破瓶頸，將以往的困難險(xiǎn)阻化作大道坦途：最新版本的AlphaGo完全靠自學(xué)來(lái)實(shí)現(xiàn)前所未有的圍棋策略。該項(xiàng)目的新一輪智能棋手被稱(chēng)為AlphaGo Zero，在不需要人為的輸入任何有關(guān)圍棋招法的情況下，僅僅三天的時(shí)間里，重新發(fā)明了人類(lèi)棋手在數(shù)千年的下棋歷史中所掌握的定式，以及從未被人類(lèi)發(fā)現(xiàn)的更先進(jìn)的圍棋理念。通過(guò)將人工智能從對(duì)人類(lèi)知識(shí)的依賴(lài)中解放出來(lái)，實(shí)現(xiàn)了突破智能機(jī)器自主思考限制的可能性。

人類(lèi)使用兩種方法教授早期版本的AlphaGo下棋。第一種被稱(chēng)為監(jiān)督學(xué)習(xí)，研究人員為程序提供了10萬(wàn)盤(pán)業(yè)余頂級(jí)高手的對(duì)局，并教會(huì)了它模仿它所看到的內(nèi)容。第二個(gè)，被稱(chēng)為強(qiáng)化學(xué)習(xí)，他們讓程序自我發(fā)揮并從結(jié)果中學(xué)習(xí)改進(jìn)。

AlphaGo Zero跳過(guò)了第一步。程序開(kāi)始是一個(gè)白板，只知道圍棋的基本規(guī)則，然后開(kāi)始一個(gè)人和自己的對(duì)弈。起初，它將棋子隨機(jī)放到棋盤(pán)上。隨著時(shí)間的推移，它開(kāi)始學(xué)會(huì)判斷局勢(shì)和利弊取舍。它還發(fā)現(xiàn)了圍棋策略里的的許多規(guī)范要素，并發(fā)現(xiàn)了前所未有的新定式。密西根大學(xué)計(jì)算機(jī)科學(xué)家Satinder Singh說(shuō)：“模仿人類(lèi)的最好方式就是模仿人類(lèi)，”他沒(méi)有參與AlphaGo的開(kāi)發(fā)， “在許多復(fù)雜的情況下，你也將永遠(yuǎn)受限于人類(lèi)?！?/p>

經(jīng)過(guò)三天的學(xué)習(xí)和490萬(wàn)次對(duì)局訓(xùn)練，研究人員令A(yù)lphaGo Zero與早期的AlphaGo對(duì)弈。 AlphaGo Zero以100：0懸殊比分贏下比賽。

對(duì)于專(zhuān)家來(lái)說(shuō)，老版本的潰敗十分驚人。純粹強(qiáng)化學(xué)習(xí)似乎與圍棋的計(jì)算復(fù)雜性格格不入，圍棋比國(guó)際象棋要復(fù)雜得多：可以預(yù)期AlphaGo Zero將永遠(yuǎn)追求最正確的下一步，如此它應(yīng)該花費(fèi)大量時(shí)間用于計(jì)算。但實(shí)際情況相反，它迅速成長(zhǎng)，如有神助。

高效的學(xué)習(xí)過(guò)程歸功于反饋循環(huán)。像其前代一樣，AlphaGo Zero通過(guò)稱(chēng)為“樹(shù)搜索”的過(guò)程來(lái)確定要下一步走法。該程序從當(dāng)前局面開(kāi)始，并考慮后續(xù)可能的動(dòng)作。并加入考慮其對(duì)手可以在未來(lái)棋路中施加的影響因素，最后找到可以應(yīng)對(duì)的措施，……如此這般，創(chuàng)建一個(gè)分支樹(shù)形圖，模擬出不同組合的局面演化，從而導(dǎo)致不同的應(yīng)對(duì)策略。

AlphaGo Zero無(wú)法遍歷樹(shù)的每一個(gè)分支，因?yàn)檫@將需要過(guò)多的計(jì)算能力。相反，它通過(guò)決定哪些路徑似乎最有希望獲勝來(lái)選擇性地修剪分支。它可以根據(jù)早期的學(xué)習(xí)內(nèi)容，計(jì)算出修剪哪些路徑，以獲得有助于引導(dǎo)向勝利的局勢(shì)。

AlphaGo的早期版本也遵循這樣的思路設(shè)計(jì)的。AlphaGo Zero的新能力是它會(huì)記住選擇了某個(gè)搜索樹(shù)的分支會(huì)導(dǎo)致怎樣的游戲結(jié)果，而不是僅僅運(yùn)行樹(shù)搜索和照此運(yùn)行結(jié)果移動(dòng)。使用這些信息更新其對(duì)局面的評(píng)估，和選擇不同落子位置的獲勝概率。因此，下一次運(yùn)行樹(shù)搜索時(shí)，可以使用修正過(guò)的估計(jì)值，反復(fù)用以前的樹(shù)搜索結(jié)果進(jìn)行訓(xùn)練，一次次生成更好的估計(jì)值。到最后，它的每一步落子都會(huì)增加終盤(pán)時(shí)獲勝的可能性。

既然AlphaGo Zero的能力是從極其大量的可能性中找到實(shí)現(xiàn)最佳可能性的路徑，在發(fā)表在《自然》上的論文里，AlphaGo Zero的研發(fā)者表示，他們的系統(tǒng)可以在材料物理學(xué)中發(fā)揮作用——為了產(chǎn)生具有不同性質(zhì)的材料，你需要弄清各種原子組合會(huì)產(chǎn)生什么結(jié)果；以及研究折疊蛋白質(zhì)分子的性質(zhì)——需要了解蛋白質(zhì)精確的三維構(gòu)架結(jié)構(gòu)并確定其功能。

至于圍棋，AlphaGo Zero可能引發(fā)了一場(chǎng)地震。迄今為止，還沒(méi)有哪家游戲公司開(kāi)發(fā)出世界級(jí)的圍棋軟件。但是AlphaGo Zero可能會(huì)改變這一局面。美國(guó)圍棋協(xié)會(huì)執(zhí)行副總裁Andrew Jackson認(rèn)為，指導(dǎo)人類(lèi)下棋的圍棋app不久就會(huì)出現(xiàn)在市場(chǎng)上。這將改變?nèi)祟?lèi)棋手訓(xùn)練的方式。它也會(huì)使作弊變得容易。

對(duì)于AlphaGo來(lái)說(shuō)，未來(lái)是開(kāi)放的。圍棋是一項(xiàng)非常復(fù)雜的智力活動(dòng)，誰(shuí)也說(shuō)不清這套自我學(xué)習(xí)的程序未來(lái)可以達(dá)到何種高度; 現(xiàn)在能確定的是它掌握了一套學(xué)習(xí)方法來(lái)應(yīng)對(duì)它爆炸性增長(zhǎng)的復(fù)雜度，這也本來(lái)就是AlphaGo的存在意義。

本文譯自quantamagazine，由譯者 majer 基于創(chuàng)作共用協(xié)議(BY-NC)發(fā)布。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。）