曠視科學(xué)家詳解AlphaGo Zero的偉大與局限

10 月19 日凌晨,DeepMind 在《Nature》發(fā)布最新論文,AlphaGo 最強(qiáng)最新的版本AlphaGo Zero 使用純強(qiáng)化學(xué)習(xí),3 天訓(xùn)練后就以100 比0 擊敗了上一版本的AlphaGo,21 天達(dá)到AlphaGo Master 水平。AlphaGo Zero 的勝利引起了業(yè)內(nèi)和網(wǎng)友們的廣泛關(guān)注,但是機(jī)器已經(jīng)真的進(jìn)化到可以自我學(xué)習(xí)了嗎?日前,專注報(bào)道AI的量子位對(duì)曠視科技Face++首席科學(xué)家孫劍博士做了專訪,詳盡解讀了AlphaGo Zero的技術(shù)創(chuàng)新和應(yīng)用局限。

“人類太多余了?!薄鎸?duì)無師自通碾壓一切前輩的AlphaGo Zero,柯潔說出了這樣一句話。

如果你無法理解柯潔的絕望,請(qǐng)先跟著量子位回顧上一集:

今年5月,20歲生日還未到的世界圍棋第一人柯潔,在烏鎮(zhèn)0:3敗給了DeepMind的人工智能程序AlphaGo,當(dāng)時(shí)的版本叫做Master,就是今年年初在網(wǎng)上60:0挑落中日韓高手的那個(gè)神秘AI。

AlphaGo Zero驟然出現(xiàn),可以說是在柯潔快要被人類對(duì)手和迷妹們治愈的傷口上,撒了一大把胡椒粉。

被震動(dòng)的不止柯潔,在DeepMind的Nature論文公布之后,悲觀、甚至恐慌的情緒,在大眾之間蔓延著,甚至有媒體一本正經(jīng)地探討“未來是終結(jié)者還是黑客帝國(guó)”。

于是,不少認(rèn)真讀了論文的人工智能“圈內(nèi)人”紛紛站出來,為這次技術(shù)進(jìn)展“去魅”。

AlphaGo Zero無師自通?

首當(dāng)其沖的問題就是:在AlphaGo Zero下棋的過程中,人類知識(shí)和經(jīng)驗(yàn)真的一點(diǎn)用都沒有嗎?

在這一版本的AlphaGo中,雖說人類的知識(shí)和經(jīng)驗(yàn)沒多大作用,但也不至于“多余”。

在Zero下棋的過程中,并沒有從人類的對(duì)局經(jīng)驗(yàn)和數(shù)據(jù)中進(jìn)行學(xué)習(xí),但這個(gè)算法依然需要人類向它灌輸圍棋的規(guī)則:哪些地方可以落子、怎樣才算獲勝等等。

剩下的,就由AI自己來搞定了。

對(duì)于這個(gè)話題,鮮有人比曠視科技首席科學(xué)家孫劍更有發(fā)言權(quán)了,因?yàn)锳lphaGo Zero里面最核心使用的技術(shù)ResNet,正是孫劍在微軟亞洲研究院時(shí)期的發(fā)明。

△ 曠視科技Face++首席科學(xué)家孫劍博士

孫劍也在接受量子位等媒體采訪的過程中,對(duì)AlphaGo Zero的“無師自通”作出了評(píng)價(jià),他認(rèn)為這個(gè)說法“對(duì),也不對(duì)”,并且表示“偉大與局限并存”。

究竟對(duì)不對(duì),還是取決于怎樣定義無師自通,從哪個(gè)角度來看。

和之前三版AlphaGo相比,這一版去掉了人類教授棋譜的過程,在訓(xùn)練過程最開始的時(shí)候,AI落子完全是隨機(jī)的,AlphaGo團(tuán)隊(duì)的負(fù)責(zé)人David Silver透露,它一開始甚至?xí)验_局第一手下在1-1。在和自己對(duì)弈的過程中,算法才逐漸掌握了勝利的秘訣。

從這個(gè)角度來看,Zero的確可以說是第一次做到了無師自通,也正是出于這個(gè)原因,DeepMind這篇Nature論文才能引起這么多圈內(nèi)人關(guān)注。

但要說它是“無監(jiān)督學(xué)習(xí)”,就有點(diǎn)“不對(duì)”。孫劍說:“如果仔細(xì)看這個(gè)系統(tǒng),它還是有監(jiān)督的?!彼谋O(jiān)督不是來自棋譜,而是圍棋規(guī)則所決定的最后誰(shuí)輸誰(shuí)贏這個(gè)信號(hào)。

“從這個(gè)意義上說,它不是百分之百絕對(duì)的無師自通,而是通過這個(gè)規(guī)則所帶來的監(jiān)督信號(hào),它是一種非常弱監(jiān)督的增強(qiáng)學(xué)習(xí),它不是完全的無師自通?!?/p>

孫劍還進(jìn)一步強(qiáng)調(diào):“但是同時(shí)這種無師自通在很多AI落地上也存在一些局限,因?yàn)閲?yán)格意義上講,圍棋規(guī)則和判定棋局輸贏也是一種監(jiān)督信號(hào),所以有人說人類無用、或者說機(jī)器可以自己產(chǎn)生認(rèn)知,都是對(duì)AlphaGo Zero錯(cuò)誤理解。”

離全面碾壓人類有多遠(yuǎn)?

Zero發(fā)布之后,媒體關(guān)切地詢問“這個(gè)算法以后會(huì)用在哪些其他領(lǐng)域”,網(wǎng)友認(rèn)真地?fù)?dān)心“這個(gè)AI會(huì)不會(huì)在各個(gè)領(lǐng)域全面碾壓人類”。

對(duì)于Zero算法的未來發(fā)展,DeepMind聯(lián)合創(chuàng)始人哈薩比斯介紹說,AlphaGo團(tuán)隊(duì)的成員都已經(jīng)轉(zhuǎn)移到其他團(tuán)隊(duì)中,正在嘗試將這項(xiàng)技術(shù)用到其他領(lǐng)域,“最終,我們想用這樣的算法突破,來解決真實(shí)世界中各種各樣緊迫的問題?!?/p>

DeepMind期待Zero解決的,是“其他結(jié)構(gòu)性問題”,他們?cè)诓┛椭刑貏e列舉出幾項(xiàng):蛋白質(zhì)折疊、降低能耗、尋找革命性的新材料。

哈薩比斯說AlphaGo可以看做一個(gè)在復(fù)雜數(shù)據(jù)中進(jìn)行搜索的機(jī)器,除了博客中提到幾項(xiàng),新藥發(fā)現(xiàn)、量子化學(xué)、粒子物理學(xué)也是AlphaGo可能大展拳腳的領(lǐng)域。

不過,究竟哪些領(lǐng)域可以擴(kuò)展、哪些領(lǐng)域不行呢?

孫劍說要解釋AlphaGo算法能擴(kuò)展到哪些領(lǐng)域,需要先了解它現(xiàn)在所解決的問題——圍棋——具有哪些特性。

首先,它沒有噪聲,是能夠完美重現(xiàn)的算法;

其次,圍棋中的信息是完全可觀測(cè)的,不像在麻將、撲克里,對(duì)手的信息觀測(cè)不到;

最后也是最重要的一點(diǎn),是圍棋對(duì)局可以用計(jì)算機(jī)迅速模擬,很快地輸出輸贏信號(hào)。

基于對(duì)圍棋這個(gè)領(lǐng)域特性的理解,提到用AlphaGo算法來發(fā)現(xiàn)新藥,孫劍是持懷疑態(tài)度的。

他說,發(fā)現(xiàn)新藥和下圍棋之間有一個(gè)非常顯著的區(qū)別,就是“輸贏信號(hào)”能不能很快輸出:“新藥品很多內(nèi)部的結(jié)構(gòu)需要通過搜索,搜索完以后制成藥,再到真正怎么去檢驗(yàn)這個(gè)藥有效,這個(gè)閉環(huán)非常代價(jià)昂貴,非常慢,你很難像下圍棋這么簡(jiǎn)單做出來?!?/p>

不過,如果找到快速驗(yàn)證新藥是否有效的方法,這項(xiàng)技術(shù)就能很好地用在新藥開發(fā)上了。而用AlphaGo算法用來幫數(shù)據(jù)中心節(jié)能,孫劍就認(rèn)為非常說得通,因?yàn)樗蛧宓奶匦院芤恢?,能快速輸出結(jié)果反饋,也就是AlphaGo算法依賴的弱監(jiān)督信號(hào)。

當(dāng)然,從AlphaGo算法的這些限制,我們也不難推想,它在某些小領(lǐng)域內(nèi)可以做得非常好,但其實(shí)并沒有“全面碾壓人類”的潛力。

去魅歸去魅,對(duì)于AlphaGo Zero的算法,科研人員紛紛贊不絕口。

大道至簡(jiǎn)的算法

在評(píng)價(jià)Zero的算法時(shí),創(chuàng)新工場(chǎng)AI工程院副院長(zhǎng)王詠剛用了“大道至簡(jiǎn)”四個(gè)字。

簡(jiǎn)單,是不少人工智能“圈內(nèi)人”讀完論文后對(duì)Zero的評(píng)價(jià)。剛剛宣布將要跳槽伯克利的前微軟亞洲研究院首席研究員馬毅教授就發(fā)微博評(píng)論說,這篇論文“沒有提出任何新的方法和模型”,但是徹底地實(shí)現(xiàn)了一個(gè)簡(jiǎn)單有效的想法。

為什么“簡(jiǎn)單”這件事如此被學(xué)術(shù)圈津津樂道?孫劍的解釋是“我們做研究追求極簡(jiǎn),去除復(fù)雜”,而Zero的算法基本就是在前代基礎(chǔ)上從各方面去簡(jiǎn)化。

他說,這種簡(jiǎn)化,一方面體現(xiàn)在把原來的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)合并成一個(gè)網(wǎng)絡(luò),簡(jiǎn)化了搜索過程;另一方面體現(xiàn)在用深度殘差網(wǎng)絡(luò)(ResNet)來對(duì)輸入進(jìn)行簡(jiǎn)化,以前需要人工設(shè)計(jì)棋盤的輸入,體現(xiàn)“這個(gè)子下過幾次、周圍有幾個(gè)黑子幾個(gè)白子”這樣的信息,而現(xiàn)在是“把黑白子二值的圖直接送進(jìn)來,相當(dāng)于可以理解成對(duì)著棋盤拍照片,把照片送給神經(jīng)網(wǎng)絡(luò),讓神經(jīng)網(wǎng)絡(luò)看著棋盤照片做決策”。孫劍認(rèn)為,擬合搜索和ResNet,正是Zero算法中的兩個(gè)核心技術(shù)。

其中擬合搜索所解決的問題,主要是定制化,它可以對(duì)棋盤上的每一次落子都進(jìn)行量化,比如會(huì)對(duì)最終獲勝幾率做多大貢獻(xiàn),但是這其實(shí)并不是近期才產(chǎn)生的一種理論,而是在很早之前就存在的一種基礎(chǔ)算法理論。

而另一核心技術(shù)是最深可達(dá)80層的ResNet。總的來說,神經(jīng)網(wǎng)絡(luò)越深,函數(shù)映射能力就越強(qiáng)、越有效率,越有可能有效預(yù)測(cè)一個(gè)復(fù)雜的映射。

下圍棋時(shí)要用到的,就是一個(gè)非常復(fù)雜的映射,神經(jīng)網(wǎng)絡(luò)需要輸出每個(gè)可能位置落子時(shí)贏的概率,也就是最高要輸出一個(gè)361維的向量。這是一個(gè)非常復(fù)雜的輸出,需要很深的網(wǎng)絡(luò)來解決。

人類棋手下棋,落子很多時(shí)候靠直覺,而這背后實(shí)際上有一個(gè)非常復(fù)雜的函數(shù),Zero就用深層ResNet,擬合出了這樣的函數(shù)。

ResNet特點(diǎn)就是利用殘差學(xué)習(xí),讓非常深的網(wǎng)絡(luò)可以很好地學(xué)習(xí),2015年,孫劍帶領(lǐng)的團(tuán)隊(duì)就用ResNet把深度神經(jīng)網(wǎng)絡(luò)的層數(shù)從十幾二十層,推到了152層。

也正是憑借這樣的創(chuàng)新,孫劍團(tuán)隊(duì)拿下了ImageNet和MSCOCO圖像識(shí)別大賽各項(xiàng)目的冠軍。到2016年,他們又推出了第一個(gè)上千層的網(wǎng)絡(luò),獲得了CVPR最佳論文獎(jiǎng)。

而令孫劍更加意料之外的是,ResNet還被AlphaGo團(tuán)隊(duì)看中,成為AlphaGo Zero算法中的核心組件之一。

這位曠視科技Face++首席科學(xué)家表示很開心為推動(dòng)整個(gè)AI進(jìn)步“做了一點(diǎn)微小的貢獻(xiàn)”,同時(shí)也很欽佩DeepMind團(tuán)隊(duì)追求極致的精神。孫劍還說,在曠視研究院的工作中,還會(huì)不斷分享、開放研究成果,更注重技術(shù)在產(chǎn)業(yè)中的實(shí)用性,進(jìn)一步推動(dòng)整個(gè)AI產(chǎn)業(yè)的進(jìn)步。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-10-27
曠視科學(xué)家詳解AlphaGo Zero的偉大與局限
10 月19 日凌晨,DeepMind 在《Nature》發(fā)布最新論文,AlphaGo 最強(qiáng)最新的版本AlphaGo Zero 使用純強(qiáng)化學(xué)習(xí),3 天訓(xùn)練后就以100 比0 擊敗了上一版本的AlphaGo,21 天達(dá)到AlphaGo Master 水平。AlphaGo Zero 的勝利引起了業(yè)內(nèi)和網(wǎng)友們的廣泛關(guān)注,但是機(jī)器已經(jīng)真的進(jìn)化

長(zhǎng)按掃碼 閱讀全文