曠視科學家詳解AlphaGo Zero的偉大與局限

10 月19 日凌晨,DeepMind 在《Nature》發(fā)布最新論文,AlphaGo 最強最新的版本AlphaGo Zero 使用純強化學習,3 天訓練后就以100 比0 擊敗了上一版本的AlphaGo,21 天達到AlphaGo Master 水平。AlphaGo Zero 的勝利引起了業(yè)內和網(wǎng)友們的廣泛關注,但是機器已經(jīng)真的進化到可以自我學習了嗎?日前,專注報道AI的量子位對曠視科技Face++首席科學家孫劍博士做了專訪,詳盡解讀了AlphaGo Zero的技術創(chuàng)新和應用局限。

“人類太多余了?!薄鎸o師自通碾壓一切前輩的AlphaGo Zero,柯潔說出了這樣一句話。

如果你無法理解柯潔的絕望,請先跟著量子位回顧上一集:

今年5月,20歲生日還未到的世界圍棋第一人柯潔,在烏鎮(zhèn)0:3敗給了DeepMind的人工智能程序AlphaGo,當時的版本叫做Master,就是今年年初在網(wǎng)上60:0挑落中日韓高手的那個神秘AI

AlphaGo Zero驟然出現(xiàn),可以說是在柯潔快要被人類對手和迷妹們治愈的傷口上,撒了一大把胡椒粉。

被震動的不止柯潔,在DeepMind的Nature論文公布之后,悲觀、甚至恐慌的情緒,在大眾之間蔓延著,甚至有媒體一本正經(jīng)地探討“未來是終結者還是黑客帝國”。

于是,不少認真讀了論文的人工智能“圈內人”紛紛站出來,為這次技術進展“去魅”。

AlphaGo Zero無師自通?

首當其沖的問題就是:在AlphaGo Zero下棋的過程中,人類知識和經(jīng)驗真的一點用都沒有嗎?

在這一版本的AlphaGo中,雖說人類的知識和經(jīng)驗沒多大作用,但也不至于“多余”。

在Zero下棋的過程中,并沒有從人類的對局經(jīng)驗和數(shù)據(jù)中進行學習,但這個算法依然需要人類向它灌輸圍棋的規(guī)則:哪些地方可以落子、怎樣才算獲勝等等。

剩下的,就由AI自己來搞定了。

對于這個話題,鮮有人比曠視科技首席科學家孫劍更有發(fā)言權了,因為AlphaGo Zero里面最核心使用的技術ResNet,正是孫劍在微軟亞洲研究院時期的發(fā)明。

△ 曠視科技Face++首席科學家孫劍博士

孫劍也在接受量子位等媒體采訪的過程中,對AlphaGo Zero的“無師自通”作出了評價,他認為這個說法“對,也不對”,并且表示“偉大與局限并存”。

究竟對不對,還是取決于怎樣定義無師自通,從哪個角度來看。

和之前三版AlphaGo相比,這一版去掉了人類教授棋譜的過程,在訓練過程最開始的時候,AI落子完全是隨機的,AlphaGo團隊的負責人David Silver透露,它一開始甚至會把開局第一手下在1-1。在和自己對弈的過程中,算法才逐漸掌握了勝利的秘訣。

從這個角度來看,Zero的確可以說是第一次做到了無師自通,也正是出于這個原因,DeepMind這篇Nature論文才能引起這么多圈內人關注。

但要說它是“無監(jiān)督學習”,就有點“不對”。孫劍說:“如果仔細看這個系統(tǒng),它還是有監(jiān)督的?!彼谋O(jiān)督不是來自棋譜,而是圍棋規(guī)則所決定的最后誰輸誰贏這個信號。

“從這個意義上說,它不是百分之百絕對的無師自通,而是通過這個規(guī)則所帶來的監(jiān)督信號,它是一種非常弱監(jiān)督的增強學習,它不是完全的無師自通。”

孫劍還進一步強調:“但是同時這種無師自通在很多AI落地上也存在一些局限,因為嚴格意義上講,圍棋規(guī)則和判定棋局輸贏也是一種監(jiān)督信號,所以有人說人類無用、或者說機器可以自己產生認知,都是對AlphaGo Zero錯誤理解。”

離全面碾壓人類有多遠?

Zero發(fā)布之后,媒體關切地詢問“這個算法以后會用在哪些其他領域”,網(wǎng)友認真地擔心“這個AI會不會在各個領域全面碾壓人類”。

對于Zero算法的未來發(fā)展,DeepMind聯(lián)合創(chuàng)始人哈薩比斯介紹說,AlphaGo團隊的成員都已經(jīng)轉移到其他團隊中,正在嘗試將這項技術用到其他領域,“最終,我們想用這樣的算法突破,來解決真實世界中各種各樣緊迫的問題?!?/p>

DeepMind期待Zero解決的,是“其他結構性問題”,他們在博客中特別列舉出幾項:蛋白質折疊、降低能耗、尋找革命性的新材料。

哈薩比斯說AlphaGo可以看做一個在復雜數(shù)據(jù)中進行搜索的機器,除了博客中提到幾項,新藥發(fā)現(xiàn)、量子化學、粒子物理學也是AlphaGo可能大展拳腳的領域。

不過,究竟哪些領域可以擴展、哪些領域不行呢?

孫劍說要解釋AlphaGo算法能擴展到哪些領域,需要先了解它現(xiàn)在所解決的問題——圍棋——具有哪些特性。

首先,它沒有噪聲,是能夠完美重現(xiàn)的算法;

其次,圍棋中的信息是完全可觀測的,不像在麻將、撲克里,對手的信息觀測不到;

最后也是最重要的一點,是圍棋對局可以用計算機迅速模擬,很快地輸出輸贏信號。

基于對圍棋這個領域特性的理解,提到用AlphaGo算法來發(fā)現(xiàn)新藥,孫劍是持懷疑態(tài)度的。

他說,發(fā)現(xiàn)新藥和下圍棋之間有一個非常顯著的區(qū)別,就是“輸贏信號”能不能很快輸出:“新藥品很多內部的結構需要通過搜索,搜索完以后制成藥,再到真正怎么去檢驗這個藥有效,這個閉環(huán)非常代價昂貴,非常慢,你很難像下圍棋這么簡單做出來。”

不過,如果找到快速驗證新藥是否有效的方法,這項技術就能很好地用在新藥開發(fā)上了。而用AlphaGo算法用來幫數(shù)據(jù)中心節(jié)能,孫劍就認為非常說得通,因為它和圍棋的特性很一致,能快速輸出結果反饋,也就是AlphaGo算法依賴的弱監(jiān)督信號。

當然,從AlphaGo算法的這些限制,我們也不難推想,它在某些小領域內可以做得非常好,但其實并沒有“全面碾壓人類”的潛力。

去魅歸去魅,對于AlphaGo Zero的算法,科研人員紛紛贊不絕口。

大道至簡的算法

在評價Zero的算法時,創(chuàng)新工場AI工程院副院長王詠剛用了“大道至簡”四個字。

簡單,是不少人工智能“圈內人”讀完論文后對Zero的評價。剛剛宣布將要跳槽伯克利的前微軟亞洲研究院首席研究員馬毅教授就發(fā)微博評論說,這篇論文“沒有提出任何新的方法和模型”,但是徹底地實現(xiàn)了一個簡單有效的想法。

為什么“簡單”這件事如此被學術圈津津樂道?孫劍的解釋是“我們做研究追求極簡,去除復雜”,而Zero的算法基本就是在前代基礎上從各方面去簡化。

他說,這種簡化,一方面體現(xiàn)在把原來的策略網(wǎng)絡和價值網(wǎng)絡合并成一個網(wǎng)絡,簡化了搜索過程;另一方面體現(xiàn)在用深度殘差網(wǎng)絡(ResNet)來對輸入進行簡化,以前需要人工設計棋盤的輸入,體現(xiàn)“這個子下過幾次、周圍有幾個黑子幾個白子”這樣的信息,而現(xiàn)在是“把黑白子二值的圖直接送進來,相當于可以理解成對著棋盤拍照片,把照片送給神經(jīng)網(wǎng)絡,讓神經(jīng)網(wǎng)絡看著棋盤照片做決策”。孫劍認為,擬合搜索和ResNet,正是Zero算法中的兩個核心技術。

其中擬合搜索所解決的問題,主要是定制化,它可以對棋盤上的每一次落子都進行量化,比如會對最終獲勝幾率做多大貢獻,但是這其實并不是近期才產生的一種理論,而是在很早之前就存在的一種基礎算法理論。

而另一核心技術是最深可達80層的ResNet??偟膩碚f,神經(jīng)網(wǎng)絡越深,函數(shù)映射能力就越強、越有效率,越有可能有效預測一個復雜的映射。

下圍棋時要用到的,就是一個非常復雜的映射,神經(jīng)網(wǎng)絡需要輸出每個可能位置落子時贏的概率,也就是最高要輸出一個361維的向量。這是一個非常復雜的輸出,需要很深的網(wǎng)絡來解決。

人類棋手下棋,落子很多時候靠直覺,而這背后實際上有一個非常復雜的函數(shù),Zero就用深層ResNet,擬合出了這樣的函數(shù)。

ResNet特點就是利用殘差學習,讓非常深的網(wǎng)絡可以很好地學習,2015年,孫劍帶領的團隊就用ResNet把深度神經(jīng)網(wǎng)絡的層數(shù)從十幾二十層,推到了152層。

也正是憑借這樣的創(chuàng)新,孫劍團隊拿下了ImageNet和MSCOCO圖像識別大賽各項目的冠軍。到2016年,他們又推出了第一個上千層的網(wǎng)絡,獲得了CVPR最佳論文獎。

而令孫劍更加意料之外的是,ResNet還被AlphaGo團隊看中,成為AlphaGo Zero算法中的核心組件之一。

這位曠視科技Face++首席科學家表示很開心為推動整個AI進步“做了一點微小的貢獻”,同時也很欽佩DeepMind團隊追求極致的精神。孫劍還說,在曠視研究院的工作中,還會不斷分享、開放研究成果,更注重技術在產業(yè)中的實用性,進一步推動整個AI產業(yè)的進步。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2017-10-27
曠視科學家詳解AlphaGo Zero的偉大與局限
10 月19 日凌晨,DeepMind 在《Nature》發(fā)布最新論文,AlphaGo 最強最新的版本AlphaGo Zero 使用純強化學習,3 天訓練后就以100 比0 擊敗了上一版本的AlphaGo,21 天達到AlphaGo Master 水平。AlphaGo Zero 的勝利引起了業(yè)內和網(wǎng)友們的廣泛關注,但是機器已經(jīng)真的進化

長按掃碼 閱讀全文