前言
AlphaGo Zero [1]提出了新的估算搜索評價函數(shù)的方法,即基于蒙特卡洛樹搜索的強化學習;部分地解決了超大狀態(tài)空間搜索的難點;成功地應(yīng)用到圍棋領(lǐng)域并完勝了人類;證明了強化學習的有效性,是人工智能史上一座里程碑。其學術(shù)貢獻中上,學術(shù)意義上,社會影響上上。
AlphaGo Zero雖然不是開創(chuàng)性工作,但它所提出的方法很好地結(jié)合了已有的兩種重要方法。對于類圍棋智力游戲,AlphaGo Zero是一個重要的結(jié)論性工作。但故事并沒有完全結(jié)束,因為圍棋的必勝策略還沒找到。對于能轉(zhuǎn)化成搜索問題的人工智能領(lǐng)域和難點,AlphaGo Zero有很大的用武之地,但這需要研究者們的艱辛努力。而對于人工智能其他領(lǐng)域和難點,或許能觸類旁通。但至少目前,AlphaGo Zero并不能提供直接幫助。
對AlphaGo Zero的評價,既沒有必要貶低,也不用神化。本著實事求是的精神,還原其真實面貌。更重要的是,期望AlphaGo Zero取得的成功能鼓勵同儕做出更好的工作,從而進一步推動人工智能發(fā)展。
AlphaGo Zero的意義
AlphaGo Zero的成功意味著什么?我們從學術(shù)貢獻、學術(shù)意義和社會影響三個方面來談?wù)劇?/p>
從學術(shù)貢獻的角度,雖然AlphaGo Zero是一個里程碑式的工作,但不應(yīng)該對其過分神化。前文已經(jīng)論述,AlphaGo Zero的主要學術(shù)貢獻是提出了新的估算評價函數(shù)的方法,即基于蒙特卡洛樹搜索的強化學習方法。該方法是把已有的兩種方法,即蒙特卡洛樹搜索[2]和強化學習[3, 4],融合到了一起,在圍棋領(lǐng)域取得了很好的效果。所以,AlphaGo Zero在人工智能學術(shù)界不算最頂級的開創(chuàng)性工作。
AlphaGo Zero更重要的,是其學術(shù)意義。首先,AlphaGo Zero某種程度上攻克了圍棋領(lǐng)域。至此,可以論斷,機器下圍棋可以完勝人類。由于圍棋難度在同類智力游戲中居首,由此推論,在同類智力游戲中,機器可以戰(zhàn)勝人類。
另外,AlphaGo Zero也再次驗證了深度學習的有效性。深度學習給人工智能帶來了革命性的變革,使人工智能整體水準有了質(zhì)的飛躍,并能真正應(yīng)用到不同的領(lǐng)域,取得商業(yè)上的成功。
?圖1 AlphaGo Zero學習過程,圖片來源:Deepmind
更值得稱道的是,AlphaGo Zero摒棄了有監(jiān)督學習,僅使用強化學習就達到了很好的效果,而且發(fā)現(xiàn)了以前沒有被人類所有選手發(fā)現(xiàn)的知識。因此,AlphaGo Zero在圍棋這個領(lǐng)域,解決了困擾機器學習的兩個最重要的問題,數(shù)據(jù)的來源以及數(shù)據(jù)的質(zhì)量。如果這種方法能夠推廣到其他領(lǐng)域,那AlphaGo Zero的學術(shù)意義就會更加巨大。
同時,由于沒有用到人類先驗知識和原始數(shù)據(jù),AlphaGo Zero再次強調(diào)了算法的重要性。算法比數(shù)據(jù)重要一直是人工智能界的主流觀點,但近年由于基于大數(shù)據(jù)的人工智能應(yīng)用取得了重大的成功,“數(shù)據(jù)是王道”成為了一種新的潮流,某種程度上稍微忽略了對算法、原理以及理論的探索。AlphaGo Zero再次表明,算法、數(shù)據(jù)、原理和理論都很重要。
在上一段的論述中,筆者加了很多看似拗口的修飾詞,如“某種程度上”、“圍棋領(lǐng)域”、“同類智力游戲”、 “如果能夠推廣”等,而這些修飾詞是有其深意的。 “某種程度上”意味著AlphaGo Zero并沒有完全攻克圍棋領(lǐng)域。完全攻克需要找到圍棋的必勝策略(理論上一定存在)。戰(zhàn)勝世界冠軍和找到必勝策略之間存在相當大的距離,前者代表相對于人類 “更好”,而后者代表絕對意義上的“最佳”。就象西洋跳棋程序一樣,Chinook 1994年戰(zhàn)勝了人類世界冠軍,2007年才找到必勝策略[5]?!皣孱I(lǐng)域”、“同類智力游戲”意味著AlphaGo Zero能夠應(yīng)用的領(lǐng)域,雖然可能很廣,但并不包括人工智能的全部。 “如果能夠推廣”意味著把AlphaGo Zero中的技術(shù)推廣和應(yīng)用到其他領(lǐng)域,并不是一個想當然的事情,需要人工智能研究者們付出相當大的努力。其根本原因在于其他領(lǐng)域的基本難點于環(huán)境和圍棋有本質(zhì)上的區(qū)別。
?圖2 1992年,Chinook與Tinsley人機對戰(zhàn)現(xiàn)場,圖片來源:google
為何AlphaGo Zero取得了如此大的成功,而人工智能離總體成功卻仍然遙遠?這就要先從人工智能的原理說起。
自人工智能出現(xiàn)以來,人們對于智能本質(zhì)是否可描述、可用數(shù)學刻畫就有不同的觀點。觀點的分歧導致了兩種截然不同的人工智能發(fā)展思路,即強人工智能和弱人工智能。前者強調(diào)需要弄清楚智能原理,而后者不管三七二十一,只要造出來的機器能夠體現(xiàn)某種智能行為即可,比如下棋、駕駛、高考、翻譯、玩游戲等。在弱人工智能中,又可以分為通用和專用。通用是指要讓造出的機器體現(xiàn)通用的智能,既可以用來下棋、又可以用來駕駛、高考、翻譯和玩游戲;而專用是指對每一種不同的智能行為,打造專用的機器,如程序A用來下棋,程序B用來駕駛等等。當前的人工智能進展,主要在專用弱人工智能上,通用弱人工智能和強人工智能幾乎沒有革命性的突破。
?圖3 人工智能在翻譯軟件中的應(yīng)用,圖片來源:google
AlphaGo Zero再次為專用弱人工智能添磚加瓦,而且是最亮麗的一片琉璃瓦之一。AlphaGo Zero對通用人工智能和強人工智能可能會有些啟發(fā),但至少目前并不明朗。但話說回來,從應(yīng)用角度,專用弱人工智能已經(jīng)非常強大非常重要,因為很多人類的工作就是在某種特定的場景下做特定的事情。
除了智能原理之外,再深入一點,人工智能可以細分為很多困難點,我試圖用九點來大致概括,插入與AlphaGo Zero戰(zhàn)勝人類的的圍棋問題作對比,供大家了解。
第一,建模。很多人工智能問題,連一個完整的數(shù)學模型都很難建立。例如玩星際爭霸游戲、高考、自然語言理解等,雖然很容易對其中的某一部分建立一個模型,但很難把整個模型完整地統(tǒng)一起來。而圍棋的建模非常簡單。
第二,如何處理復雜函數(shù),特別是是嵌套分層的函數(shù)。在圍棋中,作為數(shù)據(jù)的<輸入,輸出>對被定義得很清楚,輸入就是棋盤狀態(tài)而輸出就是當前狀態(tài)下的選擇。但在很多開放問題上,函數(shù)的定義沒那么清楚。比如機器人足球,傳球這個行動,不僅有參數(shù),本身不好定義,而且可以進一步細分成很多更加細粒度的行動,如抬腳、踢球等等,而這些行動又可以進一步細分。
第三,行動后果的不確定性。在圍棋中,每個行動都有確定的結(jié)果,落子必定會成功。然而很多人工智能問題,行動的后果是不確定的,并不保證一定成功。例如傳球的時候,球可能被敵方搶走,導致這個行動失敗。
第四,環(huán)境的部分可觀察性和動態(tài)性。例如星際爭霸游戲中,敵方的軍隊位置和動向都是部分可觀察的,并且不是一成不變的。而在圍棋領(lǐng)域,這些都是完全可觀察的和靜態(tài)的。
第五,表示的規(guī)模和魯棒性。比如在自然語言理解中,自然語言的規(guī)則不僅相當之多,而且很多情況下這些規(guī)則并不對所有情況都適用。而在圍棋中,規(guī)則都是很簡單且很通用的。
第六,意外和突發(fā)情況。例如在自動駕駛中,可能有很多意外情況,如突然躥出來一個小孩。在這些領(lǐng)域中,幾乎不可能列舉所有的突發(fā)情況。而在圍棋領(lǐng)域,完全沒有意外和突發(fā)。
第七,很多問題并不能簡單的規(guī)約成搜索問題,比如帶有微分方程的混合動力系統(tǒng)等?;蛘呒词贡硎境伤阉?,搜索空間是不完整的或者是無窮的。而圍棋的搜索空間雖然非常巨大,但總歸是完整的和有窮的。
第八,如何獲取大規(guī)模高質(zhì)量的數(shù)據(jù)。在圍棋中,獎懲機制相當清楚。所以很容易獲取強化學習需要的數(shù)據(jù)。獲取有監(jiān)督學習的數(shù)據(jù)(即棋譜),相對困難一些。然而在有些領(lǐng)域,比如新聞的自動分類以及我們?nèi)祟惐旧淼慕K身學習,并沒有嚴格定義好的獎懲機制。
第九,也是唯一AlphaGo Zero某種程度上真正解決的難點,如何搜索龐大的搜索空間,因為這往往需要的計算量極為巨大。在圍棋領(lǐng)域中,只有最后一個才是難點,其他幾個方面難度幾乎等于零。當然,AlphaGo Zero能做到這一點,已是很大的突破。
AlphaGo Zero的成功可不可以用來解決其他的難點?或者說移植到其他領(lǐng)域呢?這個答案沒有那么簡單。首先可以肯定的是,AlphaGo Zero對解決一類特定問題,即可以表示成超大狀態(tài)空間搜索并有明顯獎懲機制的問題(如很多智力游戲),有很大幫助。而對于這類問題之外的,比如高考、星際爭霸、機器翻譯、自然語言理解等,至少從文章和和目前的情況來看,并沒有直接幫助。其次,對于某些難點以及某些領(lǐng)域,比如邏輯推理和人工智能規(guī)劃等,AlphaGo Zero可以有幫助,但這需要人工智能研究者們付出艱辛努力。
在之前提到的難點中,有些是可以通過某些技術(shù)手段轉(zhuǎn)換成超大搜索空間問題的。例如第三點行動的不確定性,可以通過引入一個行動后果的概率分布。又如第七點的連續(xù)函數(shù),可以通過采樣來離散化。但是這些技術(shù)手段往往會導致搜索空間急劇增長。所以,把AlphaGo Zero借鑒過來,并不是一件容易的事。最后,對于其他一些難點,如建模、如智能原理等,可以說AlphaGo Zero的技術(shù)很難有用武之地?;诿商乜鍢渌阉鞯膹娀瘜W習,并沒有揭示人類下棋的智能原理。
與其學術(shù)貢獻和學術(shù)影響相比,AlphaGo Zero更重要的是它的社會影響。雖然有相當多學者認為社會影響不應(yīng)該被嚴肅對待,但在當今的社會,特別是對于和工業(yè)界及應(yīng)用極度緊密相關(guān)、且如日中天的人工智能領(lǐng)域來說,社會影響的重要性不言而喻。AlphaGo Zero是前沿人工智能技術(shù)的一個杰出代表。對于大眾來說,圍棋就是人工智能的皇冠。再加上Google完美的營銷策略以及圍棋在中國文化中的神圣地位,AlphaGo Zero紅遍了全球。尤其在國內(nèi),AlphaGo Zero幾乎成了人工智能的代名詞,也讓很多大眾對其既愛(因為感覺很厲害很高大上)又恨(因為擔心人類會被人工智能取代)。
所以,有必要給AlphaGo Zero一個正確公允的評價。嚴格意義上,圍棋問題在人工智能領(lǐng)域不能說是最難或最重要的,同樣,AlphaGo Zero也不能說是目前人工智能最先進最重要的工作。只是因為它表述簡單,其效果非常容易理解,易被大眾所接受,因此成為人工智能成就的代表展現(xiàn)在人們面前。
在全球范圍內(nèi),AlphaGo Zero雖然也引起了廣泛關(guān)注和一片贊美,但并不像在國內(nèi)被捧到神壇的地步。AlphaGo Zero在技術(shù)上固然取得了重大突破,但它能解決的只是人工智能很多困難中的一種,而且只是部分解決。雖然這個技術(shù)可能對人工智能其他領(lǐng)域會有幫助,但這并不是顯然的,需要做大量努力。所以,AlphaGo Zero的成功并不代表人類會被人工智能取代。當然,隨著AlphaGo Zero還有一些其他技術(shù)的出現(xiàn),越來越多領(lǐng)域會被人工智能攻克,越來越多人類職業(yè)會被人工智能部分取代。但這點并不能完全歸功于AlphaGo Zero,它只是這一類工作的一個杰出代表。
機器戰(zhàn)勝人類,一直在發(fā)生。以前有,現(xiàn)在正在進行,以后會更多。從弱人工智能的角度,人工智能的發(fā)展史,就是人類各種智能行為被機器復現(xiàn)并超越的歷史。只是這些都是在特定的領(lǐng)域,如西洋跳棋、國際象棋、問答秀、圍棋等等。暫時來說,還看不到機器在所有領(lǐng)域都能戰(zhàn)勝人類的希望。所以,至少現(xiàn)在還沒有到要擔心人類滅亡的時候。
粗略來分,智能的層次,從低到高,可以分為基礎(chǔ)智能(包括計算、記憶、行為能力等)、感知智能(包括語音識別、圖像識別等)、認知智能(包括智力游戲、智力測試等)和創(chuàng)新智能(包括藝術(shù)創(chuàng)作和科學發(fā)現(xiàn)等)。雖然每個層次都有機器戰(zhàn)勝人類的案例,但總體來說,越高層次的智能,機器做的越差?;A(chǔ)智能,比如計算和記憶,總體上機器早就遠遠超過了人類。當前深度學習的崛起,加速了機器在感知智能上接近并有時超過了人類水準。然而,對認知智能和創(chuàng)新智能,機器整體上比人類差了太多。AlphaGo Zero誠然是機器在認知智能上對人類的又一次重大勝利。但從整體來看,并未改變整個格局。
?圖4 人工智能在電商物流中的應(yīng)用,圖片來源:baidu
此外, AlphaGo Zero的宣傳文章上有著不少春秋筆法,有抬高工作之嫌。例如,宣傳100:0戰(zhàn)勝了AlphaGo李世石版本[6],而不是89:11戰(zhàn)勝了AlphaGo Master,不與最近的成果作對比,不僅蹭前輩機的余光,還用100:0吸引人眼球;又比如,AlphaGo Zero號稱學到了圍棋知識(即定式),但這種基于使用頻率就判斷為之知識的做法某種意義上屬于事后諸葛亮,并不足夠令人信服。而且這些所謂的知識在AlphaGo Zero中完全沒有用上;又比如宣傳文中稱圍棋是“最有挑戰(zhàn)的領(lǐng)域”,這并不確切。之前論述過,對人工智能來說,圍棋只算最有挑戰(zhàn)的領(lǐng)域之一。這些寫法雖然不算錯誤,但某種程度上誤導了讀者。這種自我標榜的做法,甚至遭到了部分人工智能學者的反彈。
AlphaGo Zero的未來
AlphaGo Zero是一個人工智能史上的一座里程碑。對于它與人工智能的未來,我認為還大有可為。比如,在AlphaGo Zero大放異彩的圍棋領(lǐng)域,就仍有三個方向值得繼續(xù)耕耘。
一、將戰(zhàn)勝人類轉(zhuǎn)化為必勝,找到比人類 “更好”的策略后,繼續(xù)尋求“最佳”策略。理論上,圍棋存在必勝策略,因此,后AlphaGo Zero時代的一個重要挑戰(zhàn),就是把它找到。這個挑戰(zhàn)不僅是為了追求完美,而且有很大的實際意義。機器學習的最大優(yōu)點之一就是面對復雜問題時迅速找到很好的近似,避免計算復雜度的障礙。但這也是一個軟肋,即沒有找到復雜問題的最優(yōu)解。如果AlphaGo系列能突破這個軟肋,這將是非常偉大的學術(shù)貢獻。
二、現(xiàn)在的AlphaGo Zero是針對正規(guī)棋盤(19*19棋盤),如果能推廣到一般的情形,即n*n棋盤,也是很有意義的。機器對問題輸入的規(guī)模往往非常敏感,對于圍棋這類的問題,機器求解的難度隨著棋盤大小而指數(shù)遞增。AlphaGo Zero之前,人工智能已經(jīng)解決了7*7的圍棋問題,它出現(xiàn)后才解決了19*19的圍棋問題。相對來說,人類對于棋盤的輸入規(guī)模沒那么敏感,人們下7*7圍棋和19*19圍棋策略差別不大。這點對機器學習相當重要。原因之一,這是從專用弱人工智能朝通用弱人工智能邁出的一步,即解決同樣問題不同規(guī)模的差異。原因之二,這能揭示從一個規(guī)模中學到的東西(如策略和贏面估算)是否能平移到另一個規(guī)模中。
三、AlphaGo Zero學到了不少圍棋的知識,也就是定式。但它下棋的策略和這些知識無關(guān),還是通過評價函數(shù)來做的。所以這些知識,即使在學到了之后,在AlphaGo Zero中也沒什么用處。如果能夠先使用AlphaGo Zero學習知識,然后再僅僅表示和使用這些知識來下棋并戰(zhàn)勝人類,也將是非常大的貢獻。因為這連接了兩種完全不同的人工智能方法(機器學習和知識的表示與推理),也更加接近于人類下圍棋背后的智能原理,從而對強人工智能有所幫助。
AlphaGo Zero另一個可能的未來是把它應(yīng)用到圍棋之外的領(lǐng)域。AlphaGo Zero中應(yīng)用的新評價函數(shù)具有一定的普適價值,因為很多人工智能中的問題都可以歸結(jié)為大規(guī)模搜索的問題。
這里僅枚舉兩個重要的領(lǐng)域,第一是命題邏輯推理,以及更廣義的約束可滿足問題。簡而言之,約束可滿足問題是給定了一些變量(如x,y),每個變量有其值域(如x只能是1或2,y只能是0或1);同時給定一些這些變量需要滿足的約束條件(如x+y=2),目的是求解滿足這些約束條件的變量(如x=2,y=0)。約束可滿足問題可以轉(zhuǎn)換成搜索問題,其中每一個節(jié)點是變量們部分賦值的某一個狀態(tài),而它的子節(jié)點們是對下一個變量的不同賦值。既然約束可滿足問題能轉(zhuǎn)化成大規(guī)模狀態(tài)下的搜索,那么AlphaGo Zero就可能有幫助。
第二是人工智能規(guī)劃,即從給定初始狀態(tài)找到一系列行動達成某個目標。同樣,因為規(guī)劃問題也能轉(zhuǎn)化成搜索,所以AlphaGo Zero有其用武之地。但是,注意到約束可滿足問題和規(guī)劃終極目標都是要找到“最優(yōu)解”,AlphaGo Zero作為一種尋找“較優(yōu)解”的手段在這些領(lǐng)域里面到底能走到哪一步,還需要深入探索和時間來檢驗。
除了這些明顯可以轉(zhuǎn)化成搜索問題的領(lǐng)域外,還有一些人工智能領(lǐng)域有可能借鑒AlphaGo Zero的思路,因為這些領(lǐng)域可以看成是搜索的某個變種,比如帶有概率分布的搜索。這些領(lǐng)域包括馬爾科夫決策、博弈論等等??偠灾?,AlphaGo Zero有很大潛力被廣泛地用到人工智能其他領(lǐng)域,尤其是和搜索密切相關(guān)的。但是,這并不是一件水到渠成的事情,需要研究者們付出艱辛努力,這些應(yīng)用并不比AlphaGo Zero本身簡單。
?圖5 視頻網(wǎng)站利用人工智能優(yōu)化搜索,圖片來源:google
更重要的未來在于用AlphaGo Zero來解決人工智能的其他難點。雖然目前從論文中來看,并沒有直接幫助,但如之前所述,人工智能的其他難點中有些能夠轉(zhuǎn)化成更大狀態(tài)空間下的搜索,比如部分可觀察、行動不確定性、連續(xù)函數(shù)、甚至突發(fā)意外情況等,但這種轉(zhuǎn)化往往伴隨著狀態(tài)空間的指數(shù)上升,極有可能其搜索難度比19*19的圍棋還要大,甚至大很多。所以,怎么更好地轉(zhuǎn)換?轉(zhuǎn)化后AlphaGo Zero能不能處理?這都需要人工智能研究者們付出艱苦的探索和努力。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 后人工智能時代:2025年,在紛擾中重塑數(shù)據(jù)、洞察和行動
- 2025年展望:人工智能推動IT整合
- 量子計算:商業(yè)世界的新前沿與設(shè)計思維的融合
- IDC:三季度全球以太網(wǎng)交換機收入同比下降7.9%、環(huán)比增長6.6%
- Fortinet李宏凱:2025年在中國大陸啟動SASE PoP節(jié)點部署 助力企業(yè)出海
- Fortinet李宏凱:2024年Fortinet全球客戶已超80萬
- 央國企采購管理升級,合合信息旗下啟信慧眼以科技破局難點
- Apache Struts重大漏洞被黑客利用,遠程代碼執(zhí)行風險加劇
- Crunchbase:2024年AI網(wǎng)絡(luò)安全行業(yè)風險投資超過26億美元
- 調(diào)查報告:AI與云重塑IT格局,77%的IT領(lǐng)導者視網(wǎng)絡(luò)安全為首要挑戰(zhàn)
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。