時(shí)隔一年,AlphaGo 將在圍棋的發(fā)源地——中國(guó),迎來(lái)它的第二次圍棋世紀(jì)對(duì)決。
4 月 10 日,雷鋒網(wǎng)從第一線了解了「中國(guó)烏鎮(zhèn)·圍棋峰會(huì)」的最新動(dòng)態(tài),中國(guó)圍棋協(xié)會(huì)、浙江省體育局、谷歌三方共同宣布將在 5 月份聯(lián)合舉辦這一盛會(huì),屆時(shí) AlphaGo 將與柯潔正式對(duì)決。而今天,DeepMind 也在官網(wǎng)宣布了 AlphaGo 的下一場(chǎng)征戰(zhàn)。
賽制介紹
根據(jù)官網(wǎng)信息,在 5 月 23-27 日,AlphaGo 將進(jìn)行三種不同形式的比賽,包括:
配對(duì)賽:任意兩位棋手(古力、連笑)分別與 AlphaGo 組隊(duì)比賽,最大亮點(diǎn)在于從以往的人機(jī)純對(duì)戰(zhàn)轉(zhuǎn)變?yōu)槿藱C(jī)協(xié)作與另一人類棋手對(duì)決,人類又將如何與計(jì)算機(jī)合作?
團(tuán)隊(duì)賽:由五位中國(guó)棋手(時(shí)越、羋昱廷、唐韋星、陳耀燁和周睿羊)一同群戰(zhàn) AlphaGo,考驗(yàn)的是人類的多方協(xié)作是否能做出更好的決策。
常規(guī)挑戰(zhàn)賽:AlphaGo 與柯潔的對(duì)弈。
值得一提的是,本次的常規(guī)挑戰(zhàn)賽賽制在去年的基礎(chǔ)上做了不少改進(jìn),主要集中于三個(gè)方面:
首先最明顯的變化是從原來(lái)的五番棋變成了三番棋。
其次是計(jì)時(shí)方式上,從每方兩小時(shí)、另有五次一分鐘讀秒轉(zhuǎn)變?yōu)槊糠饺r(shí)、另有五次一分鐘讀秒。
再者是將常規(guī)賽的時(shí)段延長(zhǎng)至隔天一局而非原來(lái)的一天一局。
一名業(yè)內(nèi)人士向雷鋒網(wǎng)表示,這樣的機(jī)制更能保證人類在充分思考的情況下完成比賽。他指出,在 AlphaGo 化名「Master」在騰訊野狐圍棋平臺(tái)橫掃 60 局的不敗神話中,其實(shí)有 59 局是每方的 30 秒快棋,而與聶衛(wèi)平對(duì)戰(zhàn)一局則是每方 60 秒快棋?!缸匀唬祟愒趽碛懈L(zhǎng)時(shí)間考慮的情況下,出錯(cuò)率會(huì)更少。人很難避免情緒、心理壓力等因素的干擾,而機(jī)器不會(huì)。」
AlphaGo的“修煉大法”
毫無(wú)疑問(wèn),AlphaGo 對(duì)棋局的計(jì)算能力遠(yuǎn)超人類。Facebook 研究員田淵棟在地平線大牛講堂發(fā)表題為《深度學(xué)習(xí)如何進(jìn)行游戲推理?》時(shí)也提及了 AlphaGo 所用的神經(jīng)網(wǎng)絡(luò)包括策略網(wǎng)絡(luò)和值網(wǎng)絡(luò),主要實(shí)現(xiàn)的是兩個(gè)方面的功能:
•給出一個(gè)局面后,可以決定下哪些位置;
•給出一個(gè)關(guān)鍵局面時(shí),判斷它們的值,到底是白優(yōu)還是黑優(yōu)。
具體到算法層面,包括 Policy Network(決定下一步怎么走)和 Value Network(決定當(dāng)前局面分?jǐn)?shù)多少)兩大神經(jīng)網(wǎng)絡(luò)。此外,在前兩者返回速度比較慢的時(shí)候,采用 High quality playout/rollout policy 在微秒級(jí)的快速走子預(yù)測(cè)下一步。
那么這個(gè)神經(jīng)網(wǎng)絡(luò)是如何訓(xùn)練出來(lái)的呢?
首先要通過(guò)人類棋譜進(jìn)行訓(xùn)練,讓神經(jīng)網(wǎng)絡(luò)掌握初步的圍棋章法;其次采用蒙特卡羅樹(shù)搜索選擇勝率更高的節(jié)點(diǎn)探索,得到最后的勝負(fù)結(jié)果后,再回溯剛才探索的過(guò)程,并更新路徑上的節(jié)點(diǎn)勝率。
蒙特卡羅樹(shù)搜索在保證靈活的前提下,也很容易漏掉一些妙招,因此還需要值網(wǎng)絡(luò)的配合,進(jìn)行自我對(duì)弈的「左右互搏」。DeepMind 表示,AlphaGo 是采用了 3000 多萬(wàn)場(chǎng)這樣的游戲訓(xùn)練而不斷提升的。它的數(shù)據(jù)收集過(guò)程是這樣的:
首先讓算法采樣通過(guò)監(jiān)督學(xué)習(xí)學(xué)得的策略網(wǎng)絡(luò);
其次通過(guò)人為操作更多的棋局形式豐富系統(tǒng)理解棋局的適用面。
而當(dāng)前棋局在人為操作某一步后,再用強(qiáng)化學(xué)習(xí)增強(qiáng)的策略網(wǎng)絡(luò)計(jì)算后續(xù)的下一步招式,并以此得到最后的輸贏結(jié)果。完成這個(gè)步驟后,系統(tǒng)能夠得到一個(gè)當(dāng)前狀態(tài)到輸贏結(jié)果間的樣本點(diǎn),再以此訓(xùn)練策略網(wǎng)絡(luò)。
根據(jù)田老師的演講介紹,目前 AlphaGo 在快速走子的情況下能夠達(dá)到 2 微秒的判斷速度,同時(shí)也能達(dá)到比較好的精確度。
雙方實(shí)力對(duì)比
去年 3 月,AlphaGo 在以 4:1 戰(zhàn)勝人類棋手李世石后,它將在 2017 年復(fù)出,與中國(guó)頂尖棋手柯潔對(duì)決的傳聞不絕于耳。
不過(guò),諱莫如深的 DeepMind 一度否認(rèn)這一消息,直至去年 11 月,DeepMind 創(chuàng)始人 Demis Hassabis 才松了口,表示 AlphaGo 近一年來(lái)正在提升棋藝水平,將在 2017 年再次挑戰(zhàn)人類棋手。而「職業(yè)陪練」樊麾當(dāng)時(shí)也在同一天證實(shí)了這一消息。
而繼李世石之后,人們也將焦點(diǎn)放在了將與 AlphaGo 單挑的柯潔身上。但鑒于去年 AlphaGo 把李世石虐得太慘,導(dǎo)致目前輿論大方向都認(rèn)為 AlphaGo 會(huì)贏得最終的勝利。
三歲開(kāi)始學(xué)棋的柯潔目前等級(jí)排名世界第一,DeepMind 評(píng)價(jià)他「以精湛且善于平衡的棋風(fēng)為人所稱道,且具有良好的策略性,知道何時(shí)要大膽出招,何時(shí)要謹(jǐn)慎行事?!?/p>
但在年初的在線圍棋比賽中,柯潔兩局都不敵 AlphaGo 的「Master」,而柯潔在微博了也放言「來(lái)啊」,并在賽前預(yù)熱會(huì)上表示,希望自己能「不惜一切代價(jià)去爭(zhēng)取勝利」。
不過(guò)不可否認(rèn)的是,人類要感謝 AI 的地方在于,棋手在博弈的過(guò)程中招式也變得更加聰明靈活了。
圍棋,不論是從「起手九式」到「入門(mén)必學(xué)定式」,雖然強(qiáng)調(diào)以不變應(yīng)萬(wàn)變,但慣用的招式通常是前輩屢試不爽的必殺,因此誠(chéng)然值得反復(fù)研習(xí)。而 AlphaGo 不按常理出牌的招式,看似毫無(wú)邏輯,實(shí)際上卻是草蛇灰線般的精心謀慮,而這也是圍棋的魅力,也是人機(jī)大戰(zhàn)值得關(guān)注和追隨的一大亮點(diǎn)。
九段棋手周睿羊在訪談中提及,「你會(huì)覺(jué)得 AlphaGo 的招式非常自由,而且有著一切皆可能的靈動(dòng)性?,F(xiàn)在每位棋手都會(huì)想著嘗試走一些自己不曾嘗試過(guò)的棋法?!笰lphaGo 的橫空出世,讓圍棋高手們變得更加聰明了,也更具創(chuàng)造力。
DeepMind想挑戰(zhàn)的,遠(yuǎn)不只圍棋
DeepMind 表示,五月份的這次賽事能夠更好地對(duì) AlphaGo 進(jìn)行探索,了解它是如何在這項(xiàng)古老的游戲中不斷創(chuàng)新的?!付?AlphaGo 背后所隱含的機(jī)器學(xué)習(xí)及人工智能技術(shù),也能夠幫助人類更好地解決全球未來(lái)可能面臨的挑戰(zhàn)。」
而就像 DeepMind 創(chuàng)始人 Demis Hassabis 在被 《Nature》評(píng)選為“2016年度10大影響力人物”時(shí)曾表示,「在圍棋
界的勝利還遠(yuǎn)遠(yuǎn)不夠。我更想要向世界展示的是,機(jī)器學(xué)習(xí)技術(shù)在人類的生產(chǎn)和生活中擁有更強(qiáng)大的潛力,可以幫助人類解決更多棘手的全球性問(wèn)題?!?/p>
目前,AlphaGo 背后的機(jī)器學(xué)習(xí)技術(shù)已經(jīng)應(yīng)用于非常多的領(lǐng)域,雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))此前做過(guò)大量的報(bào)道和覆蓋,比如:
利用 AI 平衡英國(guó)電力供需問(wèn)題;
與英國(guó)國(guó)家醫(yī)療服務(wù)體系 NHS 旗下基金會(huì) Royal Free London 簽訂了為期五年的合同,致力視網(wǎng)膜研究、訓(xùn)練 AI 識(shí)別健康組織及癌變組織的頭頸部癌癥圖像。
此外,DeepMind 還與母公司谷歌有著密切合作,比如用機(jī)器學(xué)習(xí)技術(shù)在 Google Photo 上幫助人們找到圖片中的特定物體;或是提升 Google Translate 的翻譯水平。
DeepMind 表示,「在下一場(chǎng)人機(jī)大戰(zhàn)中,我們對(duì)它可能帶來(lái)的討論及影響感到興奮非常,而所帶來(lái)的挑戰(zhàn)也能夠帶給我們更多的啟發(fā)——不論是圍棋,還是其它的領(lǐng)域。」讓我們一同期待五月的 AlphaGo 世界之戰(zhàn),雷鋒網(wǎng)也將持續(xù)關(guān)注。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 蘋(píng)果CEO庫(kù)克盛贊MacBook Pro:樹(shù)立筆記本行業(yè)新標(biāo)桿
- 性能之光 年度電競(jìng)性能旗艦iQOO 13發(fā)布 3999元起
- 曝各大廠商正在籌備7000mAh電池新機(jī):OPPO/一加或率先領(lǐng)銜
- 蘋(píng)果在印度的iPhone出口額激增,半年內(nèi)接近60億美元
- 蘋(píng)果M5芯片預(yù)計(jì)2025年底推出,將采用臺(tái)積電3nm制程
- 蘋(píng)果發(fā)布2024款24英寸iMac:搭載M4芯片,起售價(jià)10999元
- 蘋(píng)果iOS/iPadOS 18.1亮點(diǎn)更新:通話錄音功能上線,Apple Intelligence初登場(chǎng)
- 三季度國(guó)內(nèi)市場(chǎng)智能手機(jī)出貨量報(bào)告:蘋(píng)果iPhone排名第二,vivo領(lǐng)跑
- 蘋(píng)果或?qū)⒂诿髂臧l(fā)布致敬iMac G4設(shè)計(jì)的智能家居顯示器
- 三季度中國(guó)學(xué)習(xí)平板賣出122.6萬(wàn)臺(tái),同比大增38%
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。