123,123,123

零號機突破——AlphaGo圍棋大師

人閱讀

2017-10-20 09:40:00

來源：煎蛋
作者：投稿
相關(guān)關(guān)鍵詞
- 人工智能
- AI

視頻截圖

# 這費是法 投遞(不是譯稿)：

人類在數(shù)千年年間累積了圍棋的知識，總結(jié)提煉為定式，棋諺和書籍。在數(shù)天的時間內(nèi)，阿法狗零號機能夠從一張白紙開始重新發(fā)現(xiàn)大部分的圍棋知識，以及對這一古老游戲有著深刻洞見的新策略。

DeepMind在自然上新文章——《無人類知識的情況下精通圍棋》的最后一段，如同科幻小說的開篇。某種意義上說我們低估了人工智能特定領(lǐng)域的發(fā)展速度，畢竟在五年前，絕大部分人的預(yù)期是我們?nèi)砸淮说呐Σ拍軌騽?chuàng)造出能夠接近人類水平的電腦圍棋選手。

對戰(zhàn)過程

零號機和樊號機(和樊輝下棋的第一代)以及李號機(和李世石下棋的第二代)的差別在于，后者是通過監(jiān)督學(xué)習(xí)完成的。亦即通過人類已有的圍棋棋譜訓(xùn)練策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)(兩個深度卷積的神經(jīng)網(wǎng)絡(luò))，最后通過蒙特卡洛樹搜索結(jié)合確定落子。這樣的訓(xùn)練效果受制于已知的專家數(shù)據(jù)(之前的圍棋棋譜)。零號機的網(wǎng)絡(luò)訓(xùn)練是通過強化學(xué)習(xí)完成的。亦即通過隨機的初始狀態(tài)進行大量的情景模擬，并驅(qū)動網(wǎng)絡(luò)朝著最優(yōu)化的方向發(fā)展。原有的兩個分離的價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)被整合成一個殘差網(wǎng)絡(luò)(這個應(yīng)該是上年計算機視覺領(lǐng)域的一個大突破，微軟研究院的成果)，最后通過蒙特卡洛樹搜索來完成對局的模擬并進行學(xué)習(xí)。

拋開細節(jié)不談，我們看一張論文中的圖片，對于一個經(jīng)典的角部定式，零號機的學(xué)習(xí)和變化過程。真正讓人覺得激動的是中間的時間軸。50多個小時的時候我們看到了常見的定式，70個小時的時候便已經(jīng)是人類未知的領(lǐng)域了。

相關(guān)的強化學(xué)習(xí)微軟研究院也有一篇《強化學(xué)習(xí)的混合獎勵架構(gòu)》的文章，提出的深度強化學(xué)習(xí)的做法，利用多個代理的混合決策玩吃豆人游戲。拿到了超過人類最強玩家的分數(shù)。

這一次零號機的突破可以說非常直觀的展示一個AI在特定領(lǐng)域越過“奇點”后的狀態(tài)。人類數(shù)千年累積的知識，在AI面前只需要數(shù)小時。

# 這費是法：作為一個蛋友，容我虛妄的做出一些建議。我們可能需要更加瘋狂的運用我們的想象力，為即將到來的巨變做好更多的準備。畢竟塞內(nèi)卡說過“折磨我們的往往是想象，而不是真實”。

# dodww 發(fā)在無聊圖的對戰(zhàn)圖(GIF)：

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）