視頻截圖
# 這費是法 投遞(不是譯稿):
人類在數(shù)千年年間累積了圍棋的知識,總結提煉為定式,棋諺和書籍。在數(shù)天的時間內(nèi),阿法狗零號機能夠從一張白紙開始重新發(fā)現(xiàn)大部分的圍棋知識,以及對這一古老游戲有著深刻洞見的新策略。
DeepMind在自然上新文章——《無人類知識的情況下精通圍棋》的最后一段,如同科幻小說的開篇。某種意義上說我們低估了人工智能特定領域的發(fā)展速度,畢竟在五年前,絕大部分人的預期是我們?nèi)砸淮说呐Σ拍軌騽?chuàng)造出能夠接近人類水平的電腦圍棋選手。
對戰(zhàn)過程
零號機和樊號機(和樊輝下棋的第一代)以及李號機(和李世石下棋的第二代)的差別在于,后者是通過監(jiān)督學習完成的。亦即通過人類已有的圍棋棋譜訓練策略網(wǎng)絡和價值網(wǎng)絡(兩個深度卷積的神經(jīng)網(wǎng)絡),最后通過蒙特卡洛樹搜索結合確定落子。這樣的訓練效果受制于已知的專家數(shù)據(jù)(之前的圍棋棋譜)。零號機的網(wǎng)絡訓練是通過強化學習完成的。亦即通過隨機的初始狀態(tài)進行大量的情景模擬,并驅動網(wǎng)絡朝著最優(yōu)化的方向發(fā)展。原有的兩個分離的價值網(wǎng)絡和策略網(wǎng)絡被整合成一個殘差網(wǎng)絡(這個應該是上年計算機視覺領域的一個大突破,微軟研究院的成果),最后通過蒙特卡洛樹搜索來完成對局的模擬并進行學習。
拋開細節(jié)不談,我們看一張論文中的圖片,對于一個經(jīng)典的角部定式,零號機的學習和變化過程。真正讓人覺得激動的是中間的時間軸。50多個小時的時候我們看到了常見的定式,70個小時的時候便已經(jīng)是人類未知的領域了。
相關的強化學習微軟研究院也有一篇《強化學習的混合獎勵架構》的文章,提出的深度強化學習的做法,利用多個代理的混合決策玩吃豆人游戲。拿到了超過人類最強玩家的分數(shù)。
這一次零號機的突破可以說非常直觀的展示一個AI在特定領域越過“奇點”后的狀態(tài)。人類數(shù)千年累積的知識,在AI面前只需要數(shù)小時。
# 這費是法:作為一個蛋友,容我虛妄的做出一些建議。我們可能需要更加瘋狂的運用我們的想象力,為即將到來的巨變做好更多的準備。畢竟塞內(nèi)卡說過“折磨我們的往往是想象,而不是真實”。
# dodww 發(fā)在無聊圖的對戰(zhàn)圖(GIF):
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )