123,123

2016年人工智能這把火燒得很旺，尤其是AlphaGo( 阿爾法狗)對戰(zhàn)李世石，讓我們真正見識到了人工智能的可怕。不過，最近筆者花功夫研究了下國外關(guān)于阿爾法狗圍棋對弈的人工智能解讀，發(fā)現(xiàn)此前我們聽到的、看到的或者說以為認(rèn)識到的東西，幾乎都是錯的，阿爾法狗可能并非你想的那樣強(qiáng)無敵。

錯誤一：

阿爾法狗可以說是里程碑式地開創(chuàng)了歷史，但是它并沒有作出任何非常創(chuàng)新的技術(shù)，而deep mind只是將早已經(jīng)存在的一些人工智能技術(shù)尤其是機(jī)器辨認(rèn)圖片技術(shù)運用到下棋上，之前沒有人想過能這樣做，這種嘗試是一種創(chuàng)新。

錯誤二：

阿爾法狗并沒有真正的棋感，實際也不懂得思考并作出策略，圍棋解說把阿爾法狗當(dāng)人來看待是錯誤的。阿爾法狗只是不停問自己，我下這一步我勝率提高了多少。

錯誤三：

阿爾法狗并沒有強(qiáng)大的學(xué)習(xí)能力，達(dá)到現(xiàn)在棋力是基于接近1億次棋局的模仿和推測出來的，一開始阿爾法狗只學(xué)習(xí)了16萬棋局時它的棋力很弱。他不但比人學(xué)習(xí)效率差而且比馬戲團(tuán)的動物學(xué)習(xí)效率更差。所以說，跟李世石對局每一局都在進(jìn)步是不可能的，一局的經(jīng)驗對阿爾法狗基本沒什么影響。

錯誤四：

阿爾法狗其實也是基于蠻力窮舉的下法，只不過運用新的機(jī)器學(xué)習(xí)方法。窮舉法和機(jī)器學(xué)習(xí)不矛盾。

錯誤五：

之前看到文章說阿爾法狗速度沒深藍(lán)快，其實阿爾法狗是深藍(lán)的5萬倍，今天用的iPhone6s計算能力都是深藍(lán)的幾十倍。

錯誤六：

說人腦計算速度慢是錯誤的，和計算機(jī)的計算速度相對應(yīng)的，應(yīng)該是人腦神經(jīng)元計算速度，保守估計人腦計算速度是每秒1000萬億次，計算能力是深藍(lán)的10萬倍。

錯誤七：

阿爾法狗并不是完全學(xué)習(xí)的，首先底層需要人編程圍棋規(guī)則，其次基礎(chǔ)的下棋原則也是人為輸入的。

簡單總結(jié)一下，其實包括阿爾法狗圍棋程序和深藍(lán)的象棋都是蠻力搜索法，也就是：其一，考慮所有未來可能變化；其二，計算走法未來多少步的勝率；其三，選擇走法。但是圍棋每走一步比國際象棋變化更大，步數(shù)更多，可能變化種類超過宇宙原子總和。其實這對于象棋也是如此，深藍(lán)雇傭大量職業(yè)象棋選手設(shè)定一個積分法，比如一個兵值多少分，吃對手一個車勝率提升多少，這個評分體系很準(zhǔn)確，深藍(lán)思考范圍被壓縮成十幾步。

但是圍棋無法如此評估，之前圍棋程序是簡單的人手輸入，見到什么情況如何走，所以很死板，這些程序棋力大概是400。

2006年一種叫做蒙特卡洛樹的搜索法被發(fā)明，它使用概率模擬方法（類似模擬投擲骰子），只需要判斷終盤勝負(fù)，彌補(bǔ)了圍棋不能設(shè)定確定走法函數(shù)的缺陷（阿爾法狗也是使用蒙特卡洛樹方法）。但是這方法要展開到終盤，計算量太大，所以需要讓圍棋專家協(xié)助制定行棋規(guī)則，減少計算量，此方法可使人工智能棋力提升到業(yè)余5段。

但是十年來電腦棋力進(jìn)展令人悲觀，直到阿爾法狗，它在此基礎(chǔ)上引入深度人工網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)已經(jīng)發(fā)明50年，適合編寫一些不直觀因果關(guān)系的事物，并且軟件可以自主學(xué)習(xí)調(diào)整。但是編程太難，加上以前計算能力問題一直不受重視。

6年前開始，技術(shù)上能達(dá)到10層神經(jīng)元，神經(jīng)網(wǎng)絡(luò)開始興起。結(jié)合大數(shù)據(jù)和云計算技術(shù)，神經(jīng)網(wǎng)絡(luò)開始吃香。圖像處理和人臉識別這類程序很難直觀的由編程員編程，神經(jīng)網(wǎng)絡(luò)在此有用武之地，其中深度卷積網(wǎng)絡(luò)技術(shù)稱霸。阿爾法狗團(tuán)隊創(chuàng)新之處在于，意識到可以將圖像識別的這項技術(shù)用于下棋，并將神經(jīng)網(wǎng)絡(luò)升級到13層，預(yù)測人類棋手走法。

首先它學(xué)習(xí)了圍棋對戰(zhàn)平臺的3千萬業(yè)余高段位的對局記錄，作為讓阿爾法狗猜人類走法的正確答案。也就是說，阿爾法狗一開始是在模仿業(yè)余高手平均玩法，同時團(tuán)隊人工輸入圍棋知識?？梢哉f，阿爾法狗是神經(jīng)網(wǎng)絡(luò)加手工編程混合物。

這個預(yù)測人類玩法被叫做策略網(wǎng)絡(luò)，此時阿爾法狗叫做RP版。根據(jù)阿爾法狗團(tuán)隊的論文，把策略網(wǎng)絡(luò)加入業(yè)余3段棋力的圍棋程序，其棋力能達(dá)到業(yè)余6段，棋力提高950分達(dá)到2600（棋力分每相差230分，雙方5局三勝比賽的勝率為高分者95%勝率），此時alpha已經(jīng)成為世界最強(qiáng)圍棋程序。

為了減少計算量，阿爾法狗使用一個叫價值網(wǎng)絡(luò)的深層卷積網(wǎng)絡(luò)作為評估函數(shù)，使用阿爾法狗的預(yù)測結(jié)果和實際展開結(jié)果的平均值作為勝率參考信息。加入此功能的阿爾法狗叫做完整版，其棋力提高了450分，達(dá)到了驚人的3100。

———分割線————

曉楓說，游走在科技與人文之間，新浪創(chuàng)事記、百度百家、砍柴網(wǎng)、搜狐、艾瑞、品途等專欄作者。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

關(guān)于阿爾法狗，你知道的可能大部分都是錯的

下一篇