深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning)在游戲界的成功已經(jīng)在 AI 界產(chǎn)生了轟動 ,不管是玩出歷史高分的微軟AI,還是繼圍棋之后,人工智能又攻克的德州撲克,亦或是利用“左右互博”來增強(qiáng)學(xué)習(xí)的OpenAI。人工智能在不同的游戲中的最新得分已經(jīng)超越了人類的水平。
那么,這種深度強(qiáng)化學(xué)習(xí)是如何進(jìn)行的呢?下面我們則以Maluuba、冷撲大師、OpenAI為例來進(jìn)行闡釋。
《吃豆小姐(Ms.PAC-MAN)》是一款誕生自80年代的休閑街機(jī)游戲,由于該游戲的幽靈行動模式存在不確定性,具有很大的挑戰(zhàn)性和難度。,然而,Maluuba開發(fā)的AI在《吃豆小姐》Atari2600版本中卻玩出了歷史最高分:999990。
Maluuba是微軟于2017年1月收購的加拿大深度學(xué)習(xí)創(chuàng)業(yè)公司,其專注于強(qiáng)化學(xué)習(xí)技術(shù),這種強(qiáng)化學(xué)習(xí)可以幫助系統(tǒng)自主做出決策。
對于微軟玩出歷史高分,它的解決方案是創(chuàng)造一個混合式獎賞架構(gòu)(Hybrid Reward Architecture),也就是一種把游戲里的大問題分解成小問題,再把小問題分發(fā)給AI代理來解決的分治策略。
Maluuba利用一個頂級的AI吃豆小姐和150多個普通AI吃豆小姐,讓她們協(xié)作處理。每個普通AI代理都是相互獨(dú)立的,它們分別精通《吃豆小姐》的一部分技巧:有的負(fù)責(zé)吃水果,有的負(fù)責(zé)吃豆子,有的負(fù)責(zé)躲避幽靈。
頂級的AI吃豆小姐的工作,就是綜合考慮每個普通AI吃豆小姐的意見,然后以此來做出往哪邊走的決策。決策的考慮因素有兩個:一個是建議往某方向走的普通AI吃豆小姐的數(shù)量,另一個是普通AI吃豆小姐建議的強(qiáng)度。
同樣,根據(jù)德州撲克規(guī)則設(shè)計(jì)的冷撲大師,也是能夠進(jìn)行相關(guān)自我學(xué)習(xí)的一款程序。
冷撲大師相對于“阿爾法圍棋”的不同在于,開發(fā)者并沒有教給它人類打牌的方法,只是向它描述了德?lián)涞囊?guī)則,由它“左右互搏”,摸索出德?lián)鋺?yīng)該怎么玩。因而,冷撲大師的打法完全脫離了人類經(jīng)驗(yàn)。
除此之外,納什均衡是德?lián)渌惴ǖ暮诵?,即AI的目標(biāo)是找到一個無論對方怎么做,自己都不會產(chǎn)生損失的策略。而殘局解算器和自我學(xué)習(xí)則是對納什均衡的一個輔助,殘局解算器會在殘局時實(shí)時評估場上的情況,以判斷第一模塊中算出的納什均衡是否符合實(shí)時情況。自我強(qiáng)化學(xué)習(xí)會反思AI在比賽中的表現(xiàn),找出曾被人類利用過的“套路”,清除這些可循的痕跡。
2017年8月12日,埃隆·馬斯克旗下旨在研究通用人工智能解決方案的公司OpenAI,所訓(xùn)練的一款人工智能算法在著名的電子競技游戲Dota2國際邀請賽The International中,參與了1V1比賽環(huán)節(jié),并壓倒性的擊敗了頂級電子競技選手Dendi。
馬斯克的OpenAI,究竟是如何在dota2中擊敗頂級人類選手的?OpenAI自身還沒公布算法細(xì)節(jié),只是初步表示他們并未使用任何模仿學(xué)習(xí)(Imitation Learning)或者類似于alphago的樹搜索技術(shù),純粹使用了self-play即俗稱 “左右互搏”的增強(qiáng)學(xué)習(xí)(reinforcement learning)方式訓(xùn)練。
采取這種訓(xùn)練方式的主要原因可能在于dota 2中有100多個英雄角色可選擇,每個英雄的屬性和技能均不一樣,這就意味著要對每個英雄做優(yōu)化訓(xùn)練,再者,獲取dota 2 1v1的大量對局?jǐn)?shù)據(jù)也是十分困難的。
目前,OpenAI通過增強(qiáng)學(xué)習(xí),已經(jīng)訓(xùn)練出了一個單挑solo能力非常強(qiáng)悍的算法,不過,這個算法離Dota 2的5V5對抗中取勝還有非常大的距離。
值得注意的是,人工智能在游戲中不斷地超越人類的水平、創(chuàng)造歷史新高,但是這些成果又能在多大程度上說明人工智能已經(jīng)可以像人類一樣去思考游戲中的事物,是我們依舊要不斷去探討的一個話題。
關(guān)注【AI商業(yè)報道】,回復(fù)【2017白皮書】,可獲得干貨《2017人工智能產(chǎn)業(yè)發(fā)展白皮書》!
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。