OpenAI公布Dota AI比賽細(xì)節(jié) 自我對局讓它超越人類

OpanAI公布Dota AI比賽細(xì)節(jié),自我對局讓它超越人類

在攻克了圍棋以后,人工智能研究者們似乎不約而同地把電子競技游戲作為了下一個練兵場。雷鋒網(wǎng)上周報道,在Dota2國際邀請賽TI7上,OpenAI率先展示了自己的成果,在西雅圖讓AI在1v1比賽中擊敗了職業(yè)選手,又一次點(diǎn)燃了關(guān)于AI的討論。

在對比賽結(jié)果進(jìn)行了諸多分析之后,就目前的資料來看,其實(shí)1v1比賽可能較圍棋來得簡單,在1v1比賽中取勝,也不能說明在5v5的完整比賽中能戰(zhàn)勝人類,人類還保有一定的尊嚴(yán)。

經(jīng)過約一周的時間,OpanAI最終公布了Dota AI的一些細(xì)節(jié),不過它還是有所保留,沒有說明技術(shù)細(xì)節(jié)。最后,他們還說到最終的目的就是在5v5比賽中戰(zhàn)勝人類。

OpanAI公布Dota AI比賽細(xì)節(jié),自我對局讓它超越人類

上圖是游戲AI的TrueSkill評級(類似于國際象棋中的ELO評級)分?jǐn)?shù)變化,計算方式是模擬AI之間的游戲?qū)郑⒂^察勝率。TrueSkill系統(tǒng)是基于貝葉斯推斷的評分系統(tǒng),由微軟研究院開發(fā),主要用于多人游戲匹配。這套評分系統(tǒng)考慮到了玩家水平的不確定性,綜合考慮了玩家的勝率和可能的水平漲落,而不是簡單的基于勝率的評分。

圖中顯示的變化趨勢是線性的,這意味著AI的提升水平呈指數(shù)級增長。

OpenAI還具體介紹了項目的開發(fā)時間表。從某種角度看,15%的玩家低于1.5K MMR,58%的玩家低于3k,而99.99%低于7.5k。

MMR是比賽匹配分級系統(tǒng),全稱是match making ranking,簡單理解就是Dota中常說的天梯分。

3月1日:在簡單的Dota環(huán)境中得到了第一個經(jīng)典強(qiáng)化學(xué)習(xí)下的結(jié)果,AI操作的黑暗游俠可以對付神牛了。

5月8日:1.5k MMR水平的測試員說自己的速度比AI要快。

6月初:擊敗1.5k MMR水平的測試者

6月30日:在與3k MMR測試者的比賽中多數(shù)會贏

7月8日:對戰(zhàn)7.5K MMR水平的半專業(yè)測試者,終于贏了一次。

8月7日:3-0擊敗Blitz(6.2k的前職業(yè)選手),2-1擊敗Pajkatt(8.5k的職業(yè)選手),3-0擊敗CC&C(8.9k的職業(yè)選手),不過大家都認(rèn)為,系統(tǒng)還是打不過頂尖選手Sumail。

8月9日:10-0擊敗Arteezy(10k職業(yè)選手)10-0,但他還是認(rèn)為系統(tǒng)搞不定Sumail。

8月10日:6-0擊敗Sumail(8.3k職業(yè)選手,頂級1v1玩家),不過在與8月9日版的系統(tǒng)對戰(zhàn)結(jié)果是2-1。

8月11日:2-0擊敗Dendi(7.3k職業(yè)選手,前世界冠軍)2-0。這個時候的系統(tǒng)對戰(zhàn)前一天的版本,勝率是60%。

OpanAI公布Dota AI比賽細(xì)節(jié),自我對局讓它超越人類

(AI與Sumail比賽)

完整的比賽是5v5版本的,不過1v1也出現(xiàn)在一些錦標(biāo)賽中。OpenAI寫到,系統(tǒng)是在標(biāo)準(zhǔn)比賽規(guī)則下對戰(zhàn)的,在1v1中沒有為AI做特別的簡化。

系統(tǒng)的操作環(huán)境如下:

觀察:使用游戲的Bot API接口,功能集與視角和人類玩家的一樣,會受英雄,小兵,信使和附近地形的影響。整個游戲?qū)I系統(tǒng)來說是部分可觀察的。

操作:也是調(diào)用Bot API,操作頻率被限定在與人類水平相當(dāng),這包括移動到某個位置,攻擊或使用某個物品的頻率。

反饋:系統(tǒng)在贏得比賽后會得到獎勵,其它一些基本指標(biāo),如英雄的生命狀態(tài)和最后一擊等,也會影響?yīng)剟睢?/p>

系統(tǒng)還可以選擇使用的幾十個裝備道具,選擇后會有評估。OpenAI還用了傳統(tǒng)的強(qiáng)化技術(shù)單獨(dú)訓(xùn)練開局前的擋兵,這基本是1v1的標(biāo)準(zhǔn)操作。

OpanAI公布Dota AI比賽細(xì)節(jié),自我對局讓它超越人類

(AI與Arteezy比賽)

OpenAI稱,他們使用的方法結(jié)合了少量的“教練”式訓(xùn)練與自我對戰(zhàn),每天都能有很大的提升。比如在TI比賽的那段時間,周一晚上的時候Pajkatt還打贏了系統(tǒng),當(dāng)時他使用了一個不尋常的裝備,即在早期購買了魔棒。后來OpenAI將這種操作加到了培訓(xùn)當(dāng)中。

星期三下午OpenAI再次測試了最新的系統(tǒng)。比賽中AI在第一波攻擊中就掉了一大半血,正當(dāng)研究人員覺得要把系統(tǒng)回復(fù)了原先版本的時候,他們注意到了驚人的發(fā)展,原來第一波攻擊是在誘使對方采用更激進(jìn)的攻擊方式。系統(tǒng)進(jìn)一步的自我對局逐漸解決了這個問題,并學(xué)會了抵制引誘策略。

在與Arteezy的比賽之后,OpenAI更新了擋兵模型,讓系統(tǒng)的TrueSkill分增加了一點(diǎn)。然后在與Sumail比賽之前又進(jìn)行了進(jìn)一步訓(xùn)練,把TrueSkill分增加了兩點(diǎn)。Sumail比完后說,AI甚至學(xué)會了在敵方的視線之外壓影炮,這樣可以打斷敵人在視野之外的回復(fù)。

Arteezy還與OpenAI的7.5k評級半專業(yè)測試員打了一場比賽。Arteezy贏了比賽,但測試人員用了從AI系統(tǒng)那學(xué)的一招,著實(shí)讓人吃驚。Arteezy后來說,這是他以前與Paparazi比賽時對方用過的招數(shù),很少有人會用。

這種情況在圍棋中也曾出現(xiàn)過,當(dāng)AlphaGo戰(zhàn)勝李世石后,再到它與柯潔的比賽,人類棋手也越來越多地開始學(xué)習(xí)它的布局與下法。

Sumail在對戰(zhàn)后說,AI系統(tǒng)是“不可戰(zhàn)勝的”,但它仍然會在與之前遇到過的狀況非常不同的情況下不知混所措。在TI的比賽那段時間,OpenAI還設(shè)了一次局域網(wǎng)比賽讓很多人參加進(jìn)來,以各種方式與AI系統(tǒng)對戰(zhàn),總共收集了1000多次比賽數(shù)據(jù)。最終還是發(fā)現(xiàn)了不少系統(tǒng)的破綻,可以戰(zhàn)勝它,主要有三類:

引兵:當(dāng)小兵進(jìn)攻的時候,可以不斷攻擊它們吸引火力,讓他們跟著你跑,這樣可以導(dǎo)致AI一方的防衛(wèi)塔被小兵消耗而亡。

淬毒之珠+風(fēng)靈之紋:買這兩個裝備可以在1級的時候帶來很大的移動速度優(yōu)勢,這樣可以快速拿AI的一血。有了這樣好的開始戰(zhàn)勝電腦就很容易了。

1級影壓:用這一條戰(zhàn)勝電腦需要不少技巧,不過根據(jù)OpenAI的說法,有幾個6-7k水平的玩家能夠在較短時間內(nèi)壓3-5記影炮,在1級的時候就殺死AI系統(tǒng)。

以上都是在1v1比賽中的小bug,很容易修復(fù)錯誤。但是對于5v5比賽來說,這樣的問題根本就不是漏洞了,這時候需要的是一個可以處理突發(fā)且怪異情況的系統(tǒng)。

最后,OpenAI表示還沒有準(zhǔn)備好對外公布開發(fā)的AI代理的具體構(gòu)造,團(tuán)隊的重點(diǎn)是首先解決5v5比賽。如果說1v1比賽很復(fù)雜,那5v5比賽就是復(fù)雜的集合,而解決這一問題會進(jìn)一步推動AI的進(jìn)步。

OpenAI認(rèn)為,一個比較好的著手方式是行為克隆。Dota每天有大約一百萬場公開賽,這些比賽的重播數(shù)據(jù)會被存儲在Valve的服務(wù)器上兩周。自去年11月以來,OpenAI一直在下載每位專家級別玩家的重播數(shù)據(jù),已經(jīng)收集了580萬局游戲的數(shù)據(jù)(每局都是10人參與的45分鐘游戲)。

OpenAI的Dota 2系統(tǒng)表明,如果有充分的計算,自我對局可以將機(jī)器學(xué)習(xí)系統(tǒng)的性能從遠(yuǎn)低于人類的水平提高到超越人類。在一個月的時間里,它們的系統(tǒng)就從比不上高水平玩家,發(fā)展到了擊敗頂級職業(yè)選手,而且還在繼續(xù)提升。有監(jiān)督深度學(xué)習(xí)系統(tǒng)只能與培訓(xùn)數(shù)據(jù)集一樣好,但在自我對局系統(tǒng)中,隨著代理越來越好,可用數(shù)據(jù)會自動提升。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-08-18
OpenAI公布Dota AI比賽細(xì)節(jié) 自我對局讓它超越人類
經(jīng)過約一周的時間,OpenAI最終公布了Dota AI的一些細(xì)節(jié),不過它還是有所保留,沒有說明技術(shù)細(xì)節(jié)。最后,他們還說到最終的目的就是在5v5比賽中戰(zhàn)勝人類。

長按掃碼 閱讀全文