滿分全勝!網(wǎng)易互娛AI Lab奪得IEEE CoG 2021格斗游戲AI競賽冠軍

近日,IEEE 2021游戲會議(IEEE CoG 2021)格斗游戲AI競賽(FTGAIC 2021)的成績正式揭曉。網(wǎng)易互娛AI Lab 在競賽的兩個賽道、三個角色,共六個項目中均斬獲第一,以150分的總成績滿分奪冠,一舉擊敗來自中、日、韓等多個國家的頂級學府和科研強隊,其中包括曾連續(xù)獲得四次冠軍和一次亞軍的日本參賽隊伍,以及去年奪冠的中國科學院自動化研究所,成為9年競賽史上首個滿分全勝的隊伍。

滿分全勝!網(wǎng)易互娛AI Lab奪得IEEE CoG 2021格斗游戲AI競賽冠軍

IEEE CoG 2021是專注于游戲領域的人工智能國際會議,每年都有來自全球各地的專家學者和開發(fā)人員匯聚于此,共同探討游戲技術與設計相關的前沿話題和未來趨勢。FTGAIC作為大會官方舉辦的雙人格斗游戲AI實時對抗競賽,由于其兼具挑戰(zhàn)性和趣味性,自2013年首次推出便吸引海內(nèi)外強隊踴躍參加。該競賽要求參賽算法控制三種不同屬性的格斗角色,使其在16.67ms的反應時間內(nèi)從56個離散動作中做出最佳決策,進而在有限時間內(nèi)快速擊敗對方算法控制的智能體。該賽題的根本其實是實時雙人零和博弈問題,屬于非完美信息博弈,在同步?jīng)Q策的過程中智能體無法準確獲取對方正要采取的動作行為,因此會對其有效決策行為造成影響。此外,競賽中兩個角色的屬性對于參賽選手而言是未知的,這也大大增加了研發(fā)的難度。

在此次競賽中,網(wǎng)易互娛AI Lab創(chuàng)新性地使用了自研的分布式深度強化學習框架和自博弈訓練范式的PPO算法,該自研框架具有良好的適應性和可擴展性,支持不同規(guī)模的分布式訓練,同時也支持自博弈訓練范式。相比往屆冠軍隊伍都采用的啟發(fā)式搜索算法,深度強化學習算法無需基于專業(yè)知識對所有搜索空間進行約減,只需在原始的狀態(tài)空間和動作空間進行訓練,大幅提高了AI設計效率。此外,為了避免受到游戲角色屬性被修改的影響,網(wǎng)易互娛AI Lab在訓練時還對角色屬性進行了隨機修改,獲得了更為魯棒的策略。最終,在Speedrunning模式下,網(wǎng)易互娛AI Lab的AI擊敗內(nèi)置MCTS AI的平均用時僅為第二名的二分之一左右。而在Standard模式下,網(wǎng)易互娛AI Lab的AI使用三個不同角色與其他參賽隊對戰(zhàn)的勝率分別達到了 98.3%,96.7%,100%。

滿分全勝!網(wǎng)易互娛AI Lab奪得IEEE CoG 2021格斗游戲AI競賽冠軍

網(wǎng)易互娛AI Lab(BlackMamba)與其他參賽隊的時間對比

滿分全勝!網(wǎng)易互娛AI Lab奪得IEEE CoG 2021格斗游戲AI競賽冠軍

網(wǎng)易互娛AI Lab(BlackMamba)與其他參賽對手的勝利局數(shù)對比

在本次大賽上,網(wǎng)易互娛AI Lab另辟蹊徑,以深度強化學習方法替代搜索性算法(蒙特卡洛樹搜索、演化算法)奪得競賽冠軍,打破了后者在該比賽近五年的統(tǒng)治地位,證明了網(wǎng)易互娛AI Lab在游戲AI領域的技術優(yōu)勢和工程實力。從過去的國際象棋和圍棋等回合制雙人零和博弈,到如今更加復雜的實時策略型游戲,游戲AI一直在推動人工智能的核心發(fā)展。網(wǎng)易互娛AI Lab也一直將游戲AI作為研究的核心領域之一,希望能夠?qū)⒀芯砍晒床傅接螒蛑腥?,不斷豐富和提升玩家的游戲體驗,同時也希望AI+游戲的研究成果能夠被延伸至游戲外的更廣泛的應用領域,向通用型人工智能探索和邁進。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )