騰訊AI“王者絕悟”亮相世界人工智能大會(huì) 展現(xiàn)“AI+游戲”全新可能

7月8日,騰訊“王者絕悟”亮相2021世界人工智能大會(huì),該產(chǎn)品由騰訊AI Lab與王者榮耀聯(lián)合推出,展現(xiàn)了AI在人類(lèi)生活場(chǎng)景的想象力。“王者絕悟”與職業(yè)電競(jìng)選手展開(kāi)了一場(chǎng)精彩的表演賽,展示了騰訊在多智能體博弈等前沿AI課題上的先進(jìn)研究水準(zhǔn)。

騰訊公司董事會(huì)主席、首席執(zhí)行官馬化騰在大會(huì)上表示,“這次我們帶來(lái)王者榮耀的AI電競(jìng)賽,希望讓大家欣賞到最高水平的AI競(jìng)技,同時(shí)激發(fā)青年人對(duì)‘通用AI’的研究興趣。”

表演賽上,重慶QGhappy.Hurt、成都AG超玩會(huì).無(wú)痕、武漢eStarPro. 諾言、深圳DYG.小義,以及辰鬼等5名職業(yè)選手,與“王者絕悟”進(jìn)行BO5對(duì)戰(zhàn)。

“王者絕悟”掌握全英雄池,全召喚師技能,無(wú)任何限制與數(shù)值加成。“王者絕悟”和職業(yè)玩家在視野和操作反應(yīng)上是公平的,后臺(tái)統(tǒng)計(jì)結(jié)果顯示,王者絕悟APM(Action per Minute,每分鐘操作次數(shù))低于職業(yè)選手均值。

表演賽區(qū)域同時(shí)開(kāi)放體驗(yàn)展區(qū),向觀(guān)眾普及了AI技術(shù)在多元場(chǎng)景中的廣泛應(yīng)用價(jià)值。不少觀(guān)眾體驗(yàn)后表示:“雖然曾經(jīng)在游戲里和王者絕悟有過(guò)切磋,但是經(jīng)過(guò)現(xiàn)場(chǎng)不少行業(yè)人士的分析和解說(shuō)后,還是重新認(rèn)識(shí)到王者絕悟,并且理解到其并不只是一個(gè)簡(jiǎn)單的游戲?qū)κ?rdquo;。

絕悟AI技術(shù)再進(jìn)化:自學(xué)習(xí)能力的演進(jìn)

此次亮相的“王者絕悟”是掌握游戲中全部100多個(gè)英雄玩法的“完全體”版本。要精通王者榮耀這款MOBA(多人在線(xiàn)戰(zhàn)術(shù)競(jìng)技)游戲,“王者絕悟”背后是天文數(shù)字級(jí)的計(jì)算量。

一方面,100多個(gè)英雄組成5人隊(duì)伍,就有多達(dá)10的15次方種可能性;另一方面,AI要操作不同技能、裝備的不同英雄,在對(duì)局中面臨策略規(guī)劃、目標(biāo)選擇、技能應(yīng)用、路徑探索及團(tuán)隊(duì)協(xié)作等大量即時(shí)的選擇,其操作可能性預(yù)計(jì)高達(dá)10的20000次方。

在王者榮耀對(duì)局中,AI的動(dòng)作狀態(tài)空間遠(yuǎn)遠(yuǎn)大于圍棋及其他簡(jiǎn)單游戲,甚至超過(guò)整個(gè)宇宙的原子總數(shù)(10的80次方)。如此龐大的運(yùn)算空間里,要做高效準(zhǔn)確的決策,對(duì)算法的挑戰(zhàn)巨大。

絕悟AI背后的技術(shù),主要涉及監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩大領(lǐng)域。監(jiān)督學(xué)習(xí)通過(guò)海量有標(biāo)記的訓(xùn)練數(shù)據(jù)為基礎(chǔ),推導(dǎo)出行為預(yù)測(cè)函數(shù)。這個(gè)方法的優(yōu)點(diǎn)在于能夠模擬不同級(jí)別的目標(biāo)行為,做到很好的擬人化;缺點(diǎn)在于過(guò)度依賴(lài)于數(shù)據(jù),特別是標(biāo)注數(shù)據(jù)的質(zhì)量。強(qiáng)化學(xué)習(xí)通過(guò)構(gòu)建獎(jiǎng)勵(lì)和懲罰刺激環(huán)境的角度出發(fā),優(yōu)化AI行為邏輯。這個(gè)方法的優(yōu)點(diǎn)在不依賴(lài)已有數(shù)據(jù)并且能夠探索出新的策略,甚至于超越當(dāng)前人類(lèi)的認(rèn)知。

“王者絕悟”的能力演進(jìn)經(jīng)過(guò)了多次迭代:

騰訊AI“王者絕悟”亮相世界人工智能大會(huì) 展現(xiàn)“AI+游戲”全新可能

2018年12月,“王者絕悟”對(duì)陣玩家高手隊(duì)的5v5測(cè)試。這一版本通過(guò)監(jiān)督學(xué)習(xí)方法,模擬學(xué)習(xí)了職業(yè)選手的操作,達(dá)到頂尖業(yè)余水平。

2019年,隨著在深度強(qiáng)化學(xué)習(xí)、多智能體決策課題上研究不斷深入,“王者絕悟”不再需要模仿人類(lèi)數(shù)據(jù),而是通過(guò)自己和自己對(duì)戰(zhàn),進(jìn)一步提升微操水平和大局觀(guān),達(dá)到了王者榮耀職業(yè)電競(jìng)水平。

2020年,“王者絕悟”通過(guò)課程學(xué)習(xí)方式,學(xué)會(huì)了更多英雄玩法;5月,它用40個(gè)英雄池首次接受玩家們的挑戰(zhàn)。

在本次亮相的完全體版本中,王者絕悟進(jìn)一步引入了多輪組合博弈和層次化的強(qiáng)化學(xué)習(xí)算法。也就是在競(jìng)技比賽的局前和局內(nèi),都做了針對(duì)性?xún)?yōu)化,提升它的整體能力和戰(zhàn)術(shù)對(duì)抗水平。

在局前BP環(huán)節(jié)(Ban and Pick,禁止對(duì)方使用的英雄和選擇本方使用的英雄),王者絕悟既會(huì)考慮當(dāng)前對(duì)局雙方陣容的勝率,也會(huì)更長(zhǎng)遠(yuǎn)地為后續(xù)對(duì)局“留招”,最大化多輪比賽的勝率。

在局內(nèi),通過(guò)自我博弈學(xué)習(xí)同時(shí)提升宏觀(guān)戰(zhàn)術(shù)策略和具體微操水平。在保持高強(qiáng)度微操能力的情況下,對(duì)不同的敵方戰(zhàn)術(shù)策略,如五人抱團(tuán)、四一分推、野區(qū)入侵等戰(zhàn)術(shù),做出更加合理的應(yīng)對(duì)。

“王者絕悟”的演進(jìn),代表著騰訊在復(fù)雜策略與多智能體博弈課題研究上的先進(jìn)技術(shù)水平;同時(shí),也推動(dòng)著行業(yè)在攻克“通用人工智能難題”上,又向前邁進(jìn)了一步。

面向未來(lái):AI贏了比賽,人類(lèi)贏得未來(lái)

21世紀(jì)初,以 Deepmind、OpenAI 等為代表的一系列人工智能公司將由大數(shù)據(jù)和深度學(xué)習(xí)方法引領(lǐng)的又一輪人工智能浪潮推向巔峰。游戲也給計(jì)算機(jī)技術(shù)的前沿研究提供了大量的實(shí)驗(yàn)場(chǎng)景和驅(qū)動(dòng)力,出現(xiàn)了一個(gè)良性循環(huán)的狀態(tài)。

事實(shí)上,AI的目的并不是要在游戲里戰(zhàn)勝人類(lèi),而是通過(guò)越來(lái)越復(fù)雜的游戲訓(xùn)練,最終解決現(xiàn)實(shí)生活中的問(wèn)題。

自2018年初次亮相電競(jìng)賽場(chǎng)以來(lái),絕悟AI在對(duì)局中飛速成長(zhǎng),王者榮耀游戲機(jī)制高復(fù)雜度、高挑戰(zhàn)性、強(qiáng)協(xié)作性等特征,滿(mǎn)足了對(duì)高水平AI的研究需要,并且得到了國(guó)際認(rèn)可,絕悟AI相關(guān)論文已先后被AAAI、NeurIPS等AI頂級(jí)會(huì)議收錄。

騰訊 AI Lab還同步推進(jìn)了多類(lèi)“AI+游戲”研究。棋牌類(lèi)AI“絕藝”,四奪圍棋AI世界冠軍、擔(dān)任中國(guó)國(guó)家圍棋隊(duì)專(zhuān)用AI,并進(jìn)一步探索棋力極限,讓職業(yè)棋手2子取得200連勝。絕藝從圍棋的完全信息博弈到不完全信息博弈的棋牌類(lèi)研究亦取得階段性進(jìn)展,獲 IJCAI 2020麻將AI比賽冠軍。

策略協(xié)作型AI絕悟也正從王者峽谷走向更多類(lèi)型游戲。在足球游戲中,絕悟Wekick版本獲谷歌Kaggle 11v11足球AI競(jìng)賽世界冠軍。在RTS游戲中,在星際爭(zhēng)霸2里打敗“開(kāi)掛”內(nèi)置 AI 的智能體;在FPS射擊類(lèi)游戲中,著力解決3D環(huán)境建模、感知實(shí)現(xiàn)視角的轉(zhuǎn)換和移動(dòng)尋人等難題,先是奪得了VizDoom AI競(jìng)賽歷史上首個(gè)中國(guó)區(qū)冠軍,后在FPS AI上線(xiàn)手游《穿越火線(xiàn)-槍?xiě)?zhàn)王者(CFM)》中廣獲好評(píng)。

未來(lái),騰訊AI研究還將有更多場(chǎng)景和應(yīng)用。對(duì)于不少研究人員和開(kāi)發(fā)者來(lái)說(shuō),多智能體技術(shù)研究依然存在顯著的現(xiàn)實(shí)困難,包括環(huán)境的不確定性、信息獲取的局限性、個(gè)體目標(biāo)與全局目標(biāo)的一致性,以及對(duì)高算力的要求。

基于此,2019年8月,王者榮耀、騰訊 AI Lab攜手共建“開(kāi)悟”AI開(kāi)放平臺(tái),打造利用王者榮耀與騰訊AI Lab核心技術(shù)構(gòu)建的,對(duì)使用者低成本的多智能體人工智能算法研究、教學(xué)和驗(yàn)證的科研教學(xué)平臺(tái),助力打通產(chǎn)學(xué)研聯(lián)盟通路。

長(zhǎng)遠(yuǎn)來(lái)看,AI+游戲研究將是騰訊攻克 AI 終極研究難題——通用人工智能(AGI)的關(guān)鍵一步。AGI 代表研發(fā)能在通用系統(tǒng)中執(zhí)行多種復(fù)雜命令,達(dá)到或超越人類(lèi)水平的 AI ,從絕藝到絕悟,不斷讓 AI 從0到1去學(xué)習(xí)進(jìn)化,并發(fā)展出一套合理的行為模式,這中間的經(jīng)驗(yàn)、方法與結(jié)論,長(zhǎng)期來(lái)看,有望在大范圍內(nèi),如醫(yī)療、制造、無(wú)人駕駛、農(nóng)業(yè)到智慧城市管理等領(lǐng)域帶來(lái)更深遠(yuǎn)影響。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )