第二屆騰訊“開悟”AI大賽復賽晉級名單出爐,他們在王者峽谷研究強化學習

一場發(fā)生在王者峽谷的賽事,背后竟然驚動了清華、北大、中科大、電子科技大學……等20多所名校的學生和老師?

這不是一場簡單的電競賽事,而是一場AI領域的科研賽事——由騰訊AI Lab、王者榮耀、騰訊高校合作、騰訊游戲?qū)W院等聯(lián)合舉辦,由騰訊云計算提供底層資源支持的第二屆騰訊“開悟”多智能體強化學習大賽(簡稱開悟大賽)。

不同于常規(guī)電競比賽,選手們并不是親手操作英雄去戰(zhàn)斗,他們的定位更類似于教練,通過編寫的程序利用AI進行對抗。賽事基于“開悟”AI開放研究平臺舉行,依托于騰訊太極機器學習平臺,選手可獲取“開悟”提供的算法、算力、脫敏數(shù)據(jù)等資源。

第二屆騰訊“開悟”AI大賽復賽晉級名單出爐,他們在王者峽谷研究強化學習

就在上周,開悟大賽在官網(wǎng)發(fā)布了初賽成績。10支隊伍脫穎而出,晉級復賽。

第二屆騰訊“開悟”AI大賽復賽晉級名單出爐,他們在王者峽谷研究強化學習

隊伍成績已公布于賽事官網(wǎng)aiarena.tencent.com

AI也會“騷操作”

初賽的目標并不復雜:參賽隊伍需要訓練AI學會露娜、魯班七號、橘右京等三位英雄,并在1v1墨家機關道地圖中戰(zhàn)勝對手的同一英雄,打爆對方的水晶。除了“召喚師”是AI以外,整體規(guī)則與《王者榮耀》游戲一致。

你可能要說:就這?但達成這個目標,對AI來說并不簡單。

《王者榮耀》是一款需要玩家根據(jù)復雜多變的戰(zhàn)場情況進行實時反應,制定策略的游戲,要求玩家掌握并融合實時感知、分析、理解、推理、決策等多種能力。因此,如何設計AI的行為權重、操作觸發(fā)條件,以及決策是否正確的反饋機制則成為了比賽制勝的關鍵。

在初賽賽題中,就考查了智能體解決方案,模型結(jié)構(gòu)設計,強化學習算法設計和訓練方式探索等AI強化學習領域的硬核知識點。

初賽階段,主辦方希望讓參賽者能夠比較輕松地上手,并在“開悟”平臺上體驗到AI強化學習訓練的完整流程。因此,賽事主辦方為參賽隊伍提供了一份benchmark,包括了訓練所需要的所有環(huán)境配置以及基礎的算法框架代碼,讓選手無需關心復雜的游戲邏輯以及搭建訓練環(huán)境,就能快速掌握訓練流程,并專注于核心算法的優(yōu)化。得益于此,初賽大部分學生都順利完成了賽題并提交了自己訓練出來的模型。

在初賽的一場露娜1V1中,我們看到了一次可媲美真實玩家對戰(zhàn)的AI精彩對決。

“歡迎來到王者榮耀。”隨著語音響起,戰(zhàn)斗正式打響,雙方狹路相逢,在短暫交手試探后,便默契分開,各自靠小兵發(fā)育。

第二屆騰訊“開悟”AI大賽復賽晉級名單出爐,他們在王者峽谷研究強化學習

接下來,在沒有把握完成擊殺的情況下,雙方并沒有選擇窮追猛打,而是點到為止的交手了幾次,都在血量告急時暫時退避,戰(zhàn)況暫時陷入了膠著。

第二屆騰訊“開悟”AI大賽復賽晉級名單出爐,他們在王者峽谷研究強化學習

藍方率先抓住了機會,該出手時就出手,越塔完成了首次擊殺。

到了后期戰(zhàn)事越發(fā)激烈,雙方你來我往,互不讓步。

最終,藍方靠著前期積攢的優(yōu)勢,對著紅方發(fā)起了最后一擊。雖然紅方露娜在還剩最后一絲血皮時試圖撤出戰(zhàn)場,但難以力挽狂瀾。最終,以藍方露娜擊破紅方水晶塔獲勝。

第二屆騰訊“開悟”AI大賽復賽晉級名單出爐,他們在王者峽谷研究強化學習

可以看到,經(jīng)過短短兩個月的學習和研發(fā),學生們已經(jīng)交出了可圈可點的答卷。當然,這離不開老師和同學們大量的心血投入。

  像電競教練一樣訓練AI

自AlphaGo一鳴驚人后,越來越多AI研究團隊意識到,游戲是AI的最佳訓練場之一:若AI能在如此復雜的環(huán)境中,學會人一樣實時感知、分析、理解、推理、決策到行動,就可能在多變、復雜的真實環(huán)境中發(fā)揮更大作用。

在游戲環(huán)境中開發(fā)AI,這對清華大學計算機系隊的陳華玉同學并不陌生,在清華校內(nèi)就有類似的比賽。但他沒有想到,有一天能夠?qū)⒆约旱膶I(yè)與所喜愛的《王者榮耀》游戲結(jié)合起來。

在收到老師通知之后,他馬上決定參加賽事,并承擔起了拉人組隊的工作。除了喜歡游戲以外,更主要的原因是“開悟”整合游戲環(huán)境、算法、算力、脫敏數(shù)據(jù)等資源,能夠提供一個研究強化學習算法的理想環(huán)境。

“之前一直沒有機會去做,因為它需要一個非常大的平臺,以及大量的計算資源,以個人的能力去做會很困難。”陳華玉說,與他有相同想法的同學很多,招人信息發(fā)出去后,馬上收到了20多份簡歷。

當然,“開悟”大賽的玩法和普通的游戲局并不一樣。來自深圳大學的唐致燁同學是第二次參賽,去年止步于初賽的他今年格外上心,在開賽前就開始研究騰訊AI Lab過往幾篇關于“絕悟”(達到王者榮耀電競水平的策略協(xié)作型AI)的論文。

“我們在賽事過程中更像是一個電競教練。”他這樣評價參加“開悟”大賽的體驗。“我們要分析玩家在游戲時會考慮哪些因素,然后對這些因素進行思考,也會請擅長王者的隊友看視頻輔助調(diào)參數(shù),挺有趣的。”

陳華玉和唐致燁的隊伍都進入了復賽。在對自己隊伍的初賽表現(xiàn)進行復盤時,兩位都認為,在面對一個比較復雜的研究項目時,隊伍內(nèi)部的分工合作很重要。“有人負責開發(fā),有人負責動作空間,有人專門負責實驗。”他們形容,這和玩游戲時的組隊奮戰(zhàn)有點像,5個人運用不同的“職業(yè)”特長,走在不同的路線上,最終一起攻破水晶。

而在老師的眼中,同學們在比賽中展現(xiàn)出的學習熱情更讓人驚喜。清華計算機隊的指導老師閻棟表示:“現(xiàn)在的這些同學們非常喜歡王者榮耀,利用興趣驅(qū)動去做事,也能提升主動學習積極性。”

盡管平臺還有許多需要不斷迭代優(yōu)化的空間,但老師們對它寄予厚望。深大指導老師王旭就非常期待與“開悟”平臺的進一步合作:“我期待平臺能夠進一步開放,與專業(yè)課進一步深度結(jié)合,形成一個類似于訓練或者教育的平臺。”

事實上,為普及多智能體強化學習研究,“開悟”早已向高校拋出了橄欖枝。今年4月,騰訊“開悟”聯(lián)合國內(nèi)多所高校成立了人工智能科教聯(lián)盟,并攜手高校、科研院所、產(chǎn)業(yè)園區(qū)、投資機構(gòu)組建人工智能科創(chuàng)聯(lián)合體。

王老師的期望也即將變成現(xiàn)實。今年8月,騰訊宣布與四所國內(nèi)一流高校(北京大學、電子科技大學、清華大學、中國科學技術大學)的老師合作開發(fā)基于“開悟”平臺的人工智能實踐課程,理論授課包括但不限于機器學習、強化學習、多智能體決策等相關的知識點,運用王者榮耀作為實踐驗證場景,以更輕松的方式,傳授同學們AI相關知識。未來,這一課程將逐步推廣向更多有意接入的高校。

我們目標是星辰大海

在接下來的兩個月內(nèi),選手們將迎來更高難度的復賽——3v3團體戰(zhàn)。這一課題意味著選手需要在設計AI時,考慮到多個智能體之間的配合協(xié)作。

此外,復賽長平攻防戰(zhàn)使用的地圖,也比初賽的墨家機關道更復雜。場地分為上野區(qū)、下野區(qū)和中路三部分,且新增了草叢(可隱藏角色的地圖區(qū)域)、野怪(擊殺可掉落金幣)等元素,意味著AI擁有了更大的狀態(tài)空間,且需要考慮不同定位的英雄的獎勵函數(shù)設計,難度再次升級。

第二屆騰訊“開悟”AI大賽復賽晉級名單出爐,他們在王者峽谷研究強化學習

更高難度的挑戰(zhàn),正是參賽者們所期待的。陳華玉至今印象最深刻的,還是初賽期間所遇到的難題,以及解決這些問題時巨大的成就感:“當發(fā)現(xiàn)我們想出的數(shù)據(jù),真的有助于算法改進的時候,這種感覺還挺好的。”

研究的快樂,也讓唐致燁想要探索更遙遠的地方:“在比賽過程中,我發(fā)現(xiàn)強化學習是挺有意思的一個領域,我未來可能也會往這個方向去走。”

“開悟”的目標則看得更遠:賽事希望更高難度的挑戰(zhàn),能幫助參賽者沉淀更多的強化學習研究經(jīng)驗,從而為AI與現(xiàn)實場景的結(jié)合創(chuàng)造更多可能。

基于游戲虛擬場景,訓練AI的通用能力,讓更智能的AI在各領域服務人類,是游戲AI研究的核心目標。舉個例子,假如AI在王者峽谷中,能夠快速分析瞬息萬變的環(huán)境和對手并作出決策,這個能力運用于同樣復雜的真實城市路況,就是自動駕駛AI的雛形;當AI學會了如何控制5個隊友配合互助,或許就能在工業(yè)環(huán)境中操作多個機器人,完成復雜的生產(chǎn)任務。

作為國內(nèi)“AI+游戲”方向的先行探路者,騰訊AI Lab已基于“絕悟”、“絕藝”等多項前沿成果,初步將其AI技術應用于游戲、醫(yī)療等產(chǎn)業(yè)。

在“助力產(chǎn)學研,共享AI新生態(tài)”愿景的引領下,“開悟”希望能夠成為這些年輕人們走向星辰大海的第一塊階梯。隨著他們的成長,AI將加速與醫(yī)療、工業(yè)、農(nóng)業(yè)、交通等更多場景融合,并逐步成為全真互聯(lián)世界的基建設施,構(gòu)建未來數(shù)字生活新體驗。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )