谷歌AI在游戲中組隊擊敗人類團隊 這一壯舉到底有何意義?

極客網(wǎng)?極客觀察(小刀)6月4日,聽說過“奪旗”嗎?這是一個游戲,夏令營時,孩子們會在空地上玩;一些職業(yè)視頻游戲玩家也會玩。不論是在現(xiàn)實世界玩還是在電腦上玩,“奪旗”都是一個團隊游戲。兩隊人馬對峙,都想奪走對方的旗幟,帶回基地,并守衛(wèi)自己的旗幟。想成為贏家需要團隊合作,在防守與反擊之間保持協(xié)調(diào)。

換句話說,奪旗需要高超的人類技巧。倫敦谷歌AI實驗室的研究人員向我們證明,機器可以不斷學習,掌握游戲,至少在虛擬世界可以做到。

111111111111111.jpg

谷歌AI研究人員發(fā)表論文稱,它們已經(jīng)開發(fā)出一套自動“代理”,在Quake III游戲內(nèi),它們可以玩“奪旗”游戲。代理可以組隊對抗人類玩家,或者與代理團隊對決。

谷歌旗下實驗室DeepMind的研究人員Wojciech Czarnecki說:“它們可以適應擁有任意技能的隊友。”

代理不斷玩游戲,學了幾千小時之后就能掌握一些特殊技巧,比如當一名團隊成員即將奪到旗幟時,它們會沖向敵軍基地。因為人類玩家都知道,當對方的旗幟被帶回基地時,會有一面新的旗幟出現(xiàn)在對方基地,等著被奪取。

DeepMind正在開發(fā)AI,它可以玩復雜的3D視頻游戲,比如Quake III、Dota 2、《星際爭霸2》。許多人相信,如果AI能夠在虛擬競技場獲得勝利,它也許能變成自動系統(tǒng),用于現(xiàn)實世界。

例如,類似的技術(shù)可以用在倉庫機器人身上,讓機器人組隊搬運貨物,從一個地方運到另一個地方,或者幫助自動駕駛機器人穿過擁擠的車流。OpenAI研究人員Greg Brockman解釋說:“游戲一直以來都是AI的評測基準。如果你不能解決游戲問題,就無法解決其它問題?!?/p>

不久之前,想開發(fā)一套AI系統(tǒng),讓它在Quake III之類的游戲中對抗人類,還是一件不可能的事。就在前幾年,DeepMind、OpenAI及其它實驗室取得明顯進步,它們用到一種新的數(shù)學技術(shù),也就是“增強學習”,有了這種技術(shù),機器可以通過極端試錯不斷學習。

通過一次又一次的游戲,自動代理不斷學習,理解到哪種策略能帶來成功,哪種不能。當一名團隊成員即將奪到旗幟,如果朝著敵軍的基地沖鋒能拿到更多點數(shù),代理會將這種策略吸收進去。

u=3566728245,179483006&fm=26&gp=0.jpg

正是憑借這一策略,2016年DeepMind開發(fā)的AI代理在圍棋上擊敗人人類。第一稱視頻游戲更復雜一些,如果是兩個團隊對決,那就更復雜了。DeepMind的自動代理玩了大約45萬回合的游戲,學著奪旗,相當于在幾周的時間內(nèi)訓練了4年。最開始時,代理慘敗。但它最終理解到了游戲的訣竅,比如當它們襲擊敵軍的基地時,何時應該追隨隊友前進。

DeepMind還在開發(fā)可以擊敗人類的《星際爭霸2》代理,OpenAI研究人員也開發(fā)了一套可以玩Dota 2的代理。4月份,在Dota 2游戲中,5個代理組成團隊,擊敗了5名人類頂尖高手組成的團隊。

William Lee是一名職業(yè)Dota 2玩家,去年,他曾經(jīng)與早期版本的AI系統(tǒng)對決,一對一玩游戲,當時AI并沒有給William Lee留下深刻印象。后來代理不斷學習,當William Lee以團隊成員的身份與AI團隊對決時,他為AI的表現(xiàn)感到震驚。William Lee說:“我原本以為,機器不可能以5對5的方式玩游戲,更別說贏了。所以我感到很驚訝?!?/p>

AI可以在游戲中戰(zhàn)勝人類,這樣的技術(shù)真的可以用來解決現(xiàn)實問題嗎?佐治亞理工學院計算機系教授Mark Riedl認為,AI代理并沒有真正協(xié)作,它們只是對游戲中發(fā)生的事迅速回應,并不是AI代理之間傳遞了信息,人類玩家會傳遞信息。

雖然AI的表現(xiàn)看起來像是協(xié)作,但它們之所以做到是因為AI深刻理解到游戲中正在發(fā)生什么事。

DeepMind研究人員Max Jaderberg說:“你如何定義團隊合作,這不是我們想解決的問題。當一名代理坐在敵軍基地里,等著旗幟出現(xiàn),這種行為只有依賴團隊成員才能實現(xiàn)?!?/p>

Riedl認為,游戲沒有現(xiàn)實世界復雜,游戲里的3D環(huán)境是精心設(shè)計的,導航更容易,在Quake游戲中執(zhí)行戰(zhàn)略、追求協(xié)作更簡單一些。

增強學習適合這樣的游戲。在視頻游戲中,成功的標準就是拿到更多點數(shù)。在奪旗游戲葉,奪取的旗幟越多,點越多。但在真實世界,成功不是用點數(shù)來衡量的,它有多種多樣的衡量標準。

timg.jpg

不過做一些簡單任務還是可以的。OpenAI訓練一只機器人手臂,讓它操縱字母塊。你讓手臂展示字母A,它就會將A字母塊展示給你看。谷歌也向我們演示,機器可以學著挑選隨機物件,比如乒乓球、塑料香蕉,然后將它們?nèi)拥较喔粢欢尉嚯x的垃圾桶。類似的技術(shù)可以用在倉庫。

想解決更復雜的問題,需要更強的計算力。OpenAI系統(tǒng)花了幾個月時間學著玩Dota 2游戲,玩的時間累計超過45000年,它需要依賴幾萬顆計算機芯片才能完成。Brockman說,租賃這些芯片花了計算機幾百萬美元。

DeepMind和OpenAI能夠承擔高昂的成本,但是其它學術(shù)實驗室、小機構(gòu)承受不起。有人擔心,少數(shù)財大氣粗的實驗室將會成為未來AI的統(tǒng)治者。

不過即使是大型實驗室,恐怕也沒有足夠強的計算力可以驅(qū)動用于現(xiàn)實世界的技術(shù)。雖然AI可以在虛擬世界奪旗,擊敗人類,但在夏令營空地上,它們沒有希望登場,至少短期之內(nèi)看不到希望。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-06-04
谷歌AI在游戲中組隊擊敗人類團隊 這一壯舉到底有何意義?
谷歌AI研究人員發(fā)表論文稱,它們已經(jīng)開發(fā)出一套自動“代理”,在Quake III游戲內(nèi),它們可以玩“奪旗”游戲。代理可以組隊對抗人類玩家,或者與代理團隊對決。

長按掃碼 閱讀全文