GAITC 2022智媒專題論壇丨王亦洲:主動跟蹤算法研究

11月27日,在2022全球人工智能技術(shù)大會上,由CAAI智能傳媒專委會、中國傳媒大學(xué)媒體融合與傳播國家重點實驗室、新浪AI媒體研究院聯(lián)合支持的“融合與發(fā)展”新智者·智能媒體專題論壇在線上舉行。CAAI智能傳媒專委會副主任,北京大學(xué)博雅特聘教授王亦洲以《主動跟蹤算法研究》為主題進行了分享。

圖注:王亦洲教授-“融合與發(fā)展”新智者·智能媒體專題論壇

以下為王亦洲演講實錄,內(nèi)容經(jīng)編輯略有刪減:

王亦洲:謝謝葉老師的介紹,各位專家下午好,我是來自北京大學(xué)的王亦洲,報告內(nèi)容是主動跟蹤算法研究。解了一下聽眾范圍比較廣,可能更多介紹思路性的東西。今天我將主要介紹如何構(gòu)建多智能體博弈機制,以實現(xiàn)魯棒的主動目標(biāo)跟蹤。具體的,我將先簡要介紹博弈論、認知機制、主動目標(biāo)跟蹤任務(wù)和虛擬環(huán)境等相關(guān)信息,然后將重點介紹四種多智能體博弈機制用于主動目標(biāo)跟蹤。

首先,博弈現(xiàn)象非常普遍,小到我們的日常生活,大到經(jīng)濟體或國家的經(jīng)濟與政治活動。從博弈者之間的關(guān)系角度,博弈可以分為幾種,如對抗性博弈,比如常見的零和博弈,還有基于共同利益的合作博弈,但更多的是混合動機博弈。在這類博弈中,智能體短期和長期的interest可能不一致,個體和群體的利益可能也不一致。傳統(tǒng)的博弈策略集合是有限的,相對來說也是靜態(tài)的,這時候博弈相對簡單,但是如果是混合動機博弈,博弈會受到智能體心理狀態(tài)的影響,甚至可能采取不理智策略,這時候博弈分析變得更加復(fù)雜。所以研究混合動機博弈是多智能體系統(tǒng)現(xiàn)在的前沿研究方向,會涌現(xiàn)出很多有趣的交互智能現(xiàn)象,如合作、信任、欺騙、公平等。

2005年科學(xué)期刊列舉了125個我們面臨挑戰(zhàn)的科學(xué)問題,其中就有博弈論問題。用AI方法研究合作現(xiàn)象的演化是AI for science很有趣的切入點。我舉兩個例子:比如在囚徒困境中,由于囚徒無法信任對方,因此傾向于互相揭發(fā),而不是保持沉默。最終導(dǎo)致納什均衡僅落在非合作點上的博弈模型,而不是群體意義上的帕累托最優(yōu)。囚徒困境所反映出的深刻問題是,人類的個人理性有時能導(dǎo)致集體的非理性。

在獵鹿博弈中,每個人策略都是根據(jù)對手策略來相應(yīng)地調(diào)整,但是如何形成commitment,這是個有趣的問題。獵鹿博弈是關(guān)于信任的博弈。按照經(jīng)濟學(xué),合作獵鹿的納什均衡比分頭抓打兔子的納什均衡具有帕累托優(yōu)勢。獵鹿博弈和囚徒困境的區(qū)別在于,囚徒無法溝通信息,獵人可以溝通信息,博弈結(jié)果就會有所不同。區(qū)別于囚徒困境,獵鹿博弈有兩種純策略納什均衡:全合作或全背叛,而在囚徒困境中,盡管全合作是帕累托最優(yōu),但只有全背叛才能達到納什均衡。

上面兩個博弈例子還是比較簡單的,日常生活中我們的情況往往復(fù)雜很多。近幾年我們針對復(fù)雜博弈提出以下研究思路:首先要搭建一個比較復(fù)雜并具有一般性的環(huán)境,研究智能體在其中的博弈行為。進而將復(fù)雜的認知模型引入決策過程,研究交互智能現(xiàn)象的涌現(xiàn)機制。

下面我會簡單介紹一個認知模型-Theory of mind。人的交往過程中不是只從自己角度考慮問題,還要了解別人怎么想的,別人的信念是什么,他處于什么情緒狀態(tài),對方想想要的是什么。有了這個機制,人們的交流就會更加高效。我們在自主跟蹤問題中就引入了這個認知機制。

近些年來,計算機視覺已經(jīng)從被動的感知慢慢過度到主動視覺,而且正在向下一個階段自主學(xué)習(xí)發(fā)展。2005年G.Bekey給Autonomy下了一個通俗易懂的定義,系統(tǒng)在完成現(xiàn)實環(huán)境當(dāng)中完成任務(wù)時會在相當(dāng)長時間內(nèi)不需要外界控制,這個系統(tǒng)我們可以說它具有自主性。

自主系統(tǒng)的標(biāo)志性能力有:可以進行弱監(jiān)督或無監(jiān)督學(xué)習(xí),可以不斷地獲得、總結(jié)、積累知識,可以探索環(huán)境和決策,,能夠獨立地完成這件事情。四是可以根據(jù)大任務(wù)或者無任務(wù)情況下自己去給自己布置任務(wù),或者在大任務(wù)當(dāng)中set子任務(wù),根據(jù)環(huán)境變化調(diào)整自己的行為。所以我們一般說應(yīng)該至少具備這四種基本能力,才有可能讓系統(tǒng)變得autonomous。在可控環(huán)境下要實現(xiàn)一個autonomous machine相對還是比較容易的,但如果在開放環(huán)境中把一個智能體放進去,讓它像一個新生兒一樣,自主地去了解這個世界,給自己設(shè)置任務(wù)去完成,不斷地成長,這是非常具有挑戰(zhàn)性任務(wù)。

下面回到研究主題,Autonomous Visual Tracking主動目標(biāo)跟蹤就是讓機器人根據(jù)視覺觀測信息,主動控制相機運動, 使得目標(biāo)始終以合適的大小出現(xiàn)在畫面的中心。它是一個比較基礎(chǔ)的功能,在很多真實系統(tǒng)中都有潛在的應(yīng)用需求,比如移動機器人,無人機航拍,自動駕駛,智能監(jiān)控中。我們把剛才講的社會博弈以及認知構(gòu)架放到這個自主跟蹤系統(tǒng)上,讓它產(chǎn)生自主行為,這是一個非常有趣的科學(xué)問題。

這里可以看到一個例子,要真正實現(xiàn)主動目標(biāo)跟蹤,其實會有很多不同的挑戰(zhàn)。比如,在錄制一些比較驚險刺激的特技鏡頭時,攝影師不僅要讓相機對準(zhǔn)演員,還要同步適應(yīng)復(fù)雜的地形環(huán)境,調(diào)動四肢跟隨演員移動,其技術(shù)難度可能要比演員表演特技還要高。并且這整個過程,從感知到動作都需要做到十分快速精準(zhǔn)執(zhí)行。然而,這對于現(xiàn)階段的機器人而言,幾乎是一件不可能的完成的任務(wù)。

那么,要真正實現(xiàn)復(fù)雜場景下的主動目標(biāo),我們的模型需要適應(yīng)多樣的工作環(huán)境(包括不同的天氣、光照條件);還要克服障礙物遮擋(也就是避障),比如遇到障礙物的時候,要找到最短路徑繞過障礙物;也要克服動態(tài)干擾物的影響,避免混淆。因此,我們就考慮訓(xùn)練一個端到端的模型,輸入圖像,直接輸出動作。感知和決策可以同步優(yōu)化,互相適應(yīng),對應(yīng)的中間表示也會更加緊湊。

要訓(xùn)練這種端到端的感知-決策網(wǎng)絡(luò),當(dāng)前流行的有兩種方法,一種是模仿學(xué)習(xí),一種是強化學(xué)習(xí)。模仿學(xué)習(xí)樣本效率會高一些,但是仍然需要收集專家數(shù)據(jù)進行訓(xùn)練,而且不可避免的存在數(shù)據(jù)分布的偏差,模型的泛化性會比較差。對于跟蹤模型來說,模型的泛化能力是至關(guān)重要的。因此我們采用強化學(xué)習(xí),我們只需要設(shè)計一個簡單的獎賞函數(shù),機器人在環(huán)境中自主探索,就可以在試錯中學(xué)習(xí)技能。

但是,如果讓智能體在真實場景中交互試錯,他的代價是十分高昂的。因此,我們構(gòu)建UnrealCV虛擬環(huán)境,用于機器人的自主學(xué)習(xí)。我們可以從中獲取高逼真的視覺觀測,精準(zhǔn)的ground truth,以及進行實時的交互,包括多智能體的交互。這個項目已經(jīng)開源了大家感興趣都可以用。

這是我們構(gòu)建的虛擬環(huán)境,有室內(nèi)和室外的。經(jīng)常一些同學(xué)或同僚問在虛擬環(huán)境中做的東西到真實環(huán)境怎么樣,這個問題非常好。有些人認為,虛擬環(huán)境中的訓(xùn)練的模型肯定不如真實環(huán)境。但是我認為此環(huán)境和彼環(huán)境沒有本質(zhì)的區(qū)別。虛擬環(huán)境未必一定比真實環(huán)境簡單。比如,我們真實世界的重力加速度是9.8米每秒方左右,但是虛擬世界當(dāng)中我悶可以讓重力加速度是任意的,可以是月球的,也可以是火星的。地球上十級臺風(fēng)已經(jīng)很大了,在真實環(huán)境中可能沒法做實驗。但是虛擬環(huán)境中,我們可以模擬二十級臺風(fēng)。還有各種摩擦系數(shù)、光照條件、極端氣候等全都能夠模擬,你說虛擬環(huán)境一定是真實環(huán)境的子集嗎?重要的是,從一個環(huán)境中訓(xùn)練的模型到另一個環(huán)境中都要進行遷移學(xué)習(xí)進行調(diào)整。從一個虛擬環(huán)境到另一個虛擬環(huán)境、從虛擬到真實,從真實到另一個真實都需要調(diào)整,方法其實是一樣的。所以不應(yīng)該簡單地說:因為這個方法不是在真實環(huán)境中訓(xùn)練的,就否定這個方法的價值,這種結(jié)論過于草率。

由于時間有限,下面我簡單介紹幾個主動跟蹤的問題和解決方法。首先我們做了一對一的主動跟蹤。它是一個零和博弈,逃跑者目的是要甩開跟蹤者。我們提出了一種非對稱博弈機制用于主動目標(biāo)跟蹤的學(xué)習(xí)。也就是,在跟蹤器學(xué)習(xí)跟隨目標(biāo)的同時,讓目標(biāo)同步學(xué)習(xí)如何擺脫跟蹤。在這種競爭機制下,因為跟蹤器和目標(biāo)的能力都是從零開始同步增長的,所以他們在每個訓(xùn)練階段都能夠遇到一個能力相當(dāng)?shù)膶κ峙c之競爭,這就自然得構(gòu)成了從易到難的課程,使得學(xué)習(xí)過程更加高效。這個機制是非對稱的,因為我們?yōu)樘优苷咭肓诵闹悄P?,讓他猜測跟蹤者的跟蹤策略,從而訓(xùn)練出聰明的逃跑者,最終得到更高明的跟蹤者。我們發(fā)現(xiàn)一些有趣的智能現(xiàn)象涌現(xiàn)出來,比如逃跑者為了甩開跟蹤者,學(xué)會了擬態(tài)行為。我們把在虛擬環(huán)境中訓(xùn)練的跟蹤模型非常容易地transfer到真實環(huán)境當(dāng)中,效果也很好。

另一個場景還是一跟一,但是多了干擾者,這個時候就復(fù)雜了針對視覺混淆干擾的影響,我們提出了一種多智能體混合博弈機制。該機制下,目標(biāo)和干擾物組成了一個與跟蹤器競爭的合作團隊,通過主動制造具有迷惑性的外觀和行為使跟蹤器學(xué)習(xí)抗干擾的跟蹤策略。為了提高多智能體博弈學(xué)習(xí)的效率,進一步提出了一系列改進方法,包括面向干擾者的獎賞函數(shù)、跨模態(tài)師徒學(xué)習(xí)策略以及用于跟蹤器的循環(huán)注意力機制等。

在多跟一的模型中,我們主要采用的心理模型是從眾心理模型,因為物體走到某些角度時會block相機的view,這時被遮擋相機的動作要根據(jù)其他相機的pose決定。針對復(fù)雜場景下的單目標(biāo)多相機跟蹤問題,受“羊群效應(yīng)”啟發(fā),提出了一種位姿輔助的多相機合作跟蹤系統(tǒng)。該系統(tǒng)中,設(shè)計了一種受羊群心態(tài)驅(qū)動的位姿控制器,可在視覺觀測受限情況下通過參考多數(shù)相機位姿狀態(tài)輸出與群體一致的動作(都指向同一區(qū)域),實現(xiàn)在復(fù)雜場景下的高效合作跟蹤。

最后一種更具有挑戰(zhàn)性的是多跟多的問題,智能體之間相互協(xié)調(diào)誰跟誰,把任務(wù)分進去之后各自完成各自的任務(wù)的思路。針對多相機多目標(biāo)覆蓋問題,提出了一種面向目標(biāo)分配的層次化多智能體協(xié)調(diào)機制。該協(xié)作機制主要分兩層,包括了一個集中式協(xié)調(diào)者和多個分布式執(zhí)行者。協(xié)調(diào)者收集各個執(zhí)行者的觀測信息,進行全局規(guī)劃,為每個執(zhí)行者分配子目標(biāo)任務(wù)。每個執(zhí)行者通過采取一系列基本動作實現(xiàn)對指定目標(biāo)集的覆蓋。為提升模型訓(xùn)練效率和泛化能力,采用了一系列改進方法,包括了用自注意力感知模塊處理變長輸入輸出,面向目標(biāo)分配的邊際貢獻近似估計,基于子目標(biāo)的觀測過濾器等。謝謝大家。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )