近日,國(guó)際人工智能頂級(jí)會(huì)議AAAI 2021公布了論文錄取結(jié)果。AAAI是人工智能領(lǐng)域最悠久、涵蓋內(nèi)容最為廣泛的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議之一。AAAI 2021一共收到9034篇論文提交,其中有效審稿的數(shù)量為7911篇,最終錄取數(shù)量為1692篇,錄取率為21.4%。
AAAI(Association for the Advance of Artificial Intelligence), 即美國(guó)人工智能協(xié)會(huì),是人工智能領(lǐng)域的主要學(xué)術(shù)組織之一,其主辦的年會(huì)也是人工智能領(lǐng)域的國(guó)際頂級(jí)會(huì)議。在中國(guó)計(jì)算機(jī)學(xué)會(huì)的國(guó)際學(xué)術(shù)會(huì)議排名以及清華大學(xué)新發(fā)布的計(jì)算機(jī)科學(xué)推薦學(xué)術(shù)會(huì)議和期刊列表中,AAAI 均被列為人工智能領(lǐng)域的 A 類頂級(jí)會(huì)議。
本次AAAI 騰訊優(yōu)圖實(shí)驗(yàn)室共入選了11篇論文,涉及動(dòng)作識(shí)別、人群密度估計(jì)、人臉安全等領(lǐng)域,展現(xiàn)了騰訊在計(jì)算機(jī)視覺領(lǐng)域的技術(shù)實(shí)力。
以下為部分騰訊優(yōu)圖入選AAAI 2021的論文:
01
學(xué)習(xí)用于動(dòng)作識(shí)別的全面運(yùn)動(dòng)特征表達(dá)
Learning Comprehensive Motion Representation for Action Recognition
運(yùn)動(dòng)特征在動(dòng)作識(shí)別中起到非常重要的作用?;?D CNN的方法雖然高效,但是由于對(duì)每一幀都采用相同的二維卷積核,會(huì)產(chǎn)生大量的冗余和重復(fù)特征。近期有一些工作通過建立幀間的聯(lián)系獲取運(yùn)動(dòng)信息,但是依然存在感受野有限的問題。此外,特征的增強(qiáng)依舊只在通道或者空間維度單獨(dú)進(jìn)行。為了解決這些問題,騰訊優(yōu)圖首先提出了一個(gè)通道特征增強(qiáng)模塊(CME)自適應(yīng)地增強(qiáng)與運(yùn)動(dòng)相關(guān)的通道。增強(qiáng)系數(shù)通過分析整段視頻的信息獲得。根據(jù)相鄰特征圖之間的點(diǎn)對(duì)點(diǎn)相似性,騰訊優(yōu)圖進(jìn)一步提出了一種空間運(yùn)動(dòng)增強(qiáng)(SME)模塊,以指導(dǎo)模型集中于包含運(yùn)動(dòng)關(guān)鍵目標(biāo)的區(qū)域,其背后的直覺是背景區(qū)域的變化通常比視頻的運(yùn)動(dòng)區(qū)域慢。 通過將CME和SME集成到現(xiàn)成的2D網(wǎng)絡(luò)中,騰訊優(yōu)圖最終獲得了用于動(dòng)作識(shí)別的全面運(yùn)動(dòng)特征學(xué)習(xí)方法。 騰訊優(yōu)圖的方法在三個(gè)公共數(shù)據(jù)集上取得了有競(jìng)爭(zhēng)力的表現(xiàn):Something-Something V1&V2和Kinetics-400。 特別是在時(shí)序推理數(shù)據(jù)集Something-Something V1和V2上,當(dāng)使用16幀作為輸入時(shí),騰訊優(yōu)圖的方法比之前最好的方法高2.3%和1.9%。
02
選擇還是融合?基于自適應(yīng)尺度選擇的人群密度估計(jì)
ToChooseortoFuse?ScaleSelectionforCrowdCounting
本文提出了一種高效地充分利用網(wǎng)絡(luò)內(nèi)部多尺度特征表示的方法,能夠有效解決人群密度估計(jì)中的大范圍尺度變化問題。具體地,考慮到每層特征都有各自最擅長(zhǎng)預(yù)測(cè)的人群尺度范圍,本文提出了一種圖像塊級(jí)別的特征層選擇策略來實(shí)現(xiàn)盡可能小的計(jì)數(shù)誤差。顯然,在沒有人群尺度標(biāo)注信息的情況下,任何人工指定人群尺度與特征層對(duì)應(yīng)關(guān)系的方法都是次優(yōu)的并會(huì)帶來額外誤差。相反地,本文提出的尺度自適應(yīng)選擇網(wǎng)絡(luò)SASNet可以自動(dòng)地學(xué)習(xí)這種對(duì)應(yīng)關(guān)系,并通過軟選擇的方式來緩解離散的特征層與連續(xù)的人群尺度變化之間的矛盾。由于SASNet為同一圖像塊內(nèi)相似尺度的人群選擇同一特征層,直接使用傳統(tǒng)的像素級(jí)損失函數(shù)會(huì)忽略圖像塊內(nèi)部不同樣本間各異的學(xué)習(xí)難度。因此,本文還提出了一種金字塔區(qū)域感知損失(PRALoss),從圖像塊級(jí)別開始以一種自上而下的方式迭代地選擇最困難的樣本來優(yōu)化。鑒于PRALoss能夠根據(jù)上層父圖像塊是過預(yù)測(cè)還是欠預(yù)測(cè)來選擇困難樣本,因此還能夠緩解業(yè)界普遍面臨的訓(xùn)練目標(biāo)最小化和計(jì)數(shù)誤差最小化之間不一致的問題。騰訊優(yōu)圖的方法在多達(dá)四個(gè)公開數(shù)據(jù)集上取得了優(yōu)異的性能。
03
解耦場(chǎng)景和運(yùn)動(dòng)的無(wú)監(jiān)督視頻表征學(xué)習(xí)
Enhancing Unsupervised Video Representation Learning by Decoupling the Scene and the Motion
相比于圖像表征學(xué)習(xí), 視頻表征學(xué)習(xí)中的一個(gè)重要因素是物體運(yùn)動(dòng)信息(Object Motion)。然而騰訊優(yōu)圖發(fā)現(xiàn), 在當(dāng)前主流的視頻數(shù)據(jù)集中, 一些動(dòng)作類別會(huì)和發(fā)生的場(chǎng)景強(qiáng)相關(guān), 導(dǎo)致模型往往只關(guān)注了場(chǎng)景信息。比如, 模型可能僅僅因?yàn)榘l(fā)生的場(chǎng)景是足球場(chǎng), 就將拉拉隊(duì)員在足球場(chǎng)上跳舞的視頻判斷成了踢足球。這違背了視頻表征學(xué)習(xí)最初的目的, 即學(xué)習(xí)物體運(yùn)動(dòng)信息, 并且不容忽視的是, 不同的數(shù)據(jù)集可能會(huì)帶來不同的場(chǎng)景偏見(Scene Bias)。為了解決這個(gè)問題, 騰訊優(yōu)圖提出了用兩個(gè)簡(jiǎn)單的操作來解耦合場(chǎng)景和運(yùn)動(dòng)(Decoupling the Scene and the Motion, DSM), 以此來到達(dá)讓模型更加關(guān)注運(yùn)動(dòng)信息的目的。具體來說, 騰訊優(yōu)圖為每段視頻都會(huì)構(gòu)造一個(gè)正樣本和一個(gè)負(fù)樣本, 相比于原始視頻, 正樣本的運(yùn)動(dòng)信息沒有發(fā)生變化, 但場(chǎng)景被破壞掉了, 而負(fù)樣本的運(yùn)動(dòng)信息發(fā)生了改變, 但場(chǎng)景信息基本被保留了下來。構(gòu)造正負(fù)樣本的操作分別叫做Spatial Local Disturbance和Temporal Local Disturbance。騰訊優(yōu)圖的優(yōu)化目標(biāo)是在隱空間在拉近正樣本和原始視頻的同時(shí), 推遠(yuǎn)負(fù)樣本。用這種方式, 場(chǎng)景帶來的負(fù)面影響被削弱掉了, 而模型對(duì)時(shí)序也變得更加敏感。騰訊優(yōu)圖在兩個(gè)任務(wù)上, 用不同的網(wǎng)絡(luò)結(jié)構(gòu)、不同的預(yù)訓(xùn)練數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)驗(yàn)證, 發(fā)現(xiàn)騰訊優(yōu)圖方法在動(dòng)作識(shí)別任務(wù)上, 在UCF101以及HMDB51數(shù)據(jù)集上分別超越當(dāng)前學(xué)界領(lǐng)先水平8.1%以及8.8%。
04
面向真實(shí)圖像超分辨率的頻率一致性自適應(yīng)方法FrequencyConsistentAdaptationforRealWorldSuperResolution
最近的基于深度學(xué)習(xí)的超分辨率(SR)方法在具有已知降質(zhì)的圖像上取得了卓越的性能。但是,這些方法在現(xiàn)實(shí)世界中總是會(huì)失敗,因?yàn)槔硐胪嘶?例如,雙三次降采樣)之后的低分辨率(LR)圖像會(huì)偏離真實(shí)源域。在頻率密度上可以清楚地觀察到LR圖像和真實(shí)世界圖像之間的域間隙,這啟發(fā)騰訊優(yōu)圖顯式地縮小由于不正確的降質(zhì)而導(dǎo)致的間隙。從這個(gè)角度出發(fā),騰訊優(yōu)圖設(shè)計(jì)了一種新穎的頻率一致性自適應(yīng)方法(FCA),能夠確保將現(xiàn)有SR方法應(yīng)用于真實(shí)場(chǎng)景時(shí)保持頻域一致性。騰訊優(yōu)圖從無(wú)監(jiān)督的圖像中估計(jì)退化內(nèi)核,并生成相應(yīng)的LR圖像。為了給核估計(jì)提供有用的梯度信息,騰訊優(yōu)圖提出了通過區(qū)分不同尺度圖像的頻率密度的頻率密度比較器(FDC)?;谟蛞恢碌腖R-HR對(duì),騰訊優(yōu)圖訓(xùn)練了易于實(shí)現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)SR模型。大量實(shí)驗(yàn)表明,所提出的FCA在真實(shí)環(huán)境下提高了SR模型的性能,以高保真度和合理的感知度獲得了最先進(jìn)的結(jié)果,從而為實(shí)際SR應(yīng)用提供了一種新穎有效的框架。
05
混合域活體檢測(cè)中的通用表征學(xué)習(xí)
Generalizable Representation Learning for Mixture Domain Face Anti-Spoofing
基于域泛化的活體檢測(cè)技術(shù)對(duì)未知場(chǎng)景有更好的泛化性,受到了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。已有的域泛化方法需要域標(biāo)簽的支持,然而在實(shí)際場(chǎng)景中,所收集到的往往是域信息不可知的混合數(shù)據(jù)。在這種場(chǎng)景下,大多數(shù)已有的方法是不可用的。而且域劃分的方式可以有多種,因此單一固定的劃分方法可能只是次優(yōu)解。
為解決實(shí)際混合數(shù)據(jù)問題,騰訊優(yōu)圖提出了一種基于迭代式無(wú)監(jiān)督子域劃分的元學(xué)習(xí)方法。該方法無(wú)需域標(biāo)簽,通過高鑒別性的域特征實(shí)現(xiàn)子域劃分,并通過元學(xué)習(xí)的方式進(jìn)行模型的優(yōu)化。具體來說,騰訊優(yōu)圖基于實(shí)例正則化定義了域信息表示,并設(shè)計(jì)了域表示學(xué)習(xí)模塊(DRLM)來提取高鑒別性的域特征用以精準(zhǔn)的域聚類。
此外,為了緩解離群點(diǎn)對(duì)聚類的阻礙,騰訊優(yōu)圖采用最大均值差異(MMD)來校正樣本特征分布與先驗(yàn)分布的差異,以增強(qiáng)聚類的可靠性。實(shí)驗(yàn)結(jié)果表明騰訊優(yōu)圖的方法(D2AM)優(yōu)于傳統(tǒng)的域泛化方法,包括使用域標(biāo)簽的方法,為實(shí)際場(chǎng)景下活體技術(shù)的應(yīng)用提供了有效框架。
06
基于局部關(guān)聯(lián)學(xué)習(xí)的人臉偽造檢測(cè)
Local Relation Learning for Face Forgery Detection
隨著人臉編輯技術(shù)的快速發(fā)展,人臉內(nèi)容取證引起了廣泛的關(guān)注。大多數(shù)現(xiàn)有方法往往利用二值類別標(biāo)簽或偽造區(qū)域等監(jiān)督信息來解決人臉偽造檢測(cè)任務(wù)。然而,由于沒有考慮到局部區(qū)域間的關(guān)聯(lián),這些全局監(jiān)督信息不足以學(xué)習(xí)到泛化性強(qiáng)的特征,往往容易過擬合。
為了解決這個(gè)問題,騰訊優(yōu)圖提出了一種通過局部關(guān)聯(lián)學(xué)習(xí)來進(jìn)行人臉偽造檢測(cè)的新方法。具體而言,騰訊優(yōu)圖提出了一個(gè)多尺度局部相似性模塊(MPSM),該模塊通過衡量局部區(qū)域特征間的相似性來構(gòu)造一種泛化性強(qiáng)、魯棒性高的相似模式。
此外,騰訊優(yōu)圖還提出了一個(gè)RGB-頻域注意力模塊(RFAM)來融合RGB圖像和頻域信息,從而得到更全面的局部特征表示,進(jìn)一步提高了相似模式的可靠性。大量的實(shí)驗(yàn)表明騰訊優(yōu)圖所提出的方法在多個(gè)數(shù)據(jù)集上優(yōu)于現(xiàn)有的方法,同時(shí)詳細(xì)的可視化也充分證明了騰訊優(yōu)圖方法的魯棒性和可解釋性。
07
基于可泛化樣本選擇的行人重識(shí)別方法
OneforMore:SelectingGeneralizableSamplesforGeneralizableReIDModel
現(xiàn)有行人重新識(shí)別(ReID)模型的訓(xùn)練目標(biāo)是在當(dāng)前批次樣本上模型的損失減少,而與其他批次樣本的性能無(wú)關(guān)。它將不可避免地導(dǎo)致模型過擬合到某些樣本(例如,不平衡類中的頭部數(shù)據(jù),簡(jiǎn)單樣本或噪聲樣本)。目前有基于采樣的方法通過設(shè)計(jì)特定準(zhǔn)則來選擇特定樣本來解決該問題,這些方法對(duì)某些類型的數(shù)據(jù)(例如難樣本,尾部數(shù)據(jù))施加了更多的關(guān)注,這不適用于真實(shí)的ReID數(shù)據(jù)分布。因此,本文將所選樣本的泛化能力作為損失函數(shù),并學(xué)習(xí)一個(gè)采樣器來自動(dòng)選擇可泛化樣本,而不是簡(jiǎn)單地推測(cè)哪些樣本更有意義。更重要的是,騰訊優(yōu)圖提出的基于可泛化能力的采樣器可以無(wú)縫集成到ReID訓(xùn)練框架中,該框架能夠以端到端的方式同時(shí)訓(xùn)練ReID模型和采樣器。實(shí)驗(yàn)結(jié)果表明,該方法可以有效地改善ReID模型的訓(xùn)練,提高ReID模型的性能。
08
Learning a Few-shot Embedding Model by Contrastive Learning
基于對(duì)比學(xué)習(xí)的小樣本植入模型
小樣本學(xué)習(xí)是根據(jù)少量的先驗(yàn)信息去對(duì)于目標(biāo)目標(biāo)類別進(jìn)行分類。這些信息一般沉淀在一個(gè)深度模型中,用來對(duì)支持集和問詢集進(jìn)行匹配。本文的目標(biāo)是利用對(duì)比學(xué)習(xí)的方法學(xué)習(xí)一個(gè)小樣本植入模型,具體貢獻(xiàn)如下:
(1)騰訊優(yōu)圖深入研究噪聲對(duì)比估計(jì)方法,并利用它來訓(xùn)練小樣本植入模型。
(2)騰訊優(yōu)圖提出一個(gè)名為infoPatch的植入模型方法,智能挖掘局部的聯(lián)系,保證穩(wěn)步提升小樣本分類的能力。
(3)騰訊優(yōu)圖在文章中展示了infoPatch的有效性。
(4)騰訊優(yōu)圖的模型的指標(biāo)在三個(gè)常用數(shù)據(jù)集miniImageNet,tieredImageNet和ewshot-CIFAR100上都達(dá)到了頂尖水準(zhǔn)。
09
基于Transformer結(jié)構(gòu)層內(nèi)-層間聯(lián)合全局表示的圖像描述
Improving Image Captioning by Leveraging Intra- and Inter-layer Global Representation in Transformer Network
本論文由騰訊優(yōu)圖實(shí)驗(yàn)室與廈門大學(xué)合作完成。
基于Transformer的結(jié)構(gòu)近來在圖像描述任務(wù)中取得了巨大的成功, 這些模型的范式都是將目標(biāo)regions編碼成隱含特征實(shí)現(xiàn)描述的解碼。 然而,騰訊優(yōu)圖發(fā)現(xiàn)這些隱含特征僅僅涵蓋了region級(jí)別的局部特征,忽略了考慮整張圖片的全局特征的建模,使得模型難以進(jìn)一步拓展在圖像描述中的復(fù)雜多模態(tài)推理能力。 因此,這篇文章騰訊優(yōu)圖提出了一個(gè)新的模型GET,同時(shí)提取更為綜合的全局信息并將全局信息作為自適應(yīng)引導(dǎo)信號(hào)生成更為高質(zhì)量的圖像描述。具體而言,在該模型中,騰訊優(yōu)圖首先設(shè)計(jì)了一個(gè)全局加強(qiáng)的編碼器和全局自適應(yīng)的解碼器,其中前者利用Transformer層級(jí)結(jié)構(gòu)特點(diǎn),提取層內(nèi)-層間聯(lián)合全局特征,后者則利用全局自適應(yīng)控制器,控制全局特征融入解碼器來指導(dǎo)圖像描述的生成。本文在MS COCO數(shù)據(jù)集上的實(shí)驗(yàn)證明了騰訊優(yōu)圖相對(duì)于當(dāng)前最先進(jìn)模型的優(yōu)勢(shì)。
10
基于雙層級(jí)特征協(xié)同Transformer的圖像描述生成
Dual-level Collaborative Transformer for Image Captioning
本論文由騰訊優(yōu)圖實(shí)驗(yàn)室與廈門大學(xué)合作完成。
由目標(biāo)檢測(cè)網(wǎng)絡(luò)提取的區(qū)域特征在圖像描述生成的發(fā)展中起著重要的作用。然而,這種特征中缺乏上下文信息和細(xì)粒度細(xì)節(jié),而這正是網(wǎng)格特征的優(yōu)點(diǎn)。本文提出了一種新的雙層級(jí)特征協(xié)同Transformer,以實(shí)現(xiàn)兩者的優(yōu)勢(shì)互補(bǔ)。具體地說,在DLCT中,騰訊優(yōu)圖首先使用DWSA來挖掘它們的內(nèi)在特性,并在其中引入綜合關(guān)系注意力機(jī)制來嵌入幾何信息。此外,騰訊優(yōu)圖還提出了LCCA模塊,目的是解決這兩個(gè)特征直接融合所產(chǎn)生的語(yǔ)義噪聲問題,通過構(gòu)造幾何對(duì)齊圖來精確對(duì)齊和增強(qiáng)區(qū)域和網(wǎng)格特征。為了驗(yàn)證騰訊優(yōu)圖的模型,騰訊優(yōu)圖在基準(zhǔn)數(shù)據(jù)集MS-COCO上進(jìn)行了大量的實(shí)驗(yàn),并在本地和在線測(cè)試集上實(shí)現(xiàn)了SOTA性能,
在Karpathy 測(cè)試集上達(dá)到133.8%的CIDEr得分,在官方測(cè)試集上達(dá)到135.4%的CIDEr得分。
11
圖博弈嵌入
GraphGameEmbedding
本論文由騰訊優(yōu)圖實(shí)驗(yàn)室與南京理工大學(xué)合作完成。
圖嵌入旨在將節(jié)點(diǎn)/邊編碼為低維連續(xù)特征,已成為圖分析的重要工具并被應(yīng)用于圖/節(jié)點(diǎn)分類,鏈接預(yù)測(cè)等任務(wù)。在本文中,騰訊優(yōu)圖提出了一種新穎的名為圖博弈嵌入的圖學(xué)習(xí)框架,以學(xué)習(xí)具有判別性的節(jié)點(diǎn)表示并對(duì)圖結(jié)構(gòu)進(jìn)行編碼。受博弈學(xué)習(xí)理論的啟發(fā),節(jié)點(diǎn)嵌入被轉(zhuǎn)換為博弈過程中玩家策略的選擇/搜索過程,其中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)玩家,而每條邊對(duì)應(yīng)于兩個(gè)玩家之間的交互。然后,定義了一個(gè)在理論上滿足納什均衡的收益函數(shù)以衡量圖演化過程中參與玩家(節(jié)點(diǎn))的收益/損失。更進(jìn)一步地,引入了一種合作與競(jìng)爭(zhēng)機(jī)制以提高該框架的判別學(xué)習(xí)能力。在上述圖博弈嵌入框架下,考慮節(jié)點(diǎn)的不同交互方式,騰訊優(yōu)圖提出了兩種具體模型,即對(duì)交互圖博弈嵌入模型和群組圖博弈嵌入模型。與現(xiàn)有的圖嵌入方法相比,本文所提出的框架具有兩個(gè)優(yōu)點(diǎn):(1)所設(shè)計(jì)的收益函數(shù)保證了圖網(wǎng)絡(luò)的穩(wěn)定演化,滿足納什均衡且具有收斂性的理論保證;(2)所引入的協(xié)作和競(jìng)爭(zhēng)機(jī)制可指導(dǎo)每個(gè)節(jié)點(diǎn)學(xué)習(xí)到區(qū)別于其他節(jié)點(diǎn)的優(yōu)化策略,從而賦予圖博弈嵌入框架以學(xué)習(xí)具有判別性特征的能力。騰訊優(yōu)圖在三個(gè)關(guān)于引文網(wǎng)絡(luò)的公共數(shù)據(jù)集上對(duì)所提出的方法進(jìn)行了評(píng)測(cè),實(shí)驗(yàn)結(jié)果驗(yàn)證了其有效性。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )