騰訊優(yōu)圖14篇論文入選AAAI 2022

12月1日,國際人工智能頂級會議AAAI 2022論文接受結(jié)果公布!本屆會議共收到全球的9215篇投稿論文,接受率為15%。AAAI(Association for the Advance of Artificial Intelligence)是由國際人工智能促進(jìn)協(xié)會主辦的年會,是人工智能領(lǐng)域中歷史最悠久、涵蓋內(nèi)容最廣泛的國際頂級學(xué)術(shù)會議之一,也是中國計算機(jī)學(xué)會(CCF)推薦的A類國際學(xué)術(shù)會議。

本次騰訊優(yōu)圖實驗室共有14篇論文被收錄,涵蓋語義分割、圖像著色、人臉安全、弱監(jiān)督目標(biāo)定位、場景文本識別等前沿領(lǐng)域。

以下為部分入選論文:

01

視頻異常檢測雙向預(yù)測網(wǎng)絡(luò)中的全面正則化方法

Comprehensive Regularization in a Bi-directional Predictive Network for Video Anomaly Detection

視頻異常檢測任務(wù)旨在通過學(xué)習(xí)正常視頻的特征,自動識別視頻中異常的目標(biāo)或行為。此前的方法傾向于利用簡單的重建或預(yù)測約束,這將導(dǎo)致從正常視頻中學(xué)習(xí)特征不充分。基于此,我們提出一種包含三種一致性約束的雙向架構(gòu),能夠從像素級、跨模態(tài)和時間序列三個層面對預(yù)測任務(wù)做全面正則化。第一,我們提出預(yù)測的一致性,它考慮前后時序中運動的對稱性質(zhì),進(jìn)而保證在像素級層面的高真實性外觀和運動預(yù)測。第二,我們提出關(guān)聯(lián)的一致性,它考慮不同模態(tài)的相關(guān)性并使用其中一種模態(tài)來正則化另一種模態(tài)的預(yù)測。最后,我們提出時序一致性,它利用視頻序列的關(guān)系保證預(yù)測網(wǎng)絡(luò)生成時序上一致的幀。在推理階段,異常幀的模式由于無法預(yù)測從而導(dǎo)致更高的預(yù)測錯誤置信度。實驗結(jié)果顯示本文方法效果超過了多種先進(jìn)的異常檢測器,并在UCSD Ped2、22 CUHK Avenue和ShanghaiTech等數(shù)據(jù)集上取得了SOTA效果。

騰訊優(yōu)圖14篇論文入選AAAI 2022

02

基于域不變表征學(xué)習(xí)的可泛化語義分割方法

DIRL: Domain-invariant Representation Learning for Generalizable Semantic Segmentation

在真實世界應(yīng)用中,模型對未知場景的泛化能力是至關(guān)重要的,比如自動駕駛就需要魯棒的視覺系統(tǒng)。目前通過學(xué)習(xí)域不變的特征來增強模型泛化能力已被廣泛研究,然而大部分現(xiàn)有的研究工作都在關(guān)注學(xué)習(xí)不同域之間公共的特征空間,而忽視了特征本身的性質(zhì)(比如對域相關(guān)風(fēng)格的敏感度)。因此,我們提出了一種新的域泛化方法:利用特征敏感度特性作為特征先驗來引導(dǎo)模型訓(xùn)練以便提升模型泛化能力。具體而言,1)提出特征校準(zhǔn)模塊(PGAM)來強化不敏感特征并抑制敏感特征 2)引入新的特征白化方法(GFW)進(jìn)一步弱化對域風(fēng)格敏感相關(guān)的特征。通過對域風(fēng)格敏感特征的抑制,我們可以學(xué)習(xí)到域不變特征表達(dá),從而大大加強模型泛化能力。我們的方法簡單且有效,在幾乎不增加計算成本情況下可以增強各種主干網(wǎng)路的特征魯棒性。大量的實驗結(jié)果證明我們的方法在域泛化語義分割任務(wù)上明顯優(yōu)于其他方法。

騰訊優(yōu)圖14篇論文入選AAAI 2022

03

SCSNet: 一種同時學(xué)習(xí)圖像著色和超分高效方法

SCSNet: An Efficient Paradigm for Learning Simultaneously Image Colorization and Super-Resolution

在復(fù)原低分辨率灰度圖像的實際應(yīng)用中,通常需要進(jìn)行圖像著色、超分辨率和降采樣三個單獨的過程。然而,這種pipeline是冗余且不高效的。因此,我們提出了一種同時執(zhí)行圖像著色和超分辨率的有效范式,并提出了一種端到端SCSNet來實施。該方法由兩部分組成:其一,用于學(xué)習(xí)顏色信息的著色分支,該分支使用所提出的即插即用金字塔閥交叉注意(PVCAttn)模塊,在源圖像和參考圖像之間聚合特征映射。其二,超分辨率分支,用于集成顏色和紋理信息以預(yù)測目標(biāo)圖像,該分支使用連續(xù)像素映射(CPM)在連續(xù)空間中預(yù)測高分辨率圖像。此外,我們的SCSNet支持“自動上色”和“參考上色”兩種模式,更適合實際應(yīng)用。大量的實驗證明了我們的方法的優(yōu)越性, 與自動模式和參考模式下,在多個數(shù)據(jù)集上FID平均降低1.8 和5.1。 此外,我們的方法相比于SOTA基線具有更少的參數(shù)量(x2↓)和更快的運行速度(x3↑)。

騰訊優(yōu)圖14篇論文入選AAAI 2022

04

LCTR:喚醒弱監(jiān)督目標(biāo)定位中Transformer的局部拓展性

LCTR: On Awakening the Local Continuity of Transformer for Weakly Supervised Object Localization

弱監(jiān)督目標(biāo)定位(WSOL)旨在實現(xiàn)僅給定圖像級標(biāo)簽的前提下學(xué)習(xí)一個目標(biāo)定位器。基于卷積神經(jīng)網(wǎng)絡(luò)的技術(shù)往往會過分突出目標(biāo)最具判別力的區(qū)域從而導(dǎo)致忽略目標(biāo)的整體輪廓。最近,基于自注意力機(jī)制和多層感知器結(jié)構(gòu)的transformer因其可以捕獲長距離特征依賴而在WSOL中嶄露頭角。美中不足的是,transformer類的方法缺少基于CNN的方法中固有的局部感知傾向,從而容易在WSOL中丟失局部特征細(xì)節(jié)。在本文中,我們提出了一個基于transformer的新穎框架,叫作LCTR(局部拓展性Transformer),來在transformer中長距離全局特征的的基礎(chǔ)上增強局部感知能力。具體地,我們提出了一個關(guān)聯(lián)塊注意力模塊來引入圖像塊之間的局部關(guān)聯(lián)關(guān)系。此外,我們還設(shè)計了一個細(xì)節(jié)挖掘模塊,從而可以利用局部特征來引導(dǎo)模型學(xué)習(xí)著去關(guān)注那些弱響應(yīng)區(qū)域。最后,我們在兩大公開數(shù)據(jù)集CUB-200-2011和ILSVRC上進(jìn)行了充分的實驗來驗證我們方法的有效性。

騰訊優(yōu)圖14篇論文入選AAAI 2022

騰訊優(yōu)圖14篇論文入選AAAI 2022

05

基于特征生成和假設(shè)驗證的可靠人臉活體檢測

Feature Generation and Hypothesis Verification for Reliable Face Anti-Spoofing

人臉識別技術(shù)已廣泛應(yīng)用于各種智能系統(tǒng)中,與此同時,無窮無盡的“人臉表示攻擊”不斷地威脅著智能系統(tǒng)的安全。為了賦予智能系統(tǒng)足夠的防御能力,人臉活體檢測(face anti-spoofing)技術(shù)應(yīng)運而生。盡管當(dāng)前的活體檢測方法在已知域中表現(xiàn)優(yōu)異,但對于未知域中的攻擊則不能良好的防御。針對該泛化問題,有兩大類方法被廣泛研究:領(lǐng)域通用(domain generalization)和特征解耦(representation disentanglement)。然而,它們都有各自的局限性:(1)考慮到未知域中的樣本,很難將所有人臉映射到一個共享的、足夠泛化的特征空間。如果未知域中的人臉沒有被映射到該特征空間中的已知區(qū)域,模型將會產(chǎn)生不準(zhǔn)確的預(yù)測。(2)考慮到未知種類的攻擊,很難將所有攻擊痕跡(spoof trace)精確解耦。因此在本文中,我們提出了一種特征生成和假設(shè)驗證的算法框架。首先,我們引入了特征生成網(wǎng)絡(luò),用于生成真人和已知攻擊的假設(shè)(hypotheses)。隨后,設(shè)計了兩個假設(shè)驗證模塊,用于判斷輸入人臉在多大程度上來自真人特征空間和真人特征分布。并且,我們分析了該算法框架與貝葉斯不確定性估計(Bayesian Uncertainty Estimation)的關(guān)聯(lián),為該算法框架的有效性提供了理論支持。實驗結(jié)果表明,我們的框架在跨場景和跨攻擊類型兩種不同的配置下,均獲得了SOTA的效果。

騰訊優(yōu)圖14篇論文入選AAAI 2022

06

基于漸進(jìn)式增強學(xué)習(xí)的人臉偽造圖像檢測

Exploiting Fine-grained Face Forgery Clues via Progressive Enhancement Learning

隨著人臉編輯技術(shù)的快速發(fā)展,人臉內(nèi)容取證引起了廣泛的關(guān)注。在針對偽造人臉圖像的檢測上,大多數(shù)現(xiàn)有方法往往嘗試?yán)妙l域信息來挖掘偽造痕跡,然而這些方法對頻域信息的利用較為粗糙,且傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)難以應(yīng)用于頻率下的細(xì)微信息的提取。

為了解決上述問題,本文提出了一種漸進(jìn)式的增強學(xué)習(xí)框架來同時利用RGB信息和細(xì)粒度的頻率信息。首先,本文基于滑動窗口和離散余弦變換將輸入RGB圖像轉(zhuǎn)換成細(xì)粒度的頻率分量,來充分在頻域空間對真假痕跡解耦。隨后,本文基于雙流網(wǎng)絡(luò)引入了自增強模塊和互增強模塊,其中自增強模塊可以捕捉不同輸入空間下的篡改痕跡,而互增強模塊可以互補加強雙流的特征交互。通過這種漸進(jìn)式的特征增強流程,能夠有效利用細(xì)粒度的頻率信息以及RGB信息來定位細(xì)微的偽造痕跡。

大量的實驗表明我們所提出的方法在FaceForensics++、WildDeepfake等多個數(shù)據(jù)集同源設(shè)置下效果優(yōu)于現(xiàn)有的方法,同時詳細(xì)的可視化也充分證明了我們方法的魯棒性和可解釋性。

騰訊優(yōu)圖14篇論文入選AAAI 2022

07

基于雙重對比學(xué)習(xí)的人臉偽造圖像檢測

Dual Contrastive Learning for General Face Forgery Detection

由于人臉偽造技術(shù)不斷迭代更新,如何保持檢測模型在未知攻擊上的泛化性成為了目前人臉偽造檢測領(lǐng)域的一大挑戰(zhàn)。先前工作往往都采用基于交叉熵?fù)p失的分類框架來建模人臉偽造檢測問題,然而這種范式過于強調(diào)類別層面的差異,但忽略了每個樣本特有的偽造信息,限制了模型在未知領(lǐng)域的通用性。

為了解決上述問題,本文提出了一種新型的人臉偽造檢測框架,即雙重對比學(xué)習(xí)(Dual Contrastive Learning,DCL),其針對性地構(gòu)造了不同種類的樣本對,并在不同粒度上進(jìn)行對比學(xué)習(xí)得到更泛化的特征表示。具體而言,本文結(jié)合困難樣本選擇策略提出了實例間對比學(xué)習(xí)(Inter-ICL),促進(jìn)任務(wù)相關(guān)的判別性特征學(xué)習(xí)。此外,為了進(jìn)一步探索本質(zhì)上的差異引入了實例內(nèi)對比學(xué)習(xí)(Intra-ICL),來進(jìn)一步捕捉偽造人臉中普遍存在的特征不一致性。

本文構(gòu)造了泛化性評估實驗,即在FaceForensics++等數(shù)據(jù)集上訓(xùn)練,并在DFD和DFDC等其他包含未知攻擊的學(xué)術(shù)數(shù)據(jù)集下評估模型效果。大量實驗和分析表明我們方法能顯著提升模型的泛化性。

騰訊優(yōu)圖14篇論文入選AAAI 2022

08

基于動態(tài)不一致性學(xué)習(xí)的人臉偽造視頻檢測

Delving into the local: Dynamic Inconsistency Learning for DeepFake Video Detection

在人臉偽造視頻的檢測上,現(xiàn)有的Deepfake視頻檢測方法試圖基于時序建模來捕獲真假人臉之間的判別特征,然而這些方法往往對稀疏采樣的視頻幀進(jìn)行建模,忽略了相鄰幀之間的局部運動信息。由于局部運動信息中包含了幀間的運動不一致性,因此可以作為 DeepFake 視頻檢測的重要線索。

為了解決這一問題,本文深入研究了視頻中的局部運動信息,并提出了一種新視頻采樣單元“Snippet”,該單元包含一些局部連續(xù)視頻幀。此外,本文精心設(shè)計了Intra-Snippet Inconsistency Module(Intra-SIM)和 Inter-Snippet Interaction Module(InterSIM)來建立不一致性動態(tài)建模框架。具體來說,Intra-SIM 應(yīng)用雙向時間差分運算和可學(xué)習(xí)的卷積核來挖掘每個“Snippet”內(nèi)的細(xì)微運動。然后 Inter-SIM 用以促進(jìn)跨 “Snippet” 間的信息交互來形成全局表示。 此外,IntraSIM 和 Inter-SIM 采用交替方式進(jìn)行工作,可以方便插入現(xiàn)有的 2D 基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)。

我們方法在FaceForensics++、Celeb-DF等多個學(xué)術(shù)數(shù)據(jù)集上視頻評估標(biāo)準(zhǔn)下達(dá)到SOTA,豐富的可視化分析進(jìn)一步證明了我們方法的有效性。

騰訊優(yōu)圖14篇論文入選AAAI 2022

09

基于雙流更新的視覺Transformer動態(tài)加速方法

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

視覺Transformer 通過自注意力機(jī)制捕獲短程和長程視覺依賴的能力使其在各種計算機(jī)視覺任務(wù)中顯示出巨大的潛力,但是長程感受野同樣帶來了巨大的計算開銷,特別是對于高分辨率視覺任務(wù)。為了能夠在保持原有模型準(zhǔn)確率的前提下,降低模型計算復(fù)雜度,從而使得視覺 Transformer成為一種更加通用、高效、低廉的解決框架,我們提出了Evo-ViT,基于雙流token更新的視覺transformer動態(tài)加速方法。該方法在保持了完整空間結(jié)構(gòu)的同時給高信息量token和低信息量token分配不同的計算通道。從而在不改變網(wǎng)絡(luò)結(jié)構(gòu)的情況下,以極低的精度損失大幅提升直筒狀和金字塔壓縮型的Transformer模型推理性能。其中,我們提出的基于全局class attention的token選擇策略通過增強層間的通信聯(lián)系實現(xiàn)穩(wěn)定token選擇,相比以往方法,無需依靠外部的可學(xué)習(xí)網(wǎng)絡(luò)來對每一層的token進(jìn)行選擇,也無需基于訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行token裁剪。在ImageNet 1K數(shù)據(jù)集下,Evo-ViT可以提升DeiT-S 60%推理速度的同時僅僅損失0.4%的精度。

騰訊優(yōu)圖14篇論文入選AAAI 2022

10

基于偽任務(wù)知識保存的行人重識別持續(xù)學(xué)習(xí)方法

Lifelong Person Re-identification by Pseudo Task Knowledge Preservation

現(xiàn)實應(yīng)用中的行人重識別數(shù)據(jù)來源在時空上通常是分散的,這要求模型在不忘記舊知識的前提下,能夠持續(xù)學(xué)習(xí)到新知識。數(shù)據(jù)的時空分散會帶來任務(wù)相關(guān)的域差異,從而導(dǎo)致持續(xù)學(xué)習(xí)中的災(zāi)難性遺忘。 為了解決這個問題,我們設(shè)計了一個偽任務(wù)知識存留框架來充分挖掘任務(wù)間的信息用于知識保存。該框架由一個能將當(dāng)前任務(wù)特征映射到舊任務(wù)特征空間的偽任務(wù)變換模塊,一個任務(wù)相關(guān)的域一致性學(xué)習(xí)模塊,一個基于偽任務(wù)的知識蒸餾模塊和身份判別模塊組成。我們的方法在LReID任務(wù)上顯著地超過了之前SOTA,并獲得了可以媲美聯(lián)合訓(xùn)練的效果。

騰訊優(yōu)圖14篇論文入選AAAI 2022

騰訊優(yōu)圖14篇論文入選AAAI 2022

11

通過Overlap估計引導(dǎo)局部特征點的匹配

Guide Local Feature Matching by Overlap Estimation

尺度不變情況下的特征匹配問題從傳統(tǒng)的SIFT到最近基于CNN的方法都沒有得到很好解決。常規(guī)的局部特征點匹配方法直接從全圖考慮,進(jìn)行特征點提取匹配。本文提出的OETR方法,在借助CNN和Transformer強大特征交互能力,直接估計出兩張圖片之間的Overlap區(qū)域。通過將特征點的提取匹配限制在兩張圖片的Overlap區(qū)域內(nèi),并對Overlap區(qū)域進(jìn)行縮放,有效降低兩張圖片尺度差異大時特征匹配的難度,在多個Benchmark上的實驗獲得SOTA的性能。此外,OETR可以作為一個前處理模塊,應(yīng)用于任意的局部特征提取匹配方法,幫助現(xiàn)有的特征匹配提升效果。

騰訊優(yōu)圖14篇論文入選AAAI 2022

12

基于筆畫-語義上下文感知的場景文本識別對比學(xué)習(xí)方法

Perceiving Stroke-Semantic Context: Hierarchical Contrastive Learning for Robust Scene Text Recognition

本文提出了一種針對場景文本識別(Scene Text Recognition, STR)任務(wù)的自監(jiān)督表示學(xué)習(xí)新方法——感知筆畫-語義上下文(Perceiving Stroke-Semantic Context, PerSec)。針對場景文本圖像兼具視覺性和語義性的特點,本方法提出了雙重上下文感知器,可以對無標(biāo)簽的文本圖像數(shù)據(jù)同時從低級別筆畫和高級別語義上下文空間中進(jìn)行對比學(xué)習(xí)。在場景文本識別的標(biāo)準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果表明,本文提出的框架可以為基于ctc和基于注意力的解碼器生成更為魯棒的特征表示。為了充分挖掘該方法的潛力,我們還收集了1億張無標(biāo)簽文本圖像作為數(shù)據(jù)集UTI-100M,涵蓋5個場景和4種語言。通過利用上億級的無標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,得到的編碼器特征對于下游文本識別的性能優(yōu)良進(jìn)一步提升。此外,PerSec學(xué)習(xí)的特征表示還展現(xiàn)除了很強的泛化能力,特別是在僅有少量有標(biāo)簽數(shù)據(jù)的場景下。

騰訊優(yōu)圖14篇論文入選AAAI 2022

騰訊優(yōu)圖14篇論文入選AAAI 2022

13

基于動作引導(dǎo)序列生成的語法錯誤糾正方法

Sequence-to-Action: Grammatical Error Correction with Action Guided Sequence Generation

本文針對語法錯誤糾正(Grammatical Error Correction, GEC)任務(wù)的特點,將seq2seq以及序列標(biāo)注兩種經(jīng)典模型的優(yōu)點結(jié)合起來,提出了一個全新的序列-動作(Sequence-to-Action, S2A)模型。S2A模塊將源語句和目標(biāo)語句同時作為輸入,并且能夠在預(yù)測每個token之前自動生成token級別的操作序列(包括“跳過”、“拷貝”和“生成”三種操作)。之后,這些動作與基本的seq2seq框架融合進(jìn)行最終的結(jié)果預(yù)測。在中英文GEC任務(wù)的基準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果表明,本文提出的模型性能遠(yuǎn)優(yōu)于業(yè)內(nèi)其他方法,同時能夠顯著緩解過度校正問題。此外,與序列標(biāo)記模型相比,本文方法在生成結(jié)果上能夠保持更好的通用性和多樣性。

騰訊優(yōu)圖14篇論文入選AAAI 2022

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )