騰訊優(yōu)圖9篇論文入選ACM MM 2021 含弱監(jiān)督圖像、人臉安全等領(lǐng)域

10月20日,第29屆ACM國(guó)際多媒體會(huì)議(簡(jiǎn)稱ACM MM)在成都正式舉行。本次會(huì)議將針對(duì)單個(gè)媒體和跨界整合多媒體元素的最具創(chuàng)新性和影響力的頂級(jí)熱點(diǎn)研究成果進(jìn)行分享交流。此外,在視頻編碼、視覺(jué)識(shí)別、大規(guī)模圖像視頻分析、社會(huì)媒體研究、多模態(tài)人機(jī)交互、計(jì)算視覺(jué)、計(jì)算圖像等研究方向有多場(chǎng)精彩的學(xué)術(shù)分享報(bào)告,將充分展示全球高校、研究機(jī)構(gòu)及高新企業(yè)在多媒體研究方面的最新進(jìn)展。

作為世界多媒體領(lǐng)域最重要的頂級(jí)會(huì)議和中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦的該領(lǐng)域唯一的A類國(guó)際學(xué)術(shù)會(huì)議。本屆ACM MM吸引了國(guó)內(nèi)外多媒體領(lǐng)域中的知名廠商和學(xué)者廣泛參與,將有70場(chǎng)精彩報(bào)告,其中囊括了6場(chǎng)國(guó)內(nèi)外頂尖學(xué)者的主旨報(bào)告、13場(chǎng)重磅專題研討、51場(chǎng)國(guó)內(nèi)外知名學(xué)者及學(xué)術(shù)新星的學(xué)術(shù)報(bào)告。

騰訊優(yōu)圖9篇論文入選ACM MM 2021 含弱監(jiān)督圖像、人臉安全等領(lǐng)域

其中,騰訊優(yōu)圖實(shí)驗(yàn)室9篇計(jì)算機(jī)視覺(jué)相關(guān)的優(yōu)質(zhì)論文成功入選,涵蓋弱監(jiān)督圖像描述及定位、表格結(jié)構(gòu)識(shí)別、人臉安全等多個(gè)研究方向,這些技術(shù)創(chuàng)新面向智慧城市、智慧文娛、智慧制造等場(chǎng)景的落地應(yīng)用,助力進(jìn)一步提升AI技術(shù)能力,推進(jìn)全球人工智能的發(fā)展。

深耕計(jì)算機(jī)視覺(jué)領(lǐng)域成效顯著9篇論文入選彰顯強(qiáng)大實(shí)力

Distributed Attention for Grounded Image Captioning

騰訊優(yōu)圖9篇論文入選ACM MM 2021 含弱監(jiān)督圖像、人臉安全等領(lǐng)域

弱監(jiān)督圖像描述及定位近年來(lái)逐漸受到國(guó)內(nèi)外研究機(jī)構(gòu)以及工業(yè)界關(guān)注。該任務(wù)是指對(duì)給定的圖像自動(dòng)生成一句話描述圖像的內(nèi)容,同時(shí)預(yù)測(cè)出描述中名詞對(duì)應(yīng)的目標(biāo)位置。已有的工作主要通過(guò)正則化技術(shù)依靠注意力機(jī)制在生成圖像描述的同時(shí)預(yù)測(cè)名詞對(duì)應(yīng)的目標(biāo)的位置。這些方法的性能距離全監(jiān)督的圖像描述及定位有很大的差距。其中最主要的問(wèn)題在于,依靠注意力機(jī)制的大部分方法預(yù)測(cè)結(jié)果往往集中于目標(biāo)的最具判別性的局部位置,無(wú)法完整的預(yù)測(cè)目標(biāo)的整體內(nèi)容。基于此,我們提出一種十分簡(jiǎn)單且有效的分布注意力機(jī)制,挑選多個(gè)語(yǔ)義相同但位置不完全重合的目標(biāo)之后進(jìn)行聚合,從而得到更加完整的目標(biāo)位置。在公開(kāi)的Flickr30K Entities數(shù)據(jù)集上,保持圖像描述性能不降的情況下大幅刷新目標(biāo)定位性能SOTA,與全監(jiān)督的方法性能持平。

Discriminator-free Generative Adversarial Attack

騰訊優(yōu)圖9篇論文入選ACM MM 2021 含弱監(jiān)督圖像、人臉安全等領(lǐng)域

深度學(xué)習(xí)網(wǎng)絡(luò)容易受到對(duì)抗樣本的影響,在圖像上加入一些不顯眼的擾動(dòng)后基于DNN的識(shí)別任務(wù)可能失效。目前大多數(shù)對(duì)抗攻擊方法基于梯度搜索,這類方法生成對(duì)抗樣本的耗時(shí)長(zhǎng),也會(huì)受到顯存資源不足的影響?;谏傻姆椒?GAN)可緩解這些問(wèn)題,但這類方法一方面訓(xùn)練比較難收斂,另外生成的攻擊樣本效果和視覺(jué)質(zhì)量不穩(wěn)定。我們發(fā)現(xiàn)判別器在對(duì)抗生成網(wǎng)絡(luò)中并非必不可少,提出基于顯著性區(qū)域的對(duì)稱自動(dòng)編碼器方法(SSAE),該方法由顯著性響應(yīng)模塊 (the saliency map)和特征角度正則解耦模塊 (the angle-norm disentanglement)組成,用生成的顯著性響應(yīng)圖去關(guān)注標(biāo)簽相關(guān)的區(qū)域,不再依賴判別器。在圖像識(shí)別和圖像檢索任務(wù)上的大量實(shí)驗(yàn)證明SSAE方法生成的攻擊樣本不僅可以在主流網(wǎng)絡(luò)模型上攻擊效果好,同時(shí)也具有很好的視覺(jué)質(zhì)量。

Show, Read and Reason: Table Structure Recognition with Flexible Context Aggregator

騰訊優(yōu)圖9篇論文入選ACM MM 2021 含弱監(jiān)督圖像、人臉安全等領(lǐng)域

本文主要針對(duì)表格結(jié)構(gòu)識(shí)別這一具有挑戰(zhàn)性的問(wèn)題進(jìn)行研究。目前,業(yè)內(nèi)方法往往采用基于圖的上下文累積器,來(lái)稀疏地建模表格元素的上下文關(guān)系。然而,基于圖的約束可能會(huì)引入過(guò)強(qiáng)的歸納偏置,無(wú)法充分地表示復(fù)雜的表格關(guān)系。為了讓模型從數(shù)據(jù)中學(xué)習(xí)更合適的歸納偏置,本文引入Transformer作為上下文累積器。Transformer以密集上下文作為輸入,同時(shí)由于的歸納偏置的弱化,Transformer對(duì)數(shù)據(jù)的規(guī)模要求更高,并且訓(xùn)練過(guò)程可能會(huì)不穩(wěn)定。為了解決上述問(wèn)題,本文設(shè)計(jì)了FLAG (FLexible context AGgregator) 模塊,它將Transformer與基于圖的上下文累積器以一種自適應(yīng)的方式結(jié)合在一起?;贔LAG,本文設(shè)計(jì)了一個(gè)端到端的網(wǎng)絡(luò),稱為FLAG-Net ,該網(wǎng)絡(luò)不需要額外的OCR信息,并且可以靈活地調(diào)整密集上下文(dense context)和稀疏上下文(sparse context)的累積,進(jìn)行表格元素的關(guān)系推理。本文還進(jìn)一步探索了FLAG中的上下文選擇模式,這對(duì)于識(shí)別表格結(jié)構(gòu)是至關(guān)重要的。在標(biāo)準(zhǔn)測(cè)試集上的實(shí)驗(yàn)結(jié)果表明,本文提出的FLAG-Net的性能大大超過(guò)業(yè)內(nèi)其他方法。

LSTC: Boosting Atomic Action Detection with Long-Short-Term-Context

騰訊優(yōu)圖9篇論文入選ACM MM 2021 含弱監(jiān)督圖像、人臉安全等領(lǐng)域

騰訊優(yōu)圖9篇論文入選ACM MM 2021 含弱監(jiān)督圖像、人臉安全等領(lǐng)域

相對(duì)于視頻序列中的一般性運(yùn)動(dòng)檢測(cè),原子級(jí)的目標(biāo)行為(如交談,拾取,瞭望)的判斷更加依賴于視頻中上下文依賴關(guān)系的挖掘,同時(shí)這種依賴關(guān)系在不同的時(shí)間尺度上呈現(xiàn)若相關(guān)特性。本文將視頻目標(biāo)的行為與其以來(lái)關(guān)系解耦為稠密的短時(shí)上下文依賴(Dense Short-term Context)和稀疏的長(zhǎng)時(shí)上下文依賴 (Sparse Long-term Context),并通過(guò)概率圖模型將兩者解耦為條件獨(dú)立的交互關(guān)系分別輔助目標(biāo)原子行為的判別,同時(shí)引入了一種近似高階的注意力機(jī)制(High-Order Attention Mechanism),在計(jì)算復(fù)雜度不提升的條件下,將傳統(tǒng)的注意力模型從一對(duì)一推廣到一對(duì)多的交互關(guān)系。在AVA以及Hieve等基準(zhǔn)測(cè)試集上表明,這種長(zhǎng)短時(shí)依賴獨(dú)立推斷的機(jī)制能夠有效幫助行為檢測(cè)器正確推斷目標(biāo)行為。

ASFD: Automatic and Scalable Face Detector

騰訊優(yōu)圖9篇論文入選ACM MM 2021 含弱監(jiān)督圖像、人臉安全等領(lǐng)域

在目前主流的目標(biāo)檢測(cè)器的設(shè)計(jì)范式中,特征增強(qiáng)以及特征融合模塊已經(jīng)成為了增強(qiáng)特征判別能力,提升檢測(cè)效果的必備組件,但是由于數(shù)據(jù)分布上的差異,一般性目標(biāo)檢測(cè)網(wǎng)絡(luò)中的特征增強(qiáng)模塊并不能在人臉檢測(cè)場(chǎng)景中帶來(lái)穩(wěn)定的提升。為此,本文系統(tǒng)性地分析了數(shù)據(jù)分布差異對(duì)于特征增強(qiáng)和融合模塊效果的影響,并據(jù)此針對(duì)人臉檢測(cè)場(chǎng)景,提出了一個(gè)可微分的自動(dòng)化特征增強(qiáng)模塊搜索流程AutoFAE, 同時(shí),本文基于改搜索流程建立了用于網(wǎng)絡(luò)搜索的超集,以滿足不同推理速度約束下搜索到最優(yōu)性能的模型結(jié)構(gòu)。在主流的人臉檢測(cè)數(shù)據(jù)集Wider-Face, FDDB上,本文搜索的人臉檢測(cè)架構(gòu)能夠在相同的推理速度下達(dá)到更好的檢測(cè)效果。

Adaptive Normalized Representation Learning for Generalizable Face Anti-Spoofing

騰訊優(yōu)圖9篇論文入選ACM MM 2021 含弱監(jiān)督圖像、人臉安全等領(lǐng)域

隨著多樣化人臉攻擊形式的出現(xiàn),活體檢測(cè)的泛化性受到越來(lái)越多關(guān)注?,F(xiàn)有方法往往直接對(duì)網(wǎng)絡(luò)學(xué)習(xí)的特征進(jìn)行約束,然而忽略了模型特征提取的過(guò)程,尤其是標(biāo)準(zhǔn)化的影響。 針對(duì)該問(wèn)題,本文提出了一種自適應(yīng)標(biāo)準(zhǔn)化表征學(xué)習(xí)的活體檢測(cè)新方法。具體而言,本文設(shè)計(jì)了一個(gè)自適應(yīng)特征標(biāo)準(zhǔn)化模塊(AFNM),該模塊根據(jù)樣本特征自適應(yīng)地結(jié)合BN和IN標(biāo)準(zhǔn)化方式。并在在訓(xùn)練過(guò)程中結(jié)合元學(xué)習(xí)框架,在meta-test階段重點(diǎn)學(xué)習(xí)AFNM模塊,從而提升泛化性。此外,為進(jìn)一步學(xué)習(xí)域無(wú)關(guān)的活體表征,本文設(shè)計(jì)了雙重校準(zhǔn)約束(DCC),包括域間兼容損失(IDC)和類間分隔損失(ICS)。多個(gè)學(xué)術(shù)數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果表明我們方法優(yōu)于現(xiàn)有方法,為實(shí)際場(chǎng)景下活體技術(shù)的應(yīng)用提供了有效框架。

RecycleNet: An Overlapped Text Instance Recovery Approach

騰訊優(yōu)圖9篇論文入選ACM MM 2021 含弱監(jiān)督圖像、人臉安全等領(lǐng)域

文本圖像識(shí)別是理解多媒體媒介的關(guān)鍵技術(shù)手段。主流的設(shè)計(jì)范式關(guān)注獨(dú)立文本行的精準(zhǔn)識(shí)別,但這些方法在復(fù)雜真實(shí)場(chǎng)景如財(cái)務(wù)票據(jù)和學(xué)生作業(yè)簿上受到了嚴(yán)峻的挑戰(zhàn)。簡(jiǎn)單通過(guò)優(yōu)化識(shí)別方法本身或數(shù)據(jù)增強(qiáng)難以處理手寫/印刷文本或印刷/印刷文本的套打(overlapping)?;谶@個(gè)觀察,本文介紹了RecycleNet,一個(gè)自動(dòng)分離套打文本實(shí)例的策略。RecycleNet的關(guān)鍵設(shè)計(jì)在于定位并重用(recycle)了文本實(shí)例間套打的像素區(qū)域,將這些區(qū)域歸還到其歸屬的全部實(shí)例,保障了分離后實(shí)例的完整性。RecycleNet平行于現(xiàn)有的文本識(shí)別解決方案,可作為可插拔模塊,用很小的開(kāi)銷提升現(xiàn)有識(shí)別基線的精度。

Spatiotemporal Inconsistency Learning forDeepFakeVideo Detection

騰訊優(yōu)圖9篇論文入選ACM MM 2021 含弱監(jiān)督圖像、人臉安全等領(lǐng)域

隨著人臉生成技術(shù)的快速發(fā)展,人臉偽造檢測(cè)也受到越來(lái)越多的關(guān)注?,F(xiàn)有的方法往往將人臉偽造檢測(cè)問(wèn)題建模為二分類問(wèn)題并提出了基于圖像和視頻的檢測(cè)方法。 本文從一個(gè)新的角度出發(fā),將該任務(wù)建模為時(shí)空不一致性學(xué)習(xí)過(guò)程,通過(guò)抓取偽造視頻在空間和時(shí)序運(yùn)動(dòng)中的偽造痕跡來(lái)進(jìn)行真假鑒別。具體地,本文設(shè)計(jì)了一個(gè)新的STIL單元,主要包括空間不一致性模塊(SIM),時(shí)間不一致性模塊(TIM)以及信息互補(bǔ)模塊(ISM)。其中SIM采用具有殘差結(jié)構(gòu)的注意力機(jī)制重點(diǎn)捕捉空間不一致,TIM分別從水平和豎直兩個(gè)方向捕捉時(shí)序運(yùn)動(dòng)中的不一致,ISM則進(jìn)一步促進(jìn)空間不一致和時(shí)序不一致間的信息交互。STIL單元非常靈活,可以插到大多數(shù)已有的2D網(wǎng)絡(luò)中。大量的實(shí)驗(yàn)表明我們提出的方法在多個(gè)數(shù)據(jù)集上優(yōu)于現(xiàn)有的方法,同時(shí)詳細(xì)的可視化也充分證明了我們方法的可解釋性。

以研促產(chǎn)騰訊優(yōu)圖實(shí)驗(yàn)室通過(guò)AI助力數(shù)字經(jīng)濟(jì)發(fā)展

作為騰訊旗下頂級(jí)的人工智能實(shí)驗(yàn)室,騰訊優(yōu)圖實(shí)驗(yàn)室始終聚焦計(jì)算機(jī)視覺(jué)技術(shù),專注人臉識(shí)別、圖像識(shí)別、OCR等領(lǐng)域,致力于在工業(yè)制造、醫(yī)療應(yīng)用、金融保險(xiǎn)、娛樂(lè)社交等多行業(yè)場(chǎng)景的研究與落地。

憑借在視覺(jué)AI技術(shù)上的研究成果,騰訊優(yōu)圖目前已擁有超過(guò)1000件全球AI專利,更有300余篇論文被AAAI、ICCV等國(guó)際頂級(jí)AI會(huì)議收錄。同時(shí),騰訊優(yōu)圖還通過(guò)騰訊云共輸出超過(guò)20項(xiàng)AI解決方案,100+AI原子能力,助力各行各業(yè)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型。

此外,騰訊優(yōu)圖還打造了如跨年齡AI尋人、青少年內(nèi)容審核、AI探星等技術(shù)能力,踐行騰訊“科技向善”的使命和愿景。未來(lái),優(yōu)圖實(shí)驗(yàn)室將繼續(xù)專注人工智能技術(shù)發(fā)展,通過(guò)推進(jìn)AI基礎(chǔ)設(shè)施研發(fā)的形式為產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型提供助力,促進(jìn)數(shù)字經(jīng)濟(jì)加速發(fā)展。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )