10月20日,第29屆ACM國際多媒體會議(簡稱ACM MM)在成都正式舉行。本次會議將針對單個媒體和跨界整合多媒體元素的最具創(chuàng)新性和影響力的頂級熱點研究成果進行分享交流。此外,在視頻編碼、視覺識別、大規(guī)模圖像視頻分析、社會媒體研究、多模態(tài)人機交互、計算視覺、計算圖像等研究方向有多場精彩的學(xué)術(shù)分享報告,將充分展示全球高校、研究機構(gòu)及高新企業(yè)在多媒體研究方面的最新進展。
作為世界多媒體領(lǐng)域最重要的頂級會議和中國計算機學(xué)會推薦的該領(lǐng)域唯一的A類國際學(xué)術(shù)會議。本屆ACM MM吸引了國內(nèi)外多媒體領(lǐng)域中的知名廠商和學(xué)者廣泛參與,將有70場精彩報告,其中囊括了6場國內(nèi)外頂尖學(xué)者的主旨報告、13場重磅專題研討、51場國內(nèi)外知名學(xué)者及學(xué)術(shù)新星的學(xué)術(shù)報告。
其中,騰訊優(yōu)圖實驗室9篇計算機視覺相關(guān)的優(yōu)質(zhì)論文成功入選,涵蓋弱監(jiān)督圖像描述及定位、表格結(jié)構(gòu)識別、人臉安全等多個研究方向,這些技術(shù)創(chuàng)新面向智慧城市、智慧文娛、智慧制造等場景的落地應(yīng)用,助力進一步提升AI技術(shù)能力,推進全球人工智能的發(fā)展。
深耕計算機視覺領(lǐng)域成效顯著9篇論文入選彰顯強大實力
Distributed Attention for Grounded Image Captioning
弱監(jiān)督圖像描述及定位近年來逐漸受到國內(nèi)外研究機構(gòu)以及工業(yè)界關(guān)注。該任務(wù)是指對給定的圖像自動生成一句話描述圖像的內(nèi)容,同時預(yù)測出描述中名詞對應(yīng)的目標(biāo)位置。已有的工作主要通過正則化技術(shù)依靠注意力機制在生成圖像描述的同時預(yù)測名詞對應(yīng)的目標(biāo)的位置。這些方法的性能距離全監(jiān)督的圖像描述及定位有很大的差距。其中最主要的問題在于,依靠注意力機制的大部分方法預(yù)測結(jié)果往往集中于目標(biāo)的最具判別性的局部位置,無法完整的預(yù)測目標(biāo)的整體內(nèi)容?;诖?,我們提出一種十分簡單且有效的分布注意力機制,挑選多個語義相同但位置不完全重合的目標(biāo)之后進行聚合,從而得到更加完整的目標(biāo)位置。在公開的Flickr30K Entities數(shù)據(jù)集上,保持圖像描述性能不降的情況下大幅刷新目標(biāo)定位性能SOTA,與全監(jiān)督的方法性能持平。
Discriminator-free Generative Adversarial Attack
深度學(xué)習(xí)網(wǎng)絡(luò)容易受到對抗樣本的影響,在圖像上加入一些不顯眼的擾動后基于DNN的識別任務(wù)可能失效。目前大多數(shù)對抗攻擊方法基于梯度搜索,這類方法生成對抗樣本的耗時長,也會受到顯存資源不足的影響?;谏傻姆椒?GAN)可緩解這些問題,但這類方法一方面訓(xùn)練比較難收斂,另外生成的攻擊樣本效果和視覺質(zhì)量不穩(wěn)定。我們發(fā)現(xiàn)判別器在對抗生成網(wǎng)絡(luò)中并非必不可少,提出基于顯著性區(qū)域的對稱自動編碼器方法(SSAE),該方法由顯著性響應(yīng)模塊 (the saliency map)和特征角度正則解耦模塊 (the angle-norm disentanglement)組成,用生成的顯著性響應(yīng)圖去關(guān)注標(biāo)簽相關(guān)的區(qū)域,不再依賴判別器。在圖像識別和圖像檢索任務(wù)上的大量實驗證明SSAE方法生成的攻擊樣本不僅可以在主流網(wǎng)絡(luò)模型上攻擊效果好,同時也具有很好的視覺質(zhì)量。
Show, Read and Reason: Table Structure Recognition with Flexible Context Aggregator
本文主要針對表格結(jié)構(gòu)識別這一具有挑戰(zhàn)性的問題進行研究。目前,業(yè)內(nèi)方法往往采用基于圖的上下文累積器,來稀疏地建模表格元素的上下文關(guān)系。然而,基于圖的約束可能會引入過強的歸納偏置,無法充分地表示復(fù)雜的表格關(guān)系。為了讓模型從數(shù)據(jù)中學(xué)習(xí)更合適的歸納偏置,本文引入Transformer作為上下文累積器。Transformer以密集上下文作為輸入,同時由于的歸納偏置的弱化,Transformer對數(shù)據(jù)的規(guī)模要求更高,并且訓(xùn)練過程可能會不穩(wěn)定。為了解決上述問題,本文設(shè)計了FLAG (FLexible context AGgregator) 模塊,它將Transformer與基于圖的上下文累積器以一種自適應(yīng)的方式結(jié)合在一起。基于FLAG,本文設(shè)計了一個端到端的網(wǎng)絡(luò),稱為FLAG-Net ,該網(wǎng)絡(luò)不需要額外的OCR信息,并且可以靈活地調(diào)整密集上下文(dense context)和稀疏上下文(sparse context)的累積,進行表格元素的關(guān)系推理。本文還進一步探索了FLAG中的上下文選擇模式,這對于識別表格結(jié)構(gòu)是至關(guān)重要的。在標(biāo)準(zhǔn)測試集上的實驗結(jié)果表明,本文提出的FLAG-Net的性能大大超過業(yè)內(nèi)其他方法。
LSTC: Boosting Atomic Action Detection with Long-Short-Term-Context
相對于視頻序列中的一般性運動檢測,原子級的目標(biāo)行為(如交談,拾取,瞭望)的判斷更加依賴于視頻中上下文依賴關(guān)系的挖掘,同時這種依賴關(guān)系在不同的時間尺度上呈現(xiàn)若相關(guān)特性。本文將視頻目標(biāo)的行為與其以來關(guān)系解耦為稠密的短時上下文依賴(Dense Short-term Context)和稀疏的長時上下文依賴 (Sparse Long-term Context),并通過概率圖模型將兩者解耦為條件獨立的交互關(guān)系分別輔助目標(biāo)原子行為的判別,同時引入了一種近似高階的注意力機制(High-Order Attention Mechanism),在計算復(fù)雜度不提升的條件下,將傳統(tǒng)的注意力模型從一對一推廣到一對多的交互關(guān)系。在AVA以及Hieve等基準(zhǔn)測試集上表明,這種長短時依賴獨立推斷的機制能夠有效幫助行為檢測器正確推斷目標(biāo)行為。
ASFD: Automatic and Scalable Face Detector
在目前主流的目標(biāo)檢測器的設(shè)計范式中,特征增強以及特征融合模塊已經(jīng)成為了增強特征判別能力,提升檢測效果的必備組件,但是由于數(shù)據(jù)分布上的差異,一般性目標(biāo)檢測網(wǎng)絡(luò)中的特征增強模塊并不能在人臉檢測場景中帶來穩(wěn)定的提升。為此,本文系統(tǒng)性地分析了數(shù)據(jù)分布差異對于特征增強和融合模塊效果的影響,并據(jù)此針對人臉檢測場景,提出了一個可微分的自動化特征增強模塊搜索流程AutoFAE, 同時,本文基于改搜索流程建立了用于網(wǎng)絡(luò)搜索的超集,以滿足不同推理速度約束下搜索到最優(yōu)性能的模型結(jié)構(gòu)。在主流的人臉檢測數(shù)據(jù)集Wider-Face, FDDB上,本文搜索的人臉檢測架構(gòu)能夠在相同的推理速度下達(dá)到更好的檢測效果。
Adaptive Normalized Representation Learning for Generalizable Face Anti-Spoofing
隨著多樣化人臉攻擊形式的出現(xiàn),活體檢測的泛化性受到越來越多關(guān)注。現(xiàn)有方法往往直接對網(wǎng)絡(luò)學(xué)習(xí)的特征進行約束,然而忽略了模型特征提取的過程,尤其是標(biāo)準(zhǔn)化的影響。 針對該問題,本文提出了一種自適應(yīng)標(biāo)準(zhǔn)化表征學(xué)習(xí)的活體檢測新方法。具體而言,本文設(shè)計了一個自適應(yīng)特征標(biāo)準(zhǔn)化模塊(AFNM),該模塊根據(jù)樣本特征自適應(yīng)地結(jié)合BN和IN標(biāo)準(zhǔn)化方式。并在在訓(xùn)練過程中結(jié)合元學(xué)習(xí)框架,在meta-test階段重點學(xué)習(xí)AFNM模塊,從而提升泛化性。此外,為進一步學(xué)習(xí)域無關(guān)的活體表征,本文設(shè)計了雙重校準(zhǔn)約束(DCC),包括域間兼容損失(IDC)和類間分隔損失(ICS)。多個學(xué)術(shù)數(shù)據(jù)集上實驗結(jié)果表明我們方法優(yōu)于現(xiàn)有方法,為實際場景下活體技術(shù)的應(yīng)用提供了有效框架。
RecycleNet: An Overlapped Text Instance Recovery Approach
文本圖像識別是理解多媒體媒介的關(guān)鍵技術(shù)手段。主流的設(shè)計范式關(guān)注獨立文本行的精準(zhǔn)識別,但這些方法在復(fù)雜真實場景如財務(wù)票據(jù)和學(xué)生作業(yè)簿上受到了嚴(yán)峻的挑戰(zhàn)。簡單通過優(yōu)化識別方法本身或數(shù)據(jù)增強難以處理手寫/印刷文本或印刷/印刷文本的套打(overlapping)。基于這個觀察,本文介紹了RecycleNet,一個自動分離套打文本實例的策略。RecycleNet的關(guān)鍵設(shè)計在于定位并重用(recycle)了文本實例間套打的像素區(qū)域,將這些區(qū)域歸還到其歸屬的全部實例,保障了分離后實例的完整性。RecycleNet平行于現(xiàn)有的文本識別解決方案,可作為可插拔模塊,用很小的開銷提升現(xiàn)有識別基線的精度。
Spatiotemporal Inconsistency Learning forDeepFakeVideo Detection
隨著人臉生成技術(shù)的快速發(fā)展,人臉偽造檢測也受到越來越多的關(guān)注?,F(xiàn)有的方法往往將人臉偽造檢測問題建模為二分類問題并提出了基于圖像和視頻的檢測方法。 本文從一個新的角度出發(fā),將該任務(wù)建模為時空不一致性學(xué)習(xí)過程,通過抓取偽造視頻在空間和時序運動中的偽造痕跡來進行真假鑒別。具體地,本文設(shè)計了一個新的STIL單元,主要包括空間不一致性模塊(SIM),時間不一致性模塊(TIM)以及信息互補模塊(ISM)。其中SIM采用具有殘差結(jié)構(gòu)的注意力機制重點捕捉空間不一致,TIM分別從水平和豎直兩個方向捕捉時序運動中的不一致,ISM則進一步促進空間不一致和時序不一致間的信息交互。STIL單元非常靈活,可以插到大多數(shù)已有的2D網(wǎng)絡(luò)中。大量的實驗表明我們提出的方法在多個數(shù)據(jù)集上優(yōu)于現(xiàn)有的方法,同時詳細(xì)的可視化也充分證明了我們方法的可解釋性。
以研促產(chǎn)騰訊優(yōu)圖實驗室通過AI助力數(shù)字經(jīng)濟發(fā)展
作為騰訊旗下頂級的人工智能實驗室,騰訊優(yōu)圖實驗室始終聚焦計算機視覺技術(shù),專注人臉識別、圖像識別、OCR等領(lǐng)域,致力于在工業(yè)制造、醫(yī)療應(yīng)用、金融保險、娛樂社交等多行業(yè)場景的研究與落地。
憑借在視覺AI技術(shù)上的研究成果,騰訊優(yōu)圖目前已擁有超過1000件全球AI專利,更有300余篇論文被AAAI、ICCV等國際頂級AI會議收錄。同時,騰訊優(yōu)圖還通過騰訊云共輸出超過20項AI解決方案,100+AI原子能力,助力各行各業(yè)實現(xiàn)數(shù)字化轉(zhuǎn)型。
此外,騰訊優(yōu)圖還打造了如跨年齡AI尋人、青少年內(nèi)容審核、AI探星等技術(shù)能力,踐行騰訊“科技向善”的使命和愿景。未來,優(yōu)圖實驗室將繼續(xù)專注人工智能技術(shù)發(fā)展,通過推進AI基礎(chǔ)設(shè)施研發(fā)的形式為產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型提供助力,促進數(shù)字經(jīng)濟加速發(fā)展。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )