近年來隨著數(shù)字經(jīng)濟的高速發(fā)展和數(shù)字化轉(zhuǎn)型進程的不斷推進,AI技術(shù)在各個領(lǐng)域的應用落地也呈現(xiàn)出了大規(guī)模爆發(fā)的趨勢。作為AI市場中的最大分支之一,計算機視覺的應用領(lǐng)域幾乎涵蓋了時下所有行業(yè)的各個業(yè)務場景,成為產(chǎn)業(yè)、行業(yè)關(guān)注的焦點。
12月19至21日,由中國圖象圖形學學會(CSIG)、中國人工智能學會(CAAI)、中國計算機學會(CCF)和中國自動化學會(CAA)聯(lián)合主辦的第四屆中國模式識別與計算機視覺大會(PRCV2021)在珠海正式召開。作為國內(nèi)頂級的模式識別和計算機視覺領(lǐng)域的學術(shù)盛會,PRCV2021匯聚了國內(nèi)外從事相關(guān)領(lǐng)域研究的廣大科研工作者及業(yè)界同行,共同分享最新理論和技術(shù)成果,提供精彩的學術(shù)盛宴。
作為騰訊旗下頂級人工智能實驗室,聚焦計算機視覺的騰訊優(yōu)圖實驗室也參與了本次大會,騰訊優(yōu)圖實驗室高級研究員任玉強在會上作了主題為《騰訊優(yōu)圖近期內(nèi)容理解領(lǐng)域的研究與應用》的演講,向參會者分享了騰訊優(yōu)圖在計算機視覺領(lǐng)域中的研究成果和應用實踐。
弱監(jiān)督目標檢測與定位
一直以來,全監(jiān)督目標檢測由于出色的效果一直廣泛應用于內(nèi)容理解的各個任務中,但是標注成本一直很高,有統(tǒng)計顯示如果按照弱監(jiān)督要求只標注image-level的類別標簽不標注bbox,標注速度可以提高數(shù)倍。為了提高效率降低成本,騰訊優(yōu)圖在弱監(jiān)督目標檢測和定位上進行了深入研究。
弱監(jiān)督檢測主要是指訓練數(shù)據(jù)只標注類別標簽不標注具體位置框,模型通過訓練預測出目標的位置。自2014年MIT提出類別響應圖CAM以來,大多數(shù)的弱監(jiān)督目標檢測方法主要基于Global Average Pooling (GAP)+Softmax分類網(wǎng)絡的輸出響應,從空間正則約束方面著手,配合閾值生成檢測框。但是這種方法存在2點缺陷:一是無限制的類別響應特征圖往往出現(xiàn)局部極高響應現(xiàn)象。二是結(jié)構(gòu)信息丟失,GAP結(jié)構(gòu)將前景目標與背景區(qū)域混為一談,限制了模型定位前景目標的能力。
對此,騰訊優(yōu)圖將研究重點放在如何在隱層的網(wǎng)絡中發(fā)現(xiàn)更多的目標結(jié)構(gòu)信息,及怎樣在網(wǎng)絡訓練不斷加深的情況下加強結(jié)構(gòu)信息保持。首先設計了受限激活模塊緩解模型的結(jié)構(gòu)信息彌失的問題,在訓練階段通過計算每個特征位置在類別響應圖上的方差分布得到粗略的偽Mask,用以區(qū)分前背景;然后利用Sigmoid操作對類別響應特征圖進行歸一化,最后利用提出的受限激活損失函數(shù)LRA引導模型關(guān)注目標前景區(qū)域。
在推理階段,騰訊優(yōu)圖首先提出了高階相似性的定義,用以提取更加完整的目標區(qū)域。自相關(guān)圖生成模塊,將CAM的定位結(jié)果當做種子節(jié)點,分別提取前景與背景的相似性圖,通過聚合前背景相似性圖得到更精細完整的定位結(jié)果。目前騰訊優(yōu)圖所采用的解決方案在兩個比較權(quán)威的弱監(jiān)督檢測數(shù)據(jù)集上都取得了比較好的結(jié)果,響應圖的結(jié)構(gòu)信息更加完整、定位更加準確。
多標簽識別
多標簽識別中的一個重要問題就是標簽之間的共現(xiàn)依賴,為了解決這一問題,之前的工作很多采用了RNN或者GCN的網(wǎng)絡結(jié)構(gòu)來處理這種相互關(guān)系,但對于標簽共現(xiàn)依賴很相近的標簽很多研究都沒有考慮。
因此騰訊優(yōu)圖提出:除共現(xiàn)依賴以外,空間依賴也是影響多標簽預測的重要因素,“滑雪板”和“滑板”在顏色紋理上比較接近,在共現(xiàn)依賴中也都與人的相關(guān)性很高,因此只關(guān)注共現(xiàn)依賴的方法無法很好的解決這種問題,而“滑雪板”和“滑板”的一個重要區(qū)別在于其周圍空間是什么,如果周圍是雪地,那大概率是“滑雪板”,如果周圍是街道,那大概率是“滑板”,因此本文在考慮共現(xiàn)依賴的基礎上,又引入對上下文空間依賴的建模,利用joint relation進一步提升多標簽識別的準確性。
針對以上討論的motivation,騰訊優(yōu)圖提出一種基于Transformer的雙路互補關(guān)系學習框架來聯(lián)合學習空間依賴與共現(xiàn)依賴。針對空間依賴,使用跨尺度Transformer建模長距離空間上下文關(guān)聯(lián)。針對共現(xiàn)依賴,提出類別感知約束和空間關(guān)聯(lián)引導,基于圖神經(jīng)網(wǎng)絡聯(lián)合建模動態(tài)語義關(guān)聯(lián),最后聯(lián)合這兩種互補關(guān)系進行協(xié)同學習得到魯棒的多標簽預測結(jié)果。
細粒度識別
細粒度圖像解析是計算機視覺研究的前沿和熱點問題,其旨在將高度近似的同類物體區(qū)分為不同的子類?,F(xiàn)有的細粒度識別算法,比如Bilinear pooling、Trilinear attention,通常使用通道間的高階特征獲取可區(qū)分性的細粒度表征,忽略了空間位置關(guān)系和不同語義特征間的相互關(guān)聯(lián),在復雜背景或類間距較小情況下誤判較顯著。
騰訊優(yōu)圖針對這一問題,創(chuàng)新性地提出了一種特征高階關(guān)系建模的方法,通過挖掘特征間的空間與語義關(guān)聯(lián)來建模高階關(guān)系,合并其中的相似關(guān)系得到區(qū)分度高的特征。
相較于現(xiàn)有的解決方法,騰訊優(yōu)圖提出的方法有三個創(chuàng)新點:首先在relation-discovery module,通過構(gòu)建異質(zhì)的跨層網(wǎng)絡交互,利用混合高階特征引入內(nèi)在的空域關(guān)聯(lián),構(gòu)建高維feature bank。其次,為了克服維度災難同時保留其可區(qū)分性,提出了基于圖相似度約束的分組算法,利用兩個不同的圖約束模塊,根據(jù)語義信息進行分組,最大化其內(nèi)在似然度,將其約束為少量可區(qū)分性組織。
最后,在訓練策略上提出了一種平衡分組策略,將不同樣本按照中心化采樣,進行分組約束迭代,使圖像特征傾向于聚類原型,抑制異常樣本的表征。該方法在四個國際基準數(shù)據(jù)集CUB-200-2011, Stanford-Cars, FGVC-Aircrafts, NA-Birds 均達到了領(lǐng)先水平。
弱監(jiān)督圖像描述與定位
弱監(jiān)督Grounded Image Captioning近年來逐漸受到越來越多的關(guān)注。該任務是指對給定的圖像自動生成一句話描述圖像的內(nèi)容,同時預測出其中名詞對應的目標位置。由于缺乏名詞與對應目標的監(jiān)督信息,該項任務具有很大的難度。
已有的工作主要通過正則化技術(shù)依靠注意力機制在生成圖像描述的同時預測名詞對應的目標的位置。注意力機制的大部分預測結(jié)果往往集中于目標的最具判別性的局部位置,無法完整的預測目標的整體內(nèi)容,導致定位過大、過小或者定位偏移的問題,其中定位過小和定位偏移的錯誤占絕大部分。
針對以上問題,騰訊優(yōu)圖采用分布式注意力機制的新方法,首先,通過挖掘多個具有相同語義的候選框進行聚合得到最終的比較完整的目標框,來解決局部定位的問題。其次利用多個注意力機制聚合得到的候選框,同時可以降低前面所說的另外2種定位過大和偏移的情況,通過多個注意力機制同時互相校正,顯著降低定位錯誤的case。
視覺AI在業(yè)務場景中的應用示例
在內(nèi)容理解領(lǐng)域中,由于 ACG 場景風格與通用場景之間的差異較大,導致通用模型在動畫、漫畫領(lǐng)域中的識別能力相對較弱,容易出現(xiàn)大量的漏過和誤判。為解決此類問題,騰訊優(yōu)圖提出漸進式領(lǐng)域自適應方法,首先統(tǒng)計源域和目標域的特征分布,用 MMD 縮短通用特征與 ACG 特征分布間的距離,然后提出動態(tài)漸進式學習策略 PAS,由易到難進行學習,降低遷移難度。最后通過半監(jiān)督學習快速迭代面向 ACG 場景的專用模型,極大程度上提升了該場景的識別效果。
在當前網(wǎng)絡上的各類違規(guī)廣告中,低俗、誘導點擊廣告是打擊的重點,其危害性大,隱秘性深。通過分析,目前網(wǎng)絡上存在的廣告內(nèi)容為逃避純文本模型的審核,較少以單模態(tài)純文本的形式出現(xiàn),而是雙模態(tài)圖像+水印文本,甚至文本做了對抗處理。針對這些強對抗性的違規(guī)廣告,騰訊優(yōu)圖針對數(shù)據(jù)特點結(jié)合自監(jiān)督預訓練技術(shù),研發(fā)出一套多模態(tài)廣告識別模型,通過采用多模態(tài)融合+OCR優(yōu)化兩個手段來緩解因單一模態(tài)的信息量不足且存在對抗性導致漏召回的問題。為了提高多模態(tài)識別效果,騰訊優(yōu)圖構(gòu)建了百萬級別的文本圖像對,采用無標注的自監(jiān)督預訓練方式,進行跨模型預訓練,有效提升了基于Transformer特征融合的多模態(tài)效果。
互聯(lián)網(wǎng)內(nèi)容創(chuàng)作越來越繁榮,劣質(zhì)甚至違規(guī)內(nèi)容也越來越多。炫富、惡搞營銷、暴力恐怖等不良現(xiàn)象受到各大內(nèi)容平臺越來越多的重視,傳統(tǒng)內(nèi)容理解解決方案只能做到檢測出敏感元素,至于元素是否惡意違規(guī)需要人工審核,效率很低。比如,對于平臺來說教材書本上的人民幣屬于正常情感傾向,人民幣炫富屬于惡意傾向,傳統(tǒng)目標檢測算法只能檢測出圖片中是否含有人民幣,無法區(qū)分正常傾向還是惡意傾向。同時,圖片情感豐富多變,同種元素表達出的情感程度也各不相同。
因此可以發(fā)現(xiàn)傳統(tǒng)離散的情感分類算法很難準確的表達所有情感傾向,于是,騰訊優(yōu)圖基于image caption技術(shù)研發(fā)了能實現(xiàn)更詳細的圖像情感分析的系統(tǒng),在進行情感傾向識別的同時還會輸出caption結(jié)果用以描述更詳細的圖像情感狀態(tài)。這一技術(shù)可以更好的幫助內(nèi)容平臺實現(xiàn)更豐富的圖像內(nèi)容理解。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )