最近更新在线中文字幕,国产在线观看91精品,无码国产精品一区二区免费虚拟VR

近年來隨著數(shù)字經(jīng)濟(jì)的高速發(fā)展和數(shù)字化轉(zhuǎn)型進(jìn)程的不斷推進(jìn)，AI技術(shù)在各個(gè)領(lǐng)域的應(yīng)用落地也呈現(xiàn)出了大規(guī)模爆發(fā)的趨勢。作為AI市場中的最大分支之一，計(jì)算機(jī)視覺的應(yīng)用領(lǐng)域幾乎涵蓋了時(shí)下所有行業(yè)的各個(gè)業(yè)務(wù)場景，成為產(chǎn)業(yè)、行業(yè)關(guān)注的焦點(diǎn)。

12月19至21日，由中國圖象圖形學(xué)學(xué)會(huì)(CSIG)、中國人工智能學(xué)會(huì)(CAAI)、中國計(jì)算機(jī)學(xué)會(huì)(CCF)和中國自動(dòng)化學(xué)會(huì)(CAA)聯(lián)合主辦的第四屆中國模式識別與計(jì)算機(jī)視覺大會(huì)(PRCV2021)在珠海正式召開。作為國內(nèi)頂級的模式識別和計(jì)算機(jī)視覺領(lǐng)域的學(xué)術(shù)盛會(huì)，PRCV2021匯聚了國內(nèi)外從事相關(guān)領(lǐng)域研究的廣大科研工作者及業(yè)界同行，共同分享最新理論和技術(shù)成果，提供精彩的學(xué)術(shù)盛宴。

作為騰訊旗下頂級人工智能實(shí)驗(yàn)室，聚焦計(jì)算機(jī)視覺的騰訊優(yōu)圖實(shí)驗(yàn)室也參與了本次大會(huì)，騰訊優(yōu)圖實(shí)驗(yàn)室高級研究員任玉強(qiáng)在會(huì)上作了主題為《騰訊優(yōu)圖近期內(nèi)容理解領(lǐng)域的研究與應(yīng)用》的演講，向參會(huì)者分享了騰訊優(yōu)圖在計(jì)算機(jī)視覺領(lǐng)域中的研究成果和應(yīng)用實(shí)踐。

PRCV 2021

弱監(jiān)督目標(biāo)檢測與定位

一直以來，全監(jiān)督目標(biāo)檢測由于出色的效果一直廣泛應(yīng)用于內(nèi)容理解的各個(gè)任務(wù)中，但是標(biāo)注成本一直很高，有統(tǒng)計(jì)顯示如果按照弱監(jiān)督要求只標(biāo)注image-level的類別標(biāo)簽不標(biāo)注bbox，標(biāo)注速度可以提高數(shù)倍。為了提高效率降低成本，騰訊優(yōu)圖在弱監(jiān)督目標(biāo)檢測和定位上進(jìn)行了深入研究。

弱監(jiān)督檢測主要是指訓(xùn)練數(shù)據(jù)只標(biāo)注類別標(biāo)簽不標(biāo)注具體位置框，模型通過訓(xùn)練預(yù)測出目標(biāo)的位置。自2014年MIT提出類別響應(yīng)圖CAM以來，大多數(shù)的弱監(jiān)督目標(biāo)檢測方法主要基于Global Average Pooling (GAP)+Softmax分類網(wǎng)絡(luò)的輸出響應(yīng)，從空間正則約束方面著手，配合閾值生成檢測框。但是這種方法存在2點(diǎn)缺陷：一是無限制的類別響應(yīng)特征圖往往出現(xiàn)局部極高響應(yīng)現(xiàn)象。二是結(jié)構(gòu)信息丟失，GAP結(jié)構(gòu)將前景目標(biāo)與背景區(qū)域混為一談，限制了模型定位前景目標(biāo)的能力。

PRCV 2021

對此，騰訊優(yōu)圖將研究重點(diǎn)放在如何在隱層的網(wǎng)絡(luò)中發(fā)現(xiàn)更多的目標(biāo)結(jié)構(gòu)信息，及怎樣在網(wǎng)絡(luò)訓(xùn)練不斷加深的情況下加強(qiáng)結(jié)構(gòu)信息保持。首先設(shè)計(jì)了受限激活模塊緩解模型的結(jié)構(gòu)信息彌失的問題，在訓(xùn)練階段通過計(jì)算每個(gè)特征位置在類別響應(yīng)圖上的方差分布得到粗略的偽Mask,用以區(qū)分前背景;然后利用Sigmoid操作對類別響應(yīng)特征圖進(jìn)行歸一化，最后利用提出的受限激活損失函數(shù)LRA引導(dǎo)模型關(guān)注目標(biāo)前景區(qū)域。

在推理階段，騰訊優(yōu)圖首先提出了高階相似性的定義，用以提取更加完整的目標(biāo)區(qū)域。自相關(guān)圖生成模塊，將CAM的定位結(jié)果當(dāng)做種子節(jié)點(diǎn)，分別提取前景與背景的相似性圖，通過聚合前背景相似性圖得到更精細(xì)完整的定位結(jié)果。目前騰訊優(yōu)圖所采用的解決方案在兩個(gè)比較權(quán)威的弱監(jiān)督檢測數(shù)據(jù)集上都取得了比較好的結(jié)果，響應(yīng)圖的結(jié)構(gòu)信息更加完整、定位更加準(zhǔn)確。

多標(biāo)簽識別

多標(biāo)簽識別中的一個(gè)重要問題就是標(biāo)簽之間的共現(xiàn)依賴，為了解決這一問題，之前的工作很多采用了RNN或者GCN的網(wǎng)絡(luò)結(jié)構(gòu)來處理這種相互關(guān)系，但對于標(biāo)簽共現(xiàn)依賴很相近的標(biāo)簽很多研究都沒有考慮。

因此騰訊優(yōu)圖提出：除共現(xiàn)依賴以外，空間依賴也是影響多標(biāo)簽預(yù)測的重要因素，“滑雪板”和“滑板”在顏色紋理上比較接近，在共現(xiàn)依賴中也都與人的相關(guān)性很高，因此只關(guān)注共現(xiàn)依賴的方法無法很好的解決這種問題，而“滑雪板”和“滑板”的一個(gè)重要區(qū)別在于其周圍空間是什么，如果周圍是雪地，那大概率是“滑雪板”，如果周圍是街道，那大概率是“滑板”，因此本文在考慮共現(xiàn)依賴的基礎(chǔ)上，又引入對上下文空間依賴的建模，利用joint relation進(jìn)一步提升多標(biāo)簽識別的準(zhǔn)確性。

PRCV 2021

針對以上討論的motivation，騰訊優(yōu)圖提出一種基于Transformer的雙路互補(bǔ)關(guān)系學(xué)習(xí)框架來聯(lián)合學(xué)習(xí)空間依賴與共現(xiàn)依賴。針對空間依賴，使用跨尺度Transformer建模長距離空間上下文關(guān)聯(lián)。針對共現(xiàn)依賴，提出類別感知約束和空間關(guān)聯(lián)引導(dǎo)，基于圖神經(jīng)網(wǎng)絡(luò)聯(lián)合建模動(dòng)態(tài)語義關(guān)聯(lián)，最后聯(lián)合這兩種互補(bǔ)關(guān)系進(jìn)行協(xié)同學(xué)習(xí)得到魯棒的多標(biāo)簽預(yù)測結(jié)果。

細(xì)粒度識別

細(xì)粒度圖像解析是計(jì)算機(jī)視覺研究的前沿和熱點(diǎn)問題，其旨在將高度近似的同類物體區(qū)分為不同的子類?，F(xiàn)有的細(xì)粒度識別算法，比如Bilinear pooling、Trilinear attention，通常使用通道間的高階特征獲取可區(qū)分性的細(xì)粒度表征，忽略了空間位置關(guān)系和不同語義特征間的相互關(guān)聯(lián)，在復(fù)雜背景或類間距較小情況下誤判較顯著。

騰訊優(yōu)圖針對這一問題，創(chuàng)新性地提出了一種特征高階關(guān)系建模的方法，通過挖掘特征間的空間與語義關(guān)聯(lián)來建模高階關(guān)系，合并其中的相似關(guān)系得到區(qū)分度高的特征。

PRCV 2021

相較于現(xiàn)有的解決方法，騰訊優(yōu)圖提出的方法有三個(gè)創(chuàng)新點(diǎn)：首先在relation-discovery module，通過構(gòu)建異質(zhì)的跨層網(wǎng)絡(luò)交互，利用混合高階特征引入內(nèi)在的空域關(guān)聯(lián)，構(gòu)建高維feature bank。其次，為了克服維度災(zāi)難同時(shí)保留其可區(qū)分性，提出了基于圖相似度約束的分組算法，利用兩個(gè)不同的圖約束模塊，根據(jù)語義信息進(jìn)行分組，最大化其內(nèi)在似然度，將其約束為少量可區(qū)分性組織。

最后，在訓(xùn)練策略上提出了一種平衡分組策略，將不同樣本按照中心化采樣，進(jìn)行分組約束迭代，使圖像特征傾向于聚類原型，抑制異常樣本的表征。該方法在四個(gè)國際基準(zhǔn)數(shù)據(jù)集CUB-200-2011, Stanford-Cars, FGVC-Aircrafts, NA-Birds 均達(dá)到了領(lǐng)先水平。

弱監(jiān)督圖像描述與定位

弱監(jiān)督Grounded Image Captioning近年來逐漸受到越來越多的關(guān)注。該任務(wù)是指對給定的圖像自動(dòng)生成一句話描述圖像的內(nèi)容，同時(shí)預(yù)測出其中名詞對應(yīng)的目標(biāo)位置。由于缺乏名詞與對應(yīng)目標(biāo)的監(jiān)督信息，該項(xiàng)任務(wù)具有很大的難度。

已有的工作主要通過正則化技術(shù)依靠注意力機(jī)制在生成圖像描述的同時(shí)預(yù)測名詞對應(yīng)的目標(biāo)的位置。注意力機(jī)制的大部分預(yù)測結(jié)果往往集中于目標(biāo)的最具判別性的局部位置，無法完整的預(yù)測目標(biāo)的整體內(nèi)容，導(dǎo)致定位過大、過小或者定位偏移的問題，其中定位過小和定位偏移的錯(cuò)誤占絕大部分。

PRCV 2021

針對以上問題，騰訊優(yōu)圖采用分布式注意力機(jī)制的新方法，首先，通過挖掘多個(gè)具有相同語義的候選框進(jìn)行聚合得到最終的比較完整的目標(biāo)框，來解決局部定位的問題。其次利用多個(gè)注意力機(jī)制聚合得到的候選框，同時(shí)可以降低前面所說的另外2種定位過大和偏移的情況，通過多個(gè)注意力機(jī)制同時(shí)互相校正，顯著降低定位錯(cuò)誤的case。

視覺AI在業(yè)務(wù)場景中的應(yīng)用示例

在內(nèi)容理解領(lǐng)域中，由于 ACG 場景風(fēng)格與通用場景之間的差異較大，導(dǎo)致通用模型在動(dòng)畫、漫畫領(lǐng)域中的識別能力相對較弱，容易出現(xiàn)大量的漏過和誤判。為解決此類問題，騰訊優(yōu)圖提出漸進(jìn)式領(lǐng)域自適應(yīng)方法，首先統(tǒng)計(jì)源域和目標(biāo)域的特征分布，用 MMD 縮短通用特征與 ACG 特征分布間的距離，然后提出動(dòng)態(tài)漸進(jìn)式學(xué)習(xí)策略 PAS，由易到難進(jìn)行學(xué)習(xí)，降低遷移難度。最后通過半監(jiān)督學(xué)習(xí)快速迭代面向 ACG 場景的專用模型，極大程度上提升了該場景的識別效果。

在當(dāng)前網(wǎng)絡(luò)上的各類違規(guī)廣告中，低俗、誘導(dǎo)點(diǎn)擊廣告是打擊的重點(diǎn)，其危害性大，隱秘性深。通過分析，目前網(wǎng)絡(luò)上存在的廣告內(nèi)容為逃避純文本模型的審核，較少以單模態(tài)純文本的形式出現(xiàn)，而是雙模態(tài)圖像+水印文本，甚至文本做了對抗處理。針對這些強(qiáng)對抗性的違規(guī)廣告，騰訊優(yōu)圖針對數(shù)據(jù)特點(diǎn)結(jié)合自監(jiān)督預(yù)訓(xùn)練技術(shù)，研發(fā)出一套多模態(tài)廣告識別模型，通過采用多模態(tài)融合+OCR優(yōu)化兩個(gè)手段來緩解因單一模態(tài)的信息量不足且存在對抗性導(dǎo)致漏召回的問題。為了提高多模態(tài)識別效果，騰訊優(yōu)圖構(gòu)建了百萬級別的文本圖像對，采用無標(biāo)注的自監(jiān)督預(yù)訓(xùn)練方式，進(jìn)行跨模型預(yù)訓(xùn)練，有效提升了基于Transformer特征融合的多模態(tài)效果。

互聯(lián)網(wǎng)內(nèi)容創(chuàng)作越來越繁榮，劣質(zhì)甚至違規(guī)內(nèi)容也越來越多。炫富、惡搞營銷、暴力恐怖等不良現(xiàn)象受到各大內(nèi)容平臺越來越多的重視，傳統(tǒng)內(nèi)容理解解決方案只能做到檢測出敏感元素，至于元素是否惡意違規(guī)需要人工審核，效率很低。比如，對于平臺來說教材書本上的人民幣屬于正常情感傾向，人民幣炫富屬于惡意傾向，傳統(tǒng)目標(biāo)檢測算法只能檢測出圖片中是否含有人民幣，無法區(qū)分正常傾向還是惡意傾向。同時(shí)，圖片情感豐富多變，同種元素表達(dá)出的情感程度也各不相同。

PRCV 2021

因此可以發(fā)現(xiàn)傳統(tǒng)離散的情感分類算法很難準(zhǔn)確的表達(dá)所有情感傾向，于是，騰訊優(yōu)圖基于image caption技術(shù)研發(fā)了能實(shí)現(xiàn)更詳細(xì)的圖像情感分析的系統(tǒng)，在進(jìn)行情感傾向識別的同時(shí)還會(huì)輸出caption結(jié)果用以描述更詳細(xì)的圖像情感狀態(tài)。這一技術(shù)可以更好的幫助內(nèi)容平臺實(shí)現(xiàn)更豐富的圖像內(nèi)容理解。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

PRCV 2021 | 視覺AI飛速發(fā)展，騰訊優(yōu)圖分享內(nèi)容理解新實(shí)踐