近年來,伴隨著深度學(xué)習(xí)技術(shù)的成熟以及計算機算力的增長,人工智能技術(shù)在各行業(yè)的業(yè)務(wù)場景中實現(xiàn)了快速的普及和落地。在人工智能技術(shù)進一步落地實踐的背景下,將會為行業(yè)帶來什么樣的變革與技術(shù)創(chuàng)新,成為了大家共同關(guān)心的問題。
11月25至26日,以“AI商業(yè)化下的技術(shù)演進”為主要研討方向的AICon全球人工智能與機器學(xué)習(xí)技術(shù)大會北京站順利召開。據(jù)了解,AICon北京站設(shè)置了“人工智能前沿技術(shù)”、“計算機視覺實踐”、“智能金融技術(shù)與業(yè)務(wù)結(jié)合”、“認知智能的前沿探索”等14 個技術(shù)專題,并邀請了50余位行業(yè)資深專家,分享最新 AI 技術(shù)創(chuàng)新和應(yīng)用實踐。
本次大會,騰訊優(yōu)圖實驗室內(nèi)容審核算法負責(zé)人鄢科受邀出席了“計算機視覺實踐”技術(shù)專題的研討,并通過《騰訊優(yōu)圖在視覺內(nèi)容理解領(lǐng)域的研究與實踐》的主題演講,分享了騰訊優(yōu)圖在內(nèi)容安全領(lǐng)域中的研究成果和應(yīng)用實例,提供了技術(shù)創(chuàng)新和落地實踐的經(jīng)驗和思路。
01 視覺內(nèi)容理解在內(nèi)容安全領(lǐng)域中的技術(shù)特點和挑戰(zhàn)
隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)內(nèi)容不論是呈現(xiàn)形式還是信息體量都迎來了爆發(fā)式的增長。而在這些增長的背后,也隱藏著海量的色情、血腥等不良和有害信息,不僅危害互聯(lián)網(wǎng)平臺的內(nèi)容生態(tài),更可能導(dǎo)致安全問題。在內(nèi)容安全問題不斷加劇的背景下,AI、大數(shù)據(jù)等信息技術(shù)能夠輔助傳統(tǒng)人工審核,在內(nèi)容安全領(lǐng)域中發(fā)揮了重要作用。
基于此,騰訊優(yōu)圖依托在視覺AI技術(shù)上的研究成果,打造了包含涉黃、廣告、違法違規(guī)等在內(nèi)的、一站式內(nèi)容安全的解決方案。憑借支持一體化接入、需求定制化、詳實的標(biāo)簽體系和自動化訓(xùn)練平臺等優(yōu)勢,該解決方案能夠在社區(qū)、UGC、直播、點播等場景中輔助人審,從而提高內(nèi)容安全審核的效率。
而在推動視覺AI技術(shù)落地業(yè)務(wù)場景的過程中,騰訊優(yōu)圖也歸納和總結(jié)了視覺內(nèi)容理解的技術(shù)特點和挑戰(zhàn):
首先,內(nèi)容安全審核被廣泛應(yīng)用在海內(nèi)外不同國家的各個行業(yè)和業(yè)務(wù)之中,不同業(yè)務(wù)的審核場景千差萬別;以游戲直播場景為例,該場景一般是二次元模態(tài)的游戲畫面,但由于海外手機的像素質(zhì)量和國內(nèi)不一樣,很多都是一些模糊不清低質(zhì)圖像,場景多樣嚴重考驗AI算法的穩(wěn)定性和泛化能力。
其次,針對于同一個內(nèi)容,不同客戶的標(biāo)準定義差別很大,針對客戶需求制定能夠?qū)崿F(xiàn)全覆蓋的標(biāo)簽和標(biāo)準體系,對技術(shù)完備提出了較高的要求。
最后,多樣化的內(nèi)容審核場景也要求方案具備多標(biāo)簽識別、目標(biāo)檢測、畫面細粒度、OCR等技術(shù),無法通過一個簡單的技術(shù)點或是通用模型解決所有問題,對模型能力的精細化和快速優(yōu)化也提出了較高的要求。
02 騰訊優(yōu)圖實驗室在視覺內(nèi)容理解場景的主要研究方向
目前,騰訊優(yōu)圖在內(nèi)容安全領(lǐng)域主要的研究方向主要包括細粒度識別、多標(biāo)簽識別、目標(biāo)檢測、目標(biāo)定位、對象供給、圖像描述等六個方向。
1)目標(biāo)檢測:目標(biāo)檢測在內(nèi)容理解領(lǐng)域中非常重要,包含通用物體檢測、特殊場景/商品檢測、遙感圖象、旋轉(zhuǎn)目標(biāo)檢測等技術(shù)方向。其中,騰訊優(yōu)圖在旋轉(zhuǎn)目標(biāo)檢測進行了深入研究,提出了DRN(動態(tài)修正網(wǎng)絡(luò))來提升檢測效果的方法。
通過在FSM(特征選擇模塊)中設(shè)計自適應(yīng)感受調(diào)整模塊的方式,模型能夠根據(jù)目標(biāo)的形狀旋轉(zhuǎn)角度進行自適應(yīng)調(diào)整,從而緩解單一感受點與多目標(biāo)的矛盾。
此外,針對分類和回歸任務(wù),騰訊優(yōu)圖設(shè)計了DRHC(動態(tài)修正分類器)與DRHR(動態(tài)修正回歸器),讓模型能夠同時學(xué)習(xí)樣本敏感和fintune之外的、與樣本無關(guān)的一般性知識,并通過預(yù)訓(xùn)練的方式賦予模型樣本一致性調(diào)整的能力。
最后,統(tǒng)一的DRN能夠讓模型通過端到端的方式學(xué)習(xí)旋轉(zhuǎn)目標(biāo)檢測任務(wù),同時基于AnchorFree算法,DRN也能對解決密集排列目標(biāo)場景下的目標(biāo)重合、混淆的問題進行較好的處理。
2)目標(biāo)定位:人、車、物的檢測工作所要求的標(biāo)準檢測的框和目標(biāo)標(biāo)注的成本都很高,而在細分場景檢測時需要標(biāo)注的比較精細,從而提升了標(biāo)注的難度和成本。為了提高標(biāo)注的效率并降低成本,騰訊優(yōu)圖在弱監(jiān)督和定位方面進行深入研究,并提出了目標(biāo)結(jié)構(gòu)保持是弱監(jiān)督定位關(guān)鍵問題的觀點。
大多數(shù)弱監(jiān)督目標(biāo)檢測主要是依據(jù)分類網(wǎng)絡(luò)輸出響應(yīng)、空間正則約束來入手,通過提取一系列提升網(wǎng)絡(luò)的響應(yīng)區(qū)域去覆蓋目標(biāo)更多區(qū)域的。這種方法一般都會采用分類結(jié)構(gòu),而這樣做則會讓模型丟失目標(biāo)結(jié)構(gòu)信息;同時,無限制的類別響應(yīng)特征圖往往會出現(xiàn)局部提高響應(yīng)導(dǎo)致模型分類出現(xiàn)一些誤判,不利于模型準確定位到目標(biāo)的位置。
為解決以上問題,騰訊優(yōu)圖首先設(shè)定了受限激活模塊緩解模型結(jié)構(gòu)信息的損失問題,并重新定義了高階相似性,使自相關(guān)圖生成模塊顯著提高了目標(biāo)定位的精度;之后,通過計算每個特征位置在類別相應(yīng)性質(zhì)圖上的方差分布得出粗略的偽mask,以此來區(qū)分前背景;然后對類別響應(yīng)特征圖進行歸一化,利用提出來的受限激活損失函數(shù)來引導(dǎo)模型關(guān)注目標(biāo)前景的區(qū)域,組成受限激活模塊;最后利用受限激活模塊進行訓(xùn)練,在前向inference推理的過程中,高階自相關(guān)圖就會增強圖片的表達和后處理,讓可視化圖更加清晰、定位更加準確。
3)多標(biāo)簽識別:多標(biāo)簽識別是內(nèi)容理解和內(nèi)容審核的場景中非常通用的技術(shù)問題。之前很多技術(shù)都是采用RNN或者GCN來網(wǎng)絡(luò)結(jié)構(gòu)來處理標(biāo)簽之間的共性依賴問題,這種方法沒有考慮到標(biāo)簽共性依賴,導(dǎo)致系統(tǒng)無法有效分辨出標(biāo)簽及臨近標(biāo)簽之間的關(guān)系,大大降低了圖片識別的準確度。
為此,騰訊優(yōu)圖提出了“除共性依賴以外,空間依賴也是理想多標(biāo)簽預(yù)設(shè)的重要因素”這一觀點,在考慮共性依賴的基礎(chǔ)上引入了空間依賴的建模,通過構(gòu)建一種基于Transfomer的雙目互補關(guān)系學(xué)習(xí)框架,讓模型同時學(xué)習(xí)空間依賴和共性依賴。具體而言,即在空間依賴上使用跨尺度的Transfomer建模,對CNN提取到的一些特征經(jīng)過跨尺度增強后得到空間信息更加清晰的圖像特征,然后利用共享權(quán)重的Transfomer群來建??臻g,在建模過程中的空間依賴則根據(jù)空間關(guān)聯(lián)提升類別響應(yīng)。
針對于共性依賴只需要進行內(nèi)別、感知約束和空間關(guān)聯(lián)引導(dǎo),基于圖神經(jīng)網(wǎng)絡(luò)聯(lián)合GCA,聯(lián)合建模動態(tài)語義關(guān)聯(lián),最后整合兩種互補關(guān)系進行協(xié)同學(xué)習(xí)得到給魯棒的多變性預(yù)測,進一步提升圖片識別的準確性。
此外,通過標(biāo)簽的value來為圖像標(biāo)簽引入文本語義信息的方式,用圖像標(biāo)簽做表征的方法也能取得很好的效果:將視覺的fintune和文本fintune直接用Transfomer建模,能夠讓多模態(tài)融合多標(biāo)簽的識別方法,相較于純標(biāo)簽的語義信息的效果有著顯著提升。
4)細粒度識別:過往的細粒度識別主要是使用通道間高階特征獲取可區(qū)別性的表達,但這種做法一般都會忽略空間位置關(guān)系的和不同語義之間的相互關(guān)系,在復(fù)雜背景或內(nèi)間距比較小的場景中誤判的情況較多?;诖祟悊栴},騰訊優(yōu)圖曾提出了通過挖掘特征間的空間關(guān)系和語義關(guān)系來建模高階關(guān)系,再對其中一些相似關(guān)系進行合并、保留區(qū)別性高的特征的解決方案。
相較于三元的線性關(guān)系建模,該方案的關(guān)系模塊能夠在考慮空間關(guān)聯(lián)的基礎(chǔ)上,構(gòu)建更加豐富的語義關(guān)聯(lián);同時,通過圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)高階特征中圖層不同節(jié)點間的關(guān)系,并根據(jù)關(guān)系的三元規(guī)則對高階關(guān)系進行分組加權(quán),在對相似特征進行合并后,能夠在實現(xiàn)降維的同時保證比較高的特征;最后,在訓(xùn)練過程中采取類別均衡采樣策略學(xué)習(xí),來確保特征分布更加準確。
然后這樣的解決方案還是存在時間消耗過多和因深層擾動導(dǎo)致工作效果不穩(wěn)定的問題。對此騰訊優(yōu)圖提出了利用顯著性區(qū)域的對抗自動編碼器生成噪音的解決方法,讓時效性問題和對抗生成網(wǎng)絡(luò)不穩(wěn)定的問題同時得到了解決,在不同數(shù)據(jù)集的識別上都能取得比較好的識別效果。
03 騰訊優(yōu)圖視覺內(nèi)容理解的實際應(yīng)用案例
目前,騰訊優(yōu)圖視覺內(nèi)容理解的實際應(yīng)用場景包括ACG敏感內(nèi)容識別和圖像情感傾向分析等多類。
1)ACG敏感內(nèi)容識別:在內(nèi)容安全領(lǐng)域中,由于ACG場景中多種風(fēng)格之間的差異化較大,導(dǎo)致通用模型在動畫、漫畫和游戲領(lǐng)域中的內(nèi)容識別能力相對較弱,容易出現(xiàn)大量的誤判。為解決此類問題,騰訊優(yōu)圖首先在統(tǒng)計原域和目標(biāo)域間的特征分布后,使用MMD來縮短兩個特征分布間的距離,實現(xiàn)分布約束;然后通過漸進式學(xué)習(xí)策略讓模型在遷徙過程中優(yōu)先選擇與原域相近的樣本,有效降低了模型遷徙的難度;最后通過半監(jiān)督實現(xiàn)了通用模型的迅速迭代,生成針對ACG場景識別的專用審核模型。
在實際應(yīng)用中,使用了漸進式學(xué)習(xí)策略的專用審核模型相較于直接遷徙的模型,召回率至少提升了17%~30%,極大程度上提升了ACG內(nèi)容審核工作的效率和效果。
2)圖像情感傾向分析:現(xiàn)階段的內(nèi)容審核工作中,審核系統(tǒng)對于出現(xiàn)人民幣、暴力等敏感元素的圖片都會做召回處理。但實際場景中,大量出現(xiàn)人民幣元素的圖片是正常的,這無形中為人審環(huán)節(jié)增加了很多工作負擔(dān)。
為此,騰訊優(yōu)圖提出了圖像情感傾向分析和一般的傾向分類,模擬人的主觀感覺對圖像進行識別和分析,如果一張圖中出現(xiàn)了大量人民幣和一個人,并且這個人表現(xiàn)出開心的狀態(tài),那么這張圖的情感傾向就是正向的,無需召回;但如果一張圖中出現(xiàn)了惡搞人民幣的場景,那么這張圖的情感傾向就是負向的,需要召回并進行再審核。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )