計(jì)算機(jī)視覺(jué)世界三大頂會(huì)之一的CVPR 2021論文接收結(jié)果出爐!本次大會(huì)收到來(lái)自全球共7015篇有效投稿,最終有1663篇突出重圍被錄取,錄用率約為23.7%。本次,騰訊優(yōu)圖實(shí)驗(yàn)室共有20篇論文被收錄,其中Oral論文4篇,涵蓋人臉識(shí)別、對(duì)抗攻擊、時(shí)序動(dòng)作定位、視頻動(dòng)作分割、無(wú)監(jiān)督人臉質(zhì)量評(píng)估等前沿領(lǐng)域。
01
基于超球流形置信度學(xué)習(xí)的人臉識(shí)別
Spherical Confidence Learning for Face Recognition
本論文已被CVPR 2021接收為Oral論文。最新的研究發(fā)現(xiàn),球形空間可以更好地匹配人臉圖像的基本幾何形狀,這一點(diǎn)已經(jīng)在目前最先進(jìn)的人臉識(shí)別方法中得到證實(shí)。然而,這些方法依賴于確定性的特征表達(dá),因此會(huì)遇到特征歧義性的表達(dá)難題。PFE是解決這一難題的首次嘗試。為了進(jìn)一步解決PFE應(yīng)用時(shí)的不足,我們提出了一種用于球形空間中人臉置信度學(xué)習(xí)的新穎框架。在數(shù)學(xué)上,我們將von Mises Fisher密度推廣到其r半徑對(duì)應(yīng)項(xiàng),并導(dǎo)出優(yōu)化目標(biāo)的閉式解。我們從理論上表明,所提出的框架具有更好的可解釋性,進(jìn)一步推導(dǎo)出了特征融合與特征比對(duì)的數(shù)學(xué)表達(dá)式。在多個(gè)具有挑戰(zhàn)性的基準(zhǔn)上廣泛的實(shí)驗(yàn)結(jié)果證實(shí)了我們的假設(shè)和理論,并展示了我們的框架在風(fēng)險(xiǎn)控制的識(shí)別任務(wù)以及人臉驗(yàn)證和識(shí)別任務(wù)中相對(duì)于先前的概率方法和常規(guī)球形確定性嵌入的優(yōu)越性能。
02
在開(kāi)放的人像集合中學(xué)習(xí)3D人臉的聚合與特異化重建
Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo Collection
本論文已被CVPR 2021接收為Oral論文。非參數(shù)化的人臉建模旨在不依賴幾何假設(shè)的情況下從圖像中重建3D人臉。盡管這類方法能夠預(yù)測(cè)一定的細(xì)節(jié),但其傾向于過(guò)度依賴局部顏色表觀,且易受到噪聲的干擾。為處理該問(wèn)題,本文提出一種新的聚合與特異化學(xué)習(xí)框架(LAP) 以實(shí)現(xiàn)無(wú)監(jiān)督的3D人臉建模。該方法從無(wú)約束的人像集合中隱式的解耦I(lǐng)D一致和場(chǎng)景特異的人臉。具體地,為學(xué)習(xí)ID一致人臉,LAP基于一種新的帶有松弛一致性損失的課程學(xué)習(xí)方法,自適應(yīng)地聚合同一身份的本征人臉元素。為了使人臉適應(yīng)于某一特異的場(chǎng)景,我們提出了一個(gè)新的屬性調(diào)整網(wǎng)絡(luò)以使用目標(biāo)屬性和細(xì)節(jié)修改ID一致人臉?;诒疚牡姆椒?,使得無(wú)監(jiān)督的3D人臉受益于有意義的人臉結(jié)構(gòu)信息和更高的分辨率。在公開(kāi)數(shù)據(jù)庫(kù)上的大量實(shí)驗(yàn)表明,與當(dāng)前最優(yōu)方法相比,LAP可以重建更好的或有競(jìng)爭(zhēng)力的人臉幾何和紋理。
03
在圖像到圖像翻譯上實(shí)現(xiàn)層次風(fēng)格解耦
Image-to-image Translation via Hierarchical Style Disentanglement
本論文已被CVPR2021接收為Oral論文。近年來(lái),圖像到圖像翻譯在實(shí)現(xiàn)多標(biāo)簽(以不同標(biāo)簽作為條件)和多風(fēng)格(生成多種樣式的輸出)任務(wù)中都取得了重大進(jìn)展。但是,由于未開(kāi)發(fā)標(biāo)簽中的獨(dú)立性和排他性導(dǎo)致的翻譯結(jié)果不可控導(dǎo)致了這些方法的失敗。在本文中,我們提出了層次風(fēng)格解耦(HiSD)來(lái)解決此問(wèn)題。具體來(lái)說(shuō),將標(biāo)簽重新排列成分層的樹(shù)狀結(jié)構(gòu),從上到下依次是獨(dú)立的標(biāo)簽,互斥的屬性和解耦的風(fēng)格。相應(yīng)地,我們?cè)O(shè)計(jì)了一種新的翻譯過(guò)程來(lái)適應(yīng)上述結(jié)構(gòu),將風(fēng)格與特定標(biāo)簽或?qū)傩詫?duì)應(yīng)起來(lái),實(shí)現(xiàn)可控的翻譯。CelebA-HQ數(shù)據(jù)集上的定性和定量結(jié)果都證明了HiSD的能力。我們希望我們的方法將作為層次風(fēng)格解耦的基準(zhǔn),幫助未來(lái)的圖像到圖像翻譯的研究。
04
基于特征校準(zhǔn)的表征批規(guī)范化方法
Representative Batch Normalization with Feature Calibration
本論文已被CVPR2021接收為Oral論文。批規(guī)范(BatchNorm,簡(jiǎn)稱BN)已經(jīng)被視為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的默認(rèn)組件之一,盡管BN是有益于穩(wěn)定模型訓(xùn)練以及模型的整體表征能力,但是也不可避免地忽視了訓(xùn)練數(shù)據(jù)個(gè)體之間的特征差異。我們提出了一個(gè)簡(jiǎn)單有效的特征校準(zhǔn)策略用來(lái)增強(qiáng)數(shù)據(jù)個(gè)體的特征表達(dá)能力,并幾乎不增加額外的耗時(shí)。我們提出的這個(gè)中心校準(zhǔn)方法可以增強(qiáng)有效的特征信息,而減少噪聲特征。縮放校準(zhǔn)方面,則能夠通過(guò)約束特征強(qiáng)度以學(xué)習(xí)得到一個(gè)更加穩(wěn)定的特征分布。我們將上述提出的BN變種方法,命名為Representative BN,這一方法能夠幫助提升多種計(jì)算機(jī)視覺(jué)任務(wù)的效果,如分類、檢測(cè)和分割等。
05
基于對(duì)比學(xué)習(xí)的緊湊圖像去霧方法
Contrastive Learning for Compact Single Image Dehazing
本文提出了一種基于對(duì)比學(xué)習(xí)的新穎對(duì)比正則化(CR)技術(shù),以利用模糊圖像和清晰圖像的信息分別作為負(fù)樣本和正樣本。CR確保在表示空間中將還原后的圖像拉到更接近清晰圖像,并推到遠(yuǎn)離朦朧圖像的位置。
此外,考慮到性能和內(nèi)存存儲(chǔ)之間的權(quán)衡,開(kāi)發(fā)了一個(gè)基于類自動(dòng)編碼器(AE)框架的緊湊型除霧網(wǎng)絡(luò),可分別受益于自適應(yīng)地保存信息流和擴(kuò)展接收域以提高網(wǎng)絡(luò)的轉(zhuǎn)換能力。將具有自動(dòng)編碼器和對(duì)比正則化功能的除霧網(wǎng)絡(luò)稱為AECR-Net,在合成和真實(shí)數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn)表明,我們的AECR-Net超越了最新技術(shù)。
06
基于相似度分布距離的無(wú)監(jiān)督人臉質(zhì)量評(píng)估
SDD-FIQA: Unsupervised Face Image Quality Assessment with Similarity Distribution Distance
近年來(lái)為了確保非受限場(chǎng)景的穩(wěn)定性和可靠性,人臉質(zhì)量評(píng)估(Face Image Quality Assessment, FIQA)已經(jīng)成為人臉識(shí)別系統(tǒng)不可或缺的一部分。這種方式只使用了類內(nèi)信息,而忽略了類間信息。在本工作中,我們認(rèn)為高質(zhì)量的人臉應(yīng)該與其類內(nèi)樣本相似并與其他樣本不相似,因此提出了一種新的無(wú)監(jiān)督FIQA方法,該方法結(jié)合了相似分布距離進(jìn)行人臉圖像質(zhì)量評(píng)估(SDD-FIQA)。我們通過(guò)計(jì)算正負(fù)樣本相似度分布間的Wasserstein距離生成高質(zhì)量的偽標(biāo)簽,并以此訓(xùn)練用于質(zhì)量預(yù)測(cè)的回歸網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明,我們提出的SDD-FIQA顯著超過(guò)了SOTA方法。同時(shí),我們的方法在不同的識(shí)別系統(tǒng)上顯示出良好的泛化性。后續(xù)我們將開(kāi)源該工作。
07
基于實(shí)例誤報(bào)一致性的人臉識(shí)別公平性提升方法
Consistent Instance False Positive Improves Fairness in Face Recognition
人群偏差是實(shí)際人臉識(shí)別系統(tǒng)中的重大挑戰(zhàn)?,F(xiàn)有方法嚴(yán)重依賴準(zhǔn)確的人群標(biāo)簽,還不夠通用。于是,我們提出了基于誤報(bào)率懲罰的損失函數(shù),它通過(guò)增加實(shí)例誤報(bào)率(FPR)的一致性來(lái)減輕人臉識(shí)別偏差。具體來(lái)說(shuō),我們首先將實(shí)例FPR定義為高于統(tǒng)一閾值的非目標(biāo)相似度數(shù)量與非目標(biāo)相似度總數(shù)之間的比率。通過(guò)給定總FPR,可以估計(jì)出統(tǒng)一閾值,然后將實(shí)例FPR與總FPR的比例懲罰項(xiàng)引入基于softmax的損失函數(shù)分母中。實(shí)例FPR越大,懲罰越大。利用這種不平等性的懲罰,使得實(shí)例FPR具有一致性。該方法不需要人群標(biāo)簽,并可減輕群體之間因各種屬性劃分的偏差,而這些屬性在訓(xùn)練中無(wú)需預(yù)先定義,在主流實(shí)驗(yàn)基準(zhǔn)上的廣泛測(cè)試結(jié)果表明,此方法已達(dá)到了SOTA。
08
基于高效訓(xùn)練替代模型的黑盒攻擊方法
Delving into Data: Effectively Substitute Training for Black-box Attack
在處理對(duì)抗樣本時(shí),深度神經(jīng)網(wǎng)絡(luò)顯得非常敏感,容易輸出錯(cuò)誤的預(yù)測(cè)結(jié)果。而在黑盒攻擊中,攻擊者并不知道被攻擊目標(biāo)模型的內(nèi)部結(jié)構(gòu)和權(quán)重,因此訓(xùn)練一個(gè)替代模型去模擬目標(biāo)模型內(nèi)部結(jié)構(gòu)就是一種非常高效的方法。
在本文,我們提出了一個(gè)全新的替代模型訓(xùn)練方法,即在替代模型訓(xùn)練過(guò)程中引入更好的數(shù)據(jù)分布。首先是提出的多樣性,更加多樣性的訓(xùn)練數(shù)據(jù)分布可以獲取更加豐富的特征表述;其次,提出一個(gè)對(duì)抗替換模型訓(xùn)練框架,將分布在分界面的對(duì)抗樣本引入到替代模型訓(xùn)練過(guò)程中。通過(guò)結(jié)合兩種思路,可以進(jìn)一步提升替代模型和目標(biāo)模型之間的相似性,從而提升黑盒攻擊的成功率。實(shí)驗(yàn)結(jié)果表明,我們的方法達(dá)到了SOTA,相關(guān)的可視化結(jié)果也證明了所提出方法的優(yōu)勢(shì)。
09
學(xué)習(xí)復(fù)原有霧視頻:一種新的真實(shí)數(shù)據(jù)集及算法
Learning to Restore Hazy Video: A New Real-World Dataset and A New Method
現(xiàn)有的深度學(xué)習(xí)去霧方法多采用單幀去霧數(shù)據(jù)集進(jìn)行訓(xùn)練和評(píng)測(cè),從而使得去霧網(wǎng)絡(luò)只能利用當(dāng)前有霧圖像的信息恢復(fù)清晰圖像。另外一方面,理想中的視頻去霧算法卻可以使用相鄰的有霧幀來(lái)獲取更多的時(shí)空冗余信息,從而得到更好的去霧效果,但由于視頻去霧數(shù)據(jù)集的缺失,視頻去霧算法鮮有研究。
為了實(shí)現(xiàn)視頻去霧算法的監(jiān)督訓(xùn)練,我們首次提出了一組真實(shí)的視頻去霧數(shù)據(jù)集(REVIDE)。使用精心設(shè)計(jì)的視頻采集系統(tǒng),成功地在同一場(chǎng)景進(jìn)行兩次采集,從而同時(shí)記錄下真實(shí)世界中成對(duì)且完美對(duì)齊的有霧和無(wú)霧視頻??紤]到獲取有霧視頻幀間時(shí)空冗余信息的挑戰(zhàn)性,我們還設(shè)計(jì)了一個(gè)由置信度引導(dǎo)的改進(jìn)型可變形卷積網(wǎng)絡(luò)(CG-IDN)來(lái)處理有霧視頻。實(shí)驗(yàn)證明,REVIDE數(shù)據(jù)集中采集的有霧場(chǎng)景遠(yuǎn)比合成霧更為貼近真實(shí)場(chǎng)景,并且我們提出的方法也優(yōu)于現(xiàn)有的各種去霧算法。
10
基于顯著邊界特征學(xué)習(xí)的無(wú)錨框時(shí)序動(dòng)作定位
Learning Salient Boundary Feature for Anchor-free Temporal Action Localization
時(shí)序動(dòng)作定位在視頻理解中仍然是一個(gè)備受挑戰(zhàn)的任務(wù)。該任務(wù)的目的是在一個(gè)未剪輯且較長(zhǎng)的視頻中找到每個(gè)動(dòng)作的起始與結(jié)束時(shí)間,以及改動(dòng)作的分類結(jié)果。和預(yù)設(shè)錨框或者枚舉分?jǐn)?shù)的方式對(duì)比,無(wú)錨框的方法無(wú)需依賴一些冗余的超參數(shù),顯得更輕量。
因此,我們提出了第一個(gè)高效高性能且完全無(wú)錨框的時(shí)序動(dòng)作定位方法。模型包括:(1) 端到端可訓(xùn)練的基礎(chǔ)預(yù)測(cè)器;(2) 基于顯著性優(yōu)化的模塊,該模塊通過(guò)一種新穎的邊界池化方法去為每個(gè)時(shí)序動(dòng)作提名獲取更有價(jià)值的邊界特征;(3) 使用邊界一致性約束來(lái)保證我們的模型能夠找到精準(zhǔn)的邊界信息。另外,在THUMOS14數(shù)據(jù)集上,該方法相比于之前基于錨框或運(yùn)動(dòng)分?jǐn)?shù)指導(dǎo)的方法在性能上有顯著的提升,在ActivityNet v1.3數(shù)據(jù)集上也取得了最好的結(jié)果。
11
通過(guò)添加背景來(lái)去除背景影響:背景魯棒的自監(jiān)督視頻表征學(xué)習(xí)
Removing the Background by Adding the Background: Towards a Background Robust Self-supervised Video Representation Learning
自監(jiān)督學(xué)習(xí)通過(guò)從數(shù)據(jù)本身來(lái)獲取監(jiān)督信號(hào),在視頻表征學(xué)習(xí)領(lǐng)域展現(xiàn)出了巨大潛力。由于一些主流的方法容易受到背景信息的欺騙和影響,為了減輕模型對(duì)背景信息的依賴,我們提出通過(guò)添加背景來(lái)去除背景影響。具體而言,給定一個(gè)視頻,我們從中隨機(jī)選擇一個(gè)靜態(tài)幀,并將其添加到其它的每一幀中,以構(gòu)建一個(gè)分散注意力的視頻樣本,然后要求模型拉近 分散注意力的視頻樣本與原始視頻樣本之間的特征距離,如此使得模型能夠更好地抵抗背景的影響,而更多地關(guān)注運(yùn)動(dòng)變化。我們的方法命名為背景消除(Background Erasing,BE)。值得注意的是,我們的方法可以便捷地添加到大多數(shù)SOTA方法中。BE在MoCo的基礎(chǔ)上,對(duì)具有嚴(yán)重背景偏見(jiàn)的數(shù)據(jù)集UCF101和HMDB51,分別帶來(lái)了16.4%和19.1%的提升,而對(duì)具有較小背景偏見(jiàn)的數(shù)據(jù)集Diving48數(shù)據(jù)集帶來(lái)了14.5%的提升。
12
基于自監(jiān)督三維重建和重投影的紋理不敏感行人重識(shí)別
Self-supervised 3D Reconstruction and Re-Projection for Texture Insensitive Person Re-identification
眾所周知,行人重識(shí)別(Person ReID)高度依賴于服裝紋理等視覺(jué)信息。但是,實(shí)際應(yīng)用中存在多種紋理混淆的情況,這超出了大多數(shù)現(xiàn)有ReID方法的能力范圍。因此,我們提出利用人的三維形狀和身材信息來(lái)提高ReID對(duì)紋理混淆的魯棒性,而不僅依賴于圖像紋理信息?,F(xiàn)有的person ReID使用的形狀學(xué)習(xí)模型要么忽略了人的真實(shí)三維信息,要么需要額外的物理設(shè)備來(lái)采集三維源數(shù)據(jù)。在本文中,我們提出了一種新穎的學(xué)習(xí)框架,即結(jié)合三維形狀學(xué)習(xí)(3DSL)模型: 加入三維人體重建作為正則化,直接從二維圖像中提取紋理不敏感的3D模型編碼信息?;谡齽t化的三維重建迫使ReID模型將三維形狀信息從視覺(jué)紋理中解耦,獲得具有判別性的三維形狀ReID特征。為了解決缺乏三維ground truth的問(wèn)題,我們提出了一種對(duì)抗式自我監(jiān)督投影(ASSP)方法以擬合不需要ground truth監(jiān)督訓(xùn)練的三維重建模塊。在通用ReID數(shù)據(jù)集和紋理混淆數(shù)據(jù)集上的大量實(shí)驗(yàn)驗(yàn)證了我們模型的有效性。
13
基于結(jié)構(gòu)信息保持的弱監(jiān)督目標(biāo)定位
Unveiling the Potential of Structure-Preserving for Weakly Supervised Object Localization
由于僅使用分類任務(wù)對(duì)目標(biāo)進(jìn)行定位的不足,弱監(jiān)督目標(biāo)定位(WSOL)仍然存在一些挑戰(zhàn)。已有的工作通常利用空間正則化策略提高目標(biāo)定位精度,但往往忽略了如何從訓(xùn)練好的分類網(wǎng)絡(luò)中提取目標(biāo)結(jié)構(gòu)信息。
本文提出了一種兩階段的方法,稱為結(jié)構(gòu)保持激活(SPA),以充分利用WSOL卷積特征中包含的結(jié)構(gòu)信息。在第一階段,設(shè)計(jì)了受限激活模塊(RAM)來(lái)緩解由分類網(wǎng)絡(luò)引起的結(jié)構(gòu)缺失問(wèn)題。該模塊基于觀察:無(wú)約束的分類激活圖和全局平均池化層導(dǎo)致網(wǎng)絡(luò)僅關(guān)注目標(biāo)的局部區(qū)域。在第二階段,提出了一種稱為自相關(guān)圖生成(SCG)模塊的后處理方法,基于第一階段獲取的激活圖獲得結(jié)構(gòu)保持的定位圖。具體地,我們利用高階自相關(guān)(HSC)提取保留在模型中的固有結(jié)構(gòu)信息,之后聚合多個(gè)位置的HSC得到精確的目標(biāo)定位結(jié)果。在包括CUB-200-2011和ILSVRC在內(nèi)的兩個(gè)公開(kāi)基準(zhǔn)上進(jìn)行的大量實(shí)驗(yàn)表明,與基準(zhǔn)方法相比,本文提出的SPA方法取得了顯著的性能提升。
14
RSTNet: 基于可區(qū)分視覺(jué)詞和非視覺(jué)詞的自適應(yīng)注意力機(jī)制的圖像描述生成模型
RSTNet: Captioning with Adaptive Attention on Visual and Non-Visual Words
本文提出了一個(gè)視覺(jué)信息增強(qiáng)和多模態(tài)信息敏感的Transformer結(jié)構(gòu),利用網(wǎng)格與網(wǎng)格之間相對(duì)位置的幾何關(guān)系解決了特征展平操作造成的空間信息損失的問(wèn)題,并且利用一個(gè)額外的注意力層度量視覺(jué)特征與語(yǔ)義特征的貢獻(xiàn),從而充分引導(dǎo)圖像描述中視覺(jué)詞和非視覺(jué)詞的生成,在該任務(wù)的線上線下公開(kāi)數(shù)據(jù)集上均證明了此模型的優(yōu)勢(shì)。
15
聯(lián)合物體和物質(zhì)挖掘的弱監(jiān)督全景分割
Toward Joint Thing-and-Stuff Mining for Weakly Supervised Panoptic Segmentation
全景分割旨在將圖像分別分割為物體類別的目標(biāo)實(shí)例和物質(zhì)類別的語(yǔ)義內(nèi)容。這種復(fù)雜的全場(chǎng)景解析任務(wù)需要昂貴的實(shí)例級(jí)和像素級(jí)注釋來(lái)進(jìn)行模型訓(xùn)練。迄今為止,僅用圖像級(jí)標(biāo)簽學(xué)習(xí)的基于弱監(jiān)督學(xué)習(xí)的全景分割(WSPS)仍未被探索。
本文為弱監(jiān)督全景分割提出了一個(gè)有效的聯(lián)合物體與物質(zhì)挖掘(Jointly Thing-and-Stuff Mining, JTSM)框架,明確地推理了目標(biāo)前景和物質(zhì)背景之間的語(yǔ)義和共現(xiàn)關(guān)系。為此,算法設(shè)計(jì)了一種新穎的感興趣掩模池化(Mask of Interest Pooling, MoIPool),用于提取任意形狀分割的固定尺寸的像素精確特征圖。MoIPool使全景挖掘分支能夠利用多實(shí)例學(xué)習(xí)(Multiple Instance Learning, MIL),并以統(tǒng)一的方式識(shí)別物體和物質(zhì)。算法引入并行實(shí)例和語(yǔ)義分割分支,通過(guò)自訓(xùn)練進(jìn)一步修正的分割掩模,其讓從全景挖掘中挖掘的掩模和以自底向上的目標(biāo)線索協(xié)作生成偽真實(shí)標(biāo)簽,以提高空間一致性和輪廓定位。
16
基于Transformers 從序列到序列的角度重新思考語(yǔ)義分割
Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers
我們希望為語(yǔ)義分割方法提供另一種思路,將語(yǔ)義分割轉(zhuǎn)變?yōu)樾蛄械叫蛄械念A(yù)測(cè)任務(wù)。在本文中,我們使用transformer(不使用卷積和降低分辨率)將圖像編碼為一系列patch序列。transformer的每一層都進(jìn)行了全局的上下文建模,結(jié)合常規(guī)的Decoder模塊,我們得到了一個(gè)強(qiáng)大的語(yǔ)義分割模型,稱之為Segmentation transformer(SETR)。大量實(shí)驗(yàn)表明,SETR在ADE20K(50.28%mIoU),Pascal Context(55.83%mIoU)上達(dá)到SOTA,并在Cityscapes上取得了較好結(jié)果。
17
通過(guò)元卷積核實(shí)現(xiàn)基于動(dòng)態(tài)對(duì)齊的小樣本學(xué)習(xí)
Learning Dynamic Alignment via Meta-filter for Few-shot Learning
小樣本學(xué)習(xí)(FSL)旨在通過(guò)利用極為有限的支持集樣本來(lái)適應(yīng)所學(xué)知識(shí),從而識(shí)別新的樣本,是計(jì)算機(jī)視覺(jué)中的一個(gè)重要開(kāi)放問(wèn)題。小樣本學(xué)習(xí)中用于特征對(duì)齊的大多數(shù)現(xiàn)有方法僅考慮圖像級(jí)或空間級(jí)對(duì)齊,而忽略了通道差異。
在本文,我們提出了一種動(dòng)態(tài)對(duì)齊方式,可根據(jù)不同的本地支持信息有效地突出顯示查詢區(qū)域和渠道。具體而言,這是通過(guò)首先動(dòng)態(tài)采樣以輸入的少量鏡頭為條件的特征位置的鄰域來(lái)實(shí)現(xiàn)的,基于此,我們可以進(jìn)一步預(yù)測(cè)依賴于位置和依賴于通道的動(dòng)態(tài)元濾波器用于將查詢功能與特定于位置和特定于通道的知識(shí)對(duì)齊。此外,我們采用神經(jīng)網(wǎng)絡(luò)常微分方程(Neural ODE)來(lái)實(shí)現(xiàn)更精確的對(duì)齊控制。通過(guò)上述方法,我們的模型能夠更好地捕獲支持集樣本的的細(xì)粒度上下文語(yǔ)義。
18
基于時(shí)空特征可控插值的視頻超分辨率網(wǎng)絡(luò)
Temporal Modulation Network for Controllable Space-Time Video Super-Resolution
在本文,我們提出了一種稱之為TMNet的時(shí)間建模網(wǎng)絡(luò),該模型能夠?qū)σ曨l中間幀任意插值高分辨率幀。具體而言,我們提出了TMB模塊用以調(diào)節(jié)可變形卷積作用在可控特征插值中。為了更好的挖掘時(shí)間信息,我們還提出了一個(gè)基于局部特征比對(duì)的LFC模塊,該模塊與雙向可變形ConvLSTM模塊一同作用,用以提取視頻中的短時(shí)和長(zhǎng)時(shí)運(yùn)動(dòng)信息。在3個(gè)權(quán)威標(biāo)準(zhǔn)數(shù)據(jù)集上我們提出的方法都比過(guò)去STVSR方法在效率和效果上都要更加好,文中的消融實(shí)驗(yàn)比對(duì)進(jìn)一步驗(yàn)證了我們創(chuàng)新點(diǎn)的貢獻(xiàn)。
#FormatImgID_16#
19
從全局到局部:面向視頻動(dòng)作分割的高效網(wǎng)絡(luò)結(jié)構(gòu)搜索
Global2Local: Efficient Structure Search for Video Action Segmentation
為了回答“是否可以通過(guò)高效地搜索不同感受野的之間的組合來(lái)替代手工設(shè)計(jì)的模式呢?”的問(wèn)題,在本文中,我們提出一種基于從全局到局部的搜索策略來(lái)尋找更合適的感受野組合。具體而言,我們的搜索策略將利用全局搜索的優(yōu)勢(shì)來(lái)找到粗粒度的參數(shù)組合,而后在利用局部搜索來(lái)精細(xì)化感受野的組合模式。值得指出的是,全局搜索并非是通過(guò)手工設(shè)計(jì)模式來(lái)尋找潛在的粗粒度參數(shù)組合。在全局搜索的基礎(chǔ)上,我們將會(huì)使用一種基于期望引導(dǎo)迭代的方式來(lái)有效地精修參數(shù)組合。最后,我們的這一結(jié)果可以即插即用地使用在當(dāng)前動(dòng)作分割的模型中,并取得了SOTA的效果。很快我們也將開(kāi)源我們的代碼實(shí)現(xiàn)。
20
基于特征間高階關(guān)系挖掘的細(xì)粒度識(shí)別方法
Graph-based High-Order Relation Discovery for Fine-grained Recognition
細(xì)粒度識(shí)別的主要目的是通過(guò)學(xué)習(xí)類別間區(qū)分性特征表達(dá)來(lái)分辨表觀高度相似對(duì)象,但一般情況下,現(xiàn)有的大多數(shù)工作在背景復(fù)雜下效果不穩(wěn)定,且忽略了不同語(yǔ)義特征之間的內(nèi)在聯(lián)系。對(duì)此,我們提出一種高效的基于圖的關(guān)系挖掘方法來(lái)構(gòu)建高階關(guān)系間的上下文理解。該方法首先通過(guò)特征間語(yǔ)義和位置感知來(lái)構(gòu)建高維特征庫(kù)(feature bank),同時(shí)進(jìn)行正則化約束。其次本文提出一種基于圖的語(yǔ)義分組方法(graph grouping),將高維特征映射到低維空間中,保留其中高區(qū)分性特征。在訓(xùn)練過(guò)程中,本文還提出一種分組學(xué)習(xí)策略(group-wise learning),對(duì)特征聚類中心進(jìn)行約束。通過(guò)以上三個(gè)模塊的協(xié)作,該方法可學(xué)習(xí)到細(xì)粒度類別間更豐富的區(qū)分性信息。實(shí)驗(yàn)結(jié)果表明,該方法在4個(gè)細(xì)粒度數(shù)據(jù)集上均超過(guò)SOTA。
CVPR 作為計(jì)算機(jī)視覺(jué)領(lǐng)域的頂會(huì)之一,每年錄取的論文幾乎都代表了本年度計(jì)算機(jī)視覺(jué)領(lǐng)域最新、最高科研水平以及未來(lái)發(fā)展趨勢(shì)。
此次入選了20篇論文,也是對(duì)騰訊優(yōu)圖實(shí)驗(yàn)室現(xiàn)階段科研及創(chuàng)新能力的一種認(rèn)可。未來(lái),優(yōu)圖將繼續(xù)努力,為大家?guī)?lái)更多可能的“視”界。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )