騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識別等領域

計算機視覺世界三大頂會之一的ICCV 2021論文接收結果出爐!本次大會收到來自全球共6236篇有效投稿,最終有1617篇突出重圍被錄取,錄用率約為25.9%。此次ICCV 2021接收的論文分為檢測、分割、跟蹤、視覺定位、底層圖像處理、圖像視頻檢索、三維視覺等多個方向。本次騰訊優(yōu)圖實驗室共有17篇論文被收錄,其中Oral論文2篇,涵蓋跨模態(tài)檢索、分割、行人識別、神經(jīng)網(wǎng)絡、人群計數(shù)、車輛識別、物體識別、視頻偏好推理、多標簽識別等前沿領域。

以下為入選論文:

01 基于Wasserstein耦合圖學習的跨模態(tài)檢索

Wasserstein Coupled Graph Learning for Cross-Modal Retrieval

圖在跨模態(tài)圖像文本的理解中發(fā)揮著重要作用,因為圖可以表征圖像文本的內在結構,而這種結構對于跨模態(tài)相似性的度量具有很好的魯棒性。在本文中,我們提出了一種基于Wasserstein耦合圖學習的方法來處理跨模態(tài)檢索任務。首先,我們分別根據(jù)兩個輸入的跨模態(tài)樣本構建圖,并通過相應的圖編碼器提取魯棒特征。然后,構建一個Wasserstein耦合字典用于進一步的特征學習,其中該字典包含多組對應的圖鍵值,并且每個鍵值對應一種模態(tài)?;谠擇詈献值洌梢酝ㄟ^Wasserstein圖嵌入的方式將輸入圖轉換到字典空間中實現(xiàn)相似性度量。所提出的Wasserstein圖嵌入方法通過最優(yōu)傳輸捕獲輸入圖與每個對應鍵值之間的圖相關性,從而可以很好地表征圖之間的結構關系。為了進一步促進圖的判別性學習,我們對耦合字典的圖鍵值專門定義了一個基于Wasserstein度量的判別損失函數(shù),該損失函數(shù)可以使對應的鍵值更加緊湊,非對應的鍵值更加分散。實驗結果證明了我們所提出的方法的有效性。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識別等領域

02簡筆畫監(jiān)督語義分割推理

Scribble-Supervised Semantic Segmentation Inference

本文提出了漸進分割推理框架(PSI)來解決簡筆畫監(jiān)督的語義分割任務。借助于潛在的上下文依賴性,我們設計封裝了上下文模式傳播和語義標簽傳播這兩條主要線索來增強并改善弱監(jiān)督像素級分割結果。在上下文模式傳播中,不同細粒度的上下文模式互相關聯(lián)并通過圖模型傳遞模式信息,以此來增強像素標簽預測的置信推理。進一步地,依賴于已估計像素的高置信度,初始標注點的標簽信息通過自適應學習策略擴散傳播至圖上的其他區(qū)域。上下文模式傳播和語義標簽傳播這兩條線索最終在像素級標簽推理中被建模成一個閉環(huán)的更新過程。大量的實驗驗證了我們提出的PSI框架的有效性,同時該方法也在兩個公開的簡筆畫分割數(shù)據(jù)集上取得了優(yōu)越的性能。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識別等領域

03 深度神經(jīng)網(wǎng)絡結構解耦

Architecture Disentanglement for Deep Neural Networks

(此篇論文被收錄為Oral)

理解深度神經(jīng)網(wǎng)絡的內部機理對神經(jīng)網(wǎng)絡提供可信的應用十分重要?,F(xiàn)有的研究主要聚焦于如何將具體的語義與單神經(jīng)元或單層相關聯(lián),忽略了網(wǎng)絡的整體推理過程的解釋。本文提出了神經(jīng)網(wǎng)絡解耦這個概念,旨在將具體語義與解耦的子結構相關聯(lián),從而理解網(wǎng)絡從輸入到輸出的整體推理過程。本文實驗揭示了神經(jīng)網(wǎng)絡可以按照任務被拆解成子結構,并且最高層語義并不一定出現(xiàn)在神經(jīng)網(wǎng)絡最深層。最后,本文探討了相似子結構是導致神經(jīng)網(wǎng)絡分類錯誤的原因之一。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識別等領域

04基于并列檢測分割學習的弱監(jiān)督實例分割

Parallel Detection-and-Segmentation Learning for Weakly Supervised Instance Segmentation

本文從自頂而下和自底向上的實例分割方法啟發(fā),為弱監(jiān)督實例分割任務提出一種統(tǒng)一平行檢測分割的學習框架。特別地,檢測模塊和常見的弱監(jiān)督目標檢測一樣,而分割模塊采用自監(jiān)督學習來學習類別無關的前景分割,然后再通過自訓練來逐步獲得特定類別的分割結果。最后,本文在多個數(shù)據(jù)集上驗證了該算法的有效性。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識別等領域

05行人重識別的遮擋感知掩碼網(wǎng)絡

Occlude Them All: Occlusion-Aware Mask Network for Person Re-identification

隨著深度學習時代的到來,行人重識別(ReID)取得了顯著的成就。然而,大多數(shù)方法僅解決了基于完整圖片的行人重識別問題。但在真實世界的場景常常涉及被遮擋的行人,這類行人圖片提供部分視覺外觀,所以降低了 ReID 的準確性。一種常見的策略是通過輔助模型定位可見的身體部位,但是輔助模型的訓練數(shù)據(jù)和待解決的數(shù)據(jù)存在領域偏差等,效果不佳。為了避免在遮擋ReID問題 中使用額外的有問題的模型,我們提出了 OcclusionAware Mask Network (OAMN)。該方法提出了一個基于注意力機制的的掩碼模型,它需要有遮擋標簽的數(shù)據(jù)來指導訓練,為此,我們提出了一種新的適用于遮擋問題的數(shù)據(jù)增強方案,該方案可為任何全身數(shù)據(jù)集生成多樣化且精確標記的遮擋。我們所提出的方案比現(xiàn)有的策略更適合包含有限種遮擋類型的現(xiàn)實世界情景。我們還提供了一種新穎的遮擋統(tǒng)一方案。上述三個模型組件使現(xiàn)有的注意力機制能夠準確地捕捉各種遮擋情形下的身體部位。我們在多個行人重識別的benchmarks上進行了各種綜合實驗,證明了OAMN方法優(yōu)于現(xiàn)有的SOTA方法。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識別等領域

06 夜間場景高效自監(jiān)督的單目深度估計方法

Regularizing the Night-time Weirdness: Efficient Self-supervised Monocular Depth Estimation in the Dark

單目深度估計旨在從單張圖像或單目視頻中預測深度信息。近來一些自監(jiān)督方法在KITTI和Cityscapes上獲得了出色的效果。然而,在更具挑戰(zhàn)性的黑夜場景中,由于低能見度和極端光照導致的弱紋理和幀間不一致性,這些方法往往不能得到可用的結果。為了處理這個問題,本文提出了一個新的框架:首先提出基于先驗的正則化方法以學習深度信息的先驗分布,避免出現(xiàn)異常結果;其次,提出了映射一致的圖像增強模塊以提升圖像可見度和對比度,同時保持幀間一致性;最后,提出了基于統(tǒng)計的掩膜策略以去除弱紋理區(qū)域在訓練中帶來的干擾。實驗結果證明了本文方法的有效性,同時在兩個常用的黑夜數(shù)據(jù)集上獲得了當前最優(yōu)的效果。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識別等領域

07基于耦合語義注意力的弱監(jiān)督目標定位

TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised Object Localization

弱監(jiān)督目標定位是指僅根據(jù)圖像層面的類別標簽學習目標位置的任務?;诰矸e神經(jīng)網(wǎng)絡 (CNN)的分類模型往往僅會激活目標的局部判別區(qū)域,而忽略完整的目標范圍,稱為局部激活問題。在這篇文章中,我們認為局部激活問題是由于CNN的內在特性導致。CNN由一系列卷積操作組成,導致模型僅具有局部的感受野,無法獲取長距離的特征依賴性?;诖耍覀兲岢鑫覀兲岢龌赥ransformer的耦合語義類別激活圖(TS-CAM)方法,借助自注意力機制提取長距離特征相似性。TS-CAM 首先將圖像分割為一系列子塊,通過位置編碼學習不同子塊間全局的注意力。之后,對每個子塊進行重新排列得到得到類別語義圖。最后,融合模型學習的全局注意力圖與類別語義圖得到類別激活圖。在 ILSVRC/CUB-200-2011 數(shù)據(jù)集上的實驗表明,TS-CAM 的性能超過其他基于CNN-CAM結構的方法約 7.1%/27.1%,達到SOTA。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識別等領域

08 基于異質關系互補的車輛重識別方法

Heterogeneous Relational Complement for Vehicle Re-identification

在車輛重識別任務中,難點是從不同角度的攝像頭所拍攝的圖片中,準確地尋找出相同的車輛,而要有效地解決該問題,需要網(wǎng)絡能夠學習到車輛在不同角度的不變特征。為了能夠獲得這個魯棒的表征,本文提出一種新型的異質關系互補網(wǎng)絡(HRCN),該網(wǎng)絡將特定區(qū)域特征和跨層特征作為增補特征,來增強高層表達。考慮到這些特征存在異質性,各個特征之間的分布特征以及語義信息都不盡相同,為此本文在HRCN中設計一個圖關系模塊,將這些異質特征嵌入到統(tǒng)一的特征空間。此外,本文提出一種新的評價指標Cross-camera Generalization Measure (CGM),相較CMC和mAP,CGM具備更強的位置敏感性以及更好的跨攝像頭泛化懲罰。實驗結果表明HRCN在VehicleID和VeRi-776數(shù)據(jù)集上均達到state-of-the-art。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識別等領域

09 重新思考人群中的計數(shù)和定位問題:一種完全基于點的全新框架

Rethinking Counting and Localization in Crowds: A Purely Point-Based Framework

( 此篇論文被收錄為Oral)

相比僅僅估計人群中的總人數(shù),在人群中定位每個個體更為切合后續(xù)高階人群分析任務的實際需求。但是,已有的基于定位的解決方法依賴于某些中間表示(如密度圖或者偽目標框)作為學習目標,這不光容易引入誤差,而且是一種反直覺的做法。本文提出了一種完全基于點的全新框架,可同時用于人群計數(shù)和個體定位。針對基于該全新框架的方法,我們不滿足于僅僅量化圖像級別的絕對計數(shù)誤差,因此我們提出了一種全新的度量指標即密度歸一化平均精度,來提供一個更全面且更精準的性能評價方案。此外,作為該框架一個直觀解法,我們給出了一個示例模型,叫做點對點網(wǎng)絡(P2PNet)。P2PNet忽略了所有冗余步驟,直接預測一系列人頭點的集合來定位圖像中的人群個體,這完全與真實人工標注保持一致。通過深入分析,我們發(fā)現(xiàn)實現(xiàn)該方法的一個核心策略是為預測候選點分配最優(yōu)的學習目標,并通過基于匈牙利算法的一對一匹配策略來完成了這一關鍵步驟。實驗證明,P2PNet不光在人群計數(shù)基準上顯著超越了已有SOTA方法,還實現(xiàn)了非常高的定位精度。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識別等領域

10 從異質到一致:深入研究人群計數(shù)中的計數(shù)區(qū)間劃分問題

Uniformity in Heterogeneity: Diving Deep into Count Interval Partition for Crowd Counting

近期,人群計數(shù)任務中學習目標不準確的問題得到了日益的關注。受以往少數(shù)工作的啟發(fā),我們摒棄了直接預測計數(shù)值本身的思路,而是通過預測計數(shù)值所在的預設區(qū)間來解決這個問題。然而,不合適的區(qū)間劃分會使得來自不同計數(shù)區(qū)間的圖像塊所貢獻的計數(shù)誤差非常不均衡,并進一步導致較差的計數(shù)精度。因此,我們提出了一個新穎的計數(shù)區(qū)間劃分標準叫做均勻誤差準則(UEP),該準則可以使得來自不同計數(shù)區(qū)間的計數(shù)誤差貢獻盡可能相等從而來最小化預測風險。進一步地,為了緩解計數(shù)值量化過程中不可避免引入的數(shù)值量化誤差,我們提出了平均計數(shù)代理準則(MCP)。MCP準則為每個計數(shù)區(qū)間選取最優(yōu)的計數(shù)代理值來表示所有該區(qū)間的樣本在推理過程中的預測計數(shù)值,這使得圖像級別的整體期望離散化誤差可被忽略不計。據(jù)我們所知,本工作是第一個深入探究此類區(qū)間分類任務,并且針對其區(qū)間劃分問題給出有效解決方案的。根據(jù)以上所提的可被理論證明的準則,我們設計了一個簡單高效的模型,稱為UEPNet,該模型在多個權威數(shù)據(jù)集上達到了SOTA的精度。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識別等領域

11 用于決策黑盒模型的自適應歷史驅動攻擊

Adaptive History-driven Attack for Decision-based Black-box Models

基于決策的黑盒攻擊是指在只有目標模型的 top-1 標簽可用時構造對抗樣本。一種常見的做法是從一個大的擾動開始,然后用一個確定的方向和一個隨機的方向迭代地減少它,同時保持它的對抗性。由于每次查詢獲取的信息有限和方向采樣效率低下,很難在有限的查詢次數(shù)內獲得足夠小的擾動。為了解決這個問題,我們提出了一種新的攻擊方法,稱為自適應歷史驅動攻擊(AHA),它從所有歷史查詢中收集信息作為當前采樣的先驗,以提高性能。此外,為了平衡確定性方向和隨機方向,我們根據(jù)實際幅度減少與預期幅度減少的比率動態(tài)調整系數(shù)。這種策略提高了優(yōu)化過程中查詢的成功率,讓對抗樣本沿著決策邊界快速移動。我們的方法還可以與子空間優(yōu)化(如降維)相結合,以進一步提高效率。在 ImageNet 和 CelebA 數(shù)據(jù)集上進行的實驗表明,在相同數(shù)量的查詢下,我們的方法平均降低了至少 24.3% 的擾動幅度。最后,我們通過對流行的防御方法和 MEGVII Face++ 提供的APIs進行評估來證明我們方法的實際效果。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識別等領域

12 高質量解耦顯著對象檢測

Disentangled High Quality Salient Object Detection

近年來,隨著數(shù)字設備的發(fā)展,越來越多的計算機視覺任務需要處理高清圖像,比如視覺顯著性檢測任務?,F(xiàn)有的顯著性檢測方法處理高清圖片時,主要會面臨兩個問題。第一個問題是現(xiàn)有的方法往往無法同時精確捕捉高清圖片的語義信息和邊界細節(jié)。為了解決這個問題,我們將高清顯著性檢測任務解耦為低分-分類和高分-回歸任務。在低分辨率階段,我們提出LRSCN網(wǎng)絡充分捕捉圖片的語義信息;在高分辨率階段,我們提出HRRN回歸得到精確的邊界細節(jié)。第二個問題是現(xiàn)有的高清顯著性檢測算法需要額外的高清標注數(shù)據(jù)訓練網(wǎng)絡,因而需要較大的標注代價。為了解決這個問題,我們在訓練階段使用uncertainty loss,因而不需要額外的高清訓練數(shù)據(jù)訓練HRRN。我們提出的方法在HRSOD-TE,DAVIS-S兩個高清數(shù)據(jù)測試集,以及DUTS-TE,SOC等6個低分辨率測試數(shù)據(jù)集上都達到了SOTA的效果。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識別等領域

13 基于雙路關系互補的多標簽識別方法

Transformer-based Dual Relation Graph for Multi-label Image Recognition

多標簽識別的主要目標是同時識別一幅圖像中的多個對象。現(xiàn)有的大多數(shù)工作主要通過學習標簽共現(xiàn)依賴關系從而增強特征的語義表達,而忽略了圖像中多個物體間的空間依賴關系。對此,本文提出一種基于Transformer的雙路互補關系學習框架來聯(lián)合學習空間依賴與共現(xiàn)依賴。針對空間依賴,該方法提出跨尺度Transformer建模長距離空間上下文關聯(lián);針對共現(xiàn)依賴,該方法提出類別感知約束和空間關聯(lián)引導,基于圖神經(jīng)網(wǎng)絡聯(lián)合建模動態(tài)語義關聯(lián),最后聯(lián)合這兩種互補關系進行協(xié)同學習得到魯棒的多標簽預測結果。實驗結果表明,該方法在經(jīng)典多標簽識別數(shù)據(jù)集MS-COCO 和VOC 2007上均超過SOTA。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識別等領域

14 基于偏好推理的個性化精彩視頻檢測

PR-Net: Preference Reasoning for Personalized Video Highlight Detection

個性化精彩視頻檢測旨在根據(jù)用戶的喜好將長視頻縮短為有趣的時刻,這最近也引起了社區(qū)的關注。目前的方法將用戶的歷史作為整體信息來預測用戶的偏好,但忽略了用戶興趣的內在多樣性,導致偏好表示模糊和無法解釋的預測。在本文中,我們提出了一個簡單而有效的偏好推理框架(PR-Net),顯式地將不同的興趣考慮在內,以進行具有可行解釋的幀級精彩預測。具體來說,對于每個輸入幀,我們通過基于注意力機制的歷史精彩片段融合來生成輸入相關的用戶偏好。此外,為了防止用戶歷史信息不全等問題,我們將由用戶特定的偏好和學習得到的通用偏好融合成了綜合的偏好特征,從而實現(xiàn)了自適應地支持通用精彩視頻檢測。最后,我們通過計算查詢幀與該用戶的綜合偏好及非精彩偏好特征之間的語義相似度來預測其是否屬于精彩幀的程度。此外,為了緩解由于標注不完整造成的歧義,我們提出了一種新的雙向對比損失,以確保嵌入空間的緊湊性和可微性。通過這種方式,我們的方法顯著優(yōu)于最先進的方法,平均準確度精度相對提高了 12%。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識別等領域

15從學習中知道哪里可見:針對遮擋行人重識別的一種可見度感知方法

Learning to Know Where to See: A Visibility-Aware Approach for Occluded Person Re-identification

行人重識別在近年來已經(jīng)取得了明顯的進步。然而,遮擋現(xiàn)象對最近的行人重識別方法依然是個常見且具有挑戰(zhàn)性的任務。目前一些主流方法利用額外信息(比如,人體姿態(tài)信息)來判斷人體可見部位,從而緩解遮擋問題。雖然這些方法取得明顯的進步,但是他們嚴重依賴于細粒度的額外信息,對額外信息中存在的估計錯誤敏感。在本文中,我們證實了如果額外信息變得稀疏或者有噪聲時,現(xiàn)存的方法性能是會出現(xiàn)下降的。因此,我們提出了一種簡單但有效的方法,該方法對稀疏和有噪聲的姿態(tài)信息是魯棒的。我們將姿態(tài)信息離散化為人體部分的可見度標簽,這可以降低遮擋區(qū)域的影響。我們在實驗中證明了我們的方法能夠更有效和魯棒地利用姿態(tài)信息。此外,我們的方法能夠很容易地嵌入到大多數(shù)行人重識別方法中。相關的實驗證明了我們的算法達到了目前的領先水平。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識別等領域

16 Ask&Confirm: 不完整描述下跨模態(tài)檢索的主動細節(jié)豐富

Ask&Confirm: Active Detail Enriching for Cross-Modal Retrieval with Partial Query

近年來,基于文本的圖像檢索取得了長足的進步。然而,現(xiàn)有方法的性能在現(xiàn)實生活中會受到影響,因為用戶可能會提供對圖像的不完整描述,這通常會導致結果充滿了符合不完整描述的誤報。在這項工作中,我們引入了部分查詢問題并廣泛分析了它對基于文本的圖像檢索的影響。以前的交互式方法通過被動地接收用戶的反饋來迭代地補充不完整的查詢來解決這個問題,這既耗時又需要大量的用戶努力。相反,我們提出了一種新穎的檢索框架,該框架以詢問和確認的方式進行交互過程,其中 AI 主動搜索當前查詢中缺少的判別細節(jié),而用戶只需要確認 AI 的提議。具體來說,我們提出了一種基于對象的交互,使交互檢索更加用戶友好,并提出了一種基于強化學習的策略來搜索有區(qū)別的對象。此外,由于難以獲得人機對話數(shù)據(jù),全監(jiān)督訓練通常是不可行的,因此我們提出了一種弱監(jiān)督訓練策略,除了文本圖像數(shù)據(jù)集之外,不需要人工標注的對話。實驗表明,我們的框架顯著提高了基于文本的圖像檢索的性能。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識別等領域

17為任意視角下的3D物體識別學習具有空間感知能力的典范視角表征

Learning Spatially-Aware Canonical View Representation for 3D Shape Recognition with Arbitrary Views

為使多視角3D物體識別更切合實際場景,這篇工作專注于任意視角下的物體識別,即視角位置與個數(shù)任意給定的情況;為解決任意視角帶來的新挑戰(zhàn),我們提出一種具有空間感知能力的典范視角表征;我們首先將來自任意視角的圖像特征使用最優(yōu)傳輸與一組可學的參考視角特征對齊,由此得到一組固定數(shù)量的典范視角特征;隨后我們將這些對齊的典范視角特征進行聚合,得到一個魯棒的3D物體表征用于識別;我們在此提出一種空間感知損失,約束典范視角特征能被離散地嵌入于歐式空間的各個象限;在ModelNet40、ScanObjectNN與RGBD數(shù)據(jù)集中的實驗結果表明,我們的方法不僅在傳統(tǒng)的固定視角情況下性能優(yōu)秀,而且在更有挑戰(zhàn)的任意視角情況下相比其他方法有顯著的性能提升。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識別等領域

(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )