計(jì)算機(jī)視覺(jué)世界三大頂會(huì)之一的ICCV 2021論文接收結(jié)果出爐!本次大會(huì)收到來(lái)自全球共6236篇有效投稿,最終有1617篇突出重圍被錄取,錄用率約為25.9%。此次ICCV 2021接收的論文分為檢測(cè)、分割、跟蹤、視覺(jué)定位、底層圖像處理、圖像視頻檢索、三維視覺(jué)等多個(gè)方向。本次騰訊優(yōu)圖實(shí)驗(yàn)室共有17篇論文被收錄,其中Oral論文2篇,涵蓋跨模態(tài)檢索、分割、行人識(shí)別、神經(jīng)網(wǎng)絡(luò)、人群計(jì)數(shù)、車(chē)輛識(shí)別、物體識(shí)別、視頻偏好推理、多標(biāo)簽識(shí)別等前沿領(lǐng)域。
以下為入選論文:
01 基于Wasserstein耦合圖學(xué)習(xí)的跨模態(tài)檢索
Wasserstein Coupled Graph Learning for Cross-Modal Retrieval
圖在跨模態(tài)圖像文本的理解中發(fā)揮著重要作用,因?yàn)閳D可以表征圖像文本的內(nèi)在結(jié)構(gòu),而這種結(jié)構(gòu)對(duì)于跨模態(tài)相似性的度量具有很好的魯棒性。在本文中,我們提出了一種基于Wasserstein耦合圖學(xué)習(xí)的方法來(lái)處理跨模態(tài)檢索任務(wù)。首先,我們分別根據(jù)兩個(gè)輸入的跨模態(tài)樣本構(gòu)建圖,并通過(guò)相應(yīng)的圖編碼器提取魯棒特征。然后,構(gòu)建一個(gè)Wasserstein耦合字典用于進(jìn)一步的特征學(xué)習(xí),其中該字典包含多組對(duì)應(yīng)的圖鍵值,并且每個(gè)鍵值對(duì)應(yīng)一種模態(tài)?;谠擇詈献值?,可以通過(guò)Wasserstein圖嵌入的方式將輸入圖轉(zhuǎn)換到字典空間中實(shí)現(xiàn)相似性度量。所提出的Wasserstein圖嵌入方法通過(guò)最優(yōu)傳輸捕獲輸入圖與每個(gè)對(duì)應(yīng)鍵值之間的圖相關(guān)性,從而可以很好地表征圖之間的結(jié)構(gòu)關(guān)系。為了進(jìn)一步促進(jìn)圖的判別性學(xué)習(xí),我們對(duì)耦合字典的圖鍵值專(zhuān)門(mén)定義了一個(gè)基于Wasserstein度量的判別損失函數(shù),該損失函數(shù)可以使對(duì)應(yīng)的鍵值更加緊湊,非對(duì)應(yīng)的鍵值更加分散。實(shí)驗(yàn)結(jié)果證明了我們所提出的方法的有效性。
02簡(jiǎn)筆畫(huà)監(jiān)督語(yǔ)義分割推理
Scribble-Supervised Semantic Segmentation Inference
本文提出了漸進(jìn)分割推理框架(PSI)來(lái)解決簡(jiǎn)筆畫(huà)監(jiān)督的語(yǔ)義分割任務(wù)。借助于潛在的上下文依賴(lài)性,我們?cè)O(shè)計(jì)封裝了上下文模式傳播和語(yǔ)義標(biāo)簽傳播這兩條主要線(xiàn)索來(lái)增強(qiáng)并改善弱監(jiān)督像素級(jí)分割結(jié)果。在上下文模式傳播中,不同細(xì)粒度的上下文模式互相關(guān)聯(lián)并通過(guò)圖模型傳遞模式信息,以此來(lái)增強(qiáng)像素標(biāo)簽預(yù)測(cè)的置信推理。進(jìn)一步地,依賴(lài)于已估計(jì)像素的高置信度,初始標(biāo)注點(diǎn)的標(biāo)簽信息通過(guò)自適應(yīng)學(xué)習(xí)策略擴(kuò)散傳播至圖上的其他區(qū)域。上下文模式傳播和語(yǔ)義標(biāo)簽傳播這兩條線(xiàn)索最終在像素級(jí)標(biāo)簽推理中被建模成一個(gè)閉環(huán)的更新過(guò)程。大量的實(shí)驗(yàn)驗(yàn)證了我們提出的PSI框架的有效性,同時(shí)該方法也在兩個(gè)公開(kāi)的簡(jiǎn)筆畫(huà)分割數(shù)據(jù)集上取得了優(yōu)越的性能。
03 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)解耦
Architecture Disentanglement for Deep Neural Networks
(此篇論文被收錄為Oral)
理解深度神經(jīng)網(wǎng)絡(luò)的內(nèi)部機(jī)理對(duì)神經(jīng)網(wǎng)絡(luò)提供可信的應(yīng)用十分重要。現(xiàn)有的研究主要聚焦于如何將具體的語(yǔ)義與單神經(jīng)元或單層相關(guān)聯(lián),忽略了網(wǎng)絡(luò)的整體推理過(guò)程的解釋。本文提出了神經(jīng)網(wǎng)絡(luò)解耦這個(gè)概念,旨在將具體語(yǔ)義與解耦的子結(jié)構(gòu)相關(guān)聯(lián),從而理解網(wǎng)絡(luò)從輸入到輸出的整體推理過(guò)程。本文實(shí)驗(yàn)揭示了神經(jīng)網(wǎng)絡(luò)可以按照任務(wù)被拆解成子結(jié)構(gòu),并且最高層語(yǔ)義并不一定出現(xiàn)在神經(jīng)網(wǎng)絡(luò)最深層。最后,本文探討了相似子結(jié)構(gòu)是導(dǎo)致神經(jīng)網(wǎng)絡(luò)分類(lèi)錯(cuò)誤的原因之一。
04基于并列檢測(cè)分割學(xué)習(xí)的弱監(jiān)督實(shí)例分割
Parallel Detection-and-Segmentation Learning for Weakly Supervised Instance Segmentation
本文從自頂而下和自底向上的實(shí)例分割方法啟發(fā),為弱監(jiān)督實(shí)例分割任務(wù)提出一種統(tǒng)一平行檢測(cè)分割的學(xué)習(xí)框架。特別地,檢測(cè)模塊和常見(jiàn)的弱監(jiān)督目標(biāo)檢測(cè)一樣,而分割模塊采用自監(jiān)督學(xué)習(xí)來(lái)學(xué)習(xí)類(lèi)別無(wú)關(guān)的前景分割,然后再通過(guò)自訓(xùn)練來(lái)逐步獲得特定類(lèi)別的分割結(jié)果。最后,本文在多個(gè)數(shù)據(jù)集上驗(yàn)證了該算法的有效性。
05行人重識(shí)別的遮擋感知掩碼網(wǎng)絡(luò)
Occlude Them All: Occlusion-Aware Mask Network for Person Re-identification
隨著深度學(xué)習(xí)時(shí)代的到來(lái),行人重識(shí)別(ReID)取得了顯著的成就。然而,大多數(shù)方法僅解決了基于完整圖片的行人重識(shí)別問(wèn)題。但在真實(shí)世界的場(chǎng)景常常涉及被遮擋的行人,這類(lèi)行人圖片提供部分視覺(jué)外觀(guān),所以降低了 ReID 的準(zhǔn)確性。一種常見(jiàn)的策略是通過(guò)輔助模型定位可見(jiàn)的身體部位,但是輔助模型的訓(xùn)練數(shù)據(jù)和待解決的數(shù)據(jù)存在領(lǐng)域偏差等,效果不佳。為了避免在遮擋ReID問(wèn)題 中使用額外的有問(wèn)題的模型,我們提出了 OcclusionAware Mask Network (OAMN)。該方法提出了一個(gè)基于注意力機(jī)制的的掩碼模型,它需要有遮擋標(biāo)簽的數(shù)據(jù)來(lái)指導(dǎo)訓(xùn)練,為此,我們提出了一種新的適用于遮擋問(wèn)題的數(shù)據(jù)增強(qiáng)方案,該方案可為任何全身數(shù)據(jù)集生成多樣化且精確標(biāo)記的遮擋。我們所提出的方案比現(xiàn)有的策略更適合包含有限種遮擋類(lèi)型的現(xiàn)實(shí)世界情景。我們還提供了一種新穎的遮擋統(tǒng)一方案。上述三個(gè)模型組件使現(xiàn)有的注意力機(jī)制能夠準(zhǔn)確地捕捉各種遮擋情形下的身體部位。我們?cè)诙鄠€(gè)行人重識(shí)別的benchmarks上進(jìn)行了各種綜合實(shí)驗(yàn),證明了OAMN方法優(yōu)于現(xiàn)有的SOTA方法。
06 夜間場(chǎng)景高效自監(jiān)督的單目深度估計(jì)方法
Regularizing the Night-time Weirdness: Efficient Self-supervised Monocular Depth Estimation in the Dark
單目深度估計(jì)旨在從單張圖像或單目視頻中預(yù)測(cè)深度信息。近來(lái)一些自監(jiān)督方法在KITTI和Cityscapes上獲得了出色的效果。然而,在更具挑戰(zhàn)性的黑夜場(chǎng)景中,由于低能見(jiàn)度和極端光照導(dǎo)致的弱紋理和幀間不一致性,這些方法往往不能得到可用的結(jié)果。為了處理這個(gè)問(wèn)題,本文提出了一個(gè)新的框架:首先提出基于先驗(yàn)的正則化方法以學(xué)習(xí)深度信息的先驗(yàn)分布,避免出現(xiàn)異常結(jié)果;其次,提出了映射一致的圖像增強(qiáng)模塊以提升圖像可見(jiàn)度和對(duì)比度,同時(shí)保持幀間一致性;最后,提出了基于統(tǒng)計(jì)的掩膜策略以去除弱紋理區(qū)域在訓(xùn)練中帶來(lái)的干擾。實(shí)驗(yàn)結(jié)果證明了本文方法的有效性,同時(shí)在兩個(gè)常用的黑夜數(shù)據(jù)集上獲得了當(dāng)前最優(yōu)的效果。
07基于耦合語(yǔ)義注意力的弱監(jiān)督目標(biāo)定位
TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised Object Localization
弱監(jiān)督目標(biāo)定位是指僅根據(jù)圖像層面的類(lèi)別標(biāo)簽學(xué)習(xí)目標(biāo)位置的任務(wù)。基于卷積神經(jīng)網(wǎng)絡(luò) (CNN)的分類(lèi)模型往往僅會(huì)激活目標(biāo)的局部判別區(qū)域,而忽略完整的目標(biāo)范圍,稱(chēng)為局部激活問(wèn)題。在這篇文章中,我們認(rèn)為局部激活問(wèn)題是由于CNN的內(nèi)在特性導(dǎo)致。CNN由一系列卷積操作組成,導(dǎo)致模型僅具有局部的感受野,無(wú)法獲取長(zhǎng)距離的特征依賴(lài)性?;诖?,我們提出我們提出基于Transformer的耦合語(yǔ)義類(lèi)別激活圖(TS-CAM)方法,借助自注意力機(jī)制提取長(zhǎng)距離特征相似性。TS-CAM 首先將圖像分割為一系列子塊,通過(guò)位置編碼學(xué)習(xí)不同子塊間全局的注意力。之后,對(duì)每個(gè)子塊進(jìn)行重新排列得到得到類(lèi)別語(yǔ)義圖。最后,融合模型學(xué)習(xí)的全局注意力圖與類(lèi)別語(yǔ)義圖得到類(lèi)別激活圖。在 ILSVRC/CUB-200-2011 數(shù)據(jù)集上的實(shí)驗(yàn)表明,TS-CAM 的性能超過(guò)其他基于CNN-CAM結(jié)構(gòu)的方法約 7.1%/27.1%,達(dá)到SOTA。
08 基于異質(zhì)關(guān)系互補(bǔ)的車(chē)輛重識(shí)別方法
Heterogeneous Relational Complement for Vehicle Re-identification
在車(chē)輛重識(shí)別任務(wù)中,難點(diǎn)是從不同角度的攝像頭所拍攝的圖片中,準(zhǔn)確地尋找出相同的車(chē)輛,而要有效地解決該問(wèn)題,需要網(wǎng)絡(luò)能夠?qū)W習(xí)到車(chē)輛在不同角度的不變特征。為了能夠獲得這個(gè)魯棒的表征,本文提出一種新型的異質(zhì)關(guān)系互補(bǔ)網(wǎng)絡(luò)(HRCN),該網(wǎng)絡(luò)將特定區(qū)域特征和跨層特征作為增補(bǔ)特征,來(lái)增強(qiáng)高層表達(dá)??紤]到這些特征存在異質(zhì)性,各個(gè)特征之間的分布特征以及語(yǔ)義信息都不盡相同,為此本文在HRCN中設(shè)計(jì)一個(gè)圖關(guān)系模塊,將這些異質(zhì)特征嵌入到統(tǒng)一的特征空間。此外,本文提出一種新的評(píng)價(jià)指標(biāo)Cross-camera Generalization Measure (CGM),相較CMC和mAP,CGM具備更強(qiáng)的位置敏感性以及更好的跨攝像頭泛化懲罰。實(shí)驗(yàn)結(jié)果表明HRCN在VehicleID和VeRi-776數(shù)據(jù)集上均達(dá)到state-of-the-art。
09 重新思考人群中的計(jì)數(shù)和定位問(wèn)題:一種完全基于點(diǎn)的全新框架
Rethinking Counting and Localization in Crowds: A Purely Point-Based Framework
( 此篇論文被收錄為Oral)
相比僅僅估計(jì)人群中的總?cè)藬?shù),在人群中定位每個(gè)個(gè)體更為切合后續(xù)高階人群分析任務(wù)的實(shí)際需求。但是,已有的基于定位的解決方法依賴(lài)于某些中間表示(如密度圖或者偽目標(biāo)框)作為學(xué)習(xí)目標(biāo),這不光容易引入誤差,而且是一種反直覺(jué)的做法。本文提出了一種完全基于點(diǎn)的全新框架,可同時(shí)用于人群計(jì)數(shù)和個(gè)體定位。針對(duì)基于該全新框架的方法,我們不滿(mǎn)足于僅僅量化圖像級(jí)別的絕對(duì)計(jì)數(shù)誤差,因此我們提出了一種全新的度量指標(biāo)即密度歸一化平均精度,來(lái)提供一個(gè)更全面且更精準(zhǔn)的性能評(píng)價(jià)方案。此外,作為該框架一個(gè)直觀(guān)解法,我們給出了一個(gè)示例模型,叫做點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò)(P2PNet)。P2PNet忽略了所有冗余步驟,直接預(yù)測(cè)一系列人頭點(diǎn)的集合來(lái)定位圖像中的人群個(gè)體,這完全與真實(shí)人工標(biāo)注保持一致。通過(guò)深入分析,我們發(fā)現(xiàn)實(shí)現(xiàn)該方法的一個(gè)核心策略是為預(yù)測(cè)候選點(diǎn)分配最優(yōu)的學(xué)習(xí)目標(biāo),并通過(guò)基于匈牙利算法的一對(duì)一匹配策略來(lái)完成了這一關(guān)鍵步驟。實(shí)驗(yàn)證明,P2PNet不光在人群計(jì)數(shù)基準(zhǔn)上顯著超越了已有SOTA方法,還實(shí)現(xiàn)了非常高的定位精度。
10 從異質(zhì)到一致:深入研究人群計(jì)數(shù)中的計(jì)數(shù)區(qū)間劃分問(wèn)題
Uniformity in Heterogeneity: Diving Deep into Count Interval Partition for Crowd Counting
近期,人群計(jì)數(shù)任務(wù)中學(xué)習(xí)目標(biāo)不準(zhǔn)確的問(wèn)題得到了日益的關(guān)注。受以往少數(shù)工作的啟發(fā),我們摒棄了直接預(yù)測(cè)計(jì)數(shù)值本身的思路,而是通過(guò)預(yù)測(cè)計(jì)數(shù)值所在的預(yù)設(shè)區(qū)間來(lái)解決這個(gè)問(wèn)題。然而,不合適的區(qū)間劃分會(huì)使得來(lái)自不同計(jì)數(shù)區(qū)間的圖像塊所貢獻(xiàn)的計(jì)數(shù)誤差非常不均衡,并進(jìn)一步導(dǎo)致較差的計(jì)數(shù)精度。因此,我們提出了一個(gè)新穎的計(jì)數(shù)區(qū)間劃分標(biāo)準(zhǔn)叫做均勻誤差準(zhǔn)則(UEP),該準(zhǔn)則可以使得來(lái)自不同計(jì)數(shù)區(qū)間的計(jì)數(shù)誤差貢獻(xiàn)盡可能相等從而來(lái)最小化預(yù)測(cè)風(fēng)險(xiǎn)。進(jìn)一步地,為了緩解計(jì)數(shù)值量化過(guò)程中不可避免引入的數(shù)值量化誤差,我們提出了平均計(jì)數(shù)代理準(zhǔn)則(MCP)。MCP準(zhǔn)則為每個(gè)計(jì)數(shù)區(qū)間選取最優(yōu)的計(jì)數(shù)代理值來(lái)表示所有該區(qū)間的樣本在推理過(guò)程中的預(yù)測(cè)計(jì)數(shù)值,這使得圖像級(jí)別的整體期望離散化誤差可被忽略不計(jì)。據(jù)我們所知,本工作是第一個(gè)深入探究此類(lèi)區(qū)間分類(lèi)任務(wù),并且針對(duì)其區(qū)間劃分問(wèn)題給出有效解決方案的。根據(jù)以上所提的可被理論證明的準(zhǔn)則,我們?cè)O(shè)計(jì)了一個(gè)簡(jiǎn)單高效的模型,稱(chēng)為UEPNet,該模型在多個(gè)權(quán)威數(shù)據(jù)集上達(dá)到了SOTA的精度。
11 用于決策黑盒模型的自適應(yīng)歷史驅(qū)動(dòng)攻擊
Adaptive History-driven Attack for Decision-based Black-box Models
基于決策的黑盒攻擊是指在只有目標(biāo)模型的 top-1 標(biāo)簽可用時(shí)構(gòu)造對(duì)抗樣本。一種常見(jiàn)的做法是從一個(gè)大的擾動(dòng)開(kāi)始,然后用一個(gè)確定的方向和一個(gè)隨機(jī)的方向迭代地減少它,同時(shí)保持它的對(duì)抗性。由于每次查詢(xún)獲取的信息有限和方向采樣效率低下,很難在有限的查詢(xún)次數(shù)內(nèi)獲得足夠小的擾動(dòng)。為了解決這個(gè)問(wèn)題,我們提出了一種新的攻擊方法,稱(chēng)為自適應(yīng)歷史驅(qū)動(dòng)攻擊(AHA),它從所有歷史查詢(xún)中收集信息作為當(dāng)前采樣的先驗(yàn),以提高性能。此外,為了平衡確定性方向和隨機(jī)方向,我們根據(jù)實(shí)際幅度減少與預(yù)期幅度減少的比率動(dòng)態(tài)調(diào)整系數(shù)。這種策略提高了優(yōu)化過(guò)程中查詢(xún)的成功率,讓對(duì)抗樣本沿著決策邊界快速移動(dòng)。我們的方法還可以與子空間優(yōu)化(如降維)相結(jié)合,以進(jìn)一步提高效率。在 ImageNet 和 CelebA 數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,在相同數(shù)量的查詢(xún)下,我們的方法平均降低了至少 24.3% 的擾動(dòng)幅度。最后,我們通過(guò)對(duì)流行的防御方法和 MEGVII Face++ 提供的APIs進(jìn)行評(píng)估來(lái)證明我們方法的實(shí)際效果。
12 高質(zhì)量解耦顯著對(duì)象檢測(cè)
Disentangled High Quality Salient Object Detection
近年來(lái),隨著數(shù)字設(shè)備的發(fā)展,越來(lái)越多的計(jì)算機(jī)視覺(jué)任務(wù)需要處理高清圖像,比如視覺(jué)顯著性檢測(cè)任務(wù)?,F(xiàn)有的顯著性檢測(cè)方法處理高清圖片時(shí),主要會(huì)面臨兩個(gè)問(wèn)題。第一個(gè)問(wèn)題是現(xiàn)有的方法往往無(wú)法同時(shí)精確捕捉高清圖片的語(yǔ)義信息和邊界細(xì)節(jié)。為了解決這個(gè)問(wèn)題,我們將高清顯著性檢測(cè)任務(wù)解耦為低分-分類(lèi)和高分-回歸任務(wù)。在低分辨率階段,我們提出LRSCN網(wǎng)絡(luò)充分捕捉圖片的語(yǔ)義信息;在高分辨率階段,我們提出HRRN回歸得到精確的邊界細(xì)節(jié)。第二個(gè)問(wèn)題是現(xiàn)有的高清顯著性檢測(cè)算法需要額外的高清標(biāo)注數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),因而需要較大的標(biāo)注代價(jià)。為了解決這個(gè)問(wèn)題,我們?cè)谟?xùn)練階段使用uncertainty loss,因而不需要額外的高清訓(xùn)練數(shù)據(jù)訓(xùn)練HRRN。我們提出的方法在HRSOD-TE,DAVIS-S兩個(gè)高清數(shù)據(jù)測(cè)試集,以及DUTS-TE,SOC等6個(gè)低分辨率測(cè)試數(shù)據(jù)集上都達(dá)到了SOTA的效果。
13 基于雙路關(guān)系互補(bǔ)的多標(biāo)簽識(shí)別方法
Transformer-based Dual Relation Graph for Multi-label Image Recognition
多標(biāo)簽識(shí)別的主要目標(biāo)是同時(shí)識(shí)別一幅圖像中的多個(gè)對(duì)象?,F(xiàn)有的大多數(shù)工作主要通過(guò)學(xué)習(xí)標(biāo)簽共現(xiàn)依賴(lài)關(guān)系從而增強(qiáng)特征的語(yǔ)義表達(dá),而忽略了圖像中多個(gè)物體間的空間依賴(lài)關(guān)系。對(duì)此,本文提出一種基于Transformer的雙路互補(bǔ)關(guān)系學(xué)習(xí)框架來(lái)聯(lián)合學(xué)習(xí)空間依賴(lài)與共現(xiàn)依賴(lài)。針對(duì)空間依賴(lài),該方法提出跨尺度Transformer建模長(zhǎng)距離空間上下文關(guān)聯(lián);針對(duì)共現(xiàn)依賴(lài),該方法提出類(lèi)別感知約束和空間關(guān)聯(lián)引導(dǎo),基于圖神經(jīng)網(wǎng)絡(luò)聯(lián)合建模動(dòng)態(tài)語(yǔ)義關(guān)聯(lián),最后聯(lián)合這兩種互補(bǔ)關(guān)系進(jìn)行協(xié)同學(xué)習(xí)得到魯棒的多標(biāo)簽預(yù)測(cè)結(jié)果。實(shí)驗(yàn)結(jié)果表明,該方法在經(jīng)典多標(biāo)簽識(shí)別數(shù)據(jù)集MS-COCO 和VOC 2007上均超過(guò)SOTA。
14 基于偏好推理的個(gè)性化精彩視頻檢測(cè)
PR-Net: Preference Reasoning for Personalized Video Highlight Detection
個(gè)性化精彩視頻檢測(cè)旨在根據(jù)用戶(hù)的喜好將長(zhǎng)視頻縮短為有趣的時(shí)刻,這最近也引起了社區(qū)的關(guān)注。目前的方法將用戶(hù)的歷史作為整體信息來(lái)預(yù)測(cè)用戶(hù)的偏好,但忽略了用戶(hù)興趣的內(nèi)在多樣性,導(dǎo)致偏好表示模糊和無(wú)法解釋的預(yù)測(cè)。在本文中,我們提出了一個(gè)簡(jiǎn)單而有效的偏好推理框架(PR-Net),顯式地將不同的興趣考慮在內(nèi),以進(jìn)行具有可行解釋的幀級(jí)精彩預(yù)測(cè)。具體來(lái)說(shuō),對(duì)于每個(gè)輸入幀,我們通過(guò)基于注意力機(jī)制的歷史精彩片段融合來(lái)生成輸入相關(guān)的用戶(hù)偏好。此外,為了防止用戶(hù)歷史信息不全等問(wèn)題,我們將由用戶(hù)特定的偏好和學(xué)習(xí)得到的通用偏好融合成了綜合的偏好特征,從而實(shí)現(xiàn)了自適應(yīng)地支持通用精彩視頻檢測(cè)。最后,我們通過(guò)計(jì)算查詢(xún)幀與該用戶(hù)的綜合偏好及非精彩偏好特征之間的語(yǔ)義相似度來(lái)預(yù)測(cè)其是否屬于精彩幀的程度。此外,為了緩解由于標(biāo)注不完整造成的歧義,我們提出了一種新的雙向?qū)Ρ葥p失,以確保嵌入空間的緊湊性和可微性。通過(guò)這種方式,我們的方法顯著優(yōu)于最先進(jìn)的方法,平均準(zhǔn)確度精度相對(duì)提高了 12%。
15從學(xué)習(xí)中知道哪里可見(jiàn):針對(duì)遮擋行人重識(shí)別的一種可見(jiàn)度感知方法
Learning to Know Where to See: A Visibility-Aware Approach for Occluded Person Re-identification
行人重識(shí)別在近年來(lái)已經(jīng)取得了明顯的進(jìn)步。然而,遮擋現(xiàn)象對(duì)最近的行人重識(shí)別方法依然是個(gè)常見(jiàn)且具有挑戰(zhàn)性的任務(wù)。目前一些主流方法利用額外信息(比如,人體姿態(tài)信息)來(lái)判斷人體可見(jiàn)部位,從而緩解遮擋問(wèn)題。雖然這些方法取得明顯的進(jìn)步,但是他們嚴(yán)重依賴(lài)于細(xì)粒度的額外信息,對(duì)額外信息中存在的估計(jì)錯(cuò)誤敏感。在本文中,我們證實(shí)了如果額外信息變得稀疏或者有噪聲時(shí),現(xiàn)存的方法性能是會(huì)出現(xiàn)下降的。因此,我們提出了一種簡(jiǎn)單但有效的方法,該方法對(duì)稀疏和有噪聲的姿態(tài)信息是魯棒的。我們將姿態(tài)信息離散化為人體部分的可見(jiàn)度標(biāo)簽,這可以降低遮擋區(qū)域的影響。我們?cè)趯?shí)驗(yàn)中證明了我們的方法能夠更有效和魯棒地利用姿態(tài)信息。此外,我們的方法能夠很容易地嵌入到大多數(shù)行人重識(shí)別方法中。相關(guān)的實(shí)驗(yàn)證明了我們的算法達(dá)到了目前的領(lǐng)先水平。
16 Ask&Confirm: 不完整描述下跨模態(tài)檢索的主動(dòng)細(xì)節(jié)豐富
Ask&Confirm: Active Detail Enriching for Cross-Modal Retrieval with Partial Query
近年來(lái),基于文本的圖像檢索取得了長(zhǎng)足的進(jìn)步。然而,現(xiàn)有方法的性能在現(xiàn)實(shí)生活中會(huì)受到影響,因?yàn)橛脩?hù)可能會(huì)提供對(duì)圖像的不完整描述,這通常會(huì)導(dǎo)致結(jié)果充滿(mǎn)了符合不完整描述的誤報(bào)。在這項(xiàng)工作中,我們引入了部分查詢(xún)問(wèn)題并廣泛分析了它對(duì)基于文本的圖像檢索的影響。以前的交互式方法通過(guò)被動(dòng)地接收用戶(hù)的反饋來(lái)迭代地補(bǔ)充不完整的查詢(xún)來(lái)解決這個(gè)問(wèn)題,這既耗時(shí)又需要大量的用戶(hù)努力。相反,我們提出了一種新穎的檢索框架,該框架以詢(xún)問(wèn)和確認(rèn)的方式進(jìn)行交互過(guò)程,其中 AI 主動(dòng)搜索當(dāng)前查詢(xún)中缺少的判別細(xì)節(jié),而用戶(hù)只需要確認(rèn) AI 的提議。具體來(lái)說(shuō),我們提出了一種基于對(duì)象的交互,使交互檢索更加用戶(hù)友好,并提出了一種基于強(qiáng)化學(xué)習(xí)的策略來(lái)搜索有區(qū)別的對(duì)象。此外,由于難以獲得人機(jī)對(duì)話(huà)數(shù)據(jù),全監(jiān)督訓(xùn)練通常是不可行的,因此我們提出了一種弱監(jiān)督訓(xùn)練策略,除了文本圖像數(shù)據(jù)集之外,不需要人工標(biāo)注的對(duì)話(huà)。實(shí)驗(yàn)表明,我們的框架顯著提高了基于文本的圖像檢索的性能。
17為任意視角下的3D物體識(shí)別學(xué)習(xí)具有空間感知能力的典范視角表征
Learning Spatially-Aware Canonical View Representation for 3D Shape Recognition with Arbitrary Views
為使多視角3D物體識(shí)別更切合實(shí)際場(chǎng)景,這篇工作專(zhuān)注于任意視角下的物體識(shí)別,即視角位置與個(gè)數(shù)任意給定的情況;為解決任意視角帶來(lái)的新挑戰(zhàn),我們提出一種具有空間感知能力的典范視角表征;我們首先將來(lái)自任意視角的圖像特征使用最優(yōu)傳輸與一組可學(xué)的參考視角特征對(duì)齊,由此得到一組固定數(shù)量的典范視角特征;隨后我們將這些對(duì)齊的典范視角特征進(jìn)行聚合,得到一個(gè)魯棒的3D物體表征用于識(shí)別;我們?cè)诖颂岢鲆环N空間感知損失,約束典范視角特征能被離散地嵌入于歐式空間的各個(gè)象限;在ModelNet40、ScanObjectNN與RGBD數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果表明,我們的方法不僅在傳統(tǒng)的固定視角情況下性能優(yōu)秀,而且在更有挑戰(zhàn)的任意視角情況下相比其他方法有顯著的性能提升。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )