123,123,123

全球計算機視覺頂級會議 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議) 即將于6月在美國長灘召開。本屆大會總共錄取來自全球論文1299篇。中國團隊表現(xiàn)不俗,此次,騰訊公司有超過58篇論文被本屆CVPR大會接收,其中騰訊優(yōu)圖實驗室25篇、騰訊AI Lab33篇,相比過去兩年成績大幅提升。

作為計算機視覺領(lǐng)域級別最高的研究會議,CVPR2019錄取論文代表了計算機視覺領(lǐng)域在2019年最新和最高的科技水平以及未來發(fā)展潮流。CVPR官網(wǎng)顯示,今年有超過5165篇的大會論文投稿,最終錄取1299篇。這些錄取的最新科研成果,涵蓋了計算機視覺領(lǐng)域各項前沿工作。2019年騰訊公司有超過58篇論文被本屆CVPR大會接收 ,其中騰訊AI Lab33篇、騰訊優(yōu)圖實驗室25篇。而2018年總計被收錄31篇,2017年被收錄18篇。2019年的錄取數(shù)量相比前兩年都有大幅提高,成績斐然。

騰訊此次被收錄的論文涵蓋深度學(xué)習(xí)優(yōu)化原理、視覺對抗學(xué)習(xí)、人臉建模與識別、視頻深度理解、行人重識別、人臉檢測等熱門及前沿領(lǐng)域。全球領(lǐng)先的科研成果,展示了騰訊在計算機視覺領(lǐng)域強大的人才儲備、科研底蘊和創(chuàng)新能力。這些新穎的計算機視覺算法不僅有著豐富的應(yīng)用場景,使得更多的計算機視覺算法能應(yīng)用于日常生活之中,還為后續(xù)研究提供了可貴的經(jīng)驗和方向。

以下介紹部分騰訊優(yōu)圖入選CVPR2019的論文:

Unsupervised Person Re-identification by Soft Multilabel Learning

軟多標(biāo)簽學(xué)習(xí)的無監(jiān)督行人重識別

全球計算機視覺頂會CVPR 連續(xù)三年收錄騰訊優(yōu)圖論文 2019收錄25篇

相對于有監(jiān)督行人重識別(RE-ID)方法,無監(jiān)督RE-ID因其更佳的可擴展性受到越來越多的研究關(guān)注,然而在非交疊的多相機視圖下,標(biāo)簽對(pairwise label)的缺失導(dǎo)致學(xué)習(xí)鑒別性的信息仍然是非常具有挑戰(zhàn)性的工作。為了克服這個問題,我們提出了一個用于無監(jiān)督RE-ID的軟多標(biāo)簽學(xué)習(xí)深度模型。該想法通過將未標(biāo)注的人與輔助域里的一組已知參考者進(jìn)行比較,為未標(biāo)注者標(biāo)記軟標(biāo)簽(類似實值標(biāo)簽的似然向量)?；谝曈X特征以及未標(biāo)注目標(biāo)對的軟性標(biāo)簽的相似度一致性,我們提出了軟多標(biāo)簽引導(dǎo)的hard negative mining方法去學(xué)習(xí)一種區(qū)分性嵌入表示(discriminative embedding)。由于大多數(shù)目標(biāo)對來自交叉視角,我們提出了交叉視角下的軟性多標(biāo)簽一致性學(xué)習(xí)方法,以保證不同視角下標(biāo)簽的一致性。為實現(xiàn)高效的軟標(biāo)簽學(xué)習(xí),引入了參考代理學(xué)習(xí)(reference agent learning)。我們的方法在Market-1501和DukeMTMC-reID上進(jìn)行了評估,顯著優(yōu)于當(dāng)前最好的無監(jiān)督RE-ID方法。

Visual Tracking via Adaptive Spatially-Regularized Correlation Filters

基于自適應(yīng)空間加權(quán)相關(guān)濾波的視覺跟蹤研究

全球計算機視覺頂會CVPR 連續(xù)三年收錄騰訊優(yōu)圖論文 2019收錄25篇

本文提出自適應(yīng)空間約束相關(guān)濾波算法來同時優(yōu)化濾波器權(quán)重及空間約束矩陣。首先,本文所提出的自適應(yīng)空間約束機制可以高效地學(xué)習(xí)得到一個空間權(quán)重以適應(yīng)目標(biāo)外觀變化,因此可以得到更加魯棒的目標(biāo)跟蹤結(jié)果。其次,本文提出的算法可以通過交替迭代算法來高效進(jìn)行求解,基于此,每個子問題都可以得到閉合的解形式。再次,本文所提出的跟蹤器使用兩種相關(guān)濾波模型來分別估計目標(biāo)的位置及尺度,可以在得到較高定位精度的同時有效減少計算量。大量的在綜合數(shù)據(jù)集上的實驗結(jié)果證明了本文所提出的算法可以與現(xiàn)有的先進(jìn)算法取得相當(dāng)?shù)母櫧Y(jié)果,并且達(dá)到了實時的跟蹤速度。

Adversarial Attacks Beyond the Image Space

超越圖像空間的對抗攻擊

生成對抗實例是理解深度神經(jīng)網(wǎng)絡(luò)工作機理的重要途徑。大多數(shù)現(xiàn)有的方法都會在圖像空間中產(chǎn)生擾動,即獨立修改圖像中的每個像素。在本文中,我們更為關(guān)注與三維物理性質(zhì)(如旋轉(zhuǎn)和平移、照明條件等)有意義的變化相對應(yīng)的對抗性示例子集。可以說,這些對抗方法提出了一個更值得關(guān)注的問題,因為他們證明簡單地干擾現(xiàn)實世界中的三維物體和場景也有可能導(dǎo)致神經(jīng)網(wǎng)絡(luò)錯分實例。在分類和視覺問答問題的任務(wù)中,我們在接收2D輸入的神經(jīng)網(wǎng)絡(luò)前邊增加一個渲染模塊來拓展現(xiàn)有的神經(jīng)網(wǎng)絡(luò)。我們的方法的流程是:先將3D場景(物理空間)渲染成2D圖片(圖片空間),然后經(jīng)過神經(jīng)網(wǎng)絡(luò)把他們映射到一個預(yù)測值(輸出空間)。這種對抗性干擾方法可以超越圖像空間。在三維物理世界中有明確的意義。雖然圖像空間的對抗攻擊可以根據(jù)像素反照率的變化來解釋,但是我們證實它們不能在物理空間給出很好的解釋,這樣通常會具有非局部效應(yīng)。但是在物理空間的攻擊是有可能超過圖像空間的攻擊的,雖然這個比圖像空間的攻擊更難,體現(xiàn)在物理世界的攻擊有更低的成功率和需要更大的干擾。

LearningContextGraphforPersonSearch

基于上下文圖網(wǎng)絡(luò)的行人檢索模型

全球計算機視覺頂會CVPR 連續(xù)三年收錄騰訊優(yōu)圖論文 2019收錄25篇

本文由騰訊優(yōu)圖實驗室與上海交通大學(xué)主導(dǎo)完成。

近年來,深度神經(jīng)網(wǎng)絡(luò)在行人檢索任務(wù)中取得了較大的成功。但是這些方法往往只基于單人的外觀信息,其在處理跨攝像頭下行人外觀出現(xiàn)姿態(tài)變化、光照變化、遮擋等情況時仍然比較困難。本文提出了一種新的基于上下文信息的行人檢索模型。所提出的模型將場景中同時出現(xiàn)的其他行人作為上下文信息,并使用卷積圖模型建模這些上下文信息對目標(biāo)行人的影響。我們在兩個著名的行人檢索數(shù)據(jù)集CUHK-SYSU和PRW的兩個評測維度上刷新了當(dāng)時的世界紀(jì)錄,取得了top1的行人檢索結(jié)果。

Underexposed Photo Enhancement using Deep Illumination Estimation

基于深度學(xué)習(xí)優(yōu)化光照的暗光下的圖像增強

全球計算機視覺頂會CVPR 連續(xù)三年收錄騰訊優(yōu)圖論文 2019收錄25篇

隨著智能手機的普及,照片分享成為網(wǎng)絡(luò)中非常流行的社交方式。然而,受外部光照條件影響(如背光、低光照等)及用戶拍照技術(shù)所限,實際中拍攝得到的照片通常會出現(xiàn)欠曝光現(xiàn)象。由于欠曝光圖像通常能見度較差、顏色暗淡且視覺上不友好,因而難以有效傳達(dá)用戶期望且應(yīng)用場景有限。為改善此類圖像質(zhì)量,欠曝光圖像增強應(yīng)運而生。然而,該問題由于同時涉及對圖像多種外觀因素(如亮度,對比度,飽和度等)的編輯,且并沒有統(tǒng)一客觀的優(yōu)化目標(biāo)而異常具有挑戰(zhàn)性?，F(xiàn)有方法通常無法生成視覺上令人愉悅的結(jié)果。

本文介紹了一種新型端到端深度神經(jīng)網(wǎng)絡(luò),用于增強曝光不足的照片。不同于現(xiàn)有方法直接學(xué)習(xí)圖像到圖像的映射,我們引入圖像光照作為中間變量,將輸入圖像與預(yù)期增強結(jié)果相關(guān)聯(lián),以增強網(wǎng)絡(luò)從專家修飾的輸入/輸出圖像對中學(xué)習(xí)復(fù)雜攝影調(diào)整的能力?；谠撍枷?我們制定了一個集光照約束和先驗于一體的損失函數(shù),同時構(gòu)建了一個包含3000張曝光不足圖像對的新數(shù)據(jù)集,并在該數(shù)據(jù)集上訓(xùn)練網(wǎng)絡(luò),賦予其對于不同照明條件欠曝光圖像的修復(fù)能力。通過這些方式,我們的網(wǎng)絡(luò)能夠快速恢復(fù)出具有清晰細(xì)節(jié),鮮明對比度和自然色彩的增強結(jié)果。我們在基準(zhǔn)數(shù)據(jù)集MIT-Adobe FiveK和我們的新數(shù)據(jù)集進(jìn)行了大量實驗和測試,結(jié)果表明我們的網(wǎng)絡(luò)可以更有效地處理困難圖像,且生成的結(jié)果更被用戶青睞。

Homomorphic Latent Space Interpolation for Unpaired Image-to-image Translation

基于同態(tài)隱空間插值的不成對圖片到圖片轉(zhuǎn)換

生成對抗網(wǎng)絡(luò)在不成對的圖像到圖像轉(zhuǎn)換中取得了巨大成功。循環(huán)一致性允許對沒有配對數(shù)據(jù)的兩個不同域之間的關(guān)系建模。在本文中,我們提出了一個替代框架,作為潛在空間插值的擴展,在圖像轉(zhuǎn)換中考慮兩個域之間的中間部分。該框架基于以下事實:在平坦且光滑的潛在空間中,存在連接兩個采樣點的多條路徑。正確選擇插值的路徑允許更改某些圖像屬性,而這對于在兩個域之間生成中間圖像是非常有用的。我們還表明該框架可以應(yīng)用于多域和多模態(tài)轉(zhuǎn)換。廣泛的實驗表明該框架對各種任務(wù)具有普遍性和適用性。

X2CT-GAN: Reconstructing CT from Biplanar X-Rays with Generative Adversarial Networks

基于生成對抗網(wǎng)絡(luò)的雙平面X光至CT生成系統(tǒng)

當(dāng)下CT成像可以提供三維全景視角幫助醫(yī)生了解病人體內(nèi)的組織器官的情況,來協(xié)助疾病的診斷。但是CT成像與X光成像相比,給病人帶來的輻射劑量較大,并且費用成本較高。傳統(tǒng)CT影像的三維重建過程中圍繞物體中心旋轉(zhuǎn)采集并使用了大量的X光投影,這在傳統(tǒng)的X光機中也是不能實現(xiàn)的。在這篇文章中,我們創(chuàng)新性的提出了一種基于對抗生成網(wǎng)絡(luò)的方法,只使用兩張正交的二維X光圖片來重建逼真的三維CT影像。核心的創(chuàng)新點包括增維生成網(wǎng)絡(luò),多視角特征融合算法等。我們通過實驗與量化分析,展示了該方法在二維X光到三維CT重建上大大優(yōu)于其他對比方法。通過可視化CT重建結(jié)果,我們也可以直觀的看到該方法提供的細(xì)節(jié)更加逼真。在實際應(yīng)用中, 我們的方法在不改變現(xiàn)有X光成像流程的前提下,可以給醫(yī)生提供額外的類CT的三維影像,來協(xié)助他們更好的診斷。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

全球計算機視覺頂會CVPR 連續(xù)三年收錄騰訊優(yōu)圖論文 2019收錄25篇

下一篇