123,123

作者：美國(guó)康奈爾大學(xué)四年級(jí)本科生林之秋將門好聲音第·55·期CVPR 2020系列分享第·14·期2020年讓我們不斷見(jiàn)識(shí)到“后浪”的超強(qiáng)力量，也讓世界看到了矚目的華人新星。在今年6月舉辦的CVPR中，年齡最小的一位一作獲獎(jiǎng)?wù)呱踔吝€在本科階段。他就是來(lái)自康奈爾大學(xué)的四年級(jí)學(xué)生、98年出生的AI科學(xué)新秀——林之秋。

林之秋以一作身份提交CVPR 2020的論文「視覺(jué)手性」（Visual Chirality）獲得了最佳論文提名獎(jiǎng)。在本文中，林之秋等人首次挑戰(zhàn)了常規(guī)神經(jīng)網(wǎng)絡(luò)訓(xùn)練中圖片”翻轉(zhuǎn)不變性“（flip－invariant）的這一假設(shè)，在多種領(lǐng)域上利用卷積神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)了許多常人難以捕捉的”視覺(jué)手性“線索，并通過(guò)自監(jiān)督訓(xùn)練在多項(xiàng)數(shù)據(jù)集上達(dá)到了60％甚至到90％的精度。

本文作者

林之秋，就讀于美國(guó)常春藤高校康奈爾大學(xué)。他同時(shí)選修了計(jì)算機(jī)和數(shù)學(xué)兩個(gè)專業(yè)，僅用兩年時(shí)間就全部修完本科課程。大二開(kāi)始選修博士課程，同時(shí)跟隨計(jì)算機(jī)系的教授從事科研工作。由于成績(jī)極為優(yōu)異，自大二起林之秋就接受計(jì)算機(jī)系里邀請(qǐng)，以助教身份給高年級(jí)同學(xué)講課，為康奈爾科技學(xué)院的同學(xué)編寫(xiě)碩士生的預(yù)修課程，甚至在高階機(jī)器學(xué)習(xí)課上給博士生的卷子打分。

剛剛21歲、本科畢業(yè)的林之秋，在學(xué)院數(shù)千名學(xué)生中名列前三，被授予學(xué)院最高榮譽(yù)，并受院長(zhǎng)邀請(qǐng)代表學(xué)院在畢業(yè)典禮上舉旗。之后，他即將前往專業(yè)排名世界第一的卡內(nèi)基梅隆的機(jī)器人學(xué)院攻讀博士學(xué)位。

導(dǎo)讀：

鏡子的歷史與人類文明幾乎一樣長(zhǎng)，而古今中外文學(xué)史上有關(guān)鏡子的描寫(xiě)更是數(shù)不勝數(shù)。從愛(ài)麗絲鏡中奇遇記，到西游記里托塔天王的照妖鏡，再到J·K·羅琳筆下哈利波特世界里的厄里斯魔鏡，這些有關(guān)鏡子的故事都可謂是家喻戶曉。在近年來(lái)的計(jì)算機(jī)視覺(jué)領(lǐng)域，鏡像翻轉(zhuǎn)更是一種最為常用的數(shù)據(jù)增強(qiáng)方法。

然而，在本屆CVPR 2020中獲得Best Paper Nomination的「視覺(jué)手性」（Visual Chirality）一文中，來(lái)自康奈爾大學(xué)的研究員林之秋等人首次挑戰(zhàn)了常規(guī)神經(jīng)網(wǎng)絡(luò)訓(xùn)練中圖片”翻轉(zhuǎn)不變性“ （flip－invariant）的這一假設(shè)。這篇文章在多種領(lǐng)域（人臉，互聯(lián)網(wǎng)圖片，數(shù)字處理圖像）上利用卷積神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)了許多常人難以捕捉的”視覺(jué)手性“線索，并通過(guò)自監(jiān)督訓(xùn)練在多項(xiàng)數(shù)據(jù)集上達(dá)到了60％甚至到90％的精度。

一、簡(jiǎn)介

神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要大量標(biāo)注數(shù)據(jù)，但數(shù)據(jù)又永遠(yuǎn)是有限的。為了用有限的標(biāo)注數(shù)據(jù)來(lái)擬合函數(shù)，人們使用數(shù)據(jù)增強(qiáng)（data augmentation）的方法來(lái)低成本得獲得更多的標(biāo)記數(shù)據(jù)。

而鏡像翻轉(zhuǎn)則是最常用的圖像數(shù)據(jù)增強(qiáng)方法之一。只需要將所有圖片都進(jìn)行一次鏡像翻轉(zhuǎn)，我們就相當(dāng)于免費(fèi)得到了雙倍的數(shù)據(jù)。

但事情真的這么簡(jiǎn)單么？當(dāng)我們翻轉(zhuǎn)了數(shù)據(jù)集里所有的圖片時(shí)，神經(jīng)網(wǎng)絡(luò)所擬合的函數(shù)還能代表原先的圖像分布么？來(lái)自康奈爾大學(xué)研究員的「視覺(jué)手性（Visual Chirality）」這篇論文首次討論了這一話題。

為了理解這一鏡像翻轉(zhuǎn)話題，我們先從一個(gè)小測(cè)試開(kāi)始：

你能判斷以下三張圖片哪張被鏡像翻轉(zhuǎn)（水平翻轉(zhuǎn)）了嗎？

圖一：鏡像翻轉(zhuǎn)（線索：文字）。我們可以很容易看出來(lái)文字被翻轉(zhuǎn)過(guò)了。

圖二：沒(méi)有翻轉(zhuǎn)（線索：紐扣）。男士襯衫的紐扣一般位于身體右側(cè)。

圖三：鏡像翻轉(zhuǎn)（線索：吉他）。吉他手的主手應(yīng)當(dāng)在吉他右側(cè)。

對(duì)于大部分的互聯(lián)網(wǎng)圖片來(lái)說(shuō)（例如圖二圖三），鏡像翻轉(zhuǎn)對(duì)于人類而言并沒(méi)有多少區(qū)別，因而難以判斷。然而，神經(jīng)網(wǎng)絡(luò)卻可以通過(guò)自監(jiān)督訓(xùn)練的方法在這個(gè)任務(wù)上達(dá)到非常高的精度，并能指出圖片中哪些區(qū)域可以被用于識(shí)別鏡像翻轉(zhuǎn)（以上三張圖片利用了類激活映射（CAM）方法進(jìn)行了高亮）。

康奈爾的研究人員將這一視覺(jué)現(xiàn)象定義為“視覺(jué)手性”（Visual Chirality）。

在化學(xué)等學(xué)科上，手性（Chirality）的定義為“一個(gè)物體無(wú)法與其鏡像相重合”。這種不對(duì)稱性在自然界大量存在，并在不同領(lǐng)域有著廣泛的應(yīng)用。

手具有手性（Chiral），因?yàn)殓R像翻轉(zhuǎn)后無(wú)法與原圖重合。而杯子是軸心對(duì)稱，所以不具備手性。

手性（Chirality）代表著單個(gè)圖片的翻轉(zhuǎn)不對(duì)稱性，而視覺(jué)手性（Visual Chirality）則是針對(duì)圖像分布（Image Distribution）所定義的翻轉(zhuǎn)不對(duì)稱性。

假設(shè)一個(gè)圖像分布中包含了右手和左手的照片（左右手的圖片出現(xiàn)概率一致），那么此時(shí)，盡管每張圖片都具有手性，這個(gè)圖像分布卻不具備視覺(jué)手性。這是由于左手鏡像翻轉(zhuǎn)后就和右手長(zhǎng)的一樣了。反之，假設(shè)一個(gè)圖像分布中只存在右手不存在左手，那么這個(gè)分布就具備視覺(jué)手性（或稱翻轉(zhuǎn)不對(duì)稱性），因?yàn)槲覀冎酪粡堊笫值恼掌厝粸殓R像翻轉(zhuǎn)。用統(tǒng)計(jì)學(xué)的術(shù)語(yǔ)來(lái)定義的話，假設(shè)有圖像分布D，而其中一個(gè)圖像是x，那么其在分布中出現(xiàn)概率是D（x）。我們將鏡像翻轉(zhuǎn)的操作稱為T，而翻轉(zhuǎn)圖片x我們可以得到T（x）。

那么圖像分布D具備視覺(jué)手性意味著：D中存在圖片x，滿足D（x）≠D（T（x））的條件。

如下圖所示，假設(shè)我們有一個(gè)一維的分布（橫軸上每個(gè)點(diǎn)都為一個(gè)元素），那么藍(lán)色實(shí)線所代表的分布則具備視覺(jué)手性，因?yàn)閤1和x2分別與T（x1）和T（x2）的出現(xiàn)概率不一致：

當(dāng)一個(gè)圖像分布具備視覺(jué)手性時(shí)，使用鏡像翻轉(zhuǎn)作為數(shù)據(jù)增強(qiáng)方法將不可避免的改變一個(gè)數(shù)據(jù)集所代表的分布。換句話說(shuō)，只有當(dāng)一個(gè)圖像分布不具備視覺(jué)手性的時(shí)候，我們才能在不改變?cè)葓D像分布的前提下，使用鏡像翻轉(zhuǎn)來(lái)增強(qiáng)數(shù)據(jù)集。

然而，視覺(jué)手性是大部分視覺(jué)領(lǐng)域都擁有的屬性。正如此篇文章作者，谷歌AI科學(xué)家Noah Snavely教授所說(shuō)：

“在計(jì)算機(jī)視覺(jué)的研究中，我們常把這個(gè)世界視為”翻轉(zhuǎn)不變“的，鏡像翻轉(zhuǎn)因而是一個(gè)常規(guī)的數(shù)據(jù)增強(qiáng)方法。然而，當(dāng)你翻轉(zhuǎn)圖片后，文字將被顛倒，左手變?yōu)橛沂?，而螺旋意大利面也將朝相反方向旋轉(zhuǎn)?！?/p>

為了挑戰(zhàn)了人們先前在計(jì)算機(jī)視覺(jué)中對(duì)于“翻轉(zhuǎn)不變性”的假設(shè)，「視覺(jué)手性」這篇文章通過(guò)自監(jiān)督訓(xùn)練在幾個(gè)不同視覺(jué)領(lǐng)域驗(yàn)證了“視覺(jué)手性”的存在。

二、訓(xùn)練方法

「視覺(jué)手性」這篇文章利用了自監(jiān)督學(xué)習(xí)（self－supervised learning）方法來(lái)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。對(duì)于任何一個(gè)數(shù)據(jù)集，只需要將其原有的圖片標(biāo)記為“無(wú)翻轉(zhuǎn)”，并將鏡像翻轉(zhuǎn)過(guò)的圖片標(biāo)記為“有翻轉(zhuǎn)”，即可訓(xùn)練神經(jīng)網(wǎng)絡(luò)識(shí)別鏡像翻轉(zhuǎn)這一二分類任務(wù)（binary classification）。同時(shí)我們可以根據(jù)神經(jīng)網(wǎng)絡(luò)在驗(yàn)證集（validation set）的表現(xiàn)上來(lái)評(píng)估這一圖像分布是否具備視覺(jué)手性：如果驗(yàn)證集上的精度要顯著大于50％，我們便有充足的證據(jù)來(lái)證明視覺(jué)手性的存在。

作者在這篇文章中利用了ResNet－50作為基本的網(wǎng)絡(luò)結(jié)構(gòu)，并使用SGD方法來(lái)訓(xùn)練網(wǎng)絡(luò)?；谙惹白员O(jiān)督學(xué)習(xí)方法的啟發(fā)，作者將同一張圖片的原圖和翻轉(zhuǎn)圖放到了SGD的同一batch里（shared－batch training），加速了網(wǎng)絡(luò)的訓(xùn)練。

為了了解神經(jīng)網(wǎng)絡(luò)學(xué)到了哪些視覺(jué)手性線索，作者利用了類激活映射（CAM：Class Activation Map）方法，在原有圖片上對(duì)于視覺(jué)手性敏感的區(qū)域進(jìn)行了高亮。同時(shí)因?yàn)槟茉斐梢曈X(jué)手性的現(xiàn)象有很多，作者推出了一個(gè)簡(jiǎn)單的基于類激活映射的聚類方法：手性特征聚類（Chiral Feature Clustering）。

三、手性特征聚類方法

類激活映射方法本質(zhì)上是對(duì)于神經(jīng)網(wǎng)絡(luò)最后一層卷積層輸出的特征圖（feature map）的加權(quán)線性和（linear weighted sum）。當(dāng)我們假設(shè)神經(jīng)網(wǎng)絡(luò)是利用區(qū)域特征（local feature）來(lái)判斷圖像是否為鏡像翻轉(zhuǎn)時(shí)，我們可以將類激活映射（CAM）最強(qiáng)的區(qū)域視為神經(jīng)網(wǎng)絡(luò)最為關(guān)注的區(qū)域特征。只需要取最后一層卷積層輸出的特征圖上這一區(qū)域的特征，便可以利用傳統(tǒng)的聚類方法例如K－means clustering進(jìn)行自動(dòng)分類。

ResNet－50最后一層卷積輸出的特征圖為一個(gè)（16x16x2048）的三維矢量f，而類激活映射所得到的熱圖（heatmap）為（16x16）的二維矢量A。假設(shè)熱圖上數(shù)值最大的點(diǎn)為（x＊，y＊），那么我們用來(lái)聚類的區(qū)域特征即為f（x＊，y＊）。

作者在多個(gè)不同圖像分布上利用手性特征聚類方法對(duì)視覺(jué)手性現(xiàn)象進(jìn)行了歸因和討論。

四、互聯(lián)網(wǎng)圖片集

在互聯(lián)網(wǎng)圖片集上（Imagenet，Instagram，F(xiàn)lickr－F100M），神經(jīng)網(wǎng)絡(luò)在鏡像翻轉(zhuǎn)識(shí)別上取得了高達(dá)60％－80％的精度。

作者著重分析了Instagram圖片上的視覺(jué)手性現(xiàn)象。在不用隨機(jī)剪裁（random cropping）時(shí)，神經(jīng)網(wǎng)絡(luò)在測(cè)試集上取得了高達(dá)92％的精度。然而因?yàn)橛蠮PEG壓縮失真的可能性存在（JPEG edge artifact一般出現(xiàn)于圖片的邊緣），作者同樣使用隨機(jī)剪裁進(jìn)行了訓(xùn)練，并仍舊取得了高達(dá)80％的精度?？紤]到大量Instagram圖片有配文字，而文字是最明顯的視覺(jué)手性現(xiàn)象，作者用文字識(shí)別器濾除了Instagram中含有文字的圖片重新進(jìn)行了訓(xùn)練，但仍舊在測(cè)試集上取得了74％的高精度。值得一提的是這些訓(xùn)練出來(lái)的模型具有一定程度的泛化能力，可以不經(jīng)訓(xùn)練，在其他的互聯(lián)網(wǎng)圖片集（Flickr F100M）上取得高于50％的精度。

作者在Instagram圖片集上進(jìn)行了手性特征聚類，并挑選了一系列與我們生活相關(guān)的典型視覺(jué)手性現(xiàn)象進(jìn)行討論。

1、手機(jī)

對(duì)著鏡子自拍是人們最愛(ài)做的事。此類照片具有視覺(jué)手性，因?yàn)槭謾C(jī)的攝像頭一般固定在手機(jī)背面的一側(cè)（因品牌而異），同時(shí)由于多數(shù)人是右撇子，一般都以右手持手機(jī)進(jìn)行自拍。

2、吉他

幾乎大多數(shù)的吉他手都以右手撥弦，左手持把。

3、手表

手表一般都被帶在人們的右手側(cè)。

4、男士襯衫領(lǐng)子

男士襯衫的扣子一般處于右側(cè)。

5、上衣口袋

正裝上衣的口袋幾乎無(wú)一例外處于身體左側(cè)，為了更好地服務(wù)于占大多數(shù)的右撇子。

6、人臉

更令人吃驚的是，類激活映射方法在大量的人臉上出現(xiàn)了較強(qiáng)的反應(yīng)，說(shuō)明人臉中視覺(jué)手性的存在。多數(shù)情況下人臉通常被認(rèn)為是對(duì)稱的：此屆CVPR 2020另一篇Best Student Paper （Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild）更是將人臉視為了軸心對(duì)稱的物體，并以此為線索來(lái)進(jìn)行3D重建。

需要強(qiáng)調(diào)的一點(diǎn)是，這些視覺(jué)手性現(xiàn)象在每張圖片中看似孤立，但神經(jīng)網(wǎng)絡(luò)仍有可能會(huì)利用多種不同的線索來(lái)對(duì)圖片是否翻轉(zhuǎn)進(jìn)行判斷。

1234下一頁(yè)>

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。）