實(shí)例分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)任務(wù),需要算法預(yù)測(cè)出圖像中每個(gè)實(shí)例的掩膜和對(duì)應(yīng)的分類(lèi)標(biāo)簽。Mask R-CNN作為一種性能優(yōu)異的算法,在實(shí)例分割領(lǐng)域取得了巨大成功,這種兩階段的方法主要依賴(lài)于ROI操作來(lái)獲取最終的實(shí)例掩膜。
而在這篇文章中,作者從全新的角度解決了實(shí)例分割問(wèn)題,來(lái)自澳大利亞阿德萊德大學(xué)的研究人員在實(shí)例條件下提出了動(dòng)態(tài)實(shí)例生成的網(wǎng)絡(luò)模型,代替了先前逐個(gè)實(shí)例的ROI區(qū)域作為預(yù)測(cè)的輸入。
這種全卷積網(wǎng)絡(luò)消除了對(duì)于ROI區(qū)域測(cè)裁剪操作和特征配準(zhǔn)方法,其次由于動(dòng)態(tài)生成的條件卷積大幅提升了網(wǎng)絡(luò)容量使得mask分支變得非常緊湊,推理速度得到了大幅度提升。實(shí)驗(yàn)表明這種方法無(wú)需更長(zhǎng)時(shí)間的訓(xùn)練,在COCO數(shù)據(jù)集上取得了比Mask R-CNN更好的結(jié)果,同時(shí)在精度和速度上都得到了明顯提升。
實(shí)例分割
Mask R-CNN是近幾年來(lái)實(shí)例分割領(lǐng)域非常重要的突破,它使用了Faster R-CNN來(lái)為每個(gè)實(shí)例預(yù)測(cè)邊界框,而后針對(duì)每個(gè)實(shí)例利用ROIAlign操作對(duì)在特征圖中進(jìn)行ROI區(qū)域裁剪,最后利用緊湊的全卷積網(wǎng)絡(luò)來(lái)對(duì)每一個(gè)實(shí)例的掩膜進(jìn)行預(yù)測(cè)。
然而這種基于ROI的方法也有著諸多需要克服的困難:
首先ROI一般都是和圖像坐標(biāo)軸對(duì)齊的邊框,當(dāng)遇到非常規(guī)不規(guī)則物體時(shí)框中就會(huì)包含較多的背景或者其他實(shí)例的部分。雖然可以通過(guò)旋轉(zhuǎn)ROI解決這一問(wèn)題,但隨之而來(lái)是更為復(fù)雜的計(jì)算代價(jià)和處理流程;其次為了區(qū)分前景和背景或者其他雜亂的實(shí)例,mask端需要堆疊更多的卷積層來(lái)獲取更大的感受野,這使得計(jì)算量大幅增加;第三由于ROI尺寸各不相同,為了有效利用批(batch)處理計(jì)算它們會(huì)被重置為相同的大小,這會(huì)限制大范圍實(shí)例的分辨率。
在計(jì)算機(jī)視覺(jué)領(lǐng)域與實(shí)例分割最相近的要數(shù)語(yǔ)義分割了,全卷積網(wǎng)絡(luò)FCN在這一任務(wù)上取得了巨大的成功。此外FCN同時(shí)也在其他逐像素的預(yù)測(cè)任務(wù)上表現(xiàn)優(yōu)異,像圖像去噪、超分辨這類(lèi)底層圖像處理任務(wù)、光流估計(jì)和邊緣檢測(cè)這類(lèi)中級(jí)任務(wù),單發(fā)目標(biāo)檢測(cè)、單目深度估計(jì)和目標(biāo)計(jì)數(shù)這類(lèi)高級(jí)任務(wù)都有著FCN的貢獻(xiàn)。但在實(shí)例分割任務(wù)中幾乎所有的純粹FCN方法都沒(méi)有達(dá)到最先進(jìn)的水平。究竟是什么原因讓強(qiáng)大的FCN在實(shí)例分割中敗下陣來(lái)呢?
研究人員發(fā)現(xiàn)主要的問(wèn)題在于,網(wǎng)絡(luò)對(duì)于同一張圖像需要針對(duì)不同類(lèi)別預(yù)測(cè)出不同的掩膜,這會(huì)讓FCN陷入兩難的境地。例如針對(duì)兩個(gè)人A和B,在圖像中具有相同的外觀和形狀特征,但在預(yù)測(cè)A的掩膜時(shí)網(wǎng)絡(luò)需要將B視為背景,這會(huì)讓網(wǎng)絡(luò)陷入到一定程度的迷茫中。所以ROI才需要將目標(biāo)區(qū)域特征圖剪切出來(lái)。
本質(zhì)上來(lái)講,實(shí)例分割網(wǎng)絡(luò)需要兩種類(lèi)型的信息:外觀形狀特征信息用于確定目標(biāo)類(lèi)別、位置信息用于從同一類(lèi)中區(qū)分出不同的實(shí)例?;赗OI的方法都隱式地編碼了目標(biāo)實(shí)例的位置信息。而這篇文章的方法則探索對(duì)對(duì)于實(shí)例位置敏感的卷積層來(lái)嘗試解決目標(biāo)位置信息問(wèn)題。
基于這樣的考量,研究人員提出了新的解決方法,來(lái)代替標(biāo)準(zhǔn)的、由一系列固定權(quán)重濾波器組成的ConvNet來(lái)作為實(shí)例預(yù)測(cè)端針對(duì)所有實(shí)例進(jìn)行處理,利用了一種參數(shù)基于待預(yù)測(cè)實(shí)例自適應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)進(jìn)行預(yù)測(cè)。在動(dòng)態(tài)濾波器和條件卷積的啟發(fā)下,控制子網(wǎng)絡(luò)會(huì)針對(duì)每一個(gè)實(shí)例動(dòng)態(tài)生成mask FCN的網(wǎng)絡(luò)參數(shù)(也就是基于帶預(yù)測(cè)實(shí)例的中心區(qū)域來(lái)生成),隨后這些參數(shù)實(shí)例化為mask FCN用于預(yù)測(cè)對(duì)應(yīng)實(shí)例的掩膜。
其中的思想在于網(wǎng)絡(luò)參數(shù)能夠編碼實(shí)例的特征、并僅激活這一實(shí)例的像素,巧妙地避開(kāi)了前面提到的問(wèn)題。得到的條件mask端作用于整個(gè)特征圖免去了獲取ROI的操作。這一方法也許在有的人看來(lái)會(huì)帶來(lái)非常多的網(wǎng)絡(luò)參數(shù)(由于實(shí)例的數(shù)量很多),但研究人員巧妙地利用了動(dòng)態(tài)生成的濾波器來(lái)構(gòu)建緊湊的FCN mask預(yù)測(cè)端,在提高性能的同時(shí),大幅度減少了計(jì)算復(fù)雜性。
CondInst
實(shí)例分割模型的目標(biāo)在于通過(guò)輸入圖像為圖中的實(shí)例預(yù)測(cè)出對(duì)應(yīng)的掩膜,實(shí)例數(shù)量的不確定對(duì)于傳統(tǒng)的FCN來(lái)說(shuō)十分困難。本文工作的核心在于,針對(duì)圖中待處理的K個(gè)實(shí)例,模型會(huì)動(dòng)態(tài)生成K個(gè)不同的掩膜處理端,每個(gè)掩膜處理分支將目標(biāo)實(shí)例的特征包含在了其參數(shù)中。當(dāng)其作用于特征圖時(shí)僅僅會(huì)激活實(shí)例上的像素用于掩膜預(yù)測(cè)。下圖顯示了模型的主要架構(gòu):
12下一頁(yè)>(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )