今年 ICCV 2017會(huì)議期間,COCO +Places 2017挑戰(zhàn)賽公布了獲獎(jiǎng)榜單。在COCO Challenge 和 Places Challenge 兩個(gè)板塊的七項(xiàng)比賽中,曠視科技(Face++)拿下了 COCO Detection/Segmentation Challenge(檢測(cè)/分割)、COCO Keypoint Challenge(人體關(guān)鍵點(diǎn)檢測(cè))、Places Instance Segmentation(實(shí)體分割)三個(gè)項(xiàng)目的冠軍。
有趣的是,Places Challenge 中允許提交五次成績(jī),曠視在實(shí)體分割項(xiàng)目上第一次提交的成績(jī)就以0.27717 Mean AP遠(yuǎn)遠(yuǎn)甩開(kāi)了其它隊(duì)伍中的最好成績(jī)0.24150,最終的第三次提交更繼續(xù)提升到了0.29772,穩(wěn)坐第一名。
近日,曠視科技研究院就在arXiv上連發(fā)三篇論文,內(nèi)容包括了自己在COCO +Places 2017挑戰(zhàn)賽中的獲獎(jiǎng)模型。AI 科技評(píng)論把這三篇論文簡(jiǎn)單介紹如下,感興趣的讀者歡迎查看原論文仔細(xì)研究。
Light-Head R-CNN: In Defense of Two-Stage Object Detector
· 輕量頭部 R-CNN:守護(hù)兩階段物體檢測(cè)器的尊嚴(yán)
· 論文地址:https://arxiv.org/abs/1711.07264
· 論文簡(jiǎn)介:這篇論文中,作者們首先探究了典型的兩階段物體檢測(cè)方法沒(méi)有YOLO和SSD這樣的單階段檢測(cè)方法運(yùn)行速度快的原因。他們發(fā)現(xiàn),F(xiàn)aster R-CNN 和 R-FCN 在候選區(qū)域產(chǎn)生前或后都會(huì)進(jìn)行高強(qiáng)度的計(jì)算。Faster R-CNN 在候選區(qū)域識(shí)別后有兩個(gè)全連接層,而 R-FCN 會(huì)產(chǎn)生一張很大的分?jǐn)?shù)表。這些網(wǎng)絡(luò)由于有這樣的高計(jì)算開(kāi)銷的設(shè)計(jì),運(yùn)行速度就較慢。即便作者們嘗試大幅度縮減基準(zhǔn)模型的大小,計(jì)算開(kāi)銷也無(wú)法以同樣幅度減少。
曠視科技的作者們?cè)谡撐闹刑岢隽艘粋€(gè)新的兩階段檢測(cè)器,Light-Head R-CNN,輕量頭部 R-CNN,意在改善當(dāng)前的兩階段方法中計(jì)算開(kāi)銷大的缺點(diǎn)。在他們的設(shè)計(jì)中,通過(guò)使用小規(guī)模的feature map和小規(guī)模的R-CNN子網(wǎng)絡(luò)(池化層和單個(gè)全連接層),網(wǎng)絡(luò)的頭部被做得盡可能輕量化。作者們基于ResNet-101構(gòu)造了一個(gè)輕量頭部的R-CNN網(wǎng)絡(luò),在COCO數(shù)據(jù)集上超越當(dāng)前最好水準(zhǔn)的同時(shí)還保持了很高的時(shí)間效率。更重要的是,只要把骨干結(jié)構(gòu)換成一個(gè)較小的網(wǎng)絡(luò)(比如 Xception),作者們的 Light-Head R-CNN 就可以在COCO數(shù)據(jù)集上以102FPS的運(yùn)行速度得到30.7mmAP的成績(jī),在速度和準(zhǔn)確率兩個(gè)方面都明顯好于YOLO和SSD這樣的快速單階段檢測(cè)方法。相關(guān)代碼將會(huì)公開(kāi)發(fā)布。
檢測(cè)精度與推理時(shí)間對(duì)比圖
Cascaded Pyramid Network for Multi-Person Pose Estimation
· 用于多人姿態(tài)估計(jì)的級(jí)聯(lián)金字塔網(wǎng)絡(luò)CPN
· COCO Keypoint Challenge 第一名
· 論文地址:https://arxiv.org/abs/1711.07319
· 論文簡(jiǎn)介:多人姿態(tài)估計(jì)這個(gè)課題的研究成果近期有了很大的提升,尤其是在卷積神經(jīng)網(wǎng)絡(luò)快速發(fā)展的幫助下。然而,還是有許多情境會(huì)造成檢測(cè)困難,比如關(guān)鍵點(diǎn)重疊、關(guān)鍵點(diǎn)不可見(jiàn)以及背景復(fù)雜的情況都還解決得不理想。在這篇論文中,作者們提出了一種新的網(wǎng)絡(luò)結(jié)構(gòu) Cascaded Pyramid Network,級(jí)聯(lián)金字塔網(wǎng)絡(luò) CPN,意在解決這些困難情境下的關(guān)鍵點(diǎn)識(shí)別問(wèn)題。具體來(lái)說(shuō),他們的算法包含兩個(gè)階段,GlobalNet 和 RefineNet。GlobalNet 是一個(gè)特征金字塔網(wǎng)絡(luò),它可以找到所有“簡(jiǎn)單”的關(guān)鍵點(diǎn),比如眼、手;重疊的或者不可見(jiàn)的關(guān)鍵點(diǎn)就可能無(wú)法準(zhǔn)確識(shí)別。然后RefineNet 是專門用來(lái)處理“難”的關(guān)鍵點(diǎn)的,它會(huì)把 GlobalNet 中所有級(jí)別的特征表征和一個(gè)難關(guān)鍵點(diǎn)的挖掘損失集成到一起??偟膩?lái)說(shuō),為了解決多人姿態(tài)預(yù)測(cè)問(wèn)題,他們采用了一個(gè)逐步細(xì)化的流水線,首先用檢測(cè)器生成一組邊界框,框出圖中的人體,然后用級(jí)聯(lián)金字塔網(wǎng)絡(luò) CPN在每個(gè)人體邊界框中定位關(guān)鍵點(diǎn)。
根據(jù)所提的算法,曠視科技的作者們?cè)贑OCO的關(guān)鍵點(diǎn)檢測(cè)比賽中刷新了最好成績(jī),在COCO test-dev 數(shù)據(jù)集上取得73.0的平均精度,并在COCO test-challenge 數(shù)據(jù)集上取得72.1的平均精度。這一成績(jī)比COCO 2016 關(guān)鍵點(diǎn)檢測(cè)比賽的最好成績(jī)60.5提升了19%之多。
CPN 的部分檢測(cè)結(jié)果
MegDet: A Large Mini-Batch Object Detector
· mini-batch很大的物體檢測(cè)模型MegDet
· COCO Detection/Segmentation Challenge 第一名
· 論文地址:https://arxiv.org/abs/1711.07240
· 論文簡(jiǎn)介:基于CNN的物體檢測(cè)研究一直在不斷進(jìn)步,從 R-CNN 到 Fast/Faster R-CNN,到近期的 Mask R-CNN,再到 RetinaNet,主要的改進(jìn)點(diǎn)都在于新的網(wǎng)絡(luò)架構(gòu)、新的范式、或者新的損失函數(shù)設(shè)計(jì)。然而mini-batch大小,這個(gè)訓(xùn)練中的關(guān)鍵因素并沒(méi)有得到完善的研究。在這篇論文中,作者們提出了一個(gè)大mini-batch物體檢測(cè)模型MegDet,從而可以使用遠(yuǎn)大于以往的mini-batch大小訓(xùn)練網(wǎng)絡(luò)(比如從16增大到256),這樣同時(shí)也可以高效地利用多塊GPU聯(lián)合訓(xùn)練(在論文的實(shí)驗(yàn)中最多使用了128塊GPU),大大縮短訓(xùn)練時(shí)間。技術(shù)層面上,作者們也了提出了一種學(xué)習(xí)率選擇策略以及跨GPU的batch normalization方法,兩者共同使用就得以大幅度減少大mini-batch物體檢測(cè)器的訓(xùn)練時(shí)間(例如從33小時(shí)減少到僅僅4個(gè)小時(shí)),同時(shí)還可以達(dá)到更高的準(zhǔn)確率。文中所提的MegDet就是提交到COCO2017比賽的mmAP 52.5%成績(jī)背后的骨干結(jié)構(gòu),這個(gè)成績(jī)也拿下了檢測(cè)任務(wù)的第一名。
同一個(gè)物體檢測(cè)網(wǎng)絡(luò)在COCO數(shù)據(jù)集上訓(xùn)練的驗(yàn)證準(zhǔn)確率,mini-batch數(shù)量為16的運(yùn)行在8塊GPU上,256的運(yùn)行在128塊GPU上。mini-batch更大的檢測(cè)器準(zhǔn)確率更高,訓(xùn)練速度也幾乎要快一個(gè)數(shù)量級(jí)。
“4.6億美元融資”、“姚期智院士加盟”、“人臉識(shí)別方案應(yīng)用于多款手機(jī)上”,再加上COCO比賽相關(guān)的技術(shù)成果和比賽成績(jī),僅近期的幾則消息就可以說(shuō)明曠視科技已經(jīng)走得很大、很穩(wěn)了。相信未來(lái)曠視科技研究院將在計(jì)算機(jī)視覺(jué)領(lǐng)域做出更多的研究成果,在世界范圍內(nèi)取得商業(yè)和學(xué)術(shù)的雙豐收。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 比亞迪第五代DM技術(shù)問(wèn)世,首搭秦L/海豹06 DM-i,開(kāi)創(chuàng)油耗2時(shí)代!
- 小紅書沉帖降權(quán)怎么做,有效方法大盤點(diǎn)!
- 亞洲時(shí)刻京東送上電視好禮 以舊換新一體化服務(wù)讓低價(jià)更靠譜
- 互聯(lián)網(wǎng)營(yíng)銷師和全媒體運(yùn)營(yíng)師的區(qū)別?
- 聯(lián)想集團(tuán)車計(jì)算“超級(jí)大腦”概念機(jī)亮相
- 華策影視設(shè)立專項(xiàng)基金成立AIGC應(yīng)用研究院
- 三部委審批,聯(lián)合發(fā)布9個(gè)新職業(yè),“互聯(lián)網(wǎng)營(yíng)銷師”上榜
- 互聯(lián)網(wǎng)營(yíng)銷師的報(bào)考條件是什么?
- 互聯(lián)網(wǎng)營(yíng)銷師的適合人群有哪些?
- 互聯(lián)網(wǎng)營(yíng)銷師行業(yè)前景怎么樣?
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。