原標(biāo)題:最全技術(shù)剖析 百度視覺團(tuán)隊(duì)“大戰(zhàn)”O(jiān)pen Images V4目標(biāo)檢測數(shù)
眼睛是人類接觸外部世界的第一感官,對(duì)于機(jī)器而言,計(jì)算機(jī)視覺技術(shù)就是它們的“眼睛”。近日,百度視覺團(tuán)隊(duì)在全球最大規(guī)模目標(biāo)檢測競賽Google AI Open Images-Object Detection Track中再獲佳績,從全球450多支參賽隊(duì)伍中脫穎而出,獲得世界第一,并受邀在世界頂級(jí)視覺學(xué)術(shù)會(huì)議ECCV2018上進(jìn)行分享。
百度視覺團(tuán)隊(duì)可謂是國際賽事上的“常勝軍”。2018年,百度視覺團(tuán)隊(duì)先后獲得了人臉WilderFace權(quán)威數(shù)據(jù)集世界第一、OCR ICDAR權(quán)威數(shù)據(jù)集世界第一、視頻理解權(quán)威競賽ActivityNet兩項(xiàng)世界第一、圖像識(shí)別權(quán)威競賽WebVision世界第一。如今再次獲獎(jiǎng),又一次展示了百度視覺團(tuán)隊(duì)國際領(lǐng)先的平臺(tái)和技術(shù)優(yōu)勢。
Google AI Open Images-Object Detection Track是大規(guī)模目標(biāo)檢測任務(wù)的權(quán)威挑戰(zhàn)賽事,由Google AI Research舉辦,賽事遵循 PASCAL VOC、ImageNet和COCO等賽事傳統(tǒng),但數(shù)據(jù)規(guī)模遠(yuǎn)大于這些賽事。
在9月8日召開的世界頂級(jí)視覺學(xué)術(shù)會(huì)議ECCV2018上,百度視覺團(tuán)隊(duì)?wèi)?yīng)邀分享了技術(shù)細(xì)節(jié),從比賽挑戰(zhàn)和解決方案等不同方面做出深度剖析,與全球計(jì)算機(jī)視覺研究者進(jìn)一步交流。
Open Images V4數(shù)據(jù)集
據(jù)介紹,大賽采用Google今年5月份發(fā)布的Open Images V4數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集,包含超過170萬的圖片數(shù)據(jù),500個(gè)類別以及超過1200萬物體框,數(shù)據(jù)沒有完全精細(xì)標(biāo)注,屬于弱監(jiān)督任務(wù),框選類別數(shù)目不均衡且有非常廣泛的類別分布,這更符合實(shí)際情況,也意味著參加競賽的團(tuán)隊(duì)需要考慮到類別的分布,而不能統(tǒng)一對(duì)所有類別做處理,因此更具挑戰(zhàn)性。這項(xiàng)賽事有助于復(fù)雜模型的研究,同時(shí)對(duì)評(píng)估不同檢測模型的性能有積極的促進(jìn)作用。下圖為Open Image V4 與 MS COCO 和 ImageNet 檢測任務(wù)數(shù)據(jù)對(duì)比情況。
Open Image V4 與 MSCOCO及ImageNet 檢測數(shù)據(jù)對(duì)比情況
與傳統(tǒng)的檢測數(shù)據(jù)集合相比,該賽事除了數(shù)據(jù)規(guī)模大、更真實(shí)之外,還存在一系列的挑戰(zhàn)。具體來說,主要集中在以下三個(gè)方面:
·數(shù)據(jù)分布不均衡:最少的類別框選只有14個(gè),而最多的類別框選超過了140w,數(shù)據(jù)分布嚴(yán)重不均衡。
類別框數(shù)量分布
·漏標(biāo)框:很多圖片存在只標(biāo)注主體類別,其他小物體或者非目標(biāo)物體沒有標(biāo)注出來。
漏標(biāo)注圖片舉例
·尺度變化大:大部分物體框只占整個(gè)圖片的0.1以下,而有些框選卻占了整個(gè)圖片區(qū)域。如圖所示,Open Image V4集合存在更多的小物體,參賽者也會(huì)在檢測數(shù)據(jù)中遇到更大的挑戰(zhàn)。
框尺度大小分布對(duì)比
解決方案
在比賽過程中百度視覺團(tuán)隊(duì)采用了不同復(fù)雜度、不同骨架網(wǎng)絡(luò)進(jìn)行模型的訓(xùn)練,并對(duì)這些模型進(jìn)行融合。從整體方案框架來看,可分為Fast R-CNN和Faster R-CNN兩種不同的訓(xùn)練模式。Fast R-CNN版本是百度視覺團(tuán)隊(duì)研發(fā)的一套PaddlePaddle版本,在此基礎(chǔ)上Faster R-CNN加入了 FPN、Deformable、Cascade等最新的檢測算法,模型性能實(shí)現(xiàn)了大幅度的提升。
整體方案框架流程圖
·骨架網(wǎng)絡(luò)為ResNet-101 的Fast R-CNN,模型收斂后可以達(dá)到0.481,在測試階段加入Soft NMS以及 Multi-Scale Testing策略,可以達(dá)到0.508。百度也嘗試了其他骨架網(wǎng)絡(luò)(dpn98,Inception-v4,Se-ResNext101),并把不同骨架網(wǎng)絡(luò)的檢測算法融合到一起,最終mAP可以達(dá)到0.546。在Proposal采樣階段,百度在不同位置進(jìn)行不同尺度的候選框生成,然后對(duì)這些框選進(jìn)行分類以及調(diào)整他們的位置。
·Faster R-CNN: 采用這種框架可以達(dá)到略高于Fast R-CNN的效果,mAP為0.495。在測試階段使用Soft NMS以及 Multi-Scale Testing策略后,性能達(dá)到0.525。
·Deformable Convolutional Networks使用Soft NMS以及 Multi-Scale Testing策略前后,性能分別達(dá)到0.528及0.559。
·Deformable Cascade R-CNN : 使用Soft NMS以及 Multi-Scale Testing策略前后,性能分別可以達(dá)到0.581和0.590.
簡言之,在Fast R-CNN框架下,百度視覺團(tuán)隊(duì)采用了不同的骨架網(wǎng)絡(luò)進(jìn)行訓(xùn)練,而在Faster R-CNN框架下只使用了ResNet101這種骨架網(wǎng)絡(luò)進(jìn)行訓(xùn)練。在訓(xùn)練過程中,百度視覺團(tuán)隊(duì)還通過不同的策略有效解決了各種技術(shù)問題。詳情如下:
動(dòng)態(tài)采樣
Google Open Images V4 數(shù)據(jù)集大概有170w圖片,1220w框選,500個(gè)類別信息。最大的類別框選超過了140w,最小的類別只有14個(gè)框選,如果簡單使用所有的圖片及框選,需要幾十天才能進(jìn)行模型訓(xùn)練,而且很難訓(xùn)練出來一個(gè)無偏的模型。因此,需要在訓(xùn)練過程中進(jìn)行動(dòng)態(tài)采樣,如果樣本數(shù)量多則減少采樣概率,而樣本數(shù)量少則增加采樣概率。據(jù)介紹,百度視覺團(tuán)隊(duì)分別進(jìn)行全集數(shù)據(jù)訓(xùn)練、固定框選子集訓(xùn)練、動(dòng)態(tài)采樣模型訓(xùn)練三種策略進(jìn)行。
·全集數(shù)據(jù)訓(xùn)練:按照主辦方提供數(shù)據(jù)進(jìn)行訓(xùn)練,mAP達(dá)到0.50。
·固定框選子集訓(xùn)練:線下固定對(duì)每個(gè)類別最多選擇1000個(gè)框,mAP達(dá)到0.53。
·動(dòng)態(tài)采樣模型訓(xùn)練:對(duì)每個(gè)GPU、每個(gè)Epoch采用線上動(dòng)態(tài)采樣,每次采集的數(shù)據(jù)都不同,輪數(shù)達(dá)到一定數(shù)目后,整個(gè)全集的數(shù)據(jù)都能參與整體訓(xùn)練。最后mAp達(dá)到0.56。
動(dòng)態(tài)采樣策略
FPN
基于訓(xùn)練數(shù)據(jù)集的分析,百度視覺團(tuán)隊(duì)發(fā)現(xiàn)其中500個(gè)類別的尺度有很大的差異。因此他們將FPN引入到檢測模型中,即利用多尺度多層次金字塔結(jié)構(gòu)構(gòu)建特征金字塔網(wǎng)絡(luò)。在實(shí)驗(yàn)中,百度視覺團(tuán)隊(duì)以ResNet101作為骨干網(wǎng)絡(luò),在不同階段的最后一層添加了自頂向下的側(cè)連接。自頂向下的過程是向上采樣進(jìn)行的,水平連接是將上采樣的結(jié)果與自底向上生成的相同大小的feature map合并。融合后,對(duì)每個(gè)融合結(jié)果進(jìn)行3*3卷積以消除上采樣的混疊效應(yīng)。值得注意的是,F(xiàn)PN應(yīng)該嵌入到RPN網(wǎng)絡(luò)中,以生成不同的尺度特征并整合為RPN網(wǎng)絡(luò)的輸入。最終,引入FPN后的mAP可達(dá)到0.528。
Deformable Convolution Networks
百度視覺團(tuán)隊(duì)采用可變形卷積神經(jīng)網(wǎng)絡(luò)增強(qiáng)了CNNs的建模能力??勺冃尉矸e網(wǎng)絡(luò)的思想是在不需要額外監(jiān)督的情況下,通過對(duì)目標(biāo)任務(wù)的學(xué)習(xí),在空間采樣點(diǎn)上增加額外的偏移量模塊。同時(shí)將可變形卷積網(wǎng)絡(luò)應(yīng)用于以ResNet101作為骨架網(wǎng)絡(luò)的Faster R-CNN架構(gòu),并在ResNet101的res5a、5b、5c層之后應(yīng)用可變形卷積層,并將ROI Pooling層改進(jìn)為可變形位置敏感ROI Pooling層??勺冃尉矸e網(wǎng)絡(luò)的mAP性能為0.552。
Cascade R-CNN
比賽中,百度視覺團(tuán)隊(duì)使用級(jí)聯(lián)的R-CNN來訓(xùn)練檢測模型。除訓(xùn)練基本模型外,還使用包含五個(gè)尺度特征金字塔網(wǎng)絡(luò)(FPN)和3個(gè)尺度anchors的RPN網(wǎng)絡(luò)。此外,他們還訓(xùn)練了一個(gè)針對(duì)全類模型中表現(xiàn)最差的150類的小類模型,并對(duì)這150類的模型分別進(jìn)行評(píng)估。得出的結(jié)論是,500類模型的MAP為0.477,而用150類單模型訓(xùn)練結(jié)果替換500類的后150類的結(jié)果,則模型的MAP提升為0.498。使用以上方法進(jìn)行訓(xùn)練的單尺度模型的性能為0.573。
Testing Tricks
在后處理階段,百度視覺團(tuán)隊(duì)使用了Soft NMS和多尺度測試的方法。用Soft NMS的方法代替NMS后,在不同模型上有0.5-1.3點(diǎn)的改進(jìn),而Multi-Scale Testing在不同模型上則有0.6-2個(gè)點(diǎn)的提升。
模型融合
對(duì)于每個(gè)模型,百度視覺團(tuán)隊(duì)在NMS后預(yù)測邊界框。來自不同模型的預(yù)測框則使用一個(gè)改進(jìn)版的NMS進(jìn)行合并,具體如下:
·給每個(gè)模型一個(gè)0~1之間的標(biāo)量權(quán)重。所有的權(quán)重總和為1;
·從每個(gè)模型得到邊界框的置信分?jǐn)?shù)乘以它對(duì)應(yīng)的權(quán)重;
·合并從所有模型得到的預(yù)測框并使用NMS,除此之外百度采用不同模型的分?jǐn)?shù)疊加的方式代替只保留最高分模型,在這個(gè)步驟中IOU閾值為0.5。
其實(shí),不論是在學(xué)術(shù)圈還是工業(yè)界,大規(guī)模目標(biāo)檢測都是計(jì)算機(jī)視覺極為重要的基礎(chǔ)技術(shù)。通過這一技術(shù),軟硬件應(yīng)用產(chǎn)品可以深度定位圖片中的物體位置以及類別,并用于新零售、通用多物品識(shí)別等場景。百度視覺團(tuán)隊(duì)從2013年起開始構(gòu)建超大規(guī)模的圖像分類系統(tǒng),其中大部分訓(xùn)練數(shù)據(jù)均通過互聯(lián)網(wǎng)搜索引擎獲取,目前已構(gòu)建起包含10萬類Tag(標(biāo)簽)、近億圖片的訓(xùn)練系統(tǒng)。相關(guān)技術(shù)研發(fā)成果已成功應(yīng)用于百度拍照搜索、Feed流、智能相冊、百度AR等多項(xiàng)核心產(chǎn)品中,并通過智能云開放廣泛應(yīng)用于零售、視頻媒體、金融、醫(yī)療、交通運(yùn)輸和營銷等眾多領(lǐng)域。
視覺是百度大腦的核心能力之一。百度視覺團(tuán)隊(duì)在計(jì)算機(jī)視覺領(lǐng)域曾首創(chuàng)了Pyramidbox、Ubiquitous Reweighting Network、Action Proposal Network、StNet和 Attention Clusters等算法,在識(shí)別人、識(shí)別物、捕捉關(guān)系三個(gè)技術(shù)領(lǐng)域均具備了業(yè)界最領(lǐng)先的技術(shù)積累。此外,百度還自主研發(fā)了兩款智能視覺AI硬件底層模組,包括紅外3D結(jié)構(gòu)光模組BoteyeR及視覺智能AI相機(jī)模組Xeye,集成了包括人臉識(shí)別、物體識(shí)別、手勢識(shí)別等在內(nèi)的百度視覺技術(shù),可用于新零售、安防、智能家居等場景。
百度視覺團(tuán)隊(duì)的技術(shù)不僅用于內(nèi)部產(chǎn)品,也通過百度AI開放平臺(tái)持續(xù)對(duì)外輸出,目前已對(duì)外開放了包括人臉識(shí)別、文字識(shí)別(OCR)、圖像審核、圖像識(shí)別、圖像搜索等在內(nèi)的5大類別58項(xiàng)基礎(chǔ)能力,為開發(fā)者和合作伙伴提供全棧式計(jì)算機(jī)視覺能力,讓他們將領(lǐng)先的AI能力轉(zhuǎn)換成讓復(fù)雜的世界更簡單的神奇力量,進(jìn)而推動(dòng)全行業(yè)、全社會(huì)的智能化變革。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。