原標(biāo)題:僅用40張圖片就能訓(xùn)練視覺(jué)模型:CVPR 2019伯克利新論文說(shuō)了什么
在工業(yè)界的熱情參與下,AI行業(yè)大會(huì)近年來(lái)的發(fā)展可謂是如火如荼。不過(guò),依然很少有哪個(gè)能比得上CVPR在計(jì)算機(jī)視覺(jué)領(lǐng)域的影響力。其中, 又以oral口頭報(bào)道的文章最具重量級(jí)。
那么在CVPR 2019中,又有哪些成果獲此殊榮呢?
伯克利大學(xué)研究小組提出的Open Long-Tailed Recognition (OLTR) 開(kāi)放長(zhǎng)尾識(shí)別,就為計(jì)算機(jī)視覺(jué)系統(tǒng)在現(xiàn)實(shí)世界中的應(yīng)用提供了新的分類標(biāo)準(zhǔn)。
以往的CV系統(tǒng)存在哪些問(wèn)題,OLTR又提供了哪些解決方案?不妨通過(guò)一篇文章?lián)屜攘私庖幌隆?/p>
實(shí)驗(yàn)室與現(xiàn)實(shí)的距離:神經(jīng)網(wǎng)絡(luò)的“視覺(jué)盲點(diǎn)”
長(zhǎng)久以來(lái),我們理解中的機(jī)器視覺(jué)往往是這樣工作的:
研究人員會(huì)依據(jù)圖像所具有的本身特征先將其分類,然后設(shè)計(jì)一個(gè)算法,使用設(shè)定好的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。然后,給AI一張圖片,它會(huì)根據(jù)存儲(chǔ)記憶中已經(jīng)分好的類別進(jìn)行識(shí)別,查看是否有與該圖像具有相同或類似特征的存儲(chǔ)記憶,從而快速識(shí)別出是該圖像。只要投喂足夠多的照片,特征分類足夠準(zhǔn)確,識(shí)別算法的精準(zhǔn)度也會(huì)逐步提升。
模式識(shí)別技術(shù)近兩年突飛猛進(jìn),加上在公共安全、工業(yè)、農(nóng)業(yè)、交通、生物等領(lǐng)域的不斷落地,比如車(chē)牌識(shí)別、人臉識(shí)別、指紋識(shí)別、心電圖檢測(cè)等等,是應(yīng)用最為成熟、群眾基礎(chǔ)最為廣泛的AI技術(shù)之一。
但,問(wèn)題也出在這里。
由于訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)都是在封閉環(huán)境下進(jìn)行的,比如ImageNet數(shù)據(jù)集,這與現(xiàn)實(shí)世界中的情況卻截然不同。
因?yàn)樵诂F(xiàn)實(shí)中,充斥著許多無(wú)法出現(xiàn)在測(cè)試數(shù)據(jù)集中的開(kāi)放類別。它們要么數(shù)量珍貴而稀少,比如自然界中的野生動(dòng)物;要么繁多而不規(guī)律,諸如街道標(biāo)志、時(shí)尚品牌、面孔、天氣狀況、街道狀況等等,在日常生活分布的概率也是不平衡的。
如果只是簡(jiǎn)單地將現(xiàn)有的計(jì)算機(jī)視覺(jué)分類放在現(xiàn)實(shí)中的識(shí)別問(wèn)題上,結(jié)果會(huì)怎樣呢?伯克利的研究人員告訴你,就是被打臉。
(現(xiàn)有的計(jì)算機(jī)視覺(jué)分類與現(xiàn)實(shí)世界的場(chǎng)景之間存在相當(dāng)大的差距)
當(dāng)以為生態(tài)學(xué)家想利用現(xiàn)有的CV技術(shù)來(lái)識(shí)別相機(jī)中所捕捉到的野生動(dòng)物時(shí),不出意外地,由于沒(méi)有足夠的訓(xùn)練數(shù)據(jù),系統(tǒng)失敗了……
更令人悲傷的是,在此類情境中,收集更多數(shù)據(jù)是非常不現(xiàn)實(shí)的。
對(duì)于一些瀕臨滅絕的野生珍稀動(dòng)物,人們往往要花很長(zhǎng)的時(shí)間,甚至要等上好幾年才能成功拍到一次照片。與此同時(shí),新的動(dòng)物物種不斷出現(xiàn),舊的動(dòng)物物種不斷離開(kāi)。在自然界這個(gè)動(dòng)態(tài)系統(tǒng)中,識(shí)別對(duì)象的總分類數(shù)從來(lái)沒(méi)有固定過(guò)。
即使現(xiàn)有的計(jì)算機(jī)視覺(jué)技術(shù)在大眾類別上做得再好,比如精準(zhǔn)識(shí)別出人類和貓狗等,但對(duì)于這些不均衡的分類對(duì)象,現(xiàn)在的方法依然無(wú)能為力。
之所以出現(xiàn)這種問(wèn)題,核心原因或在于:面對(duì)實(shí)際應(yīng)用時(shí),機(jī)器視覺(jué)的分類任務(wù)不應(yīng)該被作為單項(xiàng)任務(wù)來(lái)對(duì)待并解決,而應(yīng)該當(dāng)成一個(gè)整體來(lái)看待。即一個(gè)能夠?qū)ι贁?shù)擁有海量ImageNet數(shù)據(jù)集的常見(jiàn)類別,以及大多數(shù)罕見(jiàn)類別,都能夠進(jìn)行分類的實(shí)用系統(tǒng)。
要實(shí)現(xiàn)這一點(diǎn),就要求CV系統(tǒng)具備一種能力,能夠從幾個(gè)已知的事例中推導(dǎo)出單一類別的概念,并對(duì)一個(gè)從未見(jiàn)過(guò)的類別的實(shí)際圖例對(duì)應(yīng)上新的概念。這就不再是邏輯命題,而是智慧型的學(xué)習(xí)命題了。為了盡可能地消滅“次元壁”中存在的“視覺(jué)盲點(diǎn)”,OLTR開(kāi)放長(zhǎng)尾識(shí)別框架應(yīng)運(yùn)而生。
OLTR,讓CV系統(tǒng)更全能
如上所述,“開(kāi)放長(zhǎng)尾識(shí)別”(OLTR)的核心任務(wù)目標(biāo),就是讓系統(tǒng)能夠從長(zhǎng)尾數(shù)據(jù)和開(kāi)放的分布式數(shù)據(jù)中進(jìn)行學(xué)習(xí),能夠在包括頭、尾和開(kāi)放類的平衡測(cè)試集上表現(xiàn)出較好的分類精度。
也就是說(shuō),除了一些主流的樣本豐富的對(duì)象,對(duì)于數(shù)據(jù)匱乏的、分布廣泛導(dǎo)致出現(xiàn)頻率不均衡的物體,系統(tǒng)也能夠做到很好的識(shí)別。
顯然,有了OLTR的機(jī)器視覺(jué)會(huì)變得能力更全面,也更符合現(xiàn)實(shí)環(huán)境的需求。它的特殊之處,主要依靠視覺(jué)記憶能力來(lái)實(shí)現(xiàn)。
研究人員將圖像映射到一個(gè)特征空間,將圖像特征和記憶特征結(jié)合在一起,這樣視覺(jué)系統(tǒng)就可以基于封閉環(huán)境分類的學(xué)習(xí)度量,對(duì)開(kāi)放世界中存在的新穎物體和長(zhǎng)尾類進(jìn)行理解。即使在缺乏觀察數(shù)據(jù)和特征的情況下,視覺(jué)記憶也能夠?qū)﹂_(kāi)放類進(jìn)行理解并努力識(shí)別。
(讓CV系統(tǒng)具備視覺(jué)記憶能力)
實(shí)驗(yàn)結(jié)果顯示,記憶特征的加入,使得CV系統(tǒng)能夠更好地激活起視覺(jué)神經(jīng)元。比如,識(shí)別“公雞”這一長(zhǎng)尾類物體(位于下圖左上角cock)時(shí),具有記憶功能的CV系統(tǒng)已經(jīng)學(xué)會(huì)了將其轉(zhuǎn)換為“鳥(niǎo)頭”、“圓型”和“虛線紋理”的視覺(jué)概念,并將被普通CV模型錯(cuò)誤分類的圖片正確地識(shí)別了出來(lái)。
(從內(nèi)存特性中注入視覺(jué)記憶特征的系統(tǒng)示例)
在現(xiàn)實(shí)任務(wù)中,這種新方法也表現(xiàn)出了極強(qiáng)的開(kāi)放性,能夠在不犧牲豐富類的前提下,對(duì)稀缺類別的識(shí)別實(shí)現(xiàn)明顯的改進(jìn)。
以前面提到的認(rèn)識(shí)野生動(dòng)物為例,對(duì)于那些圖像不超過(guò)40幅的種類,OLTR實(shí)現(xiàn)了從25%到66%的性能提升。
與目前大多數(shù)計(jì)算機(jī)視覺(jué)方案相比,OLTR顯然更符合數(shù)據(jù)自然分布的真實(shí)世界。那么,它的出現(xiàn)最有可能給哪些CV技術(shù)帶來(lái)改變呢?
檢測(cè)、分割:CV問(wèn)題的新解法
可以明確的是,OLTR的出現(xiàn),解決了CV領(lǐng)域最為經(jīng)典的問(wèn)題之一——分類(classification)。那么,自然也就間接影響了分類問(wèn)題的諸多應(yīng)用領(lǐng)域。其中,比較多的就是目標(biāo)檢測(cè)和圖像分割。
先說(shuō)說(shuō)目標(biāo)檢測(cè)。
目標(biāo)檢測(cè)已經(jīng)在諸多產(chǎn)業(yè)中都有應(yīng)用,簡(jiǎn)單的論文也越來(lái)越難發(fā)表了,比如手機(jī)拍照中用一個(gè)框來(lái)定位人臉,或者是智能監(jiān)控中的人體定位,都屬于目標(biāo)檢測(cè)的范疇。
但關(guān)于它的技術(shù)探索還遠(yuǎn)沒(méi)有達(dá)到勸退科學(xué)家的程度,這是因?yàn)?,目?biāo)檢測(cè)算法目前還存在著不少亟待突破的難點(diǎn):
比如數(shù)據(jù)標(biāo)注的巨大成本,能不能通過(guò)更有小弟分類來(lái)解決;小規(guī)模數(shù)據(jù)的監(jiān)督學(xué)習(xí)怎樣才能更有效地提升精度;對(duì)單圖像單類別場(chǎng)景進(jìn)行弱監(jiān)督多類檢測(cè)學(xué)習(xí)等等。
這些都是應(yīng)用場(chǎng)景中比較需要關(guān)注的問(wèn)題,恰好也是OLTR能夠帶來(lái)改變的地方。
再說(shuō)圖像分割。簡(jiǎn)單來(lái)說(shuō)就說(shuō)輸入一張圖片,然后對(duì)每一個(gè)像素點(diǎn)都進(jìn)行分類標(biāo)記,則完成了對(duì)整個(gè)圖片的分割。
比如深度學(xué)習(xí)對(duì)醫(yī)學(xué)影像進(jìn)行解讀和診斷,自動(dòng)駕駛汽車(chē)區(qū)分人、車(chē)、障礙物等,就采用了語(yǔ)義分割的技術(shù)。
但該類算法目前面臨著三大難題:一是計(jì)算成本高,要保證準(zhǔn)確率,需要的存儲(chǔ)空間和數(shù)據(jù)都非常龐大。二是計(jì)算效率低,由于需要對(duì)每個(gè)像素塊進(jìn)行計(jì)算卷積,造成了很大程度的重復(fù)和算力浪費(fèi);三是性能桎梏,受像素塊的限制,感知神經(jīng)元往往只能提取一些局部特征,從而影響分類識(shí)別的準(zhǔn)確率。
節(jié)約計(jì)算量、盡可能考慮全局信息、高性能分類,是圖像分割未來(lái)迭代的重點(diǎn)。
此時(shí),OLTR的優(yōu)勢(shì)就展現(xiàn)出來(lái)了。
首先,它用增強(qiáng)視覺(jué)記憶的方式,幫助CV系統(tǒng)在頭部類別的基礎(chǔ)上完成尾部、開(kāi)放類別的特征分類與學(xué)習(xí),這意味著可以告別超大規(guī)模的數(shù)據(jù)集,通過(guò)小樣本的無(wú)監(jiān)督學(xué)習(xí)一樣能夠達(dá)到同樣的高精度性能,降低了計(jì)算機(jī)視覺(jué)的應(yīng)用和訓(xùn)練成本。
其次,由于OLTR具有通用化、整體性的分類能力,使得CV系統(tǒng)能夠在現(xiàn)實(shí)環(huán)境中表現(xiàn)的更好,尤其是面對(duì)一些出現(xiàn)頻率低、難以進(jìn)行監(jiān)督訓(xùn)練的物體時(shí),系統(tǒng)能夠根據(jù)以往的“經(jīng)驗(yàn)”為其賦予新的視覺(jué)概念并識(shí)別出來(lái)。對(duì)于性能要求極高的自動(dòng)駕駛、醫(yī)療診斷等應(yīng)用來(lái)說(shuō),無(wú)疑是雪中送炭。
總而言之,OLTR的出現(xiàn),將給CV算法、軟件與產(chǎn)業(yè)應(yīng)用都帶來(lái)不小的改變。但其勢(shì)能有多大,還需要有越來(lái)越多的開(kāi)發(fā)者和企業(yè)開(kāi)始嘗試用其解決現(xiàn)實(shí)問(wèn)題,逐步迭代升級(jí),后續(xù)想必還會(huì)有不少驚喜。
即使是習(xí)以為常的技術(shù),也有自我思考和蝶變的可能。身處時(shí)代變革中心的我們,不妨共同期待一下CPVR 2019還有哪些創(chuàng)造。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 華為研發(fā)中心入駐上海青浦致小鎮(zhèn)房租大漲,帶動(dòng)周邊租房市場(chǎng)熱潮
- 華為員工涌入蘇滬兩地,房東狂歡:租金幾近翻倍,跨省租房成新常態(tài)
- 制造業(yè)巨頭空客計(jì)劃裁員2500人,應(yīng)對(duì)航天業(yè)務(wù)虧損與供應(yīng)鏈挑戰(zhàn)
- 科技創(chuàng)新引領(lǐng)產(chǎn)業(yè)發(fā)展:江陰市與清華大學(xué)攜手推進(jìn)重大科技項(xiàng)目
- 美國(guó)或再升級(jí)出口管制:考慮限制AI芯片對(duì)中東出口
- 劉強(qiáng)東章澤天報(bào)案:京東發(fā)言人證實(shí)夫婦倆遭有組織造謠,警方已介入
- 東方甄選擬15億出售教育業(yè)務(wù)
- 虧764億上熱搜 蔚來(lái)裁員10%,銷量跌出前三
- IBM設(shè)立5億元AI創(chuàng)投基金
- 聯(lián)想發(fā)布 ThinkStation P8工作站
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。