探索機器“視覺”演進的無限可能性

深度學(xué)習(xí)中的技術(shù)進展幫助機器能像人類一樣“看”世界,這是人工智能研究中最具吸引力的部分之一。目前,一種突破性技術(shù)將讓機器能夠通過被稱為球面卷積神經(jīng)網(wǎng)絡(luò)(spherical Convolutional Neural Networks,縮寫CNNs)的處理,去看到并識別三維空間中的物體。從識別極小分子的機器到分析外太空最龐大結(jié)構(gòu)的工具,我們對這項新發(fā)現(xiàn)的能力所能實現(xiàn)的種種可能的想象才剛剛開始。當(dāng)然,這其中還包括了許多介乎兩者之間的用例,比如指導(dǎo)機器人在人群中安全導(dǎo)航。

正如最近這次獲獎所展現(xiàn)的,該研究領(lǐng)域是人工智能(AI)發(fā)展的前沿領(lǐng)域。Qualcomm Technologies荷蘭研究人員Taco Cohen和Max Welling及其合作伙伴,通過與阿姆斯特丹大學(xué)聯(lián)合撰寫的《球面CNNs》論文榮獲“國際學(xué)習(xí)表征大會(ICLR:International Conference for Learning Representations)2018年度最佳論文獎”。ICLR主要發(fā)布人工智能(AI)和機器學(xué)習(xí)方面的最新研究,現(xiàn)已舉辦到第六屆。蒙特利爾大學(xué)的Yoshua Bengio和紐約大學(xué)/Facebook的Yann LeCun共同擔(dān)任ICLR 2018的主席。在全球頂尖AI實驗室提交的約1,000篇投稿中,AI領(lǐng)域最具創(chuàng)新性和影響力的研究被授予最佳論文獎的殊榮。

該球面CNN論文引入了構(gòu)建CNNs的新型數(shù)學(xué)架構(gòu),可魯棒地分析球面圖像,并不會受到曲面失真的影響。這是因為:球面CNN具有針對旋轉(zhuǎn)的“等變”特性,它意味著該網(wǎng)絡(luò)學(xué)習(xí)到的內(nèi)部表征會與輸入信息同步旋轉(zhuǎn)。從實驗的結(jié)果來看,球面CNNs在兩項截然不同的任務(wù)上可實現(xiàn)出色的預(yù)測精度:球面圖像3D模型識別和原子化能量預(yù)測(一項重要的化學(xué)問題)。

球面CNNs為什么重要

為了理解球面CNNs的重要性,我們介紹一些背景:過去幾年,深度學(xué)習(xí)——尤其是CNNs——已徹底變革了AI,語音識別、視覺對象識別、自然語言處理及其他領(lǐng)域均出現(xiàn)突破性成果。CNNs很擅長分析線性信號,例如音頻或文本、圖像、或視頻,因其具備可識別模式的內(nèi)在能力,而不管其空間或時間位置如何。這能支持CNNs學(xué)習(xí)并識別如視覺對象,無論它在圖像中位于什么位置,并無需在深度學(xué)習(xí)模型訓(xùn)練階段觀看同一對象的多個移動版本。但在最近受到關(guān)注的多個應(yīng)用中,我們都希望學(xué)習(xí)的信號留存在球體上,如汽車、無人機和其他機器人拍攝其整個周邊環(huán)境的球面圖像所使用的全向攝像頭。在科學(xué)應(yīng)用中也存在大量球面信號,從地球科學(xué)到天體物理學(xué)都有相關(guān)案例。

分析此類球面信號的一個方法是把信號投影到平面上,并借助CNN來分析結(jié)果。但根據(jù)制圖學(xué),任何此類“地圖投影”都會導(dǎo)致扭曲失真,讓部分區(qū)域看起來比實際尺寸更大或更小。這會使CNN變得無效,因為隨著對象在球體上移動,它們看上去不僅只是在地圖上移動,而且還會顯得縮小和拉伸。

如何使用球面CNNs

球面CNNs在物聯(lián)網(wǎng)(IoT)、機器人、自動駕駛汽車、增強現(xiàn)實(AR)和虛擬現(xiàn)實(VR)領(lǐng)域都有諸多應(yīng)用。如今,自動駕駛無人機已向消費者出售,或許有一天它將能在幾分鐘內(nèi)把包裹送到你的家門口,這就是球面CNNs可改善物體偵測與識別,以及視覺運動分析的一個自然應(yīng)用。在AR方面,一整組攝像頭所拍攝的360度房間全景可融入至單球面圖像中,借助球面CNN的高效分析,精確覆蓋虛擬物體。

Qualcomm對此項工作可能帶來的上述應(yīng)用和其他轉(zhuǎn)換應(yīng)用倍感興奮,我們也正在積極推動此項研究及其他數(shù)據(jù)高效學(xué)習(xí)研究。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2018-05-10
探索機器“視覺”演進的無限可能性
深度學(xué)習(xí)中的技術(shù)進展幫助機器能像人類一樣“看”世界,這是人工智能研究中最具吸引力的部分之一。

長按掃碼 閱讀全文