“其實,Mavic最核心的地方在于計算機視覺”,Mavic Pro發(fā)布后大疆的一名視覺工程師如此向雷鋒網(wǎng)強調(diào)著,彼時大家對于這款在很多方面都超越Phantom 4的無人機更多的討論還是圍繞在便攜和巧妙的工業(yè)設計上,而作為其中的參與者,Mavic Pro新增的智能功能才是讓他最為興奮的。按照公開資料來看,這些新增的智能功能讓Mavic Pro算得上是全球首款基于深度學習的消費級無人機。
首先我們將Mavic Pro與Phantom 4對比一下,Mavic Pro新增了哪些智能功能:1. 手勢自拍;2. 物體識別;3. 視覺跟隨中的平行跟隨、焦點跟隨、 自動環(huán)繞;4.精準降落。
這里面每一個功能的背后,都是在試圖解決計算機視覺和機器人學領域里最核心也是最頭疼的難題,同時也是大疆隱藏最深的秘密。
手勢自拍
如今很多小型無人機都自稱自拍無人機,不過其實都是屬于跟拍,通過跟蹤人或人臉來實現(xiàn)拍攝,大疆在今年3月的Phantom 4已經(jīng)實現(xiàn)過,如今包括正火的Hover Camera等無人機也都實現(xiàn)了這一功能。而Mavic Pro則是實實在在地實現(xiàn)了脫離遙控器的自拍,也就是通過手勢來進行抓拍。
當你走到畫面里,Mavic Pro會自己識別移動的人,并且你可以向它揮手讓它來跟著你飛行,在跟蹤過程中只要做出拍照手勢,它就會幫你抓拍。如此一來,你就能在拍照過程中完全將遙控器放收在包里。并且即使跟蹤丟失時,也可以在不需要遙控器的幫助時,重新走回畫面中,讓飛機繼續(xù)跟隨。值得一提的是,當開啟GPS輔助時,飛機會融合GPS的信息來進行矯正。
對于一般的手勢識別系統(tǒng)而言,整體的步驟大概分為三步,也就是手部的定位、建模和識別。手部建?,F(xiàn)在主要有兩種方法,2D和3D,主要是看使用了什么樣的攝像頭,建模好后最后再進行識別,比如你的手是張開的還是握拳的。據(jù)悉從這個3D手部模型到手勢識別是有不同的方法的,有的是直接拿3D手部模型去識別,有的是把3D模型轉(zhuǎn)化成2D圖像,再在這個基礎上利用深度學習進行分類識別。目前在室內(nèi)環(huán)境中,由于距離較近,手勢識別的難度并不大,像微軟的Kinect就在電視游戲上得到很好的應用。但在戶外的場景下,在無人機上用這種攝像頭遠距離識別手勢,大疆應該算是首個嘗試的。
Mavic Pro并沒有使用3D攝像頭,而是通過2D主相機來進行識別的,其難度要比使用3D攝像頭大很多。首先,飛機要在沒有深度信息的前提下準確地識別和定位畫面中的人,其次,要完成一系列手部的定位、建模和動作的識別。
Mavic Pro據(jù)稱使用的是深度學習,而深度學習對于計算設備有較高要求,一般研究者需要NVIDIA Titan X這類GPU才能實現(xiàn)。Titan X舊版的處理性能大概在6T的Flops(每秒計算的浮點數(shù)),而大疆使用的是聯(lián)芯LC 1860,官方給出的總處理能力在8GFlops,相差大概700倍,在這么低的處理平臺上做深度學習,就面臨著神經(jīng)網(wǎng)絡設計上的突破,訓練的技巧,模型的精簡與壓縮,底層實現(xiàn)的優(yōu)化等問題。
關(guān)于Mavic Pro的手勢自拍,雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))在體驗過程中的感受是,反應還比較及時,大多數(shù)情況都能做到準確識別,功能方面比較好。體驗方面,閃爍燈提示在陽光下比較弱,閃爍3秒后開始拍照,如果倒計時開始時加個聲音提示可能會更好。
物體的檢測和識別
物體的識別,是指對于畫面中的主體進行分類判定。其分類方式既可以是粗粒度的類別(比如汽車),也可以細粒度的類別(比如奔馳C200、寶馬X5)。物體的檢測,是指在畫面中自動找出感興趣物體,并標出它們的輪廓。全世界著名的ImageNet競賽,比拼的就是物體識別和檢測的準確性。
Phantom 4的智能跟隨功能的一個痛點是需要用戶手動在屏幕上框出要跟隨的目標,而由于小白用戶常常難以做到,尤其當目標在運動中。一方面會因為框的不準確,而造成智能跟隨表現(xiàn)不理想,另一方面對于正在運動中的物體,很難框中。而物體檢測和識別技術(shù),可以讓用戶實現(xiàn)即點即走,讓智能跟隨的體驗有了質(zhì)的提升。這次Mavic Pro可以自動檢測識別多種常見物體(人、汽車、卡車、動物、船、人騎自行車或摩托車等),并號稱其跟隨的動作會根據(jù)不同的物體有相應的優(yōu)化。
Mavic Pro對人的跟隨,圖片來自網(wǎng)絡體驗視頻
Mavic Pro對船的跟隨,圖片來自網(wǎng)絡體驗視頻
智能跟隨的模式升級
無人機跟隨主要有兩種方式,一種是依靠GPS,一種是依靠視覺。GPS跟隨需要用戶攜帶額外的遙控接收器,并且依賴于空曠的環(huán)境以確保GPS信號足夠強。此外,讓用戶最過頭疼的是,GPS跟隨難以保證拍攝主體在畫面中。視覺跟隨可以很好地克服這些缺點,但是視覺跟隨的難度也比較大。由于視覺跟隨過程中是沒有人類交互的,告訴算法的所有信息都在第一幀的框里,這個框告訴了算法什么是目標,什么是背景,而算法并不知道的是,這個目標在其它視角的樣子是什么,也不知道這個目標如果自身會改變成什么樣的形態(tài)。如果目標的姿態(tài)變化過大,或者目標在另一個視角下看起來跟一開始的樣子差別很大,算法還需要判斷現(xiàn)在框里的還是不是當初那個目標,或者是不是已經(jīng)變成另一個物體了。也就是說,第一幀的框,是不是能緊緊框住目標的邊緣,不包含太多背景。也不遺漏掉目標的其它部分,這對于跟隨的算法來說至關(guān)重要。
Phantom 4已經(jīng)實現(xiàn)了視覺跟隨,不過僅限于前方與側(cè)前方跟隨,Mavic Pro為用戶帶來了多種跟拍模式,包括焦點跟隨,以及用戶期待已久的平行跟隨和自動環(huán)繞。這兩個模式能夠幫用戶拍出一些意想不到的視頻。但在這些模式下,飛機看到目標的視角和樣子也千變?nèi)f化,對算法的魯棒性提出了更高的挑戰(zhàn)。要做到低空高空都能任意跟隨的話,在目標跟蹤領域里也是一大難題。而Mavic Pro能夠在低成本低性能的平臺上實現(xiàn)對任意物體的跟隨,并且根據(jù)目標的類型而選擇合適的跟隨策略進行控制。
YouTube上這則用戶使用ActiveTrack的自動環(huán)繞功能的視頻,其中的目標包含了各種姿勢的形變,包括站起、蹲下、趴下,在水面的遮擋干擾,光線的強弱變化等等干擾因素下,ActiveTrack仍然順利完成了跟蹤任務。
精準降落
與其他大疆無人機產(chǎn)品一樣,Mavic Pro在與地面端失去聯(lián)系或低電量情況下將自動返航,并加入全新的“精準降落”功能:兩臺下視相機會在每次起飛時拍攝一組照片,在返航著落過程中通過對下視觀測和起飛記錄照片的匹配來實現(xiàn)厘米級別的精準降落。
Mavic Pro精準降落是用到了SLAM中的回環(huán)檢測技術(shù),飛行過程中會記錄視覺傳感器看到的圖像信息,并且根據(jù)這些信息來進行精準降落。也就是說,它降落的時候,一直在和當時起飛的時候所看到的圖像進行對比,并且持續(xù)調(diào)整自己的方向。并且最近Mavic Pro的升級更新,據(jù)說增加了識別地面是否平整,以及地面是否是水面的功能,從而很大程度提高了降落的安全性。可以看出大疆對用戶體驗的重視以及對產(chǎn)品精益求精的追求。
“史上最智能無人機”背后是大疆的成功轉(zhuǎn)型
Mavic Pro發(fā)布之時,大疆用了“史上最智能無人機”來概括這些新增功能,而關(guān)于更多的細節(jié)部分則甚少提及。因此,也很少人注意到,這些功能背后是大疆早已默默地從一家“飛行相機”企業(yè)成功轉(zhuǎn)型為機器人企業(yè)。
其實早在今年3月,大疆創(chuàng)始人汪滔曾以“歡迎來到計算機視覺時代”一語點出了Phantom 4的核心所在,同時,大疆默默把自己的描述從以前的”Flying Camera” 變?yōu)榱?rdquo;Flying Robot”。Phantom 4面世所帶來的意義,即"機器視覺時代”的到來,以往幾十年全世界人對于計算機視覺的期待僅僅停留在論文和實驗室以及有限的工業(yè)場景中,而現(xiàn)在,計算機視覺以一種更好玩、更動感、更直接的表現(xiàn)形式回來了,讓大眾消費者都能感受到它帶來的便利。而這一切,都源自大疆過去兩年中在計算機視覺上所做的準備。
圖片來自大疆官網(wǎng)
計算機視覺的結(jié)果要轉(zhuǎn)化為輔助控制做決策的過程中,要能結(jié)合各個模塊傳感器做出實際可用的應用,要涉及到相機、云臺、IMU慣導模塊、氣壓計、GPS、超聲波、前視雙目、下視雙目以及視覺里程計等非常多和復雜的模塊。成熟的SDK架構(gòu)也貢獻很大,大疆的無人機和飛控都有一套非常規(guī)整的SDK(軟件開發(fā)套件)提供API給第三方開發(fā)者使用。
大疆還主辦各類飛行器及機器人比賽,從與福特汽車合作的SDK開發(fā)者大賽,任務是依靠目標識別進行無人機的移動汽車平臺降落,到堪稱最炫酷機器人比賽的全國大學生RoboMasters中的敵方機器人識別和自動瞄準,各個比賽中的視覺功能所占比例也是重中之重,而底層完善的SDK支持都是開發(fā)者效率的保障。
Robomasters中機器人正在利用計算機視覺技術(shù)對面板上的圖案進行識別并選擇正確的圖案攻擊
大疆籌辦這類比賽一方面是對社會人才培養(yǎng)的回饋和貢獻,另一方面更多也是為了人才儲備,因為贏得比賽往往意味著贏得一張去大疆工作的Offer,為大疆源源不斷地輸送計算機視覺和控制類的頂尖人才。
另外,雖然大疆在業(yè)內(nèi)一向很低調(diào),不過在各大學術(shù)會議中則是積極者。CVPR是計算機視覺領域中最頂級的會議,在今年6月末開啟的CVPR 2016上,大疆作為重要贊助商出現(xiàn)在了CVPR的會場,其參展的展位就在Apple、Intel、Microsoft和Google中間,而且還對與會的研究人員們做了演講。
可以說,就在其他無人機企業(yè)還在尋找哪個方向才是正道時,大疆早就明確要走哪條路并且知道要干什么。今年大量小型無人機出現(xiàn)在市面上,很大原因是大家以為大疆不會做小型無人機,而Mavic Pro出來后,他們又將面臨曾經(jīng)跟精靈系列正面競爭的相似局面。而對于大疆來說,做大無人機還是小無人機,或是說做航拍無人機還是自拍無人機,這些并不是最重要的,只要掌握了最核心的技術(shù),做什么樣的無人機只是一個選擇而已。
還記得2015年11月大疆與美劇神盾局特工主演汪可盈合作拍攝的Phantom X概念視頻嗎?里面汪可盈用優(yōu)美的太極動作來控制無人機在空中作畫。如今也不過一年時間,當時覺著天方夜譚的場景,現(xiàn)在再看看Mavic Pro是不是覺得很近了呢?
“其實,Mavic最核心的地方在于計算機視覺”,Mavic Pro發(fā)布后大疆的一名視覺工程師如此向雷鋒網(wǎng)強調(diào)著,彼時大家對于這款在很多方面都超越Phantom 4的無人機更多的討論還是圍繞在便攜和巧妙的工業(yè)設計上,而作為其中的參與者,Mavic Pro新增的智能功能才是讓他最為興奮的。按照公開資料來看,這些新增的智能功能讓Mavic Pro算得上是全球首款基于深度學習的消費級無人機。
首先我們將Mavic Pro與Phantom 4對比一下,Mavic Pro新增了哪些智能功能:1. 手勢自拍;2. 物體識別;3. 視覺跟隨中的平行跟隨、焦點跟隨、 自動環(huán)繞;4.精準降落。
這里面每一個功能的背后,都是在試圖解決計算機視覺和機器人學領域里最核心也是最頭疼的難題,同時也是大疆隱藏最深的秘密。
手勢自拍
如今很多小型無人機都自稱自拍無人機,不過其實都是屬于跟拍,通過跟蹤人或人臉來實現(xiàn)拍攝,大疆在今年3月的Phantom 4已經(jīng)實現(xiàn)過,如今包括正火的Hover Camera等無人機也都實現(xiàn)了這一功能。而Mavic Pro則是實實在在地實現(xiàn)了脫離遙控器的自拍,也就是通過手勢來進行抓拍。
當你走到畫面里,Mavic Pro會自己識別移動的人,并且你可以向它揮手讓它來跟著你飛行,在跟蹤過程中只要做出拍照手勢,它就會幫你抓拍。如此一來,你就能在拍照過程中完全將遙控器放收在包里。并且即使跟蹤丟失時,也可以在不需要遙控器的幫助時,重新走回畫面中,讓飛機繼續(xù)跟隨。值得一提的是,當開啟GPS輔助時,飛機會融合GPS的信息來進行矯正。
對于一般的手勢識別系統(tǒng)而言,整體的步驟大概分為三步,也就是手部的定位、建模和識別。手部建?,F(xiàn)在主要有兩種方法,2D和3D,主要是看使用了什么樣的攝像頭,建模好后最后再進行識別,比如你的手是張開的還是握拳的。據(jù)悉從這個3D手部模型到手勢識別是有不同的方法的,有的是直接拿3D手部模型去識別,有的是把3D模型轉(zhuǎn)化成2D圖像,再在這個基礎上利用深度學習進行分類識別。目前在室內(nèi)環(huán)境中,由于距離較近,手勢識別的難度并不大,像微軟的Kinect就在電視游戲上得到很好的應用。但在戶外的場景下,在無人機上用這種攝像頭遠距離識別手勢,大疆應該算是首個嘗試的。
Mavic Pro并沒有使用3D攝像頭,而是通過2D主相機來進行識別的,其難度要比使用3D攝像頭大很多。首先,飛機要在沒有深度信息的前提下準確地識別和定位畫面中的人,其次,要完成一系列手部的定位、建模和動作的識別。
Mavic Pro據(jù)稱使用的是深度學習,而深度學習對于計算設備有較高要求,一般研究者需要NVIDIA Titan X這類GPU才能實現(xiàn)。Titan X舊版的處理性能大概在6T的Flops(每秒計算的浮點數(shù)),而大疆使用的是聯(lián)芯LC 1860,官方給出的總處理能力在8GFlops,相差大概700倍,在這么低的處理平臺上做深度學習,就面臨著神經(jīng)網(wǎng)絡設計上的突破,訓練的技巧,模型的精簡與壓縮,底層實現(xiàn)的優(yōu)化等問題。
關(guān)于Mavic Pro的手勢自拍,雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))在體驗過程中的感受是,反應還比較及時,大多數(shù)情況都能做到準確識別,功能方面比較好。體驗方面,閃爍燈提示在陽光下比較弱,閃爍3秒后開始拍照,如果倒計時開始時加個聲音提示可能會更好。
物體的檢測和識別
物體的識別,是指對于畫面中的主體進行分類判定。其分類方式既可以是粗粒度的類別(比如汽車),也可以細粒度的類別(比如奔馳C200、寶馬X5)。物體的檢測,是指在畫面中自動找出感興趣物體,并標出它們的輪廓。全世界著名的ImageNet競賽,比拼的就是物體識別和檢測的準確性。
Phantom 4的智能跟隨功能的一個痛點是需要用戶手動在屏幕上框出要跟隨的目標,而由于小白用戶常常難以做到,尤其當目標在運動中。一方面會因為框的不準確,而造成智能跟隨表現(xiàn)不理想,另一方面對于正在運動中的物體,很難框中。而物體檢測和識別技術(shù),可以讓用戶實現(xiàn)即點即走,讓智能跟隨的體驗有了質(zhì)的提升。這次Mavic Pro可以自動檢測識別多種常見物體(人、汽車、卡車、動物、船、人騎自行車或摩托車等),并號稱其跟隨的動作會根據(jù)不同的物體有相應的優(yōu)化。
Mavic Pro對人的跟隨,圖片來自網(wǎng)絡體驗視頻
Mavic Pro對船的跟隨,圖片來自網(wǎng)絡體驗視頻
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- ?5年投入200億打造飛行汽車!?長安汽車布局萬億“低空”市場
- 英偉達涉嫌違反反壟斷法 市場監(jiān)管總局依法決定立案調(diào)查
- 上海敲定5G-A發(fā)展目標:到2026年發(fā)展500萬用戶,建設3.2萬個3CC基站
- 中國電信注資10億成立天通衛(wèi)星科技公司,將推動衛(wèi)星通信手機向3000元下探
- 上汽今年銷量或會被比亞迪反超,痛失18年“中國車企銷量冠軍”
- 英特爾CEO基辛格名為退休,實為被董事會趕下臺?
- 華為申請多枚鴻蒙辦公商標,涉及辦公用品等多個領域
- “數(shù)智化”登頂《咬文嚼字》十大流行語,數(shù)智技術(shù)應用深入人心
- IDC預計:2028年AI基礎設施支出將超1000億美元
- 韓系動力電池裝機量下挫,三大廠商市占率降至17.2%,落后寧王比亞迪
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。