“其實,Mavic最核心的地方在于計算機(jī)視覺”,Mavic Pro發(fā)布后大疆的一名視覺工程師如此向雷鋒網(wǎng)強(qiáng)調(diào)著,彼時大家對于這款在很多方面都超越Phantom 4的無人機(jī)更多的討論還是圍繞在便攜和巧妙的工業(yè)設(shè)計上,而作為其中的參與者,Mavic Pro新增的智能功能才是讓他最為興奮的。按照公開資料來看,這些新增的智能功能讓Mavic Pro算得上是全球首款基于深度學(xué)習(xí)的消費級無人機(jī)。
首先我們將Mavic Pro與Phantom 4對比一下,Mavic Pro新增了哪些智能功能:1. 手勢自拍;2. 物體識別;3. 視覺跟隨中的平行跟隨、焦點跟隨、 自動環(huán)繞;4.精準(zhǔn)降落。
這里面每一個功能的背后,都是在試圖解決計算機(jī)視覺和機(jī)器人學(xué)領(lǐng)域里最核心也是最頭疼的難題,同時也是大疆隱藏最深的秘密。
手勢自拍
如今很多小型無人機(jī)都自稱自拍無人機(jī),不過其實都是屬于跟拍,通過跟蹤人或人臉來實現(xiàn)拍攝,大疆在今年3月的Phantom 4已經(jīng)實現(xiàn)過,如今包括正火的Hover Camera等無人機(jī)也都實現(xiàn)了這一功能。而Mavic Pro則是實實在在地實現(xiàn)了脫離遙控器的自拍,也就是通過手勢來進(jìn)行抓拍。
當(dāng)你走到畫面里,Mavic Pro會自己識別移動的人,并且你可以向它揮手讓它來跟著你飛行,在跟蹤過程中只要做出拍照手勢,它就會幫你抓拍。如此一來,你就能在拍照過程中完全將遙控器放收在包里。并且即使跟蹤丟失時,也可以在不需要遙控器的幫助時,重新走回畫面中,讓飛機(jī)繼續(xù)跟隨。值得一提的是,當(dāng)開啟GPS輔助時,飛機(jī)會融合GPS的信息來進(jìn)行矯正。
對于一般的手勢識別系統(tǒng)而言,整體的步驟大概分為三步,也就是手部的定位、建模和識別。手部建?,F(xiàn)在主要有兩種方法,2D和3D,主要是看使用了什么樣的攝像頭,建模好后最后再進(jìn)行識別,比如你的手是張開的還是握拳的。據(jù)悉從這個3D手部模型到手勢識別是有不同的方法的,有的是直接拿3D手部模型去識別,有的是把3D模型轉(zhuǎn)化成2D圖像,再在這個基礎(chǔ)上利用深度學(xué)習(xí)進(jìn)行分類識別。目前在室內(nèi)環(huán)境中,由于距離較近,手勢識別的難度并不大,像微軟的Kinect就在電視游戲上得到很好的應(yīng)用。但在戶外的場景下,在無人機(jī)上用這種攝像頭遠(yuǎn)距離識別手勢,大疆應(yīng)該算是首個嘗試的。
Mavic Pro并沒有使用3D攝像頭,而是通過2D主相機(jī)來進(jìn)行識別的,其難度要比使用3D攝像頭大很多。首先,飛機(jī)要在沒有深度信息的前提下準(zhǔn)確地識別和定位畫面中的人,其次,要完成一系列手部的定位、建模和動作的識別。
Mavic Pro據(jù)稱使用的是深度學(xué)習(xí),而深度學(xué)習(xí)對于計算設(shè)備有較高要求,一般研究者需要NVIDIA Titan X這類GPU才能實現(xiàn)。Titan X舊版的處理性能大概在6T的Flops(每秒計算的浮點數(shù)),而大疆使用的是聯(lián)芯LC 1860,官方給出的總處理能力在8GFlops,相差大概700倍,在這么低的處理平臺上做深度學(xué)習(xí),就面臨著神經(jīng)網(wǎng)絡(luò)設(shè)計上的突破,訓(xùn)練的技巧,模型的精簡與壓縮,底層實現(xiàn)的優(yōu)化等問題。
關(guān)于Mavic Pro的手勢自拍,雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))在體驗過程中的感受是,反應(yīng)還比較及時,大多數(shù)情況都能做到準(zhǔn)確識別,功能方面比較好。體驗方面,閃爍燈提示在陽光下比較弱,閃爍3秒后開始拍照,如果倒計時開始時加個聲音提示可能會更好。
物體的檢測和識別
物體的識別,是指對于畫面中的主體進(jìn)行分類判定。其分類方式既可以是粗粒度的類別(比如汽車),也可以細(xì)粒度的類別(比如奔馳C200、寶馬X5)。物體的檢測,是指在畫面中自動找出感興趣物體,并標(biāo)出它們的輪廓。全世界著名的ImageNet競賽,比拼的就是物體識別和檢測的準(zhǔn)確性。
Phantom 4的智能跟隨功能的一個痛點是需要用戶手動在屏幕上框出要跟隨的目標(biāo),而由于小白用戶常常難以做到,尤其當(dāng)目標(biāo)在運動中。一方面會因為框的不準(zhǔn)確,而造成智能跟隨表現(xiàn)不理想,另一方面對于正在運動中的物體,很難框中。而物體檢測和識別技術(shù),可以讓用戶實現(xiàn)即點即走,讓智能跟隨的體驗有了質(zhì)的提升。這次Mavic Pro可以自動檢測識別多種常見物體(人、汽車、卡車、動物、船、人騎自行車或摩托車等),并號稱其跟隨的動作會根據(jù)不同的物體有相應(yīng)的優(yōu)化。
Mavic Pro對人的跟隨,圖片來自網(wǎng)絡(luò)體驗視頻
Mavic Pro對船的跟隨,圖片來自網(wǎng)絡(luò)體驗視頻
智能跟隨的模式升級
無人機(jī)跟隨主要有兩種方式,一種是依靠GPS,一種是依靠視覺。GPS跟隨需要用戶攜帶額外的遙控接收器,并且依賴于空曠的環(huán)境以確保GPS信號足夠強(qiáng)。此外,讓用戶最過頭疼的是,GPS跟隨難以保證拍攝主體在畫面中。視覺跟隨可以很好地克服這些缺點,但是視覺跟隨的難度也比較大。由于視覺跟隨過程中是沒有人類交互的,告訴算法的所有信息都在第一幀的框里,這個框告訴了算法什么是目標(biāo),什么是背景,而算法并不知道的是,這個目標(biāo)在其它視角的樣子是什么,也不知道這個目標(biāo)如果自身會改變成什么樣的形態(tài)。如果目標(biāo)的姿態(tài)變化過大,或者目標(biāo)在另一個視角下看起來跟一開始的樣子差別很大,算法還需要判斷現(xiàn)在框里的還是不是當(dāng)初那個目標(biāo),或者是不是已經(jīng)變成另一個物體了。也就是說,第一幀的框,是不是能緊緊框住目標(biāo)的邊緣,不包含太多背景。也不遺漏掉目標(biāo)的其它部分,這對于跟隨的算法來說至關(guān)重要。
Phantom 4已經(jīng)實現(xiàn)了視覺跟隨,不過僅限于前方與側(cè)前方跟隨,Mavic Pro為用戶帶來了多種跟拍模式,包括焦點跟隨,以及用戶期待已久的平行跟隨和自動環(huán)繞。這兩個模式能夠幫用戶拍出一些意想不到的視頻。但在這些模式下,飛機(jī)看到目標(biāo)的視角和樣子也千變?nèi)f化,對算法的魯棒性提出了更高的挑戰(zhàn)。要做到低空高空都能任意跟隨的話,在目標(biāo)跟蹤領(lǐng)域里也是一大難題。而Mavic Pro能夠在低成本低性能的平臺上實現(xiàn)對任意物體的跟隨,并且根據(jù)目標(biāo)的類型而選擇合適的跟隨策略進(jìn)行控制。
YouTube上這則用戶使用ActiveTrack的自動環(huán)繞功能的視頻,其中的目標(biāo)包含了各種姿勢的形變,包括站起、蹲下、趴下,在水面的遮擋干擾,光線的強(qiáng)弱變化等等干擾因素下,ActiveTrack仍然順利完成了跟蹤任務(wù)。
精準(zhǔn)降落
與其他大疆無人機(jī)產(chǎn)品一樣,Mavic Pro在與地面端失去聯(lián)系或低電量情況下將自動返航,并加入全新的“精準(zhǔn)降落”功能:兩臺下視相機(jī)會在每次起飛時拍攝一組照片,在返航著落過程中通過對下視觀測和起飛記錄照片的匹配來實現(xiàn)厘米級別的精準(zhǔn)降落。
Mavic Pro精準(zhǔn)降落是用到了SLAM中的回環(huán)檢測技術(shù),飛行過程中會記錄視覺傳感器看到的圖像信息,并且根據(jù)這些信息來進(jìn)行精準(zhǔn)降落。也就是說,它降落的時候,一直在和當(dāng)時起飛的時候所看到的圖像進(jìn)行對比,并且持續(xù)調(diào)整自己的方向。并且最近Mavic Pro的升級更新,據(jù)說增加了識別地面是否平整,以及地面是否是水面的功能,從而很大程度提高了降落的安全性??梢钥闯龃蠼畬τ脩趔w驗的重視以及對產(chǎn)品精益求精的追求。
“史上最智能無人機(jī)”背后是大疆的成功轉(zhuǎn)型
Mavic Pro發(fā)布之時,大疆用了“史上最智能無人機(jī)”來概括這些新增功能,而關(guān)于更多的細(xì)節(jié)部分則甚少提及。因此,也很少人注意到,這些功能背后是大疆早已默默地從一家“飛行相機(jī)”企業(yè)成功轉(zhuǎn)型為機(jī)器人企業(yè)。
其實早在今年3月,大疆創(chuàng)始人汪滔曾以“歡迎來到計算機(jī)視覺時代”一語點出了Phantom 4的核心所在,同時,大疆默默把自己的描述從以前的”Flying Camera” 變?yōu)榱?rdquo;Flying Robot”。Phantom 4面世所帶來的意義,即"機(jī)器視覺時代”的到來,以往幾十年全世界人對于計算機(jī)視覺的期待僅僅停留在論文和實驗室以及有限的工業(yè)場景中,而現(xiàn)在,計算機(jī)視覺以一種更好玩、更動感、更直接的表現(xiàn)形式回來了,讓大眾消費者都能感受到它帶來的便利。而這一切,都源自大疆過去兩年中在計算機(jī)視覺上所做的準(zhǔn)備。
圖片來自大疆官網(wǎng)
計算機(jī)視覺的結(jié)果要轉(zhuǎn)化為輔助控制做決策的過程中,要能結(jié)合各個模塊傳感器做出實際可用的應(yīng)用,要涉及到相機(jī)、云臺、IMU慣導(dǎo)模塊、氣壓計、GPS、超聲波、前視雙目、下視雙目以及視覺里程計等非常多和復(fù)雜的模塊。成熟的SDK架構(gòu)也貢獻(xiàn)很大,大疆的無人機(jī)和飛控都有一套非常規(guī)整的SDK(軟件開發(fā)套件)提供API給第三方開發(fā)者使用。
大疆還主辦各類飛行器及機(jī)器人比賽,從與福特汽車合作的SDK開發(fā)者大賽,任務(wù)是依靠目標(biāo)識別進(jìn)行無人機(jī)的移動汽車平臺降落,到堪稱最炫酷機(jī)器人比賽的全國大學(xué)生RoboMasters中的敵方機(jī)器人識別和自動瞄準(zhǔn),各個比賽中的視覺功能所占比例也是重中之重,而底層完善的SDK支持都是開發(fā)者效率的保障。
Robomasters中機(jī)器人正在利用計算機(jī)視覺技術(shù)對面板上的圖案進(jìn)行識別并選擇正確的圖案攻擊
大疆籌辦這類比賽一方面是對社會人才培養(yǎng)的回饋和貢獻(xiàn),另一方面更多也是為了人才儲備,因為贏得比賽往往意味著贏得一張去大疆工作的Offer,為大疆源源不斷地輸送計算機(jī)視覺和控制類的頂尖人才。
另外,雖然大疆在業(yè)內(nèi)一向很低調(diào),不過在各大學(xué)術(shù)會議中則是積極者。CVPR是計算機(jī)視覺領(lǐng)域中最頂級的會議,在今年6月末開啟的CVPR 2016上,大疆作為重要贊助商出現(xiàn)在了CVPR的會場,其參展的展位就在Apple、Intel、Microsoft和Google中間,而且還對與會的研究人員們做了演講。
可以說,就在其他無人機(jī)企業(yè)還在尋找哪個方向才是正道時,大疆早就明確要走哪條路并且知道要干什么。今年大量小型無人機(jī)出現(xiàn)在市面上,很大原因是大家以為大疆不會做小型無人機(jī),而Mavic Pro出來后,他們又將面臨曾經(jīng)跟精靈系列正面競爭的相似局面。而對于大疆來說,做大無人機(jī)還是小無人機(jī),或是說做航拍無人機(jī)還是自拍無人機(jī),這些并不是最重要的,只要掌握了最核心的技術(shù),做什么樣的無人機(jī)只是一個選擇而已。
還記得2015年11月大疆與美劇神盾局特工主演汪可盈合作拍攝的Phantom X概念視頻嗎?里面汪可盈用優(yōu)美的太極動作來控制無人機(jī)在空中作畫。如今也不過一年時間,當(dāng)時覺著天方夜譚的場景,現(xiàn)在再看看Mavic Pro是不是覺得很近了呢?
“其實,Mavic最核心的地方在于計算機(jī)視覺”,Mavic Pro發(fā)布后大疆的一名視覺工程師如此向雷鋒網(wǎng)強(qiáng)調(diào)著,彼時大家對于這款在很多方面都超越Phantom 4的無人機(jī)更多的討論還是圍繞在便攜和巧妙的工業(yè)設(shè)計上,而作為其中的參與者,Mavic Pro新增的智能功能才是讓他最為興奮的。按照公開資料來看,這些新增的智能功能讓Mavic Pro算得上是全球首款基于深度學(xué)習(xí)的消費級無人機(jī)。
首先我們將Mavic Pro與Phantom 4對比一下,Mavic Pro新增了哪些智能功能:1. 手勢自拍;2. 物體識別;3. 視覺跟隨中的平行跟隨、焦點跟隨、 自動環(huán)繞;4.精準(zhǔn)降落。
這里面每一個功能的背后,都是在試圖解決計算機(jī)視覺和機(jī)器人學(xué)領(lǐng)域里最核心也是最頭疼的難題,同時也是大疆隱藏最深的秘密。
手勢自拍
如今很多小型無人機(jī)都自稱自拍無人機(jī),不過其實都是屬于跟拍,通過跟蹤人或人臉來實現(xiàn)拍攝,大疆在今年3月的Phantom 4已經(jīng)實現(xiàn)過,如今包括正火的Hover Camera等無人機(jī)也都實現(xiàn)了這一功能。而Mavic Pro則是實實在在地實現(xiàn)了脫離遙控器的自拍,也就是通過手勢來進(jìn)行抓拍。
當(dāng)你走到畫面里,Mavic Pro會自己識別移動的人,并且你可以向它揮手讓它來跟著你飛行,在跟蹤過程中只要做出拍照手勢,它就會幫你抓拍。如此一來,你就能在拍照過程中完全將遙控器放收在包里。并且即使跟蹤丟失時,也可以在不需要遙控器的幫助時,重新走回畫面中,讓飛機(jī)繼續(xù)跟隨。值得一提的是,當(dāng)開啟GPS輔助時,飛機(jī)會融合GPS的信息來進(jìn)行矯正。
對于一般的手勢識別系統(tǒng)而言,整體的步驟大概分為三步,也就是手部的定位、建模和識別。手部建?,F(xiàn)在主要有兩種方法,2D和3D,主要是看使用了什么樣的攝像頭,建模好后最后再進(jìn)行識別,比如你的手是張開的還是握拳的。據(jù)悉從這個3D手部模型到手勢識別是有不同的方法的,有的是直接拿3D手部模型去識別,有的是把3D模型轉(zhuǎn)化成2D圖像,再在這個基礎(chǔ)上利用深度學(xué)習(xí)進(jìn)行分類識別。目前在室內(nèi)環(huán)境中,由于距離較近,手勢識別的難度并不大,像微軟的Kinect就在電視游戲上得到很好的應(yīng)用。但在戶外的場景下,在無人機(jī)上用這種攝像頭遠(yuǎn)距離識別手勢,大疆應(yīng)該算是首個嘗試的。
Mavic Pro并沒有使用3D攝像頭,而是通過2D主相機(jī)來進(jìn)行識別的,其難度要比使用3D攝像頭大很多。首先,飛機(jī)要在沒有深度信息的前提下準(zhǔn)確地識別和定位畫面中的人,其次,要完成一系列手部的定位、建模和動作的識別。
Mavic Pro據(jù)稱使用的是深度學(xué)習(xí),而深度學(xué)習(xí)對于計算設(shè)備有較高要求,一般研究者需要NVIDIA Titan X這類GPU才能實現(xiàn)。Titan X舊版的處理性能大概在6T的Flops(每秒計算的浮點數(shù)),而大疆使用的是聯(lián)芯LC 1860,官方給出的總處理能力在8GFlops,相差大概700倍,在這么低的處理平臺上做深度學(xué)習(xí),就面臨著神經(jīng)網(wǎng)絡(luò)設(shè)計上的突破,訓(xùn)練的技巧,模型的精簡與壓縮,底層實現(xiàn)的優(yōu)化等問題。
關(guān)于Mavic Pro的手勢自拍,雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))在體驗過程中的感受是,反應(yīng)還比較及時,大多數(shù)情況都能做到準(zhǔn)確識別,功能方面比較好。體驗方面,閃爍燈提示在陽光下比較弱,閃爍3秒后開始拍照,如果倒計時開始時加個聲音提示可能會更好。
物體的檢測和識別
物體的識別,是指對于畫面中的主體進(jìn)行分類判定。其分類方式既可以是粗粒度的類別(比如汽車),也可以細(xì)粒度的類別(比如奔馳C200、寶馬X5)。物體的檢測,是指在畫面中自動找出感興趣物體,并標(biāo)出它們的輪廓。全世界著名的ImageNet競賽,比拼的就是物體識別和檢測的準(zhǔn)確性。
Phantom 4的智能跟隨功能的一個痛點是需要用戶手動在屏幕上框出要跟隨的目標(biāo),而由于小白用戶常常難以做到,尤其當(dāng)目標(biāo)在運動中。一方面會因為框的不準(zhǔn)確,而造成智能跟隨表現(xiàn)不理想,另一方面對于正在運動中的物體,很難框中。而物體檢測和識別技術(shù),可以讓用戶實現(xiàn)即點即走,讓智能跟隨的體驗有了質(zhì)的提升。這次Mavic Pro可以自動檢測識別多種常見物體(人、汽車、卡車、動物、船、人騎自行車或摩托車等),并號稱其跟隨的動作會根據(jù)不同的物體有相應(yīng)的優(yōu)化。
Mavic Pro對人的跟隨,圖片來自網(wǎng)絡(luò)體驗視頻
Mavic Pro對船的跟隨,圖片來自網(wǎng)絡(luò)體驗視頻
- 文心智能體平臺全量上線DeepSeek滿血版
- 比亞迪:對1位重大黑公關(guān)線索提供人獎勵100萬元
- 達(dá)拉斯聯(lián)儲長警告:需維持利率穩(wěn)定 相當(dāng)一段時間
- 蛇年科技股盛宴:私募積極布局,市場全面走強(qiáng)
- 內(nèi)酰胺價格上揚,產(chǎn)業(yè)鏈回暖趨勢顯現(xiàn)
- 面板市場新趨勢:價格持續(xù)上漲,行業(yè)發(fā)展新篇章開啟
- 基金回暖成長熱,熙攘背后藏機(jī)遇
- 德國去年12月工業(yè)新訂單環(huán)比增長6.9%:經(jīng)濟(jì)復(fù)蘇持續(xù)
- 國泰君安:未來油運供需改善,風(fēng)險收益比提升,投資價值顯現(xiàn)
- 新春理財攻略:開啟開工理財,穩(wěn)健投資新篇章
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。