HoloLens2的幕后故事:人工智能如何打造微軟的普適計(jì)算愿景

原標(biāo)題: HoloLens2的幕后故事:人工智能如何打造微軟的普適計(jì)算愿景

華盛頓州,雷德蒙德——當(dāng)人們第一次戴上全新HoloLens 2時(shí),設(shè)備會(huì)自動(dòng)開始識(shí)別他們:它會(huì)測(cè)量包括用戶手的準(zhǔn)確形狀、精準(zhǔn)的瞳距在內(nèi)的一切數(shù)據(jù)。在英國(guó)劍橋領(lǐng)導(dǎo)HoloLens科學(xué)團(tuán)隊(duì)的資深科學(xué)家Jamie Shotton表示,實(shí)現(xiàn)這些功能的人工智能研發(fā)過(guò)程“驚人的復(fù)雜”,但如果想讓使用該設(shè)備的體驗(yàn)變成一種“本能”體驗(yàn),這些研發(fā)工作至關(guān)重要。

“我們希望用戶不用專門學(xué)習(xí),就知道如何使用HoloLens。”他補(bǔ)充到:“我們知道如何與現(xiàn)實(shí)世界中的事物進(jìn)行交互:我們拿起東西,按下按鈕,然后指向目標(biāo)物。我們致力于將其直接轉(zhuǎn)化為混合現(xiàn)實(shí)?!?/p>

微軟今天宣布HoloLens 2正式開始向客戶發(fā)貨。這款內(nèi)置傳感器的全息計(jì)算頭戴顯示設(shè)備利用人工智能代替時(shí)間和空間,創(chuàng)造出一個(gè)由人、位置和物體組成的混合現(xiàn)實(shí),以促進(jìn)我們最基本的人類沖動(dòng)之一:交換知識(shí)。

微軟技術(shù)院士Alex Kipman表示,我們希望這款頭戴顯示設(shè)備可以展示智能邊緣設(shè)備的優(yōu)秀能力——支持人工智能技術(shù),即使沒有穩(wěn)定的互聯(lián)網(wǎng)連接,也能收集和處理數(shù)據(jù)——并在聯(lián)網(wǎng)時(shí)與智能云共享部分或全部數(shù)據(jù)。

不久之前,Kipman在他辦公室的數(shù)字白板上勾勒了這種普適計(jì)算結(jié)構(gòu)的示意圖。他說(shuō):“HoloLens是微軟首個(gè)基于這種世界觀開發(fā)的設(shè)備?!?HoloLens 2中的人工智能與微軟云計(jì)算平臺(tái)Azure的人工智能功能相結(jié)合,讓那些需要騰出雙手操作的一線工作人員能夠?qū)W習(xí)有助于職業(yè)發(fā)展的技能,并使地球兩端說(shuō)不同語(yǔ)言的人能夠通過(guò)對(duì)物體的互通認(rèn)知進(jìn)行協(xié)作。

微軟公司Microsoft Azure部門副總裁Julia White說(shuō):“你可以通過(guò)HoloLens做真正有趣的事,也可以通過(guò)云來(lái)做真正有趣的事。但是當(dāng)這兩者相結(jié)合時(shí),你會(huì)發(fā)現(xiàn),它改變了人們實(shí)際做事的方式方法?!?/p>

通過(guò)人工智能交付混合現(xiàn)實(shí)

為了實(shí)現(xiàn)與HoloLens 2的自然交互,Shotton和他的同事共同開發(fā)、訓(xùn)練人工智能模型,并將其部署在設(shè)備上,以跟蹤人們的手部動(dòng)作和視線,比如人們可以感知漂浮在自己眼前的全息影像并伸手調(diào)整大小或?qū)ζ渲匦露ㄎ弧?/p>

為了構(gòu)建手部跟蹤系統(tǒng),該團(tuán)隊(duì)制作了一個(gè)帶有向內(nèi)指向的圓頂攝像頭設(shè)備,用來(lái)記錄人們各種各樣的手形。之后團(tuán)隊(duì)會(huì)使用離線的云處理技術(shù)來(lái)構(gòu)建能夠代表所有人手形和動(dòng)作的3D模型。通過(guò)這個(gè)3D模型,團(tuán)隊(duì)能夠使用計(jì)算機(jī)圖形來(lái)渲染逼真的合成人手圖像和合成標(biāo)簽,從而使該模型能夠適用于各種手形、姿勢(shì)和運(yùn)動(dòng)。Shotton說(shuō):“你可以有效地生成無(wú)窮多的訓(xùn)練數(shù)據(jù)。”

該團(tuán)隊(duì)使用這些數(shù)據(jù)來(lái)訓(xùn)練一個(gè)緊湊型深度神經(jīng)網(wǎng)絡(luò),這是一種適用于HoloLens的機(jī)載處理器的人工智能算法,能夠?qū)?lái)自設(shè)備的深度傳感器的每一幀畫面進(jìn)行高效處理。當(dāng)新用戶戴上HoloLens 2時(shí),系統(tǒng)會(huì)利用這個(gè)神經(jīng)網(wǎng)絡(luò)構(gòu)建一個(gè)適合用戶手掌大小的個(gè)性化3D模型,從而實(shí)現(xiàn)與全息影像自然交互所需的精確跟蹤。

Shotton的團(tuán)隊(duì)采用了類似的方法來(lái)構(gòu)建和訓(xùn)練眼球跟蹤模型,密切關(guān)注瞳孔間距——即雙眼瞳孔中心之間的距離,瞳距因人而異,它會(huì)影響一個(gè)人看近處或遠(yuǎn)處物體的方式。最終這個(gè)眼球跟蹤模型,可以讓HoloLens 2能夠在客戶面前精確顯示全息影像,讓他們用手和眼睛同HoloLens 進(jìn)行交互和操作。

Shotton表示:“眼球追蹤、全息影像和現(xiàn)實(shí)世界的匹配、人手的互動(dòng),所有這一切,如果沒有足夠的精度,根本談不上本能自然的交互體驗(yàn)?!?/p>

貫穿邊緣到云端的人工智能

不僅僅是手部和眼球跟蹤功能,其它的智能功能,比如SLAM(同步定位與地圖構(gòu)建),都已經(jīng)被嵌入到HoloLens 2的第二代全息處理單元中,該芯片也被稱為HPU2.0。

Kipman把這種設(shè)備上的人工智能功能稱作感知人工智能。他說(shuō):“感知就像爬行動(dòng)物的大腦,它執(zhí)行的是腦部本能、想都不用想的操作?!睂?duì)于人來(lái)說(shuō),這類智能使我們的心臟保持跳動(dòng)、我們的肺部自主呼吸、我們的眼睛進(jìn)行微跳動(dòng)以測(cè)量景深。比如當(dāng)我們口渴并想要喝水時(shí),我們的眼睛會(huì)本能地測(cè)量到手舉水杯到唇邊的距離。

HoloLens 2上的感知人工智能使人們能夠操控全息影像并與之進(jìn)行交互,而無(wú)需擔(dān)心所謂的延遲——通常,數(shù)據(jù)傳輸?shù)皆贫?、進(jìn)行處理并返回到邊緣需要花數(shù)百毫秒的時(shí)間。當(dāng)你在全息影像上按下一個(gè)按鈕,或者用眼球在全息影像上瀏覽文本時(shí),“即使幾十毫秒也會(huì)產(chǎn)生顯著的感知差異?!盨hotton指出:“運(yùn)轉(zhuǎn)時(shí)長(zhǎng)至關(guān)重要?!?/p>

對(duì)隱私的保護(hù)是在設(shè)備上進(jìn)行本地人工智能計(jì)算的另一個(gè)原因,例如HoloLens 2用來(lái)驗(yàn)證客戶身份的虹膜掃描信息——人們可能不希望將這類私人數(shù)據(jù)發(fā)送到云端。然而,對(duì)于許多其它類型的數(shù)據(jù)來(lái)說(shuō),將其發(fā)送到云端是有好處的:因?yàn)橐坏┻@些數(shù)據(jù)到達(dá)云端,客戶就可以利用Azure AI和混合現(xiàn)實(shí)服務(wù),將他們?cè)O(shè)備上的數(shù)據(jù)與整個(gè)普適計(jì)算結(jié)構(gòu)中的數(shù)據(jù)相結(jié)合,“這使很多更高級(jí)的運(yùn)算和認(rèn)知功能得以運(yùn)行?!盞ipman說(shuō)。

云端協(xié)作

微軟混合現(xiàn)實(shí)與人工智能蘇黎世實(shí)驗(yàn)室主任Marc Pollefeys表示,智能云賦能的全息計(jì)算的一個(gè)關(guān)鍵優(yōu)勢(shì)就是,它可以與其他擁有HoloLens或類似設(shè)備的人共享信息。Pollefeys正在領(lǐng)導(dǎo)一個(gè)團(tuán)隊(duì)研發(fā)用于混合現(xiàn)實(shí)云服務(wù)的核心計(jì)算機(jī)視覺算法——Azure Spatial Anchors,該服務(wù)能夠讓全息影像保留并鎖定在現(xiàn)實(shí)世界中,供任何具有適當(dāng)訪問(wèn)權(quán)限的人查看。

比如說(shuō),Spatial Anchors技術(shù)讓工廠管理者能夠把全息影像放在裝配線上的設(shè)備旁邊,包含重要的實(shí)時(shí)操作和維護(hù)信息,任何獲得認(rèn)證并擁有混合現(xiàn)實(shí)設(shè)備的工人都可以訪問(wèn)這些信息。

Pollefeys說(shuō):“如果我只能在我自己的設(shè)備上回看這些信息,那這樣的全息影像就毫無(wú)意義。但是,如果我能夠在全息影像中對(duì)現(xiàn)實(shí)世界進(jìn)行批注和標(biāo)記,并且公司里任何有訪問(wèn)權(quán)限的人都可以看到這些信息,那么這就實(shí)現(xiàn)了價(jià)值飛躍?!?/p>

為了創(chuàng)建這一功能,Pollefeys和他的團(tuán)隊(duì)開發(fā)了人工智能計(jì)算機(jī)視覺算法,該算法可處理來(lái)自傳感器的數(shù)據(jù),提取周圍環(huán)境的3D幾何信息,并將其整合、上傳到云平臺(tái),創(chuàng)建出基于這些相關(guān)區(qū)域數(shù)字孿生系統(tǒng)或視圖。

Pollefeys指出,HoloLens總是通過(guò)解讀3D或空間信息的方式,了解其所在的運(yùn)行環(huán)境。Azure Spatial Anchors創(chuàng)建、優(yōu)化這些視圖,并在各種設(shè)備上進(jìn)行共享,這就是為什么要把來(lái)自各個(gè)設(shè)備的視圖拼湊在一起并存儲(chǔ)在云中。他說(shuō):“只在一臺(tái)設(shè)備上存儲(chǔ)這些數(shù)據(jù)是沒有意義的。就好比我有一小塊拼圖、其他人也有一小塊拼圖,只有當(dāng)我們把各自設(shè)備中生成的拼圖整合到一起,才可以覆蓋整個(gè)空間?!?/p>

隨著各種支持混合現(xiàn)實(shí)功能的設(shè)備,包括HoloLens以及適當(dāng)配置的手機(jī)、平板電腦和筆記本電腦,繪制出的環(huán)境信息不斷整合,并共享在云端,這些視圖將隨著時(shí)間的推移變得更加詳實(shí)、更加精確、更加強(qiáng)大。

以工廠為例,隨著越來(lái)越多有訪問(wèn)權(quán)限的工人用自己的設(shè)備查看全息影像,工廠車間的整體視圖將會(huì)不斷地改進(jìn),最終完整全息影像將會(huì)被經(jīng)理放置在裝配線設(shè)備的上方。該功能還支持其它一些場(chǎng)景,例如:建筑師和客戶開會(huì)時(shí),每個(gè)參會(huì)人員都佩戴一個(gè)混合現(xiàn)實(shí)設(shè)備,將可以從自己的視角查看該建筑的全息3D設(shè)計(jì)圖,并與之進(jìn)行交互。

Julia White指出,Azure包含預(yù)構(gòu)建服務(wù),可在HoloLens和任何其它混合現(xiàn)實(shí)設(shè)備上,包括運(yùn)行iOS和安卓操作系統(tǒng)的智能手機(jī)和平板電腦,為這類體驗(yàn)編寫應(yīng)用程序。她指出:“這種協(xié)作體驗(yàn)不僅僅限于HoloLens。而且開發(fā)者在編寫這些令人驚嘆的應(yīng)用時(shí)的成本、操作難度和技能要求都隨之大大降低?!?例如,跨設(shè)備和平臺(tái)功能可以優(yōu)化《我的世界:地球》的游戲體驗(yàn)。將流行的視頻游戲與混合現(xiàn)實(shí)融合在一起,一個(gè)玩家可以在現(xiàn)實(shí)世界中搭建并放置可持久存在的虛擬結(jié)構(gòu),這樣,其他玩家就可以在自己的設(shè)備上與之進(jìn)行交互。

Julia White說(shuō):“我們都參與其中,因?yàn)樗谠萍夹g(shù),能夠被各種類型的設(shè)備解讀和詮釋。”

以人為本的技術(shù)

Kipman指出,要想讓HoloLens達(dá)到我們預(yù)想的那樣去工作,支持這種體驗(yàn)的技術(shù)就必須以類似人類的方式來(lái)理解這個(gè)世界。因此,他和微軟各個(gè)部門的同事合作,一同在這普適計(jì)算的數(shù)據(jù)網(wǎng)中開發(fā)、部署這些技術(shù),并充分利用人工智能技術(shù)研究解決方案——從HoloLens 2的芯片到Azure AI和混合現(xiàn)實(shí)服務(wù)。

我們的目光再次回到Kipman的數(shù)字白板,他現(xiàn)在已經(jīng)勾勒出一個(gè)普適計(jì)算的愿景,這個(gè)白板上有文字、方框、箭頭,還有一幅簡(jiǎn)筆畫——畫中的兩人在一個(gè)智能設(shè)備旁交談。

他說(shuō),這就是普適計(jì)算的終極目標(biāo)——讓人們以自然的方式與他人進(jìn)行交互。為了強(qiáng)調(diào)這一點(diǎn),他特意停頓了一下,與觀眾進(jìn)行眼神交流,并說(shuō):“希望你們能從這次的談話中得到更多收獲,因?yàn)樵谡鎸?shí)世界中大家現(xiàn)在就在我身邊?!?/p>

他繼續(xù)說(shuō)道:“我們本可以通過(guò)電話或者Skype來(lái)交流,我甚至可以錄下我的演講,然后把磁帶寄給你們。但大家沒有選擇這么做,而選擇了面對(duì)面交流。為什么?因?yàn)檫@就是我們?nèi)祟惲?xí)慣的做事方式?!?/p>

“但這樣面對(duì)面的缺點(diǎn)是,大家必須和我同時(shí)在同一個(gè)地點(diǎn)。而全息技術(shù)的力量就在于,它能夠幫助我們打破空間和時(shí)間的界限?!?/p>

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-11-11
HoloLens2的幕后故事:人工智能如何打造微軟的普適計(jì)算愿景
為了實(shí)現(xiàn)與HoloLens 2的自然交互,Shotton和他的同事共同開發(fā)、訓(xùn)練人工智能模型,并將其部署在設(shè)備上,以跟蹤人們的手部動(dòng)作和視線,比如人們可以感知漂浮在自己眼前的全息影像并伸手調(diào)整大小或?qū)?/div>

長(zhǎng)按掃碼 閱讀全文