具身智能,是機(jī)器人的“冷飯熱炒”嗎?

大模型正如火如荼,下一個(gè)AI風(fēng)口就來(lái)了。

如果你關(guān)注2023世界人工智能大會(huì)等行業(yè)峰會(huì),以及英偉達(dá)、微軟、谷歌、特斯拉和國(guó)內(nèi)科技大廠的最新發(fā)布會(huì),除了“大模型”,應(yīng)該會(huì)聽到另一個(gè)高頻詞——具身智能。

所謂具身智能Embodied AI ,指的是有身體并支持物理交互的智能體。

簡(jiǎn)單來(lái)說(shuō),就是讓AGI從數(shù)字世界走向?qū)嶓w世界,落地在機(jī)器人、機(jī)械臂、無(wú)人車、無(wú)人機(jī),讓實(shí)體世界中的機(jī)器人/仿真人具有智能,像人一樣與環(huán)境交互感知,執(zhí)行各種各樣的任務(wù)。

從這個(gè)角度看,其實(shí)很多人都已經(jīng)見過或者玩過具身智能產(chǎn)品了。索尼的機(jī)器狗AIBO,軟銀的服務(wù)機(jī)器人pepper,還有波士頓動(dòng)力的人形機(jī)器人和機(jī)器狗……這些具身智能產(chǎn)品,曾是不少人的童年回憶,或者科幻恐懼。

雖然技術(shù)概念很超前,但這些產(chǎn)品的市場(chǎng)表現(xiàn),其實(shí)并不太理想,技術(shù)落地難、產(chǎn)品被停產(chǎn)、企業(yè)被轉(zhuǎn)賣,都不算新聞。

因此也有人認(rèn)為,具身智能作為AI的終極形態(tài)之一,只是一些大廠推動(dòng)的營(yíng)銷概念。

我們今天就來(lái)聊聊,具身智能的這一波熱度,是機(jī)器人的“冷飯熱炒”嗎?

下一個(gè)AI風(fēng)口

古話說(shuō)得好,遇到問題,先問是不是,再問為什么。

有必要先探討一下,具身智能真的火了嗎?

目前來(lái)看,AI學(xué)術(shù)界和工業(yè)界,確實(shí)已經(jīng)將“具身智能”,作為下一個(gè)風(fēng)口。

學(xué)術(shù)層面,不少科學(xué)家提出推論,大模型的技術(shù)路徑打通之后,下一個(gè)突破是具身智能。

圖靈獎(jiǎng)得主、上海期智研究院院長(zhǎng)姚期智認(rèn)為,人工智能領(lǐng)域下一個(gè)挑戰(zhàn)將是實(shí)現(xiàn)“具身通用人工智能”,即如何構(gòu)建能夠通過自我學(xué)習(xí)掌握各種技能并執(zhí)行現(xiàn)實(shí)生活中的種種通用任務(wù)的高端機(jī)器人。清華大學(xué)計(jì)算機(jī)系教授張鈸院士,也在某產(chǎn)業(yè)智能論壇上提出,隨著基礎(chǔ)模型的突破,通用智能機(jī)器人(具身智能)是未來(lái)的發(fā)展方向。

(張鈸院士的公開發(fā)言現(xiàn)場(chǎng))

產(chǎn)業(yè)層面,谷歌、微軟、特斯拉等科技公司近日都相繼公布了自家的具身智能產(chǎn)品,國(guó)內(nèi)頭部科技大廠如華為、京東,也開始將自身在具身智能領(lǐng)域的相關(guān)布局,向大眾布道。前不久印發(fā)的《北京市機(jī)器人產(chǎn)業(yè)創(chuàng)新發(fā)展行動(dòng)方案(2023-2025年)(征求意見稿)》,也提出發(fā)展機(jī)器人“1+4”產(chǎn)品體系,加緊布局人形機(jī)器人研發(fā)與應(yīng)用。具身智能的產(chǎn)業(yè)化、市場(chǎng)化潛力,正在加速積累。

如前所說(shuō),無(wú)論是現(xiàn)實(shí)生活中的機(jī)器狗、機(jī)械臂、無(wú)人車,還是科幻電影中的人形機(jī)器人,具身智能產(chǎn)品早已為大眾所熟悉,但市場(chǎng)表現(xiàn)一直不溫不火。為什么一夜之間成為風(fēng)口了?

和大模型“兩開花”

這一波具身智能的熱潮,讓我想起了這張梗圖。AGI起于大模型,終于具身智能。

具身智能的概念,可以追溯到1950年,圖靈在論文《Computing Machinery and Intelligence》中,提出機(jī)器像人一樣能和環(huán)境交互感知,自主規(guī)劃、決策、行動(dòng),并具備執(zhí)行能力,是AI的終極形態(tài)。

歷史上的兩次人工智能浪潮,AI智能水平都達(dá)不到大眾的預(yù)期,具身智能雖然誕生了波士頓動(dòng)力這樣的“炸裂”,但是作為一種未來(lái)概念和獨(dú)特案例,并沒有取得有成效的產(chǎn)業(yè)化進(jìn)展。

當(dāng)下正在第三次人工智能浪潮,具身智能的希望重燃,就在于跟大模型“兩開花”。

具體來(lái)說(shuō),大語(yǔ)言模型讓人們看到了AGI通用智能的希望,而這也讓具身智能有了幾個(gè)方面突破的可能性:

1.大模型——更厲害的“大腦”

我們知道,大語(yǔ)言模型和傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別,就在于泛化能力強(qiáng),在復(fù)雜任務(wù)理解、連續(xù)對(duì)話、零樣本推理等方向有了突破進(jìn)展。這一突破,讓機(jī)器人的理解力、連續(xù)決策力、人機(jī)交互能力,有了全新的解決思路。

微軟研究院發(fā)布“ChatGPT for Robotics” 文章中提到,大型語(yǔ)言模型 (LLM) 將人的語(yǔ)言快速轉(zhuǎn)換為機(jī)器人的高層控制代碼,從而控制機(jī)械臂、無(wú)人機(jī)等機(jī)器人。

以前,由于傳統(tǒng)AI不具備先驗(yàn)知識(shí),理解力和泛化能力不足,機(jī)器人就無(wú)法像人一樣擁有常識(shí),必須要將一個(gè)指令由人類工程師分解成一連串簡(jiǎn)短的程式化程序,然后機(jī)器人(機(jī)械臂)再一步一步去完成每個(gè)動(dòng)作。

這也使得高級(jí)別的具身智能,比如L5自動(dòng)駕駛、人形機(jī)器人、機(jī)器狗等,人機(jī)交互無(wú)法滿足現(xiàn)實(shí)中通用智能的需求,廣泛應(yīng)用的主要是機(jī)械臂、履帶式搬運(yùn)機(jī)器人等這類比較機(jī)械化的具身智能,只適應(yīng)某一類設(shè)計(jì)好的特定任務(wù)。

有了大模型之后,機(jī)器人終于有了一個(gè)強(qiáng)大的“大腦”。

LLM可以幫助機(jī)器人更好理解運(yùn)用到高級(jí)語(yǔ)義知識(shí),自動(dòng)化地分析自己的任務(wù)并拆分成具體的動(dòng)作,這樣與人類、與物理環(huán)境的互動(dòng)更加自然,機(jī)器人也就顯得更加智能了。

舉個(gè)例子,讓機(jī)器人倒一杯水,人類自動(dòng)就會(huì)繞開室內(nèi)的障礙物,但傳統(tǒng)方式下,機(jī)器人并不具備“遇到障礙物水會(huì)打翻”這樣的常識(shí),經(jīng)常會(huì)做錯(cuò)事,而大模型驅(qū)動(dòng)的具身智能,就可以更好地理解這些知識(shí),自動(dòng)分解任務(wù),不再需要工程師或者主人一步步地指導(dǎo)。

2.多模態(tài)——更豐富的“小腦”

“具身”所相對(duì)的概念是“離身”(Disembodiment),從中可以看到,具身智能的實(shí)現(xiàn)依賴于身體的感知,不能脫離身體而單獨(dú)存在。

人類具有眼耳鼻舌身意,說(shuō)明對(duì)于物理世界的充分感知和理解,是意識(shí)和智慧的來(lái)源。而傳統(tǒng)AI更多的是被動(dòng)觀測(cè),主要是“看”(計(jì)算機(jī)視覺)和“讀”(文本NLP),這就使得智能體Agent缺乏對(duì)外部環(huán)境的通用感知能力。

自動(dòng)駕駛為例,無(wú)人車也是具身智能的載體,需要通過傳感器、機(jī)器視覺、激光雷達(dá)等多種方式來(lái)感知物理世界的變化,成本昂貴,效果也不是很理想,至今依然沒能實(shí)現(xiàn)L3級(jí)別的自動(dòng)駕駛量產(chǎn)。

多模態(tài)大模型,可以積累和分析2D&3D視覺、LiDAR激光、Voice聲音等多維信息,基于真實(shí)交互,為具身大模型積累高質(zhì)量數(shù)據(jù)數(shù)據(jù),深度理解并轉(zhuǎn)化為機(jī)器指令,來(lái)控制機(jī)器人的行為。

有了感知能力更豐富的“小腦”,具身智能自然也就能更好的理解物理世界。

3.精準(zhǔn)決策——更靈活的軀干。

試想一下,如果一輛無(wú)人車,行駛過程中道路上突然沖出一個(gè)物體,它只能等著人類來(lái)判斷“當(dāng)前是什么情況”,下達(dá)指令“應(yīng)該干什么”,那黃花菜都涼了,萬(wàn)一沖出來(lái)的是人,那實(shí)在是太危險(xiǎn)太不可靠了。

傳統(tǒng)的機(jī)器人訓(xùn)練往往采取pffline離線模式,一旦遇到訓(xùn)練環(huán)境中沒有出現(xiàn)過的問題,就可能掉鏈子,需要收集數(shù)據(jù)再重新迭代優(yōu)化,這個(gè)過程的效率很低,也減慢了具身智能在現(xiàn)實(shí)中落地的速度。

大模型時(shí)代,具身智能模型的訓(xùn)練與測(cè)試,與云服務(wù)相結(jié)合,可以在云上虛擬仿真場(chǎng)景下,進(jìn)行端到端的實(shí)時(shí)訓(xùn)練與測(cè)試,快速完成端側(cè)迭代與開發(fā),這就大大加速了具身智能體的進(jìn)化速度。

具身智能體在模擬出來(lái)的場(chǎng)景中無(wú)數(shù)次地嘗試、學(xué)習(xí)、反饋、迭代,積累對(duì)物理世界的深度理解,產(chǎn)生大量交互數(shù)據(jù),再通過與真實(shí)環(huán)境的不斷交互積累經(jīng)驗(yàn),全面提升在復(fù)雜世界的自動(dòng)移動(dòng)、復(fù)雜任務(wù)的泛化能力,展現(xiàn)在具身載體上,就是機(jī)器人可以更好地適應(yīng)環(huán)境,更靈活地運(yùn)用機(jī)械“軀干”來(lái)進(jìn)行人機(jī)交互。

一句話總結(jié),和大模型“兩開花”,將通用人工智能落地(Embodiment物理身體),為具身智能打開了新的想象空間。

能抓老鼠才是好貓

理論歸理論,實(shí)踐歸實(shí)踐。我們總說(shuō)能抓住老鼠的才是好貓,那么實(shí)現(xiàn)具身智能,究竟有幾種“抓老鼠”的方式呢?

目前,主要以兩種路線為主:

一種是谷歌、伯克利等為代表的“未來(lái)派”,主打的是“一步到位”。

具體來(lái)說(shuō),這類研發(fā)機(jī)構(gòu)是從具身智能的終極目標(biāo)出發(fā),希望從當(dāng)下到終點(diǎn),尋找一個(gè)端到端的技術(shù)路徑,所給出的方案,往往采取“緊耦合”的方式,希望一個(gè)大模型就能包辦所有,讓機(jī)器人完成識(shí)別環(huán)境、分解任務(wù)、執(zhí)行操作等所有工作,非常難,也非常有未來(lái)感。

比如今年三月谷歌推出的PaLM-E,就是一種多模態(tài)具身視覺語(yǔ)言模型(VLM),讓機(jī)器人可以基于大模型,來(lái)理解圖像、語(yǔ)言等數(shù)據(jù),執(zhí)行復(fù)雜的指令,而無(wú)需重新訓(xùn)練。

加州大學(xué)伯克利分校的LM Nav,則通過視覺模型、語(yǔ)言模型、視覺語(yǔ)言模型 CLIP等三個(gè)大模型,讓機(jī)器人在不看地圖的情況下按照語(yǔ)言指令到達(dá)目的地。Koushil Sreenath教授的工作,就是推動(dòng)硬件本體、運(yùn)動(dòng)小腦、決策大腦三部分逐漸融合,讓各種四足、雙足,以及人形機(jī)器人在真實(shí)世界中靈活地運(yùn)動(dòng)。

另一種,是英偉達(dá)及大量工業(yè)機(jī)器人廠商為代表的“務(wù)實(shí)派”,主打的是“馬上見效”。

“未來(lái)派”一步到位的路線雖然看起來(lái)很酷,但耗時(shí)漫長(zhǎng),距離產(chǎn)業(yè)可用還比較遙遠(yuǎn),成本昂貴,產(chǎn)業(yè)客戶未必能夠接受。在種種不確定之夏,滿足工業(yè)界需求,就出現(xiàn)了以松耦合來(lái)實(shí)現(xiàn)具身智能的技術(shù)路線。

簡(jiǎn)單來(lái)說(shuō),就是不同任務(wù)通過不同模型來(lái)實(shí)現(xiàn),分別讓機(jī)器人學(xué)習(xí)概念并指揮行動(dòng),把所有的指令分解執(zhí)行,通過大模型來(lái)完成自動(dòng)化調(diào)度和協(xié)作,比如語(yǔ)言大模型來(lái)學(xué)習(xí)對(duì)話、視覺大模型來(lái)識(shí)別地圖、多模態(tài)大模型來(lái)完成肢體驅(qū)動(dòng)。

這種方式雖然底層邏輯上看還是比較機(jī)械,不像人一樣有綜合智能,但成本和可行性上,能讓具身智能更快落地。

哪種路線更優(yōu)?坦率地說(shuō),我們認(rèn)為都有其局限性。

緊耦合的“未來(lái)派”,硬科技的含量顯然更高,在突破后很容易和LLM一樣給產(chǎn)業(yè)帶來(lái)顛覆式的變革,讓此前的大量工作成為無(wú)用功,但問題是商業(yè)化的周期很長(zhǎng),谷歌此前就曾將一門心思在人形機(jī)器人的波士頓動(dòng)力出售,這一輪能堅(jiān)持多久還是未知數(shù)。

松耦合的“務(wù)實(shí)派”,確實(shí)能很快落地產(chǎn)業(yè)應(yīng)用,但技術(shù)壁壘相對(duì)不高,隨著AI玩家增多,存量市場(chǎng)逐漸被開發(fā),毛利率必然會(huì)在同質(zhì)化激烈競(jìng)爭(zhēng)中受到擠壓,商業(yè)前景會(huì)很快到達(dá)天花板。此前國(guó)內(nèi)某機(jī)器人龍頭企業(yè),就因?yàn)榧夹g(shù)含量不高而折戟科創(chuàng)板,這說(shuō)明具身智能產(chǎn)業(yè)還是要篤定遠(yuǎn)一點(diǎn)的未來(lái),積累硬核科技。

星辰大海與商業(yè)賺錢之間的溝壑,是每一個(gè)AI企業(yè)都要穿越的“死亡之谷”。

我們對(duì)機(jī)器人還有哪些期待?

LLM方興未艾,距離通用智能只是理論可行,究竟如何實(shí)現(xiàn),還有很長(zhǎng)的路要探索。從這個(gè)角度看,被大模型帶火的具身智能,目前也還留在語(yǔ)言、視覺這兩個(gè)經(jīng)典的AI任務(wù)領(lǐng)域,能否進(jìn)一步突破,前途也很朦朧。

既然如此,為什么學(xué)術(shù)界和產(chǎn)業(yè)界依然將其作為下一個(gè)AI風(fēng)口來(lái)布道呢?原因或許在于以下兩點(diǎn):

從學(xué)術(shù)上看,具身智能是行為主義的極致。人工智能的兩大門派:符號(hào)主義和聯(lián)接主義。聯(lián)接主義也叫行為主義,不追求意識(shí)的本質(zhì),希望用人工神經(jīng)網(wǎng)絡(luò)模擬人的行為,讓機(jī)器“看起來(lái)像人”,讓人形機(jī)器人成為現(xiàn)實(shí),具身智能就是行為主義發(fā)展到極致的表現(xiàn)之一。所以,從學(xué)術(shù)上倡導(dǎo)向具身智能發(fā)展,是符合技術(shù)向前演進(jìn)的路線的。

從產(chǎn)業(yè)上看,產(chǎn)業(yè)智能化的浪潮,確實(shí)讓物理世界和數(shù)字世界的交互增多了,只有AI軟件是不夠的,必須要能驅(qū)動(dòng)物理實(shí)體,比如工業(yè)場(chǎng)景下的抓拿放,可以取代人工操作的繁瑣和危險(xiǎn),在煤礦井下作業(yè)、港口倉(cāng)庫(kù)搬卸、搬家快遞服務(wù)、清理事故現(xiàn)場(chǎng)和救災(zāi)等領(lǐng)域,由機(jī)器人來(lái)代替人類,完成一些危重工作。同時(shí),大模型、云計(jì)算、邊緣計(jì)算等技術(shù)相結(jié)合,有望大大降低具身智能的研發(fā)和應(yīng)用成本,這對(duì)于機(jī)器人產(chǎn)業(yè)的推動(dòng)作用是巨大的,這時(shí)候探索和占坑也有其戰(zhàn)略意義。

當(dāng)然,現(xiàn)在就投入具身智能,有沒有風(fēng)險(xiǎn)呢?

也是有的。說(shuō)一個(gè)最恐怖的,我們都知道人工智能產(chǎn)業(yè)的發(fā)展,是在符號(hào)主義和聯(lián)接主義之間做鐘擺運(yùn)動(dòng),如果有一天,鐘擺向另一方擺動(dòng),那么已經(jīng)投入到行為主義這一技術(shù)路線的大量市場(chǎng)資源、基礎(chǔ)設(shè)施投資、人才儲(chǔ)備等,又該何去何從呢?

更加具體的挑戰(zhàn)也有不少。

比如數(shù)據(jù)的挑戰(zhàn),具身智能的數(shù)據(jù),不同于“紙上談兵”的算法,只能從與物理世界的交互中獲得,具有很大的隱私性、高成本、敏感性,不能批量生產(chǎn),這就對(duì)能力優(yōu)化迭代造成了限制。

再比如,收集來(lái)的數(shù)據(jù)一般是不能直接拿來(lái)訓(xùn)練的,要整理轉(zhuǎn)換成有意義的語(yǔ)料庫(kù),再讓大模型學(xué)習(xí),這個(gè)開發(fā)過程是非常繁瑣的,又增加了研發(fā)的成本。

此外,廣大用戶對(duì)于具身智能的機(jī)器人的安全性要求非常高,如果家政服務(wù)機(jī)器人將水倒在了插電孔,機(jī)器狗摔倒壓住了小朋友,這些故障都是商業(yè)上不可能被接受的,可靠、可用、可市場(chǎng)化的具身智能,目前看還比較遙遠(yuǎn),需要長(zhǎng)期投入。這意味著具身智能目前看來(lái)依然是大廠的游戲。

無(wú)論如何,大模型的普及,大大加快了具身智能的研發(fā)和落地速度。人工智能這個(gè)學(xué)科誕生以來(lái),人類就希望能像“女媧”一樣,創(chuàng)造出和自己類似的通用機(jī)器人。具身智能,就是這個(gè)夢(mèng)想的具體承載方式。

今天,我們終于可以將“具身智能”,作為一個(gè)產(chǎn)業(yè)風(fēng)口來(lái)暢想和實(shí)現(xiàn)了,能夠見證這件事的發(fā)生,已經(jīng)十分值得人類為之自豪。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2023-07-23
具身智能,是機(jī)器人的“冷飯熱炒”嗎?
具身智能,是機(jī)器人的“冷飯熱炒”嗎?

長(zhǎng)按掃碼 閱讀全文