AI大模型驅(qū)動周期演進(jìn)加速,3D視覺感知打開機會空間

AI大模型驅(qū)動下,從投資人到產(chǎn)業(yè)界都在思索由此帶來的沖擊和機會。因其逐漸有了“智能涌現(xiàn)”能力,產(chǎn)業(yè)鏈方如何承接這些技術(shù)賦能,投入節(jié)點選擇也變得重要。

“投資人這幾年一大主題就是AI。”一村淞靈投資總經(jīng)理張晨對21世紀(jì)經(jīng)濟報道記者表示,“通過對AI方向的積累學(xué)習(xí),我們公司形成了生態(tài)打法:在感知周期時,重視對AI視覺、觸覺、嗅覺、類腦領(lǐng)域布局;現(xiàn)在是模型周期,未來會走向行為周期。無論是哪一個AI周期發(fā)展階段,我們堅定看好中國的產(chǎn)業(yè)發(fā)展。”

除了偏向于自然語言側(cè)的ChatGPT外,2023年Meta發(fā)布了旗下圖像類AI大模型SAM(Segment Anything Model)。據(jù)介紹,這是一種用于圖像分割的基礎(chǔ)模型,可以在無需額外訓(xùn)練、零樣本泛化前提下,實現(xiàn)辨別物體、對圖像的理解能力。業(yè)界認(rèn)為由此開啟了機器視覺的GPT時刻,將推動跨視覺模態(tài)的場景應(yīng)用,如自動駕駛、安防監(jiān)控等。

“在去年(2023年)上半年我還有一些顧慮甚至危機感:當(dāng)AI厲害到輸入什么數(shù)據(jù)都能得到很好的效果,是否可能就不需要我們3D感知行業(yè)了?”光鑒科技創(chuàng)始人兼CEO朱力對記者分析,“但通過與硅谷業(yè)內(nèi)交流,我們的一致結(jié)論是:其一,AI很依賴數(shù)據(jù)來源,如果輸入的數(shù)據(jù)很差就會導(dǎo)致輸出結(jié)果不好,因此好的傳感器很有價值;其二,AI最終需要計算也要考慮到成本,在傳感器和算力之間尋求平衡很重要,目前階段行業(yè)是在把感知能力做強,再拓展應(yīng)用的階段。”

生成式AI的出現(xiàn),令A(yù)I不同發(fā)展周期的時長在縮短,也驅(qū)動產(chǎn)業(yè)鏈演進(jìn)落地打開新空間,但同時快速迭代也會吞沒一些既有能力布局,考驗著產(chǎn)業(yè)鏈的思索。

AI驅(qū)動演變

如果說AI大模型類似于進(jìn)行運算的大腦,要支持大腦運轉(zhuǎn)需要足夠充足的觸角和養(yǎng)料,因此圍繞AI感知側(cè)的相關(guān)產(chǎn)業(yè)鏈發(fā)展成長就殊為重要。

天風(fēng)證券就指出,看好3D視覺通過與AI更緊密地結(jié)合有望實現(xiàn)更高效的智能感知和控制系統(tǒng)。通過將深度學(xué)習(xí)、機器學(xué)習(xí)、大語言模型等AI技術(shù)應(yīng)用于3D視覺感知,可實現(xiàn)更高效的數(shù)據(jù)處理、特征提取和模式識別。

張晨對記者分析,在其定義的AI發(fā)展三個周期中,AI的感知周期階段,主要是通過感知外部環(huán)境來豐富具身智能所需相關(guān)信息,如視覺、嗅覺、類腦等,核心是解決信息獲取問題;在模型周期主要解決機器思考和決策問題的過程;行為周期則可能是出現(xiàn)人類目前認(rèn)知無法達(dá)到的應(yīng)用。

SAM模型的出現(xiàn),是對以圖形、視覺為基礎(chǔ)的產(chǎn)業(yè)鏈應(yīng)用打開新空間。

1704789871905161.png

(SAM模型概要)

“現(xiàn)在來看,模型周期的發(fā)展進(jìn)程在縮短,比如研究多模態(tài)融合,如果在2021年早期投資機構(gòu)不布局,后續(xù)可能就沒有機會了。因為AI發(fā)展速度太快,幾乎每周都要知識更新。”張晨感慨,目前AI行業(yè)已進(jìn)入模型周期,當(dāng)前出現(xiàn)了基礎(chǔ)大模型和行業(yè)大模型不同類型,在大模型應(yīng)用階段,會出現(xiàn)諸多投資機會。

在這一邏輯下,一村淞靈面向感知周期,在早期就開始參與投資3D視覺領(lǐng)域領(lǐng)先公司光鑒科技。近期光鑒科技宣布完成的2億元人民幣B輪融資中,中金資本、一村淞靈、重慶科興等機構(gòu)參與了投資。

據(jù)介紹,光鑒科技2018年成立,至今已經(jīng)完成六輪融資,幾乎是成立后每年一筆新增融資,額度從最初的數(shù)百萬美元,到如今數(shù)億人民幣規(guī)模,總計融資金額超5億人民幣。

朱力曾是蘋果公司3D傳感項目負(fù)責(zé)人,在發(fā)掘該細(xì)分領(lǐng)域成長空間后選擇歸國創(chuàng)業(yè)。他對記者表示,3D視覺傳感意味著提升機器的感知能力,構(gòu)建X-Y-Z空間坐標(biāo)。相較于2D視覺,3D視覺主要為機器算法服務(wù),更加精準(zhǔn)和安全,也具備更強的隱私性,可以為人工智能帶來更優(yōu)秀的感知能力。

“AI大模型出現(xiàn),將機器原有能力進(jìn)行了擴充。舉例來說,此前設(shè)計家用掃地機器人時,避障功能通常需要植入多種分類模型才能有較好表現(xiàn),但有了通用大模型后,用一個模型就可以讓機器智能化快速提升。”

因此對視覺傳感行業(yè)而言,AI大模型出現(xiàn)可以驅(qū)動產(chǎn)品更加完整,進(jìn)而促進(jìn)AI相關(guān)軟硬件的規(guī)?;瘧?yīng)用。SAM模型則主要解決了感知層的通用性問題,讓空間傳感信息轉(zhuǎn)化成自然語言處理的過程更加高效。“坦率說,大多數(shù)應(yīng)用型公司很難做到自己搭建一個基礎(chǔ)大模型,但是通過引入這種底層能力,在一些垂直應(yīng)用上嵌入我們的數(shù)據(jù)進(jìn)行微調(diào),可以帶來差異化價值。”他進(jìn)一步指出。

“當(dāng)然在大模型應(yīng)用中,我們還處在偏應(yīng)用端,不用操之過急很早參與進(jìn)去。”朱力表示,可以成為大模型的應(yīng)用參與者,探索其中新方向,但當(dāng)前還沒必要對大模型本身過早投入,例如微調(diào)等動作。因為很有可能目前正在做的事情,幾個月后就會被Open AI的功能升級所抵消,抓住自身垂直場景的核心環(huán)節(jié)很關(guān)鍵。

感知側(cè)路線圖

面對涌動的AI浪潮,產(chǎn)業(yè)鏈廠商的技術(shù)和應(yīng)用路線圖也在逐漸拓維。

朱力介紹道,此次B輪融資的背景是公司正處在業(yè)務(wù)快速增長節(jié)點。一方面是當(dāng)前業(yè)務(wù)增長需要資金注入,以支持占據(jù)更大市場份額;另一方面通過一定資金儲備可以令公司在感知-算法-計算三大關(guān)鍵環(huán)節(jié)都構(gòu)建更深壁壘。

“我不斷在思考。視覺感知幾乎與智能相關(guān)的行業(yè)都沾邊,選擇做什么,首先要定位在價值鏈條中創(chuàng)造的是什么。”朱力分析,因為當(dāng)前現(xiàn)實生活中的人工智能應(yīng)用,有85%以上信息來自視覺信息。光鑒科技的目標(biāo)是通過視覺能力,解決智能設(shè)備和人、空間之間的交互問題。

他續(xù)稱,光鑒科技已經(jīng)搭建了一個“武器庫”,最終目標(biāo)并不是預(yù)判市場選擇哪一條技術(shù)路線,而是先儲備能力和產(chǎn)品,再基于行業(yè)需求,幫助市場做好技術(shù)選擇,并引導(dǎo)市場往更有效的實現(xiàn)方式落地,讓技術(shù)真正賦能于行業(yè)和市場。

手機端是最早把3D視覺行業(yè)推向拐點的應(yīng)用,蘋果在iPhoneX中率先應(yīng)用Face ID后讓供應(yīng)鏈成本快速降低,才有了在其他行業(yè)進(jìn)一步探索應(yīng)用的可能性。

“2023年有一個明顯趨勢,多家國內(nèi)手機大廠在旗艦手機中專門配置安全芯片,在這方面3D視覺會比2D視覺有更大優(yōu)勢,且旗艦手機的成本空間相對高,3D視覺應(yīng)用落地會有更大想象空間。”朱力對記者分析。

從量級看,即便手機行業(yè)目前走到一定瓶頸發(fā)展期,但依然是一個十多億臺體量的大市場,對于供應(yīng)鏈企業(yè)來說,即便只應(yīng)用在10%手機中,也是上億臺手機的發(fā)展空間。

生物識別場景除手機外,支付也是一個快速成長的市場。“刷臉支付是我們前幾年投入的方向,刷掌支付會是下一個趨勢。隨著產(chǎn)業(yè)界的推動,在信息安全保護(hù)相對謹(jǐn)慎的歐美國家也認(rèn)可了這種生物識別支付方式,相比于用戶可能擔(dān)心人臉信息涉及隱私,刷掌支付被認(rèn)為是開放社會中生物識別的最佳形態(tài)。”他續(xù)稱。

據(jù)悉,目前光鑒科技已經(jīng)與微信支付達(dá)成深度合作,將刷掌技術(shù)推廣到交通、運動、校園、零售、餐飲、辦公、共享充電等場景,便捷性和用戶體驗較刷臉支付都有提升。

1704789878447781.png

(刷掌支付應(yīng)用場景)

在近些年沉沉浮浮的XR行業(yè),蘋果Vision Pro中內(nèi)置了不少光學(xué)器件,也會是3D傳感領(lǐng)域的一大機會。但即便在2024年蘋果將量產(chǎn)商用旗下產(chǎn)品,顯然目前這還不是消費者能大規(guī)模接受的應(yīng)用終端。

朱力分析認(rèn)為,Vision Pro目前階段的重要使命,是提供給大量專業(yè)開發(fā)者建設(shè)應(yīng)用生態(tài)。正因XR行業(yè)當(dāng)前沒有出現(xiàn)殺手級應(yīng)用,行業(yè)拐點不會快速到來。“或許在2-3年后,行業(yè)對XR應(yīng)用趨勢達(dá)成共識,同時其本身通過迭代優(yōu)化、成本快速下降,預(yù)計在2026年左右,可能會迎來市場真正需要的XR產(chǎn)品。”基于這一判斷,光鑒科技目前也在與創(chuàng)新產(chǎn)品公司合作,研發(fā)新的產(chǎn)品方案,但會謹(jǐn)慎地控制投入。

機器人和汽車是成長空間和天花板都很高的另外兩大終端市場。朱力分析,機器人市場能帶來相對較高的附加值;汽車市場則是伴隨國內(nèi)快速迭代必然會出現(xiàn)高需求,“我們目前在汽車市場會聚焦服務(wù)國內(nèi)2-3家客戶,先把產(chǎn)品打磨到足夠好,再考慮面向全球銷售產(chǎn)品。”

周期中尋路

智能汽車無疑是當(dāng)前視覺傳感產(chǎn)業(yè)鏈重要的落地驅(qū)動之一。只是面對不同場景,整車廠可能會存在路線快速選擇和調(diào)整的過程。

朱力對記者分析,3D視覺傳感在智能汽車中的落地場景有兩類:智能駕駛、人機交互。目前智能駕駛相關(guān)應(yīng)用如輔助駕駛、自動泊車等,以激光雷達(dá)類供應(yīng)商居多,但其偏高的成本意味著普遍應(yīng)用門檻較高。而人機交互在汽車智能化浪潮中也很關(guān)鍵,“那就類似智能手機和功能機的區(qū)別,是采用鍵盤還是屏幕交互,體驗差異很大。”他續(xù)稱,該部分能力可以從既往消費電子領(lǐng)域的積累中延伸而來,涉及汽車如何理解人發(fā)出的指令(隔空交互、手勢交互等)、如何理解車內(nèi)環(huán)境等。

“比如人進(jìn)入車內(nèi)后,座椅如何根據(jù)人員需求自動調(diào)整,我們已經(jīng)可以交付這類方案。”朱力介紹,3D視覺可以解決一定隱私安全疑慮,比如車內(nèi)疲勞監(jiān)測場景,需要車內(nèi)配置攝像頭和算法,但3D視覺并非構(gòu)建圖像信息,而是空間信息,“哪怕最壞情況下,這些信息被黑客捕捉了,也并不了解這些信息背后是怎樣的影像。”

“我們認(rèn)為,3D視覺會是未來解決座艙內(nèi)人機交互的關(guān)鍵技術(shù),但我們還不會參與面向自動駕駛的車外視覺感知。”朱力補充道,因為自動駕駛市場內(nèi)卷嚴(yán)重,找準(zhǔn)可以實現(xiàn)商業(yè)閉環(huán)的切入點很重要,不能不計成本內(nèi)卷;同時伴隨大模型興起,自動駕駛未來的發(fā)展路線將有很多變數(shù),既往架構(gòu)設(shè)計很可能會有重大變化,因此目前需要謹(jǐn)慎。

據(jù)介紹,2022年3月光鑒科技開始與國內(nèi)新勢力車企共研車艙3D視覺方案,并在此前交付了軟件類視覺感知系統(tǒng)。“2023年我們已經(jīng)拿到TS16949(質(zhì)量體系要求)資質(zhì),2024年開始可以提供軟硬件一體化方案。”他指出。

1704789901755804.png

(光鑒科技車規(guī)級3D相機)

從產(chǎn)業(yè)發(fā)展歷程看,3D視覺傳感早期由美國和日本廠商探路發(fā)展模式并走向成熟,目前在國內(nèi)呈現(xiàn)產(chǎn)業(yè)鏈公司相對分散的局面。

張晨對記者分析,讓AI理解物理世界到底是什么樣子,是3D傳感產(chǎn)業(yè)鏈環(huán)節(jié)最主要的優(yōu)勢,其也是向機器提供物理世界深度信息的關(guān)鍵紐帶。“我們覺得機器視覺度過了多輪經(jīng)濟周期變化,目前歐美日等市場找到了其細(xì)分領(lǐng)域發(fā)展規(guī)律,優(yōu)勢明顯。在這一方向,從技術(shù)到產(chǎn)品打磨、形成工程量產(chǎn),都需要積累、迭代、收獲反饋。在中國發(fā)展機器視覺、尤其3D視覺也要經(jīng)歷這些過程,才能找到規(guī)律。”

“消費電子行業(yè)的特點是迭代快、周期短,但爆發(fā)力驚人。因此就需要創(chuàng)業(yè)團(tuán)隊具備敏銳的商業(yè)嗅覺,同時理解技術(shù)演進(jìn)趨勢。這也是我們看中投資光鑒科技的原因。”他表示。

據(jù)悉光鑒科技預(yù)計在2023年第四季度開始實現(xiàn)盈利。“3D視覺會是未來人工智能進(jìn)入人類生活的重要橋梁。”朱力總結(jié)道,當(dāng)前AI在生活中的滲透率越來越高,在需要人機交互的環(huán)節(jié),都將有廣闊發(fā)展空間。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )