123,123

2月14日，昆侖萬維正式推出Matrix-Zero世界模型，成為中國第一家同時推出3D場景生成、可交互視頻生成模型的探索空間智能的企業(yè)。

Matrix-Zero世界模型包含兩款子模型：

3D場景生成大模型

昆侖萬維自研3D場景生成大模型，支持將用戶輸入的圖片轉(zhuǎn)化為可自由探索的真實合理的3D場景，比World Labs生成場景的探索范圍更大更自由，而且包括動態(tài)物理效果；

可交互視頻生成大模型

昆侖萬維自研可交互視頻生成大模型，提供以用戶輸入為核心驅(qū)動的可交互空間智能視頻生成方案，支持根據(jù)用戶實時輸入生成互動視頻效果，具備更精準控制的action model。

圖像和視頻作為當今人類獲取信息的主要方式，3D場景生成和視頻生成技術(shù)的發(fā)展有望徹底改變內(nèi)容生產(chǎn)的方式，大幅提升創(chuàng)作效率?，F(xiàn)有的3D AIGC工具（如TripoAI、Meshy等）主要聚焦于單個物體的生成，難以構(gòu)建完整且合理的3D場景。而傳統(tǒng)3D建模方法則成本高昂、耗時冗長，難以滿足大規(guī)模內(nèi)容生產(chǎn)的需求。

相比之下，結(jié)合AI驅(qū)動的2D視頻生成與3D場景生成技術(shù)，不僅能大幅提升生成效率和泛化能力，使其適應(yīng)更廣泛的應(yīng)用場景，還能增強結(jié)果的一致性與物理合理性，從而帶來更加真實、沉浸的交互體驗。這種融合技術(shù)將重塑數(shù)字內(nèi)容創(chuàng)作模式，提升影視制作、游戲開發(fā)、具身智能等領(lǐng)域的生產(chǎn)效率與創(chuàng)新能力，推動行業(yè)邁向更高水平的發(fā)展。

作為一項新興的前沿技術(shù)，空間智能融合了視頻生成、三維建模等多種技術(shù)，實現(xiàn)對物理空間的數(shù)字化重建。其核心目標是將二維圖像轉(zhuǎn)換為可交互的三維場景，為用戶提供更加自然、直觀和沉浸式的體驗。在數(shù)字時代的AI浪潮中，3D場景生成、視頻生成模型以及相關(guān)空間智能技術(shù)，正以破竹之勢給諸多行業(yè)帶來顛覆性變革，特別是具身智能、影視制作、游戲娛樂等場景。

01 昆侖萬維自研3D場景生成大模型，敢為人先開拓空間智能時代

昆侖萬維Matrix-Zero的3D場景生成功能，支持將用戶輸入的圖片轉(zhuǎn)化為可自由探索的真實合理的3D場景，具備全局一致性、可自由探索、支持不同風(fēng)格圖片輸入、支持風(fēng)格遷移、支持動態(tài)場景生成等亮點。

Matrix-Zero生成的內(nèi)容為全局一致的3D場景，我們輸入一張圖片「城堡的花園一角」，可以生成一副360度環(huán)視后場景保持不變的3D場景，最后一幀回到起始幀，不會出現(xiàn)生成結(jié)果前后不一致現(xiàn)象，能夠應(yīng)用在3D游戲場景的可控、快速建模，以及具身智能的模擬場景快速搭建。

Matrix-Zero更亮眼的地方在于，可以支持在場景中進行任意方向的長距離、大范圍的探索，為電影/短劇場景鏡頭生成提供了更多的可能性。

從行進方向來看，能實現(xiàn)先環(huán)視再前進、后退、前進后右轉(zhuǎn)、360度俯視、180度回頭、持續(xù)左轉(zhuǎn)、環(huán)視場景、大范圍前進等更大、更自由的角度探索。當我們走進一個大廳，視角和行進方向可以絲滑切換。

又或者我們在同一個3D場景中，先讓它180度回頭（右上圖），再環(huán)視一圈（右下圖），它可以流暢地切換探索方向。

無論輸入圖片是卡通風(fēng)格或?qū)憣嶏L(fēng)格，Matrix-Zero均可生成合理3D場景。亦或?qū)ν粡堓斎雸D片，也可以支持不同風(fēng)格的場景生成。Matrix-Zero能夠絲滑地支持不同風(fēng)格圖片輸入和風(fēng)格遷移。

那么讓我們輸入一張「荷花池塘」圖片和一張「位于森林中的房子」圖片，Matrix-Zero即刻生成了寫實的荷塘場景，也可以輕松切換輸出場景風(fēng)格，生成卡通風(fēng)格的房子。

不僅如此，動態(tài)場景生成也不在話下，光照效果，水花動態(tài)、云霧動態(tài)等，Matrix-Zero均可生成合理3D場景，且動態(tài)符合物理規(guī)律，后續(xù)可用于生成符合真實物理規(guī)律的3D場景/視頻，構(gòu)建真正的世界模型。

讓我們來看看自然界中普遍存在的光照效果和水流動態(tài)，Matrix-Zero生成的效果怎么樣。輸入一張「小橋流水」圖片，Matrix-Zero能夠生成栩栩如生的光照和水流效果，擬人逼真。

能夠?qū)崿F(xiàn)這樣的逼真效果，得益于昆侖萬維自研3D場景生成大模型，包含兩個核心模塊：場景布局生成模塊和紋理生成模塊。幾何生成模塊借助可微渲染和擴散模型技術(shù)，能創(chuàng)造出和輸入圖片一致的3D場景布局；紋理生成模塊在圖片生成模型和視頻生成模型基礎(chǔ)上訓(xùn)練，當用戶在場景中運動時，昆侖自研3D場景生成大模型不斷對場景缺失區(qū)域進行幾何和紋理的補全，從而確保用戶在任何位置、任何角度都能看到合理、一致的場景。

02 自研可交互視頻生成大模型，讓自由探索3D世界成為現(xiàn)實

此前，谷歌Genie（可交互生成環(huán)境）系列已經(jīng)向大眾展示了世界模型的能力和魅力。為達到更好的流暢性、一致性等，昆侖萬維可交互視頻大模型建立在先進的生成式視頻模型之上，結(jié)合自主研發(fā)的用戶交互模塊，最終實現(xiàn)了一種以用戶輸入為核心驅(qū)動的空間智能視頻生成方案。

該方法能夠在保證開放領(lǐng)域視頻生成能力的同時，進一步增強對視頻內(nèi)容中視角移動的精確控制，使其更加符合用戶的交互需求和預(yù)期。通過這種方式，我們不僅可以生成符合用戶意圖的視頻內(nèi)容，還能夠優(yōu)化空間智能模型的適配性，從而拓展在虛擬環(huán)境、交互式應(yīng)用以及沉浸式體驗中的應(yīng)用場景。

例如輸入一張「夜晚的街道」圖片，Matrix-Zero可以接受用戶任意的鍵盤移動方向控制、鼠標移動，生成對應(yīng)的視頻能夠?qū)崿F(xiàn)前后左右移動和視角移動。

我們再輸入一張「沙漠」圖片，Matrix-Zero仍可以實現(xiàn)更自由地3D世界探索。

在Matrix-Zero中，用戶輸入交互模型作為可交互視頻模型的核心部分，專門用于解析用戶輸入信息，并將其轉(zhuǎn)化為視頻調(diào)整信號，以確保視頻內(nèi)容能夠準確響應(yīng)用戶操作，使交互體驗更加直觀和流暢。該模塊包含多個子系統(tǒng)，用于處理不同類型的用戶輸入，使其能夠精準地影響視頻的動態(tài)變化。包括以下幾個關(guān)鍵部分：

· 離散運動控制模塊

該模塊用于解析用戶輸入的離散控制信號，例如前進、跳躍、后退等基本運動指令。系統(tǒng)會對這些輸入進行解析，并將其轉(zhuǎn)化為對應(yīng)的運動軌跡，從而影響視頻中的對象行為，使其符合用戶的交互需求。

· 連續(xù)視角控制模塊

視角移動模塊主要用于解析鼠標或其他輸入設(shè)備的連續(xù)控制信號，例如視角變化、方向調(diào)整等動態(tài)操作。該模塊能夠響應(yīng)用戶的實時輸入，并對視頻內(nèi)容進行相應(yīng)調(diào)整，確保視角變換的平滑性和一致性。

· 3D場景位置追蹤模塊

該模塊基于三維空間定位技術(shù)，提升視角移動時的位置穩(wěn)定性。通過精確的空間坐標追蹤，系統(tǒng)能夠確保在不同場景下視角變換的自然性，并減少突兀的畫面跳轉(zhuǎn)問題，使視頻內(nèi)容更加連貫。

· 滑動窗口機制優(yōu)化控制體驗

該機制用于引入時間序列中的歷史輸入信息，使系統(tǒng)能夠更準確地預(yù)測用戶的下一步操作，并優(yōu)化控制響應(yīng)的平滑度。通過滑動窗口技術(shù)，系統(tǒng)能夠提高交互的流暢性，并有效減少輸入延遲，提高整體用戶體驗。

作為針對圖片對應(yīng)的3D世界中自由探索提出的視頻生成系統(tǒng)，Matrix-Zero能夠在不同環(huán)境下高效地生成高質(zhì)量的視頻內(nèi)容，并確保視頻的流暢性、一致性和合理性。

03 緊握AI時代脈搏，成為中國探索空間智能的領(lǐng)跑者

昆侖萬維作為中國AI領(lǐng)軍企業(yè)，始終踐行公司使命——實現(xiàn)通用人工智能，讓每個人更好地塑造和表達自我，堅持在人工智能領(lǐng)域自主研發(fā)，持續(xù)推出AI產(chǎn)品。

過去三年，昆侖萬維在視覺多模態(tài)、深度學(xué)習(xí)、強化學(xué)習(xí)等關(guān)鍵技術(shù)方向取得了一系列成績，同時構(gòu)建起了完整的AI矩陣：最懂金融、學(xué)術(shù)的天工AI搜索，全球首個AI音樂創(chuàng)作平臺Mureka，AI短劇平臺SkyReels，AI社交產(chǎn)品Linky，AI游戲等，形成了“AI前沿基礎(chǔ)研究——基座模型——AI矩陣產(chǎn)品/應(yīng)用”的產(chǎn)業(yè)鏈。

2025年1月，「天工大模型4.0」o1版和4o版正式上線天工APP和網(wǎng)頁。2025年2月8日，昆侖萬維旗下「天工AI」正式推出PC版重大更新——上線“DeepSeek R1 + 聯(lián)網(wǎng)搜索”功能。

勇立潮頭，敢為人先。今天，昆侖萬維Matrix-Zero系列模型的開發(fā)和迭代也代表了公司對未來AI技術(shù)的提前布局，進一步賦能公司AI業(yè)務(wù)矩陣。交互生成模型的落地將變革可交互內(nèi)容引擎，大大提升公司AI多矩陣產(chǎn)品的生產(chǎn)力。

Matrix-Zero世界模型預(yù)計4月份上線，將對公司AI游戲生產(chǎn)、AI短劇生產(chǎn)和編輯等業(yè)務(wù)進一步賦能，為用戶和開發(fā)者帶來新的平臺和工具。當視頻模型發(fā)展到可以逼真模擬物理世界時，游戲可能不再需要傳統(tǒng)的3D引擎，許多實驗和模擬將可以在虛擬環(huán)境中進行，而影視創(chuàng)作也將變得更加普及，甚至成為每個人的基本技能。雖然這些看似是未來的場景，但技術(shù)正一步步將它們變?yōu)楝F(xiàn)實，視頻生成模型的火熱正是這一趨勢的重要體現(xiàn)。

未來大模型發(fā)展將更加關(guān)注智能體工具和用戶交互?？臻g智能技術(shù)不僅為未來智能體研發(fā)提供了虛擬平臺，也帶給用戶全新的與生成世界交互的體驗，大大提升了交互的多樣性。空間智能技術(shù)的發(fā)展也將是通往具身智能乃至AGI路上的一個重要技術(shù)里程碑。我們?nèi)詫⒊掷m(xù)升級迭代，研發(fā)更先進的AI平臺、打磨體驗更好的AI產(chǎn)品，進一步推動人工智能的繁榮發(fā)展。

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個人觀點，與極客網(wǎng)無關(guān)。文章僅供讀者參考，并請自行核實相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

昆侖萬維發(fā)布Matrix-Zero世界模型，開啟空間智能新時代

下一篇

昆侖萬維發(fā)布Matrix-Zero世界模型，開啟空間智能新時代

下一篇

昆侖萬維發(fā)布Matrix-Zero世界模型，開啟空間智能新時代