2月14日,昆侖萬維正式推出Matrix-Zero世界模型,成為中國第一家同時推出3D場景生成、可交互視頻生成模型的探索空間智能的企業(yè)。
Matrix-Zero世界模型包含兩款子模型:
3D場景生成大模型
昆侖萬維自研3D場景生成大模型,支持將用戶輸入的圖片轉(zhuǎn)化為可自由探索的真實合理的3D場景,比World Labs生成場景的探索范圍更大更自由,而且包括動態(tài)物理效果;
可交互視頻生成大模型
昆侖萬維自研可交互視頻生成大模型,提供以用戶輸入為核心驅(qū)動的可交互空間智能視頻生成方案,支持根據(jù)用戶實時輸入生成互動視頻效果,具備更精準控制的action model。
圖像和視頻作為當今人類獲取信息的主要方式,3D場景生成和視頻生成技術(shù)的發(fā)展有望徹底改變內(nèi)容生產(chǎn)的方式,大幅提升創(chuàng)作效率?,F(xiàn)有的3D AIGC工具(如TripoAI、Meshy等)主要聚焦于單個物體的生成,難以構(gòu)建完整且合理的3D場景。而傳統(tǒng)3D建模方法則成本高昂、耗時冗長,難以滿足大規(guī)模內(nèi)容生產(chǎn)的需求。
相比之下,結(jié)合AI驅(qū)動的2D視頻生成與3D場景生成技術(shù),不僅能大幅提升生成效率和泛化能力,使其適應(yīng)更廣泛的應(yīng)用場景,還能增強結(jié)果的一致性與物理合理性,從而帶來更加真實、沉浸的交互體驗。這種融合技術(shù)將重塑數(shù)字內(nèi)容創(chuàng)作模式,提升影視制作、游戲開發(fā)、具身智能等領(lǐng)域的生產(chǎn)效率與創(chuàng)新能力,推動行業(yè)邁向更高水平的發(fā)展。
作為一項新興的前沿技術(shù),空間智能融合了視頻生成、三維建模等多種技術(shù),實現(xiàn)對物理空間的數(shù)字化重建。其核心目標是將二維圖像轉(zhuǎn)換為可交互的三維場景,為用戶提供更加自然、直觀和沉浸式的體驗。在數(shù)字時代的AI浪潮中,3D場景生成、視頻生成模型以及相關(guān)空間智能技術(shù),正以破竹之勢給諸多行業(yè)帶來顛覆性變革,特別是具身智能、影視制作、游戲娛樂等場景。
01 昆侖萬維自研3D場景生成大模型,敢為人先開拓空間智能時代
昆侖萬維Matrix-Zero的3D場景生成功能,支持將用戶輸入的圖片轉(zhuǎn)化為可自由探索的真實合理的3D場景,具備全局一致性、可自由探索、支持不同風(fēng)格圖片輸入、支持風(fēng)格遷移、支持動態(tài)場景生成等亮點。
Matrix-Zero生成的內(nèi)容為全局一致的3D場景,我們輸入一張圖片「城堡的花園一角」,可以生成一副360度環(huán)視后場景保持不變的3D場景,最后一幀回到起始幀,不會出現(xiàn)生成結(jié)果前后不一致現(xiàn)象,能夠應(yīng)用在3D游戲場景的可控、快速建模,以及具身智能的模擬場景快速搭建。
Matrix-Zero更亮眼的地方在于,可以支持在場景中進行任意方向的長距離、大范圍的探索,為電影/短劇場景鏡頭生成提供了更多的可能性。
從行進方向來看,能實現(xiàn)先環(huán)視再前進、后退、前進后右轉(zhuǎn)、360度俯視、180度回頭、持續(xù)左轉(zhuǎn)、環(huán)視場景、大范圍前進等更大、更自由的角度探索。當我們走進一個大廳,視角和行進方向可以絲滑切換。
又或者我們在同一個3D場景中,先讓它180度回頭(右上圖),再環(huán)視一圈(右下圖),它可以流暢地切換探索方向。
無論輸入圖片是卡通風(fēng)格或?qū)憣嶏L(fēng)格,Matrix-Zero均可生成合理3D場景。亦或?qū)ν粡堓斎雸D片,也可以支持不同風(fēng)格的場景生成。Matrix-Zero能夠絲滑地支持不同風(fēng)格圖片輸入和風(fēng)格遷移。
那么讓我們輸入一張「荷花池塘」圖片和一張「位于森林中的房子」圖片,Matrix-Zero即刻生成了寫實的荷塘場景,也可以輕松切換輸出場景風(fēng)格,生成卡通風(fēng)格的房子。
不僅如此,動態(tài)場景生成也不在話下,光照效果,水花動態(tài)、云霧動態(tài)等,Matrix-Zero均可生成合理3D場景,且動態(tài)符合物理規(guī)律,后續(xù)可用于生成符合真實物理規(guī)律的3D場景/視頻,構(gòu)建真正的世界模型。
讓我們來看看自然界中普遍存在的光照效果和水流動態(tài),Matrix-Zero生成的效果怎么樣。輸入一張「小橋流水」圖片,Matrix-Zero能夠生成栩栩如生的光照和水流效果,擬人逼真。
能夠?qū)崿F(xiàn)這樣的逼真效果,得益于昆侖萬維自研3D場景生成大模型,包含兩個核心模塊:場景布局生成模塊和紋理生成模塊。幾何生成模塊借助可微渲染和擴散模型技術(shù),能創(chuàng)造出和輸入圖片一致的3D場景布局;紋理生成模塊在圖片生成模型和視頻生成模型基礎(chǔ)上訓(xùn)練,當用戶在場景中運動時,昆侖自研3D場景生成大模型不斷對場景缺失區(qū)域進行幾何和紋理的補全,從而確保用戶在任何位置、任何角度都能看到合理、一致的場景。
02 自研可交互視頻生成大模型,讓自由探索3D世界成為現(xiàn)實
此前,谷歌Genie(可交互生成環(huán)境)系列已經(jīng)向大眾展示了世界模型的能力和魅力。為達到更好的流暢性、一致性等,昆侖萬維可交互視頻大模型建立在先進的生成式視頻模型之上,結(jié)合自主研發(fā)的用戶交互模塊,最終實現(xiàn)了一種以用戶輸入為核心驅(qū)動的空間智能視頻生成方案。
該方法能夠在保證開放領(lǐng)域視頻生成能力的同時,進一步增強對視頻內(nèi)容中視角移動的精確控制,使其更加符合用戶的交互需求和預(yù)期。通過這種方式,我們不僅可以生成符合用戶意圖的視頻內(nèi)容,還能夠優(yōu)化空間智能模型的適配性,從而拓展在虛擬環(huán)境、交互式應(yīng)用以及沉浸式體驗中的應(yīng)用場景。
例如輸入一張「夜晚的街道」圖片,Matrix-Zero可以接受用戶任意的鍵盤移動方向控制、鼠標移動,生成對應(yīng)的視頻能夠?qū)崿F(xiàn)前后左右移動和視角移動。
我們再輸入一張「沙漠」圖片,Matrix-Zero仍可以實現(xiàn)更自由地3D世界探索。
在Matrix-Zero中,用戶輸入交互模型作為可交互視頻模型的核心部分,專門用于解析用戶輸入信息,并將其轉(zhuǎn)化為視頻調(diào)整信號,以確保視頻內(nèi)容能夠準確響應(yīng)用戶操作,使交互體驗更加直觀和流暢。該模塊包含多個子系統(tǒng),用于處理不同類型的用戶輸入,使其能夠精準地影響視頻的動態(tài)變化。包括以下幾個關(guān)鍵部分:
· 離散運動控制模塊
該模塊用于解析用戶輸入的離散控制信號,例如前進、跳躍、后退等基本運動指令。系統(tǒng)會對這些輸入進行解析,并將其轉(zhuǎn)化為對應(yīng)的運動軌跡,從而影響視頻中的對象行為,使其符合用戶的交互需求。
· 連續(xù)視角控制模塊
視角移動模塊主要用于解析鼠標或其他輸入設(shè)備的連續(xù)控制信號,例如視角變化、方向調(diào)整等動態(tài)操作。該模塊能夠響應(yīng)用戶的實時輸入,并對視頻內(nèi)容進行相應(yīng)調(diào)整,確保視角變換的平滑性和一致性。
· 3D場景位置追蹤模塊
該模塊基于三維空間定位技術(shù),提升視角移動時的位置穩(wěn)定性。通過精確的空間坐標追蹤,系統(tǒng)能夠確保在不同場景下視角變換的自然性,并減少突兀的畫面跳轉(zhuǎn)問題,使視頻內(nèi)容更加連貫。
· 滑動窗口機制優(yōu)化控制體驗
該機制用于引入時間序列中的歷史輸入信息,使系統(tǒng)能夠更準確地預(yù)測用戶的下一步操作,并優(yōu)化控制響應(yīng)的平滑度。通過滑動窗口技術(shù),系統(tǒng)能夠提高交互的流暢性,并有效減少輸入延遲,提高整體用戶體驗。
作為針對圖片對應(yīng)的3D世界中自由探索提出的視頻生成系統(tǒng),Matrix-Zero能夠在不同環(huán)境下高效地生成高質(zhì)量的視頻內(nèi)容,并確保視頻的流暢性、一致性和合理性。
03 緊握AI時代脈搏,成為中國探索空間智能的領(lǐng)跑者
昆侖萬維作為中國AI領(lǐng)軍企業(yè),始終踐行公司使命——實現(xiàn)通用人工智能,讓每個人更好地塑造和表達自我,堅持在人工智能領(lǐng)域自主研發(fā),持續(xù)推出AI產(chǎn)品。
過去三年,昆侖萬維在視覺多模態(tài)、深度學(xué)習(xí)、強化學(xué)習(xí)等關(guān)鍵技術(shù)方向取得了一系列成績,同時構(gòu)建起了完整的AI矩陣:最懂金融、學(xué)術(shù)的天工AI搜索,全球首個AI音樂創(chuàng)作平臺Mureka,AI短劇平臺SkyReels,AI社交產(chǎn)品Linky,AI游戲等,形成了“AI前沿基礎(chǔ)研究——基座模型——AI矩陣產(chǎn)品/應(yīng)用”的產(chǎn)業(yè)鏈。
2025年1月,「天工大模型4.0」o1版和4o版正式上線天工APP和網(wǎng)頁。2025年2月8日,昆侖萬維旗下「天工AI」正式推出PC版重大更新——上線“DeepSeek R1 + 聯(lián)網(wǎng)搜索”功能。
勇立潮頭,敢為人先。今天,昆侖萬維Matrix-Zero系列模型的開發(fā)和迭代也代表了公司對未來AI技術(shù)的提前布局,進一步賦能公司AI業(yè)務(wù)矩陣。交互生成模型的落地將變革可交互內(nèi)容引擎,大大提升公司AI多矩陣產(chǎn)品的生產(chǎn)力。
Matrix-Zero世界模型預(yù)計4月份上線,將對公司AI游戲生產(chǎn)、AI短劇生產(chǎn)和編輯等業(yè)務(wù)進一步賦能,為用戶和開發(fā)者帶來新的平臺和工具。當視頻模型發(fā)展到可以逼真模擬物理世界時,游戲可能不再需要傳統(tǒng)的3D引擎,許多實驗和模擬將可以在虛擬環(huán)境中進行,而影視創(chuàng)作也將變得更加普及,甚至成為每個人的基本技能。雖然這些看似是未來的場景,但技術(shù)正一步步將它們變?yōu)楝F(xiàn)實,視頻生成模型的火熱正是這一趨勢的重要體現(xiàn)。
未來大模型發(fā)展將更加關(guān)注智能體工具和用戶交互??臻g智能技術(shù)不僅為未來智能體研發(fā)提供了虛擬平臺,也帶給用戶全新的與生成世界交互的體驗,大大提升了交互的多樣性。空間智能技術(shù)的發(fā)展也將是通往具身智能乃至AGI路上的一個重要技術(shù)里程碑。我們?nèi)詫⒊掷m(xù)升級迭代,研發(fā)更先進的AI平臺、打磨體驗更好的AI產(chǎn)品,進一步推動人工智能的繁榮發(fā)展。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 世界第一!阿里云PolarDB登頂全球數(shù)據(jù)庫性能及性價比排行榜
- 榮耀MagicBook Pro 14掀起性能風(fēng)暴,續(xù)航超12小時
- “耐玩戰(zhàn)神,續(xù)航超神”的真我Neo7 SE,國補到手價僅1530元起
- “小單快返”遭重創(chuàng),快時尚巨頭要求供應(yīng)商緊急外遷,“曲線救國”來得及嗎?
- 百萬騎手社保落地:實際行動勝于“搶跑”
- 阿里嘗到了AI的甜頭
- DeepSeek帶飛萬元AI女友:單身狗福音,生育率躺槍
- 頂級雙芯戰(zhàn)無敵,電競夢想觸手可及,ROG魔霸9X開啟預(yù)約
- 開局即決戰(zhàn) ROG助力電影《流浪地球3》美術(shù)創(chuàng)作
- 移動云電腦云平板:工作娛樂,掌上精彩
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。