Meta新視頻同步神器,雙人舞也能輕松倒立雜技?VideoJAM真的牛

Meta新視頻生成框架VideoJAM:雙人舞也能輕松倒立雜技?

Meta GenAI團(tuán)隊(duì)近日推出的全新框架VideoJAM,引發(fā)了業(yè)界的廣泛關(guān)注。VideoJAM基于主流的DiT路線,卻能在運(yùn)動一致性上超越Sora、Gen3等模型,甚至在處理運(yùn)動場景時,其運(yùn)動效果更貼合物理規(guī)律,令人嘆為觀止。

首先,VideoJAM在處理運(yùn)動場景時,視覺效果顯著提升,且更加貼合物理規(guī)律。無論是吹滅蠟燭時火苗的晃動,還是用手捏史萊姆時的形狀變化,甚至三個球來回拋的雜技表演,都能很好地體現(xiàn)出拋物線軌跡。這無疑是對現(xiàn)有視頻生成模型的一次重大突破,使得運(yùn)動一致性得到了近20%的提升。

VideoJAM的訓(xùn)練中引入了運(yùn)動信息,這是其運(yùn)動一致性提升的關(guān)鍵。在訓(xùn)練和推理階段,VideoJAM針對經(jīng)典的DiT架構(gòu)進(jìn)行了補(bǔ)充。具體來說,模型在生成視頻的同時,也學(xué)習(xí)如何預(yù)測對應(yīng)的運(yùn)動。通過聯(lián)合外觀-運(yùn)動表示,VideoJAM對現(xiàn)有視頻生成模型進(jìn)行了兩處關(guān)鍵性改動,添加了輸入和輸出兩個線性投影層。輸入投影層將外觀特征和運(yùn)動特征拼接后映射到模型的隱藏空間,形成一個聯(lián)合的潛在表示,這個潛在表示融合了靜態(tài)外觀信息和動態(tài)運(yùn)動信息。輸出投影層則從模型的聯(lián)合潛在表示中解碼出視頻的外觀預(yù)測和運(yùn)動預(yù)測。

而在推理階段,VideoJAM采用了內(nèi)部引導(dǎo)機(jī)制,進(jìn)一步增強(qiáng)生成視頻的運(yùn)動一致性。這種機(jī)制使用模型自身在每個生成步驟中預(yù)測的運(yùn)動信息來動態(tài)調(diào)整生成過程,可以實(shí)時捕捉生成視頻的動態(tài)變化。這使得VideoJAM能夠?qū)崟r調(diào)整生成過程,以捕捉動態(tài)變化,從而提升運(yùn)動一致性。

消融實(shí)驗(yàn)表明,VideoJAM采用的光流表示和內(nèi)部引導(dǎo)機(jī)制正是其實(shí)現(xiàn)高運(yùn)動一致性的關(guān)鍵。粗略階段重點(diǎn)關(guān)注大范圍的運(yùn)動連貫性,如整體方向和節(jié)奏;細(xì)化階段則轉(zhuǎn)向優(yōu)化細(xì)節(jié),如肢體動作的微調(diào)和物體交互的物理合理性。這種反饋機(jī)制使得模型在發(fā)現(xiàn)不一致時能夠自動進(jìn)行調(diào)整,從而提升了運(yùn)動一致性。

VideoJAM的強(qiáng)大之處還在于它能夠無縫集成到不同規(guī)模的DiT模型中。這意味著無論是大型模型還是小型模型,都可以利用VideoJAM帶來的運(yùn)動效果提升。這一點(diǎn)對于模型開發(fā)者和用戶來說都極具吸引力,因?yàn)樗档土耸褂肰ideoJAM的門檻,使得更多人能夠從中受益。

總的來說,VideoJAM是一個非常出色的視頻生成框架,它能夠在保持高質(zhì)量視頻生成的同時,提升運(yùn)動一致性。無論是對于研究者還是開發(fā)者來說,VideoJAM都是一個值得一試的工具。我們期待看到更多使用VideoJAM創(chuàng)建的精彩視頻作品出現(xiàn)。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2025-02-11
Meta新視頻同步神器,雙人舞也能輕松倒立雜技?VideoJAM真的牛
Meta新視頻生成框架VideoJAM,基于DiT路線,提升運(yùn)動一致性,適用于不同規(guī)模的模型,是研究者與開發(fā)者值得一試的工具。

長按掃碼 閱讀全文