亚洲中文字幕狠狠综合久久综合,亚洲国产99在线精品一区青青,狠狠躁夜夜躁人人爽天天天

Sora爆火以來，“視頻生成模型到底懂不懂物理規(guī)律”受到熱議，但業(yè)界一直未有研究證實。近日，字節(jié)跳動豆包大模型團隊公布最新論文，研究歷時8個月，圍繞“視頻生成模型距離世界模型有多遠”首次在業(yè)界完成系統(tǒng)性實驗并給出明確結(jié)論：視頻生成模型可以記憶訓(xùn)練案例，但暫時還無法真正理解物理規(guī)律，做到“舉一反三”。

圖靈獎得主、Meta首席AI科學(xué)家楊立昆點贊并轉(zhuǎn)發(fā)了該研究，表示“結(jié)論不令人意外，但很高興終于有人做了這個嘗試！”

自O(shè)penAI發(fā)布Sora模型以來，很多視頻生成模型都會強調(diào)其生成結(jié)果對物理規(guī)律的遵循。豆包大模型視覺團隊相關(guān)小組，對視頻生成模型究竟能否從視覺數(shù)據(jù)中“發(fā)現(xiàn)”并“理解”物理定律感到好奇，決定深入研究。

歷時8個月，該團隊完成了業(yè)界首個系統(tǒng)性的實驗研究。團隊通過專門開發(fā)的物理引擎合成了勻速直接運動、小球碰撞、拋物線運動等經(jīng)典物理場景的運動視頻，用于訓(xùn)練基于主流DiT架構(gòu)的視頻生成模型。然后，通過檢驗?zāi)Ｐ秃罄m(xù)生成的視頻在運動和碰撞方面是否符合力學(xué)定律，判斷模型是否真正理解了物理規(guī)律，并具有“世界模型”的潛力。

實驗中設(shè)計的不同運動場景

豆包大模型團隊的實驗發(fā)現(xiàn)，即使遵循“Scaling Law”增大模型參數(shù)規(guī)模和數(shù)據(jù)量，模型依然無法抽象出一般物理規(guī)則，做到真正“理解”。

以最簡單的勻速直線運動為例，當(dāng)模型學(xué)習(xí)了不同速度下小球保持勻速直線運動的訓(xùn)練數(shù)據(jù)后，給定初始幾幀，要求模型生成小球在訓(xùn)練集速度區(qū)間內(nèi)勻速直線運動的視頻，隨著模型參數(shù)和訓(xùn)練數(shù)據(jù)量的增加，生成的視頻逐漸更符合物理規(guī)律。

然而，當(dāng)要求模型生成未曾見過的速度區(qū)間（即超出訓(xùn)練數(shù)據(jù)范圍）的運動視頻時，模型突然不再遵循物理規(guī)律，并且無論如何增加模型參數(shù)或訓(xùn)練數(shù)據(jù)，生成的結(jié)果都沒有顯著改進。這表明，視頻生成模型無法真正理解物理規(guī)律，也無法將這些規(guī)律泛化應(yīng)用到全新的場景中。

通過進一步的實驗分析，研究團隊得出結(jié)論，“生成新視頻時，模型主要依賴對訓(xùn)練案例的記憶和匹配。視頻生成模型就像一個只會‘抄作業(yè)’的學(xué)生，一旦遇到從未見過的場景，如不同大小、速度的物體相互作用，就會‘犯迷糊’，生成結(jié)果與物理規(guī)則不符?！?/p>

不過，研究中也有一個好消息：如果訓(xùn)練視頻中所有概念和物體都是模型已熟悉的，此時加大訓(xùn)練視頻的復(fù)雜度，比如組合增加物體間的物理交互，通過加大訓(xùn)練數(shù)據(jù)，模型對物理規(guī)律的遵循將越來越好。這一結(jié)果可為視頻生成模型繼續(xù)提升表現(xiàn)提供啟發(fā)。

據(jù)了解，本研究兩位核心一作都非常年輕，一位是95后，一位是00后，在豆包大模型團隊專注視覺領(lǐng)域的基礎(chǔ)研究工作。作者們一直對世界模型感興趣，在8個月的探索中，他們閱讀了大量物理學(xué)研究文獻，也嘗試從游戲中獲得研發(fā)靈感，歷經(jīng)多次失敗后，最終一步步確定研究思路和實驗方法。

今年以來，字節(jié)跳動在大模型領(lǐng)域不斷加大投入，底層研究、基礎(chǔ)模型、AI應(yīng)用均有亮眼產(chǎn)出。不久前，字節(jié)豆包大模型團隊還發(fā)起了Top Seed人才計劃，在全球范圍持續(xù)招募大語言模型、視覺、語音、大模型基座等領(lǐng)域的頂尖研究人才，提供充分的創(chuàng)新探索空間。

研究論文鏈接：https://arxiv.org/pdf/2411.02385

研究成果網(wǎng)站：https://phyworld.github.io/#combo_gen

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

類Sora模型到底懂不懂物理？字節(jié)完成系統(tǒng)性實驗，圖靈獎得主楊立昆贊轉(zhuǎn)!

下一篇

類Sora模型到底懂不懂物理？字節(jié)完成系統(tǒng)性實驗，圖靈獎得主楊立昆贊轉(zhuǎn)!

下一篇

類Sora模型到底懂不懂物理？字節(jié)完成系統(tǒng)性實驗，圖靈獎得主楊立昆贊轉(zhuǎn)!