123,123

2月27日消息，大模型開源的風吹到了視頻生成大模型。阿里云日前放出重磅消息：萬相，開源！

阿里云視頻生成大模型萬相2.1（Wan）正式開源，此次開源采用Apache2.0協(xié)議，14B和1.3B兩個參數(shù)規(guī)格的全部推理代碼和權重全部開源，同時支持文生視頻和圖生視頻任務，全球開發(fā)者可在Github、HuggingFace、魔搭社區(qū)下載體驗。

從2023年開始，阿里云就堅定大模型開源路線，其千問（Qwen）衍生模型數(shù)量已超過10萬個。隨著萬相的開源，阿里云實現(xiàn)了全模態(tài)、全尺寸的開源。

四個開源模型

此次開源共有四個模型，文生和圖生各兩個，兩個參數(shù)版本。兩個文生視頻模型分別是1.3B和14B兩個規(guī)格；兩個圖生視頻模型都是14B，分辨率一個480P一個720P。

14B版本萬相模型：在指令遵循、復雜運動生成、物理建模、文字視頻生成等方面表現(xiàn)突出，在權威評測集Vbench中，萬相2.1以總分86.22%大幅超越Sora、Luma、Pika等國內(nèi)外模型，穩(wěn)居榜首位置。

1.3B版本萬相模型：不僅超過了更大尺寸的開源模型，甚至還和一些閉源的模型結果接近，同時能在消費級顯卡運行，僅需8.2GB顯存就可以生成480P視頻，適用于二次模型開發(fā)和學術研究。

有用戶表示，1.3B的萬象模型在RTX4090上跑一條5秒鐘的480P視頻的時間大概只要4分鐘。

阿里云特別強調(diào)，萬相2.1（Wan）大模型是首個具備支持中文文字生成能力，且同時支持中英文文字特效生成的視頻生成模型。

實驗結果顯示，在運動質(zhì)量、視覺質(zhì)量、風格和多目標等 14 個主要維度和 26 個子維度測試中，萬相表現(xiàn)出色，并且斬獲 5 項第一。尤其在復雜運動和物理規(guī)律遵循上的表現(xiàn)上大幅提升，萬相能穩(wěn)定呈現(xiàn)人物的旋轉、跳躍等高難度動作，并逼真模擬物體碰撞、反彈和切割等真實物理效果。

良好表現(xiàn)的背后，是基于主流的DiT和線性噪聲軌跡Flow Matching范式，萬相大模型通過一系列技術創(chuàng)新實現(xiàn)了生成能力的重大進步。包括自研高效的因果3D VAE、可擴展的預訓練策略、大規(guī)模數(shù)據(jù)鏈路構建以及自動化評估指標，這些創(chuàng)新共同提升了模型的最終性能表現(xiàn)。

阿里展示了諸多萬相大模型生成的視頻，大家看看效果：

開源地址：

Github: https://github.com/Wan-Video

HuggingFace:https://huggingface.co/Wan-AI

魔搭社區(qū)：https://modelscope.cn/organization/Wan-AI

免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內(nèi)容或斷開相關鏈接。

阿里視頻生成大模型萬相2.1開源！效果超Sora，消費級顯卡就能跑

下一篇

阿里視頻生成大模型萬相2.1開源！效果超Sora，消費級顯卡就能跑

下一篇

阿里視頻生成大模型萬相2.1開源！效果超Sora，消費級顯卡就能跑