7月24日,愛詩科技正式發(fā)布視頻生成產品 PixVerse V2,全球同步開放,致力用AI視頻大模型為每一個用戶釋放創(chuàng)意可能。
PixVerse V2 采用 Diffusion+Transformer(DiT)基礎架構,并在各方面進行技術創(chuàng)新,提供了更長、更一致、更有趣的視頻生成能力。在模型能力提升的同時,PixVerse V2還帶來了AI視頻生成的全新玩法:在保證一致性的前提下,一次生成多個視頻片段,可實現(xiàn)單片段8秒,和多片段40秒的視頻生成。
一、以DiT架構為基礎,實現(xiàn)多項技術創(chuàng)新
PixVerse V2 采用了 DiT 模型架構,用行業(yè)頂尖的模型訓練效率實踐了視頻大模型的Scaling Law,同時在多個方面運用了獨創(chuàng)的技術實現(xiàn)了卓越的生成效果。
在時空建模方面,PixVerse V2 引入了自研的時空注意力機制,不僅超越了傳統(tǒng)的時空分離和 fullseq 架構,而且顯著提升了對空間和時間的感知能力,使得在處理復雜場景時表現(xiàn)更為出色。
在文本理解方面,PixVerse V2 利用了有更強大理解能力的多模態(tài)模型來提取prompt的表征,有效實現(xiàn)了文本信息與視頻信息的精準對齊,進一步增強了模型的理解和表達能力。
此外,PixVerse V2在傳統(tǒng)flow模型的基礎上進行了優(yōu)化,通過加權損失,促進了模型更快更優(yōu)的收斂,從而提升整體訓練效率。
二、用戶第一,提升AI視頻創(chuàng)作生產力
基于大量用戶反饋和社區(qū)討論,愛詩團隊深刻洞察到一致性是AI視頻創(chuàng)作的核心挑戰(zhàn),因此,PixVerse V2 在設計和優(yōu)化上進行了針對性突破:支持一鍵生成1-5段連續(xù)的視頻內容,且片段之間會保持主體形象、畫面風格和場景元素的一致。這一創(chuàng)新功能,讓用戶能夠圍繞特定主題進行高效而便捷的視頻創(chuàng)作。
PixVerse V2 還支持對生成結果進行二次編輯,通過智能識別內容和自動聯(lián)想功能,用戶可以靈活替換調整視頻主體、動作、風格和運鏡,進一步豐富創(chuàng)作的可能性。愛詩團隊希望在模型性能和美學效果之間尋求平衡,預計未來3個月內還將進行多次迭代升級,提供更好的AI視頻生成體驗。
PixVerse V2 致力讓更多用戶感受到AI視頻創(chuàng)作的樂趣,無論是記錄日常腦海中的靈光乍現(xiàn),還是講述引人入勝的視頻故事,都能變得觸手可及。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )