123,123,123

1月5日消息，2022年以來，隨著谷歌、百度、Meta、微軟等國內(nèi)外企業(yè)先后推出自己的AI繪畫模型或者平臺，AIGC這一新型內(nèi)容創(chuàng)作形式，獲得了越來越多的關(guān)注。

在今年7月的百度世界大會上，百度創(chuàng)始人李彥宏曾表示：“AIGC或許將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式，實現(xiàn)以‘十分之一的成本’，以百倍千倍的生產(chǎn)速度，去生成AI原創(chuàng)內(nèi)容?！?/p>

事實上，百度正通過AI大模型的能力，來實現(xiàn)李彥宏暢想的這一圖景。

在今天的百度“AIGC智能創(chuàng)作新風尚”媒體溝通會上，百度技術(shù)委員會主席吳華就分享了百度AIGC內(nèi)容生成能力背后的技術(shù)原理，并針對目前火熱的“智能創(chuàng)作”介紹了百度打造的三位能力超群的“天才創(chuàng)作者”。

百度技術(shù)委員會主席吳華

吳華指出，熟練掌握AIGC，創(chuàng)作者將能夠更加輕松、高效、快樂地創(chuàng)作，甚至一個人就可以完成編劇、美術(shù)創(chuàng)作及后期剪輯等內(nèi)容創(chuàng)作全流程工作，成為天才創(chuàng)作者。

吳華眼中這三位能力超群的百度“天才創(chuàng)作者”都身懷哪些絕技呢？作為人類創(chuàng)作者，要如何借助“天才”的能力，來豐富、提效自身創(chuàng)作？

天才編?。何男?ERNIE 3.0 Zeus

2022年5月，百度發(fā)布了融合任務相關(guān)知識的千億大模型ERNIE 3.0 Zeus。該模型能夠從豐富多樣的無標注數(shù)據(jù)中學習，同時在學習過程中融入知識圖譜指導模型學習世界知識和語言知識，進而提升學習的效率。此外，該模型還能從摘要、對聯(lián)、翻譯、分類、閱讀理解等百余種不同形式的任務中學習知識，通過對通用知識和專門知識的學習來提升模型泛化能力，使得ERNIE 3.0 Zeus能夠做到多種語言理解和生成任務，成為名副其實的“通才”。

例如，輸入一篇論文，ERNIE 3.0 Zeus可以立刻自動生成摘要；輸入一個題目，它可以瞬間寫出上百篇作文，而且作文還可以結(jié)合語境，寫出不同的風格，甚至是諸如詩歌、小說等不同的體裁內(nèi)容。

同樣的，ERNIE 3.0 Zeus也會寫劇本。

吳華指出，很多電視劇的劇本并不是由一位編劇單獨完成的，而是由一位總編劇制定總綱，再制定每一集的大概內(nèi)容，再交給多位編劇分別寫每集的具體對話、詳細故事。因此，如果一個人能編制一部電視劇的總綱，他便可以把每一集的要求交給ERNIE 3.0 Zeus生成故事，然后再經(jīng)過合并整理最終寫出整部劇。

吳華介紹，文心 ERNIE 3.0 系列模型已經(jīng)在幾十類自然語言理解和生成公開權(quán)威任務，以及零樣本、小樣本學習任務上處于世界領先水平。此外，它還發(fā)布了業(yè)界首個開放的千億參數(shù)中文生成API，供各行各業(yè)開發(fā)者到文心大模型官網(wǎng)上調(diào)用、學習。

目前，普通用戶可以通過百度飛槳旸谷社區(qū)在線體驗 ERNIE 3.0 Zeus 的文本理解和文本創(chuàng)作能力，同時，ERNIE 3.0 Zeus 也提供 API 體驗調(diào)用入口，供開發(fā)者使用。

天才畫師：文心 ERNIE-ViLG 2.0

在編劇的工作完成后，場景和畫面的美術(shù)創(chuàng)作，以及視頻內(nèi)容的產(chǎn)出和后期剪輯，是影視創(chuàng)作中必不可少的關(guān)鍵環(huán)節(jié)。借助百度文心ERNIE-ViLG 2.0以及VIMER-TCIR等模型工具，創(chuàng)作者可以逐步完成他想要實現(xiàn)的目標。

2022年10月，百度發(fā)布了業(yè)界首個知識增強的AI作畫大模型 ERNIE-ViLG 2.0。它能根據(jù)一句話或者一段描述文本，生成一幅精美的畫作。吳華介紹指出，為提高文本生成圖像的準確性，百度在AI預訓練學習過程中創(chuàng)新性地提出了知識增強的擴散模型，實現(xiàn)了精準的細粒度語義控制；同時通過引入混合降噪專家網(wǎng)絡，對圖像生成不同階段對模型、計算性能要求的不同，使用不同網(wǎng)絡進行了針對性地建模和優(yōu)化，進而提升了圖像生成的質(zhì)量。

吳華指出，在實際應用場景下，只需要輸入一段文字，ERNIE-ViLG就可以快速理解這段文字所表達的含義和場景，然后根據(jù)這個理解，幾十秒內(nèi)就可以生成媲美人類作畫水平的圖像，而且可以同時生成數(shù)百張風格各異的畫作，比如寫實、意象、中國風、二次元等等。它甚至可以生成現(xiàn)實世界中沒有創(chuàng)造性的圖像，比如穿西裝的齊天大圣、街邊擼串兒的熊貓，讓人們天馬行空的想象力得到精準的可視化呈現(xiàn)。

文心 ERNIE-ViLG 2.0 可廣泛應用于工業(yè)設計、動漫設計、游戲制作、攝影藝術(shù)等場景，激發(fā)設計者創(chuàng)作靈感，提升內(nèi)容生產(chǎn)的效率。

文心ERNIE-ViLG API （https://wenxin.baidu.com/moduleApi/ernieVilg）

據(jù)介紹，在權(quán)威公開數(shù)據(jù)集 MS-COCO 上，目前ERNIE-ViLG 2.0已經(jīng)刷新 SOTA 效果，性能遠遠超過了國際上的同類技術(shù)；而在圖文相關(guān)性和圖像保真度兩個維度的人工評估上，ERNIE-ViLG 2.0 相對 DALL-E 2 和 Stable Diffusion 同樣取得了較大的優(yōu)勢。

目前，面向普通用戶，百度以文心ERNIE-ViLG 2.0大模型為底座推出了“文心一格”產(chǎn)品，用戶只需輸入一段自己的創(chuàng)想文字，并選擇期望的畫作風格，即刻可以生成創(chuàng)意精美的畫作。

天才剪輯：VIMER-TCIR多任務大模型

由于人類眼睛的特殊生理結(jié)構(gòu)，如果所看畫面的幀率高于60Hz時，就會認為是連貫的，這也造就了早期電影膠片是一格一格拍攝出來，然后再快速播放的情況。而AI生成的圖像，在經(jīng)過幀率的調(diào)控之后，也將進一步生成視頻。

據(jù)吳華介紹，在視覺內(nèi)容生成方面，百度在文生圖擴散模型的基礎上加入時序建模，使得模型能根據(jù)文本或者圖像生成新的視頻。創(chuàng)作者可以根據(jù)用戶提供的一段描述文本，或者一幅圖像，自動地生成高清、流暢的視頻。

此外，通過百度研發(fā)的VIMER-TCIR多任務大模型，還可以實現(xiàn)對生成視頻的修復和編輯，通過畫質(zhì)提升、邊緣銳化等方式增強視頻的清晰度，達到全方位提升視頻編輯效率和觀感體驗。據(jù)悉，TCIR模型已在去噪、增強、去模糊等多個任務領域達到SOTA結(jié)果，并在AIM2022壓縮圖像超分競賽中，以大幅度領先優(yōu)勢取得冠軍。

目前，VIMER-TCIR多任務大模型也已經(jīng)在老電影修復等場景實現(xiàn)落地，大幅提升了效率，每天單機可修復視頻28.5萬幀，解決了絕大部分畫面的修復問題。

吳華強調(diào)，一系列AIGC生產(chǎn)工具的出現(xiàn)，大幅度提高了音視頻等內(nèi)容創(chuàng)作者的工作效率。AIGC正讓個體創(chuàng)作者成為真正的“獨立”制作人。

另據(jù)吳華透露，即將于1月10日召開的 2022百度Create大會上，百度還將推出更多的AIGC工具產(chǎn)品并對相關(guān)技術(shù)進行講解。

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）