国产伦精品一区二区三区精品,ass巨大女人毛茸茸

文 | 智能相對論

作者 | 陳泊丞

這是春晚舞臺西安分會場《山河詩長安》的一幕：“李白”現(xiàn)世，帶領(lǐng)觀眾齊頌《將進酒》，將中國人骨子里的豪情與浪漫演繹得淋漓盡致。

這又是浙江義烏商品市場里的另一幕：只會說幾個英文單詞的女老板秒變外語達人，無縫切換36國語言流暢介紹自家商品，瘋狂帶貨。

這一幕幕不可思議的畫面，成就了今天中國文化、商業(yè)的頻頻出圈。而一切的背后，都有著相同的支持：AI技術(shù)賦能數(shù)字內(nèi)容生產(chǎn)和應(yīng)用。

近年來，隨著AI大模型技術(shù)的持續(xù)升級與賦能，數(shù)字內(nèi)容生產(chǎn)與應(yīng)用的趨勢愈發(fā)強烈，現(xiàn)實場景與數(shù)字內(nèi)容不斷融合，悄然改變著整個內(nèi)容創(chuàng)作行業(yè)的格局，甚至進一步推動了相關(guān)產(chǎn)業(yè)和商業(yè)的新變革。

技術(shù)創(chuàng)新重塑數(shù)字內(nèi)容生產(chǎn)與應(yīng)用新范式

數(shù)字人“李白”的精彩演繹、義烏女老板的AI帶貨——這些熱門事件的背后，是技術(shù)創(chuàng)新突破所帶來的結(jié)果。AI大模型的成熟應(yīng)用，讓越來越多不同形式的數(shù)字內(nèi)容得以爆發(fā)，并廣泛進入大眾視野。

在6月21日舉辦的華為開發(fā)者大會（HDC 2024）上，華為云盤古大模型迎來5.0版本升級，其中盤古媒體大模型在語音生成、視頻生成以及AI翻譯上的技術(shù)創(chuàng)新就重塑了數(shù)字內(nèi)容生產(chǎn)和應(yīng)用的新范式。

對比過去的技術(shù)能力，新的技術(shù)所帶來的效果是非常顯著的。

一、語音生成進階：只需三言兩語，沉浸式、真實感的語音易如反掌

過去的語音生成依賴傳統(tǒng)的聲音克隆模型，由于模型比較小，精度低等原因，往往在實際操作上就要復(fù)雜得多。比如，在數(shù)據(jù)收集階段，對目標(biāo)人物的語音數(shù)據(jù)就要盡可能的多樣化，包括不同的語速、語調(diào)、音量以及不同語境下的語音，需用到幾百句話的錄音。

然后到了預(yù)處理階段，需要對收集到的語音數(shù)據(jù)進行清洗，通過人工標(biāo)注等形式去除噪聲、靜音片段和其他不需要的部分。進而還要進行語音分割，將連續(xù)的語音信號切割成較小的語音片段（如音素或單詞）。最后提取音頻特征，再用于后續(xù)的聲音建模。

以上，還只是數(shù)據(jù)收集和預(yù)處理，尚未進入真正的語音生成階段。但其中的工作量和操作復(fù)雜度就已經(jīng)很大了，對語音生成的效率和質(zhì)量都是一個非常大的影響和挑戰(zhàn)。

時至今日，隨著技術(shù)的創(chuàng)新，基于更先進的模型，比如盤古媒體大模型的語音生成能力，這一問題得到了很好的解決。只需要幾句話、幾秒鐘的聲音，AI即可學(xué)習(xí)到個性化的音色、語調(diào)、表達韻律，從而獲得高質(zhì)量的個性化語音。同時，還支持喜怒哀樂等擬人情感語音，閑聊、新聞、直播等10多種語氣風(fēng)格，讓生成的語音更真實、更有情感色彩，能沉浸式地應(yīng)用到不同場景中。

比如，在視頻譯制中，AI將能做到配音演員的專業(yè)程度——通過盤古媒體大模型提供的視頻翻譯能力，AI可以把視頻翻譯為目標(biāo)語言，并保留原始角色的音色、情感、語氣。華為云也在積極聯(lián)合伙伴邏輯智能，打造高感情語音克隆以及14國小語種配音，共同構(gòu)建高感情超擬人多模態(tài)音頻應(yīng)用能力等。同時，再結(jié)合盤古媒體大模型的口型驅(qū)動模型，還可以實現(xiàn)音唇同步，尤其是在側(cè)面、多人對話、物體遮擋以及人物移動等場景，也能做到很好的口型匹配。

二、視頻生成跨越：只需幾十張圖，可控的、一致的視頻唾手可得

傳統(tǒng)的視頻生成技術(shù)在資源需求、數(shù)據(jù)集、時序一致性、物理定律遵守、效率與質(zhì)量平衡、可控性、逼真度和連貫性以及應(yīng)用限制等方面都存在一定的局限性。如今，基于盤古媒體大模型，只需要訓(xùn)練幾十張?zhí)囟缹W(xué)風(fēng)格的圖片，如吉卜利、二次元等風(fēng)格，再輸入實拍視頻即可快速生成該風(fēng)格的動漫視頻。

第十四屆北影節(jié)“AIGC電影短片單元”競賽

獲最佳影片獎的作品《致親愛的自己》

除了按需時長生成穩(wěn)定的動漫視頻，再通過ID一致性模型，還能對生成畫面中的關(guān)鍵角色進行一致性處理，確保視頻中角色樣貌特征在前一幀和后一幀中所呈現(xiàn)的效果始終一致，在側(cè)臉、運動軌跡下的視覺效果合理一致，由此增強AI視頻生成的可控性、一致性，讓視頻內(nèi)容更合理、真實。

實拍轉(zhuǎn)動漫作品《海上有座花園》的對比

此外，業(yè)內(nèi)對視頻生成的真實度、復(fù)雜度也在聚焦增強。比如，OpenAI的Sora正在試圖模擬復(fù)雜的攝像機運鏡，同時準(zhǔn)確地保持角色和視覺風(fēng)格一致，讓AI創(chuàng)作的數(shù)字內(nèi)容更加趨于現(xiàn)實創(chuàng)作。英偉達更是發(fā)布了一系列技術(shù)套件如ACE（NVIDIA Avatar Cloud Engine）、NeMo?以及RTX?等，去增強數(shù)字內(nèi)容的真實感，讓數(shù)字人物的互動、對話更加復(fù)雜、逼真。

三、AI翻譯強化：準(zhǔn)確性>93%，實時的、跨語言溝通指日可待

過去的機器翻譯系統(tǒng)往往是基于統(tǒng)計模型或規(guī)則模型構(gòu)建的，因此翻譯結(jié)果大多無法與原文一致，顯得生硬、不自然，并不具備應(yīng)用到不同場景的條件。現(xiàn)如今，華為云通過AI實現(xiàn)多語種實時傳譯，準(zhǔn)確性>93%，可應(yīng)用于實時通話、云會議等需要實時翻譯場景。

同時，基于盤古媒體大模型的語音復(fù)刻、AI文字翻譯以及TTS技術(shù)，便可以實現(xiàn)語音的同聲傳譯，成功實現(xiàn)跨語言母語溝通體驗。甚至還可以結(jié)合數(shù)字人技術(shù)，讓數(shù)字人來模擬用戶說話，結(jié)合口型模型技術(shù)做到口型與聲音精準(zhǔn)匹配，讓AI翻譯、數(shù)字人與語音生成高度結(jié)合用于線上開會、跨國貿(mào)易交流等場景中。

技術(shù)的“瓶頸”在收縮？

技術(shù)的創(chuàng)新和突破帶來了數(shù)字內(nèi)容生產(chǎn)和應(yīng)用的爆發(fā)，但另一方面隨著生產(chǎn)和應(yīng)用的進程加速，相應(yīng)的技術(shù)瓶頸也在出現(xiàn)，并不斷收縮、聚焦。目前，AI大模型在數(shù)字內(nèi)容生產(chǎn)和應(yīng)用上的問題主要呈現(xiàn)在三個層面。

其一，能源與計算效率瓶頸。當(dāng)前，大模型訓(xùn)練的算力當(dāng)量還在進一步增大，從GPT-3到GPT-4算力當(dāng)量增長了68倍。隨著訓(xùn)練的token數(shù)、模型參數(shù)增加，大模型訓(xùn)練所需的計算量也需要隨之增加。

更重要的是，其背后的成本投入是難以為繼的。根據(jù)計算，訓(xùn)練一個5000億參數(shù)規(guī)模的Dense模型，基礎(chǔ)算力設(shè)施投入約10億美金，無故障運行21個月，電費約5.3億元——這遠遠超出了企業(yè)的承受范圍。

但是，如果想要規(guī)?；厣a(chǎn)高質(zhì)量的數(shù)字內(nèi)容，大模型的精進又是必要的路徑。在這個階段，業(yè)內(nèi)開始尋求更高效、更優(yōu)的算力解決方案。像華為云昇騰AI云服務(wù)就在致力于提供方便、好用的算力服務(wù)，在算力層面不斷革新計算能力和計算效率，提供從云化算力、模型開發(fā)、模型托管到生態(tài)的全棧服務(wù)。

其二，算法架構(gòu)的優(yōu)化挑戰(zhàn)。隨著大模型參數(shù)的增加，想要實現(xiàn)更好的計算結(jié)果和輸出更優(yōu)的答案，那么其處理的時長就會不斷延長的。但是，這在實際應(yīng)用中是一個困擾數(shù)字內(nèi)容生產(chǎn)和應(yīng)用的顯著問題，非常不利于數(shù)字內(nèi)容的規(guī)?；⑸虡I(yè)化發(fā)展。

由此，業(yè)內(nèi)也開始在算法架構(gòu)上進行優(yōu)化，調(diào)整計算邏輯、處理方法來實現(xiàn)更優(yōu)效果。其中，以稀疏激活機制為代表的MoE模型就是目前AI行業(yè)的一個焦點，類似于“術(shù)業(yè)有專攻”的理念，稀疏激活機制通過對數(shù)據(jù)任務(wù)進行拆解，分門別類，再分配給特定的“專家”（Experts）進行處理，最終綜合加權(quán)輸出——不僅實現(xiàn)了計算效率優(yōu)化，也讓輸出結(jié)果更加全面、強大。

其三，安全與倫理問題。大模型內(nèi)部運行機制復(fù)雜，生產(chǎn)出來的內(nèi)容欠缺可解釋性和可控性，又易受對抗樣本攻擊，存在監(jiān)管難題和安全漏洞。對此，在數(shù)字內(nèi)容生產(chǎn)和應(yīng)用中，相關(guān)的安全和倫理問題隨著行業(yè)的廣泛發(fā)展而日趨突顯。

因此，在數(shù)字內(nèi)容行業(yè)高速發(fā)展的階段，盡管企業(yè)能吃上數(shù)字內(nèi)容的紅利，但也需要鑒別模型的安全性、可靠性，避免因模型的安全和倫理問題而引發(fā)負面輿論影響。在這樣的挑戰(zhàn)下，華為云盤古大模型也隨即作出升級，在數(shù)據(jù)治理、安全合規(guī)等方面達到了較高標(biāo)準(zhǔn)。

以技術(shù)“造夢”，數(shù)字內(nèi)容未來可期

新范式的明確帶來更明確的技術(shù)方向，對于整個數(shù)字內(nèi)容行業(yè)而言，這意味著未來的發(fā)展已經(jīng)有了基礎(chǔ)的雛形，前景仍是樂觀的。但是，不可忽視的是，技術(shù)的瓶頸客觀存在，且更加突出，擺在行業(yè)面前的依舊是一條較為嚴(yán)峻的發(fā)展之路。

盡管拋開技術(shù)瓶頸不談，在具體的實踐中，數(shù)字內(nèi)容的生產(chǎn)和應(yīng)用也不簡單，往往都需要面對很多在技術(shù)之外的具像化問題，只有基于問題去一步步解決才能最終完成落地。

華為云團隊在進行紀(jì)錄片譯制時就發(fā)現(xiàn)，項目實際開展起來會遇到各種各樣的問題，比如環(huán)境聲音太雜太亂，AI無法準(zhǔn)確識別人聲保證音譯的完整度，或是隨著場景的切換，人物的狀態(tài)、口型都呈現(xiàn)出不同的樣子，需要AI精準(zhǔn)地匹配等等。

如果這些問題不一一解決，AI譯制的效果就打了個大大的折扣。對此，華為云團隊通過精準(zhǔn)分析問題，采用不同的技術(shù)去解決各類細微問題，比如通過分離模型技術(shù)讓環(huán)境聲和人聲分開，通過口型模型技術(shù)讓聲音與口型精準(zhǔn)匹配等。

技術(shù)或許一直都有，但是如何用恰恰才是項目落地的關(guān)鍵。換句話說，在今天數(shù)字內(nèi)容行業(yè)高速發(fā)展、技術(shù)創(chuàng)新加速迭代的階段，只有實踐了才能真正推動行業(yè)的發(fā)展。這是一個比拼項目的階段，誰家的項目經(jīng)驗越豐富，越能知道相關(guān)的技術(shù)應(yīng)該如何應(yīng)用才能發(fā)揮出應(yīng)有的效果。

目前，中影集團與華為云合作，將媒體大模型應(yīng)用到影視工業(yè)，共同打造影視譯制大模型，通過AI將視頻譯制成不同語言，并保留原始角色的音色、情感、語氣，還能支持口型匹配，為影片譯制提供全新的AI制作方式。

今天，數(shù)字內(nèi)容迎來迸發(fā)，越來越多精彩內(nèi)容面世的另一面恰恰是廠商們不斷運用技術(shù)、驗證技術(shù)、完善技術(shù)的過程。未來的項目之路任重而道遠，同時也是行業(yè)走向成熟的必經(jīng)之路。靜待技術(shù)在創(chuàng)新中、實踐中持續(xù)升級、完善，未來便更快能看到一個數(shù)字內(nèi)容精彩紛呈，如同夢境一般的世界。

*本文圖片均來源于網(wǎng)絡(luò)

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個人觀點，與極客網(wǎng)無關(guān)。文章僅供讀者參考，并請自行核實相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

數(shù)字內(nèi)容“遍地開花”，AI技術(shù)如何創(chuàng)新“造夢”？

下一篇

數(shù)字內(nèi)容“遍地開花”，AI技術(shù)如何創(chuàng)新“造夢”？

下一篇

數(shù)字內(nèi)容“遍地開花”，AI技術(shù)如何創(chuàng)新“造夢”？