文 | 智能相對(duì)論
作者 | 陳泊丞
這是春晚舞臺(tái)西安分會(huì)場(chǎng)《山河詩長(zhǎng)安》的一幕:“李白”現(xiàn)世,帶領(lǐng)觀眾齊頌《將進(jìn)酒》,將中國(guó)人骨子里的豪情與浪漫演繹得淋漓盡致。
這又是浙江義烏商品市場(chǎng)里的另一幕:只會(huì)說幾個(gè)英文單詞的女老板秒變外語達(dá)人,無縫切換36國(guó)語言流暢介紹自家商品,瘋狂帶貨。
這一幕幕不可思議的畫面,成就了今天中國(guó)文化、商業(yè)的頻頻出圈。而一切的背后,都有著相同的支持:AI技術(shù)賦能數(shù)字內(nèi)容生產(chǎn)和應(yīng)用。
近年來,隨著AI大模型技術(shù)的持續(xù)升級(jí)與賦能,數(shù)字內(nèi)容生產(chǎn)與應(yīng)用的趨勢(shì)愈發(fā)強(qiáng)烈,現(xiàn)實(shí)場(chǎng)景與數(shù)字內(nèi)容不斷融合,悄然改變著整個(gè)內(nèi)容創(chuàng)作行業(yè)的格局,甚至進(jìn)一步推動(dòng)了相關(guān)產(chǎn)業(yè)和商業(yè)的新變革。
技術(shù)創(chuàng)新重塑數(shù)字內(nèi)容生產(chǎn)與應(yīng)用新范式
數(shù)字人“李白”的精彩演繹、義烏女老板的AI帶貨——這些熱門事件的背后,是技術(shù)創(chuàng)新突破所帶來的結(jié)果。AI大模型的成熟應(yīng)用,讓越來越多不同形式的數(shù)字內(nèi)容得以爆發(fā),并廣泛進(jìn)入大眾視野。
在6月21日舉辦的華為開發(fā)者大會(huì)(HDC 2024)上,華為云盤古大模型迎來5.0版本升級(jí),其中盤古媒體大模型在語音生成、視頻生成以及AI翻譯上的技術(shù)創(chuàng)新就重塑了數(shù)字內(nèi)容生產(chǎn)和應(yīng)用的新范式。
對(duì)比過去的技術(shù)能力,新的技術(shù)所帶來的效果是非常顯著的。
一、語音生成進(jìn)階:只需三言兩語,沉浸式、真實(shí)感的語音易如反掌
過去的語音生成依賴傳統(tǒng)的聲音克隆模型,由于模型比較小,精度低等原因,往往在實(shí)際操作上就要復(fù)雜得多。比如,在數(shù)據(jù)收集階段,對(duì)目標(biāo)人物的語音數(shù)據(jù)就要盡可能的多樣化,包括不同的語速、語調(diào)、音量以及不同語境下的語音,需用到幾百句話的錄音。
然后到了預(yù)處理階段,需要對(duì)收集到的語音數(shù)據(jù)進(jìn)行清洗,通過人工標(biāo)注等形式去除噪聲、靜音片段和其他不需要的部分。進(jìn)而還要進(jìn)行語音分割,將連續(xù)的語音信號(hào)切割成較小的語音片段(如音素或單詞)。最后提取音頻特征,再用于后續(xù)的聲音建模。
以上,還只是數(shù)據(jù)收集和預(yù)處理,尚未進(jìn)入真正的語音生成階段。但其中的工作量和操作復(fù)雜度就已經(jīng)很大了,對(duì)語音生成的效率和質(zhì)量都是一個(gè)非常大的影響和挑戰(zhàn)。
時(shí)至今日,隨著技術(shù)的創(chuàng)新,基于更先進(jìn)的模型,比如盤古媒體大模型的語音生成能力,這一問題得到了很好的解決。只需要幾句話、幾秒鐘的聲音,AI即可學(xué)習(xí)到個(gè)性化的音色、語調(diào)、表達(dá)韻律,從而獲得高質(zhì)量的個(gè)性化語音。同時(shí),還支持喜怒哀樂等擬人情感語音,閑聊、新聞、直播等10多種語氣風(fēng)格,讓生成的語音更真實(shí)、更有情感色彩,能沉浸式地應(yīng)用到不同場(chǎng)景中。
比如,在視頻譯制中,AI將能做到配音演員的專業(yè)程度——通過盤古媒體大模型提供的視頻翻譯能力,AI可以把視頻翻譯為目標(biāo)語言,并保留原始角色的音色、情感、語氣。華為云也在積極聯(lián)合伙伴邏輯智能,打造高感情語音克隆以及14國(guó)小語種配音,共同構(gòu)建高感情超擬人多模態(tài)音頻應(yīng)用能力等。同時(shí),再結(jié)合盤古媒體大模型的口型驅(qū)動(dòng)模型,還可以實(shí)現(xiàn)音唇同步,尤其是在側(cè)面、多人對(duì)話、物體遮擋以及人物移動(dòng)等場(chǎng)景,也能做到很好的口型匹配。
二、視頻生成跨越:只需幾十張圖,可控的、一致的視頻唾手可得
傳統(tǒng)的視頻生成技術(shù)在資源需求、數(shù)據(jù)集、時(shí)序一致性、物理定律遵守、效率與質(zhì)量平衡、可控性、逼真度和連貫性以及應(yīng)用限制等方面都存在一定的局限性。如今,基于盤古媒體大模型,只需要訓(xùn)練幾十張?zhí)囟缹W(xué)風(fēng)格的圖片,如吉卜利、二次元等風(fēng)格,再輸入實(shí)拍視頻即可快速生成該風(fēng)格的動(dòng)漫視頻。
第十四屆北影節(jié)“AIGC電影短片單元”競(jìng)賽
獲最佳影片獎(jiǎng)的作品《致親愛的自己》
除了按需時(shí)長(zhǎng)生成穩(wěn)定的動(dòng)漫視頻,再通過ID一致性模型,還能對(duì)生成畫面中的關(guān)鍵角色進(jìn)行一致性處理,確保視頻中角色樣貌特征在前一幀和后一幀中所呈現(xiàn)的效果始終一致,在側(cè)臉、運(yùn)動(dòng)軌跡下的視覺效果合理一致,由此增強(qiáng)AI視頻生成的可控性、一致性,讓視頻內(nèi)容更合理、真實(shí)。
實(shí)拍轉(zhuǎn)動(dòng)漫作品《海上有座花園》的對(duì)比
此外,業(yè)內(nèi)對(duì)視頻生成的真實(shí)度、復(fù)雜度也在聚焦增強(qiáng)。比如,OpenAI的Sora正在試圖模擬復(fù)雜的攝像機(jī)運(yùn)鏡,同時(shí)準(zhǔn)確地保持角色和視覺風(fēng)格一致,讓AI創(chuàng)作的數(shù)字內(nèi)容更加趨于現(xiàn)實(shí)創(chuàng)作。英偉達(dá)更是發(fā)布了一系列技術(shù)套件如ACE(NVIDIA Avatar Cloud Engine)、NeMo?以及RTX?等,去增強(qiáng)數(shù)字內(nèi)容的真實(shí)感,讓數(shù)字人物的互動(dòng)、對(duì)話更加復(fù)雜、逼真。
三、AI翻譯強(qiáng)化:準(zhǔn)確性>93%,實(shí)時(shí)的、跨語言溝通指日可待
過去的機(jī)器翻譯系統(tǒng)往往是基于統(tǒng)計(jì)模型或規(guī)則模型構(gòu)建的,因此翻譯結(jié)果大多無法與原文一致,顯得生硬、不自然,并不具備應(yīng)用到不同場(chǎng)景的條件?,F(xiàn)如今,華為云通過AI實(shí)現(xiàn)多語種實(shí)時(shí)傳譯,準(zhǔn)確性>93%,可應(yīng)用于實(shí)時(shí)通話、云會(huì)議等需要實(shí)時(shí)翻譯場(chǎng)景。
同時(shí),基于盤古媒體大模型的語音復(fù)刻、AI文字翻譯以及TTS技術(shù),便可以實(shí)現(xiàn)語音的同聲傳譯,成功實(shí)現(xiàn)跨語言母語溝通體驗(yàn)。甚至還可以結(jié)合數(shù)字人技術(shù),讓數(shù)字人來模擬用戶說話,結(jié)合口型模型技術(shù)做到口型與聲音精準(zhǔn)匹配,讓AI翻譯、數(shù)字人與語音生成高度結(jié)合用于線上開會(huì)、跨國(guó)貿(mào)易交流等場(chǎng)景中。
技術(shù)的“瓶頸”在收縮?
技術(shù)的創(chuàng)新和突破帶來了數(shù)字內(nèi)容生產(chǎn)和應(yīng)用的爆發(fā),但另一方面隨著生產(chǎn)和應(yīng)用的進(jìn)程加速,相應(yīng)的技術(shù)瓶頸也在出現(xiàn),并不斷收縮、聚焦。目前,AI大模型在數(shù)字內(nèi)容生產(chǎn)和應(yīng)用上的問題主要呈現(xiàn)在三個(gè)層面。
其一,能源與計(jì)算效率瓶頸。當(dāng)前,大模型訓(xùn)練的算力當(dāng)量還在進(jìn)一步增大,從GPT-3到GPT-4算力當(dāng)量增長(zhǎng)了68倍。隨著訓(xùn)練的token數(shù)、模型參數(shù)增加,大模型訓(xùn)練所需的計(jì)算量也需要隨之增加。
更重要的是,其背后的成本投入是難以為繼的。根據(jù)計(jì)算,訓(xùn)練一個(gè)5000億參數(shù)規(guī)模的Dense模型,基礎(chǔ)算力設(shè)施投入約10億美金,無故障運(yùn)行21個(gè)月,電費(fèi)約5.3億元——這遠(yuǎn)遠(yuǎn)超出了企業(yè)的承受范圍。
但是,如果想要規(guī)?;厣a(chǎn)高質(zhì)量的數(shù)字內(nèi)容,大模型的精進(jìn)又是必要的路徑。在這個(gè)階段,業(yè)內(nèi)開始尋求更高效、更優(yōu)的算力解決方案。像華為云昇騰AI云服務(wù)就在致力于提供方便、好用的算力服務(wù),在算力層面不斷革新計(jì)算能力和計(jì)算效率,提供從云化算力、模型開發(fā)、模型托管到生態(tài)的全棧服務(wù)。
其二,算法架構(gòu)的優(yōu)化挑戰(zhàn)。隨著大模型參數(shù)的增加,想要實(shí)現(xiàn)更好的計(jì)算結(jié)果和輸出更優(yōu)的答案,那么其處理的時(shí)長(zhǎng)就會(huì)不斷延長(zhǎng)的。但是,這在實(shí)際應(yīng)用中是一個(gè)困擾數(shù)字內(nèi)容生產(chǎn)和應(yīng)用的顯著問題,非常不利于數(shù)字內(nèi)容的規(guī)?;?、商業(yè)化發(fā)展。
由此,業(yè)內(nèi)也開始在算法架構(gòu)上進(jìn)行優(yōu)化,調(diào)整計(jì)算邏輯、處理方法來實(shí)現(xiàn)更優(yōu)效果。其中,以稀疏激活機(jī)制為代表的MoE模型就是目前AI行業(yè)的一個(gè)焦點(diǎn),類似于“術(shù)業(yè)有專攻”的理念,稀疏激活機(jī)制通過對(duì)數(shù)據(jù)任務(wù)進(jìn)行拆解,分門別類,再分配給特定的“專家”(Experts)進(jìn)行處理,最終綜合加權(quán)輸出——不僅實(shí)現(xiàn)了計(jì)算效率優(yōu)化,也讓輸出結(jié)果更加全面、強(qiáng)大。
其三,安全與倫理問題。大模型內(nèi)部運(yùn)行機(jī)制復(fù)雜,生產(chǎn)出來的內(nèi)容欠缺可解釋性和可控性,又易受對(duì)抗樣本攻擊,存在監(jiān)管難題和安全漏洞。對(duì)此,在數(shù)字內(nèi)容生產(chǎn)和應(yīng)用中,相關(guān)的安全和倫理問題隨著行業(yè)的廣泛發(fā)展而日趨突顯。
因此,在數(shù)字內(nèi)容行業(yè)高速發(fā)展的階段,盡管企業(yè)能吃上數(shù)字內(nèi)容的紅利,但也需要鑒別模型的安全性、可靠性,避免因模型的安全和倫理問題而引發(fā)負(fù)面輿論影響。在這樣的挑戰(zhàn)下,華為云盤古大模型也隨即作出升級(jí),在數(shù)據(jù)治理、安全合規(guī)等方面達(dá)到了較高標(biāo)準(zhǔn)。
以技術(shù)“造夢(mèng)”,數(shù)字內(nèi)容未來可期
新范式的明確帶來更明確的技術(shù)方向,對(duì)于整個(gè)數(shù)字內(nèi)容行業(yè)而言,這意味著未來的發(fā)展已經(jīng)有了基礎(chǔ)的雛形,前景仍是樂觀的。但是,不可忽視的是,技術(shù)的瓶頸客觀存在,且更加突出,擺在行業(yè)面前的依舊是一條較為嚴(yán)峻的發(fā)展之路。
盡管拋開技術(shù)瓶頸不談,在具體的實(shí)踐中,數(shù)字內(nèi)容的生產(chǎn)和應(yīng)用也不簡(jiǎn)單,往往都需要面對(duì)很多在技術(shù)之外的具像化問題,只有基于問題去一步步解決才能最終完成落地。
華為云團(tuán)隊(duì)在進(jìn)行紀(jì)錄片譯制時(shí)就發(fā)現(xiàn),項(xiàng)目實(shí)際開展起來會(huì)遇到各種各樣的問題,比如環(huán)境聲音太雜太亂,AI無法準(zhǔn)確識(shí)別人聲保證音譯的完整度,或是隨著場(chǎng)景的切換,人物的狀態(tài)、口型都呈現(xiàn)出不同的樣子,需要AI精準(zhǔn)地匹配等等。
如果這些問題不一一解決,AI譯制的效果就打了個(gè)大大的折扣。對(duì)此,華為云團(tuán)隊(duì)通過精準(zhǔn)分析問題,采用不同的技術(shù)去解決各類細(xì)微問題,比如通過分離模型技術(shù)讓環(huán)境聲和人聲分開,通過口型模型技術(shù)讓聲音與口型精準(zhǔn)匹配等。
技術(shù)或許一直都有,但是如何用恰恰才是項(xiàng)目落地的關(guān)鍵。換句話說,在今天數(shù)字內(nèi)容行業(yè)高速發(fā)展、技術(shù)創(chuàng)新加速迭代的階段,只有實(shí)踐了才能真正推動(dòng)行業(yè)的發(fā)展。這是一個(gè)比拼項(xiàng)目的階段,誰家的項(xiàng)目經(jīng)驗(yàn)越豐富,越能知道相關(guān)的技術(shù)應(yīng)該如何應(yīng)用才能發(fā)揮出應(yīng)有的效果。
目前,中影集團(tuán)與華為云合作,將媒體大模型應(yīng)用到影視工業(yè),共同打造影視譯制大模型,通過AI將視頻譯制成不同語言,并保留原始角色的音色、情感、語氣,還能支持口型匹配,為影片譯制提供全新的AI制作方式。
今天,數(shù)字內(nèi)容迎來迸發(fā),越來越多精彩內(nèi)容面世的另一面恰恰是廠商們不斷運(yùn)用技術(shù)、驗(yàn)證技術(shù)、完善技術(shù)的過程。未來的項(xiàng)目之路任重而道遠(yuǎn),同時(shí)也是行業(yè)走向成熟的必經(jīng)之路。靜待技術(shù)在創(chuàng)新中、實(shí)踐中持續(xù)升級(jí)、完善,未來便更快能看到一個(gè)數(shù)字內(nèi)容精彩紛呈,如同夢(mèng)境一般的世界。
*本文圖片均來源于網(wǎng)絡(luò)
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 100億美元史上最大融資的背后,國(guó)內(nèi)外巨頭齊瞄準(zhǔn)Data+AI
- 有一種羨慕叫“別人家的年終獎(jiǎng)”:京東采銷平均23薪,全網(wǎng)熱議“人的價(jià)值”
- 行業(yè)首個(gè)“人機(jī)大戰(zhàn)”對(duì)壘!AI翻譯已媲美人工
- 蘋果開啟年終大促,降價(jià)1200元,被國(guó)產(chǎn)手機(jī)嚇怕了?
- 1999 元起,OPPO A5 Pro 超防水、超抗摔、超耐用
- 長(zhǎng)三角,如何把數(shù)據(jù)要素變成新長(zhǎng)江?
- 大模型,在內(nèi)卷中尋找出口
- 比亞迪“天神之眼”重磅升級(jí):無圖城市領(lǐng)航功能全國(guó)開通
- 不愿成為微信的支付寶,注定失敗
- 大廠年終獎(jiǎng)全靠猜?京東帶頭透明化
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。