導(dǎo)讀：如今的AI技術(shù)發(fā)展堪稱“very神奇”，文字、圖片竟能一鍵直接生成逼真音效，嗯，妥妥都是因為TA，一款在語音音頻領(lǐng)域“橫空出世”的新模型：Make-An-Audio。

近期AIGC如同“上了熱搜”一般，火熱程度居高不下，當(dāng)然除了名頭格外響亮，突破也是絕對斐然：輸入自然語言就可自動生成圖像、視頻甚至是3D模型，你說意不意外？

但在音頻音效的領(lǐng)域，AIGC的“福利”似乎還差了一些。主要由于高自由度音頻生成需要依靠大量文本-音頻對數(shù)據(jù)，同時長時波形建模還有諸多困難。為了解決上述疑難，浙江大學(xué)與北京大學(xué)聯(lián)合火山語音，共同提出了一款創(chuàng)新的、文本到音頻的生成系統(tǒng)，即Make-An-Audio。TA可以將自然語言描述作為輸入，而且是任意模態(tài)（例如文本、音頻、圖像、視頻等）均可，同時輸出符合描述的音頻音效，廣大網(wǎng)友很難不為其可控性以及泛化性點贊。

論文鏈接：
https://arxiv.org/abs/2301.12661

項目鏈接：
https://text-to-audio.github.io

短短兩天，Demo視頻在Twitter上獲得了45K的播放量。

研究團隊公布的演示視頻.jpg

圖1：研究團隊公布的演示視頻

2023年除夕后，以“Make-An-Audio”、 MusicLM等大量音頻合成文章涌現(xiàn)，48小時內(nèi)已經(jīng)有4篇突破性的進(jìn)展。

網(wǎng)友評論1.jpg

圖2：網(wǎng)友評論1

廣大網(wǎng)友們紛紛表示，AIGC音效合成將會改變電影、短視頻制作的未來。

網(wǎng)友評論2.png

圖3：網(wǎng)友評論2

網(wǎng)友評論3.jpg

圖4：網(wǎng)友評論3

更有群眾發(fā)出這樣的感嘆：“audio is all you need……”

網(wǎng)友評論4.jpg

圖5：網(wǎng)友評論4

這樣的聽覺效果，難道你不愛嗎？

研究團隊已公布部分音頻生成結(jié)果在工作的主頁上：
https://text-to-audio.github.io，該模型除了可以一鍵生成大片音效以外，還可以做音頻修復(fù)、圖片生成音頻以及視頻配音等多種任務(wù)。

音頻修復(fù)（前）.png

圖6：音頻修復(fù)（前）

音頻修復(fù)（后）.png

圖6：音頻修復(fù)（后）

圖片轉(zhuǎn)音頻樣例輸入.jpg

圖7：圖片轉(zhuǎn)音頻樣例輸入

視頻轉(zhuǎn)音頻樣例輸入.gif

圖7：視頻轉(zhuǎn)音頻樣例輸入

這款“網(wǎng)紅”模型的內(nèi)在技術(shù)原理究竟是？

深度解析“網(wǎng)紅”模型的神奇內(nèi)在，我們還要回到音頻-自然語言對數(shù)據(jù)稀少的客觀問題上，對此浙大北大聯(lián)合火山語音團隊共同提出了Distill-then-Reprogram文本增強策略，即使用教師模型獲得音頻的自然語言描述，再通過隨機重組獲得具有動態(tài)性的訓(xùn)練樣本。

具體來說，在Distill環(huán)節(jié)中，使用音頻轉(zhuǎn)文本與音頻-文本檢索模型，找到語言缺失(Language-Free)音頻的自然語言描述候選(Candidate)，通過計算候選文本與音頻的匹配相似度，在閾值下取得最佳結(jié)果作為音頻的描述。該方法具有強泛化性，且真實自然語言避免了測試階段的域外文本?！霸赗eprogram環(huán)節(jié)中，我們從額外的事件數(shù)據(jù)集中隨機采樣，并與當(dāng)前訓(xùn)練樣本相結(jié)合，得到全新的概念組合與描述，以擴增模型對不同事件組合的魯棒性?！毖芯繄F隊表示。

Distill-then-Reprogram文本增強策略框架圖.png

圖8：Distill-then-Reprogram文本增強策略框架圖

如上圖所示，自監(jiān)督學(xué)習(xí)已經(jīng)成功將圖片遷移到音頻頻譜，利用了頻譜自編碼器以解決長音頻序列問題，并基于Latent Diffusion生成模型完成對自監(jiān)督表征的預(yù)測，避免了直接預(yù)測長時波形。

Make-An-Audio模型系統(tǒng)框架圖.png

圖9：Make-An-Audio模型系統(tǒng)框架圖

此外在研究中團隊還探索了強大的文本條件策略，包括對比式Contrastive Language-Audio Pretraining (CLAP)以及語言模型(LLM) T5， BERT等，驗證了CLAP文本表征的有效與計算友好性。同時還首次使用CLAP Score來評估生成的音頻，可以用于衡量文本和生成場景之間的一致性；使用主、客觀相結(jié)合的評估方式，在benchmark數(shù)據(jù)集測試中驗證了模型的有效性，展示了模型出色的零次樣本學(xué)習(xí)(Zero-Shot)泛化性等。

Make-An-Audio與基線模型主客觀評測實驗結(jié)果.png

圖10：Make-An-Audio與基線模型主客觀評測實驗結(jié)果

神奇模型的應(yīng)用前景知多少？

總體來看，Make-An-Audio模型實現(xiàn)了高質(zhì)量、高可控性的音頻合成，并提出了“No Modality Left Behind”，對文本條件音頻模型進(jìn)行微調(diào)(finetune)，即能解鎖對任意模態(tài)輸入的音頻合成(audio/image/video)。

Make-An-Audio首次實現(xiàn)高可控X-音頻的AIGC合成.jpg

圖11：Make-An-Audio首次實現(xiàn)高可控X-音頻的AIGC合成，X可以是文本/音頻/圖像/視頻

在視覺指導(dǎo)的音頻合成上，Make-An-Audio以CLIP文本編碼器為條件，利用其圖像-文本聯(lián)合空間，能夠直接以圖像編碼為條件合成音頻。

Make-An-Audio視覺-音頻合成框架圖.jpg

圖12：Make-An-Audio視覺-音頻合成框架圖

可以預(yù)見的是，音頻合成AIGC將會在未來電影配音、短視頻創(chuàng)作等領(lǐng)域發(fā)揮重要作用，而借助Make-An-Audio等模型，或許在未來人人都有可能成為專業(yè)的音效師，都可以憑借文字、視頻、圖像在任意時間、任意地點，合成出栩栩如生的音頻、音效。但現(xiàn)階段Make-An-Audio也并不是完美無缺的，可能由于豐富的數(shù)據(jù)來源以及不可避免的樣本質(zhì)量問題，訓(xùn)練過程中難免會產(chǎn)生副作用，例如生成不符合文字內(nèi)容的音頻或有害的音頻，所以哪怕Make-An-Audio在技術(shù)上被定位是“輔助藝術(shù)家生成”，但也可能出現(xiàn)創(chuàng)意內(nèi)容被濫用的潛在風(fēng)險，但可以肯定的一點，AIGC領(lǐng)域的進(jìn)展確實令人驚喜。

火山語音，長期以來面向字節(jié)跳動各大業(yè)務(wù)線提供全球優(yōu)勢的AI語音技術(shù)能力以及全棧語音產(chǎn)品解決方案，包括音頻理解、音頻合成、虛擬數(shù)字人、對話交互、音樂檢索、智能硬件等。自 2017 年成立以來，團隊專注研發(fā)行業(yè)領(lǐng)先的 AI 智能語音技術(shù)，不斷探索AI 與業(yè)務(wù)場景的高效結(jié)合，以實現(xiàn)更大的用戶價值。目前其語音識別和語音合成已經(jīng)覆蓋了多種語言和方言，多篇技術(shù)論文入選各類AI 頂級會議，為抖音、剪映、飛書、番茄小說、Pico等業(yè)務(wù)提供了領(lǐng)先的語音能力，并適用于短視頻、直播、視頻創(chuàng)作、辦公以及穿戴設(shè)備等多樣化場景，通過火山引擎開放給外部企業(yè)。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）