123,123,123

2022年8月，一幅名為《太空歌劇院》的數(shù)字畫作獲得冠軍同時(shí)引發(fā)了巨大爭(zhēng)議，AIGC(AI產(chǎn)生內(nèi)容：AI-Generated Content)出圈的事件便頻頻出現(xiàn)在大眾視野。同年11月30日OpenAI發(fā)布的聊天機(jī)器人模型ChatGPT免費(fèi)開放，更掀起了人們對(duì)AIGC的廣泛興趣，各種花式問題，例如改代碼，談學(xué)問、問人生……ChatGPT的“機(jī)智”與“博學(xué)”令人刮目相看并耳目一新。

ChatGPT之所以引起了廣泛關(guān)注，在于OpenAI 先后發(fā)布了三代GPT模型，每一代模型參數(shù)量都比前一代增長了10倍甚至100倍，進(jìn)入GPT-3.5代的模型則是采用了RLHF(從人類反饋強(qiáng)化學(xué)習(xí))方式，能夠更好地理解人類語言的含義，即與人類在聊天、文章撰寫、解答詢問、代碼查錯(cuò)等互動(dòng)時(shí)更像一個(gè)經(jīng)過“認(rèn)真思考”慎重給出答案的“人”。

面對(duì)圈內(nèi)如此熱點(diǎn)，在火山語音音頻合成算法研究員Stephen看來：“之所以AIGC近期表現(xiàn)大熱，與AI生產(chǎn)的內(nèi)容質(zhì)量階梯式提升密不可分。AI作為生產(chǎn)工具觸發(fā)了更高的效率，AIGC則包含了文本生成、音頻生成、圖像生成和視頻生成等諸多方向，也會(huì)反過來刺激其背后的人工智能技術(shù)快速發(fā)展，逐漸體現(xiàn)出極大的商業(yè)價(jià)值?！?/p>

聲情并茂與能說會(huì)演或成為AI語音的難點(diǎn)之一

我們經(jīng)常會(huì)感慨，AI作畫讓你領(lǐng)略的是AI的“想象力”，以ChatGPT為代表的AI問答則讓你因?yàn)槠洳W(xué)與答案的“可讀性”而震驚，而AI語音則考驗(yàn)的是TA能否像真人一樣對(duì)內(nèi)容正確理解后，通過匹配人設(shè)的音色以及符合當(dāng)時(shí)情景的語氣表達(dá)出來，這一點(diǎn)在火山語音(字節(jié)跳動(dòng)AI Lab 智能語音與音頻團(tuán)隊(duì))與番茄小說的合作中屢見不鮮，AI算法生成的語音可以讓你直接去聽任何文字版的小說，而且聽起來“更聰明一點(diǎn)”：差異化的音色配合恰當(dāng)?shù)恼Z氣，在朗讀時(shí)化身“戲精”演繹出“喜怒哀樂”。

據(jù)了解，要讓AI聲情并茂與能說會(huì)演，首先需要確保輸出內(nèi)容不讀錯(cuò)，這就需要文本分析模型來進(jìn)行解析?！霸诜研≌f中，文本分析前端我們采用了 NLP 領(lǐng)域應(yīng)用廣泛的 Transformer 架構(gòu)模型 BERT。主要通過神經(jīng)網(wǎng)絡(luò)加規(guī)則混合的正則化模型(TN)和多任務(wù)前端模型，結(jié)合長期的人工規(guī)則修正，不斷提升前端的句級(jí)別精度，并通過蒸餾、量化等技術(shù)降低了算力需求。”

此外為了讓語音聽感更佳，團(tuán)隊(duì)還基于常規(guī) TTS 流程加入了更多功能模塊，實(shí)現(xiàn)了角色歸屬與情感控制。例如在角色歸屬中同樣采用了 bert 結(jié)構(gòu)，進(jìn)行對(duì)話判定和指代消歧兩個(gè)任務(wù)的建模，另外也采用了類似的結(jié)構(gòu)進(jìn)行情感預(yù)測(cè)?！巴ǔＰ≌f文字中會(huì)出現(xiàn)多人對(duì)話，每個(gè)說話人又有屬于自己的多種情感，如果可以將音色和情感進(jìn)行解耦，就可以更好地控制合成語音的表現(xiàn)力，實(shí)現(xiàn)不同音色與不同情感的靈活組合，這個(gè)很關(guān)鍵?！?/p>

重要的一點(diǎn)，為了讓AI能夠理解各種類型小說的文本，火山語音還率先提出了“AI 文本理解”模型，即一套多任務(wù)的長文本理解AI系統(tǒng)。能夠自動(dòng)化地從小說文本中區(qū)分出對(duì)話的角色、判別出對(duì)話中所想要表達(dá)出的情感、預(yù)測(cè)出合理的句間停頓，極大地提升了精品 AI 有聲書的制作效率，有效突破了人工標(biāo)注的生產(chǎn)瓶頸。

「AI 文本理解」模型

更進(jìn)一步，火山語音團(tuán)隊(duì)在滿足發(fā)音清晰、韻律連貫、語調(diào)起伏的基礎(chǔ)上，自研半監(jiān)督學(xué)習(xí)的端到端風(fēng)格控制聲學(xué)模型，使聲音遵循普魯契克情感色輪(Plutchik's Wheel of Emotions)的情感類型，表現(xiàn)出開心、悲傷、驚訝、恐懼等多種情感色彩，以情感遷移的方式，讓原本沒有情感的發(fā)音獲得多情感合成的效果。更好表達(dá)“以聲傳情”，將人類語言中常會(huì)出現(xiàn)的「副語言」現(xiàn)象進(jìn)行了精細(xì)化的建模還原，實(shí)現(xiàn)了在有聲書中常見的重音停頓、疑問反問、笑聲哭腔、以及各類嘆息、叫喊聲等，達(dá)成了文本內(nèi)容的精彩演繹。

“接近真人播講的效果，使最終的AI語音能夠體現(xiàn)出不同角色在不同上下文環(huán)境里的效果，是我們一直以來追求的目標(biāo)。未來，我們更希望可以做到，通過文本-語音聯(lián)合訓(xùn)練大模型，對(duì)不同上下文環(huán)境的文本提取表征，提升角色判別成功率;憑借多話者語音合成大模型，對(duì)情感、風(fēng)格、音色和口音等屬性進(jìn)行解耦并能夠自由遷移;同時(shí)根據(jù)文本描述生成匹配的背景音來提升有聲書聆聽時(shí)的代入感?！?/p>

提高內(nèi)容質(zhì)量和產(chǎn)生效率才是AIGC的核心價(jià)值

在更多實(shí)踐中我們發(fā)現(xiàn)，除了文字和圖像，人們對(duì)語音交互的應(yīng)用范圍更廣，例如，人們?cè)诩抑薪?jīng)常通過語音交互發(fā)出指令控制各種電器;出行時(shí)通過車載語音助手完成導(dǎo)航、預(yù)定餐廳等事項(xiàng);以及在辦公場(chǎng)景中高頻率使用的會(huì)議助手等，都離不開智能語音方案來提高內(nèi)容質(zhì)量和生產(chǎn)效率。

對(duì)此火山語音團(tuán)隊(duì)也隨之進(jìn)行了更多相關(guān)的創(chuàng)新性嘗試，例如在短視頻成為全民時(shí)尚的今天，面對(duì)ugc群體視頻創(chuàng)作的隨性記錄以及音頻質(zhì)量不可控等現(xiàn)實(shí)因素，通過火山語音智能字幕解決方案為視頻創(chuàng)作自動(dòng)添加字幕，不僅可以兼容識(shí)別中、英、粵等常用的語言和方言，還能對(duì)歌曲進(jìn)行識(shí)別。

對(duì)此火山語音音頻理解方向產(chǎn)品經(jīng)理W補(bǔ)充道：“視頻內(nèi)容生產(chǎn)中，傳統(tǒng)加字幕的方式需要?jiǎng)?chuàng)作者對(duì)視頻進(jìn)行數(shù)次聽寫并校對(duì)，還需要根據(jù)起始時(shí)間逐幀對(duì)齊，經(jīng)常10分鐘的視頻需要幾小時(shí)的后期制作時(shí)間才能完成。此外字幕組還要精通多語言并熟悉字幕文件的制作，整體下來視頻制作成本很高，這對(duì)于當(dāng)今短視頻時(shí)代的個(gè)人創(chuàng)作者或是單純以記錄生活的用戶來說早已高不可及。”

為了降低創(chuàng)作門檻，讓所有創(chuàng)作者都能輕松制作高質(zhì)量的視頻內(nèi)容，記錄美好生活，火山語音自研推出了智能字幕解決方案。不僅能夠高效識(shí)別方言與歌曲，還可以對(duì)語種混合以及說話唱歌混合的場(chǎng)景有很好的識(shí)別效果;此外還可通過對(duì)用戶創(chuàng)作內(nèi)容的音頻特性以及領(lǐng)域分析，憑借算法優(yōu)化，大大提升語音識(shí)別對(duì)于噪聲場(chǎng)景、多人說話等復(fù)雜場(chǎng)景的表現(xiàn)。尤其面對(duì)移動(dòng)端用戶針對(duì)功能響應(yīng)時(shí)間的較高要求，即希望字幕可以既快且準(zhǔn)，對(duì)此火山語音做了大量的工程優(yōu)化和策略，1分鐘的視頻只需2-3秒即可完成。

智能字幕解決方案展示

眾所周知，面對(duì)相同的內(nèi)容，人類對(duì)于音頻信息的獲取效率遠(yuǎn)低于文本信息的獲取效率，而將語音轉(zhuǎn)化成文本被記錄與使用的關(guān)鍵在于語音識(shí)別，例如火山語音推出的“千言轉(zhuǎn)文字，一字勝千言”的實(shí)時(shí)字幕解決方案就是通過“語音識(shí)別+語音翻譯”的AI鏈路，讓跨國家、跨語言交流變得更加流暢;通過自動(dòng)生成會(huì)議記錄與紀(jì)要，做到大大提升與會(huì)者的工作效率，大幅減少會(huì)后整理和會(huì)中記錄的工作量?？梢灶A(yù)見伴隨科技的迅速發(fā)展，AI語音會(huì)為人機(jī)交互增加信息輸出的渠道，為信息獲取提升效率。

同樣面對(duì)AIGC帶來質(zhì)量以及效率的提升問題，在火山語音語音交互產(chǎn)品經(jīng)理Y看來，AIGC確實(shí)有望在智能語音交互的輔助場(chǎng)景中落地，可以實(shí)現(xiàn)包括會(huì)話摘要、話術(shù)推薦、情緒安撫、工單摘要等方向的客服功能，輔助解決方案來提高生產(chǎn)效率。舉個(gè)例子，在人機(jī)對(duì)話觸發(fā)轉(zhuǎn)人工時(shí)，可自動(dòng)生成人機(jī)對(duì)話的對(duì)話摘要，輔助人工更快了解用戶訴求，避免出現(xiàn)突然冷場(chǎng)去翻查聊天記錄的情況;在與人對(duì)話過程中，通過對(duì)用戶話術(shù)的理解，運(yùn)用AIGC能力來生成答案供客服參考，提高了客服對(duì)話的效率。

“此外在異常情況處理方面也可發(fā)揮作用，比方說用戶出現(xiàn)煩躁、憤怒等情緒時(shí)，AICG或可自動(dòng)生成安撫話術(shù)供客服參考，提升服務(wù)滿意度等。未來，伴隨多模態(tài)技術(shù)和AIGC技術(shù)的不斷成熟，或許通過虛擬數(shù)字人可取代部分人工，以人機(jī)共生的形態(tài)直接服務(wù)客戶，更顯著降低人力成本，提升服務(wù)效率?！钡裁鞔_表示，如今的AIGC還無法做到真正獨(dú)立生產(chǎn)內(nèi)容，尚處于輔助人類提升內(nèi)容生產(chǎn)效率的階段。

成本、版權(quán)、實(shí)用性仍是AIGC發(fā)展的瓶頸

不論是ChatGPT給出了驚人回答，還是番茄小說中AI演繹出了感人聲音，就連馬斯克也驚嘆：我們離強(qiáng)大到危險(xiǎn)的人工智能不遠(yuǎn)了。這似乎預(yù)示著AIGC的時(shí)代即將來臨。

然而在AI算法一線工作多年的火山語音音頻合成算法研究員Stephen卻有著更為清醒的判斷，他指出：“AIGC背后的技術(shù)，未來可能會(huì)進(jìn)行多模態(tài)融合，不僅僅是單一模態(tài)的生成式任務(wù)，這就像人類在創(chuàng)造內(nèi)容的過程中也不僅僅是根據(jù)單一形態(tài)的知識(shí)而構(gòu)思出新內(nèi)容。舉個(gè)例子，就像生成交互式數(shù)字人的任務(wù)中，目前主要是人臉、表情、姿態(tài)和動(dòng)作的單獨(dú)預(yù)測(cè)，未來或?qū)⒂靡粋€(gè)生成式模型預(yù)測(cè)這些特征，提升各特征之間的協(xié)同效果，降低分別錄制帶來的工作量;此外也會(huì)根據(jù)多模態(tài)理解任務(wù)得到的表征，基于正在對(duì)話的用戶的表情、語氣和肢體動(dòng)作，在生成的形象和聲音上給予對(duì)應(yīng)的反饋?！?/p>

除了技術(shù)發(fā)展的預(yù)測(cè)，不容忽視的一點(diǎn)，目前AIGC在成本、版權(quán)和實(shí)用性上仍存在巨大挑戰(zhàn)。他認(rèn)為目前AIGC成本居高不下，很顯著的表現(xiàn)是高質(zhì)量文本、圖片和視頻生成技術(shù)等，都對(duì)應(yīng)著大量訓(xùn)練和推理階段硬件資源的消耗，這導(dǎo)致高校和研究機(jī)構(gòu)均很難參與其中，不利于行業(yè)發(fā)展的推動(dòng)。

“此外在版權(quán)保護(hù)上，目前生成的內(nèi)容有些可能會(huì)被用來進(jìn)行非法活動(dòng)，因此在內(nèi)容中加入版權(quán)保護(hù)，例如圖像和音頻水印變得越來越重要，但是在加入過程中，還得考慮不要因?yàn)榧羟?、混合等后處理方式?dǎo)致水印失效?！?/p>

過去的2022年，盡管在圖片和視頻生成方向的技術(shù)應(yīng)用效果顯著提升，但依然需要大量人工篩選后，內(nèi)容才能實(shí)際落地;而基于長篇章文本生成上下文相關(guān)的漫畫和視頻，既要保證場(chǎng)景的連續(xù)性，又要能體現(xiàn)人物的變化，還有大量的技術(shù)難題需要解決，避免人工智能變成“人工智障”是個(gè)挑戰(zhàn)，所以實(shí)用性還有更多的提升空間。

我們或許可以這樣認(rèn)為，AIGC作為一種新型的內(nèi)容生產(chǎn)方式，之所以受到關(guān)注，充分說明了各行各業(yè)對(duì)于內(nèi)容的渴望，尤其是互聯(lián)網(wǎng)平臺(tái)，如何高效理解、創(chuàng)作、互動(dòng)和分發(fā)內(nèi)容，確實(shí)給現(xiàn)今的AI 技術(shù)帶來了機(jī)遇和挑戰(zhàn)。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

AI創(chuàng)作驚艷四方，諸多挑戰(zhàn)仍在路上

AI創(chuàng)作驚艷四方，諸多挑戰(zhàn)仍在路上