AI創(chuàng)作驚艷四方,諸多挑戰(zhàn)仍在路上

2022年8月,一幅名為《太空歌劇院》的數(shù)字畫作獲得冠軍同時引發(fā)了巨大爭議,AIGC(AI產(chǎn)生內(nèi)容:AI-Generated Content)出圈的事件便頻頻出現(xiàn)在大眾視野。同年11月30日OpenAI發(fā)布的聊天機器人模型ChatGPT免費開放,更掀起了人們對AIGC的廣泛興趣,各種花式問題,例如改代碼,談學問、問人生……ChatGPT的“機智”與“博學”令人刮目相看并耳目一新。

ChatGPT之所以引起了廣泛關(guān)注,在于OpenAI 先后發(fā)布了三代GPT模型,每一代模型參數(shù)量都比前一代增長了10倍甚至100倍,進入GPT-3.5代的模型則是采用了RLHF(從人類反饋強化學習)方式,能夠更好地理解人類語言的含義,即與人類在聊天、文章撰寫、解答詢問、代碼查錯等互動時更像一個經(jīng)過“認真思考”慎重給出答案的“人”。

面對圈內(nèi)如此熱點,在火山語音音頻合成算法研究員Stephen看來:“之所以AIGC近期表現(xiàn)大熱,與AI生產(chǎn)的內(nèi)容質(zhì)量階梯式提升密不可分。AI作為生產(chǎn)工具觸發(fā)了更高的效率,AIGC則包含了文本生成、音頻生成、圖像生成和視頻生成等諸多方向,也會反過來刺激其背后的人工智能技術(shù)快速發(fā)展,逐漸體現(xiàn)出極大的商業(yè)價值。”

聲情并茂與能說會演 或成為AI語音的難點之一

我們經(jīng)常會感慨,AI作畫讓你領(lǐng)略的是AI的“想象力”, 以ChatGPT為代表的AI問答則讓你因為其博學與答案的“可讀性”而震驚,而AI語音則考驗的是TA能否像真人一樣對內(nèi)容正確理解后,通過匹配人設(shè)的音色以及符合當時情景的語氣表達出來,這一點在火山語音(字節(jié)跳動AI Lab 智能語音與音頻團隊)與番茄小說的合作中屢見不鮮,AI算法生成的語音可以讓你直接去聽任何文字版的小說,而且聽起來“更聰明一點”:差異化的音色配合恰當?shù)恼Z氣,在朗讀時化身“戲精”演繹出“喜怒哀樂”。

據(jù)了解,要讓AI聲情并茂與能說會演,首先需要確保輸出內(nèi)容不讀錯,這就需要文本分析模型來進行解析?!霸诜研≌f中,文本分析前端我們采用了 NLP 領(lǐng)域應(yīng)用廣泛的 Transformer 架構(gòu)模型 BERT。主要通過神經(jīng)網(wǎng)絡(luò)加規(guī)則混合的正則化模型(TN)和多任務(wù)前端模型,結(jié)合長期的人工規(guī)則修正,不斷提升前端的句級別精度,并通過蒸餾、量化等技術(shù)降低了算力需求。”

此外為了讓語音聽感更佳,團隊還基于常規(guī) TTS 流程加入了更多功能模塊,實現(xiàn)了角色歸屬與情感控制。例如在角色歸屬中同樣采用了 bert 結(jié)構(gòu),進行對話判定和指代消歧兩個任務(wù)的建模,另外也采用了類似的結(jié)構(gòu)進行情感預(yù)測?!巴ǔP≌f文字中會出現(xiàn)多人對話,每個說話人又有屬于自己的多種情感,如果可以將音色和情感進行解耦,就可以更好地控制合成語音的表現(xiàn)力,實現(xiàn)不同音色與不同情感的靈活組合,這個很關(guān)鍵?!?/p>

重要的一點,為了讓AI能夠理解各種類型小說的文本,火山語音還率先提出了“AI 文本理解”模型,即一套多任務(wù)的長文本理解AI系統(tǒng)。能夠自動化地從小說文本中區(qū)分出對話的角色、判別出對話中所想要表達出的情感、預(yù)測出合理的句間停頓,極大地提升了精品 AI 有聲書的制作效率,有效突破了人工標注的生產(chǎn)瓶頸。

「AI 文本理解」模型

更進一步,火山語音團隊在滿足發(fā)音清晰、韻律連貫、語調(diào)起伏的基礎(chǔ)上,自研半監(jiān)督學習的端到端風格控制聲學模型,使聲音遵循普魯契克情感色輪(Plutchik's Wheel of Emotions)的情感類型,表現(xiàn)出開心、悲傷、驚訝、恐懼等多種情感色彩,以情感遷移的方式,讓原本沒有情感的發(fā)音獲得多情感合成的效果。更好表達“以聲傳情”,將人類語言中常會出現(xiàn)的「副語言」現(xiàn)象進行了精細化的建模還原,實現(xiàn)了在有聲書中常見的重音停頓、疑問反問、笑聲哭腔、以及各類嘆息、叫喊聲等,達成了文本內(nèi)容的精彩演繹。

“接近真人播講的效果,使最終的AI語音能夠體現(xiàn)出不同角色在不同上下文環(huán)境里的效果,是我們一直以來追求的目標。未來,我們更希望可以做到,通過文本-語音聯(lián)合訓(xùn)練大模型,對不同上下文環(huán)境的文本提取表征,提升角色判別成功率;憑借多話者語音合成大模型,對情感、風格、音色和口音等屬性進行解耦并能夠自由遷移;同時根據(jù)文本描述生成匹配的背景音來提升有聲書聆聽時的代入感?!?/p>

提高內(nèi)容質(zhì)量和產(chǎn)生效率才是AIGC的核心價值

在更多實踐中我們發(fā)現(xiàn),除了文字和圖像,人們對語音交互的應(yīng)用范圍更廣,例如,人們在家中經(jīng)常通過語音交互發(fā)出指令控制各種電器;出行時通過車載語音助手完成導(dǎo)航、預(yù)定餐廳等事項;以及在辦公場景中高頻率使用的會議助手等,都離不開智能語音方案來提高內(nèi)容質(zhì)量和生產(chǎn)效率。

對此火山語音團隊也隨之進行了更多相關(guān)的創(chuàng)新性嘗試,例如在短視頻成為全民時尚的今天,面對ugc群體視頻創(chuàng)作的隨性記錄以及音頻質(zhì)量不可控等現(xiàn)實因素,通過火山語音智能字幕解決方案為視頻創(chuàng)作自動添加字幕,不僅可以兼容識別中、英、粵等常用的語言和方言,還能對歌曲進行識別。

對此火山語音音頻理解方向產(chǎn)品經(jīng)理W補充道:“視頻內(nèi)容生產(chǎn)中,傳統(tǒng)加字幕的方式需要創(chuàng)作者對視頻進行數(shù)次聽寫并校對,還需要根據(jù)起始時間逐幀對齊,經(jīng)常10分鐘的視頻需要幾小時的后期制作時間才能完成。此外字幕組還要精通多語言并熟悉字幕文件的制作,整體下來視頻制作成本很高,這對于當今短視頻時代的個人創(chuàng)作者或是單純以記錄生活的用戶來說早已高不可及?!?/p>

為了降低創(chuàng)作門檻,讓所有創(chuàng)作者都能輕松制作高質(zhì)量的視頻內(nèi)容,記錄美好生活,火山語音自研推出了智能字幕解決方案。不僅能夠高效識別方言與歌曲,還可以對語種混合以及說話唱歌混合的場景有很好的識別效果;此外還可通過對用戶創(chuàng)作內(nèi)容的音頻特性以及領(lǐng)域分析,憑借算法優(yōu)化,大大提升語音識別對于噪聲場景、多人說話等復(fù)雜場景的表現(xiàn)。尤其面對移動端用戶針對功能響應(yīng)時間的較高要求,即希望字幕可以既快且準,對此火山語音做了大量的工程優(yōu)化和策略,1分鐘的視頻只需2-3秒即可完成。

智能字幕解決方案展示

眾所周知,面對相同的內(nèi)容,人類對于音頻信息的獲取效率遠低于文本信息的獲取效率,而將語音轉(zhuǎn)化成文本被記錄與使用的關(guān)鍵在于語音識別,例如火山語音推出的“千言轉(zhuǎn)文字,一字勝千言”的實時字幕解決方案就是通過“語音識別+語音翻譯”的AI鏈路,讓跨國家、跨語言交流變得更加流暢;通過自動生成會議記錄與紀要,做到大大提升與會者的工作效率,大幅減少會后整理和會中記錄的工作量??梢灶A(yù)見伴隨科技的迅速發(fā)展,AI語音會為人機交互增加信息輸出的渠道,為信息獲取提升效率。

同樣面對AIGC帶來質(zhì)量以及效率的提升問題,在火山語音語音交互產(chǎn)品經(jīng)理Y看來,AIGC確實有望在智能語音交互的輔助場景中落地,可以實現(xiàn)包括會話摘要、話術(shù)推薦、情緒安撫、工單摘要等方向的客服功能,輔助解決方案來提高生產(chǎn)效率。舉個例子,在人機對話觸發(fā)轉(zhuǎn)人工時,可自動生成人機對話的對話摘要,輔助人工更快了解用戶訴求,避免出現(xiàn)突然冷場去翻查聊天記錄的情況;在與人對話過程中,通過對用戶話術(shù)的理解,運用AIGC能力來生成答案供客服參考,提高了客服對話的效率。

“此外在異常情況處理方面也可發(fā)揮作用,比方說用戶出現(xiàn)煩躁、憤怒等情緒時,AICG或可自動生成安撫話術(shù)供客服參考,提升服務(wù)滿意度等。未來,伴隨多模態(tài)技術(shù)和AIGC技術(shù)的不斷成熟,或許通過虛擬數(shù)字人可取代部分人工,以人機共生的形態(tài)直接服務(wù)客戶,更顯著降低人力成本,提升服務(wù)效率。”但他也明確表示,如今的AIGC還無法做到真正獨立生產(chǎn)內(nèi)容,尚處于輔助人類提升內(nèi)容生產(chǎn)效率的階段。

成本、版權(quán)、實用性仍是AIGC發(fā)展的瓶頸

不論是ChatGPT給出了驚人回答,還是番茄小說中AI演繹出了感人聲音,就連馬斯克也驚嘆:我們離強大到危險的人工智能不遠了。這似乎預(yù)示著AIGC的時代即將來臨。

然而在AI算法一線工作多年的火山語音音頻合成算法研究員Stephen卻有著更為清醒的判斷,他指出:“AIGC背后的技術(shù),未來可能會進行多模態(tài)融合,不僅僅是單一模態(tài)的生成式任務(wù),這就像人類在創(chuàng)造內(nèi)容的過程中也不僅僅是根據(jù)單一形態(tài)的知識而構(gòu)思出新內(nèi)容。舉個例子,就像生成交互式數(shù)字人的任務(wù)中,目前主要是人臉、表情、姿態(tài)和動作的單獨預(yù)測,未來或?qū)⒂靡粋€生成式模型預(yù)測這些特征,提升各特征之間的協(xié)同效果,降低分別錄制帶來的工作量;此外也會根據(jù)多模態(tài)理解任務(wù)得到的表征,基于正在對話的用戶的表情、語氣和肢體動作,在生成的形象和聲音上給予對應(yīng)的反饋。”

除了技術(shù)發(fā)展的預(yù)測,不容忽視的一點,目前AIGC在成本、版權(quán)和實用性上仍存在巨大挑戰(zhàn)。他認為目前AIGC成本居高不下,很顯著的表現(xiàn)是高質(zhì)量文本、圖片和視頻生成技術(shù)等,都對應(yīng)著大量訓(xùn)練和推理階段硬件資源的消耗,這導(dǎo)致高校和研究機構(gòu)均很難參與其中,不利于行業(yè)發(fā)展的推動。

“此外在版權(quán)保護上,目前生成的內(nèi)容有些可能會被用來進行非法活動,因此在內(nèi)容中加入版權(quán)保護,例如圖像和音頻水印變得越來越重要,但是在加入過程中,還得考慮不要因為剪切、混合等后處理方式導(dǎo)致水印失效?!?/p>

過去的2022年,盡管在圖片和視頻生成方向的技術(shù)應(yīng)用效果顯著提升,但依然需要大量人工篩選后,內(nèi)容才能實際落地;而基于長篇章文本生成上下文相關(guān)的漫畫和視頻,既要保證場景的連續(xù)性,又要能體現(xiàn)人物的變化,還有大量的技術(shù)難題需要解決,避免人工智能變成“人工智障”是個挑戰(zhàn),所以實用性還有更多的提升空間。

我們或許可以這樣認為,AIGC作為一種新型的內(nèi)容生產(chǎn)方式,之所以受到關(guān)注,充分說明了各行各業(yè)對于內(nèi)容的渴望,尤其是互聯(lián)網(wǎng)平臺,如何高效理解、創(chuàng)作、互動和分發(fā)內(nèi)容,確實給現(xiàn)今的AI 技術(shù)帶來了機遇和挑戰(zhàn)。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )