123,123

日前，火山語音團隊七篇論文成功入選國際頂會Interspeech2022，內(nèi)容涵蓋音頻合成、音頻理解等多個技術(shù)方向的創(chuàng)新突破。Interspeech作為國際語音通信協(xié)會ISCA組織的語音研究領(lǐng)域的頂級會議之一，也被稱為全球最大的綜合性語音信號處理盛會，在世界范圍內(nèi)享有極高聲譽，并受到全球各地語言領(lǐng)域人士的廣泛關(guān)注。下面我們就入選論文進行全面解讀，一同了解火山語音技術(shù)的重要進展吧！

音頻合成方向——

針對語音合成有聲書的自動化配樂系統(tǒng)

An Automatic Soundtracking System for Text-to-Speech Audiobooks

通常在有聲小說中，適宜的背景音樂可以大幅提升聽感，增強用戶的沉浸式體驗。該論文首創(chuàng)性提出了基于篇章級情節(jié)理解的有聲小說配樂系統(tǒng)，能夠自動化地挑選并組合出貼合文章情節(jié)、烘托感情氛圍的背景音樂，同時與語音合成的有聲小說音頻進行精準(zhǔn)的時間戳對齊和混音，極大節(jié)省了后期配樂的人力投入。

具體來說該系統(tǒng)可以分為情節(jié)劃分(Plot Partition)、情節(jié)分類(Plot Classification) 和音樂選擇(Novel Selection) 三個部分。前兩部分主要通過NLP技術(shù)實現(xiàn)了篇章級語意理解，能夠自動將小說文本進行片段式的情節(jié)劃分，做到預(yù)測多達十二類的情節(jié)；第三部分則實現(xiàn)了基于語意及小說音頻長度的啟發(fā)式規(guī)則，自動化地從音樂庫中選擇合適的音樂片段并與小說音頻進行自動混音。該系統(tǒng)在與人工配樂的對比實驗中，目前的合格率已追平人工水平（均為88.75%）；優(yōu)秀率也高達45%，但對比人工 52.5%的數(shù)據(jù)指標(biāo)還略有差距。

有聲小說自動化配樂系統(tǒng)框架

在語音合成有聲小說的場景和業(yè)務(wù)中，自動化精配背景音樂的加入不僅能夠大幅度提升用戶的聽覺感受和代入感，還極大降低了音頻后期的人力投入成本。目前，自動化精配背景音樂已經(jīng)在番茄小說等業(yè)務(wù)中開始應(yīng)用。

一種借助聲學(xué)參考特征和對比學(xué)習(xí)的高品質(zhì)歌唱轉(zhuǎn)換方法

TOWARDS HIGH-FIDELITY SINGING VOICE CONVERSION WITH ACOUSTIC REFERENCE AND CONTRASTIVE PREDICTIVE CODING

近年來伴隨語音后驗概率（Phonetic PosteriorGrams，PPG）特征的廣泛使用，語音轉(zhuǎn)換效果取得了顯著提升，但PPG特征在聲學(xué)信息上的缺失導(dǎo)致了在風(fēng)格和自然度方面的轉(zhuǎn)換效果并不盡如人意，尤其對于「歌唱」這種對聲學(xué)表現(xiàn)力極高要求的場景。

基于上述考量，本篇論文在端到端歌唱轉(zhuǎn)換模型的基礎(chǔ)上，一方面嘗試使用了梅爾譜、無監(jiān)督聲學(xué)表征和語音識別模型中間層表征等多種附加特征來補足歌唱轉(zhuǎn)換模型對聲學(xué)信息的需求，同時確保音色效果不受影響，最終通過對比明確了無監(jiān)督聲學(xué)表征的效果優(yōu)勢。

另一方面，針對轉(zhuǎn)換模型的編碼器輸出結(jié)果，團隊選擇增加一個對比預(yù)測編碼（Contrastive Predictive Coding，CPC）模塊以提高編碼結(jié)果的連貫性，增強模型對聲學(xué)信息的建模能力。通過與基礎(chǔ)模型的主觀評測對比，團隊提出的優(yōu)化方案獲得了明顯收益，主觀評測MOS分提升了0.18；同時該方法也被證明可以提升語音音色的歌唱能力，音準(zhǔn)客觀指標(biāo)提升了6%，達到較好的跨域轉(zhuǎn)換效果。

結(jié)合附加聲學(xué)特征和CPC模塊的歌唱轉(zhuǎn)換系統(tǒng)框架

如今語音轉(zhuǎn)換和歌唱轉(zhuǎn)換已在視頻和歌曲創(chuàng)作方面有相關(guān)的應(yīng)用，而論文提出的方法可以進一步提升直播場景以及視頻創(chuàng)作中的語音轉(zhuǎn)換和歌唱轉(zhuǎn)換的自然度，提升用戶體驗的同時降低創(chuàng)作門檻。

音頻理解方向——

結(jié)合對話上下文的流式 RNN-T 語音識別

Bring dialogue-context into RNN-T for streaming ASR

日常生活中，人們說出的語音內(nèi)容通常與所處的上下文（context）相關(guān)，而在對話任務(wù)中，憑借歷史輪次的對話文本所包含的與當(dāng)前句有關(guān)的信息，可以提升語音識別效果?；诖?，該論文提出將對話歷史作為 context 輸入到流式RNN-T模型中，總結(jié)出幾種不同的引入對話歷史的方法和訓(xùn)練策略，最終獲得了比單句 ASR 提升5%+的識別效果。

（a）基礎(chǔ) RNN-T 結(jié)構(gòu) （b）引入對話歷史到 predictor 的結(jié)構(gòu) （c）引入對話歷史到 encoder 的結(jié)構(gòu)

首先針對 RNN-T的結(jié)構(gòu)特點，論文提出將對話歷史更早地引入到 RNN-T 的 predictor（上圖(b)）和 encoder（上圖(c)），從而可以更充分地將對話歷史信息融入到 RNN-T 模型中。其次論文提出了兩種訓(xùn)練策略：有/無對話歷史輸入模型的聯(lián)合訓(xùn)練（joint training）和對話歷史添加隨機擾動（context perturbation）。Joint training 策略降低了模型在對話歷史缺失情況下的性能損失，而 context perturbation 則解決了對話歷史含有的識別錯誤對 context-aware ASR 模型的干擾。最后論文通過在神經(jīng)網(wǎng)絡(luò)語言模型（neural network language model，NNLM）中引入對話歷史，來獲得更好的語言模型，并用于 beam-search 解碼，進一步提升識別效果。

在 Switchboard-2000h 的公開數(shù)據(jù)中，采用論文方法引入對話歷史，將基于RNN-T的語音識別系統(tǒng)的性能在兩個測試集上相對提升了4.8% / 6.0%（無語言模型的情況下）和 10.6% / 7.8%（有語言模型的情況下）。

基于連續(xù)整合發(fā)放機制的融合說話人差異和語音內(nèi)容的字級別說話人轉(zhuǎn)換點檢測

Token-level Speaker Change Detection Using Speaker Difference and Speech
Content via Continuous Integrate-and-fire

說話人轉(zhuǎn)換點檢測（Speaker Change Detection, SCD）任務(wù)常常作為說話人分聚類子任務(wù)或者語音識別（Automatic Speech Recognition，ASR）模型的前端模塊被研究者人員所了解。目前該領(lǐng)域提出的大部分解決方案都只應(yīng)用了說話人特征的差異，而忽略了語音內(nèi)容可以在SCD任務(wù)中發(fā)揮作用這一方向。

基于此，火山語音團隊提出一種綜合考慮“說話人差異”與“語音內(nèi)容”兩條線索的說話人轉(zhuǎn)換點檢測方法，主要通過連續(xù)整合發(fā)放機制（Continuous Integrate-and-fire，CIF）來達成。目前該方式能夠獲取到字級別的說話人差異和語音內(nèi)容，在同樣的表示粒度上融合了兩部分線索之后，就可以在字的聲學(xué)邊界處成功進行說話人轉(zhuǎn)換點的判斷。

基于 CIF 的融合兩條線索的字級別說話人轉(zhuǎn)換點檢測方案

在真實錄制的會議數(shù)據(jù)集AISHELL-4上，基于該方法提出的方案相比于目前比較有競爭力的基線方法，獲得了絕對2.45%的等純度覆蓋度（Equal Purity Coverage，EPC）提升。

同時也通過實驗證明“說話人差異”與“語音內(nèi)容”都能作為說話人轉(zhuǎn)換點判斷的線索使用，而且同時使用兩條線索才是目前最優(yōu)的方案。此外，該方法所提出的在字符的聲學(xué)邊界處進行說話人轉(zhuǎn)換點檢測，相比于逐幀進行檢測更具優(yōu)勢，做到直接處理多說話人的語音并輸出字序列以及說話人轉(zhuǎn)換的位置。應(yīng)用場景上，適用于多人參與且快速交替對話的場景，例如會議等語音場景。

注意機制編解碼器端到端語音識別模型中基于上下文矢量學(xué)習(xí)的內(nèi)部語言模型估計

Internal Language Model Estimation Through Explicit Context Vector Learning for Attention-based Encoder-decoder ASR (https://arxiv.org/abs/2201.11627)

目前，端到端語音識別模型建模已經(jīng)成為語音界主流建模方法，其顯著優(yōu)點在于建模操作簡單、所建模型性能突出且致密，即無需對字典、聲學(xué)模型和語言模型單獨建模，而是將三者合而為一。換言之，端到端語音識別模型既具有聲學(xué)模型功能，又具有語言模型功能。

但這種致密性在一定條件下會給模型的適用性和靈活性帶來不利影響。譬如端到端識別模型和語言模型之間的融合不再滿足傳統(tǒng)的貝葉斯后驗概率原理，而是一個后驗概率和條件概率的相加。當(dāng)具備這樣的條件，如更多的文本語料以及將模型自適應(yīng)到某一特定領(lǐng)域識別的時候，傳統(tǒng)的端到端識別模型和語言模型的融合只能帶來次優(yōu)的結(jié)果，使模型優(yōu)越性不能得到充分發(fā)揮。

對于此，論文基于貝葉斯后驗概率原理，將端到端估計的后驗概率拆解成似然概率和“內(nèi)部語言模型”概率乘積形式，目標(biāo)是更好地估計“內(nèi)部語言模型”，從而讓模型更高效地與外部語言模型融合，進而提出兩個“內(nèi)部語言模型”的估計方法，分別是一次性靜態(tài)上下文矢量學(xué)習(xí)方法以及基于輕量級神經(jīng)網(wǎng)絡(luò)動態(tài)上下文矢量學(xué)習(xí)方法，兩種估計方法無需任何額外假設(shè)，在多種語料以及多種環(huán)境下驗證了提出方法的有效性。在跨域條件下相對傳統(tǒng)的語言模型融合方法，我們提出的方法能取得19.05% 相對正向收益；在域內(nèi)條件下，新方法也能取得7.4%的正向收益。

使用原始序列流利度特征提升口語流利度打分性能

Using Fluency Representation Learned from Sequential Raw Features for Improving Non-native Fluency Scoring

對于英語口語學(xué)習(xí)者而言，除了發(fā)音標(biāo)準(zhǔn)之外，流利程度也可以在某種程度上反映學(xué)習(xí)者的英語水平。作為評價學(xué)習(xí)者英語能力的重要維度之一，口語流利度主要反映了學(xué)習(xí)者發(fā)音語速的快慢以及是否出現(xiàn)異常停頓等發(fā)音現(xiàn)象。

對此火山語音團隊提出了一種基于原始序列特征的英語口語流利度建模方法，利用原始序列特征來替換傳統(tǒng)的手工設(shè)計特征，如語速，停頓次數(shù)等，即在音素層級提取出音素時長以及聲學(xué)特征并對其進行建模；此外還將靜音作為一種特殊音素，用于表征詞和詞之間的停頓現(xiàn)象。

a. 原始序列特征提取 b. 流利度建模

這種基于原始特征序列建模方法超過了領(lǐng)域內(nèi)其他方案, 在機器預(yù)測結(jié)果和人類專家打分之間相關(guān)性達了0.817，接近專家和專家之間的相關(guān)性 0.831。該方案將原始時長、停頓和聲學(xué)信息融合到一個序列建?？蚣苤?，讓機器自動去學(xué)習(xí)和任務(wù)相關(guān)的流利度特征，更好用于流利度打分。應(yīng)用場景方面，該方法可被應(yīng)用于有流利度自動評估的需求場景中，例如口語考試以及各種在線口語練習(xí)等。

基于多任務(wù)和遷移學(xué)習(xí)方法的MOS自動打分

A Multi-Task and Transfer Learning based Approach for MOS Prediction

語音質(zhì)量是反映語音合成(Text-To-Speech, TTS)、語音轉(zhuǎn)換(Voice Conversion, VC)等系統(tǒng)性能的主要指標(biāo)；而MOS(Mean Opinion Score)則是標(biāo)注人員對合成音頻進行聽力測試后，針對該音頻的語音質(zhì)量進行的主觀評價分數(shù)。在Interspeech 2022語音質(zhì)量打分挑戰(zhàn)(VoiceMOS)中，火山語音團隊在主領(lǐng)域賽道斬獲第四名。

針對兩種領(lǐng)域賽道，火山語音團隊提出了一種多任務(wù)學(xué)習(xí)方法，利用較多的主領(lǐng)域數(shù)據(jù)來協(xié)助子領(lǐng)域部分模塊訓(xùn)練，同時將自動語音識別(Automatic Speech Recognition, ASR)的知識遷移到MOS打分任務(wù)。在wav2vec2.0上構(gòu)建ASR系統(tǒng)，然后將系統(tǒng)wav2vec2.0部分作為MOS打分模型的編碼器，通過兩種不同領(lǐng)域的解碼器來對不同領(lǐng)域的數(shù)據(jù)進行MOS評分。

多任務(wù)的MOS打分結(jié)構(gòu)

針對不同語音轉(zhuǎn)換(VC)系統(tǒng)的合成音頻打分任務(wù)，上述方案在主領(lǐng)域測試集上，SRCC指標(biāo)和該比賽中最好的方案相差0.3%；在子領(lǐng)域測試集上，SRCC指標(biāo)與該比賽中最好的方案相差0.2%。MOS自動打分的目標(biāo)是利用機器對合成音頻自動打分來替換掉標(biāo)注人員的人工評分，節(jié)約大量人力物力，達到省時省錢的效果，這對于推進語音合成(TTS)和語音轉(zhuǎn)換(VC)的技術(shù)發(fā)展具有重要意義。

關(guān)于火山語音團隊

火山語音，字節(jié)跳動 AI Lab Speech & Audio 智能語音與音頻團隊。一直以來面向字節(jié)跳動內(nèi)部各業(yè)務(wù)線以及火山引擎ToB行業(yè)與創(chuàng)新場景，提供全球領(lǐng)先的語音AI技術(shù)能力以及卓越的全棧語音產(chǎn)品解決方案。自 2017 年成立以來，團隊專注研發(fā)行業(yè)領(lǐng)先的 AI 智能語音技術(shù)，不斷探索AI 與業(yè)務(wù)場景的高效結(jié)合，以實現(xiàn)更大的用戶價值。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

火山語音7篇論文入選國際頂會Interspeech