多篇論文入選ICASSP 2023,火山語音有效解決多類實踐問題

近日由IEEE主辦、被譽為世界范圍內(nèi)最大規(guī)模、也是最全面的信號處理及其應(yīng)用方面的頂級學術(shù)會議ICASSP2023于希臘召開,該會議具有權(quán)威、廣泛的學界以及工業(yè)界影響力,備受AI領(lǐng)域多方關(guān)注。會上火山語音多篇論文被接收并發(fā)表,內(nèi)容涵蓋眾多前沿領(lǐng)域的技術(shù)創(chuàng)新,并有效解決了字音轉(zhuǎn)換、語種混淆等實踐問題。

LiteG2P:一種快速、輕量級、高精度的字音轉(zhuǎn)換模型(LiteG2P: A Fast, Light and High Accuracy Model for Grapheme-to-Phoneme Conversion )

研究背景:眾所周知,字音轉(zhuǎn)換(G2P)旨在將單詞轉(zhuǎn)換為其對應(yīng)的發(fā)音表示,通常被廣泛應(yīng)用于語音識別(ASR)及語音合成(TTS)等語音任務(wù)中,但現(xiàn)有方法中基于規(guī)則的方法預(yù)測精度往往較差,還需要大量專家經(jīng)驗的輔助;其中基于數(shù)據(jù)驅(qū)動的深度模型方案雖然精度高,但模型尺寸往往較大且計算效率偏低。對此,火山語音團隊提出了一種高效快速、輕量級、高精度的字音轉(zhuǎn)換模型,可進一步適用于多類端側(cè)設(shè)備。

方法分析:LiteG2P結(jié)合數(shù)據(jù)驅(qū)動和知識驅(qū)動的優(yōu)勢,得以在控制模型尺寸較小的同時取得較高精度,模型層面上不同于傳統(tǒng)的基于注意力機制的序列到序列預(yù)測模型,而是采用CTC損失進行字音的對齊,同時使得模型具備了并行預(yù)測音素序列的優(yōu)勢;除此之外,火山語音團隊還額外引入了語言知識詞典,用以指導(dǎo)字母擴展長度以及縮小目標預(yù)測音素集合。

The architecture of LiteG2P

效果呈現(xiàn):最終LiteG2P模型相較于主流基線模型具有高精度、并行化、輕量級、快速等優(yōu)勢,與主流基線模型在準確率相當?shù)耐瑫r速度提升30倍以上,參數(shù)量小10倍以上;可一套模型架構(gòu)同時部署在端云多種類型設(shè)備上,在端側(cè)設(shè)備上單個單詞的推理速度預(yù)測為5ms以內(nèi),云端設(shè)備2ms以內(nèi)。

基于雙向注意力機制的語音文本的多模態(tài)訓練提升語音識別性能(SPEECH-TEXT BASED MULTI-MODAL TRAINING WITH BIDIRECTIONAL ATTENTION FOR IMPROVED SPEECH RECOGNITION)

研究背景:如今,盡管端對端模型簡化了訓練流程,將聲學模型、詞典、語言模型合并在一個統(tǒng)一的模型中,但卻非常依賴大量的帶標簽訓練數(shù)據(jù)。相比于帶標簽數(shù)據(jù),不成對的數(shù)據(jù),例如純音頻或者純文本數(shù)據(jù)更容易獲取。為了緩解數(shù)據(jù)的稀疏性問題,往往會嘗試將不成對的數(shù)據(jù)參與到訓練中,有利于在低資源場景下訓練出性能良好的端到端語音識別模型。本篇論文正是使用純文本數(shù)據(jù)參與端到端模型解碼器的訓練,使解碼器學習到更多的語義信息,從而改善模型性能。此過程需要使用文本編碼器去擬合音頻編碼器的輸出,從而解決解碼器訓練依賴于編碼器的問題。由于音頻和文本長度不一致,論文提出使用基于雙向注意力機制的語音文本的多模態(tài)訓練方式,自動學習語音和文本之間的對齊關(guān)系。

方法分析:具體方式,語音編碼器輸出與文本編碼器輸出經(jīng)過雙向注意力計算后,語音編碼器輸出長度會縮短到文本長度,文本編碼器輸出會拓展到音頻長度。雙向注意力機制的輸出會使用Cosine distance loss、MLM loss、Grapheme CTC loss來進行訓練,在訓練過程中模型會學習到語音和文本之間的對齊,并且語音編碼器和文本編碼器能學習具備一致性的特征。

基于語音文本的雙向注意機制多模態(tài)學習框架

如圖所示,虛線框內(nèi)是訓練中增加的模塊和損失函數(shù),在解碼時不會參與計算,所以不影響解碼時期速度。Grapheme CTC loss 的作用是對經(jīng)過重采樣的語音嵌入和文本嵌入進行 Grapheme 的分類,MLM Loss 作用則是使文本編碼器能夠?qū)W習語義信息,Cosine Embedding loss 是為了拉近語音嵌入與文本嵌入之間的距離。這三個損失函數(shù)都是建立在雙向注意力機制計算出來的、經(jīng)過對齊的語音嵌入和文本嵌入上,從而隱性讓嵌入之間獲得對齊。經(jīng)過語音和文本多模態(tài)訓練后,文本編碼器可以生成接近語音編碼器輸出的特征,火山語音團隊使用純文本數(shù)據(jù)送進Text encoder隨后重復(fù)兩次,減小語音和文本之間長度差異,用于解碼器的訓練,使其學習更多的語義信息。

效果呈現(xiàn):經(jīng)過本論文提出的語音和文本多模態(tài)訓練方式,在Librispeech公共數(shù)據(jù)集上獲得性能提升,得出僅使用帶標簽數(shù)據(jù)訓練時,可以實現(xiàn)達6.15%的相對詞錯誤率提升;當使用更多的非配對文本數(shù)據(jù)時,相對詞錯誤率提升可以達到9.23%。

利用字符級別語種分割減少跨語種語音識別中的語種混淆(Reducing Language Confusion for Code-switching Speech Recognition with Token-level Language Diarization)

研究背景:通常,語種轉(zhuǎn)換發(fā)生在語音信號的語種變換時會導(dǎo)致跨語種語音識別的語種混淆問題。對此,火山語音團隊從融合和解耦語種信息兩個角度解決語種混淆問題,從而提升跨語種語音識別的性能。

方法分析:具體來說對于融合語種信息的過程,團隊通過使用一個基于序列對序列的語種分割的副任務(wù)來生成字符級別的語種后驗概率,并使用語種后驗概率來動態(tài)調(diào)整跨語種語音識別模型;相反解耦的過程則是通過對抗減少不同語種間的差別,從而將不同語種歸一化。兩種不同方法實現(xiàn)構(gòu)架如下圖所示:

The hybrid CTC/attention model (a) incorporating language information using language posterior bias, and (b) disentangling language via adversarial learning

效果呈現(xiàn):我們將提出的方法在SEAME數(shù)據(jù)集上進行了驗證。和基線模型相比,結(jié)合了語種分割任務(wù)的多任務(wù)訓練和團隊提出的語種后驗概率偏置方法均取得了性能提升。“與此同時,將融合和解耦語種信息的兩種方法進行了比較,我們發(fā)現(xiàn)比較結(jié)果表面融合語種信息,可以更有效地提升跨語種的語音識別性能。”團隊強調(diào)。

一種無需ASR的基于自監(jiān)督學習的流利度評分方法 (An ASR-free Fluency Scoring Approach with Self-supervised Learning )

研究背景:口語流利度,即發(fā)音語速快慢以及是否出現(xiàn)異常停頓,是反映對應(yīng)習得語言熟練程度的重要指標之一。此前的大多數(shù)判斷方法往往需要借助ASR系統(tǒng)獲得語音單元(例如單詞、音節(jié)、音素等)的時間對齊信息,基于此來進一步計算或表示語音流利度的特征,但目標語言的ASR系統(tǒng)并非總能輕易獲得以上信息,此外在過程中還會產(chǎn)生不可避免的識別錯誤。對此火山語音團隊提出了一種嶄新且無需ASR系統(tǒng)的、基于自監(jiān)督學習的流利度評分方法,也就是利用自監(jiān)督預(yù)訓練語音模型Wav2vec 2.0 產(chǎn)生的幀級語音表征,以及經(jīng)過聚類算法生成的幀級偽標簽,作為后續(xù)序列模型的輸入,最終完成流利度分數(shù)的預(yù)測。

The proposed ASR-free fluency scoring framework

效果呈現(xiàn):后續(xù)實踐結(jié)果表示,該方案在機器預(yù)測結(jié)果和人類專家打分之間的相關(guān)性達到了0.797, 明顯好于之前依賴ASR系統(tǒng)的方法所達到的0.759。方案利用了自監(jiān)督語音特征強大的音素鑒別能力,使用幀級聚類偽標簽序列來模擬基于ASR的音素時間對齊,不僅移除了對ASR的依賴而且展現(xiàn)了更可靠的評分性能。

利用音素級別的語言-聲學相似度進行句子級別的發(fā)音評分 (Leveraging Phone-level Linguistic-Acoustic Similarity for Utterance-level Pronunciation Scoring)

研究背景:所謂自動發(fā)音評分系統(tǒng)往往需要度量學習者實際發(fā)音和參考發(fā)音的偏離程度來估計整體的發(fā)音準確度,但以往方法大多數(shù)是通過加和或者連接聲學嵌入和音素嵌入等這些隱式方式來實現(xiàn)的。對此,火山語音團隊提出了利用音素級別的語言-聲學相似度進行句子級別的發(fā)音評分方法, 相比于隱式的度量方式,通過聲學嵌入和音素嵌入的余弦相似度去顯式描述實際發(fā)音和參考發(fā)音的偏離程度的方法效果更好,并將此作為額外特征與原有的兩種嵌入序列一起融入后續(xù)的序列模型,來完成最終發(fā)音準確度的評分。

The hierarchical architecture of the pronunciation scoring network, where phone-level features can be calculated by using add_phone, concat_phone or our proposed method

效果呈現(xiàn):這種顯式的度量方法在內(nèi)部與公開數(shù)據(jù)集上被證實明顯優(yōu)于以往的加和與連接的隱式度量方法,也就是說基于音素級別GOP的預(yù)訓練在所有的度量方式上均取得了較大提升;結(jié)合語言-聲學相似度的顯示度量和GOP預(yù)訓練的打分系統(tǒng)取得了最佳評分性能,其機器預(yù)測結(jié)果和人類專家打分之間的相關(guān)性達到了0.858,顯著高于論文報告的多個基線系統(tǒng)。

基于內(nèi)部語言模型估計的跨域自適應(yīng)的語言模型融合(Internal Language Model Estimation based Adaptive Language Model Fusion for Domain Adaptation)

研究背景:只要在通用領(lǐng)域或特定目標領(lǐng)域有足夠多的文本,內(nèi)部語言模型融合就能顯著改善端到端語音識別性能。但當一個通用領(lǐng)域商業(yè)語音識別系統(tǒng)部署后,由于數(shù)據(jù)訪問受到限制,用戶往往只具有與自己相關(guān)的特定目標領(lǐng)域文本數(shù)據(jù),也就是說由于數(shù)據(jù)保密等原因,用戶不能獲取原通用領(lǐng)域文本數(shù)據(jù),因此通過內(nèi)部語言融合的自動語音識別系統(tǒng)只能在用戶特定的領(lǐng)域獲取性能改善,而在通用領(lǐng)域性能上則會造成損傷、顯著降低?;谏鲜鲈?,論文提出一種在用戶只具有特定目標領(lǐng)域文本數(shù)據(jù)前提下,相對傳統(tǒng)的內(nèi)部語言模型估計融合方法,實現(xiàn)在特定領(lǐng)域獲取性能顯著改善,而在通用領(lǐng)域仍然能取得較好性能的自適應(yīng)性語言模型融合方法。

方法分析:該方法基于內(nèi)部語言模型估計,前提是當一個語音識別系統(tǒng)交付上線后,提供用戶訪問的子系統(tǒng)有端到端語音識別系統(tǒng)以及內(nèi)部語言模型。用戶只需關(guān)注自己特定領(lǐng)域的語言模型,就能獲取在特定領(lǐng)域性能明顯改善,并且在通用領(lǐng)域性能達到很小損失的結(jié)果。具體做法,識別系統(tǒng)在做語言模型融合的時候,比較基于每個子詞在內(nèi)部語言模型和用戶特定語言模型的得分,根據(jù)大小來決定是否做內(nèi)部語言模型融合,實現(xiàn)所謂的自適應(yīng)融合功能。

效果呈現(xiàn):為驗證該方法的有效性,火山語音團隊以10萬小時訓練得到的中文語音識別系統(tǒng)為通用領(lǐng)域識別系統(tǒng),另外將醫(yī)療和小說搜索定義為特定領(lǐng)域,結(jié)果證明可以在特定領(lǐng)域取得18.6% 相對字錯誤率降低,而在通用領(lǐng)域只有2.4%的相對字錯誤率的升高。

一直以來,火山語音團隊面向字節(jié)跳動內(nèi)部各業(yè)務(wù)線,提供優(yōu)質(zhì)的語音AI技術(shù)能力以及全棧語音產(chǎn)品解決方案,并通過火山引擎對外提供服務(wù)。自 2017 年成立以來,團隊專注研發(fā)行業(yè)領(lǐng)先的 AI 智能語音技術(shù),不斷探索AI 與業(yè)務(wù)場景的高效結(jié)合,以實現(xiàn)更大的用戶價值。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )