黄片一级亚洲欧美日韩,中文字幕大香视频蕉无码...,香蕉eeww99亚洲深夜日综

引言

語音合成(Text-to-Speech, TTS)是指文字轉(zhuǎn)語音相關(guān)技術(shù)。隨著人工智能技術(shù)的發(fā)展，TTS的聲學(xué)模型和聲碼器模型效果都在不斷提高，單一語言在數(shù)據(jù)量足夠的情況下已經(jīng)可以合成較高品質(zhì)的語音。

研究人員們也逐漸開始關(guān)注跨語言語音合成領(lǐng)域，本文介紹網(wǎng)易游戲廣州AI Lab在Interspeech 2022中發(fā)表的一篇跨語言語音合成論文《Exploring Timbre Disentanglement in Non-Autoregressive Cross-Lingual Text-to-Speech》，該論文提出了音素長度調(diào)節(jié)模塊來解決IPA序列與單語言對齊系統(tǒng)對齊結(jié)果的不匹配問題，同時使用了基于Fastpitch的非自回歸聲學(xué)模型，實驗結(jié)果表明了訓(xùn)練集說話人數(shù)量的增加、音高和能量的顯示建模(主要是音高)都有助于非自回歸跨語言TTS中說話人音色和語言的信息解耦。

論文標(biāo)題：Exploring Timbre Disentanglement in Non-Autoregressive Cross-Lingual Text-to-Speech

論文鏈接：

https://arxiv.org/abs/2110.07192

演示網(wǎng)址：

https://hyzhan.github.io/NAC-TTS/

論文相關(guān)背景

目前跨語言TTS的主要實現(xiàn)方法有：跨語言中間特征、跨語言文本表示、對抗式訓(xùn)練、發(fā)音單元設(shè)計、跨語言文本處理模型等。更多相關(guān)背景知識及發(fā)展概述可閱讀：《跨語言語音合成方法的發(fā)展趨勢與方向》，本文不再贅述。

近年來，F(xiàn)astSpeech、FastPitch、FastSpeech2等非自回歸聲學(xué)模型除了在語音生成速度上表現(xiàn)出巨大優(yōu)勢，生成語音自然程度也越來越高，相關(guān)論文作者試圖在跨語言語音合成系統(tǒng)中使用非自回歸聲學(xué)模型，但是由于典型的非自回歸聲學(xué)模型需要加入顯式的音素發(fā)音時長進(jìn)行模型訓(xùn)練，這會導(dǎo)致模型增加使用IPA這類跨語言文本表示的難度(因為這樣會需要有一個跨語言的文本語音對齊系統(tǒng))。

該論文提出了音素長度調(diào)節(jié)模塊來避免這個問題，同時還在FastPitch的基礎(chǔ)上加入了energy predictor，評估了訓(xùn)練數(shù)據(jù)集說話人數(shù)量、不同模塊及文本表示、是否使用對抗訓(xùn)練對說話人音色解耦的影響。

方法概述

首先基于開源字典[1]構(gòu)造一個自定義的字典，將語言相關(guān)的音素轉(zhuǎn)換(LDP)為IPA表示，其中語言相關(guān)的音素集在中文中為拼音，在英文中為Aprabet表示，將IPA音素序列及其對應(yīng)LDP的音素長度輸入到上圖的Phoneme Length Regulator，即可實現(xiàn)輸入表示序列與單語言對齊系統(tǒng)得到的發(fā)音時長相匹配，進(jìn)而完成聲學(xué)模型的訓(xùn)練。

以下圖中的“Steins Gate的選擇”為例，“Steins Gate”對應(yīng)的Aprabet表示為：S T AY1 N Z，“的選擇”對應(yīng)的拼音為：d e0 x uan3 z e2;根據(jù)前面構(gòu)造的自定義字典將語言相關(guān)的音素(LDP)轉(zhuǎn)換為對應(yīng)的IPA字符及其IPA字符數(shù)量;通過embedding的方式將IPA字符映射成對應(yīng)的IPA embedding序列，并基于LDP對應(yīng)的IPA字符數(shù)量對IPA embedding序列進(jìn)行聚合得到，LDP級別的embedding序列。

各個序列的長度約束關(guān)系見參考論文2.2節(jié)，總的來說就是用變長的phoneme length來控制需要聚合的IPA embedding序列數(shù)量，以此來表示對應(yīng)的LDP embedding，從而讓IPA序列可以使用單語言對齊的音素時長信息，完成整個模型的訓(xùn)練。

聲學(xué)模型框架上是基于Fastpitch的聲學(xué)模型加入了energy predictor模塊，再結(jié)合了論文提出的Phoneme Length Regulator模塊。還有一個區(qū)別就是論文的 speaker embedding是加在encoder output的，而不是常見的encoder input，以及在預(yù)測variance predictor的時候?qū)斎脒M(jìn)行了detach操作來避免時長、音高、能量預(yù)測對encoder的潛在影響。

　　實驗

論文實驗主要涉及中文和英文，中文數(shù)據(jù)集為開源的標(biāo)貝女聲及內(nèi)部數(shù)據(jù)集，英文數(shù)據(jù)集為開源的 LJSpeech 及 CMU arctic 數(shù)據(jù)集。作者構(gòu)造了三種性別平衡及語言平衡的數(shù)據(jù)集進(jìn)行實驗，表 1 描述了各個子數(shù)據(jù)集的構(gòu)成情況：d1：中文男聲 5 小時，英文女聲 5 小時;d2：中文女聲 1 小時，英文男聲 1 小時;d3：中文男女聲各 1 小時，英文男女聲各 1 小時，通過逐步增加訓(xùn)練集規(guī)模來進(jìn)行相關(guān)實驗，評測階段僅使用 d1 中的 LJSpeech 的英文女聲及內(nèi)部數(shù)據(jù)集的中文男聲進(jìn)行評測。

4.1說話人數(shù)量的影響

論文首先研究了訓(xùn)練集中包含不同數(shù)量的說話人時，說話人和語言信息之間的糾纏情況。其中d1有2個說話人，d1+d2有4個說話人，d1+d2+d3有8個說話人，均為性別及語言平衡的數(shù)據(jù)集。表2評估了d1數(shù)據(jù)集中文男聲在純中文、純英文和中英混合句子的語音自然程度及相似度。

可以發(fā)現(xiàn)，d1訓(xùn)練集中，中文男聲在中文語音上表現(xiàn)最好，中英混合語音表現(xiàn)次之，純英文表現(xiàn)最差，尤其是純英文的相似度指標(biāo)上。這意味著訓(xùn)練集中一種語言只有一個說話人，對提升目標(biāo)說話人的跨語言發(fā)音能力幫助有限;同時作者也推測雖然IPA符號可以用在所有語言上，但是依舊存在某種語音有一些獨有的IPA符號的情況，從而在這種一種語言只有一個說話人的訓(xùn)練集上導(dǎo)致了說話人音色信息和語言信息的混淆。

另一方面，隨著訓(xùn)練集兩種語言說話人數(shù)量的增加，在跨語言語音場景下，中文男聲說話人的Naturalness及Similarity主觀評分均出現(xiàn)了較明顯的提高，Naturalness主觀評分的方差也逐漸在減小。這說明了訓(xùn)練集中說話人的多樣性不僅有利于說話人音色信息和語言信息的解耦，還有利于提高非自回歸跨語言TTS模型的穩(wěn)定性。因此，后續(xù)實驗均基于d1+d2+d3的數(shù)據(jù)集進(jìn)行。

4.2對比實驗

論文選擇了3個對比模型，一個是基于IPA表示Tacotron聲學(xué)模型框架的Tacotron-based，二是基于LDP表示和GRL(gradient reversal layer)Fastspeech聲學(xué)模型框架的FastSpeech-LDP，三是將FastSpeech-LDP中的LDP表示替換為本文中的IPA表示加Phoneme Length Regulator模塊的方法，最后則是本文提出的模型框架。

總的來說，在本實驗中幾個非自回歸模型的表基本都好于Tacotron-based;對比FastSpeech-LDP和FastSpeech-IPA中英說話人在三種類型文本的Naturalness和Similarity指標(biāo)，兩者的Naturalness基本接近，不過FastSpeech-IPA在大部分情況取得了更高的Similarity主觀評分，這表明IPA表示加上Phoneme Length Regulator模塊的實現(xiàn)可以幫助模型學(xué)習(xí)不同語言的發(fā)音。

然而，本文提出的模型在跨語言場景的表現(xiàn)明顯優(yōu)于FastSpeech-LDP及FastSpeech-IPA，這說明使用variance adaptors有助于提高跨語言語音合成模型的性能表現(xiàn)，雖然variance adaptors本身是作為解決語音合成中的“一對多”問題提出的，但是實驗表明了對語音的韻律特征進(jìn)行顯示建模有助于說話人和語言信息的解耦。

4.3消融實驗

論文做了三組消融實驗來評估 GRL 梯度反傳層、pitch predictor、energy predictor 對 proposed model 的影響。實驗表明，GRL 的引入并沒有帶來收益，一方面可能是 IPA 表示加上說話人多樣性的引入已經(jīng)能較好地對說話人音色信息和語言信息進(jìn)行解耦，另一方面可能是因為 GRL 中的超參數(shù)較為敏感，暫不適用于本文提出的模型。去掉 pitch predictor 和 energy predictor 導(dǎo)致了語音自然程度和相似度有較明顯的惡化(尤其是 pitch predictor)，這表明了在 variance predictor 的有效性。

總結(jié)

論文提出了Phoneme Length Regulator模塊，使得非自回歸跨語言TTS模型中的IPA表示與單語言強(qiáng)制對齊信息可以同時使用;構(gòu)造了一個不需要對抗式訓(xùn)練、基于IPA表示的Fastpitch-based模型，取得了不錯的語音自然程度及說話人相似度。論文實驗表明說話人多樣性、IPA表示、variance adaptors都能夠幫助非自回歸跨語言TTS模型解耦說話人和語言信息。

本文通過引入一個較為簡單的方法使其可以利用單語言強(qiáng)制對齊信息和IPA表示，再加上說話人多樣性和variance adaptors引入，已經(jīng)可以在不使用常見對抗式訓(xùn)練的方式在跨語言語句上取得不錯的語音自然程度及說話人相似度。另外，第一版論文和演示網(wǎng)頁還展示了對中式英文發(fā)音可控性的潛力，如果有PLR模塊的示例代碼會更好一些，不過本身思想也不算復(fù)雜，實現(xiàn)難度不大，從實驗結(jié)果來看，總體上是一個邏輯通順、簡單又有效的解決方案。(作者：音月)

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

Interspeech 2022 | 探索非自回歸跨語言語音合成中的音色解耦問題