數(shù)據(jù)堂:如何滿足個性化TTS數(shù)據(jù)制作需求?

1.概述

TTS(Text To Speech)又稱語音合成,是一種將文本轉(zhuǎn)化成相應(yīng)語音的技術(shù)。TTS技術(shù)從誕生到現(xiàn)在已經(jīng)有200多年的歷史。在1779年,德國科學(xué)家Kratzenstein首次開發(fā)出五個長元音的人類聲道模型,并于1791年加入了舌頭和嘴唇模型,實現(xiàn)元音輔音的聲道模型。隨后TTS技術(shù)陷入了漫長的沉寂期,直到20世紀30年代和70年代,兩大技術(shù)的突破大大推動了TTS技術(shù)的發(fā)展,1939年,貝爾實驗室制作出了第一個語音合成器The Voder,1979年MIT開發(fā)出了著名的語音合成系統(tǒng)MITalk。1992年,PSOLA(基因同步疊加技術(shù))的提出使合成的語音更加自然。21世紀以來,基于HMM的語音合成系統(tǒng)和基于神經(jīng)網(wǎng)絡(luò)的語音合成系統(tǒng)逐漸成為研究主流,并取得良好的效果。目前,TTS已廣泛應(yīng)用到日常的生活當中,如語音助手、智能音箱、地圖導(dǎo)航等。

2.TTS系統(tǒng)現(xiàn)狀

對于早期的語音合成系統(tǒng)來說,只要發(fā)音清晰,內(nèi)容流暢并完全可懂就可以算是一個優(yōu)秀的系統(tǒng)了。但是隨著時代發(fā)展,技術(shù)的進步以及應(yīng)用場景的細化,這類系統(tǒng)已經(jīng)遠遠不能滿足人們的需求。目前業(yè)界的TTS系統(tǒng)主要分為通用性TTS,個性化TTS,情感TTS三類。

通用性TTS:這類TTS系統(tǒng)基本已經(jīng)達到可以商用的地步了,但是由于依舊存在機械感,不能模擬自然人聲的原因,如果用戶預(yù)期較高的話很難滿足用戶需求。

個性化TTS:在特定的應(yīng)用場景下這類TTS系統(tǒng)基本能滿足商用,但是效果沒有通用TTS好。目前以科大訊飛為代表的人工智能企業(yè)具備成熟商用所需的技術(shù)能力。

情感TTS:隨著TTS技術(shù)的發(fā)展和數(shù)據(jù)量逐漸增多,業(yè)內(nèi)研究機構(gòu)逐步開啟了情感TTS合成技術(shù)研究。情感TTS系統(tǒng)的開發(fā)更加側(cè)重于自然語言處理方面,如“情感意圖識別”、“情感特征挖掘”等技術(shù)。情感TTS比傳統(tǒng)的TTS節(jié)奏性更強,自然性也更好,但就應(yīng)用落地來說還處于初步階段。

無論對于哪種TTS系統(tǒng)來說,在技術(shù)相差不大的情況下,聲優(yōu)質(zhì)量和數(shù)據(jù)量尤為重要。目前對于TTS系統(tǒng)來說問題之一是數(shù)據(jù)缺乏,尤其是個性化TTS對于數(shù)據(jù)量的要求更大,另一方面數(shù)據(jù)制作的周期長和成本高,都對TTS數(shù)據(jù)生產(chǎn)提出了更高的要求。下文著重在TTS數(shù)據(jù)制作方面做出介紹。

3.TTS數(shù)據(jù)制作流程

3.1語料制作

語料制作環(huán)節(jié)需遵循覆蓋基本音素組合的原則,然后根據(jù)具體使用場景決定語料領(lǐng)域是否要有所偏重。語料的制作需要考慮語料來源、語料長度和語料的量級。語料來源可通過爬取、造句等方式生成,之后經(jīng)過人工校對(去除拗口、有語病的語料),形成最終語料。語料的長度不同任務(wù)要求不同,以中文TTS數(shù)據(jù)為例,單句的長度在12-15字為宜。語料的數(shù)量要求主要取決于TTS系統(tǒng)的級別,簡易的TTS系統(tǒng)要求數(shù)據(jù)量在3000-5000句之間,一般程度的系統(tǒng)需求數(shù)據(jù)量在15000句,更為高級的最低要求數(shù)據(jù)量就在20000句以上。

3.2錄音人挑選

傳統(tǒng)TTS對錄音人要求較高,目前隨著個性化TTS系統(tǒng)的需求量增大,TTS數(shù)據(jù)制作過程中錄音人為播音專業(yè)學(xué)生的最低要求也有所放寬,甚至普通人也能參與到數(shù)據(jù)制作中。錄音人的選取首先要基于TTS系統(tǒng)應(yīng)用語種(英文、普通話、方言等)、朗讀風(fēng)格(播音、正常說話、童音、二次元等)和錄音人性別年齡分布劃定錄音人范圍。錄音人范圍確定后需要進行錄音人的篩選工作,首先需要搜集錄音人信息及錄音小樣,經(jīng)過第一輪篩選挑出3-5人,然后在錄音棚實際錄音50-100句/人,最終經(jīng)過第二輪綜合篩選確定錄音人,整個過程至少需要3-4周。

3.3錄音環(huán)境

TTS數(shù)據(jù)對于錄制環(huán)境要求嚴格,需要在專業(yè)錄音棚中錄制并嚴格控制噪聲水平,最大限度還原發(fā)音人發(fā)音。錄音過程中需要有專業(yè)錄音師和監(jiān)聽人在場,及時矯正錄音過程中的錯誤(如:口水聲、噴麥、咂嘴等錄音人引起噪音,發(fā)音錯誤,突發(fā)噪音等)。

3.4正式錄音

正式錄音開始前,監(jiān)聽人員需要跟錄音人磨合語速風(fēng)格,然后選擇2-3句錄音作為基準參考發(fā)音,由現(xiàn)場監(jiān)聽人員把控,每錄20-30句向錄音人播放基準參考發(fā)音。當錄音人出現(xiàn)音質(zhì)變化時,現(xiàn)場監(jiān)聽人員具有一票否決權(quán),并可隨時決定是夠繼續(xù)錄音。另外,為保證錄音質(zhì)量,原則上錄音人在錄音棚時間不能超過4小時。

3.5數(shù)據(jù)標注

3.5.1文本標注

文字標注內(nèi)容根據(jù)發(fā)音人實際發(fā)音做一致性標注,例如“1990-2-24”需要根據(jù)實際錄音轉(zhuǎn)寫成“一九九零年二月二十四日”。

3.5.2音素標注

中文使用聲母韻母系統(tǒng)標注,西文使用IPA進行標注。以中文為例,標注效果為:

原句:腦袋大就聰明嗎?

音素:nao3 dai4 da4 jiu4 cong1 ming2 ma5?

音素標注會遇到錯讀、輕聲和連續(xù)變調(diào)等典型問題,可基于下述方案解決:

讀錯字:標注時按照實際發(fā)音標注;

輕 聲:標注時按照實際發(fā)音標注;

連續(xù)變調(diào):遵從普通話變調(diào)規(guī)則,一不變調(diào)、三三變調(diào)

3.5.3音素切分

按照實際語音情況,標注出每個音素的起止時間點,此處對于標注員要求較高。

3.5.4詞性標注

標記每個字所屬詞的詞性,對于中文來說基本有39中詞性,常見的有:a(形容詞)、m(數(shù)詞)、n(名詞)、ns(地名)、p(介詞)、j(簡稱略語)、d(副詞)等,標注效果如下:

Eg:美國/ns 對/p 港/j 澳/j 政策/n 不/d 會/v 改變/v 。

3.5.5韻律標注

韻律又稱超音段特征、節(jié)律或音律,包括節(jié)奏、強調(diào)、語調(diào)等。因為言語信息在時間線上是先后依次出現(xiàn)的,但實際上并不是線性平均分配,而是以層級形式分布的,所以韻律標注一般包含四級,分別為:韻律詞、弱韻律短語、強韻律短語、語調(diào)短語。

韻律詞:是韻律層級結(jié)構(gòu)中的基本單位,指口語中緊密連在一起發(fā)音的幾個音節(jié)的組合,單音節(jié)詞往往會跟相鄰的雙音節(jié)詞共同構(gòu)成一個韻律詞(如:“引起了”中的“了”,通常與前面的雙音節(jié)詞“引起”共同組成一個韻律詞),包含超過三個音節(jié)的詞,往往會被分解成多個雙/三音節(jié)韻律詞。不同韻律詞邊界不停頓或聽感不可察覺停頓。

弱韻律短語:由一個或一個以上韻律詞構(gòu)成,每個弱韻律短語后有較短的停頓或靜音,發(fā)音方面具有音高不下傾或稍下傾的特點。另外韻末不可以用作句末。

強韻律短語:由一個或多個弱音律短語構(gòu)成,每個強韻律短語后可以感知到明顯的停頓,音高曲線有明顯的下傾。

注意:增加層級會增加復(fù)雜度,所以有時候會將弱韻律短語和強韻律短語作為一個層級標注

語調(diào)短語:由一個或多個強韻律短語構(gòu)成,每個語調(diào)短語后會有較長的停頓且末尾音節(jié)韻律上會有延長,這種短語一般位于句末,具有特定的語調(diào)模式。語調(diào)模式的音調(diào)走勢由具體的語氣或句型決定,如陳述句為降調(diào)、疑問句為升調(diào)、感嘆句為總體音調(diào)上升。

為了更好地理解韻律標注各個層級間的關(guān)系,我們可以下方關(guān)系圖:

數(shù)據(jù)堂:如何滿足個性化TTS數(shù)據(jù)制作需求?

4.TTS系統(tǒng)展望

目前,合成語音的可懂度、自然度已經(jīng)達到用戶可接受的程度,TTS系統(tǒng)也已進入大規(guī)模產(chǎn)業(yè)化的應(yīng)用階段。隨著互聯(lián)網(wǎng)時代用戶對信息獲取途徑的多樣性需求,語音合成技術(shù)將迎來巨大的機會。例如:最近由Dessa開發(fā)出的RealTalk語音合成系統(tǒng),僅需要通過輸入文本即可生成堪比真人的聲音,也就是說在獲得足夠訓(xùn)練數(shù)據(jù)的先決條件下,該系統(tǒng)可以復(fù)制任何人的聲音。這項技術(shù)可能是一個重大突破,這也預(yù)示著可能在未來的十幾年甚至幾年,技術(shù)可能發(fā)展到只要短短幾分鐘的音頻便可以模仿出任何一個人的聲音。

語音合成技術(shù)的發(fā)展,一方面取決于技術(shù)上的進步,另一方面取決于商業(yè)化應(yīng)用能否擴大市場。從技術(shù)上來說情感語音合成、個性化語音轉(zhuǎn)換等是目前的研究方向,從市場角度出發(fā),如何開發(fā)出成熟的TTS應(yīng)用并獲得用戶認可才是關(guān)鍵。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-06-04
數(shù)據(jù)堂:如何滿足個性化TTS數(shù)據(jù)制作需求?
1.概述TTS(Text To Speech)又稱語音合成,是一種將文本轉(zhuǎn)化成相應(yīng)語音的技術(shù)。TTS技術(shù)從誕生到現(xiàn)在已經(jīng)有200多年的歷史。

長按掃碼 閱讀全文