“哪吒音色”閃亮登場(chǎng)!火山語(yǔ)音TTS為此可是忙壞了

現(xiàn)如今汽車不僅僅定位為交通工具,更是空間拓展、人性陪伴的承載。日前,哪吒新車隆重發(fā)布,除了各色亮眼的功能創(chuàng)新之外,其與火山引擎聯(lián)手打造的一款活力動(dòng)感、富有“人情味兒”的車載語(yǔ)音助手音色引起廣泛關(guān)注。

聽起來(lái)究竟如何?Pick下方視頻鏈接,一起進(jìn)入“哪吒音色”帶來(lái)的快樂(lè)旅途吧!

//tosv.byted.org/obj/speech-tts-external/nezha1219.mp4

量聲定制高度還原:從聲音開始了解TA

怎么樣?還可以吧?那么作為火山引擎語(yǔ)音合成產(chǎn)品的技術(shù)支持者,火山語(yǔ)音是如何幫助哪吒這樣的汽車企業(yè)打造如此個(gè)性又生動(dòng)自然的音色的?

一直以來(lái),“聲音”不僅被作為大腦中最基礎(chǔ)的記憶類型,更能直接影響人的情緒與感受,所以對(duì)于車載語(yǔ)音助手而言,聲音尤為重要。一款融合了企業(yè)品牌特性的高品質(zhì)音色,不僅能為用戶提供更加愉悅的聽覺(jué)體驗(yàn),也能在一定程度上加強(qiáng)對(duì)企業(yè)品牌的輸出與認(rèn)知。當(dāng)然,打造高品質(zhì)專屬企業(yè)音色并非易事,需要做到“高度還原發(fā)音人聲音特征”以及“將企業(yè)品牌特征抽象為聲音能表達(dá)的風(fēng)格”兩個(gè)方面。

“高度還原是個(gè)技術(shù)活兒,不容易。在‘哪吒音色’的打造中,我們團(tuán)隊(duì)使用了領(lǐng)先的多情感并行神經(jīng)網(wǎng)絡(luò)聲學(xué)模型以及生成對(duì)抗神經(jīng)網(wǎng)絡(luò)聲碼器來(lái)完成這一突破。其中,多情感并行神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,能夠通過(guò)半監(jiān)督情感模塊和并行的編碼器、解碼器來(lái)理解、運(yùn)用全局的文本、語(yǔ)音和其他表征信息進(jìn)行聲音重建,從而高度還原發(fā)音人的音色、風(fēng)格乃至說(shuō)話習(xí)慣。”火山語(yǔ)音研究員總結(jié)到。

此外“生成對(duì)抗神經(jīng)網(wǎng)絡(luò)聲碼器”的使用,除了將頻譜轉(zhuǎn)化為音頻外,還可以通過(guò)對(duì)抗網(wǎng)絡(luò)對(duì)合成音頻進(jìn)行監(jiān)督強(qiáng)化,確保生成的音頻具備高質(zhì)量音質(zhì)以及極佳的穩(wěn)定性,高度還原發(fā)音人聲音特征,做到真假難辨。

圖1 - 多情感語(yǔ)音合成框架

與此同時(shí),火山語(yǔ)音團(tuán)隊(duì)具有專業(yè)的配音導(dǎo)演和語(yǔ)音語(yǔ)言學(xué)專家,可以提供定向的演繹風(fēng)格指導(dǎo)和品牌理念分析服務(wù),協(xié)助企業(yè)抽象出貼合品牌形象的聲音風(fēng)格,并幫助其找到與之匹配的發(fā)音人老師。

以聲傳情:讓交互有溫度更自然

傳統(tǒng)的車機(jī)語(yǔ)音助手通常風(fēng)格嚴(yán)肅平淡,缺乏生動(dòng)的情感表現(xiàn)力,但情感的生動(dòng)表達(dá)往往能讓交互更具人情味兒,從而避免駕駛中的聽覺(jué)疲勞。對(duì)此,為了讓“哪吒音色”具備多情感的表現(xiàn)能力,火山語(yǔ)音團(tuán)隊(duì)采用了半監(jiān)督情感模塊,僅憑借1小時(shí)的情感數(shù)據(jù)作為參考,智能分析出其余全量錄制語(yǔ)句的情感類型和情感強(qiáng)度,進(jìn)而讓所有錄制數(shù)據(jù)都參與合成語(yǔ)音情感能力的建模,實(shí)現(xiàn)更顯著、更自然和更細(xì)膩的情感表現(xiàn)力。此外該模型還具備情感強(qiáng)度平滑控制的能力,能夠覆蓋多種不同的場(chǎng)景需要。

為了讓情感更適用于車載場(chǎng)景,火山語(yǔ)音團(tuán)隊(duì)深入分析場(chǎng)景所需的情感類型,成功打造出適配該場(chǎng)景語(yǔ)音交互的四大情感類型:

冷靜: 耐心平和,可適配車載全部場(chǎng)景的通用情感

高興: 帶有笑意,讓人心情愉悅,娛樂(lè)休閑時(shí)為車主帶來(lái)更多歡樂(lè)

失落:失落抱歉,真誠(chéng)真摯,當(dāng)無(wú)法完成車主要求時(shí)自然的歉意表達(dá)

嬌蠻:嬌蠻可愛(ài),又不過(guò)分嚴(yán)肅,可在車主違規(guī)超速時(shí)提醒

博學(xué)多才:多領(lǐng)域發(fā)音準(zhǔn)確率超99%

車載助手通常覆蓋導(dǎo)航、天氣、資訊、車控、百科等諸多領(lǐng)域。駕駛員在行駛過(guò)程中,語(yǔ)音播報(bào)的內(nèi)容被認(rèn)為是主要的信息獲取來(lái)源,發(fā)音錯(cuò)誤會(huì)直接影響到信息的傳遞和用戶的使用體驗(yàn),因此對(duì)合成語(yǔ)音的準(zhǔn)確性提出了較高要求。對(duì)此火山語(yǔ)音針對(duì)汽車領(lǐng)域進(jìn)行了深度優(yōu)化,前端發(fā)音準(zhǔn)確率可達(dá)99.33%,這一切都?xì)w功于團(tuán)隊(duì)自研的文本分析模型。

該模型能夠同時(shí)對(duì)句級(jí)別文本進(jìn)行注音、分詞和韻律預(yù)測(cè),為合成音頻的發(fā)音準(zhǔn)確、韻律節(jié)奏自然有表現(xiàn)力提供了重要支撐;同時(shí)對(duì)于車機(jī)場(chǎng)景存在的但文本分析模型尚無(wú)法準(zhǔn)確處理的專業(yè)名詞,還提供了高效的熱修復(fù)機(jī)制,能夠在分鐘級(jí)內(nèi)修復(fù)此類問(wèn)題。

同時(shí),火山語(yǔ)音研究員介紹:“在解碼器中,我們引入了使用大量語(yǔ)音數(shù)據(jù)訓(xùn)練的無(wú)監(jiān)督表征。這種無(wú)監(jiān)督表征有助于語(yǔ)音時(shí)頻信息的進(jìn)一步抽象,能夠有效抽取語(yǔ)音中的關(guān)鍵信息,將其作為中間層的預(yù)測(cè)目標(biāo),極大降低了聲學(xué)模型的訓(xùn)練難度。在有限的數(shù)據(jù)量下,模型具備極高的發(fā)音穩(wěn)定性和優(yōu)異的聲音表現(xiàn)力。受益于這種方案,哪吒不僅普通話專業(yè)流利,英文也能自如展現(xiàn)。”

圖2 - 解碼器模型結(jié)構(gòu)

音人而異,打造多樣化個(gè)性之聲

長(zhǎng)期以來(lái),火山語(yǔ)音在特色音色、方言以及多語(yǔ)種音色上有著深厚積累,可對(duì)外提供60+高質(zhì)量音色,包括:

萌娃、小蘿莉、動(dòng)漫小新、譯制片男聲等趣味音色,可為車主提供個(gè)性化音色體驗(yàn);

河南話、廣東話、川渝話、東北話等多種方言能力滿足企業(yè)不同地域的需求;

英語(yǔ)、日語(yǔ)、韓語(yǔ)、歐洲、東南亞等多國(guó)家及地區(qū)語(yǔ)種能力為企業(yè)出海賦能

體驗(yàn)更多音色效果:

https://www.volcengine.com/product/tts

穩(wěn)定流暢 :不同網(wǎng)絡(luò)環(huán)境輕松應(yīng)對(duì)

在正常的行駛過(guò)程中,網(wǎng)絡(luò)環(huán)境不穩(wěn)定的情況在所難免,如隧道或者地下停車場(chǎng)?;鹕秸Z(yǔ)音團(tuán)隊(duì)為此提供了“在線+離線一體解決方案”,可實(shí)現(xiàn):

網(wǎng)絡(luò)狀態(tài)波動(dòng)時(shí),可自適應(yīng)離在線切換,有效避免無(wú)網(wǎng)、弱網(wǎng)時(shí)的延遲與卡頓,為用戶提供盡在掌握的駕駛體驗(yàn);

在線音色和離線音色高度一致,音色切換自然流暢,避免了音色不一致導(dǎo)致聽感違和問(wèn)題。

目前,火山語(yǔ)音,字節(jié)跳動(dòng) AI Lab Speech & Audio 智能語(yǔ)音與音頻團(tuán)隊(duì),將打磨多年的語(yǔ)音技術(shù)能力面向市場(chǎng)并通過(guò)火山引擎開放給外部企業(yè),已覆蓋汽車、金融、有聲閱讀、視頻配音等眾多應(yīng)用場(chǎng)景,并助力多家行業(yè)頭部企業(yè)實(shí)現(xiàn)AI 語(yǔ)音能力的應(yīng)用與拓展。此外多篇論文入選各類AI 頂級(jí)會(huì)議,技術(shù)能力已成功應(yīng)用到抖音、剪映、番茄小說(shuō)等多款產(chǎn)品上,未來(lái)火山語(yǔ)音還將不斷探索前沿科技與業(yè)務(wù)場(chǎng)景的高效結(jié)合,持續(xù)為用戶體驗(yàn)和業(yè)務(wù)增長(zhǎng)注入創(chuàng)新勢(shì)能,以實(shí)現(xiàn)更大價(jià)值。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )