123,123,123

隨著社會進(jìn)步和技術(shù)創(chuàng)新的日益加快，“黑科技”的產(chǎn)業(yè)運(yùn)用持續(xù)加速，對人們生活的影響與改變也不斷加深。

近期，業(yè)內(nèi)領(lǐng)先的搜狗AI語音合成再突破，創(chuàng)新提出“StyleTTS端到端合成框架”，將語音合成技術(shù)再次向前推進(jìn)一步，在準(zhǔn)確傳遞信息之外，更重視個(gè)性化及情感表達(dá)，讓合成的語音更具表現(xiàn)力，更“逼真”。搜狗聯(lián)合搜狐新聞客戶端于5月推出的演員柳巖同款明星“數(shù)字人”就是基于該技術(shù)的支持，實(shí)現(xiàn)了無縫切換河南、湖南、四川、陜西、東北等多種方言的能力。目前，該技術(shù)也為騰訊QQ瀏覽器“小說AI聽書”功能提供支持，助力其實(shí)現(xiàn)了聽書、聽小說的全新升級。

搜狗語音AI業(yè)內(nèi)領(lǐng)先，幫助“聽見”更好世界

作為機(jī)器的“嘴巴”，語音合成已經(jīng)被廣泛應(yīng)用于新聞播報(bào)、小說閱讀、地圖導(dǎo)航、人機(jī)交互等諸多場景中。從2010年以前經(jīng)典的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法，到DNN/LSTM為代表的深度神經(jīng)網(wǎng)絡(luò)，再到Tacotron/FastSpeech/Durian等具有更強(qiáng)建模能力的端到端模型，結(jié)合神經(jīng)聲碼器的突破，語音合成技術(shù)的發(fā)展正在從“穩(wěn)定可懂”迭代到“更高表現(xiàn)力和逼真度，甚至媲美真人錄音的水平”。

搜狗AI語音合成有著雄厚的技術(shù)積累，2018年曾獲得Blizzard Challenge語音合成挑戰(zhàn)賽停頓和可懂兩項(xiàng)子任務(wù)第一名，2019年推出首個(gè)真人變聲功能實(shí)現(xiàn)“任意說話人聲音(源)向指定說話人聲音(目標(biāo))的實(shí)時(shí)變換”，展現(xiàn)了搜狗在語音表征學(xué)習(xí)、語音合成等領(lǐng)域的多個(gè)關(guān)鍵性技術(shù)突破。此外，以新華社AI合成主播“新小浩”和自有形象合成主播“雅妮”為代表的搜狗數(shù)字人也已升級至“第七代”，這些AI數(shù)字人的聲音真實(shí)度、表現(xiàn)力已可媲美真人，展現(xiàn)了在多模態(tài)合成領(lǐng)域的行業(yè)領(lǐng)先性。

在此基礎(chǔ)上，搜狗又提出了StyleTTS端到端合成框架，該框架主要包含Encoder文本特征編碼、Prosody Extractor/Predictor韻律特征編碼與建模、Decoder音色建模三大模塊，通過不同人(聲)的韻律模型和音色模型重組搭配，能夠?qū)崿F(xiàn)跨發(fā)音人的風(fēng)格控制合成，并擁有抑揚(yáng)頓挫的韻律節(jié)奏和豐富立體的情感表達(dá)。此外，模型還加入說話人特征編碼、語種特征編碼以及GAN對抗學(xué)習(xí)等經(jīng)典方法，進(jìn)一步提升建模能力。相較而言，傳統(tǒng)語音合成技術(shù)的重點(diǎn)在于“信息的正確傳遞”，而搜狗AI語音合成技術(shù)除了正確傳遞信息，更重視個(gè)性化與情感共鳴，合成效果也具有更高的自然度、辨識度，同時(shí)還能實(shí)現(xiàn)對語音轉(zhuǎn)換的風(fēng)格、口音、情感等進(jìn)行靈活選擇與控制，從而滿足不同場景的需求。

“聽見”更好的世界，StyleTTS端到端合成框架再創(chuàng)搜狗語音新突破

(圖：搜狗StyleTTS結(jié)構(gòu)圖)

以對騰訊QQ瀏覽器“AI聽書”的支持為例，區(qū)別于其他機(jī)器合成聲音的機(jī)械式發(fā)音，搜狗AI合成語音節(jié)奏更分明、情緒更自然，能夠更好的解放雙眼，而除了堪比真人的高保真音色，支持“方言語音”、“動(dòng)漫語音”等的選擇，在讀書過程中，用戶還可以根據(jù)場景和心情進(jìn)行播單設(shè)置、語速調(diào)節(jié)等個(gè)性化操作，這些都能夠提供更好的使用體驗(yàn)，幫助用戶“聽見”更好的世界。

聲音+產(chǎn)業(yè)構(gòu)建，前瞻“布局”未來生活

“聲音+”市場呈爆發(fā)式增長，已步入千億量級市場。數(shù)據(jù)顯示，在閱讀領(lǐng)域，“看”已不是閱讀的唯一方式，十個(gè)人當(dāng)中就超過兩個(gè)人在聽書;在音頻領(lǐng)域，有聲書實(shí)現(xiàn)了從貢獻(xiàn)流量到商業(yè)變現(xiàn)的路徑打通，正在成長為喜馬拉雅FM等各大音頻平臺的支撐或主流業(yè)務(wù);在智能硬件領(lǐng)域，僅智能音箱一項(xiàng)，未來五年銷量將突破3億臺超過PC規(guī)模……未來10 年，“聲音+”整合產(chǎn)業(yè)規(guī)模將達(dá)到萬億美金級別。

隨著智能社會的到來，聲音作為最自然、最便利的人機(jī)交互方式，上接互聯(lián)網(wǎng)、下接物聯(lián)網(wǎng)、中間連接人工智能，既是出口也是入口，而作為“聲音+”產(chǎn)業(yè)的基礎(chǔ)設(shè)施之一，語音合成孕育著一個(gè)巨大的藍(lán)海市場。

對此，搜狗已經(jīng)進(jìn)行前瞻性布局和產(chǎn)業(yè)化落地。在AI語音合成技術(shù)方面，圍繞“自然交互+知識計(jì)算”這一AI理念，搜狗不斷加大投入構(gòu)建技術(shù)“護(hù)城河”，持續(xù)累積領(lǐng)先優(yōu)勢;在創(chuàng)新性平臺方面，搜狗打造了“搜狗聲咖”、“搜狗AI開放平臺”等，基于語音技術(shù)提供語音識別、語音合成、語義理解、同聲傳譯等AI服務(wù);在產(chǎn)業(yè)落地方面，搜狗不僅積極推動(dòng)與清華天工研究院等學(xué)術(shù)機(jī)構(gòu)，與暢游、千龍網(wǎng)、學(xué)而思等商業(yè)機(jī)構(gòu)，乃至于與黃子韜、梁寧等明星和意見領(lǐng)袖等的合作，運(yùn)用了搜狗語音技術(shù)的搜狗AI合成主播也被廣泛使用于傳媒、法律、金融等各行各業(yè)。

隨著時(shí)代發(fā)展與科技進(jìn)步，智能語音將會變得越來越普及，得益于搜狗領(lǐng)先的人工智能技術(shù)，以及在語言領(lǐng)域、聲音領(lǐng)域的強(qiáng)大積累，搜狗語音能夠提供一整套科學(xué)、高效的“AI語音解決方案”，為人賦能，幫助人們更好的進(jìn)行“有聲創(chuàng)作”、幫助各種機(jī)構(gòu)更好的提供“有聲服務(wù)”，從根本上推動(dòng)“聲音產(chǎn)業(yè)”和“人工智能產(chǎn)業(yè)”的發(fā)展，從這個(gè)意義上來說，其未來發(fā)展具有廣闊的空間。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

“聽見”更好的世界，StyleTTS端到端合成框架再創(chuàng)搜狗語音新突破

“聽見”更好的世界，StyleTTS端到端合成框架再創(chuàng)搜狗語音新突破