“聽見”更好的世界,StyleTTS端到端合成框架再創(chuàng)搜狗語音新突破

隨著社會進步和技術創(chuàng)新的日益加快,“黑科技”的產(chǎn)業(yè)運用持續(xù)加速,對人們生活的影響與改變也不斷加深。

近期,業(yè)內(nèi)領先的搜狗AI語音合成再突破,創(chuàng)新提出“StyleTTS端到端合成框架”,將語音合成技術再次向前推進一步,在準確傳遞信息之外,更重視個性化及情感表達,讓合成的語音更具表現(xiàn)力,更“逼真”。搜狗聯(lián)合搜狐新聞客戶端于5月推出的演員柳巖同款明星“數(shù)字人”就是基于該技術的支持,實現(xiàn)了無縫切換河南、湖南、四川、陜西、東北等多種方言的能力。目前,該技術也為騰訊QQ瀏覽器“小說AI聽書”功能提供支持,助力其實現(xiàn)了聽書、聽小說的全新升級。

搜狗語音AI業(yè)內(nèi)領先,幫助“聽見”更好世界

作為機器的“嘴巴”,語音合成已經(jīng)被廣泛應用于新聞播報、小說閱讀、地圖導航、人機交互等諸多場景中。從2010年以前經(jīng)典的統(tǒng)計機器學習方法,到DNN/LSTM為代表的深度神經(jīng)網(wǎng)絡,再到Tacotron/FastSpeech/Durian等具有更強建模能力的端到端模型,結(jié)合神經(jīng)聲碼器的突破,語音合成技術的發(fā)展正在從“穩(wěn)定可懂”迭代到“更高表現(xiàn)力和逼真度,甚至媲美真人錄音的水平”。

搜狗AI語音合成有著雄厚的技術積累,2018年曾獲得Blizzard Challenge語音合成挑戰(zhàn)賽停頓和可懂兩項子任務第一名,2019年推出首個真人變聲功能實現(xiàn)“任意說話人聲音(源)向指定說話人聲音(目標)的實時變換”,展現(xiàn)了搜狗在語音表征學習、語音合成等領域的多個關鍵性技術突破。此外,以新華社AI合成主播“新小浩”和自有形象合成主播“雅妮”為代表的搜狗數(shù)字人也已升級至“第七代”,這些AI數(shù)字人的聲音真實度、表現(xiàn)力已可媲美真人,展現(xiàn)了在多模態(tài)合成領域的行業(yè)領先性。

在此基礎上,搜狗又提出了StyleTTS端到端合成框架,該框架主要包含Encoder文本特征編碼、Prosody Extractor/Predictor韻律特征編碼與建模、Decoder音色建模三大模塊,通過不同人(聲)的韻律模型和音色模型重組搭配,能夠?qū)崿F(xiàn)跨發(fā)音人的風格控制合成,并擁有抑揚頓挫的韻律節(jié)奏和豐富立體的情感表達。此外,模型還加入說話人特征編碼、語種特征編碼以及GAN對抗學習等經(jīng)典方法,進一步提升建模能力。相較而言,傳統(tǒng)語音合成技術的重點在于“信息的正確傳遞”,而搜狗AI語音合成技術除了正確傳遞信息,更重視個性化與情感共鳴,合成效果也具有更高的自然度、辨識度,同時還能實現(xiàn)對語音轉(zhuǎn)換的風格、口音、情感等進行靈活選擇與控制,從而滿足不同場景的需求。

“聽見”更好的世界,StyleTTS端到端合成框架再創(chuàng)搜狗語音新突破

(圖:搜狗StyleTTS結(jié)構圖)

以對騰訊QQ瀏覽器“AI聽書”的支持為例,區(qū)別于其他機器合成聲音的機械式發(fā)音,搜狗AI合成語音節(jié)奏更分明、情緒更自然,能夠更好的解放雙眼,而除了堪比真人的高保真音色,支持“方言語音”、“動漫語音”等的選擇,在讀書過程中,用戶還可以根據(jù)場景和心情進行播單設置、語速調(diào)節(jié)等個性化操作,這些都能夠提供更好的使用體驗,幫助用戶“聽見”更好的世界。

聲音+產(chǎn)業(yè)構建,前瞻“布局”未來生活

“聲音+”市場呈爆發(fā)式增長,已步入千億量級市場。數(shù)據(jù)顯示,在閱讀領域,“看”已不是閱讀的唯一方式,十個人當中就超過兩個人在聽書;在音頻領域,有聲書實現(xiàn)了從貢獻流量到商業(yè)變現(xiàn)的路徑打通,正在成長為喜馬拉雅FM等各大音頻平臺的支撐或主流業(yè)務;在智能硬件領域,僅智能音箱一項,未來五年銷量將突破3億臺超過PC規(guī)模……未來10 年,“聲音+”整合產(chǎn)業(yè)規(guī)模將達到萬億美金級別。

隨著智能社會的到來,聲音作為最自然、最便利的人機交互方式,上接互聯(lián)網(wǎng)、下接物聯(lián)網(wǎng)、中間連接人工智能,既是出口也是入口,而作為“聲音+”產(chǎn)業(yè)的基礎設施之一,語音合成孕育著一個巨大的藍海市場。

對此,搜狗已經(jīng)進行前瞻性布局和產(chǎn)業(yè)化落地。在AI語音合成技術方面,圍繞“自然交互+知識計算”這一AI理念,搜狗不斷加大投入構建技術“護城河”,持續(xù)累積領先優(yōu)勢;在創(chuàng)新性平臺方面,搜狗打造了“搜狗聲咖”、“搜狗AI開放平臺”等,基于語音技術提供語音識別、語音合成、語義理解、同聲傳譯等AI服務;在產(chǎn)業(yè)落地方面,搜狗不僅積極推動與清華天工研究院等學術機構,與暢游、千龍網(wǎng)、學而思等商業(yè)機構,乃至于與黃子韜、梁寧等明星和意見領袖等的合作,運用了搜狗語音技術的搜狗AI合成主播也被廣泛使用于傳媒、法律、金融等各行各業(yè)。

隨著時代發(fā)展與科技進步,智能語音將會變得越來越普及,得益于搜狗領先的人工智能技術,以及在語言領域、聲音領域的強大積累,搜狗語音能夠提供一整套科學、高效的“AI語音解決方案”,為人賦能,幫助人們更好的進行“有聲創(chuàng)作”、幫助各種機構更好的提供“有聲服務”,從根本上推動“聲音產(chǎn)業(yè)”和“人工智能產(chǎn)業(yè)”的發(fā)展,從這個意義上來說,其未來發(fā)展具有廣闊的空間。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )