3月28日,據(jù)國外媒體報(bào)道,谷歌研究院正在探索讓機(jī)器合成語音更加自然的方法。谷歌大腦和機(jī)器感知團(tuán)隊(duì)的成員本周二在博客中公布了一些能讓語音更具有表現(xiàn)力的方法示例。
同時(shí),谷歌發(fā)布了“云端文本轉(zhuǎn)語音”服務(wù)的測試版,提供了與谷歌助手同樣的語音合成服務(wù)。該服務(wù)采用了DeepMind的WaveNet技術(shù),這個(gè)技術(shù)可以被用于生成非常自然的聲音。
有報(bào)道顯示,谷歌研究員近期發(fā)表了兩篇論文,提出了新的發(fā)音方法,介紹了如何模仿語音中的重音或語調(diào)。這兩篇論文的技術(shù)都是基于Tacotron2。Tacotron2是谷歌去年12月份推出的人工智能系統(tǒng),使用神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,模仿人類語音。
Tacotron在大部分情況下都可以模擬真人聲音,但是卻無法模仿說話中的重音和自然語調(diào)。Tacotron的聯(lián)合發(fā)明人Wang Yuxuan參與了其中一篇論文研究。研究通過將人類語音片段嵌入計(jì)算機(jī)語音風(fēng)格,使合成語音中實(shí)現(xiàn)了重音等效果。另一篇論文的研究則使用無監(jiān)督訓(xùn)練和識(shí)別語音模式,并模仿某些語音風(fēng)格。
在語音技術(shù)研發(fā)上,去年蘋果Siri被眾多消費(fèi)者認(rèn)為是更加具有表現(xiàn)力的聲音。同時(shí)去年四月,亞馬遜Alexa面向語音應(yīng)用開發(fā)者提供了SSML標(biāo)簽,在語音助手中增加了更豐富的表達(dá),例如停頓、輕語,以及一些感嘆詞等。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )