近日,全球語音頂會INTERSPEECH 2020 公布了論文接收結(jié)果,云知聲聯(lián)合上海師范大學(xué)、安徽大學(xué)等高校發(fā)表多篇論文成功入選。分別在中英文混合語音識別、大詞匯量連續(xù)語音識別和多模態(tài)虛擬形象生成等領(lǐng)域取得突破,代表著云知聲在語音及多模態(tài)交互領(lǐng)域持續(xù)的底層技術(shù)創(chuàng)新。同時,云知聲也是今年會議的金牌贊助商,致力于加強工業(yè)界和學(xué)術(shù)界的技術(shù)協(xié)作,支持會議順利舉行。
INTERSPEECH 是世界上規(guī)模最大、最全面的頂級語音領(lǐng)域會議,由國際語音通信協(xié)會 ISCA(International Speech Communication Association)組織。該會議每年舉辦一次,今年大會是第 21 屆 INTERSPEECH 會議,也是第二次在中國舉辦。本屆會議以“Cognitive Intelligence for Speech Processing”為主題,內(nèi)容涵蓋信號處理、語音識別、自然語言處理、神經(jīng)機器翻譯等領(lǐng)域,收到超過 2100 篇投稿論文。會議研究成果代表著語音相關(guān)領(lǐng)域的最新研究水平和未來的技術(shù)發(fā)展趨勢。
作為 INTERSPEECH 會議的一部分,國際語音合成比賽 Blizzard Challenge 2020 研討會將于 10 月 30 日舉行。Blizzard Challenge 是當(dāng)今全球規(guī)模最大、最具影響力的語音合成領(lǐng)域頂尖賽事,在今年的 Blizzard Challenge 比賽中,由云知聲-上海師范大學(xué)自然人機交互聯(lián)合實驗室申報的系統(tǒng)在強敵環(huán)伺的賽場中突出重圍,首次參賽即斬獲中文普通話、上海話多項關(guān)鍵指標(biāo)第一。在 10 月 30 日的研討會上,研究團隊會通過 live online oral presentation 的形式對參賽系統(tǒng)進(jìn)行詳細(xì)解讀,歡迎參與和討論。
中英文混合語音識別
在中英文混合語音識別方向,針對混合語言語音 (code-switching) 場景,研究團隊提出了一個基于Transformer模型的多編碼器-解碼器結(jié)構(gòu)的語碼轉(zhuǎn)換混合語音識別方案(Multi-Encoder-Decoder Transformer for Code-Switching Speech Recognition),該結(jié)構(gòu)具有兩個對稱的與特定語言相關(guān)的編碼器,以捕獲各種語言的特有屬性,從而改善每種語言的深度聲學(xué)表示。這些深度表示被進(jìn)一步在解碼器模塊中使用特定于語言的多頭注意力機制進(jìn)行有效整合,以最終提升整個端到端識別系統(tǒng)的性能。同時,團隊還使用了大規(guī)模單語言語料庫對每個編碼器及其相應(yīng)的注意力模塊進(jìn)行了預(yù)訓(xùn)練,旨在減輕語碼轉(zhuǎn)換訓(xùn)練數(shù)據(jù)不足的影響。借助預(yù)訓(xùn)練方式,研究團隊的模型分別在 SEAME 中以中文和英文為主的評估集上達(dá)到 16.7% 和 23.1% 的詞錯誤率,刷新了在此數(shù)據(jù)集上的最好成績,相對之前論文的最佳成績提升了12.5%的性能。
語碼轉(zhuǎn)換語音實例及多編碼器的輸出
大詞匯量連續(xù)語音識別
研究團隊提出了一種新穎的帶深度聲學(xué)結(jié)構(gòu)和 Self-and-Mixed 注意力解碼器結(jié)構(gòu)(Self-and-Mixed Attention Decoder with Deep Acoustic Structure for Transformer-based LVCSR),其利用具有深度聲學(xué)結(jié)構(gòu)的 Self-and-Mixed 注意力解碼器,以改善基于 Transformer 的大詞匯量連續(xù)語音識別的聲學(xué)表示。具體來說,研究團隊引入一種自注意力機制,以獲取深層的聲學(xué)表征。研究團隊還設(shè)計了一種混合注意力機制,該機制可以在共享的特征空間中同時學(xué)習(xí)不同層次的聲學(xué)表征及其對應(yīng)的語言信息之間的對齊關(guān)系。本項研究工作在 AIShell-1 數(shù)據(jù)集上曾刷新最佳成績,字符錯誤率降低至 5.1%,相對之前的最佳成績提升了 24% 的性能,顯著提升了識別效果。
多模態(tài)虛擬形象生成
如何在提高虛擬人面部動作的豐富和自然度,是目前虛擬人生成的熱點問題。研究團隊提出了一種基于面部關(guān)鍵點和改進(jìn)的 GAN 模型的兩級模型生成方案,實現(xiàn)從語音到虛擬人形象的生成,在本方案中,利用面部關(guān)鍵點作為語音特征到視頻生成之間的信息表達(dá)中介,同時引入 attention 機制,解決在虛擬人生成過程中不同區(qū)域因子對視頻效果質(zhì)量的影響。實驗生成的視頻結(jié)果表明本方法保持了豐富的面部細(xì)節(jié)、精確的嘴部動作和自然的頭動效果。在娛樂應(yīng)用、擬人化交互等領(lǐng)域有廣泛的應(yīng)用和落地場景。
人工智能成功的關(guān)鍵在應(yīng)用,而所有應(yīng)用皆源自底層技術(shù)。為不斷拓寬自身基礎(chǔ)能力邊界,云知聲深入布局了語音、語言、視覺圖像、機器翻譯、AI芯片等諸多方向,形成豐富的具備全球領(lǐng)先的原創(chuàng)技術(shù)積累,相關(guān)研究成果多次在 NIPS、NIST、WMT、ACL 等全球頂會與賽事中得以印證。
本次在 INTERSPEECH 2020 大會上這些原創(chuàng)技術(shù)的提出,也將進(jìn)一步夯實云知聲全棧+硬核的人工智能技術(shù)“底座”,提高云知聲在智能語音和多模態(tài)人機交互領(lǐng)域的技術(shù)領(lǐng)先性,推動人工智能系統(tǒng)以更人性化、高效的方式服務(wù)于千行百業(yè),為用戶帶來更好的交互體驗。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )