9月15日,AI領(lǐng)域的行業(yè)盛會(huì)“百度世界2020”大會(huì)于線(xiàn)上隆重召開(kāi),一大波硬核技術(shù)襲來(lái):百度創(chuàng)始人、董事長(zhǎng)兼CEO李彥宏與總臺(tái)央視主持人康輝“虛擬人”亮相、顛覆搜索形態(tài)的“度曉曉”、沒(méi)有駕駛員的“全自動(dòng)駕駛”、各行各業(yè)賦能案例……既有硬核技術(shù),又有“接地氣”的落地應(yīng)用。
(百度世界2020央視新聞直播間)
在當(dāng)天的百度大腦分論壇上,百度語(yǔ)音首席架構(gòu)師賈磊重點(diǎn)講解了百度端到端語(yǔ)音交互技術(shù)。他表示,百度語(yǔ)音交互技術(shù)持續(xù)迭代升級(jí),已發(fā)展成為基于深度學(xué)習(xí)技術(shù)的端到端的語(yǔ)音識(shí)別和語(yǔ)音合成技術(shù)。在語(yǔ)音識(shí)別層面,百度推出端到端信號(hào)聲學(xué)一體化建模的技術(shù),語(yǔ)音合成方面,最新的Meitron和單人千面合成個(gè)性化技術(shù)亮相。同時(shí)交出了百度語(yǔ)音技術(shù)最新成績(jī)單:日均調(diào)用量超過(guò)155億次,廣泛應(yīng)用在移動(dòng)端、智能家居、和語(yǔ)音IoT等場(chǎng)景,智能語(yǔ)音產(chǎn)業(yè)化成果豐碩。
(百度語(yǔ)音首席架構(gòu)師賈磊)
會(huì)上,賈磊分別從語(yǔ)音識(shí)別和語(yǔ)音合成兩個(gè)技術(shù)維度詳解了百度語(yǔ)音技術(shù)的發(fā)展迭代和最新成果。在語(yǔ)音識(shí)別方面,百度語(yǔ)音識(shí)別技術(shù)持續(xù)創(chuàng)新,從2012年首推深度學(xué)習(xí)技術(shù),到2019年在業(yè)內(nèi)首先把注意力模型應(yīng)用于在線(xiàn)語(yǔ)音識(shí)別,推出流式多級(jí)的截?cái)嘧⒁饬δP?SMLTA;再到如今全面進(jìn)化為端到端的信號(hào)聲學(xué)一體化建模技術(shù),在助力百度自身業(yè)務(wù)發(fā)展的同時(shí),更好地賦能多場(chǎng)景、多產(chǎn)業(yè)應(yīng)用。
作為百度語(yǔ)音識(shí)別技術(shù)的最新成果,端到端的信號(hào)聲學(xué)一體化建模技術(shù)很好地解決了傳統(tǒng)數(shù)字信號(hào)處理和語(yǔ)音識(shí)別級(jí)聯(lián)系統(tǒng)的各種問(wèn)題,拋棄了各自學(xué)科的學(xué)科假設(shè),通過(guò)端到端的建模,大幅提升了遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別率。
據(jù)賈磊介紹,端到端的信號(hào)聲學(xué)一體化建模技術(shù)由模型波束技術(shù)和模型AEC技術(shù)組成。前者進(jìn)化為多分區(qū)融合的模型波束建模技術(shù),在國(guó)際上由百度首次提出,較單分區(qū)技術(shù)進(jìn)一步提升識(shí)別性能15%以上;后者是升級(jí)為基于雙LOSS實(shí)值掩蔽的模型AEC技術(shù),可以解決設(shè)備有非線(xiàn)性情況下的回波消除問(wèn)題,使得設(shè)備即使在播放音樂(lè)的時(shí)候,也能夠進(jìn)行成功的打斷和高精準(zhǔn)的語(yǔ)音識(shí)別。
此外,賈磊還在會(huì)上介紹了百度今年推出的端側(cè)全雙工語(yǔ)音交互技術(shù)。據(jù)他介紹,百度端側(cè)全雙工語(yǔ)音交互技術(shù)將復(fù)雜的建模過(guò)程轉(zhuǎn)化為3個(gè)端到端的深度學(xué)習(xí)過(guò)程,即信號(hào)聲學(xué)一體化建模、聲學(xué)語(yǔ)言一體化建模以及語(yǔ)義置信一體化建模。通過(guò)端到端的建模,該技術(shù)能夠?qū)⒄麄€(gè)復(fù)雜的端側(cè)交互轉(zhuǎn)變成若干個(gè)深度學(xué)習(xí)計(jì)算,使得依靠一顆AI芯片就能完成端側(cè)的全雙工語(yǔ)音交互,從而大幅度提升車(chē)載手機(jī)等語(yǔ)音交互性能,顯著改善用戶(hù)體驗(yàn)。
而在語(yǔ)音合成方面,百度自2013年啟動(dòng)語(yǔ)音合成研發(fā),歷經(jīng)參數(shù)合成、拼接合成、深度學(xué)習(xí)語(yǔ)音合成和端到端的語(yǔ)音合成,到如今全新升級(jí)為包含個(gè)性化、多風(fēng)格多角色、單人千面的語(yǔ)音合成系統(tǒng),百度語(yǔ)音合成技術(shù)始終處于升級(jí)迭代中。
會(huì)上,賈磊依次介紹了百度語(yǔ)音合成技術(shù)的最新成果——個(gè)性化TTS,多風(fēng)格、多角色,單人千面。個(gè)性化TTS是個(gè)性化定制的Meitron語(yǔ)音合成系統(tǒng)的最新演進(jìn),是基于子帶分解和GAN_loss的端側(cè)神經(jīng)網(wǎng)絡(luò)聲碼器,也是業(yè)內(nèi)首個(gè)在手機(jī)端多人通用的端側(cè)的基于神經(jīng)計(jì)算的聲碼器。個(gè)性化TTS相較于傳統(tǒng)的基于信號(hào)處理和參數(shù)的聲碼器,ABX提升可以達(dá)到65:35,其已應(yīng)用于地圖導(dǎo)航,目前每日的導(dǎo)航播報(bào)超過(guò)1億次。
多風(fēng)格、多角色的語(yǔ)音合成,則是針對(duì)娛樂(lè)內(nèi)容產(chǎn)業(yè)(例如小說(shuō))中存在的多個(gè)角色交替、多種情感需求并存的播報(bào)需求而研發(fā)的新技術(shù)。此前,用單一音色播報(bào)缺乏表現(xiàn)力,播報(bào)語(yǔ)音和文字本身的角色情感不一致,用戶(hù)長(zhǎng)時(shí)間聽(tīng)感到單調(diào)疲倦。百度通過(guò)深度學(xué)習(xí)技術(shù)對(duì)小說(shuō)文本進(jìn)行分析,判斷出角色、身份、情感,再借助多風(fēng)格、多角色語(yǔ)音合成技術(shù)去合成小說(shuō)中的聲音,從而實(shí)現(xiàn)聲音自然流暢、情感表現(xiàn)力豐富、用戶(hù)體驗(yàn)優(yōu)美的效果。
針對(duì)一個(gè)發(fā)音人需要用不同風(fēng)格播報(bào)文本的應(yīng)用場(chǎng)景,百度推出單人千面語(yǔ)音合成技術(shù)。該技術(shù)能夠把說(shuō)話(huà)人的語(yǔ)音、文本、風(fēng)格、內(nèi)容、音色都進(jìn)行分離,在進(jìn)行語(yǔ)音合成的時(shí)候自由組合,從而能夠讓一個(gè)發(fā)音人同時(shí)去播報(bào)新聞、小說(shuō)、脫口秀、讀書(shū)、詩(shī)歌等不同風(fēng)格。
“百度智能語(yǔ)音交互的產(chǎn)業(yè)化成果豐碩,目前百度智能語(yǔ)音的日均調(diào)用量超過(guò)155億次,廣泛應(yīng)用于移動(dòng)端、智能家居、智能車(chē)載、智能服務(wù)以及語(yǔ)音IoT,極大地提高了中國(guó)社會(huì)的智能化程度?!辟Z磊表示。語(yǔ)音技術(shù)作為百度大腦的重要AI能力之一,不但應(yīng)用于百度搜索、百度輸入法、百度地圖、小度音箱等百度系列產(chǎn)品,更通過(guò)百度大腦AI開(kāi)放平臺(tái)廣泛賦能眾多行業(yè)和場(chǎng)景的合作伙伴。未來(lái),百度還將持續(xù)創(chuàng)新升級(jí)語(yǔ)音交互技術(shù),推進(jìn)語(yǔ)音技術(shù)應(yīng)用落地,助力更多產(chǎn)業(yè)智能化轉(zhuǎn)型升級(jí)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )