騰訊數(shù)字生態(tài)大會發(fā)布語音智能全新品牌,升級語音交互能力

隨著行業(yè)數(shù)字化、智能化不斷升級加速,語音交互場景從生活擴展到企業(yè)應(yīng)用,從人機交互擴展到人人交互,越來越多樣化的需求,對語音交互技術(shù)提出了更高的要求。

11月4日,在2021騰訊數(shù)字生態(tài)大會云智能專場,騰訊云小微與騰訊AI Lab聯(lián)合發(fā)布了全新技術(shù)品牌——騰訊語音智能,為設(shè)備提供在復(fù)雜語音環(huán)境下,從輸入到輸出交互體驗全面升級的全鏈路的AI+聲學(xué)技術(shù)解決方案。

騰訊語音智能讓語音技術(shù)更好地處理復(fù)雜多變的環(huán)境,為用戶提供更加自然、智能、擬人化的語音交互體驗,為產(chǎn)業(yè)提供更加便捷、低成本、可定制的解決方案。在生活、服務(wù)及生產(chǎn)等場景,在智能家居、車載語音交互、智能客服、語音質(zhì)檢、口語考試、司法轉(zhuǎn)寫、會議轉(zhuǎn)寫等領(lǐng)域都有廣闊的應(yīng)用空間。

  順應(yīng)場景、需求、設(shè)備升級趨勢 全面助力更自然的語音交互體驗

本次大會上,騰訊首次公布了云智能戰(zhàn)略架構(gòu),面向管理者、生產(chǎn)者、開發(fā)者和用戶四類人群,提供決策、協(xié)作、創(chuàng)新和服務(wù)四大核心能力,同時依托人工智能、大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)的云智能架構(gòu),貼合客戶的產(chǎn)業(yè)場景需求,輸出面向各行業(yè)的智能綜合解決方案。騰訊語音智能作為騰訊云智能戰(zhàn)略重要技術(shù)能力支撐,始終堅持“服務(wù)于人”的價值理念,為用戶帶來自然的語音交互體驗,讓智能交互科技的發(fā)展惠及生活、產(chǎn)業(yè)的方方面面。

從手機助手、智能家居、車載交互等滿足大眾需求的應(yīng)用,到智能客服、會議轉(zhuǎn)寫等智能化升級下的行業(yè)性需求,從人機交互到遠(yuǎn)程會議語音降噪、口語翻譯等人人交互場景需求,目前,語音交互的場景和需求在不斷增加。隨著專用芯片的出現(xiàn)和端上計算能力的不斷增強,運行載體擴展到了云、端、芯多種形式,搭載語音交互的設(shè)備也變得更為多樣化。

而現(xiàn)有的技術(shù)方案仍有很多問題難以解決。比如,在復(fù)雜、嘈雜場景中容易受到環(huán)境噪音的影響,不能有效識別和分離出目標(biāo)人物語音,還會受到網(wǎng)絡(luò)情況、麥克風(fēng)等硬件設(shè)備的制約,導(dǎo)致智能終端在與用戶的交互過程中,無法快速準(zhǔn)確地進行識別并做出相應(yīng)的回復(fù),阻礙人機交互體驗的提升。

騰訊在語音智能領(lǐng)域擁有深厚的能力積累,目前,騰訊語音語義有超過3400項專利,發(fā)表超過500篇頂會論文,累計服務(wù)3.5億智能終端。騰訊云小微依托其強大的語音智能能力,結(jié)合騰訊AI Lab領(lǐng)先的AI基礎(chǔ)能力,基于對用戶場景及需求的深刻洞察,完成了一次技術(shù)迭代與升級,聯(lián)合打造出了一款能夠提升語音識別效果和效率的全鏈路AI+聲學(xué)技術(shù)解決方案——騰訊語音智能。

騰訊數(shù)字生態(tài)大會發(fā)布語音智能全新品牌,升級語音交互能力

(騰訊杰出科學(xué)家、AI Lab副主任兼智能平臺部副總經(jīng)理 俞棟)

突破業(yè)內(nèi)技術(shù)瓶頸 深耕行業(yè)發(fā)展需求 全面提升語音智能交互能力

相對于傳統(tǒng)解決方案,騰訊語音智能在技術(shù)上實現(xiàn)了突破性升級。通過采用一體化的基于全神經(jīng)網(wǎng)絡(luò)的方案,極大提升了在復(fù)雜場景下語音采集、降噪分離和增強的效果,從而為人人通話或機器識別提供了更清晰易懂的語音。通過使用基于語音語義聯(lián)合優(yōu)化的多領(lǐng)域識別器,讓機器對于各種復(fù)雜語音的識別率也得到極大提升,可以更好地進行轉(zhuǎn)寫、理解、和回復(fù)。

另外,騰訊語音智能可以支持多種應(yīng)用場景和設(shè)備,擁有優(yōu)秀的場景適配性和通用性,面向?qū)嶋H場景的定制優(yōu)化更簡單、高效,在為用戶提供更加優(yōu)質(zhì)、自然語音交互體驗的同時,也為企業(yè)場景中的語音服務(wù)需求降低了運行和定制成本,助力其降本增效,加快產(chǎn)業(yè)數(shù)字化升級。

在戶外、酒會等高噪聲、嘈雜的環(huán)境中使用手機助手、智能客服等語音服務(wù)時,環(huán)境的噪聲會對目標(biāo)人物語音的收集帶來極大干擾,語音收集反饋的錯誤率也會隨之提升。騰訊語音智能在前端技術(shù)上,通過研發(fā)全神經(jīng)網(wǎng)絡(luò)波束成型方案、構(gòu)建集合全鏈路的神經(jīng)網(wǎng)絡(luò)模型方案、首創(chuàng)用三種模態(tài)進行語音分離的工作模式,完成了行業(yè)內(nèi)的多項技術(shù)突破,可有效應(yīng)對環(huán)境噪聲干擾人聲的問題,實現(xiàn)了場景深度定制,多模塊自動聯(lián)合優(yōu)化,在復(fù)雜聲學(xué)環(huán)境中大幅度降低了語音收集的錯誤率。數(shù)據(jù)表示,經(jīng)過多模態(tài)語音分離再進行語音識別,錯誤率可降低相對50%,經(jīng)過多模態(tài)分離并聯(lián)合進行多模態(tài)的語音識別,錯誤率可進一步降低相對25%。

騰訊數(shù)字生態(tài)大會發(fā)布語音智能全新品牌,升級語音交互能力

(騰訊AI Lab語音技術(shù)中心總監(jiān) 蘇丹)

在家居和車載等真實場景下,除了需要克服環(huán)境噪聲、人聲干擾等問題外,還需要應(yīng)對多種挑戰(zhàn),諸如識別任務(wù)復(fù)雜度高,用戶口音多變、用戶更自然的語音交互體驗需求,以及低資源設(shè)備上識別性能的提升等。深入問題探索,騰訊語音智能在后端處理環(huán)節(jié)研發(fā)了“語音-語義結(jié)合的多領(lǐng)域在線識別系統(tǒng)”、“全雙工交互及閑聊拒識”、“端到端高性能離線識別系統(tǒng)”等技術(shù)方案,運用深度學(xué)習(xí)建模、前后端聯(lián)合優(yōu)化、語音-語義聯(lián)合優(yōu)化等技術(shù)手段,很好地滿足了不同應(yīng)用場景下,對于語音交互在識別率、魯棒性、資源消耗和用戶體驗等多方面的要求。

目前,騰訊語音智能已經(jīng)為索尼電視、飛利浦電視提供技術(shù)支持,為家居場景中的人機互動提供更智能的語音體驗;在車載交互領(lǐng)域,助力長安汽車、福特汽車等,提升語音助手服務(wù)質(zhì)量,給用戶更好的智能出行服務(wù)。

騰訊數(shù)字生態(tài)大會發(fā)布語音智能全新品牌,升級語音交互能力

(騰訊智能產(chǎn)品高級專家 馬龍)

未來,隨著行業(yè)和場景需求的迭代升級和智能終端的快速發(fā)展,智能語音的應(yīng)用將擁有越來越大的發(fā)展空間。騰訊語音智能將持續(xù)專注語音智能技術(shù),發(fā)展連續(xù)對話、多模態(tài)交互等能力,為用戶構(gòu)建更具個性化、更自然、更有情感的語音交互體驗,以“交互智能”為大眾帶來更加智能化的生活方式。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )