無(wú)障礙字幕直播間之后,火山語(yǔ)音還想用語(yǔ)音識(shí)別技術(shù)做什么?

你是否遭遇過(guò)這樣的時(shí)刻,暢享直播賽事卻不方便聽(tīng)解說(shuō),僅僅看畫(huà)面又“云里霧里”?

“本想上班路上蹭個(gè)球賽卻出門(mén)急沒(méi)帶耳機(jī),地鐵里雖然一直盯著屏幕但好像還是忽略了很多關(guān)鍵細(xì)節(jié)……”

“深夜看比賽雖然氣氛拉滿,但要是影響到別人休息就不好了,所以也不敢放肆開(kāi)聲音盡情看……”

你是否旁觀過(guò)這樣一群人,他們“想看比賽卻又聽(tīng)不清解說(shuō)”,原本是一場(chǎng)眾樂(lè)樂(lè)的活動(dòng),卻最后成為他們自己的“不太快樂(lè)”?

“有的時(shí)候真的聽(tīng)不清楚解說(shuō),所以很長(zhǎng)時(shí)間就不怎么和家人一起看比賽了,更多是個(gè)表面熱鬧,內(nèi)心沒(méi)啥波瀾……”

“聽(tīng)不清解說(shuō)還真有點(diǎn)兒自卑,看畫(huà)面很多時(shí)候也會(huì)跟不上,絕對(duì)是看了個(gè)寂寞,就不想浪費(fèi)時(shí)間了……”

如今變化正在悄悄發(fā)生。本次卡塔爾世界杯熱播之際,在火山語(yǔ)音以及火山同傳的技術(shù)支持下,無(wú)障礙字幕直播間驚喜上線,讓無(wú)論是往返于公共交通、不便使用耳機(jī)觀賽的鐵桿球迷,還是不懂球卻想看球的體育小白,抑或是因?yàn)樯眢w原因聽(tīng)不清解說(shuō)卻有觀賽渴望的聽(tīng)障群體,都可通過(guò)字幕實(shí)時(shí)了解世界杯直播并及時(shí)獲取賽場(chǎng)重要信息,帶來(lái)較以往不同的觀賽體驗(yàn)。

“十幾年前就聽(tīng)說(shuō)春晚要加直播字幕,最后因?yàn)榉N種原因沒(méi)能如愿。過(guò)去一家人在電視前守夜,看到有趣的小品相聲都會(huì)哈哈大笑,而我只能第二天獨(dú)自看帶字幕的重播,然后一個(gè)人傻樂(lè)……現(xiàn)在有了無(wú)障礙字幕直播間,我終于可以和家人朋友一起感受比賽帶來(lái)的歡樂(lè)了。”阿濤驚喜地說(shuō)。

突破層層技術(shù)關(guān),火山語(yǔ)音讓字幕更準(zhǔn)更快更好

曾經(jīng)讓阿濤記掛多年的“春晚直播加字幕”,其實(shí)背后需要攻克相當(dāng)復(fù)雜的技術(shù)難關(guān)。

以本次世界杯無(wú)障礙字幕直播間為例,世界杯賽場(chǎng)風(fēng)云變幻,解說(shuō)的口音和語(yǔ)速更是差異萬(wàn)分,為了讓同傳字幕不受其影響,火山語(yǔ)音團(tuán)隊(duì)基于RNN-T框架,通過(guò)大量訓(xùn)練數(shù)據(jù)的積累和持續(xù)的算法優(yōu)化,推出了自研端到端的流式語(yǔ)音識(shí)別系統(tǒng)來(lái)解決,不但有效規(guī)避了傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)中涉及的大量人工流程,同時(shí)還做到了系統(tǒng)復(fù)雜度簡(jiǎn)化很多,構(gòu)建起來(lái)更加容易,效果還會(huì)更好。

實(shí)踐顯示,優(yōu)化后的模型不僅對(duì)口音和復(fù)雜場(chǎng)景展現(xiàn)出更強(qiáng)的魯棒性,而且對(duì)領(lǐng)域詞匯的識(shí)別能力以及推理速度,字幕上屏速度也得到了大幅度提升。對(duì)此阿濤表示,無(wú)障礙字幕功能的聲音、畫(huà)面雖然官方說(shuō)整體會(huì)延遲30s,但實(shí)際與直播延遲的時(shí)間并不大,觀感舒適度大大提高。

長(zhǎng)期以來(lái),噪音都是影響語(yǔ)音識(shí)別精準(zhǔn)度的重要因素之一。“賽場(chǎng)上經(jīng)常會(huì)出現(xiàn)的觀眾吶喊聲,特別容易被誤識(shí)別為'嗯、啊、哈'的語(yǔ)氣詞;背景音樂(lè)和觀眾聲則會(huì)降低解說(shuō)員聲音的清晰度,對(duì)識(shí)別模型造成了較大挑戰(zhàn)。”為應(yīng)對(duì)這類(lèi)問(wèn)題,火山語(yǔ)音團(tuán)隊(duì)通過(guò)從足球比賽音頻中提取出這些噪聲片段,在模型中顯式地建模噪聲,將噪聲誤出字的比例下降了95%;同時(shí)通過(guò)數(shù)據(jù)增強(qiáng)方式提高聲學(xué)模型在足球場(chǎng)景下的魯棒性,即在有背景音的情況下也能清晰識(shí)別人聲,實(shí)現(xiàn)更好的流式字幕效果。

“在世界杯這樣的全球大型賽事中,大量的專業(yè)術(shù)語(yǔ)以及外籍教練與運(yùn)動(dòng)員的人名,會(huì)為語(yǔ)音識(shí)別帶來(lái)不小的困難,但也成為提升同傳字幕專業(yè)度的關(guān)鍵。”通常的做法其實(shí)是收集相關(guān)場(chǎng)景的語(yǔ)音識(shí)別訓(xùn)練集,但收集的過(guò)程耗費(fèi)時(shí)間太長(zhǎng)且成本較高;而且面對(duì)大量文本語(yǔ)料,如何利用這些純文本來(lái)優(yōu)化領(lǐng)域識(shí)別效果,也是個(gè)不小的問(wèn)題。

對(duì)此火山語(yǔ)音團(tuán)隊(duì)率先整理了大量與足球相關(guān)以及與世界杯相關(guān)的語(yǔ)料,在這些語(yǔ)料的基礎(chǔ)上訓(xùn)練語(yǔ)言模型,通過(guò)語(yǔ)言模型干預(yù)的方式,提高了模型在足球領(lǐng)域的適配性。由于端到端模型本身也隱含語(yǔ)言模型信息,直接與外部語(yǔ)言模型進(jìn)行融合往往效果不佳,所以團(tuán)隊(duì)根據(jù) RNN-T 的建模方式,通過(guò)解耦聲學(xué)模型和語(yǔ)言模型,顯式建模內(nèi)部語(yǔ)言模型,調(diào)整內(nèi)部語(yǔ)言模型和外部語(yǔ)言模型的權(quán)重,以此實(shí)現(xiàn)最佳的融合效果。

“對(duì)于教練與運(yùn)動(dòng)員人名識(shí)別難的問(wèn)題,我們從足球相關(guān)語(yǔ)料中自動(dòng)挖掘?qū)S忻~、球隊(duì)和球員名稱等術(shù)語(yǔ),通過(guò)在解碼備選中引入FST(Finite State Transducer)邏輯結(jié)構(gòu),結(jié)合'匹配走圖+Backoff權(quán)重償還'的方式對(duì)熱詞進(jìn)行干預(yù),有效利用該熱詞專項(xiàng)技術(shù)優(yōu)化后,這些術(shù)語(yǔ)的召回從 64% 提升到 76%。”團(tuán)隊(duì)總結(jié)道。

經(jīng)過(guò)反復(fù)實(shí)踐與驗(yàn)證,為追求更優(yōu)效果,團(tuán)隊(duì)又進(jìn)一步對(duì)人名熱詞干預(yù)做了擴(kuò)大FST干預(yù)備選以及對(duì)熱詞區(qū)分稀疏熱詞和普通熱詞,然后對(duì)兩種熱詞分別構(gòu)圖,在解碼邏輯區(qū)別處理的優(yōu)化,帶來(lái)人名的召回率從76%提升到84%的效果。此外還聯(lián)合火山語(yǔ)音音頻合成團(tuán)隊(duì)的同學(xué),采用TTS技術(shù)合成術(shù)語(yǔ)音頻,并加入聲學(xué)模型訓(xùn)練中,將這些術(shù)語(yǔ)的召回率進(jìn)一步提高到90%,字幕效果更佳。

一直以來(lái),火山語(yǔ)音團(tuán)隊(duì)的語(yǔ)音識(shí)別技術(shù)都不斷追求更快、更準(zhǔn)、更穩(wěn)定且更強(qiáng)悍的目標(biāo),不久之前還榮獲了國(guó)家語(yǔ)音及圖像識(shí)別產(chǎn)品質(zhì)量檢驗(yàn)檢測(cè)中心頒發(fā)的語(yǔ)音識(shí)別增強(qiáng)級(jí)檢驗(yàn)檢測(cè)證書(shū),充分表明其語(yǔ)音識(shí)別技術(shù)能力已達(dá)行業(yè)領(lǐng)先水平。

就像很多前沿機(jī)構(gòu)預(yù)測(cè)的一樣,可靠快速的語(yǔ)音識(shí)別能力或?qū)⒊蔀槲磥?lái)每個(gè)人日常生活中不可缺少的一部分,技術(shù)將索引視頻,以及更多類(lèi)型的媒體內(nèi)容,甚至成為每一個(gè)音頻和視頻都實(shí)現(xiàn)可訪問(wèn)以及可操作的關(guān)鍵,或許無(wú)障礙字幕直播間就意味著這種“開(kāi)始”。

語(yǔ)音識(shí)別技術(shù)發(fā)展已見(jiàn)成熟,交互以及視頻領(lǐng)域應(yīng)用熱度高

如何讓人與機(jī)器順暢溝通,是人類(lèi)長(zhǎng)期以來(lái)不斷探索的重要內(nèi)容之一,而智能語(yǔ)音技術(shù)作為讓機(jī)器能夠聽(tīng)懂人類(lèi)語(yǔ)音并擁有自然交互性的科學(xué),早在上世紀(jì)80年代就已闖入人類(lèi)視野。歷經(jīng)2010年之前的起步期、2011-2015的變革期,以及2016至今的落地期,準(zhǔn)確率不斷逼近人類(lèi)水平,以智能語(yǔ)音助手、智能音箱為代表的技術(shù)與產(chǎn)品大力發(fā)展起來(lái)。業(yè)界普遍認(rèn)為,由于語(yǔ)音交互提供了更自然、更便利、更高效的溝通形式,未來(lái)很大程度上會(huì)成為最主要的人機(jī)交互形式而存在。作為智能語(yǔ)音陣營(yíng)中的關(guān)鍵技術(shù),語(yǔ)音識(shí)別技術(shù)近年來(lái)也是突飛猛進(jìn),走出實(shí)驗(yàn)室并走進(jìn)人們的日常生活中,現(xiàn)如今無(wú)論是智能家居、智慧出行,視頻創(chuàng)作還是智慧辦公等場(chǎng)景,它都已不可或缺。

值得提及,在大家習(xí)以為常的辦公場(chǎng)景中,從早期解放雙手呼之欲出的語(yǔ)音輸入,到首次與辦公場(chǎng)景緊密結(jié)合的語(yǔ)音助手,再到發(fā)展至今被爭(zhēng)相使用的語(yǔ)音字幕,語(yǔ)音識(shí)別歷經(jīng)的創(chuàng)新不斷。談及語(yǔ)音字幕,兩種類(lèi)型的具體應(yīng)用場(chǎng)景其實(shí)是普遍存在的:一種是會(huì)議進(jìn)行中將語(yǔ)音實(shí)時(shí)轉(zhuǎn)為文字,不僅可以實(shí)時(shí)查看原語(yǔ)言的字幕,也可以實(shí)時(shí)查看翻譯后的字幕;另一種是會(huì)議結(jié)束之后通過(guò)語(yǔ)音轉(zhuǎn)寫(xiě)出會(huì)議紀(jì)要,以此降低會(huì)后文字整理難度。但究其本質(zhì),無(wú)論是語(yǔ)音輸入還是語(yǔ)音助手,抑或是現(xiàn)在流行的語(yǔ)音字幕,歸根結(jié)底都是以提升辦公效率為目標(biāo),火山語(yǔ)音團(tuán)隊(duì)也正是基于此將更多精力投入辦公方向,希望通過(guò)更具優(yōu)勢(shì)的語(yǔ)音識(shí)別技術(shù)努力優(yōu)化“千言轉(zhuǎn)文字,一字勝千言”的效果。

基于此團(tuán)隊(duì)上線了實(shí)時(shí)字幕解決方案,不僅可以幫助參會(huì)人更好理解會(huì)議內(nèi)容并回顧結(jié)論,還能通過(guò)“識(shí)別+翻譯”的同傳方案高效完成跨國(guó)、跨語(yǔ)言的溝通和交流。尤其是方案的會(huì)議轉(zhuǎn)寫(xiě)能力,不但可以準(zhǔn)確記錄參會(huì)人的討論內(nèi)容,還能根據(jù)說(shuō)話人特征進(jìn)行自動(dòng)歸類(lèi)和整理,通常1小時(shí)的會(huì)議只需2-3分鐘即可輸出會(huì)議記錄,方便快捷。整體來(lái)說(shuō),為了更好提升會(huì)議的智能化程度以及效率,火山語(yǔ)音團(tuán)隊(duì)率先克服語(yǔ)音識(shí)別任務(wù)、下游任務(wù)及會(huì)議等方向的挑戰(zhàn),進(jìn)行了諸多升級(jí)與創(chuàng)新。

現(xiàn)如今從“看”到“拍”,短視頻已然成為全民時(shí)尚,正在當(dāng)下視聽(tīng)化、碎片化、快節(jié)奏的網(wǎng)絡(luò)時(shí)代中快速崛起。據(jù)相關(guān)數(shù)據(jù)顯示,截止到2022年第二季度數(shù)據(jù),我國(guó)短視頻用戶規(guī)模達(dá)9.62億人,可見(jiàn)越來(lái)越多人已經(jīng)開(kāi)始投身到短視頻創(chuàng)作中來(lái)。對(duì)此火山語(yǔ)音團(tuán)隊(duì)緊跟時(shí)下火熱的視頻創(chuàng)作風(fēng)潮,及時(shí)推出了智能字幕解決方案,一改傳統(tǒng)字幕10分鐘視頻3小時(shí)制作的耗時(shí)費(fèi)力。不僅能在幾秒鐘內(nèi)自動(dòng)生成精準(zhǔn)的語(yǔ)音識(shí)別結(jié)果,還能兼容多種口音、語(yǔ)種和方言,緊跟商用語(yǔ)音識(shí)別技術(shù)多語(yǔ)音的發(fā)展趨勢(shì),甚至針對(duì)創(chuàng)作常見(jiàn)的配樂(lè)和歌曲場(chǎng)景開(kāi)發(fā)了歌曲識(shí)別的亮點(diǎn)功能,大大降低了創(chuàng)作門(mén)檻,提升了創(chuàng)作的智能化。目前,火山語(yǔ)音的語(yǔ)音識(shí)別技術(shù)已廣泛應(yīng)用于視頻娛樂(lè)、辦公會(huì)議、硬件交互、智能客服等諸多行業(yè),提供了優(yōu)質(zhì)有前景的語(yǔ)音識(shí)別解決方案。

長(zhǎng)期以來(lái),火山語(yǔ)音面向字節(jié)跳動(dòng)各大業(yè)務(wù)線提供行業(yè)優(yōu)質(zhì)的 AI 語(yǔ)音技術(shù)能力以及全棧語(yǔ)音產(chǎn)品解決方案,并通過(guò)火山引擎對(duì)外提供服務(wù)。目前團(tuán)隊(duì)的語(yǔ)音識(shí)別和語(yǔ)音合成覆蓋了多種語(yǔ)言和方言,涵蓋音視頻、有聲閱讀、語(yǔ)音交互、游戲、廣告等多種應(yīng)用場(chǎng)景,為抖音、剪映、飛書(shū)、番茄小說(shuō)、PICO 等核心業(yè)務(wù)提供了領(lǐng)先的語(yǔ)音能力??梢钥闯?,火山語(yǔ)音團(tuán)隊(duì)在智能語(yǔ)音道路上不斷探索創(chuàng)新,將前沿科技與業(yè)務(wù)場(chǎng)景高效結(jié)合,以實(shí)現(xiàn)更大的用戶價(jià)值與可能性,不止字幕,也將不止步于字幕。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )