123,123

你是否遭遇過這樣的時(shí)刻，暢享直播賽事卻不方便聽解說，僅僅看畫面又“云里霧里”?

“本想上班路上蹭個(gè)球賽卻出門急沒帶耳機(jī)，地鐵里雖然一直盯著屏幕但好像還是忽略了很多關(guān)鍵細(xì)節(jié)……”

“深夜看比賽雖然氣氛拉滿，但要是影響到別人休息就不好了，所以也不敢放肆開聲音盡情看……”

你是否旁觀過這樣一群人，他們“想看比賽卻又聽不清解說”，原本是一場眾樂樂的活動(dòng)，卻最后成為他們自己的“不太快樂”?

“有的時(shí)候真的聽不清楚解說，所以很長時(shí)間就不怎么和家人一起看比賽了，更多是個(gè)表面熱鬧，內(nèi)心沒啥波瀾……”

“聽不清解說還真有點(diǎn)兒自卑，看畫面很多時(shí)候也會(huì)跟不上，絕對(duì)是看了個(gè)寂寞，就不想浪費(fèi)時(shí)間了……”

如今變化正在悄悄發(fā)生。本次卡塔爾世界杯熱播之際，在火山語音以及火山同傳的技術(shù)支持下，無障礙字幕直播間驚喜上線，讓無論是往返于公共交通、不便使用耳機(jī)觀賽的鐵桿球迷，還是不懂球卻想看球的體育小白，抑或是因?yàn)樯眢w原因聽不清解說卻有觀賽渴望的聽障群體，都可通過字幕實(shí)時(shí)了解世界杯直播并及時(shí)獲取賽場重要信息，帶來較以往不同的觀賽體驗(yàn)。

“十幾年前就聽說春晚要加直播字幕，最后因?yàn)榉N種原因沒能如愿。過去一家人在電視前守夜，看到有趣的小品相聲都會(huì)哈哈大笑，而我只能第二天獨(dú)自看帶字幕的重播，然后一個(gè)人傻樂……現(xiàn)在有了無障礙字幕直播間，我終于可以和家人朋友一起感受比賽帶來的歡樂了。”阿濤驚喜地說。

突破層層技術(shù)關(guān)，火山語音讓字幕更準(zhǔn)更快更好

曾經(jīng)讓阿濤記掛多年的“春晚直播加字幕”，其實(shí)背后需要攻克相當(dāng)復(fù)雜的技術(shù)難關(guān)。

以本次世界杯無障礙字幕直播間為例，世界杯賽場風(fēng)云變幻，解說的口音和語速更是差異萬分，為了讓同傳字幕不受其影響，火山語音團(tuán)隊(duì)基于RNN-T框架，通過大量訓(xùn)練數(shù)據(jù)的積累和持續(xù)的算法優(yōu)化，推出了自研端到端的流式語音識(shí)別系統(tǒng)來解決，不但有效規(guī)避了傳統(tǒng)的語音識(shí)別系統(tǒng)中涉及的大量人工流程，同時(shí)還做到了系統(tǒng)復(fù)雜度簡化很多，構(gòu)建起來更加容易，效果還會(huì)更好。

實(shí)踐顯示，優(yōu)化后的模型不僅對(duì)口音和復(fù)雜場景展現(xiàn)出更強(qiáng)的魯棒性，而且對(duì)領(lǐng)域詞匯的識(shí)別能力以及推理速度，字幕上屏速度也得到了大幅度提升。對(duì)此阿濤表示，無障礙字幕功能的聲音、畫面雖然官方說整體會(huì)延遲30s，但實(shí)際與直播延遲的時(shí)間并不大，觀感舒適度大大提高。

長期以來，噪音都是影響語音識(shí)別精準(zhǔn)度的重要因素之一。“賽場上經(jīng)常會(huì)出現(xiàn)的觀眾吶喊聲，特別容易被誤識(shí)別為'嗯、啊、哈'的語氣詞;背景音樂和觀眾聲則會(huì)降低解說員聲音的清晰度，對(duì)識(shí)別模型造成了較大挑戰(zhàn)。”為應(yīng)對(duì)這類問題，火山語音團(tuán)隊(duì)通過從足球比賽音頻中提取出這些噪聲片段，在模型中顯式地建模噪聲，將噪聲誤出字的比例下降了95%;同時(shí)通過數(shù)據(jù)增強(qiáng)方式提高聲學(xué)模型在足球場景下的魯棒性，即在有背景音的情況下也能清晰識(shí)別人聲，實(shí)現(xiàn)更好的流式字幕效果。

“在世界杯這樣的全球大型賽事中，大量的專業(yè)術(shù)語以及外籍教練與運(yùn)動(dòng)員的人名，會(huì)為語音識(shí)別帶來不小的困難，但也成為提升同傳字幕專業(yè)度的關(guān)鍵。”通常的做法其實(shí)是收集相關(guān)場景的語音識(shí)別訓(xùn)練集，但收集的過程耗費(fèi)時(shí)間太長且成本較高;而且面對(duì)大量文本語料，如何利用這些純文本來優(yōu)化領(lǐng)域識(shí)別效果，也是個(gè)不小的問題。

對(duì)此火山語音團(tuán)隊(duì)率先整理了大量與足球相關(guān)以及與世界杯相關(guān)的語料，在這些語料的基礎(chǔ)上訓(xùn)練語言模型，通過語言模型干預(yù)的方式，提高了模型在足球領(lǐng)域的適配性。由于端到端模型本身也隱含語言模型信息，直接與外部語言模型進(jìn)行融合往往效果不佳，所以團(tuán)隊(duì)根據(jù) RNN-T 的建模方式，通過解耦聲學(xué)模型和語言模型，顯式建模內(nèi)部語言模型，調(diào)整內(nèi)部語言模型和外部語言模型的權(quán)重，以此實(shí)現(xiàn)最佳的融合效果。

“對(duì)于教練與運(yùn)動(dòng)員人名識(shí)別難的問題，我們從足球相關(guān)語料中自動(dòng)挖掘?qū)Ｓ忻~、球隊(duì)和球員名稱等術(shù)語，通過在解碼備選中引入FST(Finite State Transducer)邏輯結(jié)構(gòu)，結(jié)合'匹配走圖+Backoff權(quán)重償還'的方式對(duì)熱詞進(jìn)行干預(yù)，有效利用該熱詞專項(xiàng)技術(shù)優(yōu)化后，這些術(shù)語的召回從 64% 提升到 76%。”團(tuán)隊(duì)總結(jié)道。

經(jīng)過反復(fù)實(shí)踐與驗(yàn)證，為追求更優(yōu)效果，團(tuán)隊(duì)又進(jìn)一步對(duì)人名熱詞干預(yù)做了擴(kuò)大FST干預(yù)備選以及對(duì)熱詞區(qū)分稀疏熱詞和普通熱詞，然后對(duì)兩種熱詞分別構(gòu)圖，在解碼邏輯區(qū)別處理的優(yōu)化，帶來人名的召回率從76%提升到84%的效果。此外還聯(lián)合火山語音音頻合成團(tuán)隊(duì)的同學(xué)，采用TTS技術(shù)合成術(shù)語音頻，并加入聲學(xué)模型訓(xùn)練中，將這些術(shù)語的召回率進(jìn)一步提高到90%，字幕效果更佳。

一直以來，火山語音團(tuán)隊(duì)的語音識(shí)別技術(shù)都不斷追求更快、更準(zhǔn)、更穩(wěn)定且更強(qiáng)悍的目標(biāo)，不久之前還榮獲了國家語音及圖像識(shí)別產(chǎn)品質(zhì)量檢驗(yàn)檢測中心頒發(fā)的語音識(shí)別增強(qiáng)級(jí)檢驗(yàn)檢測證書，充分表明其語音識(shí)別技術(shù)能力已達(dá)行業(yè)領(lǐng)先水平。

就像很多前沿機(jī)構(gòu)預(yù)測的一樣，可靠快速的語音識(shí)別能力或?qū)⒊蔀槲磥砻總€(gè)人日常生活中不可缺少的一部分，技術(shù)將索引視頻，以及更多類型的媒體內(nèi)容，甚至成為每一個(gè)音頻和視頻都實(shí)現(xiàn)可訪問以及可操作的關(guān)鍵，或許無障礙字幕直播間就意味著這種“開始”。

語音識(shí)別技術(shù)發(fā)展已見成熟，交互以及視頻領(lǐng)域應(yīng)用熱度高

如何讓人與機(jī)器順暢溝通，是人類長期以來不斷探索的重要內(nèi)容之一，而智能語音技術(shù)作為讓機(jī)器能夠聽懂人類語音并擁有自然交互性的科學(xué)，早在上世紀(jì)80年代就已闖入人類視野。歷經(jīng)2010年之前的起步期、2011-2015的變革期，以及2016至今的落地期，準(zhǔn)確率不斷逼近人類水平，以智能語音助手、智能音箱為代表的技術(shù)與產(chǎn)品大力發(fā)展起來。業(yè)界普遍認(rèn)為，由于語音交互提供了更自然、更便利、更高效的溝通形式，未來很大程度上會(huì)成為最主要的人機(jī)交互形式而存在。作為智能語音陣營中的關(guān)鍵技術(shù)，語音識(shí)別技術(shù)近年來也是突飛猛進(jìn)，走出實(shí)驗(yàn)室并走進(jìn)人們的日常生活中，現(xiàn)如今無論是智能家居、智慧出行，視頻創(chuàng)作還是智慧辦公等場景，它都已不可或缺。

值得提及，在大家習(xí)以為常的辦公場景中，從早期解放雙手呼之欲出的語音輸入，到首次與辦公場景緊密結(jié)合的語音助手，再到發(fā)展至今被爭相使用的語音字幕，語音識(shí)別歷經(jīng)的創(chuàng)新不斷。談及語音字幕，兩種類型的具體應(yīng)用場景其實(shí)是普遍存在的：一種是會(huì)議進(jìn)行中將語音實(shí)時(shí)轉(zhuǎn)為文字，不僅可以實(shí)時(shí)查看原語言的字幕，也可以實(shí)時(shí)查看翻譯后的字幕;另一種是會(huì)議結(jié)束之后通過語音轉(zhuǎn)寫出會(huì)議紀(jì)要，以此降低會(huì)后文字整理難度。但究其本質(zhì)，無論是語音輸入還是語音助手，抑或是現(xiàn)在流行的語音字幕，歸根結(jié)底都是以提升辦公效率為目標(biāo)，火山語音團(tuán)隊(duì)也正是基于此將更多精力投入辦公方向，希望通過更具優(yōu)勢的語音識(shí)別技術(shù)努力優(yōu)化“千言轉(zhuǎn)文字，一字勝千言”的效果。

基于此團(tuán)隊(duì)上線了實(shí)時(shí)字幕解決方案，不僅可以幫助參會(huì)人更好理解會(huì)議內(nèi)容并回顧結(jié)論，還能通過“識(shí)別+翻譯”的同傳方案高效完成跨國、跨語言的溝通和交流。尤其是方案的會(huì)議轉(zhuǎn)寫能力，不但可以準(zhǔn)確記錄參會(huì)人的討論內(nèi)容，還能根據(jù)說話人特征進(jìn)行自動(dòng)歸類和整理，通常1小時(shí)的會(huì)議只需2-3分鐘即可輸出會(huì)議記錄，方便快捷。整體來說，為了更好提升會(huì)議的智能化程度以及效率，火山語音團(tuán)隊(duì)率先克服語音識(shí)別任務(wù)、下游任務(wù)及會(huì)議等方向的挑戰(zhàn)，進(jìn)行了諸多升級(jí)與創(chuàng)新。

現(xiàn)如今從“看”到“拍”，短視頻已然成為全民時(shí)尚，正在當(dāng)下視聽化、碎片化、快節(jié)奏的網(wǎng)絡(luò)時(shí)代中快速崛起。據(jù)相關(guān)數(shù)據(jù)顯示，截止到2022年第二季度數(shù)據(jù)，我國短視頻用戶規(guī)模達(dá)9.62億人，可見越來越多人已經(jīng)開始投身到短視頻創(chuàng)作中來。對(duì)此火山語音團(tuán)隊(duì)緊跟時(shí)下火熱的視頻創(chuàng)作風(fēng)潮，及時(shí)推出了智能字幕解決方案，一改傳統(tǒng)字幕10分鐘視頻3小時(shí)制作的耗時(shí)費(fèi)力。不僅能在幾秒鐘內(nèi)自動(dòng)生成精準(zhǔn)的語音識(shí)別結(jié)果，還能兼容多種口音、語種和方言，緊跟商用語音識(shí)別技術(shù)多語音的發(fā)展趨勢，甚至針對(duì)創(chuàng)作常見的配樂和歌曲場景開發(fā)了歌曲識(shí)別的亮點(diǎn)功能，大大降低了創(chuàng)作門檻，提升了創(chuàng)作的智能化。目前，火山語音的語音識(shí)別技術(shù)已廣泛應(yīng)用于視頻娛樂、辦公會(huì)議、硬件交互、智能客服等諸多行業(yè)，提供了優(yōu)質(zhì)有前景的語音識(shí)別解決方案。

長期以來，火山語音面向字節(jié)跳動(dòng)各大業(yè)務(wù)線提供行業(yè)優(yōu)質(zhì)的 AI 語音技術(shù)能力以及全棧語音產(chǎn)品解決方案，并通過火山引擎對(duì)外提供服務(wù)。目前團(tuán)隊(duì)的語音識(shí)別和語音合成覆蓋了多種語言和方言，涵蓋音視頻、有聲閱讀、語音交互、游戲、廣告等多種應(yīng)用場景，為抖音、剪映、飛書、番茄小說、PICO 等核心業(yè)務(wù)提供了領(lǐng)先的語音能力。可以看出，火山語音團(tuán)隊(duì)在智能語音道路上不斷探索創(chuàng)新，將前沿科技與業(yè)務(wù)場景高效結(jié)合，以實(shí)現(xiàn)更大的用戶價(jià)值與可能性，不止字幕，也將不止步于字幕。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

無障礙字幕直播間之后，火山語音還想用語音識(shí)別技術(shù)做什么？

無障礙字幕直播間之后，火山語音還想用語音識(shí)別技術(shù)做什么？