自2010年上線至今,訊飛輸入法已歷過(guò)十一個(gè)春秋。十一年來(lái),訊飛輸入法為無(wú)數(shù)用戶提供了高效精準(zhǔn)的語(yǔ)音輸入體驗(yàn),現(xiàn)在每分鐘可輸入400字、識(shí)別精度超過(guò)98%。尤其是前不久剛剛發(fā)布的v11.0版本,搭載了新一代語(yǔ)音識(shí)別框架,語(yǔ)音識(shí)別更準(zhǔn),為復(fù)雜場(chǎng)景帶來(lái)更精準(zhǔn)、更快速語(yǔ)音識(shí)別與輸入能力。訊飛輸入法V11.0的新一代語(yǔ)音識(shí)別框架是什么?為什么有如此神奇的功效?下面我們就來(lái)看看。
科大訊飛輸入法業(yè)務(wù)部總經(jīng)理程坤此前在談到這問(wèn)題時(shí)曾表示,相對(duì)于拼音輸入和手寫輸入來(lái)說(shuō),語(yǔ)音輸入最大的挑戰(zhàn)非復(fù)雜場(chǎng)景莫屬,因?yàn)橛脩舻妮斎雸?chǎng)景不可能是裝有隔音墻的錄音室,無(wú)處不在的噪聲、混響直接影響著語(yǔ)音識(shí)別的準(zhǔn)確率,進(jìn)而左右用戶的輸入體驗(yàn),如何保證一個(gè)比較好的識(shí)別效果是需要重點(diǎn)去突破的技術(shù)難點(diǎn)。
為此訊飛輸入法從啟動(dòng)深度學(xué)習(xí)語(yǔ)音識(shí)別研究以來(lái),一直在優(yōu)化迭代其語(yǔ)音識(shí)別模型框架,從DNN到RNN到DFCNN再到Encode-decode,不斷提升語(yǔ)音識(shí)別的效果,進(jìn)而保證訊飛輸入法語(yǔ)音輸入等訊飛語(yǔ)音相關(guān)產(chǎn)品的功能持續(xù)優(yōu)化。
受到人耳具備的聽覺選擇性注意能力的啟發(fā),訊飛提出復(fù)雜場(chǎng)景下的前后端一體化語(yǔ)音識(shí)別框架TFMA(Temporal feedback end-end multi-channel ASR)框架,將原有的語(yǔ)音識(shí)別過(guò)程進(jìn)行重構(gòu)。
訊飛輸入法V11.0搭載的正是TFMA框架。
TFMA框架的靈感源于著名的“雞尾酒會(huì)”效應(yīng),即人耳在嘈雜的環(huán)境下可以巧妙地“離開”一段對(duì)話,去聽一聽旁邊的人在說(shuō)什么,屬于典型的自上(大腦)而下(聽覺系統(tǒng))的機(jī)制。而傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng),往往是由麥克風(fēng)陣列對(duì)音頻做降噪處理,得到單路音頻信號(hào)進(jìn)行識(shí)別,遵循的是自下而上的機(jī)制。
科大訊飛由此提出了TFMA前后端一體化的方案,將語(yǔ)音識(shí)別的前后端聯(lián)合優(yōu)化,直接訓(xùn)練多通道信號(hào)的識(shí)別模型,然后將后端模型的隱層信息反饋到前端,指導(dǎo)前端基于神經(jīng)網(wǎng)絡(luò)的波束形成器更新,形成一套自下而上和自上而下結(jié)合的流程,同時(shí)引入大量的專家知識(shí),融合神經(jīng)網(wǎng)絡(luò)和信號(hào)處理的優(yōu)勢(shì),保證了系統(tǒng)的魯棒性。
通過(guò)運(yùn)用TFMA語(yǔ)音識(shí)別框架,包括訊飛輸入法、訊飛智能錄音筆、訊飛翻譯機(jī)和智能辦公本等在內(nèi)軟硬件產(chǎn)品大大受益,這些產(chǎn)品在高噪聲、多人說(shuō)話、輕聲說(shuō)話等復(fù)雜場(chǎng)景下的語(yǔ)音識(shí)別能力再次提升,特別是-10分貝至-15分貝等惡劣場(chǎng)景下的識(shí)別由不可用變?yōu)楹糜?,識(shí)別結(jié)果越來(lái)越“懂你”!
除了語(yǔ)音識(shí)別準(zhǔn)確率的提升,訊飛輸入法V11.0還有幾大新功能值得一提:一是語(yǔ)音識(shí)別和翻譯的語(yǔ)種,從過(guò)去的4種語(yǔ)言擴(kuò)充到12種,包括中文、英語(yǔ)、俄語(yǔ)、法語(yǔ)、越語(yǔ)、韓語(yǔ)、日語(yǔ)、泰語(yǔ)、德語(yǔ)等等;二是候選項(xiàng)的合理化,用戶語(yǔ)音輸入結(jié)果更符合預(yù)期結(jié)果,即便是中英混合輸入也有近乎完美的呈現(xiàn)。三是對(duì)不標(biāo)準(zhǔn)普通話的識(shí)別效果更好。
訊飛輸入法V11.0是如何做到這幾點(diǎn)的?對(duì)此,程坤解釋道,訊飛V11.0多語(yǔ)種和之前的方言語(yǔ)音輸入方式的實(shí)現(xiàn)都依賴于訊飛的統(tǒng)一建模的技術(shù),將各種語(yǔ)種、方言的語(yǔ)料統(tǒng)一放到一個(gè)模型中訓(xùn)練,訓(xùn)練過(guò)程中各種語(yǔ)料并不拆開,訓(xùn)練完成后直接輸出,這樣即使用戶的普通話沒那么標(biāo)準(zhǔn)的情況下,訊飛輸入法也能保證一個(gè)很好的識(shí)別效果。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )