近日,語(yǔ)音研究領(lǐng)域頂級(jí)會(huì)議Interspeech2020召開(kāi),在本次大會(huì)的口音英語(yǔ)語(yǔ)音識(shí)別挑戰(zhàn)賽上,騰訊云小微&騰訊云智能鈦聯(lián)合團(tuán)隊(duì)在口音英語(yǔ)語(yǔ)音識(shí)別賽道中以大幅領(lǐng)先的成績(jī)獲得冠軍。
Interspeech是由國(guó)際語(yǔ)音通信協(xié)會(huì)ISCA組織的語(yǔ)音研究領(lǐng)域的頂級(jí)會(huì)議之一。本次大會(huì)上提出,在全球范圍內(nèi),標(biāo)準(zhǔn)英文ASR系統(tǒng)已經(jīng)具備較高的識(shí)別正確率,但口音英語(yǔ)識(shí)別仍然是具有挑戰(zhàn)性的課題,也是技術(shù)應(yīng)用中亟待克服的最大挑戰(zhàn)。為此,大會(huì)特別設(shè)置了口音英語(yǔ)語(yǔ)音識(shí)別挑戰(zhàn)賽,正是為了促進(jìn)行業(yè)技術(shù)交流,展示最新技術(shù)突破。
在本次口音英語(yǔ)語(yǔ)音識(shí)別挑戰(zhàn)賽中,向參賽者開(kāi)放了來(lái)自不同國(guó)家的共八種口音英文數(shù)據(jù),覆蓋了各種發(fā)音特點(diǎn)、口音輕重等典型難點(diǎn)。騰訊云小微&騰訊云智能鈦聯(lián)合團(tuán)隊(duì)的技術(shù)方案,以識(shí)別錯(cuò)誤率最低且優(yōu)于第二名10%的好成績(jī)獲得賽道第一。
采用探索性語(yǔ)音識(shí)別方案,騰訊聯(lián)合團(tuán)隊(duì)展示技術(shù)研究實(shí)力
口音語(yǔ)音識(shí)別難點(diǎn)主要源于口音本身的不一致性、語(yǔ)速與音素發(fā)音的多變性難以建模等問(wèn)題。另外,帶有口音標(biāo)注的語(yǔ)音數(shù)據(jù)的短缺也嚴(yán)重限制了相關(guān)研究的開(kāi)展。作為在業(yè)內(nèi)頗具代表性的AI語(yǔ)音技術(shù)團(tuán)隊(duì),騰訊云小微&騰訊云智能鈦聯(lián)合團(tuán)隊(duì)在此次比賽中,突破性的選擇了基于Wav2Vector無(wú)監(jiān)督預(yù)訓(xùn)練+CTC Fine-tuning的Wav2Vec方案。該方案的原型是Facebook公司在今年首次提出的。在本次比賽前,幾乎沒(méi)有其他關(guān)于Wav2Vector的成功應(yīng)用。因此,此次比賽是騰訊云小微團(tuán)隊(duì)在語(yǔ)音識(shí)別方案上的全新探索。
在這個(gè)方案中,騰訊團(tuán)隊(duì)首先使用Librispeech無(wú)監(jiān)督預(yù)訓(xùn)練的Wav2Vector模型進(jìn)行模型初始化,之后在預(yù)訓(xùn)練模型上添加一層輸出層,采用英文字母作為建模單元,并使用CTC損失函數(shù)進(jìn)行訓(xùn)練。由于模型采用的是字母建模,識(shí)別結(jié)果隨機(jī)性較大,容易引入過(guò)多錯(cuò)誤。因此,團(tuán)隊(duì)引入了語(yǔ)言模型進(jìn)行約束,大幅提高了識(shí)別性能。經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),解碼時(shí)引入N元文法(N-Gram)語(yǔ)言模型,可以下降30%的識(shí)別錯(cuò)誤率。同時(shí),進(jìn)一步采用基于Transformer的語(yǔ)言模型對(duì)解碼的候選結(jié)果進(jìn)行重打分,錯(cuò)誤率可以下降7%。
大規(guī)模分布式訓(xùn)練加速,騰訊云智能鈦為AI研究與應(yīng)用提供極致的平臺(tái)支撐
此次比賽由云小微團(tuán)隊(duì)與智能鈦團(tuán)隊(duì)合力完成,是智能鈦平臺(tái)繼2020.8.21與騰訊機(jī)智團(tuán)隊(duì)一道打破128卡訓(xùn)練ImageNet的業(yè)界新記錄后,在大規(guī)模分布式訓(xùn)練加速場(chǎng)景上的又一個(gè)成功案例。智能鈦平臺(tái)整合了騰訊內(nèi)部各業(yè)務(wù)團(tuán)隊(duì)的豐富經(jīng)驗(yàn),針對(duì)大規(guī)模分布式訓(xùn)練加速場(chǎng)景,在單機(jī)性能、多機(jī)擴(kuò)展、AutoML等三個(gè)方面進(jìn)行了深度優(yōu)化,可以有效地支撐各AI團(tuán)隊(duì)的研究與應(yīng)用。具體如下:
極致的單機(jī)性能: 智能鈦團(tuán)隊(duì)協(xié)同內(nèi)部的開(kāi)源團(tuán)隊(duì),推出了深度定制版TensorFlow(TI-TensorFlow),在高維動(dòng)態(tài)稀疏特征支持、編譯優(yōu)化、自動(dòng)混合精度訓(xùn)練等特性上對(duì)社區(qū)版TensorFlow進(jìn)行了深度優(yōu)化,大大提升了模型單機(jī)性能。
線(xiàn)性多機(jī)擴(kuò)展: 智能鈦TI-Horovod在開(kāi)源框架的基礎(chǔ)上,結(jié)合騰訊云的軟硬件環(huán)境進(jìn)行了深度優(yōu)化。通過(guò)自研的自適應(yīng)梯度融合、2D AllReduce和多流通信等技術(shù),實(shí)現(xiàn)了近千卡的線(xiàn)性擴(kuò)展加速。通過(guò)首創(chuàng)的層級(jí)Topk技術(shù),突破了弱網(wǎng)環(huán)境下的帶寬瓶頸。
高效AutoML: 針對(duì)深度學(xué)習(xí)訓(xùn)練規(guī)模大、超參數(shù)范圍廣和人工調(diào)參效率低的問(wèn)題,智能鈦TI-AutoML內(nèi)置了騰訊自研的高效自動(dòng)化搜索技術(shù),充分利用騰訊云的海量算力,讓算法工程師從繁瑣的手工調(diào)參中解放出來(lái)。
語(yǔ)音技術(shù)持續(xù)突破,加速各行業(yè)落地應(yīng)用
在AI語(yǔ)音助手的實(shí)際應(yīng)用中,如何提高口音識(shí)別成功率,是業(yè)內(nèi)一直在關(guān)注和探索的問(wèn)題。在中英文翻譯方面,騰訊云小微輸出的技術(shù)方案,旨在提高英語(yǔ)語(yǔ)音識(shí)別的準(zhǔn)確率,進(jìn)而提升翻譯效率和準(zhǔn)確性。已經(jīng)在騰訊翻譯君、騰訊同傳等各行業(yè)方案中廣泛應(yīng)用。
除了中英文翻譯領(lǐng)域,騰訊云小微AI助手,已經(jīng)在智能網(wǎng)聯(lián)汽車(chē)、智慧文旅、智慧教育、智能家居等多行業(yè)領(lǐng)域落地,服務(wù)廣泛的用戶(hù)群體??谝粽Z(yǔ)音識(shí)別的突破,對(duì)于中文語(yǔ)音助手的技術(shù)提升也有很大的價(jià)值。比如在車(chē)載語(yǔ)音助手的應(yīng)用上,一款汽車(chē)產(chǎn)品需要滿(mǎn)足全國(guó)范圍不同區(qū)域、不同口音用戶(hù)的交互需求。比如車(chē)載語(yǔ)音助手上,由于用戶(hù)來(lái)自全國(guó)不同區(qū)域,用戶(hù)的口音將直接影響識(shí)別的準(zhǔn)確性,特別是對(duì)于口音較重的用戶(hù)。本次挑戰(zhàn)賽中,騰訊云小微參賽團(tuán)隊(duì)探索端到的AI訓(xùn)練方法,為日后的方案應(yīng)用落地和迭代提供了更有價(jià)值的技術(shù)助力,將推動(dòng)AI語(yǔ)音助手方案為用戶(hù)帶來(lái)更好的服務(wù)體驗(yàn)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )