出門問問Mobvoi AI Lab三篇論文獲ICASSP 2019接收

ICASSP 2019將于2019年5月12日-17日在英國(guó)布萊頓拉開序幕,作為國(guó)內(nèi)AI語音賽道獨(dú)角獸公司的出門問問Mobvoi AI Lab有三篇論文已經(jīng)被ICASSP 2019接收。ICASSP 全稱 International Conference on Acoustics, Speech and Signal Processing(國(guó)際聲學(xué)、語音與信號(hào)處理會(huì)議),是由 IEEE 主辦的全世界最大的,也是最全面的信號(hào)處理及其應(yīng)用方面的頂級(jí)學(xué)術(shù)年會(huì)。

出門問問是一家以語音交互和軟硬結(jié)合為核心的人工智能公司。2012年創(chuàng)立后,出門問問始終以定義下一代人機(jī)交互方式為使命,堅(jiān)持做AI應(yīng)用的探索,希望用“AI喚醒生活”,讓每一個(gè)人都能夠感受到,以語音交互為代表的AI科技可以給每個(gè)人帶來的美好與便利。

技術(shù)方面,出門問問擁有全套自主研發(fā)的智能語音交互八大關(guān)鍵核心技術(shù),掌握600多項(xiàng)技術(shù)專利。從1.前端聲音信號(hào)處理,到2.熱詞喚醒,到3.語音識(shí)別,到4.自然語言理解和5.對(duì)話管理,到6.垂直智能搜索和7.推送,到8.語音合成,在這一整套“聽到-識(shí)別-處理-輸出”的人機(jī)交互過程中,出門問問可以自主提供所有技術(shù),為需要語音交互的場(chǎng)景提供一整套端到端人機(jī)交互解決方案。

出門問問始終堅(jiān)持產(chǎn)學(xué)研高度一體化,在語音交互技術(shù)上一直深入探索,由IEEE院士(IEEE Fellow)黃美玉博士領(lǐng)導(dǎo)的出門問問Mobvoi AI Lab,在此次ICASSP 2019提交的論文概述如下。

【1】信任正則化的知識(shí)蒸餾在遞歸神經(jīng)網(wǎng)絡(luò)語言模型上的應(yīng)用

Knowledge Distillation for Recurrent Neural Network Language Modeling with Trust Regularization

Yangyang Shi, Mei-Yuh Hwang, Xin Lei,

Mobvoi AI Lab,Seattle, USA

Haoyu Sheng

Williams College

基于遞歸神經(jīng)網(wǎng)絡(luò)的語言模型較于傳統(tǒng)的n-gram語言模型,有顯著的性能提升,已經(jīng)成為語言模型的主流模型,在很多云端應(yīng)用中得到廣泛的青睞。然而遞歸神經(jīng)網(wǎng)絡(luò)語言模型在實(shí)際應(yīng)用中需要占據(jù)大量的內(nèi)存容量以及計(jì)算資源。在很多移動(dòng)終端,由于有限的內(nèi)存以及功耗,極大的限制了遞歸神經(jīng)網(wǎng)絡(luò)語言模型的應(yīng)用。最近知識(shí)蒸餾的方法被用于壓縮遞歸神經(jīng)網(wǎng)絡(luò)語言模型并減少它在終端裝置上的計(jì)算量。這一篇文章也同樣采用了知識(shí)蒸餾的方法,并用信任正則化的方法對(duì)知識(shí)蒸餾方法做出了改進(jìn)。文章的實(shí)驗(yàn)表明這種信任正則化的知識(shí)蒸餾方法,可以把 Penn Treebank 數(shù)據(jù)集的遞歸神經(jīng)網(wǎng)絡(luò)的模型大小降到原有大小的33%,而仍然得到當(dāng)前學(xué)術(shù)界最好的結(jié)果。在華爾街日?qǐng)?bào)語音識(shí)別的任務(wù)中,這篇文章的實(shí)驗(yàn)表明,信任正則化的知識(shí)蒸餾方法可以將遞歸神經(jīng)網(wǎng)絡(luò)語言模型的大小降到原有大小的18.5%,并且仍然保持和原有模型一樣的效果。

【2】基于高階LSTM-CTC的端到端語音識(shí)別

End-To-End Speech Recognition Using A High Rank LSTM-CTC Based Model

Yangyang Shi,Mei-Yuh Hwang,Xin Lei

Mobvoi AI Lab, Seattle, USA

基于LSTM-CTC的端到端語音模型, 由于其簡(jiǎn)單的訓(xùn)練過程以及高效的解碼過程,最近在語音識(shí)別領(lǐng)域得到廣泛的關(guān)注和應(yīng)用。在傳統(tǒng)的LSTM-CTC模型中,一個(gè)瓶頸投影矩陣將LSTM隱層的輸出向量投影到CTC的輸入向量。研究表明增強(qiáng)這個(gè)瓶頸投影矩陣的階數(shù)可以提高LSTM模型的表達(dá)能力。這篇文章提出用一個(gè)高階的投影層替代傳統(tǒng)的投影矩陣。高階投影層以LSTM的隱層的輸出向量作為輸入,經(jīng)過一系列的投影矩陣以及非線性函數(shù),這個(gè)高階投影層的輸出是一系列向量的線性組合。在高階投影層中,這些線性組合的權(quán)重也是由模型根據(jù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)得到。文章的實(shí)驗(yàn)表明在語音領(lǐng)域普遍采用的WSJ數(shù)據(jù)集以及Librispeech數(shù)據(jù)集合上,較于傳統(tǒng)的LSTM-CTC的端到端語音模型,高階的LSTM-CTC模型可以帶來3%-10%相對(duì)詞錯(cuò)誤率的下降。

【3】使用對(duì)抗性樣例提升基于注意力機(jī)制端到端的神經(jīng)網(wǎng)絡(luò)關(guān)鍵字檢出模型

Adversarial Examples for Improving End-to-end Attention-based Small-Footprint Keyword Spotting

Xiong Wang, Sining Sun, Changhao Shan, Jingyong Hou, Lei Xie,

School of Computer Science, Northwestern Polytechnical University, Xi’an, China

Shen Li, Xin Lei

Mobvoi AI Lab, Beijing, China

本文提出使用對(duì)抗性樣例來提升關(guān)鍵字檢出(Keyword spotting,KWS)的性能。 對(duì)抗性樣例近年來在深度學(xué)習(xí)領(lǐng)域是一個(gè)研究熱點(diǎn),它是指在原來正確分類的樣例上加一個(gè)輕微的擾動(dòng)后即被分類器錯(cuò)誤分類的樣例。 在KWS任務(wù)中,將系統(tǒng)誤喚醒或誤拒絕的錯(cuò)誤樣例視為對(duì)抗性樣例非常直觀而貼切競(jìng)爭(zhēng)性樣例的概念。在我們的工作中,我們首先建立了一個(gè)訓(xùn)練有素的基于注意力機(jī)制端到端的KWS模型,然后使用快速梯度符號(hào)法(FGSM)生成了對(duì)抗性的樣例,發(fā)現(xiàn)這些樣例會(huì)顯著降低KWS的性能,最后我們利用這些對(duì)抗性的樣例作為增強(qiáng)數(shù)據(jù)來一起訓(xùn)練KWS模型。最終在出門問問智能音響上收集的喚醒詞數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,設(shè)定閾值在每小時(shí)1.0次誤喚醒情況下,提出的方法獲得了相對(duì)44.7%的誤拒絕率的降低。

作為AI語音領(lǐng)頭公司,出門問問2018年開始在學(xué)術(shù)頂會(huì)發(fā)表重要論文,并在麥克風(fēng)陣列噪聲消減、口語理解、噪聲環(huán)境下的語音識(shí)別、帶口音的語音識(shí)別中實(shí)現(xiàn)重大突破。

未來,出門問問不僅要做人工智能技術(shù)的前鋒探索者,更要做人工智能應(yīng)用的奠基人,既保持前端技術(shù)的研發(fā)能力,同時(shí)擁有扎實(shí)的落地應(yīng)用能力,ToC通過AI可穿戴、車載、智能家居消費(fèi)級(jí)智能硬件+ToB通過AI企業(yè)服務(wù)雙輪戰(zhàn)略驅(qū)動(dòng),繼續(xù)探索,用AI喚醒更多人的生活。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-02-11
出門問問Mobvoi AI Lab三篇論文獲ICASSP 2019接收
ICASSP 2019將于2019年5月12日-17日在英國(guó)布萊頓拉開序幕,作為國(guó)內(nèi)AI語音賽道獨(dú)角獸公司的出門問問Mobvoi AI Lab有三篇論文已經(jīng)被I

長(zhǎng)按掃碼 閱讀全文