百分點(diǎn)科技:聲紋識(shí)別技術(shù)發(fā)展及未來(lái)趨勢(shì)研究

編者按:近年來(lái),許多智能語(yǔ)音技術(shù)服務(wù)商開(kāi)始布局聲紋識(shí)別領(lǐng)域,聲紋識(shí)別逐漸進(jìn)入大眾視野。隨著技術(shù)的發(fā)展和在產(chǎn)業(yè)內(nèi)的不斷滲透,聲紋識(shí)別的市場(chǎng)占比也逐年上升,但目前聲紋識(shí)別需要解決的關(guān)鍵問(wèn)題還有很多。本文中,百分點(diǎn)感知智能實(shí)驗(yàn)室梳理了聲紋識(shí)別技術(shù)的發(fā)展歷史,并分析了每一階段的關(guān)鍵技術(shù)原理,以及遇到的困難與挑戰(zhàn),希望能夠讓大家對(duì)聲紋識(shí)別技術(shù)有進(jìn)一步了解。

聲紋(Voiceprint),是用電聲學(xué)儀器顯示的攜帶言語(yǔ)信息的聲波頻譜。人類語(yǔ)言的產(chǎn)生是人體語(yǔ)言中樞與發(fā)音器官之間一個(gè)復(fù)雜的生理物理過(guò)程,不同的人在講話時(shí)使用的發(fā)聲器官(舌、牙齒、喉頭、肺、鼻腔)在尺寸和形態(tài)方面有著很大的差異,所以任何兩個(gè)人的聲紋圖譜都是不同的。

每個(gè)人的語(yǔ)音聲學(xué)特征既有相對(duì)穩(wěn)定性,又有變異性,不是絕對(duì)的、一成不變的。這種變異可來(lái)自生理、病理、心理、模擬、偽裝,也與環(huán)境干擾有關(guān)。

盡管如此,由于每個(gè)人的發(fā)音器官都不盡相同,因此在一般情況下,人們?nèi)阅軈^(qū)別不同的人的聲音或判斷是否是同一人的聲音。因此聲紋也就成為一種鑒別說(shuō)話人身份的識(shí)別手段。

百分點(diǎn)科技:聲紋識(shí)別技術(shù)發(fā)展及未來(lái)趨勢(shì)研究

圖一 發(fā)聲器官示意圖

所謂聲紋識(shí)別,是生物識(shí)別技術(shù)的一種,也叫做說(shuō)話人識(shí)別,是一項(xiàng)根據(jù)語(yǔ)音波形中反映說(shuō)話人生理和行為特征的語(yǔ)音參數(shù),自動(dòng)識(shí)別語(yǔ)音說(shuō)話者身份的技術(shù)。首先需要對(duì)發(fā)音人進(jìn)行注冊(cè),即輸入發(fā)音人的一段說(shuō)話音頻,系統(tǒng)提取特征后存入模型庫(kù)中,然后輸入待識(shí)別音頻,系統(tǒng)提取特征后經(jīng)過(guò)比對(duì)打分從而判斷所輸入音頻中說(shuō)話人的身份。

從功能上來(lái)講,聲紋識(shí)別技術(shù)應(yīng)有兩類,分別為“1:N”和“1:1”。前者是判斷某段音頻是若干人中的哪一個(gè)人所說(shuō);后者則是確認(rèn)某段音頻是否為某個(gè)人所說(shuō)。因此不同的功能適用于不同的應(yīng)用領(lǐng)域,比如公安領(lǐng)域中重點(diǎn)人員布控、偵查破案、反電信欺詐、治安防控、司法鑒定等經(jīng)常用到的是“1:N”功能,即辨認(rèn)音頻若干人中的哪一個(gè)人所說(shuō);而“1:1”功能則更多應(yīng)用于金融領(lǐng)域的交易確認(rèn)、賬戶登錄、身份核驗(yàn)等。

從技術(shù)發(fā)展角度來(lái)說(shuō),聲紋識(shí)別技術(shù)經(jīng)歷了三個(gè)大階段:

第一階段,基于模板匹配的聲紋識(shí)別技術(shù);

第二階段,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的聲紋識(shí)別技術(shù);

第三階段,基于深度學(xué)習(xí)框架的聲紋識(shí)別技術(shù)。

一、模板匹配的聲紋識(shí)別

下圖是最早的聲紋識(shí)別技術(shù)框架,是一種非參數(shù)模型。

特點(diǎn):基于信號(hào)比對(duì)差別,通常要求注冊(cè)和待識(shí)別的說(shuō)話內(nèi)容相同,屬于文本相關(guān),因此局限性很強(qiáng)。

百分點(diǎn)科技:聲紋識(shí)別技術(shù)發(fā)展及未來(lái)趨勢(shì)研究

百分點(diǎn)科技:聲紋識(shí)別技術(shù)發(fā)展及未來(lái)趨勢(shì)研究

圖二 兩人對(duì)于同一數(shù)字發(fā)音與譜圖

此方法將訓(xùn)練特征參數(shù)和測(cè)試的特征參數(shù)進(jìn)行比較,兩者之間的失真(Distortion)作為相似度。例如VQ(Vector Quantization矢量量化)模型和動(dòng)態(tài)時(shí)間規(guī)整法DTW(Dynamic Time Warping)模型。

DTW 通過(guò)將輸入待識(shí)別的特征矢量序列與訓(xùn)練時(shí)提取的特征矢量進(jìn)行比較,通過(guò)最優(yōu)路徑匹配的方法來(lái)進(jìn)行識(shí)別。而VQ 方法則是通過(guò)聚類、量化的方法生成碼本,識(shí)別時(shí)對(duì)測(cè)試數(shù)據(jù)進(jìn)行量化編碼,以失真度的大小作為判決的標(biāo)準(zhǔn)。

二、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的技術(shù)框架

但由于第一階段只能用于文本相關(guān)的識(shí)別,即注冊(cè)語(yǔ)音的內(nèi)容需要跟識(shí)別語(yǔ)音內(nèi)容一致,因此具有很強(qiáng)的局限性,同時(shí)受益于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的快速發(fā)展,聲紋識(shí)別技術(shù)也迎來(lái)了第二階段。此階段可細(xì)分為四個(gè)小階段,即GMM > GMM-UBM/GMM-SVM > JFA > GMM-iVector-PLDA。

1. 高斯混合模型(GMM)

特點(diǎn):采用大量數(shù)據(jù)為每個(gè)說(shuō)話人訓(xùn)練(注冊(cè))模型。注冊(cè)要求很長(zhǎng)的有效說(shuō)話人語(yǔ)音。

高斯混合模型(Gaussian Mixture Model, GMM)是統(tǒng)計(jì)學(xué)中一個(gè)極為重要的模型,其中機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)和語(yǔ)音識(shí)別等領(lǐng)域均有廣泛的應(yīng)用,甚至可以算是神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)普及之前的主流模型。

GMM之所以強(qiáng)大,在于其能夠通過(guò)對(duì)多個(gè)簡(jiǎn)單的正態(tài)分布進(jìn)行加權(quán)平均,從而用較少的參數(shù)模擬出十分復(fù)雜的概率分布。

在聲紋識(shí)別領(lǐng)域,高斯混合模型的核心設(shè)定是:將每個(gè)說(shuō)話人的音頻特征用一個(gè)高斯混合模型來(lái)表示。采用高斯混合模型的動(dòng)機(jī)也可以直觀的理解為:每個(gè)說(shuō)話人的聲紋特征可以分解為一系列簡(jiǎn)單的子概率分布,例如發(fā)出的某個(gè)音節(jié)的概率、該音節(jié)的頻率分布等。這些簡(jiǎn)單的概率分布可以近似的認(rèn)為是正態(tài)分布(高斯分布)。但是由于GMM規(guī)模越龐大,表征力越強(qiáng),其負(fù)面效應(yīng)也會(huì)越明顯:參數(shù)規(guī)模也會(huì)等比例膨脹,需要更多的數(shù)據(jù)來(lái)驅(qū)動(dòng)GMM的參數(shù)訓(xùn)練才能得到一個(gè)更加通用(或泛化)的GMM模型。

假設(shè)對(duì)維度為50的聲學(xué)特征進(jìn)行建模,GMM包含1024個(gè)高斯分量,并簡(jiǎn)化多維高斯的協(xié)方差為對(duì)角矩陣,則一個(gè)GMM待估參數(shù)總量為1024(高斯分量的總權(quán)重?cái)?shù))+1024×50(高斯分量的總均值數(shù))+1024×50(高斯分量的總方差數(shù))=103424,超過(guò)10萬(wàn)個(gè)參數(shù)需要估計(jì)。

這種規(guī)模的變量就算是將目標(biāo)用戶的訓(xùn)練數(shù)據(jù)量增大到幾個(gè)小時(shí),都遠(yuǎn)遠(yuǎn)無(wú)法滿足GMM的充分訓(xùn)練要求,而數(shù)據(jù)量的稀缺又容易讓GMM陷入到一個(gè)過(guò)擬合(Over-fitting)的陷阱中,導(dǎo)致泛化能力急劇衰退。因此,盡管一開(kāi)始GMM在小規(guī)模的文本無(wú)關(guān)數(shù)據(jù)集合上表現(xiàn)出了超越傳統(tǒng)技術(shù)框架的性能,但它卻遠(yuǎn)遠(yuǎn)無(wú)法滿足實(shí)際場(chǎng)景下的需求。

2. 高斯混合背景模型(GMM-UBM)和支持向量機(jī)(GMM-SVM)

特點(diǎn):使用適應(yīng)模型的方法減少建模注冊(cè)所需要的有效語(yǔ)音數(shù)據(jù)量,但對(duì)跨信道分辨能力不強(qiáng)。

百分點(diǎn)科技:聲紋識(shí)別技術(shù)發(fā)展及未來(lái)趨勢(shì)研究

UBM的一個(gè)重要優(yōu)勢(shì)在于它是通過(guò)最大后驗(yàn)估計(jì)(Maximum A Posterior,MAP)的算法對(duì)模型參數(shù)進(jìn)行估計(jì),避免了過(guò)擬合的發(fā)生。MAP算法的另外一個(gè)優(yōu)勢(shì)是我們不必再去調(diào)整目標(biāo)用戶GMM的所有參數(shù)(權(quán)重、均值、方差),只需要對(duì)各個(gè)高斯成分的均值參數(shù)進(jìn)行估計(jì),就能實(shí)現(xiàn)最好的識(shí)別性能。這樣待估的參數(shù)一下減少了一半多(103424 -> 51200),越少的參數(shù)也意味著更快的收斂,不需要那么多的目標(biāo)用戶數(shù)據(jù)即可完成對(duì)模型的良好訓(xùn)練。

GMM-UBM系統(tǒng)框架,是GMM模型的一個(gè)推廣,是用于解決當(dāng)前目標(biāo)說(shuō)話人數(shù)據(jù)量不夠的問(wèn)題的一種方式。通過(guò)收集其他說(shuō)話人數(shù)據(jù)來(lái)進(jìn)行一個(gè)預(yù)先的訓(xùn)練。通過(guò)MAP算法的自適應(yīng),將預(yù)先訓(xùn)練過(guò)的模型向目標(biāo)說(shuō)話人模型進(jìn)行微調(diào)。這種方式可以大大減少訓(xùn)練所需要的樣本量和訓(xùn)練時(shí)間(通過(guò)減少訓(xùn)練參數(shù))。

但是GMM-UBM缺乏對(duì)應(yīng)于信道多變性的補(bǔ)償能力,因此后來(lái)WM Campbell將支持向量機(jī)(Support Vector Machine,SVM)引入了GMM-UBM的建模中,通過(guò)將GMM每個(gè)高斯分量的均值單獨(dú)拎出來(lái),構(gòu)建一個(gè)高斯超向量(Gaussian SuperVector,GSV)作為SVM的樣本,利用SVM核函數(shù)的強(qiáng)大非線性分類能力,在原始GMM-UBM的基礎(chǔ)上大幅提升了識(shí)別的性能,同時(shí)基于GSV的一些規(guī)整算法,例如擾動(dòng)屬性投影(Nuisance Attribute Projection, NAP),類內(nèi)方差規(guī)整(Within Class Covariance Normalization,WCCN)等,都在一定程度上補(bǔ)償了由于信道易變形對(duì)聲紋建模帶來(lái)的影響。

3. 聯(lián)合因子分析法(JFA)

特點(diǎn):分別建模說(shuō)話人空間、信道空間以及殘差噪聲,但每一步都會(huì)引入誤差。

在傳統(tǒng)的基于GMM-UBM的識(shí)別系統(tǒng)中,由于訓(xùn)練環(huán)境和測(cè)試環(huán)境的失配問(wèn)題,導(dǎo)致系統(tǒng)性能不穩(wěn)定。于是Patrick Kenny在05年左右提出了一個(gè)設(shè)想:既然聲紋信息可以用一個(gè)低秩的超向量子空間來(lái)表示,那噪聲和其他信道效應(yīng)是不是也能用一個(gè)不相關(guān)的超向量子空間進(jìn)行表達(dá)呢?

基于這個(gè)假設(shè),Kenny提出了聯(lián)合因子分析(Joint Factor Analysis,JFA)的理論分析框架,將說(shuō)話人所處的空間和信道所處的空間做了獨(dú)立不相關(guān)的假設(shè),在JFA的假設(shè)下,與聲紋相關(guān)的信息全部可以由特征音空間(Eigenvoice)進(jìn)行表達(dá),并且同一個(gè)說(shuō)話人的多段語(yǔ)音在這個(gè)特征音空間上都能得到相同的參數(shù)映射,之所以實(shí)際的GMM模型參數(shù)有差異,這個(gè)差異信息是由說(shuō)話人差異和信道差異這兩個(gè)不可觀測(cè)的部分組成的公式如下:

M=s+c

其中,s為說(shuō)話人相關(guān)的超矢量,表示說(shuō)話人之間的差異;c為信道相關(guān)的超矢量,表示同一個(gè)說(shuō)話人不同語(yǔ)音段的差異;M為GMM均值超矢量,表述為說(shuō)話人相關(guān)部分s和信道相關(guān)部分c的疊加。

百分點(diǎn)科技:聲紋識(shí)別技術(shù)發(fā)展及未來(lái)趨勢(shì)研究

圖五 均值超矢量

如上圖所示,聯(lián)合因子分析實(shí)際上是用GMM超矢量空間的子空間對(duì)說(shuō)話人差異及信道差異進(jìn)行建模,從而可以去除信道的干擾,得到對(duì)說(shuō)話人身份更精確的描述。

JFA定義公式如下:

s = m + Vy + dZ

c = Ux

其中,s為說(shuō)話人相關(guān)的超矢量,表示說(shuō)話人之間的差異;m為與說(shuō)話人以及信道無(wú)關(guān)的均值超矢量;V為低秩的本征音矩陣;y為說(shuō)話人相關(guān)因子;D為對(duì)角的殘差矩陣;z為殘差因子;c為信道相關(guān)的超矢量,表示同一個(gè)說(shuō)話人不同語(yǔ)音段的差異;U為本征信道矩陣;x為與特定說(shuō)話人的某一段語(yǔ)音相關(guān)的因子。這里的超參數(shù)集合{V,D,U}即為需要評(píng)估的模型參數(shù)。有了上面的定義公式,我們可以將均值超矢量重新改寫為如下形式:

M = m + Vy + Ux + Dz

為了得到JFA模型的超參數(shù),我們可以使用EM算法訓(xùn)練出UBM模型,使用UBM模型提取Baum-Welch統(tǒng)計(jì)量。

盡管JFA對(duì)于特征音空間與特征信道空間的獨(dú)立假設(shè)看似合理,但絕對(duì)的獨(dú)立同分布的假設(shè)是一個(gè)過(guò)于強(qiáng)的假設(shè),這種獨(dú)立同分布的假設(shè)往往為數(shù)學(xué)的推導(dǎo)提供了便利,卻限制了模型的泛化能力。

4. 基于GMM的i-vector方法及PLDA

特點(diǎn):統(tǒng)一建模所有空間,進(jìn)一步減少注冊(cè)和識(shí)別所需語(yǔ)音時(shí)長(zhǎng),使用PLDA分辨說(shuō)話人特征,但噪聲對(duì)GMM仍然有很大影響。

N.Dehak提出了一個(gè)更加寬松的假設(shè):既然聲紋信息與信道信息不能做到完全獨(dú)立,那就用一個(gè)超向量子空間對(duì)兩種信息同時(shí)建模。即用一個(gè)子空間同時(shí)描述說(shuō)話人信息和信道信息。這時(shí)候,同一個(gè)說(shuō)話人,不管怎么采集語(yǔ)音,采集了多少段語(yǔ)音,在這個(gè)子空間上的映射坐標(biāo)都會(huì)有差異,這也更符合實(shí)際的情況。這個(gè)既模擬說(shuō)話人差異性又模擬信道差異性的空間稱為全因子空間(Total Factor Matrix),每段語(yǔ)音在這個(gè)空間上的映射坐標(biāo)稱作身份向量(IdentityVector, i-vector),i-vector向量通常維度也不會(huì)太高,一般在400-600左右。

i-vector方法采用一個(gè)空間來(lái)代替這兩個(gè)空間,這個(gè)新的空間可以成為全局差異空間,它既包含了說(shuō)話人之間的差異又包含了信道間的差異。所以i-vector的建模過(guò)程在GMM均值超矢量中不嚴(yán)格區(qū)分說(shuō)話人的影響和信道的影響。這一建模方法動(dòng)機(jī)來(lái)源于Dehak的又一研究:JFA建模后的信道因子不僅包含了信道效應(yīng)也夾雜著說(shuō)話人的信息。

i-vector中Total Variability的做法(M = m + Tw),將JFA復(fù)雜的訓(xùn)練過(guò)程以及對(duì)語(yǔ)料的復(fù)雜要求,瞬間降到了極致,尤其是將Length-Variable Speech映射到了一個(gè)fixed- andlow-dimension的vector(IdentityVector,即i-vector)上。于是,所有機(jī)器學(xué)習(xí)的算法都可以用來(lái)解決聲紋識(shí)別的問(wèn)題了。

現(xiàn)在,主要用的特征是i-vector。這是通過(guò)高斯超向量基于因子分析而得到的。是基于單一空間的跨信道算法,該空間既包含了說(shuō)話人空間的信息也包含了信道空間信息,相當(dāng)于用因子分析方法將語(yǔ)音從高位空間投影到低維。

可以把i-vector看作是一種特征,也可以看作是簡(jiǎn)單的模型。最后,在測(cè)試階段,我們只要計(jì)算測(cè)試語(yǔ)音i-vector和模型的i-vector之間的consine距離,就可以作為最后的得分。這種方法也通常被作為基于i-vector說(shuō)話人識(shí)別系統(tǒng)的基線系統(tǒng)。

i-vector簡(jiǎn)潔的背后是它舍棄了太多的東西,其中就包括了文本差異性,在文本無(wú)關(guān)識(shí)別中,由于注冊(cè)和訓(xùn)練的語(yǔ)音在內(nèi)容上的差異性比較大,因此我們需要抑制這種差異性。但在文本相關(guān)識(shí)別中,我們又需要放大訓(xùn)練和識(shí)別語(yǔ)音在內(nèi)容上的相似性,這時(shí)候牽一發(fā)而動(dòng)全身的i-vector就顯得不是那么合適了。雖然i-vector在文本無(wú)關(guān)聲紋識(shí)別上表現(xiàn)非常好,但在看似更簡(jiǎn)單的文本相關(guān)聲紋識(shí)別任務(wù)上,i-vector表現(xiàn)得卻并不比傳統(tǒng)的GMM-UBM框架更好。

i-vector的出現(xiàn)使得說(shuō)話人識(shí)別的研究一下子簡(jiǎn)化抽象為了一個(gè)數(shù)值分析與數(shù)據(jù)分析的問(wèn)題:任意的一段音頻,不管長(zhǎng)度怎樣,內(nèi)容如何,最后都會(huì)被映射為一段低維度的定長(zhǎng)i-vector。只需要找到一些優(yōu)化手段與測(cè)量方法,在海量數(shù)據(jù)中能夠?qū)⑼粋€(gè)說(shuō)話人的幾段i-vector盡可能分類得近一些,將不同說(shuō)話人的i-vector盡可能分得遠(yuǎn)一些。并且Dehak在實(shí)驗(yàn)中還發(fā)現(xiàn)i-vector具有良好的空間方向區(qū)分性,即便上SVM做區(qū)分,也只需要選擇一個(gè)簡(jiǎn)單的余弦核就能實(shí)現(xiàn)非常好的區(qū)分性。

i-vector在大多數(shù)情況下仍然是文本無(wú)關(guān)聲紋識(shí)別中表現(xiàn)性能最好的建??蚣?學(xué)者們后續(xù)的改進(jìn)都是基于對(duì)i-vector進(jìn)行優(yōu)化,包括線性區(qū)分分析(Linear DiscriminantAnalysis,LDA),基于概率的線性預(yù)測(cè)區(qū)分分析(Probabilisticlinear Discriminant Analysis,PLDA)甚至是度量學(xué)習(xí)(Metric Learning)等。

概率線性判別分析(PLDA)是一種信道補(bǔ)償算法,被用于對(duì)i-vector進(jìn)行建模、分類,實(shí)驗(yàn)證明其效果最好。因?yàn)閕-vector中,既包含說(shuō)話人的信息,也包含信道信息,而我們只關(guān)心說(shuō)話人信息,所以才需要做信道補(bǔ)償。我們假設(shè)訓(xùn)練數(shù)據(jù)語(yǔ)音由 i 個(gè)說(shuō)話人的語(yǔ)音組成,其中每個(gè)說(shuō)話人有 j 段自己不同的語(yǔ)音。那么,我們定義第 i 個(gè)人的第 j 條語(yǔ)音為 Xij 。根據(jù)因子分析,我們定義 Xij 的生成模型為:

百分點(diǎn)科技:聲紋識(shí)別技術(shù)發(fā)展及未來(lái)趨勢(shì)研究

如上公式中,n1和n2分別是兩個(gè)語(yǔ)音的i-vector矢量,這兩條語(yǔ)音來(lái)自同一空間的假設(shè)為Hs,來(lái)自不同的空間的假設(shè)為Hd。

其中p(n1, n2 | hs)為兩條語(yǔ)音來(lái)自同一空間的似然函數(shù);p(n1 | hd),p(n2 | hd)分別為n1和n2來(lái)自不同空間的似然函數(shù)。通過(guò)計(jì)算對(duì)數(shù)似然比,就能衡量?jī)蓷l語(yǔ)音的相似程度。

比值越高,得分越高,兩條語(yǔ)音屬于同一說(shuō)話人的可能性越大;比值越低,得分越低,則兩條語(yǔ)音屬于同一說(shuō)話人的可能性越小。

三、基于深度神經(jīng)網(wǎng)絡(luò)的技術(shù)框架

隨著深度神經(jīng)網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,聲紋識(shí)別技術(shù)也逐漸采用了基于深度神經(jīng)網(wǎng)絡(luò)的技術(shù)框架,目前有DNN-iVector-PLDA和最新的End-2-End。

1. 基于深度神經(jīng)網(wǎng)絡(luò)(DNN)的方法(D-Vector)

特點(diǎn):DNN可以從大量樣本中學(xué)習(xí)到高度抽象的音素特征,同時(shí)它具有很強(qiáng)的抗噪能力,可以排除噪聲對(duì)聲紋識(shí)別的干擾。

在論文《Deep Neural Networks for SmallFootprint Text-Dependent Speaker Verification》中,作者對(duì)DNN在聲紋識(shí)別中的應(yīng)用做了研究。

百分點(diǎn)科技:聲紋識(shí)別技術(shù)發(fā)展及未來(lái)趨勢(shì)研究

conv64-s:單純的卷積層。

卷積核尺寸為5*5(卷積核實(shí)際上是5*5*c,其中c為輸入數(shù)據(jù)的通道數(shù));個(gè)數(shù)為64,也就代表著輸出數(shù)據(jù)的第三維了;步長(zhǎng)為2*2,會(huì)改變數(shù)據(jù)維度的前2維,也就是高和寬。

res64:是一個(gè)ResBlock(殘差塊),并不是一層網(wǎng)絡(luò),實(shí)際層數(shù)是這個(gè)ResBlock中包含的層數(shù),這里殘差塊中包含2個(gè)卷積層:卷積核尺寸3*3;個(gè)數(shù)64;步長(zhǎng)為1*1(也就是上文的 Cov+ReLU+Cov,也就是2層,中間激活不算)。后面的乘3是指有三個(gè)ResBlock。所以說(shuō)這個(gè)res64部分是指經(jīng)過(guò)3個(gè)ResBlock,而且每一個(gè)ResBlock中包含2個(gè)卷積層,其實(shí)是6層網(wǎng)絡(luò)。

Average層,本來(lái)數(shù)據(jù)是三維的,分別代表(時(shí)間幀數(shù) * 每幀特征維度 * 通道數(shù)),通道數(shù)也就是經(jīng)過(guò)不同方式提取的每幀的特征(Fbank或MFCC這種)。將時(shí)間平均,這樣一段語(yǔ)音就對(duì)應(yīng)一段特征了,而不是每一幀都對(duì)應(yīng)一段特征。

Affine層:仿射層,就是將維度2048的特征變?yōu)?12維。

ln層(length normalization layer):標(biāo)準(zhǔn)化層,特征標(biāo)準(zhǔn)化之后,得到的向量來(lái)表示說(shuō)話者語(yǔ)音。

關(guān)于dim 維度這一列,開(kāi)始時(shí)輸入語(yǔ)音數(shù)據(jù)是三維:(時(shí)間幀數(shù) * 每幀特征維度 * 通道數(shù))。本文中,時(shí)間幀數(shù)根據(jù)語(yǔ)音長(zhǎng)度可變,每幀特征維度為64,通道數(shù)為3(代表Fbank、一階、二階)。所以輸入維度:時(shí)間幀數(shù) * 64 * 3。經(jīng)過(guò)第一層conv64-s后:因?yàn)榫矸e層步長(zhǎng)2*2,所以時(shí)間幀數(shù) 和每幀特征維度都減半了,特征維度變?yōu)榱?2,通道數(shù)變?yōu)榱司矸e核個(gè)數(shù)64。32*64=2048,也就是dim的值。所以,這里的dim維度指的是除去時(shí)間維的頻率特征維度。

訓(xùn)練的時(shí)候,使用Triplet loss作為損失函數(shù)。通過(guò)隨機(jī)梯度下降,使得來(lái)自同一個(gè)人的向量相似度盡可能大,不是同一個(gè)說(shuō)話者的向量相似度盡可能小。

百分點(diǎn)科技:聲紋識(shí)別技術(shù)發(fā)展及未來(lái)趨勢(shì)研究

總結(jié)

從聲紋識(shí)別技術(shù)發(fā)展綜述中,我們不難看出,聲紋識(shí)別的研究趨勢(shì)正在快速朝著深度學(xué)習(xí)和端到端方向發(fā)展,其中最典型的就是基于句子層面的做法。在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)、數(shù)據(jù)增強(qiáng)、損失函數(shù)設(shè)計(jì)等方面還有很多的工作去做,還有很大的提升空間,此外,聲紋識(shí)別系統(tǒng)在保持高性能的情況下對(duì)語(yǔ)音長(zhǎng)度的需求在不斷減小。

聲紋識(shí)別是百分點(diǎn)科技一直關(guān)注和研究的技術(shù)領(lǐng)域之一。目前,百分點(diǎn)科技的聲紋識(shí)別系統(tǒng)使用大規(guī)模數(shù)據(jù)訓(xùn)練,準(zhǔn)確度可達(dá)95%以上,1:N支持萬(wàn)級(jí)以上聲紋庫(kù)建設(shè),在國(guó)內(nèi)數(shù)字政府、公共安全等多個(gè)領(lǐng)域已有實(shí)際項(xiàng)目落地。未來(lái),我們將繼續(xù)朝著聲紋識(shí)別技術(shù)的深度學(xué)習(xí)方向進(jìn)行重點(diǎn)研究。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )