遷移回歸問題新突破,火山語音團隊論文被人工智能頂級期刊IEEE TPAMI接收

近日,人工智能領域頂級國際期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEE TPAMI,影響因子24.314)再次接收了火山語音團隊有關機器學習的技術研究成果,即“基于自適應遷移核函數(shù)的遷移高斯回歸模型”( ADATPITVE TRANSFER KERNEL LEARNING FOR TRANSFER GAUSSIAN PROCESS REGRESSION)(鏈接:https://ieeexplore.ieee.org/abstract/document/9937157)。

該成果主要針對遷移學習在低資源回歸問題中的應用做了創(chuàng)新性基礎理論研究,具體包括以下幾個方面:

給出了遷移核函數(shù)的正式數(shù)學定義。

提出了三種廣義形式的遷移核函數(shù),而且現(xiàn)有的遷移核函數(shù)均可歸納為這三種廣義形式的特例。

提出了兩種改進的遷移核函數(shù),即線性積式核函數(shù)與多項式積式核函數(shù),并驗證了在遷移學習中的有效性:一方面展示了遷移效果優(yōu)劣與域相關性的必然關聯(lián);另一方面驗證了模型可以高效提升遷移效果的情況。

背景介紹

一直以來,高斯過程回歸模型(Gaussian process regression model, i.e., GP)作為一類基礎的貝葉斯機器學習模型,在工程與統(tǒng)計等領域的回歸問題中有著廣泛應用。傳統(tǒng)的高斯過程回歸模型需要大量有監(jiān)督數(shù)據(jù)進行訓練才可發(fā)揮好的效果,但在具體實踐中,收集和標記數(shù)據(jù)是一項昂貴且費時的工程。

相比之下,遷移高斯過程回歸模型(Transfer GP)能夠高效利用不同領域(domain)的數(shù)據(jù)來降低標記成本,主要通過設計遷移核函數(shù)(Transfer Kernel)來實現(xiàn)不同領域之間的數(shù)據(jù)遷移,通過引入域信息來建模域相關性,從而自適應調控數(shù)據(jù)遷移強度,使異源數(shù)據(jù)應用更加高效。

盡管在不同的領域(如計算工程學,地質統(tǒng)計學,自然語言處理)都有遷移核函數(shù)的身影,遷移核函數(shù)并沒有一個正式的數(shù)學定義?;诖耍撜撐氖紫忍岢隽苏降倪w移核函數(shù)數(shù)學定義,并總結了三種廣義形式的遷移核函數(shù)。

基于廣義形式,本文展示了已有的遷移核函數(shù)為廣義形式的一種特例,并討論了其優(yōu)缺點。更進一步,文章提出了兩種改進的遷移核函數(shù),即線性積式核函數(shù)與多項式積式核函數(shù),旨在提高數(shù)據(jù)表征能力和域相關性的建模能力:具體來說理論證明了如何建模域相關性以確保提出的遷移核函數(shù)滿足核函數(shù)(kernel)的基本要求(半正定性),并討論了不同域相關性對應的遷移場景;更重要的還展示了改進的遷移核函數(shù)可以無縫應用到遷移高斯過程回歸模型中,而不帶來額外的計算負擔,并在一些低資源回歸場景下有效提升遷移效果。

原理闡釋

本文的核心貢獻之一是提出了如下遷移核函數(shù)的正式定義:

基于上述定義,火山語音團隊進一步提出了三種廣義形式的遷移核函數(shù),分別為鏈式廣義核函數(shù)和式廣義核函數(shù)以及積式廣義核函數(shù),而三種廣義形式分別對應三種不同地處理域信息的方式。

現(xiàn)有廣泛應用的一類遷移核函數(shù),屬于積式廣義核函數(shù)的一種特例。

的一個重要局限在于其只用一個簡單的參數(shù)化系數(shù)去建模域相關性,這對于復雜異構的數(shù)據(jù),在表征能力上遠遠不足,所以首先提出了改進的線形積式核函數(shù),形式如下:

可以看出,用兩組基礎核函數(shù)的線形組合來區(qū)別域內與域間的計算。這兩組線形組合有著不同的線形系數(shù),,而兩組系數(shù)的比值代表了source 和 target 在基礎核函數(shù) 上的域相關性。通過應用豐富的基礎核函數(shù),可以表征更加復雜細膩的域相關性。

接下來的挑戰(zhàn)在于設計的在符合上述形式的同時,還需滿足核函數(shù)的基本要求,即半正定性(Postive Semi-definite),所以給出了如下定理:

從定理1可以看出,要滿足半正定性,中的線性系數(shù)應滿足 ,即域間系數(shù)的值永遠小于等于域內系數(shù)的值。其潛在含義是域內系數(shù)代表了在 上數(shù)據(jù)遷移的上限能力,因此域間系數(shù)不能超過域內系數(shù)。

更具體來說,若,則代表source和target在上完全不相關,則不進行遷移;若, 則代表source和target在上完全相關,則進行全量遷移;若,則代表source和target在上部分相關,則進行部分遷移。

雖然提高了的表征能力,但仍然不能表征非線性的情況。因此本文進一步提出了多項式積式核函數(shù),形式如下:

其中,

上述數(shù)學形式較為抽象,因此展示如下圖形化結構:

可以看出,用兩個基礎核函數(shù)深度網絡來區(qū)別域內與域間的計算,每個基礎核函數(shù)深度網絡由線形層與乘積層交替組成,例如上述例子中包括三層線形層和兩層乘積層;線形層的每個節(jié)點為上一層的輸出的線形組合,乘積層的每個節(jié)點為上一層相鄰輸出的乘積;每層線形層包含域內與域間兩組線形系數(shù),而乘積層不包含可學習的參數(shù)。

更進一步,可以展開每個深度網絡,從而得到如下形式的:

可以發(fā)現(xiàn),是的一種高階形式,即用基礎核函數(shù)的多項式形式為新的基礎核函數(shù),從而引入非線性。此外根據(jù)定理1,就可以很容易得到如下推論,從而保證的半正定性。

實驗驗證

除了理論推導之外,文章還展示了豐富的實驗驗證。“我們首先驗證了與準確學習不同領域相關性的能力??梢钥闯瞿P湍軌蚝芎脤W習到兩個領域之間的相關性,同時還能取得更好的遷移效果, 即更小的均方根差。”火山語音團隊表示。

另外團隊還研究了不同模型在時間序列外推任務下的遷移效果,即根據(jù)有限的目標數(shù)據(jù)和豐富的源數(shù)據(jù)對后續(xù)時序目標數(shù)據(jù)的擬合能力,可以看出模型在遷移效果上要遠遠優(yōu)于其他模型。

最后,團隊還在四個現(xiàn)實數(shù)據(jù)集中對模型進行了驗證。與8個SOTA方法相比,模型在不同的遷移回歸任務中都取得了更好的遷移效果,即更小的均方根差。

火山語音,字節(jié)跳動 AI Lab Speech & Audio 智能語音與音頻團隊,長期以來面向字節(jié)跳動內部各業(yè)務線提供優(yōu)質的語音AI技術能力以及全棧語音產品解決方案。目前團隊的語音識別和語音合成覆蓋了多種語言和方言,多篇論文入選各類AI 頂級會議,技術能力已成功應用到抖音、剪映、番茄小說等多款產品上,并通過火山引擎開放給外部企業(yè)。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )