近日,金融科技公司信也科技(NYSE:FINV)與浙江大學合作撰寫的論文“Robust Network Enhancement from Flawed Networks”被國際頂級期刊IEEE TKDE正式收錄。
IEEE TKDE(Transaction on Knowledge and Data Engineering)是數(shù)據(jù)挖掘與知識工程領域最具影響力的刊物,也是被中國計算機學會(CCF) 定位為數(shù)據(jù)庫、數(shù)據(jù)挖掘和內(nèi)容檢索領域的A類國際期刊,屬于值得我國學者去突破的頂級刊物。
據(jù)悉,IEEE TKDE主要關注知識發(fā)現(xiàn)和數(shù)據(jù)挖掘、數(shù)據(jù)庫和數(shù)據(jù)建模、并行分布式數(shù)據(jù)管理系統(tǒng)、數(shù)據(jù)密集型可擴展計算系統(tǒng)結構、搜索引擎以及數(shù)據(jù)工程應用等領域的最新研究進展和技術。該期刊審稿過程專業(yè)嚴謹,在數(shù)據(jù)挖掘領域享有很高的學術聲譽。信也科技與浙大的這篇合作論文被收錄,這既是信也科技與高校合作成效的直接體現(xiàn),也是信也科技始終致力科研斬獲的又一碩果。
著眼復雜網(wǎng)絡基礎數(shù)據(jù)缺陷問題
“網(wǎng)絡”或者“圖”作為一種重要的數(shù)據(jù)形態(tài),在很多領域中扮演著越來越重要的角色,如社交網(wǎng)絡網(wǎng)絡分析、搜索與推薦、生物化學分子結構分析等。而在金融領域,將用戶、設備、公司、賬戶等作為節(jié)點,構建網(wǎng)絡數(shù)據(jù),并在此基礎上進行反欺詐的方式也已經(jīng)帶來了實際的商業(yè)和社會價值。信也科技作為金融科技領域的領軍企業(yè)具備較高的科技能力,在業(yè)務中已實際利用復雜網(wǎng)絡結構,結合機器學習技術,快速、精準識別并鎖定不良中介和欺詐團伙,并將相關成果發(fā)表于2019年CIKM的oral論文“Understanding Default Behavior in Online Lending” 。
然而,由于采樣不完全、數(shù)據(jù)不可得、量化標準有誤差等等原因,現(xiàn)實中收集到的數(shù)據(jù)一般帶有偏差和噪聲。而復雜網(wǎng)絡數(shù)據(jù)由于關注節(jié)點之間的關聯(lián),更容易受到缺失和噪聲的影響,從而波及下游任務,比如不良中介識別、欺詐團隊識別等。
此次由信也科技與浙江大學楊洋副教授團隊合作完成的論文“Robust Network Enhancement from Flawed Networks”,便旨在解決上述在復雜網(wǎng)絡領域中基礎而重要的問題:大規(guī)模網(wǎng)絡數(shù)據(jù)中的缺陷檢測。這種網(wǎng)絡的缺陷,可能是由帶缺陷的節(jié)點或者帶缺陷的邊引起的,此次發(fā)表的論文專注于解決帶缺陷的邊引發(fā)的問題。期望給整個領域提供一種獨特視角出發(fā)的有效缺陷邊檢測算法,提升復雜網(wǎng)絡領域算法的噪聲魯棒性,即系統(tǒng)的健壯性。
首次提出聯(lián)合學習網(wǎng)絡缺失邊和噪聲邊
據(jù)了解,上述帶缺陷的邊可分為噪聲邊和缺失邊。噪聲邊,即為真實情況下并不存在的邊,比如用通話網(wǎng)絡來構建社交狀況,可能因為誤撥的電話或者一些推銷、外賣電話而加上了一些不反映社交狀況的邊;缺失邊,則是真實情況下存在,數(shù)據(jù)中卻并沒有觀測到的邊,比如以用戶之間的轉(zhuǎn)賬來構建關系網(wǎng)絡,一家銀行往往只有用戶在本行轉(zhuǎn)賬的數(shù)據(jù),而觀察不到本來存在的他行轉(zhuǎn)賬數(shù)據(jù)。
許多學者已關注到,缺陷邊的問題可能引發(fā)下游任務的誤導性結論,并進行了大量的相關研究。而該篇論文的一個重要貢獻是充分考慮了缺失邊與噪聲邊的識別會相互影響(如圖1(c)&(d)),提出了E-Net(Enhancement Network model),一個端到端的基于圖神經(jīng)網(wǎng)絡的模型,來聯(lián)合學習噪聲邊和缺失邊。一方面,噪聲邊被識別出來并去除掉,會有利于缺失邊的預測;另一方面,缺失邊預測的目標函數(shù)可以為噪聲邊的識別提供間接的監(jiān)督。由于在很多實際場景中都不容易獲取一條邊是否是噪聲邊的標簽,這樣的半監(jiān)督學習框架使得模型對噪聲具有很強的魯棒性。
圖1:在統(tǒng)一框架內(nèi)識別缺失邊和噪聲邊的示意圖
對于大規(guī)模網(wǎng)絡,使用整個網(wǎng)絡去推斷節(jié)點之間的關系(比如缺失邊、噪聲邊)會帶來無法承受的計算量。另一方面,使用整個網(wǎng)絡進行訓練,還會導致模型很難外推到新加入的節(jié)點和邊上,從而影響應用到實際場景。許多學者采用了子圖提取來解決這個問題,即針對任意一對關注的節(jié)點,僅提取它們周圍子圖來推斷該節(jié)點對之間的關系。
論文的另一個重要貢獻就是提出了一種RWR(Random Walk with Restart)子圖提取方法(如圖1(b))。相較于傳統(tǒng)的子圖提取方法(如圖1(a)),RWR不再抽取固定的一跳或兩跳鄰居,從而可以(1)抽取的子圖規(guī)模不隨節(jié)點鄰居數(shù)爆炸;(2)既包含局部又包含全局的圖結構。
信也科技AI團隊負責人王春平表示:“此算法最強大的優(yōu)勢在于不需事先知道噪聲標簽,就能通過缺失邊的預測來對噪聲邊進行半監(jiān)督學習,從而大大提升算法對噪聲的魯棒性。” 論文中工作的有效性已在多個實驗中得到了驗證。相對于不去噪的模型,對缺失邊的預測F1可以提升大約10%,相對于分步識別噪聲邊和預測缺失邊的模型,F(xiàn)1可以提升2%左右。在進行了去噪和缺失填補兩方面的網(wǎng)絡增強以后,對下游節(jié)點分類問題也有很大幫助,F(xiàn)1大概提升4~5%。網(wǎng)絡增強已經(jīng)成為信也科技復雜網(wǎng)絡算法挖掘的一個重要環(huán)節(jié),并已逐步投入實際業(yè)務應用,大大提升了算法的魯棒性。
目前,信也科技完備的自研技術已實現(xiàn)了對業(yè)務流程的全覆蓋,如人臉識別、多場景OCR、聲紋識別等多模態(tài)核身、增信技術,語音識別、意圖識別、對話管理、語音生成等全流程智能對話機器人技術,以及基于復雜網(wǎng)絡的不良中介識別和團伙識別技術等。此外,還形成了智能投放、精準營銷、核身、反欺詐、風控決策流、Automl模型平臺和智能機器人等一系列AI產(chǎn)品。
科技領域累累碩果的背后,是信也科技始終著眼于科技并致力于科研的信念,亦是信也科技來自海內(nèi)外頂級高校與知名科技企業(yè)的相關研究人員以及加州理工大學、加州大學洛杉磯分校、浙江大學等高校的多名擔任科學顧問的教授的辛勞與汗水。此前,信也科技已與浙江大學共建人工智能實驗室,并同中國人民大學建立了戰(zhàn)略伙伴關系,長期保持積極的合作。本次被IEEE TKDE收錄的論文即為校企科研合作的階段性成果之一。
今后,信也科技將繼續(xù)保持對科技研發(fā)的關注與投入,并進一步加深與高校的科研合作,力求在相關領域進行新嘗試與新突破,努力實現(xiàn)“科技,讓金融更美好”的使命。
(先睹為快:論文將刊登在下一期TKDE,Early Access電子版 )
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )