123,123,123

近日，金融科技公司信也科技(NYSE:FINV)與浙江大學(xué)合作撰寫的論文“Robust Network Enhancement from Flawed Networks”被國際頂級期刊IEEE TKDE正式收錄。

IEEE TKDE(Transaction on Knowledge and Data Engineering)是數(shù)據(jù)挖掘與知識工程領(lǐng)域最具影響力的刊物，也是被中國計算機(jī)學(xué)會(CCF) 定位為數(shù)據(jù)庫、數(shù)據(jù)挖掘和內(nèi)容檢索領(lǐng)域的A類國際期刊，屬于值得我國學(xué)者去突破的頂級刊物。

據(jù)悉，IEEE TKDE主要關(guān)注知識發(fā)現(xiàn)和數(shù)據(jù)挖掘、數(shù)據(jù)庫和數(shù)據(jù)建模、并行分布式數(shù)據(jù)管理系統(tǒng)、數(shù)據(jù)密集型可擴(kuò)展計算系統(tǒng)結(jié)構(gòu)、搜索引擎以及數(shù)據(jù)工程應(yīng)用等領(lǐng)域的最新研究進(jìn)展和技術(shù)。該期刊審稿過程專業(yè)嚴(yán)謹(jǐn)，在數(shù)據(jù)挖掘領(lǐng)域享有很高的學(xué)術(shù)聲譽(yù)。信也科技與浙大的這篇合作論文被收錄，這既是信也科技與高校合作成效的直接體現(xiàn)，也是信也科技始終致力科研斬獲的又一碩果。

著眼復(fù)雜網(wǎng)絡(luò)基礎(chǔ)數(shù)據(jù)缺陷問題

“網(wǎng)絡(luò)”或者“圖”作為一種重要的數(shù)據(jù)形態(tài)，在很多領(lǐng)域中扮演著越來越重要的角色，如社交網(wǎng)絡(luò)網(wǎng)絡(luò)分析、搜索與推薦、生物化學(xué)分子結(jié)構(gòu)分析等。而在金融領(lǐng)域，將用戶、設(shè)備、公司、賬戶等作為節(jié)點(diǎn)，構(gòu)建網(wǎng)絡(luò)數(shù)據(jù)，并在此基礎(chǔ)上進(jìn)行反欺詐的方式也已經(jīng)帶來了實(shí)際的商業(yè)和社會價值。信也科技作為金融科技領(lǐng)域的領(lǐng)軍企業(yè)具備較高的科技能力，在業(yè)務(wù)中已實(shí)際利用復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)，結(jié)合機(jī)器學(xué)習(xí)技術(shù)，快速、精準(zhǔn)識別并鎖定不良中介和欺詐團(tuán)伙，并將相關(guān)成果發(fā)表于2019年CIKM的oral論文“Understanding Default Behavior in Online Lending” 。

然而，由于采樣不完全、數(shù)據(jù)不可得、量化標(biāo)準(zhǔn)有誤差等等原因，現(xiàn)實(shí)中收集到的數(shù)據(jù)一般帶有偏差和噪聲。而復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)由于關(guān)注節(jié)點(diǎn)之間的關(guān)聯(lián)，更容易受到缺失和噪聲的影響，從而波及下游任務(wù)，比如不良中介識別、欺詐團(tuán)隊(duì)識別等。

此次由信也科技與浙江大學(xué)楊洋副教授團(tuán)隊(duì)合作完成的論文“Robust Network Enhancement from Flawed Networks”，便旨在解決上述在復(fù)雜網(wǎng)絡(luò)領(lǐng)域中基礎(chǔ)而重要的問題：大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)中的缺陷檢測。這種網(wǎng)絡(luò)的缺陷，可能是由帶缺陷的節(jié)點(diǎn)或者帶缺陷的邊引起的，此次發(fā)表的論文專注于解決帶缺陷的邊引發(fā)的問題。期望給整個領(lǐng)域提供一種獨(dú)特視角出發(fā)的有效缺陷邊檢測算法，提升復(fù)雜網(wǎng)絡(luò)領(lǐng)域算法的噪聲魯棒性，即系統(tǒng)的健壯性。

首次提出聯(lián)合學(xué)習(xí)網(wǎng)絡(luò)缺失邊和噪聲邊

據(jù)了解，上述帶缺陷的邊可分為噪聲邊和缺失邊。噪聲邊，即為真實(shí)情況下并不存在的邊，比如用通話網(wǎng)絡(luò)來構(gòu)建社交狀況，可能因?yàn)檎`撥的電話或者一些推銷、外賣電話而加上了一些不反映社交狀況的邊;缺失邊，則是真實(shí)情況下存在，數(shù)據(jù)中卻并沒有觀測到的邊，比如以用戶之間的轉(zhuǎn)賬來構(gòu)建關(guān)系網(wǎng)絡(luò)，一家銀行往往只有用戶在本行轉(zhuǎn)賬的數(shù)據(jù)，而觀察不到本來存在的他行轉(zhuǎn)賬數(shù)據(jù)。

許多學(xué)者已關(guān)注到，缺陷邊的問題可能引發(fā)下游任務(wù)的誤導(dǎo)性結(jié)論，并進(jìn)行了大量的相關(guān)研究。而該篇論文的一個重要貢獻(xiàn)是充分考慮了缺失邊與噪聲邊的識別會相互影響(如圖1(c)&(d))，提出了E-Net(Enhancement Network model)，一個端到端的基于圖神經(jīng)網(wǎng)絡(luò)的模型，來聯(lián)合學(xué)習(xí)噪聲邊和缺失邊。一方面，噪聲邊被識別出來并去除掉，會有利于缺失邊的預(yù)測;另一方面，缺失邊預(yù)測的目標(biāo)函數(shù)可以為噪聲邊的識別提供間接的監(jiān)督。由于在很多實(shí)際場景中都不容易獲取一條邊是否是噪聲邊的標(biāo)簽，這樣的半監(jiān)督學(xué)習(xí)框架使得模型對噪聲具有很強(qiáng)的魯棒性。

信也科技再攀科研高峰：復(fù)雜網(wǎng)絡(luò)研究成果登上國際頂級期刊IEEE TKDE

圖1：在統(tǒng)一框架內(nèi)識別缺失邊和噪聲邊的示意圖

對于大規(guī)模網(wǎng)絡(luò)，使用整個網(wǎng)絡(luò)去推斷節(jié)點(diǎn)之間的關(guān)系(比如缺失邊、噪聲邊)會帶來無法承受的計算量。另一方面，使用整個網(wǎng)絡(luò)進(jìn)行訓(xùn)練，還會導(dǎo)致模型很難外推到新加入的節(jié)點(diǎn)和邊上，從而影響應(yīng)用到實(shí)際場景。許多學(xué)者采用了子圖提取來解決這個問題，即針對任意一對關(guān)注的節(jié)點(diǎn)，僅提取它們周圍子圖來推斷該節(jié)點(diǎn)對之間的關(guān)系。

論文的另一個重要貢獻(xiàn)就是提出了一種RWR(Random Walk with Restart)子圖提取方法(如圖1(b))。相較于傳統(tǒng)的子圖提取方法(如圖1(a))，RWR不再抽取固定的一跳或兩跳鄰居，從而可以(1)抽取的子圖規(guī)模不隨節(jié)點(diǎn)鄰居數(shù)爆炸;(2)既包含局部又包含全局的圖結(jié)構(gòu)。

信也科技AI團(tuán)隊(duì)負(fù)責(zé)人王春平表示：“此算法最強(qiáng)大的優(yōu)勢在于不需事先知道噪聲標(biāo)簽，就能通過缺失邊的預(yù)測來對噪聲邊進(jìn)行半監(jiān)督學(xué)習(xí)，從而大大提升算法對噪聲的魯棒性。” 論文中工作的有效性已在多個實(shí)驗(yàn)中得到了驗(yàn)證。相對于不去噪的模型，對缺失邊的預(yù)測F1可以提升大約10%，相對于分步識別噪聲邊和預(yù)測缺失邊的模型，F(xiàn)1可以提升2%左右。在進(jìn)行了去噪和缺失填補(bǔ)兩方面的網(wǎng)絡(luò)增強(qiáng)以后，對下游節(jié)點(diǎn)分類問題也有很大幫助，F(xiàn)1大概提升4~5%。網(wǎng)絡(luò)增強(qiáng)已經(jīng)成為信也科技復(fù)雜網(wǎng)絡(luò)算法挖掘的一個重要環(huán)節(jié)，并已逐步投入實(shí)際業(yè)務(wù)應(yīng)用，大大提升了算法的魯棒性。

目前，信也科技完備的自研技術(shù)已實(shí)現(xiàn)了對業(yè)務(wù)流程的全覆蓋，如人臉識別、多場景OCR、聲紋識別等多模態(tài)核身、增信技術(shù)，語音識別、意圖識別、對話管理、語音生成等全流程智能對話機(jī)器人技術(shù)，以及基于復(fù)雜網(wǎng)絡(luò)的不良中介識別和團(tuán)伙識別技術(shù)等。此外，還形成了智能投放、精準(zhǔn)營銷、核身、反欺詐、風(fēng)控決策流、Automl模型平臺和智能機(jī)器人等一系列AI產(chǎn)品。

科技領(lǐng)域累累碩果的背后，是信也科技始終著眼于科技并致力于科研的信念，亦是信也科技來自海內(nèi)外頂級高校與知名科技企業(yè)的相關(guān)研究人員以及加州理工大學(xué)、加州大學(xué)洛杉磯分校、浙江大學(xué)等高校的多名擔(dān)任科學(xué)顧問的教授的辛勞與汗水。此前，信也科技已與浙江大學(xué)共建人工智能實(shí)驗(yàn)室，并同中國人民大學(xué)建立了戰(zhàn)略伙伴關(guān)系，長期保持積極的合作。本次被IEEE TKDE收錄的論文即為校企科研合作的階段性成果之一。

今后，信也科技將繼續(xù)保持對科技研發(fā)的關(guān)注與投入，并進(jìn)一步加深與高校的科研合作，力求在相關(guān)領(lǐng)域進(jìn)行新嘗試與新突破，努力實(shí)現(xiàn)“科技，讓金融更美好”的使命。

(先睹為快：論文將刊登在下一期TKDE，Early Access電子版 )

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）