螞蟻金服首屆ATEC開(kāi)發(fā)者大賽人工智能大賽圓滿落幕,一文詳解最佳解題方案

螞蟻金服首屆ATEC開(kāi)發(fā)者大賽人工智能大賽圓滿落幕,一文詳解最佳解題方案

摘要:一個(gè)歷時(shí)4個(gè)多月、吸引了5618位參賽選手、Michael I. Jordan和螞蟻金服CTO親自在證書(shū)上簽名的大賽。

杭州·云棲大會(huì)期間,首屆“ATEC 螞蟻開(kāi)發(fā)者大賽人工智能大賽”在ATEC展館落下帷幕。

此次大賽于今年4月18日預(yù)報(bào)名啟動(dòng),8月26日復(fù)賽結(jié)束,持續(xù)時(shí)長(zhǎng)131天。“不錯(cuò)的業(yè)務(wù)場(chǎng)景”及“真實(shí)的數(shù)據(jù)集”吸引了來(lái)自來(lái)自全球20多個(gè)國(guó)家地區(qū)1000所院校及企業(yè),近1/3海外高校,共5618位選手參賽,是一場(chǎng)真正的國(guó)際化頂級(jí)比賽!

值得一提的是,參賽者中,擁有碩士及以上學(xué)歷的占比70%,行業(yè)界人士占比40%,這讓此次比賽更為激烈和貼近實(shí)戰(zhàn)。

此次大賽分為“風(fēng)險(xiǎn)大腦-支付風(fēng)險(xiǎn)識(shí)別”、“金融大腦-智能客服NLP相似度計(jì)算”兩個(gè)賽道,兩個(gè)賽道各有五支隊(duì)伍進(jìn)入決賽,進(jìn)行現(xiàn)場(chǎng)演示和答辯。排名前三的團(tuán)隊(duì)(共6支隊(duì)伍)共獲得120萬(wàn)元現(xiàn)金獎(jiǎng)勵(lì),并獲得直通螞蟻金服集團(tuán)技術(shù)崗的終面資格。

頒獎(jiǎng)典禮上,螞蟻金服科學(xué)智囊團(tuán)主席、加州大學(xué)伯克利分校教授Michael I. Jordan,螞蟻金服副總裁、首席數(shù)據(jù)科學(xué)家漆遠(yuǎn)等學(xué)術(shù)及行業(yè)嘉賓為獲獎(jiǎng)團(tuán)隊(duì)頒發(fā)了獲獎(jiǎng)證書(shū)并簽名、合影留念。

螞蟻金服首屆ATEC開(kāi)發(fā)者大賽人工智能大賽圓滿落幕,一文詳解最佳解題方案

Michael I. Jordan在獲獎(jiǎng)證書(shū)上簽名

清華大學(xué)朱軍教授、哈爾濱工業(yè)大學(xué)劉挺教授也出席了頒獎(jiǎng)典禮,他們是大賽評(píng)委。

朱軍教授是支付大腦的評(píng)委之一,他對(duì)比賽做出了這樣的點(diǎn)評(píng):“AI用到金融里,現(xiàn)在不管是學(xué)術(shù)界或者是應(yīng)用,都是大家比較關(guān)心的。但是AI要用到行業(yè)里、想做出好的解決方案,需要對(duì)問(wèn)題和場(chǎng)景有非常深入的理解。我覺(jué)得你們都非常了不起,能夠把機(jī)器學(xué)習(xí)算法用到實(shí)際里。雖然大家的思路都比較一致,但我覺(jué)得里面有很多精細(xì)的工作,做得還非常漂亮。特別是看到除了特征工程之外,大家對(duì)原理和方法有一些自己的思考,我覺(jué)得這個(gè)是特別值得鼓勵(lì)的。不管是從學(xué)術(shù)界還是從工業(yè)界來(lái)看,我希望能夠看到更多更有意思的例子和成果。”

金融大腦的比賽結(jié)束后,劉挺教授現(xiàn)場(chǎng)致辭:“現(xiàn)在這個(gè)時(shí)代真的是工業(yè)界領(lǐng)先的時(shí)代,搞NLP的人,我們的優(yōu)勢(shì)是能夠和工業(yè)界結(jié)合,去拿到他們的真實(shí)數(shù)據(jù)。我們現(xiàn)在有機(jī)會(huì)和工業(yè)界合作,我希望大家更多去傾聽(tīng)工業(yè)界的聲音,他們提煉出真實(shí)的問(wèn)題、提供真實(shí)的數(shù)據(jù)。未來(lái),希望大家能更深入地去分析,從原理上、從本源處去發(fā)明創(chuàng)造,去拐大彎兒。”

“優(yōu)秀的數(shù)據(jù)集和場(chǎng)景”吸引了參賽經(jīng)驗(yàn)豐富的工程師應(yīng)縝哲,他是金融大腦賽道亞軍Skyhigh的隊(duì)長(zhǎng)。Skyhigh是一支參賽經(jīng)驗(yàn)豐富的隊(duì)伍,共有三名成員,除了已經(jīng)工作了的應(yīng)縝哲,還有兩位研究生。自2017年認(rèn)識(shí)以來(lái),三人組團(tuán)參加了五六次比賽,且都取得了不錯(cuò)的成績(jī)。

應(yīng)縝哲說(shuō),“這次比賽是國(guó)內(nèi)一個(gè)非常好的中文的課題,這種賽題非常少。數(shù)據(jù)很真實(shí),我們做了很多特征工程,這是這個(gè)比賽我認(rèn)為最有意思、也是我花時(shí)間最多的地方。如果下次比賽,賽題還這么有趣,我還會(huì)來(lái)的。”

螞蟻金服這次精心呈上的兩個(gè)經(jīng)典賽題究竟是什么?兩支冠軍隊(duì)伍又分別給出了怎樣的解題方案?下文將作出詳細(xì)解答。

“風(fēng)控老兵”來(lái)參賽,斬獲冠軍

移動(dòng)互聯(lián)網(wǎng)的新金融業(yè)務(wù)在蓬勃發(fā)展的同時(shí),黑產(chǎn)攻擊的能力也在不斷升級(jí)。信息泄露導(dǎo)致過(guò)億的敏感數(shù)據(jù)被盜用、利用,給用戶和銀行帶來(lái)了巨大的經(jīng)濟(jì)損失。保護(hù)消費(fèi)者和風(fēng)險(xiǎn)識(shí)別,越來(lái)越成為金融行業(yè)和學(xué)術(shù)界關(guān)注的焦點(diǎn)。

在這一背景下,螞蟻金服設(shè)置了“支付風(fēng)險(xiǎn)識(shí)別”的賽題:用2017年9月到10月的交易數(shù)據(jù)構(gòu)建算法,識(shí)別2018年2月的交易欺詐行為。

這一賽題,吸引了多位金融科技領(lǐng)域的資深從業(yè)人士來(lái)參賽。斬獲冠軍的,也是“風(fēng)控行業(yè)的老兵”,他們的解決方案兼具“創(chuàng)新性”和“實(shí)用性”。

“我們是一支來(lái)自上海的隊(duì)伍。”“謀殺電冰箱”的隊(duì)長(zhǎng)熊文文說(shuō),團(tuán)隊(duì)共有4人,平均年齡27歲,都來(lái)自互聯(lián)網(wǎng)金融行業(yè),對(duì)風(fēng)險(xiǎn)控制和風(fēng)險(xiǎn)模型的開(kāi)發(fā)有一定的了解。

“這個(gè)比賽提供了一個(gè)新場(chǎng)景——支付場(chǎng)景,大家就都想試一試。”熊文文說(shuō),他們之前在信貸場(chǎng)景下做風(fēng)險(xiǎn)控制,不同于支付場(chǎng)景中的風(fēng)險(xiǎn)控制,“信貸主要是刻畫(huà)一個(gè)人(賬戶)的資質(zhì)情況,支付不是刻畫(huà)賬戶的資質(zhì)、而是刻畫(huà)某單交易異常的情況。”

如何解題?他們的特征工程以交易的賬戶(人)、交易賬戶所處的環(huán)境、與這個(gè)賬戶交易的商戶三個(gè)要素為核心,結(jié)合這三要素交叉時(shí)間維度,尋找靜/動(dòng)態(tài)異常交易的特征。

通過(guò)數(shù)據(jù)分析,他們發(fā)現(xiàn),“盜刷交易存在一定的集中性”。比如,1%的用戶覆蓋了80%的盜刷時(shí)間;某用戶在3天內(nèi)被盜刷幾百次;某交易方(也即商戶)交易1175次,其中80%是盜刷。“如果之前的交易就是有風(fēng)險(xiǎn)的,如果能檢測(cè)到之前風(fēng)險(xiǎn)的話,那我就可以在判定這單交易時(shí),把風(fēng)險(xiǎn)加進(jìn)去。”于是,他們創(chuàng)新地提出了“先驗(yàn)風(fēng)險(xiǎn)信息”的概念,并設(shè)計(jì)了一個(gè)可以提煉先驗(yàn)風(fēng)險(xiǎn)信息的模型結(jié)構(gòu)來(lái)強(qiáng)化識(shí)別效果。

他們將數(shù)據(jù)按照時(shí)間的先后分為第一個(gè)月的數(shù)據(jù)和第二個(gè)月的數(shù)據(jù)。首先,通過(guò)第一個(gè)月的數(shù)據(jù)訓(xùn)練3個(gè)子模型(各有側(cè)重),這3個(gè)子模型的AUC停留在0.986左右,判定分?jǐn)?shù)在0.56-0.57之間;再利用3個(gè)子模型對(duì)第二個(gè)月的數(shù)據(jù)進(jìn)行預(yù)測(cè),進(jìn)而得到第二個(gè)月每單交易的三個(gè)風(fēng)險(xiǎn)分?jǐn)?shù)(即先驗(yàn)風(fēng)險(xiǎn));最后通過(guò)風(fēng)險(xiǎn)分?jǐn)?shù)及其衍生變量,加上第二個(gè)月數(shù)據(jù)的常規(guī)變量,訓(xùn)練得到模型D。模型D給出的結(jié)果即為最后的結(jié)果。最終,模型D線下的測(cè)試AUC可以達(dá)到0.991,線下的判定分?jǐn)?shù)能達(dá)到0.7。

螞蟻金服首屆ATEC開(kāi)發(fā)者大賽人工智能大賽圓滿落幕,一文詳解最佳解題方案

此外,他們還挖掘了一些白名單的規(guī)則:如,用戶每月3000筆以后的交易可以直接定義為正常;設(shè)備每月400筆之后,可以定義為正常。“通過(guò)白名單的規(guī)則,大概可以覆蓋10%的樣本。通過(guò)白名單規(guī)則,又可以將判定分?jǐn)?shù)提升幾個(gè)千分位。”

分時(shí)間段建模、將效果不好的早期數(shù)據(jù)化作變量、進(jìn)行融合建模的做法以及策略+模型的解題思路,讓他們?nèi)〉昧说谝幻某煽?jī)(A榜得分0.627,B榜得分0.797),也斬獲了評(píng)委們的心。

逆襲:從第十一到第一,“有一種觸電的感覺(jué)”

“金融大腦”的賽題是問(wèn)題相似度計(jì)算,即給定客服里用戶描述的兩句話,用算法來(lái)判斷是否表示了相同的語(yǔ)義。

“這個(gè)任務(wù)非常有實(shí)用價(jià)值。“一支優(yōu)秀的隊(duì)伍”是此賽道的冠軍,隊(duì)長(zhǎng)段譽(yù)說(shuō):“想象你在做一個(gè)客服系統(tǒng),事先會(huì)有一個(gè)問(wèn)題-答案的表單,客服的工作其實(shí)就是在面對(duì)用戶的提問(wèn)時(shí),迅速找到與之最接近的問(wèn)題,并整理出答案來(lái)給用戶。文本匹配系統(tǒng)一旦做的好了,可以直接解決第二個(gè)階段的問(wèn)題,也是最需要人力的部分——找到最接近的問(wèn)題,這能大大減輕客服的壓力,讓他們?nèi)ソ鉀Q真正困難的問(wèn)題。”

最先獲知這個(gè)比賽的是研一師弟梁嘉輝,他剛開(kāi)始接觸NLP,“想通過(guò)這個(gè)比賽提高自己的能力”。因?yàn)橐粋€(gè)人參賽難度太大,便找到“正處于學(xué)術(shù)空檔期”的段譽(yù)(研三),共同組隊(duì)參加比賽。一個(gè)關(guān)鍵BUG的解決讓他們從第十一逆襲到第一,“有一種觸電感覺(jué)”。

與進(jìn)入決賽的其他4支隊(duì)伍相比,他們?cè)谔卣鞴こ躺匣ㄙM(fèi)了很少的時(shí)間,主要立足于對(duì)模型的充分改進(jìn)和探索,將單一模型的效果發(fā)揮到了極致。

他們的最佳成績(jī)是將三個(gè)模型ensemble后得來(lái)的,這三個(gè)模型結(jié)構(gòu)大概相同,只在細(xì)節(jié)(例如模型輸入)上有細(xì)微差別。他們的最優(yōu)模型如下:

首先,他們的模型輸入為五個(gè)層面的char-level feature,除exact match、idf外,自動(dòng)提取了幾個(gè)特征:用skip-gram在本地訓(xùn)練300維char embedding,為了防止過(guò)擬合,訓(xùn)練時(shí)是fix住的;為了彌補(bǔ)因fix而損失的模型能力,額外引入了50維可以訓(xùn)練的char embedding;利用其他文獻(xiàn)的方法分別提取了1維的句子間特征以及1維的句子本身特征。

通過(guò)輸入層后,引入Noise+Dropout,用來(lái)提升模型魯棒性,再用bi-GRU當(dāng)作encoder,并引入fuse gate來(lái)加速信息流通,然后用一層mlp+殘差進(jìn)一步整合信息。之后對(duì)兩個(gè)句子進(jìn)行對(duì)齊。對(duì)齊之后,通過(guò)正交分解,分別提取相關(guān)性和不相關(guān)性的信息。

用Multi-Head attention + Multi-Head pooling對(duì)相關(guān)信息、不相關(guān)信息進(jìn)行推斷后,再過(guò)一次一層mlp+殘差,然后分別得到相關(guān)信息表達(dá)、不相關(guān)信息表達(dá)。用fuse gate對(duì)兩方面的信息綜合考慮后,再經(jīng)過(guò)dropout以及兩層MLP,得出最終的結(jié)果。

螞蟻金服首屆ATEC開(kāi)發(fā)者大賽人工智能大賽圓滿落幕,一文詳解最佳解題方案

段譽(yù)在論壇里分享了自己的經(jīng)驗(yàn),他寫(xiě)道:“從一開(kāi)始我們就選擇了ESIM模型,相比現(xiàn)在動(dòng)不動(dòng)就好多層網(wǎng)絡(luò)結(jié)構(gòu)的NLI模型,ESIM思路清晰、能說(shuō)服我們、網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)簡(jiǎn)單、沒(méi)有用很多trick、擴(kuò)展性也強(qiáng)、效果很棒,所以就一眼相中了。”

“對(duì)于NLP語(yǔ)義相似度識(shí)別這個(gè)任務(wù)來(lái)講,模型的潛力是蠻大的,我們沒(méi)有做任何的預(yù)處理,完整地保留了每個(gè)句子的所有信息(當(dāng)然了padding和截取是必須的)。我們沒(méi)有使用詞級(jí)別的向量,而是純用的字級(jí)別的向量,在做實(shí)驗(yàn)的過(guò)程中發(fā)現(xiàn)基于詞級(jí)別的結(jié)果普遍要差一點(diǎn),這和分詞質(zhì)量不無(wú)關(guān)系,而且本人認(rèn)為GRU、LSTM這樣的網(wǎng)絡(luò)因?yàn)橐肓薴use gate,已經(jīng)具備一定程度的分詞作用了。但是可以料想的是,如果經(jīng)過(guò)了良好的分詞處理,結(jié)合word和char級(jí)別的embedding,應(yīng)該是有一定幫助的。”

梁嘉輝表示,通過(guò)參加這次大賽,他體驗(yàn)到了深度學(xué)習(xí)的魅力,也明確了未來(lái)的研究方向,“就是NLP(自然語(yǔ)言處理)”。

通過(guò)大賽解決實(shí)際問(wèn)題,是螞蟻金服的初衷。“我們非常歡迎更多人參與進(jìn)來(lái),能夠去學(xué)習(xí)新技術(shù)、用技術(shù)解決實(shí)際問(wèn)題。”螞蟻技術(shù)合作與發(fā)展部的柴文意是此次大賽的負(fù)責(zé)人,她表示,此次比賽結(jié)束后,螞蟻金服將會(huì)把賽題和數(shù)據(jù)開(kāi)放出來(lái),也會(huì)盡可能地將參賽者的策略、方案應(yīng)用到螞蟻金服的真實(shí)場(chǎng)景中去。

漆遠(yuǎn)表示,“這(此次比賽)只是一個(gè)開(kāi)始,我們會(huì)把這個(gè)作為一個(gè)長(zhǎng)期的機(jī)制——打榜機(jī)制,開(kāi)放出平臺(tái),讓更多朋友參加這個(gè)比賽。”

螞蟻金服首屆ATEC開(kāi)發(fā)者大賽人工智能大賽圓滿落幕,一文詳解最佳解題方案

螞蟻金服副總裁、首席數(shù)據(jù)科學(xué)家漆遠(yuǎn)

“ATEC大賽是一個(gè)非常好的鏈接生態(tài)的平臺(tái),將會(huì)持續(xù)舉辦。”柴文意表示,接下來(lái),他們會(huì)在不同領(lǐng)域推出不同賽題,把行業(yè)中一些通用的問(wèn)題提煉出來(lái),把一些脫敏過(guò)的數(shù)據(jù)開(kāi)放給選手,“讓他們?cè)谶@個(gè)過(guò)程中得到鍛煉和學(xué)習(xí)”。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2018-10-16
螞蟻金服首屆ATEC開(kāi)發(fā)者大賽人工智能大賽圓滿落幕,一文詳解最佳解題方案
摘要:一個(gè)歷時(shí)4個(gè)多月、吸引了5618位參賽選手、Michael I. Jordan和螞蟻金服CTO親自在證書(shū)上簽名的大賽。

長(zhǎng)按掃碼 閱讀全文