DeepTables:為結(jié)構(gòu)化數(shù)據(jù)注入深度學(xué)習(xí)的洪荒之力

近年來深度學(xué)習(xí)在CV、NLP等非結(jié)構(gòu)化領(lǐng)域展現(xiàn)出超強(qiáng)的統(tǒng)治力,突破最高水平的算法層出不窮。深度學(xué)習(xí)在結(jié)構(gòu)化和非結(jié)構(gòu)化領(lǐng)域表現(xiàn)出來的巨大反差已成為熱門話題,自從以XGBoost、LightGBM為代表的高性能集成樹模型訓(xùn)練框架的問世,深度學(xué)習(xí)在結(jié)構(gòu)化領(lǐng)域就一直沒有超越配角的地位。到目前為止,Kaggle結(jié)構(gòu)化數(shù)據(jù)競賽中,傳統(tǒng)機(jī)器學(xué)習(xí)算法依然是最主要的贏家。

神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表示學(xué)習(xí)能力真的在結(jié)構(gòu)化數(shù)據(jù)上無法展現(xiàn)威力嗎?近日由國內(nèi)的數(shù)據(jù)科學(xué)平臺領(lǐng)導(dǎo)廠商——九章云極發(fā)布的開源項目DeepTables正在打破這個局面。DeepTables(簡稱DT)經(jīng)過大量的測試驗證,在使用相同數(shù)據(jù)訓(xùn)練模型的條件下,DT在70%以上的測試數(shù)據(jù)集上超越XGBoost和LightGBM,DT團(tuán)隊后續(xù)會發(fā)布詳細(xì)的測試報告。在3月31日剛剛結(jié)束的Kaggle競賽CategoricalFeatureEncodingChallengeII中DT團(tuán)隊獲得了第1名的成績,其中DT的一個單模型得到第3名,這在Kaggle比賽動則用數(shù)十?dāng)?shù)百個模型Ensemble的標(biāo)準(zhǔn)動作下,單模型取得如此突出的成績實屬不易。

DeepTables:為結(jié)構(gòu)化數(shù)據(jù)注入深度學(xué)習(xí)的洪荒之力

PublicLeaderboard

DeepTables:為結(jié)構(gòu)化數(shù)據(jù)注入深度學(xué)習(xí)的洪荒之力

PrivateLeaderboard

本屆比賽來自全球的參賽隊伍超過1100支,其中不乏BojanTunguz,SergeyYurgenson,KazAnova這些Kaggle頂級大神的身影,Google的AutoTables也參加了本場比賽但排名在300以外,所以雖然是Playground類競賽,但這個冠軍的含金量依然不低,DeepTables正在為深度學(xué)習(xí)正名。

實際近年來深度學(xué)習(xí)在結(jié)構(gòu)化的一些細(xì)分領(lǐng)域里已經(jīng)開始嶄露頭角,在CTR預(yù)測和推薦系統(tǒng)方面,神經(jīng)網(wǎng)絡(luò)算法利用其在高維稀疏特征上先進(jìn)的表示學(xué)習(xí)能力逐步超越了傳統(tǒng)機(jī)器學(xué)習(xí)算法。

從2015年Google公司的Wide&Deep網(wǎng)絡(luò)開始,到Deep&Cross、PNN、DeepFM、xDeepFM這些模型不斷刷新在公開數(shù)據(jù)集上的紀(jì)錄。研究人員也在不斷嘗試將CV、NLP上的技術(shù)引入到結(jié)構(gòu)化領(lǐng)域。

2019年北京大學(xué)的研究團(tuán)隊提出的AutoInt網(wǎng)絡(luò)應(yīng)用了大名鼎鼎的BERT中Multi-headAttention思想,有效的提升了結(jié)構(gòu)化數(shù)據(jù)自動特征生成和提取的效率,并且一定程度上解決了深度學(xué)習(xí)缺乏解釋性的問題。

華為諾亞實驗室提出的FGCNN在利用卷積神經(jīng)網(wǎng)絡(luò)的同時創(chuàng)新性的提出RecombinationLayer將局部特征組合進(jìn)一步重組,有效的避免了CNN過于關(guān)注局部特征交互的短板,F(xiàn)GCNN在華為AppStore的推薦系統(tǒng)中大幅提升原有算法的表現(xiàn)。

以上成果確實足以讓業(yè)界重拾深度學(xué)習(xí)在結(jié)構(gòu)化數(shù)據(jù)上的信心,但目前這些成果主要在少數(shù)的互聯(lián)網(wǎng)巨頭企業(yè)中發(fā)揮價值,對于大多數(shù)企業(yè)和數(shù)據(jù)科學(xué)家來說只是看上去很美,想要應(yīng)用到實際的建模工作中面臨著不小的代價。

1)這些模型大多落在論文層面,部分論文雖然提供了用于驗證模型的源碼,但想把這些源碼應(yīng)用到實際業(yè)務(wù)上,代碼改造的工作量和難度都不小。

2)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)之間最明顯的區(qū)別是在結(jié)構(gòu)化領(lǐng)域每一個數(shù)據(jù)集的語義空間和數(shù)值的物理含義都有所不同,同一個模型在不同數(shù)據(jù)集上的表現(xiàn)有時天差地別,常常需要同時評估各種不同模型才能找到最優(yōu)方案,這也進(jìn)一步放大了第1點中提到的工程代價。

3)上面提到的大部分模型重點解決的是高維稀疏的類別型特征的學(xué)習(xí)能力,對于連續(xù)型的數(shù)值特征關(guān)注有限,這個部分恰恰是GBM模型的殺手锏,因此遇到以連續(xù)型特征為主的數(shù)據(jù)集這些模型往往不盡人意。

九章云極的研發(fā)團(tuán)隊基于以上痛點,加上長期服務(wù)于金融行業(yè)所積累的經(jīng)驗開發(fā)并且開源了DeepTables深度學(xué)習(xí)工具包,目前后端計算框架支持Tensorflow2.0以上版本。

DeepTables:為結(jié)構(gòu)化數(shù)據(jù)注入深度學(xué)習(xí)的洪荒之力

DT極其易用,僅5行代碼即可完成任意一個數(shù)據(jù)集的建模工作,數(shù)據(jù)不做任何的預(yù)處理和加工也可以完成建模,不管是專家型的數(shù)據(jù)科學(xué)家還是沒有建模能力的業(yè)務(wù)分析人員,DT都能夠提供開箱即用的卓越性能,這是高度依賴手工特征工程的傳統(tǒng)機(jī)器學(xué)習(xí)算法難以實現(xiàn)的。

另外,DT有著非常開放的架構(gòu)設(shè)計,DT把近年來最優(yōu)秀的研究成果中的關(guān)鍵網(wǎng)絡(luò)架構(gòu)抽取出一組神經(jīng)網(wǎng)絡(luò)構(gòu)件(nets),這些構(gòu)件可以任意組合出一個新的網(wǎng)絡(luò)架構(gòu),可以非常簡便的在不同數(shù)據(jù)集上探索最優(yōu)的網(wǎng)絡(luò)組合。

同時,DT支持插件式的擴(kuò)展方式,用戶可以按DT的接口開發(fā)自己的構(gòu)件和內(nèi)置的構(gòu)件融合在一起構(gòu)成一個新的模型。之前需要幾周甚至上月的時間完成的工作,在DT的助力下幾個小時甚至幾分鐘就可以完成。

DT項目地址

DT官方文檔

DT目前還處于相對早期的階段,剛剛發(fā)布了0.1.9。DT下一個計劃是開放神經(jīng)架構(gòu)搜索(NAS)引擎,用AI算法實現(xiàn)在不同的數(shù)據(jù)集上自動搜索最佳的網(wǎng)絡(luò)架構(gòu),實現(xiàn)真正智能的AutoDL。

九章云極一直以來秉持擁抱開源的態(tài)度,旗下的分布式機(jī)器學(xué)習(xí)平臺APS,其開放的技術(shù)架構(gòu)和開源生態(tài)完美融合,受到廣大企業(yè)客戶的青睞。九章云極受益于開源社區(qū),同時也在持續(xù)大力回饋于開源社區(qū)。

最后插播一個廣告(* ̄︶ ̄)

DT團(tuán)隊目前人才緊缺,歡迎有志于AutoML、AutoDL領(lǐng)域的各類人才加盟,為DT團(tuán)隊注入洪荒之力。有興趣的同學(xué)可以直接向DT團(tuán)隊負(fù)責(zé)人投遞簡歷。廣闊天地,大有可為!

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2020-04-08
DeepTables:為結(jié)構(gòu)化數(shù)據(jù)注入深度學(xué)習(xí)的洪荒之力
近年來深度學(xué)習(xí)在CV、NLP等非結(jié)構(gòu)化領(lǐng)域展現(xiàn)出超強(qiáng)的統(tǒng)治力,突破最高水平的算法層出不窮。

長按掃碼 閱讀全文