京東金融在KDD2018發(fā)表5篇論文 以前沿成果破解應(yīng)用難題

一年一度KDD。

8月19-23日,國際數(shù)據(jù)挖掘頂級會議KDD2018在英國倫敦正式召開,大約3000名來自世界各地的頂級學(xué)者和知名企業(yè)代表齊聚一堂,展示了各自在數(shù)據(jù)科學(xué)領(lǐng)域的最新技術(shù)與成果。由京東金融副總裁、首席數(shù)據(jù)科學(xué)家鄭宇博士發(fā)起創(chuàng)辦的國際城市計算論壇(International Workshop on Urban Computing)在大會上如期召開,吸引了眾多頂級學(xué)者參與,共同探討大數(shù)據(jù)和人工智能在城市計算領(lǐng)域的先進(jìn)科研成果,成功實踐案例,彰顯了國際學(xué)界對城市計算的高度關(guān)注。

京東全面亮相KDD大會,并以發(fā)表10篇論文的成績展示了中國技術(shù)發(fā)展的“京東力量”, 其中,京東金融共有4篇論文被KDD大會收錄,這四篇論文均出自京東金融城市計算事業(yè)部,相關(guān)作者受邀出席大會并做技術(shù)報告。此外,京東金融風(fēng)險管理部還有一篇論文被KDD上的“圖的挖掘與學(xué)習(xí)國際研討會”收錄。

KDD大會的投稿量逐年攀升,今年的接收率僅為18.4%。京東金融的相關(guān)學(xué)術(shù)成果何以在KDD期間贏得廣泛贊譽,首要的原因是這些成果將創(chuàng)新的技術(shù)和落地的應(yīng)用有機融合。下面,就讓我們來看看,京東金融的這五篇論文都取得了哪些成果。

1、中文標(biāo)題:基于對等和時間感知的表示學(xué)習(xí)的駕駛行為分析

英文標(biāo)題:You Are How You Drive: Peer and Temporal-Aware Representation Learning for Driving Behavior Analysis

摘要:

車輛駕駛是一種需要多種技巧的復(fù)雜行為,合理有效的分析挖掘司機的駕駛行為,能夠幫助我們評估一個司機的駕駛技能,進(jìn)而也能幫助評估城市每塊區(qū)域或路段每一時刻的路面駕駛安全系數(shù),幫助檢測出高風(fēng)險區(qū)域路段,提升交通安全,促進(jìn)城市智能交通系統(tǒng)的發(fā)展。

某一時間,計算某一區(qū)域內(nèi) ,位置處于當(dāng)前區(qū)域的司機的 driving score的平均值。分?jǐn)?shù)越高越安全,越低越危險。這是業(yè)內(nèi)首次實現(xiàn)對司機駕駛行為以及危險區(qū)域的實時評估。

分析司機的駕駛行為并預(yù)判某一區(qū)域的交通風(fēng)險,有著顯著的社會應(yīng)用價值: 首先, 對交通管理部門說,提前對危險區(qū)域作出預(yù)判,及時疏導(dǎo),為決策提供支持,優(yōu)化資源的調(diào)配,例如信號燈、警示牌、醫(yī)療單位的位置規(guī)劃等; 其次,對保險公司來說,可以根據(jù)司機的駕駛行為,使調(diào)整保費策略更加合理;第三,對提供地圖和導(dǎo)航服務(wù)的企業(yè)來說,在提供導(dǎo)航服務(wù)時,可以根據(jù)危險區(qū)域的預(yù)判,對路線進(jìn)行調(diào)整,完善自身的服務(wù);最后,對司機個人來說,driving score的變化,對調(diào)整自己的駕駛行為和駕駛習(xí)慣有指導(dǎo)意義,可以幫助司機形成安全駕駛的良好習(xí)慣。

京東金融在KDD2018發(fā)表5篇論文 以前沿成果破解應(yīng)用難題

2、中文標(biāo)題:共享單車動態(tài)調(diào)度:時空數(shù)據(jù)上的強化學(xué)習(xí)模型

英文標(biāo)題:Dynamic Bike Reposition: A Spatio-Temporal Reinforcement Learning Approach

摘要:

共享單車在城市中越來越普及,便利城市出行的同時也給單車運營帶來諸多問題:部分區(qū)域存在大量單車擁堵,而另一些區(qū)域卻沒有可供使用的單車?,F(xiàn)階段,單車運營商采用小型三輪車在城市各區(qū)域之間持續(xù)地進(jìn)行單車調(diào)度來解決上述問題。我們提出了一種基于時空數(shù)據(jù)的強化學(xué)習(xí)模型來實時地指導(dǎo)城市內(nèi)的各個三輪車進(jìn)行協(xié)作、高效、長期最優(yōu)地單車調(diào)度。

從應(yīng)用層面來看,由于我們更好地考慮了實際調(diào)度中的不確定因素,通過上述方法進(jìn)行單車調(diào)動,相較于傳統(tǒng)模型可以大幅提升調(diào)度效率,,從而減少用戶想找車卻找不到的情況發(fā)生,使得單車系統(tǒng)服務(wù)的人數(shù)實現(xiàn)最大化,且進(jìn)一步提升用戶體驗。

京東金融在KDD2018發(fā)表5篇論文 以前沿成果破解應(yīng)用難題

3、中文標(biāo)題:基于深度分布式融合網(wǎng)絡(luò)的空氣質(zhì)量預(yù)測

英文標(biāo)題:Deep Distributed Fusion Network for Air Quality Prediction

摘要:

隨著城市化的快速發(fā)展,中國的大多數(shù)城市正經(jīng)歷著嚴(yán)重的空氣污染問題。預(yù)測未來空氣質(zhì)量不僅可以幫政府更好地做出決策,也可以幫助人們規(guī)劃未來出行計劃?;诳諝赓|(zhì)量數(shù)據(jù)、氣象數(shù)據(jù)和天氣預(yù)報數(shù)據(jù),借助大氣科學(xué)領(lǐng)域的專業(yè)知識,我們提出了一種基于深度學(xué)習(xí)的預(yù)測方法DeepAir來預(yù)測未來48小時細(xì)粒度空氣質(zhì)量。

中國于 2012 年開始對 PM2.5 進(jìn)行監(jiān)控,在 5 年前,可用數(shù)據(jù)點只有幾千個,小樣本問題是進(jìn)行預(yù)測的一大障礙。如今,全國有超過 200 個城市、數(shù)千個站點在以小時為單位記錄空氣質(zhì)量數(shù)據(jù),數(shù)據(jù)量的極大豐富讓研究者思考深度學(xué)習(xí)能否更好地解決問題。研究者發(fā)現(xiàn)深度學(xué)習(xí)在拐點預(yù)測方面有較大提升。

空氣質(zhì)量預(yù)測既需要考慮到大顆粒懸浮物,也要考慮污染物,是一項“既要看天,也要看人”的時空細(xì)粒度預(yù)測,它影響因素眾多,且不可直接觀測,需要應(yīng)用機器學(xué)習(xí)模擬諸多影響因素的變化。在空氣質(zhì)量預(yù)測中,拐點預(yù)測尤為重要:它與工廠停工、學(xué)生停課等城市管理決策執(zhí)行息息相關(guān)。

在深度學(xué)習(xí)處理時空數(shù)據(jù)時,數(shù)據(jù)轉(zhuǎn)化和屬性捕捉是兩大重點。深度分布式融合網(wǎng)絡(luò)設(shè)計了針對空氣質(zhì)量指數(shù)的特定的數(shù)據(jù)歸集合并的方法,進(jìn)行數(shù)據(jù)維度對齊和濾噪,然后把氣象、 天氣、其他污染物等因素引入,進(jìn)行嵌入(embedding)后,利用不同的融合網(wǎng)絡(luò)分別學(xué)習(xí) AQI 受整體和各因素分別的影響權(quán)重,最后得出預(yù)測結(jié)果。這種方法很好地捕捉了空氣質(zhì)量驟變。準(zhǔn)確率提高到接近 50%。

預(yù)測未來48小時細(xì)粒度空氣質(zhì)量,不僅是讓居民精確知曉自己周邊的空氣質(zhì)量如何、更健康的規(guī)劃出行,還可幫助政府追溯污染源,并科學(xué)決策控制污染的措施。

京東金融在KDD2018發(fā)表5篇論文 以前沿成果破解應(yīng)用難題

4、中文標(biāo)題:利用共享單車軌跡數(shù)據(jù)的違章停車檢測

英文標(biāo)題:Detecting Vehicle Illegal Parking Events using Sharing Bikes' Trajectories

摘要:

違章停車是大城市中普遍存在的問題。占道的違章停車引起交通擁堵,也會引發(fā)交通事故。僅僅通過目前的交警巡邏、攝像監(jiān)控方案,很難覆蓋整個城市,并且會耗費的不小的人力物力。近年來,共享單車的興起產(chǎn)生了大量且質(zhì)量高的軌跡數(shù)據(jù),為我們檢測違章停車提供了新的機遇。因為我們觀察到,大多數(shù)違章停車發(fā)生在路邊,會對自行車騎行軌跡造成影響。為此,我們提出了基于共享單車軌跡數(shù)據(jù)的違章停車檢測技術(shù)。

這項工作包括一個預(yù)處理模塊,進(jìn)行有針對性的相應(yīng)軌跡清洗、路網(wǎng)匹配、軌跡索引;以及一個檢測模塊,基于假設(shè)檢驗與軌跡融合進(jìn)行檢測。

在預(yù)處理部分,通過路網(wǎng)匹配去掉了匹配到高速路等自行車罕至地域的軌跡、與道路幾乎垂直的、偏離道路過遠(yuǎn)的軌跡,同時因為違章停車對正向和反向騎行的自行車影響程度不同,因此將軌跡按其行進(jìn)方向分開,用不同的模型分別刻畫。

在檢測部分,主要強調(diào)三點考量:1. 不區(qū)分不同模式的違章停車,將其全部視為一類。將其多樣性內(nèi)化。2. 不檢測單條軌跡,而是把不同軌跡合在一起進(jìn)行一次判斷,排除可能影響單條軌跡的諸多誤差。3. 對每條路單獨建模,排除不同地區(qū)障礙物不同帶來的 GPS 誤差分布差異。檢測模型將深夜的自行車軌跡視為基線數(shù)據(jù),然后用 KS 檢驗判斷白天與深夜的樣本是否處于同一個分布,輸出一個屬于同一分布的置信度,然后用真實違停檢驗數(shù)據(jù)集確定分類的閾值。

這項研究的成果已經(jīng)投入實際應(yīng)用,能夠?qū)崟r檢測整個城市里面什么地方出現(xiàn)了違章停車,不需要派管理員去看就能夠自動識別,然后把有限的人力精準(zhǔn)地投放到那些違章的路段。交管人員從“掃街”式監(jiān)管,變成針對核心路段重點監(jiān)測,提高了效率,節(jié)省了人力,有助于治理違章停車現(xiàn)象。

京東金融在KDD2018發(fā)表5篇論文 以前沿成果破解應(yīng)用難題

5、中文標(biāo)題:可伸縮異構(gòu)圖上群體欺詐檢測

英文標(biāo)題:HGsuspector: Scalable Collective Fraud Detection in Heterogeneous Graphs

摘要:圖可以直接地表示對象之間的關(guān)系,在學(xué)術(shù)界和產(chǎn)業(yè)界取得了廣泛關(guān)注。但是目前的研究成果主要集中在同構(gòu)圖和二分圖上,然而這些算法卻很難應(yīng)用在實際的場景中。因為在現(xiàn)實世界中,對象類型和關(guān)系是多種多樣的,數(shù)據(jù)的數(shù)量可能非常大。本文針對“黑產(chǎn)”的特點,提出了一種可伸縮有向異構(gòu)圖上的集體欺詐檢測算法。首先將有向異構(gòu)圖分解成一組二分圖,然后對每個連通的二分圖定義一個度量,該度量融合結(jié)構(gòu)信息和事件概率。通過在分?jǐn)?shù)空間的統(tǒng)計或其他異常檢測算法可以得到區(qū)分正常和異常的閾值。

上述科研成果已經(jīng)轉(zhuǎn)化為實際應(yīng)用,我們提出了電子商務(wù)場景下的群體欺詐檢測的技術(shù)解決方案,并成功應(yīng)用于京東電子商務(wù)平臺,實現(xiàn)了對集體欺詐的實時檢測。在擁有數(shù)十億個節(jié)點和邊緣的真實數(shù)據(jù)集上的實驗表明,該方法比此前最先進(jìn)的方法更加精確和快速,可以更有效地打擊 “黑產(chǎn)”分子,維護(hù)網(wǎng)絡(luò)安全。

京東金融在KDD2018發(fā)表5篇論文 以前沿成果破解應(yīng)用難題

對于京東金融而言,參與頂級學(xué)術(shù)會議不僅是為了與學(xué)術(shù)界交流學(xué)術(shù)成果、展現(xiàn)自身科研實力,而且是為了分享創(chuàng)新成果,緊密地把學(xué)術(shù)成果與應(yīng)用落地相結(jié)合,以開放的態(tài)度,加速科研成果的應(yīng)用轉(zhuǎn)化,為全社會創(chuàng)造更大價值。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-08-24
京東金融在KDD2018發(fā)表5篇論文 以前沿成果破解應(yīng)用難題
一年一度KDD。

長按掃碼 閱讀全文