近日,KDD Cup 2018 的比賽結(jié)果出爐,阿里媽媽算法專家胡可與來自微軟、北大的兩位隊友組成的“getmax”隊成為唯一一支獲得全場三項大獎的隊伍。值得一提的是,胡可就職于阿里媽媽搜索直通車算法團隊,他主要的工作內(nèi)容是做廣告排序算法,如應(yīng)用深度學(xué)習(xí)模型解決業(yè)務(wù)問題,此次其在日常工作中積累的深度學(xué)習(xí)經(jīng)驗在比賽中起到了關(guān)鍵作用。
作為全球數(shù)據(jù)挖掘領(lǐng)域最有影響力的賽事,KDD Cup比賽由ACM協(xié)會的國際頂級會議SIGKDD舉辦,自1997年以來每年舉辦一次。該比賽一直以來都強調(diào)在實際場景中的應(yīng)用性,今年的賽題是主辦方提供中國北京和英國倫敦的天氣數(shù)據(jù),比賽選手需要以此來預(yù)測未來48小時內(nèi)PM2.5\PM10\O3濃度,賽題本身對應(yīng)對惡劣環(huán)境、改善人類生存有著重要意義。
斬獲三項大獎的秘密:空氣預(yù)報特征+深度學(xué)習(xí)模型解決空氣預(yù)測難題
與往年只有最終成績獎項不同,KDD Cup 2018計入了比賽過程中的成績并設(shè)立了三項大獎——“The General Track”、“最后10天專項獎”、“最佳長期預(yù)測獎”,從三個維度來獎勵比賽中表現(xiàn)突出的隊伍。而“getmax”也因全面而突出的表現(xiàn),從4000多個參賽隊伍中脫穎而出,成為唯一一個斬獲三項大獎的隊伍,分別取得一項亞軍、兩項冠軍的成績。
本屆賽題十分獨特,空氣質(zhì)量預(yù)測不僅具有規(guī)律性弱、不穩(wěn)定、易突變的特點,并且因為要預(yù)測未來48小時中的每個小時,以及北京/倫敦城市內(nèi)幾十個預(yù)測地點,建模時間序列以及地點拓撲關(guān)系給機器學(xué)習(xí)模型帶來挑戰(zhàn)。
在胡可看來,最終的成績主要來自于特征與模型兩方面的優(yōu)化。
特征方面:
發(fā)現(xiàn)風(fēng)速和風(fēng)向是長期預(yù)測與突變預(yù)測的關(guān)鍵,所以在比賽中在時間與空間維度細化了天氣預(yù)報的特征,并且運用噪音處理與分箱平滑、以及神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整解決天氣預(yù)報訓(xùn)練數(shù)據(jù)缺失引起的不一致問題。
模型方面:
除運用細粒度特征工程的樹模型外,也運用深度學(xué)習(xí)模型進行相對自動的特征間以及序列間關(guān)系挖掘。并且針對長時間序列問題的特點,對DNN網(wǎng)絡(luò)與RNN網(wǎng)絡(luò)分別進行了優(yōu)化調(diào)整,解決了序列間預(yù)測值接近、長序列預(yù)測值不穩(wěn)定等問題。
之所以會用以上的思路解決問題,胡可說,工作場景起到了在實際問題中積累思路與技術(shù)的作用,“對深度學(xué)習(xí)模型的應(yīng)用是前面隊伍排名區(qū)分的關(guān)鍵,在比賽中應(yīng)用的DNN/RNN模型在自己工作中的廣告領(lǐng)域有很多探索。”
阿里媽媽打造Ad Tech:用技術(shù)進步驅(qū)動營銷
“比賽中的有些開源解決方案,具有與實際工業(yè)界互相促進的作用?!焙蓪λ惴ū荣惡芨信d趣,他也是去年KDD Cup 的冠軍獲得者。
之所以活躍于全球頂級的算法大賽中,胡可表示,KDD Cup是工業(yè)界和學(xué)術(shù)界都非常關(guān)注的一個比賽,也產(chǎn)出過很多對業(yè)界有影響的技術(shù),比如KDD Cup 2012 產(chǎn)出的XGBOOST和FFM模型對工業(yè)界產(chǎn)生了很大的推進作用,而在工業(yè)界有了一定應(yīng)用沉淀后,又不斷地對這兩種模型進行優(yōu)化。
他也希望能夠向這個方向努力,預(yù)測環(huán)境問題與廣告問題看似場景不同,但技術(shù)本身是相通的,工作和比賽都是在針對具體問題運用機器學(xué)習(xí)相關(guān)算法進行建模與優(yōu)化。在算法比賽中一方面將工作中熟悉的技術(shù)應(yīng)用于各種實際問題,另一方面則加深對技術(shù)的理解并且將新的理解應(yīng)用到未來工作中。
這也正是阿里媽媽技術(shù)團隊所倡導(dǎo)的,作為阿里巴巴旗下的大數(shù)據(jù)營銷平臺,阿里媽媽在今年提出了打造營銷科技Ad Tech的品牌戰(zhàn)略,在其原有業(yè)務(wù)的探索基礎(chǔ)上,加深與學(xué)術(shù)界的交流。阿里媽媽每年都有一些新論文入選到IJCAI、WWW、AAAI等技術(shù)領(lǐng)域的國際頂級會議上,今年也有論文入選了此次SIGKDD會議,阿里集團共有14篇文章被收錄;同時,它也通過主辦算法大賽來增進算法交流,例如攜手國際人工智能的頂級盛會IJCAI以及阿里云天池平臺,共同舉辦的IJCAI 2018阿里媽媽國際廣告算法大賽。
在阿里媽媽Ad Tech的理念之下,通過技術(shù)的不斷進步,來驅(qū)動廣告場景的持續(xù)優(yōu)化,理想正在逐步照進現(xiàn)實。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )