2018年1月,Oracle 的官方博客上發(fā)表了一篇文章,標題是“It’s Pervasive: AI Is Everywhere”。作為全球最著名的商業(yè)數(shù)據(jù)庫系統(tǒng)提供商,Oracle 在這篇文章里歷數(shù)了 AI 在企業(yè)信息系統(tǒng)中的發(fā)展空間。在面向最終用戶的互聯(lián)網(wǎng)行業(yè),巨頭們招募AI專家,用Python和C++打造服務大眾的特定AI能力——搜索、推薦、以及精準定向的互聯(lián)網(wǎng)廣告系統(tǒng)。在企業(yè)業(yè)務中,使用SQL的分析師是大多數(shù)。
滴滴首席數(shù)據(jù)科學家謝梁(左)與螞蟻金服研究員王益開啟共建SQLFlow之旅
2019年7月,滴滴的數(shù)據(jù)科學(Data Science)團隊的幾名數(shù)據(jù)科學家在北京新澄海大廈見到了來自螞蟻金服的幾位工程師。在那之前兩個月,螞蟻金服從事AI基礎架構研發(fā)的王益團隊開源了一款機器學習工具SQLFLow,將SQL程序翻譯成Python程序,調用數(shù)據(jù)庫和AI引擎,實現(xiàn)端到端的AI。滴滴首席數(shù)據(jù)科學家謝梁敏銳地關注到這個項目。這次拜訪雙方一拍即合,開啟了共建SQLFlow之旅。
用SQLFlow構建AI的訓練和預測任務用SQLFlow構建AI的訓練和預測任務
SQLFlow構建AI的訓練和預測任務
數(shù)據(jù)分析師的普適AI
數(shù)據(jù)驅動決策是很多公司的追求,在國內(nèi)很多業(yè)務人員都了解SQL,但是對于AI、深度學習模型的訓練,需要長時間系統(tǒng)性的學習,有一定的門檻。SQLFLow的出現(xiàn)讓包括數(shù)據(jù)分析師在內(nèi)的業(yè)務人員通過寫簡單的SQL去調用AI模型成為了可能。
滴滴數(shù)據(jù)科學團隊長期地直面一線業(yè)務,了解業(yè)務需求,也沉淀了很多常用模型。本次合作雙方希望優(yōu)勢互補共同助力AI的落地,據(jù)悉合作分為三步,第一步滴滴為螞蟻金服貢獻更多針對于業(yè)務產(chǎn)品的理解和洞見;第二步滴滴將公司自身業(yè)務場景最有價值用的最好的模型貢獻到SQLFLow;第三步滴滴加入到建設到整個SQLFLow開源社區(qū)的建設,雙方要在模型、社區(qū)、文化等全方位共建。
SQLFlow的技術架構
一個多月的時間,滴滴已經(jīng)為SQLFLow貢獻了基于DNN分類預測模型、可解釋模型和無監(jiān)督聚類模型三個高價值模型。這三個模型覆蓋的場景非常廣泛,對于滴滴內(nèi)部來說,包括網(wǎng)約車、單車、金融等在內(nèi)的諸多業(yè)務場景都可應用起來,于外部而言,“因為整個模型它是一種基礎能力,其實它不會局限于某一個公司或某一個行業(yè),它具有普適性?!钡蔚胃呒墧?shù)據(jù)科學家高梓堯強調。
SQLFlow和滴滴數(shù)據(jù)的整合邏輯
比如分類預測模型,適用于做產(chǎn)品增長的場景,對特定人群進行定向推薦。而無監(jiān)督聚類模型,也就是模式識別,在滴滴的產(chǎn)品的應用非常廣,比如會根據(jù)司機出車時長分布,去整合歸納司機出車的偏好,更好地為司機提供調度建議,進而幫助緩解出行供需。
滴滴首席數(shù)據(jù)科學家謝梁認為在共建SQLFlow過程中,充分體現(xiàn)了算法和數(shù)據(jù)科學在對數(shù)據(jù)的理解和應用上的兩個不同,以及雙方優(yōu)勢互補形成1+1大于2的合力效果。因為對于傳統(tǒng)的算法來講主要強調對于預測一個給定事件的預測精準性。但是數(shù)據(jù)科學在預測精準性之上,還強調預測的可解釋性。實際上在更廣泛的商業(yè)層面上,比如運營、營銷等更需要了解為什么會這這樣發(fā)生,這對于業(yè)務戰(zhàn)略制定、營銷方案的確定,以及整個產(chǎn)品序列的設計都有非常大的幫助。
滴滴數(shù)據(jù)科學團隊在過去不到兩個月的共建工作中顯著擴大了SQLFlow的應用場景。根據(jù)螞蟻金服SQLFlow項目的產(chǎn)品負責人劉勇峰介紹,滴滴的同事們建議并且參與研發(fā)了SQLFlow對接XGBoost的功能,從而在深度學習模型之外支持樹模型;以及對接unsupervised learning的能力,支持聚類分析。此外,SQLFlow基于SHAP支持了深度學習模型和樹模型的圖示化解釋。SQLFlow也支持了滴滴常用的Hive數(shù)據(jù)庫系統(tǒng)。
基于XGBoost的汽車價格預測模型(數(shù)據(jù)來自Kaggle)的SHAP解釋圖(注:SHAP值表征了每個特征對模型輸出的影響,如圖中,較小的engine_hp“引擎馬力”值會降低汽車的預測價格)
“我們是希望通過SQLFlow真正能夠把數(shù)據(jù)驅動業(yè)務、科學決策的思想,能夠在中國傳播得更好更遠,也希望就是能夠通過我們自己的努力,真正讓AI模型能力大眾化和普及化,然后使得我們整個國內(nèi)的數(shù)據(jù)分析的科學性、合理性和洞察性,能夠逐步提升,甚至達到國際領先?!备哞鲌蛘f。
而所有參與項目的同事們對SQLFlow的未來都有更大的期待,這是對于開源社區(qū)作為一種高效率的工作模式的信任。
打造一個SQL花園生態(tài)
在強調數(shù)據(jù)驅動的滴滴其實一直積極參與到開源建設中,截至目前,滴滴和螞蟻金服分別開源了數(shù)十個項目。SQLFlow是雙方開源共建的首秀。
對于雙方僅一個多月的時間就能夠共建三個高價值的模型,謝梁認為很重要的原因是SQLFlow已經(jīng)給滴滴搭建好了底層能力,滴滴相當于做了一個交通領域的幾個核心插件,并且通過滴滴插件能力,對整個SQLFlow覆蓋面和深度方面的底層能力進行了驗證和提升,“那么再把這個基礎打好之后,我們就相當于造了一個大的花園,我們把土都鋪好了,需要什么營養(yǎng)的土,要種什么類型的花,都給他做好了,之后就需要有更多的農(nóng)民伯伯一起來種田,他們要去種向日葵,我們畢竟精力有限可能就是以種小麥和種主糧為主,更多的經(jīng)濟作物就需要其他開源社區(qū)的同學一起來貢獻?!?/p>
在整個SQLFlow開源社區(qū)建設方面雙方都有更大的愿景,滴滴的分析團隊總結的很多模型在 BI 領域具備普適性,而SQLFlow在螞蟻的場景使用模型在金融領域頗有普適性,未來要讓更多的人去用上普適的AI能力,在SQLFlow社區(qū)之上會形成一個開源貨架式的交易市場,更多懂業(yè)務的人把更多商業(yè)場景抽象成模型打造成模型庫,模型庫是 SQLFlow 生態(tài)中的重要一環(huán),雙方正在討論如何共建。“你就像走進一個超市,里面有10萬個SQL,每一個SQL就是一個實現(xiàn)了你商業(yè)邏輯的模型,你就拿來用就行了,這是終極的一個目標”,謝梁興奮地談到。
當然現(xiàn)在的SQLFlow還是一個非常年輕的開源項目,需要更多的呵護。雖然目前在開源合作方面中國相比美國還有不少差距,但正是因為越來越多的公司和個人去投身其中為之貢獻,差距正在縮小。
實際上,幾乎所有的SQLFlow項目成員都是利用業(yè)余時間參與到開源項目中。比如滴滴資深算法工程師陳祥,他平時負責數(shù)據(jù)治理和應用方向上數(shù)據(jù)、應用與算法的結合和落地, 在8月初聽到SQLFlow項目就決定參與進來,未來他也會號召很多的人參與到開源建設中。
“開源社區(qū)所說的構建大生態(tài),其實大生態(tài)還包含著另外一層,就是大家互相學習,然后行業(yè)內(nèi)的所有從業(yè)人員進行知識交流。所以當各行各業(yè)的同學都在里面貢獻自己的經(jīng)驗、技能時,我們其實也能從其他的同學那學習到很多處理數(shù)據(jù),或者解決實際問題的方法。”高梓堯所言恰如其分地詮釋了開源社區(qū)眾人拾柴火焰高的魅力。
Gartner預測“到2020年,AI技術將普遍出現(xiàn)在幾乎每一個新的軟件產(chǎn)品和服務中?!边@其中有螞蟻金服與滴滴DS團隊的一份力。
- 小米召回SU7標準版車型,春運低價票來襲,12306客服回應,你怎么看?
- 智譜管理層變動引關注:兩名高管離職,公司未來走向成謎
- 特斯拉召回超120萬輛汽車:安全隱患不容忽視
- 小米召回SU7標準版車型:OTA升級解決,這次為何小米首度召回?
- Anthropic推出全新API:AI信息驗證之戰(zhàn)再掀波瀾
- 未來解碼:英偉達引領機器人技術產(chǎn)業(yè)融合,智造新篇章
- 網(wǎng)易云下架SM娛樂版權歌曲:數(shù)百萬用戶將受影響,版權之爭再起波瀾
- 百川智能全新模型Baichuan-M1:顛覆醫(yī)療循證模式,三大推理能力引領全場景深度思考
- 武漢阿里巴巴總部即將亮相,共繪數(shù)字產(chǎn)業(yè)新藍圖
- iPhone 16在禁令后苦盡甘來:蘋果即將與印尼達成協(xié)議,解禁在望
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。