AutoML的概念源自2012年學(xué)術(shù)界提出一個新觀點Programming by Optimization(PbO),字面上的意思是指以最優(yōu)化程序開發(fā),實質(zhì)上就是要解決建模時依賴人工的問題。
AutoML更大范圍內(nèi)為世人周知是因為谷歌Cloud AutoML Vision產(chǎn)品的發(fā)布,這款產(chǎn)品可以用AI設(shè)計AI,讓更多對機器學(xué)習(xí)了解有限的人,把Google級的AI技術(shù)運用到產(chǎn)品打磨中,從而降低了使用機器學(xué)習(xí)的門檻,這也是智鈾科技正在做的事情,不同的是,谷歌AutoML目前專注于圖像識別領(lǐng)域,智鈾科技目前主要以結(jié)構(gòu)化數(shù)據(jù)為主,致力于為企業(yè)帶來全流程、自動化的建模和部署能力,幫助企業(yè)構(gòu)建人工智能核心,實現(xiàn)AI驅(qū)動。
目前,傳統(tǒng)行業(yè)使用機器學(xué)習(xí)仍面臨著巨大的挑戰(zhàn)。
1、建模過程繁瑣
2、AI人才匱乏
3、人力成本大
4、算法設(shè)計周期長
5、系統(tǒng)實施維護(hù)困難
針對這些痛點,夏粉博士帶領(lǐng)智鈾科技團(tuán)隊開發(fā)了自動化機器學(xué)習(xí)產(chǎn)品“小智”。
小智可以免費試用,支持上限為200MB 的 CSV 訓(xùn)練數(shù)據(jù)量、10MB的數(shù)據(jù)預(yù)測,無需編寫代碼,學(xué)習(xí)數(shù)學(xué),就可以讓你親身體驗機器學(xué)習(xí)的魅力。模型精度也無需擔(dān)心,小智可以幫您完成簡單便捷、高質(zhì)高效的建模。
試用方法:進(jìn)入智鈾科技官網(wǎng),在產(chǎn)品頁面點擊免費試用即可
智鈾科技發(fā)布的自動化機器學(xué)習(xí)產(chǎn)品“小智”,可以自動構(gòu)建高精度模型,為用戶提供從數(shù)據(jù)預(yù)處理、特征工程、模型調(diào)參、模型評估、模型預(yù)測到結(jié)果分析等一站式服務(wù),其獨創(chuàng)的參數(shù)搜索算法解決了人工調(diào)參費時耗力的問題,獨創(chuàng)的特征工程算法,令組合特征挖掘效率提升上千倍。另外,小智還支持千億樣本、千億特征數(shù)據(jù)量,模型從淺層到深層靈活支持。
除了以獨創(chuàng)的算法實現(xiàn)了自動建模,小智在產(chǎn)品的交互方面也貫徹著簡單易用的原則,直觀的web界面允許任何人和小智進(jìn)行交互,不需要AI背景,用戶也可以一鍵完成建模,內(nèi)置的可視化效果,如ROC曲線圖和準(zhǔn)確&召回曲線,能夠使用戶對自己的業(yè)務(wù)有更深刻的理解。據(jù)某銀行客戶介紹:“在通用場景下,普通業(yè)務(wù)人員借助小智也能達(dá)到高級建模人員水平。”
隨著互聯(lián)網(wǎng)+時代的到來,大數(shù)據(jù)在企業(yè)的落地應(yīng)用正在快速增長,而數(shù)據(jù)安全,也成為眾多企業(yè)的顧慮,這也催生了企業(yè)對于私有化部署的需求。據(jù)悉,小智將以產(chǎn)品的形式提供給行業(yè),除了支持公有云、SAAS模式外,還提供私有化部署。
AutoML仍然是一個在摸索中的新興領(lǐng)域,誰能搶占技術(shù)占領(lǐng)市場尤為重要。目前,智鈾科技已經(jīng)與金融、醫(yī)療、物聯(lián)網(wǎng)等多個行業(yè)的公司合作為其提供服務(wù),產(chǎn)品的功能應(yīng)用涵蓋點擊率預(yù)估、反欺詐偵測、市場精準(zhǔn)營銷以及個性化推薦等,滿足不同場景的不同需求,同時產(chǎn)品的有效性經(jīng)過實踐驗證,不但能夠為企業(yè)帶來收入的增長并且節(jié)省成本。
整體建模流程
機器學(xué)習(xí)建模過程一般包含多個步驟,首先,數(shù)據(jù)科學(xué)家要對業(yè)務(wù)問題進(jìn)行定義,抽象為數(shù)學(xué)問題;對獲取到的數(shù)據(jù)進(jìn)行分析、理解、清洗,劃分;其次進(jìn)行特征工程,如特征衍生、特征組合、特征選擇等,然后才能開始進(jìn)行建模、訓(xùn)練、預(yù)測等。在小智平臺,用戶只需上傳數(shù)據(jù),選定目標(biāo)名稱,其余步驟包括數(shù)據(jù)預(yù)處理、特征工程、調(diào)參、訓(xùn)練及預(yù)測,得到分析結(jié)果,部署和監(jiān)控模型均由小智完成,實現(xiàn)真正端到端的全程自動機器學(xué)習(xí)。這大大減少了缺乏機器學(xué)習(xí)知識用戶的使用難度。
機器學(xué)習(xí)工作流圖(綠色圓柱塊表示數(shù)據(jù),為整個工作流的基礎(chǔ),藍(lán)色的方塊為一個簡單的建模流程,有簡單問題只需要走完藍(lán)色方塊就結(jié)束了,黃色的兩個方塊為模型需要上線,持續(xù)優(yōu)化改善的部分)
機器學(xué)習(xí)工作流如上圖所示,整個流程以數(shù)據(jù)為中心,循環(huán)往復(fù)。在使用小智的過程中,首先要收集建模需要的數(shù)據(jù),可能是業(yè)務(wù)相關(guān)數(shù)據(jù),也可能是從網(wǎng)上爬取的一些信息。我們可以將這些結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為csv寬表或txt文件,放在本地、數(shù)據(jù)庫或HDFS上,然后上傳至小智,對數(shù)據(jù)集的格式進(jìn)行調(diào)整,例如編碼、分隔符、空值標(biāo)識、首行是否為特征名稱等。至此,用戶負(fù)責(zé)的數(shù)據(jù)準(zhǔn)備之前的步驟便完成了。
下一步為建立模型。當(dāng)用戶上傳數(shù)據(jù)到小智平臺后,小智會檢查和清理數(shù)據(jù),并且會以數(shù)據(jù)科學(xué)的角度給出所有特征的數(shù)據(jù)畫像。用戶選擇建模目標(biāo)后就可以開始“一鍵式”自動化建模了。小智會依次完成從數(shù)據(jù)清洗、特征工程、調(diào)參、選擇最優(yōu)算法、搭建模型、模型評估、模型發(fā)布的全過程,實現(xiàn)真正的“一鍵式”建模。模型評估階段可以監(jiān)控模型的預(yù)測性能,當(dāng)用戶認(rèn)為預(yù)測結(jié)果不理想時可以選擇重新訓(xùn)練模型以達(dá)到理想的預(yù)測結(jié)果。當(dāng)用戶完成模型訓(xùn)練并且選擇了合適的模型后,就可以部署模型了。 部署后,可以上傳CSV預(yù)測文件,對上傳的數(shù)據(jù)進(jìn)行批量預(yù)測,或者使用模型API 進(jìn)行實時預(yù)測。
案例分析
為了實際感受小智的效果,并了解它到底和人工建模相比有什么優(yōu)勢,我們使用一個廣告點擊預(yù)測案例來說明,即通過廣告系統(tǒng)的結(jié)構(gòu);流量預(yù)估:設(shè)備號、手機,區(qū)域(經(jīng)緯度)、訪問時間;廣告主專業(yè):新型游戲等;創(chuàng)意特征;投放之后定向的特征;廣告位;環(huán)境等特征來預(yù)測某條投放廣告是否被點擊。
點擊率(click-throughrate)是評價在線廣告效果的重要指標(biāo),對點擊率進(jìn)行預(yù)測建模在線廣告商尤為重要。我們可以用歷史的廣告投放數(shù)據(jù)建立一個模型,輸入未來一段時間的廣告投放數(shù)據(jù)進(jìn)行模型驗證。分別進(jìn)行小智自動化建模和手動建模。
小智數(shù)據(jù)怎么做
該建模數(shù)據(jù)集是在線廣告點擊率預(yù)測競賽的數(shù)據(jù),來自Kaggle競賽,通過廣告ID、是否點擊、位置欄位、網(wǎng)站域名、網(wǎng)站種類、應(yīng)用ID、應(yīng)用領(lǐng)域、設(shè)備編號等屬性來預(yù)測廣告是否被點擊。本案例分析中我們只截取了其中一部分?jǐn)?shù)據(jù)集,并做了必要的數(shù)據(jù)清洗,每條樣本為一條廣告投放并且標(biāo)記了是否被點擊的數(shù)據(jù),最后一列“click”為目標(biāo),1表示點擊,0表示未點擊。已預(yù)先劃分好數(shù)據(jù)集,“train.csv”為訓(xùn)練集,“test.csv”為預(yù)測集。訓(xùn)練樣本集共320473個,預(yù)測樣本79527個,特征維度為23維。
在上傳數(shù)據(jù)階段,可以看到有一個虛線框,點擊虛線框火將文件拖拽至此即可實現(xiàn)上傳。虛線框中還有“點此下載測試數(shù)據(jù)”和“下載數(shù)據(jù)匿名化工具”兩個選項,我們提供了一些公開的測試數(shù)據(jù)可供用戶下載測試,加入用戶不想讓自己的數(shù)據(jù)上傳到公有云上,可以下載數(shù)據(jù)匿名化工具對數(shù)據(jù)進(jìn)行簡單的加密,使得數(shù)據(jù)特征名稱、敏感特征值隱藏,而且不會影響模型效果。
上傳數(shù)據(jù)后,可以看到小智中的數(shù)據(jù)概覽,點擊“確定并生成畫像”進(jìn)入到下一步,接著通過可視化操作選擇要預(yù)測的目標(biāo)變量與可用的特征變量,保存特征列表后即可進(jìn)行模型訓(xùn)練。對于分類任務(wù),特征變量可以分為類別型和數(shù)值型,小智可以自動檢測變量類型,用戶也可以根據(jù)需求自定義修改類型,這又會節(jié)省很多精力。
小智的上傳數(shù)據(jù)界面
原始訓(xùn)練數(shù)據(jù)樣本集概覽
經(jīng)過匿名化處理的訓(xùn)練數(shù)據(jù)樣本集概覽
確定目標(biāo)變量無誤后,小智會根據(jù)目標(biāo)變量自動分析模型類型,以及分析特征變量,并給出自動質(zhì)量修復(fù)方案。
數(shù)據(jù)畫像示例
小智建模怎么做
處理完數(shù)據(jù)后就可以開始建模了,小智全自動建模不需要用戶做任何操作,只要等待模型訓(xùn)練完成即可。目前只支持二分類和回歸,主要采用常用的LR和GBDT算法,兼顧了性能與可解釋性。之后小智會進(jìn)行自動建模、調(diào)參,用戶可以選擇模型中結(jié)果較好的一個。
模型訓(xùn)練完后可以查看訓(xùn)練足跡、模型評估、以及模型描述。
其中模型評估中有ROC曲線、Lift提升度、KS曲線、精確&召回曲線等指標(biāo),AUC等指標(biāo)采用交叉驗證的計算值,Lift、KS等采用的是驗證集上計算出的指標(biāo)。模型評估是我們評價模型好壞的標(biāo)準(zhǔn),在預(yù)測數(shù)據(jù)集上也有同樣的一個評估模塊。在模型描述中我們有特征重要性查看和歸因解釋,我們可以看到在模型中排列在前面的一些特征,比如我們可以選擇top K進(jìn)行重新建模,在以后收集數(shù)據(jù)時特別注重這些特征的完整性和正確性等。原因解釋可以查看預(yù)測正確的樣本的哪些屬性占主要正向原因,哪些屬性占主要的負(fù)向原因。還可以查看真實值和預(yù)測值相差最大的top K個樣本,查看是否是異常數(shù)據(jù)樣本。
模型描述中的特征重要度
模型描述中的原因解釋
小智部署怎么用
最后的部署就比較簡單了,確定最合適的訓(xùn)練模型,然后選擇發(fā)布即可下載模型部署或者調(diào)用API,配合SDK使用進(jìn)行預(yù)測就行了。一般小智可以通過數(shù)據(jù)源或 API 進(jìn)行模型部署,其中數(shù)據(jù)源采用本地 CSV 文件。
與一般工程師人工建模效果對比
如下圖所示,通過運用小智建立的廣告點擊預(yù)測模型,在預(yù)測集上的AUC 可達(dá)到 0.7294,能夠較準(zhǔn)確地識別出廣告流量是否被點擊,為廣告投放提供了重要支持;分析團(tuán)隊在收集到相關(guān)數(shù)據(jù)后,利用小智平臺能夠在 1 小時內(nèi)迅速構(gòu)建出模型并完成預(yù)測;整個過程僅需要一名普通水平的數(shù)據(jù)分析師即可完成整個建模預(yù)測工作,不需要任何外部顧問,從而節(jié)約了大量成本。
在實際應(yīng)用中,小智不僅在廣告推薦領(lǐng)域,還有包括金融、能源、醫(yī)療、新零售、物流、制造、游戲等眾多領(lǐng)域的中都有很好的表現(xiàn)。
小智在預(yù)測集上的AUC 達(dá)到 0.7294
一般的算法工程師,借助開源算法庫sklearn中的GBDT、RF、LR、Adaboost,以及Xgboost五種算法模型進(jìn)行建模分析??吹浇PЧ詈玫哪P褪荊BDT,AUC只有0.7108,小于小智自動建模的AUC 0.7294。
對比銀行某產(chǎn)品推薦的人工建模效果
建模場景:預(yù)測目標(biāo)客戶在1個月內(nèi)購買產(chǎn)品(5種產(chǎn)品)的可能性;
建模規(guī)模:約3700萬戶;
建模數(shù)據(jù):根據(jù)客戶前一個月的表現(xiàn),對5類產(chǎn)品的持有和未持有分開建立10個模型,每個數(shù)據(jù)集大小為200MB—8G;
建模效果:與行內(nèi)建模團(tuán)隊模型效果基本相符。建模效率提升了近10倍,在合作銀行中一個人工模型上線一般需要2月左右,小智只需要不到一周就能完成建模,且能和銀行內(nèi)已有應(yīng)用系統(tǒng)無縫融合。
對同一模型評價指標(biāo)的分值,評估級別計算方法為: (小智分值-行內(nèi)基線)/行內(nèi)基線
最終效果對比表
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 為什么年輕人不愛換手機了
- 柔宇科技未履行金額近億元被曝已6個月發(fā)不出工資
- 柔宇科技被曝已6個月發(fā)不出工資 公司回應(yīng)欠薪有補償方案
- 第六座“綠動未來”環(huán)保公益圖書館落地貴州山區(qū)小學(xué)
- 窺見“新紀(jì)元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機打造全新一代屏幕壓感
- 清潔家電新老玩家市場定位清晰,攜手共進(jìn),核心技術(shù)決定未來
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達(dá)成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。