DataCanvas王桐:實時流數(shù)據(jù)分析模型和時間序列分析模型

DataCanvas九章云極公布其明星產(chǎn)品DataCanvas RT實時計算平臺和DataCanvas APS機(jī)器學(xué)習(xí)平臺升級新版本,兩款產(chǎn)品重大升級的背后,離不開優(yōu)質(zhì)算法支撐。近日,DataCanvas九章云極布道師團(tuán)隊首席算法官王桐針對實時流數(shù)據(jù)分析模型和時間序列分析模型做出專業(yè)解讀。

根據(jù)Markets & Markets的預(yù)測,流數(shù)據(jù)分析市場將從 2016 年的 30.8 億美元增長到 2021 年的 137 億美元。各個企業(yè)都將快速意識到他們需要利用實時數(shù)據(jù)集成和流數(shù)據(jù)分析來獲得更有價值的信息、使數(shù)據(jù)變得更安全以及保持增長。在數(shù)據(jù)無時無刻不在產(chǎn)生的背景下,企業(yè)需要:過濾無關(guān)數(shù)據(jù),進(jìn)行聚合和分組,跨流關(guān)聯(lián)信息,將元數(shù)據(jù)、參考數(shù)據(jù)和歷史數(shù)據(jù)與上下文的流數(shù)據(jù)相結(jié)合和實時監(jiān)測異常數(shù)據(jù)。

面對實時流數(shù)據(jù)分析我們內(nèi)在的訴求體現(xiàn)在兩個方面:首先是我們的模型分析要考慮到近期的數(shù)據(jù)變化情況,舉個生活當(dāng)中的例子,如果過去的兩天氣溫一直在35度,那么明天的天氣不大可能下雪。另一方面,我們的模型需要是可以不斷持續(xù)更新的,也就是說隨著新數(shù)據(jù)不斷的流入,模型也在不斷的更新,例如我們常見的營銷數(shù)據(jù)分析,隨著經(jīng)營的規(guī)模和體量的增加,模型也要不斷的更新。

這兩個訴求看上去貌似是一回事,但其實不然,核心問題是,流數(shù)據(jù)產(chǎn)生的內(nèi)在邏輯是否一致。

比如剛才提到的氣溫,我們?nèi)绻凑杖ツ晖诘臏囟惹闆r來進(jìn)行預(yù)測,那么通常都可以達(dá)到一定的準(zhǔn)確度。也就是說,依照去年全年的數(shù)據(jù)生成的模型在今年大概率是可以復(fù)用的,即使有誤差,也是在一個比較小的范圍內(nèi)。

再回到我們提到的第二個營銷數(shù)據(jù)分析場景,如果我們根據(jù)今年的數(shù)據(jù)對未來的銷售情況進(jìn)行預(yù)測,那么很可能會和去年同期的數(shù)字有很大區(qū)別,因為商業(yè)環(huán)境變了,經(jīng)營規(guī)模在增長,去年同期的銷售量因為經(jīng)營體量的原因,和今年有本質(zhì)的區(qū)別。在這種情況下,我們要重新訓(xùn)練模型,甚至重新構(gòu)建模型。

對于剛才的氣溫預(yù)測情景,我們通常意義上把它稱為時間序列模型。此類模型需要大量的歷史數(shù)據(jù)做為輸入,來形成較準(zhǔn)確的預(yù)測模型。

那么剛才說的營銷數(shù)據(jù)分析場景,就不是簡單意義上的時間序列模型,因為它是含有不穩(wěn)定趨勢的一組序列值。這類問題也是我們接下來要討論的重點。

面對這類問題,我們會想到下面幾類方法:

第一類,增量學(xué)習(xí)算法,也就是每當(dāng)我們新增加一個新樣本的時候,我們對模型進(jìn)行一次更新。那么針對這樣的情景,我們需要對原有批量模式的算法模型進(jìn)行改造。

第二類,定期的批量模型重新訓(xùn)練模型,這種是最直接的模式,即定期匯總更新的數(shù)據(jù),同歷史數(shù)據(jù)一并重新訓(xùn)練模型。

增量學(xué)習(xí)算法可以用批量模式來進(jìn)行使用,但是批量模式的模型如果要轉(zhuǎn)換成增量學(xué)習(xí)算法,需要大量改造工作,并且有一定的準(zhǔn)確率損失。

如何對這兩種方法進(jìn)行取舍,我們需要考慮兩方面:

第一,需要考慮新增數(shù)據(jù)的邊界。我們的模型是否要在新增樣本數(shù)據(jù)出現(xiàn)的第一時間來更新,還是說模型需要根據(jù)新的數(shù)據(jù)進(jìn)行相機(jī)抉擇。如果是后一種情形,那么就是一個時間序列問題而不是一個增量學(xué)習(xí)算法的情景。

第二,需要考慮數(shù)據(jù)的廢棄。距離現(xiàn)在一定的時間范圍之外的歷史數(shù)據(jù),我們是否應(yīng)該劃定一個范圍,來界定該范圍之外的數(shù)據(jù)應(yīng)該廢棄掉,不參加模型的訓(xùn)練?這種范圍如何來劃分?例如在金融方面的場景,距離現(xiàn)在越近的數(shù)據(jù)通常具有更強(qiáng)的相關(guān)性,但是在某些特定情形下,往年同期的數(shù)據(jù)更具有參考意義和相關(guān)性。特殊一點的例子,比如在金融衰退期,往往上一個金融衰退時期的數(shù)據(jù)比近期的數(shù)據(jù)和現(xiàn)在具有更強(qiáng)的相關(guān)性。

雖然實時流數(shù)據(jù)分析和時間序列預(yù)測比較類似,數(shù)據(jù)的來源也相近,但是兩種方法的關(guān)注點不同。

增量學(xué)習(xí)算法在兩方面比較擅長:

第一,便利性。不需要緩沖數(shù)據(jù)和重新訓(xùn)練模型。

第二,時效性。模型總是更新到最新的狀態(tài)

增量學(xué)習(xí)在模型的靈活性和模型的功效方面有一些損失。但在模型特殊場景,增量學(xué)習(xí)是必須的,例如數(shù)據(jù)隱私方面需要數(shù)據(jù)出現(xiàn)之后就要求被刪除。

周期的批量學(xué)習(xí)模型保存了算法的功效,需要更加復(fù)雜的實施過程。在上層利用工具也可以在必要的時候利用必要的部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練和學(xué)習(xí)。而且可以用最小的代價,同時嘗試不同的算法模型。

DataCanvas RT實時計算平臺,是國內(nèi)外領(lǐng)先的流數(shù)據(jù)實時處理和分析平臺,具備低時延(毫秒級)、高吞吐(單集群支持>10TB/日流量)、高性能(>40,000 TPS 保序場景/>160,000 TPS 非保序場景)等特性,能夠提供風(fēng)險監(jiān)控、精準(zhǔn)營銷、實時預(yù)警與事中分析等多種應(yīng)用場景的實時分析。

DataCanvas RT實時計算平臺強(qiáng)大的數(shù)據(jù)分析處理能力,為企業(yè)提供面向未來的大數(shù)據(jù)技術(shù)和人工智能計算架構(gòu)的支撐。DataCanvas九章云極全面考慮實際應(yīng)用的業(yè)務(wù)場景與技術(shù)指標(biāo)要求,為企業(yè)未來的大數(shù)據(jù)技術(shù)提供高效可靠的基礎(chǔ)設(shè)施。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-11-07
DataCanvas王桐:實時流數(shù)據(jù)分析模型和時間序列分析模型
DataCanvas九章云極公布其明星產(chǎn)品DataCanvas RT實時計算平臺和DataCanvas APS機(jī)器學(xué)習(xí)平臺升級新版本,兩款產(chǎn)品重大升級的背后,離

長按掃碼 閱讀全文