DataCanvas王桐:實(shí)時(shí)流數(shù)據(jù)分析模型和時(shí)間序列分析模型

DataCanvas九章云極公布其明星產(chǎn)品DataCanvas RT實(shí)時(shí)計(jì)算平臺(tái)和DataCanvas APS機(jī)器學(xué)習(xí)平臺(tái)升級(jí)新版本,兩款產(chǎn)品重大升級(jí)的背后,離不開(kāi)優(yōu)質(zhì)算法支撐。近日,DataCanvas九章云極布道師團(tuán)隊(duì)首席算法官王桐針對(duì)實(shí)時(shí)流數(shù)據(jù)分析模型和時(shí)間序列分析模型做出專(zhuān)業(yè)解讀。

根據(jù)Markets & Markets的預(yù)測(cè),流數(shù)據(jù)分析市場(chǎng)將從 2016 年的 30.8 億美元增長(zhǎng)到 2021 年的 137 億美元。各個(gè)企業(yè)都將快速意識(shí)到他們需要利用實(shí)時(shí)數(shù)據(jù)集成和流數(shù)據(jù)分析來(lái)獲得更有價(jià)值的信息、使數(shù)據(jù)變得更安全以及保持增長(zhǎng)。在數(shù)據(jù)無(wú)時(shí)無(wú)刻不在產(chǎn)生的背景下,企業(yè)需要:過(guò)濾無(wú)關(guān)數(shù)據(jù),進(jìn)行聚合和分組,跨流關(guān)聯(lián)信息,將元數(shù)據(jù)、參考數(shù)據(jù)和歷史數(shù)據(jù)與上下文的流數(shù)據(jù)相結(jié)合和實(shí)時(shí)監(jiān)測(cè)異常數(shù)據(jù)。

面對(duì)實(shí)時(shí)流數(shù)據(jù)分析我們內(nèi)在的訴求體現(xiàn)在兩個(gè)方面:首先是我們的模型分析要考慮到近期的數(shù)據(jù)變化情況,舉個(gè)生活當(dāng)中的例子,如果過(guò)去的兩天氣溫一直在35度,那么明天的天氣不大可能下雪。另一方面,我們的模型需要是可以不斷持續(xù)更新的,也就是說(shuō)隨著新數(shù)據(jù)不斷的流入,模型也在不斷的更新,例如我們常見(jiàn)的營(yíng)銷(xiāo)數(shù)據(jù)分析,隨著經(jīng)營(yíng)的規(guī)模和體量的增加,模型也要不斷的更新。

這兩個(gè)訴求看上去貌似是一回事,但其實(shí)不然,核心問(wèn)題是,流數(shù)據(jù)產(chǎn)生的內(nèi)在邏輯是否一致。

比如剛才提到的氣溫,我們?nèi)绻凑杖ツ晖诘臏囟惹闆r來(lái)進(jìn)行預(yù)測(cè),那么通常都可以達(dá)到一定的準(zhǔn)確度。也就是說(shuō),依照去年全年的數(shù)據(jù)生成的模型在今年大概率是可以復(fù)用的,即使有誤差,也是在一個(gè)比較小的范圍內(nèi)。

再回到我們提到的第二個(gè)營(yíng)銷(xiāo)數(shù)據(jù)分析場(chǎng)景,如果我們根據(jù)今年的數(shù)據(jù)對(duì)未來(lái)的銷(xiāo)售情況進(jìn)行預(yù)測(cè),那么很可能會(huì)和去年同期的數(shù)字有很大區(qū)別,因?yàn)樯虡I(yè)環(huán)境變了,經(jīng)營(yíng)規(guī)模在增長(zhǎng),去年同期的銷(xiāo)售量因?yàn)榻?jīng)營(yíng)體量的原因,和今年有本質(zhì)的區(qū)別。在這種情況下,我們要重新訓(xùn)練模型,甚至重新構(gòu)建模型。

對(duì)于剛才的氣溫預(yù)測(cè)情景,我們通常意義上把它稱(chēng)為時(shí)間序列模型。此類(lèi)模型需要大量的歷史數(shù)據(jù)做為輸入,來(lái)形成較準(zhǔn)確的預(yù)測(cè)模型。

那么剛才說(shuō)的營(yíng)銷(xiāo)數(shù)據(jù)分析場(chǎng)景,就不是簡(jiǎn)單意義上的時(shí)間序列模型,因?yàn)樗呛胁环€(wěn)定趨勢(shì)的一組序列值。這類(lèi)問(wèn)題也是我們接下來(lái)要討論的重點(diǎn)。

面對(duì)這類(lèi)問(wèn)題,我們會(huì)想到下面幾類(lèi)方法:

第一類(lèi),增量學(xué)習(xí)算法,也就是每當(dāng)我們新增加一個(gè)新樣本的時(shí)候,我們對(duì)模型進(jìn)行一次更新。那么針對(duì)這樣的情景,我們需要對(duì)原有批量模式的算法模型進(jìn)行改造。

第二類(lèi),定期的批量模型重新訓(xùn)練模型,這種是最直接的模式,即定期匯總更新的數(shù)據(jù),同歷史數(shù)據(jù)一并重新訓(xùn)練模型。

增量學(xué)習(xí)算法可以用批量模式來(lái)進(jìn)行使用,但是批量模式的模型如果要轉(zhuǎn)換成增量學(xué)習(xí)算法,需要大量改造工作,并且有一定的準(zhǔn)確率損失。

如何對(duì)這兩種方法進(jìn)行取舍,我們需要考慮兩方面:

第一,需要考慮新增數(shù)據(jù)的邊界。我們的模型是否要在新增樣本數(shù)據(jù)出現(xiàn)的第一時(shí)間來(lái)更新,還是說(shuō)模型需要根據(jù)新的數(shù)據(jù)進(jìn)行相機(jī)抉擇。如果是后一種情形,那么就是一個(gè)時(shí)間序列問(wèn)題而不是一個(gè)增量學(xué)習(xí)算法的情景。

第二,需要考慮數(shù)據(jù)的廢棄。距離現(xiàn)在一定的時(shí)間范圍之外的歷史數(shù)據(jù),我們是否應(yīng)該劃定一個(gè)范圍,來(lái)界定該范圍之外的數(shù)據(jù)應(yīng)該廢棄掉,不參加模型的訓(xùn)練?這種范圍如何來(lái)劃分?例如在金融方面的場(chǎng)景,距離現(xiàn)在越近的數(shù)據(jù)通常具有更強(qiáng)的相關(guān)性,但是在某些特定情形下,往年同期的數(shù)據(jù)更具有參考意義和相關(guān)性。特殊一點(diǎn)的例子,比如在金融衰退期,往往上一個(gè)金融衰退時(shí)期的數(shù)據(jù)比近期的數(shù)據(jù)和現(xiàn)在具有更強(qiáng)的相關(guān)性。

雖然實(shí)時(shí)流數(shù)據(jù)分析和時(shí)間序列預(yù)測(cè)比較類(lèi)似,數(shù)據(jù)的來(lái)源也相近,但是兩種方法的關(guān)注點(diǎn)不同。

增量學(xué)習(xí)算法在兩方面比較擅長(zhǎng):

第一,便利性。不需要緩沖數(shù)據(jù)和重新訓(xùn)練模型。

第二,時(shí)效性。模型總是更新到最新的狀態(tài)

增量學(xué)習(xí)在模型的靈活性和模型的功效方面有一些損失。但在模型特殊場(chǎng)景,增量學(xué)習(xí)是必須的,例如數(shù)據(jù)隱私方面需要數(shù)據(jù)出現(xiàn)之后就要求被刪除。

周期的批量學(xué)習(xí)模型保存了算法的功效,需要更加復(fù)雜的實(shí)施過(guò)程。在上層利用工具也可以在必要的時(shí)候利用必要的部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練和學(xué)習(xí)。而且可以用最小的代價(jià),同時(shí)嘗試不同的算法模型。

DataCanvas RT實(shí)時(shí)計(jì)算平臺(tái),是國(guó)內(nèi)外領(lǐng)先的流數(shù)據(jù)實(shí)時(shí)處理和分析平臺(tái),具備低時(shí)延(毫秒級(jí))、高吞吐(單集群支持>10TB/日流量)、高性能(>40,000 TPS 保序場(chǎng)景/>160,000 TPS 非保序場(chǎng)景)等特性,能夠提供風(fēng)險(xiǎn)監(jiān)控、精準(zhǔn)營(yíng)銷(xiāo)、實(shí)時(shí)預(yù)警與事中分析等多種應(yīng)用場(chǎng)景的實(shí)時(shí)分析。

DataCanvas RT實(shí)時(shí)計(jì)算平臺(tái)強(qiáng)大的數(shù)據(jù)分析處理能力,為企業(yè)提供面向未來(lái)的大數(shù)據(jù)技術(shù)和人工智能計(jì)算架構(gòu)的支撐。DataCanvas九章云極全面考慮實(shí)際應(yīng)用的業(yè)務(wù)場(chǎng)景與技術(shù)指標(biāo)要求,為企業(yè)未來(lái)的大數(shù)據(jù)技術(shù)提供高效可靠的基礎(chǔ)設(shè)施。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2018-11-07
DataCanvas王桐:實(shí)時(shí)流數(shù)據(jù)分析模型和時(shí)間序列分析模型
DataCanvas九章云極公布其明星產(chǎn)品DataCanvas RT實(shí)時(shí)計(jì)算平臺(tái)和DataCanvas APS機(jī)器學(xué)習(xí)平臺(tái)升級(jí)新版本,兩款產(chǎn)品重大升級(jí)的背后,離

長(zhǎng)按掃碼 閱讀全文