下一代BI有何不同,從數(shù)睿數(shù)據(jù)nextionBI數(shù)據(jù)解讀能力

下一代BI有何不同,從數(shù)睿數(shù)據(jù)nextionBI數(shù)據(jù)解讀能力

2022年2月25日,nextionBI舉辦線上發(fā)布會(huì),這是下一代BI首次正式與大眾見(jiàn)面。nextionBI的定位是數(shù)據(jù)融合的增強(qiáng)分析型敏捷BI平臺(tái),面向知識(shí)設(shè)計(jì),關(guān)注知識(shí)的積累、發(fā)現(xiàn)與應(yīng)用。這一定位里的核心是增強(qiáng)分析,但是這一概念與BI怎么結(jié)合,在具體場(chǎng)景中如何應(yīng)用,這是發(fā)布會(huì)上很多觀眾關(guān)心的問(wèn)題。因此,數(shù)睿數(shù)據(jù)AI科學(xué)家車(chē)文彬博士,借此機(jī)會(huì)從發(fā)布會(huì)上介紹一個(gè)特性“數(shù)據(jù)解讀”切入,為大家詳細(xì)介紹nextionBI的增強(qiáng)分析的實(shí)現(xiàn)過(guò)程與最終效果。

01.為什么要做數(shù)據(jù)解讀?

數(shù)字化、大數(shù)據(jù)、數(shù)據(jù)分析這些概念大家已不再陌生,不管是大企業(yè)還是小公司,都明白基于量化的業(yè)務(wù)數(shù)據(jù)進(jìn)行分析,得到的結(jié)果有助于快速厘清業(yè)務(wù)現(xiàn)狀,發(fā)現(xiàn)異常數(shù)據(jù)及時(shí)識(shí)別經(jīng)營(yíng)風(fēng)險(xiǎn)。懂這個(gè)道理的人很多,但是真正完成這個(gè)目標(biāo)并不是那么簡(jiǎn)單。

對(duì)于一些對(duì)數(shù)據(jù)不敏感的人來(lái)說(shuō),看數(shù)據(jù)是個(gè)頭疼的事情。自己看不懂,交給數(shù)據(jù)分析師看,分析師給出的分析報(bào)告,又有很多專(zhuān)業(yè)名詞,雖然是中國(guó)話(huà),但還是聽(tīng)不懂。同時(shí)對(duì)于專(zhuān)業(yè)數(shù)據(jù)分析師來(lái)說(shuō),從零開(kāi)始看一張“大寬表”也是一件頭疼的事情,幾百個(gè)維度,千萬(wàn)條數(shù)據(jù),老板要求數(shù)據(jù)拿到之后立刻馬上就要看結(jié)果,分析師也只能簡(jiǎn)單拉個(gè)折線圖、餅圖,就開(kāi)始大談特談。這樣也許一次兩次能忽悠得了老板,但是專(zhuān)業(yè)的數(shù)據(jù)分析師都知道這種方式其實(shí)很難產(chǎn)出對(duì)于業(yè)務(wù)真正有價(jià)值的信息。嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)分析需要搜集大量數(shù)據(jù),嘗試多種統(tǒng)計(jì)方法和算法模型,才僅僅有可能發(fā)現(xiàn)一些隱性聯(lián)系。這種情況下如果能夠有人提前看一下數(shù)據(jù)給出一個(gè)基礎(chǔ)判斷,對(duì)于分析師開(kāi)展深度分析會(huì)有很大幫助。但在絕大多數(shù)情況下,這個(gè)基礎(chǔ)分析也只能分析師自己來(lái)做,屬于低效率的重復(fù)勞動(dòng)。

如果能讓數(shù)據(jù)能夠主動(dòng)說(shuō)“人話(huà)”,像為鋼鐵俠服務(wù)的“賈維斯”那樣,讓管理人員能夠快速聽(tīng)到數(shù)據(jù)反映的基本趨勢(shì)和潛在風(fēng)險(xiǎn),讓專(zhuān)業(yè)人員能夠?qū)?shù)據(jù)全貌快速做到心中有數(shù),就可以很大程度上提高數(shù)據(jù)分析工作的效率。數(shù)據(jù)解讀功能的初衷就是幫助用戶(hù)快速地了解數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)表層以及潛在的信息,從而可以更快地進(jìn)行分析以及利用數(shù)據(jù)價(jià)值。

02.如何讓數(shù)據(jù)說(shuō)“人話(huà)”?

nextionBI利用統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)對(duì)數(shù)據(jù)特征進(jìn)行分析建模以及自然語(yǔ)言處理,從而生成通俗易懂的數(shù)據(jù)解讀。本次發(fā)布的數(shù)據(jù)解讀能力包括三個(gè)功能模塊:表格描述、圖表描述以及單點(diǎn)解釋。接下來(lái)分別詳細(xì)介紹每個(gè)模塊的技術(shù)特點(diǎn)。

表格描述功能會(huì)對(duì)用戶(hù)導(dǎo)入的數(shù)據(jù)表格進(jìn)行內(nèi)容提取,對(duì)表格的標(biāo)題以及字段進(jìn)行關(guān)鍵詞提取,關(guān)鍵詞提取可以在一定程度上精簡(jiǎn)文本內(nèi)容讓人們便捷地瀏覽和獲取信息。利用深度學(xué)習(xí)算法對(duì)提取的關(guān)鍵詞進(jìn)行分類(lèi),可以判定表格數(shù)據(jù)所屬的行業(yè)領(lǐng)域,分類(lèi)準(zhǔn)確率達(dá)到95%以上。目前我們收集的領(lǐng)域包括(醫(yī)藥、汽車(chē)、財(cái)經(jīng)、食物、法律)等,后續(xù)也會(huì)根據(jù)具體業(yè)務(wù)場(chǎng)景不斷地豐富語(yǔ)料,支持更多領(lǐng)域的識(shí)別,針對(duì)不同領(lǐng)域生成不同的數(shù)據(jù)解讀。對(duì)數(shù)據(jù)進(jìn)行字段類(lèi)型的判別,在數(shù)據(jù)顯性層面:對(duì)數(shù)據(jù)進(jìn)行值的統(tǒng)計(jì),分類(lèi)類(lèi)別統(tǒng)計(jì),空值以及異常值檢測(cè),時(shí)間趨勢(shì)、變化趨勢(shì)以及同比環(huán)比的計(jì)算;在數(shù)據(jù)隱性層面挖掘數(shù)據(jù)潛在的聯(lián)系:1)利用皮爾遜系數(shù)發(fā)現(xiàn)數(shù)據(jù)之間的相關(guān)性,發(fā)現(xiàn)兩個(gè)變量之間的線性相關(guān)程度,雖然不能反映因果關(guān)系,但用戶(hù)可以根據(jù)自己的行業(yè)知識(shí)進(jìn)行判斷。例如銷(xiāo)量與利潤(rùn)。2)利用FP-Growth算法進(jìn)行關(guān)聯(lián)分析,在數(shù)據(jù)復(fù)雜度以及計(jì)算效率上相較于Apriori算法都有不錯(cuò)的提升。關(guān)聯(lián)分析描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式。如“67%的顧客在購(gòu)買(mǎi)啤酒的同時(shí)也會(huì)購(gòu)買(mǎi)尿布”,因此通過(guò)合理的啤酒和尿布的貨架擺放或捆綁銷(xiāo)售可提高超市的服務(wù)質(zhì)量和效益。結(jié)合上述分析的特征,利用深度學(xué)習(xí)主題生成模型生成連貫性解釋性強(qiáng)的數(shù)據(jù)解讀,幫助用戶(hù)做出決策,更好的利用數(shù)據(jù)價(jià)值。

下一代BI有何不同,從數(shù)睿數(shù)據(jù)nextionBI數(shù)據(jù)解讀能力

圖的形式是為了更直觀地看清楚數(shù)據(jù)整體情況,但很難看到背后的數(shù)據(jù)。所以圖表描述功能需要對(duì)可視化視圖背后的數(shù)據(jù)進(jìn)行解讀,幫助用戶(hù)更好的了解數(shù)據(jù),結(jié)合自己的行業(yè)理解寫(xiě)出完美的分析報(bào)告。在表格描述的基礎(chǔ)上融入了圖表的特性,針對(duì)不同類(lèi)型的圖表可以生成不同的解讀。例如:柱狀圖側(cè)重量的對(duì)比,折線圖側(cè)重趨勢(shì)變化,餅圖側(cè)重占比等。在文本生成過(guò)程中,我們?nèi)诤狭艘?guī)則模板和文本生成模型,其中為保證文本的可讀性,文本生成模型采用了一種自監(jiān)督的可控文本生成方法??煽匚谋旧傻哪繕?biāo),是控制給定模型基于源文本產(chǎn)生特定屬性的文本。在數(shù)據(jù)解讀中使用的特定屬性包括影響文本的領(lǐng)域、主題、實(shí)體和風(fēng)格等。

下一代BI有何不同,從數(shù)睿數(shù)據(jù)nextionBI數(shù)據(jù)解讀能力

單點(diǎn)解釋是對(duì)數(shù)據(jù)表格以及可視化圖表中的單個(gè)數(shù)據(jù)點(diǎn)進(jìn)行解讀,該數(shù)據(jù)點(diǎn)須為聚合計(jì)算后的數(shù)據(jù),通過(guò)算法結(jié)合原始數(shù)據(jù)可以分析出這條數(shù)據(jù)的組成、分布以及與其他數(shù)據(jù)的不同之處。通過(guò)對(duì)數(shù)據(jù)點(diǎn)進(jìn)行分析,對(duì)應(yīng)原始數(shù)據(jù)通過(guò)機(jī)器學(xué)習(xí)算法自動(dòng)選擇特征、數(shù)據(jù)建模、模型評(píng)估選取得分比較高的特征,通過(guò)自然語(yǔ)言處理(NLP)對(duì)語(yǔ)義進(jìn)行理解結(jié)合槽位填充生成數(shù)據(jù)解釋。

下一代BI有何不同,從數(shù)睿數(shù)據(jù)nextionBI數(shù)據(jù)解讀能力

單點(diǎn)解釋主要針對(duì)可視化圖表底層的數(shù)據(jù)進(jìn)行度量值以及獨(dú)特性?xún)煞矫娼忉專(zhuān)憾攘恐抵傅氖墙M成聚合特征的數(shù)據(jù),包括(平均值、極端值、記錄數(shù)、空值)并且分析這些維度對(duì)聚合特征預(yù)期值的影響。預(yù)期是我們將原始數(shù)據(jù)的其他數(shù)據(jù)作為先驗(yàn)訓(xùn)練數(shù)據(jù),通過(guò)貝葉斯建模,標(biāo)記數(shù)據(jù)作為預(yù)測(cè)數(shù)據(jù)進(jìn)行運(yùn)算得出的結(jié)果。通過(guò)分析每個(gè)維度對(duì)預(yù)期值的影響,生成相應(yīng)的數(shù)據(jù)解讀。獨(dú)特性分析主要是為了所選標(biāo)記與其他數(shù)據(jù)之間的區(qū)別,用戶(hù)可以根據(jù)該維度特性進(jìn)行專(zhuān)業(yè)分析,挖掘背后的原因,引導(dǎo)激發(fā)用戶(hù)分析靈感。

下一代BI有何不同,從數(shù)睿數(shù)據(jù)nextionBI數(shù)據(jù)解讀能力

03.nextionBI數(shù)據(jù)解讀效果如何?

我們選擇目前市場(chǎng)上主流的BI平臺(tái)進(jìn)行對(duì)比,國(guó)內(nèi)包含此功能的平臺(tái)較少,故我們選擇國(guó)外同樣具備該數(shù)據(jù)解讀能力的產(chǎn)品進(jìn)行功能對(duì)比。

下一代BI有何不同,從數(shù)睿數(shù)據(jù)nextionBI數(shù)據(jù)解讀能力

首先我們選擇目前數(shù)據(jù)分析師使用較多的TBI產(chǎn)品進(jìn)行對(duì)比,如上圖所示,針對(duì)同一組數(shù)據(jù)進(jìn)行數(shù)據(jù)解讀,左圖為nextionBI解讀結(jié)果,右圖為T(mén) BI產(chǎn)品的解讀結(jié)果。

在描述維度方面,nextionBI針對(duì)于整個(gè)表格,涵蓋了多維度描述信息,T BI產(chǎn)品只針對(duì)于單個(gè)數(shù)據(jù),利用單一貝葉斯模型分析預(yù)測(cè)。

在使用范圍方面,nextionBI可適用于多列、多種數(shù)據(jù)類(lèi)型組合,而T BI產(chǎn)品對(duì)維度和數(shù)據(jù)類(lèi)型均有一定限制。

下一代BI有何不同,從數(shù)睿數(shù)據(jù)nextionBI數(shù)據(jù)解讀能力

我們也對(duì)比了某老牌廠商的PBI產(chǎn)品,針對(duì)同一數(shù)據(jù)的完成情況如上圖所示。nextionBI的結(jié)果涵蓋了分類(lèi)、同比、環(huán)比、相關(guān)性分析、覆蓋縱向橫向等各個(gè)維度的描述信息,融合多個(gè)模型及規(guī)則信息較為豐富,P BI更多關(guān)注統(tǒng)計(jì)特性。同時(shí)nextionBI結(jié)果的可讀性更強(qiáng),更符合中文數(shù)據(jù)匯報(bào)的表達(dá)習(xí)慣,整體上更加通順也更易理解。

總體來(lái)說(shuō),nextionBI作為后起之秀,在數(shù)據(jù)解讀能力的設(shè)計(jì)和開(kāi)發(fā)方面,全面分析市場(chǎng)上目前的能力水平和核心需求,針對(duì)性地進(jìn)行研發(fā)和技術(shù)攻堅(jiān),在描述維度、中文可讀性、適用范圍都積累了自己的優(yōu)勢(shì)。在本次發(fā)布會(huì)之后,我們將充分收集用戶(hù)體驗(yàn)之后的反饋,不斷優(yōu)化算法設(shè)計(jì)和功能體驗(yàn),希望最終能讓人人盡享數(shù)據(jù)價(jià)值。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )