金融大數(shù)據(jù)分析的數(shù)據(jù)分流應(yīng)用

隨著金融業(yè)務(wù)的互聯(lián)網(wǎng)化、移動(dòng)化,如何進(jìn)行精確的客戶營(yíng)銷成為了金融業(yè)務(wù)發(fā)展的一個(gè)挑戰(zhàn),相關(guān)的大數(shù)據(jù)挖掘、分析、可視化的探索也越來(lái)越多。但是在金融行業(yè)的數(shù)據(jù)應(yīng)用環(huán)境中,在數(shù)據(jù)的采集、存儲(chǔ)和處理過(guò)程中,在數(shù)據(jù)安全性、完整性、業(yè)務(wù)管理全面性上,又有著嚴(yán)格的要求,如何有效的在風(fēng)險(xiǎn)和效率之間進(jìn)行平衡,就是本次數(shù)據(jù)分流的應(yīng)用討論的重點(diǎn)。

大數(shù)據(jù)蘊(yùn)藏的價(jià)值被逐步挖掘出來(lái),同時(shí)也帶來(lái)了巨大的挑戰(zhàn),一是海量數(shù)據(jù)中的重復(fù)數(shù)據(jù)如何有效過(guò)濾,一是敏感信息如何有效的進(jìn)行安全保護(hù)。在金融網(wǎng)絡(luò)可視化數(shù)據(jù)的采集、存儲(chǔ)過(guò)程中,在考慮采集數(shù)據(jù)完整的前提下,不可避免會(huì)收集到不同節(jié)點(diǎn)和位置區(qū)域的重復(fù)數(shù)據(jù)。而重復(fù)數(shù)據(jù)如何進(jìn)行有效的預(yù)處理,是對(duì)后端各類分析系統(tǒng)或安全設(shè)備的性能和成本的重要挑戰(zhàn)。金融行業(yè)在大數(shù)據(jù)價(jià)值挖掘的基礎(chǔ)上,面臨如何保護(hù)數(shù)據(jù)中的隱私信息的問(wèn)題,也是在數(shù)據(jù)仿真以及委托第三方數(shù)據(jù)分析時(shí),必須解決的數(shù)據(jù)安全問(wèn)題。

接下來(lái)本文就上述兩個(gè)方面的問(wèn)題,進(jìn)行分析探討,來(lái)尋找適合金融網(wǎng)絡(luò)數(shù)據(jù)分析環(huán)境中的解決方案。

首先是關(guān)于重復(fù)數(shù)據(jù)的產(chǎn)生、采集、過(guò)濾方面的分析。在網(wǎng)絡(luò)可視化部署中,很多數(shù)據(jù)采集是通過(guò)機(jī)架RACK的TOR設(shè)備,及業(yè)務(wù)區(qū)域的匯聚設(shè)備,和多個(gè)業(yè)務(wù)區(qū)的核心互聯(lián)設(shè)備上,均做到數(shù)據(jù)全量采集,這就不可避免的有重復(fù)數(shù)據(jù)。當(dāng)采集流量通過(guò)網(wǎng)絡(luò)探針或者分流器,導(dǎo)流到后端的各類分析系統(tǒng)時(shí),將面臨部分的重復(fù)數(shù)據(jù),且重復(fù)率達(dá)到45%以上,這就大大增加了分析系統(tǒng)的I/0和CPU處理壓力,如果不做去重處理,那數(shù)據(jù)的分析效率會(huì)降低,并導(dǎo)致分析系統(tǒng)的硬件開銷增大。而對(duì)于按照分析總流量進(jìn)行收費(fèi)的NPM或APM,那多余的分析成本花費(fèi),是不可接受的。

因此必須要有在數(shù)據(jù)采集前端,能夠支持?jǐn)?shù)據(jù)去重的設(shè)備或解決方案,來(lái)避免上述問(wèn)題的發(fā)生。

邁普網(wǎng)視系列分流器配合多業(yè)務(wù)引擎技術(shù),為此類場(chǎng)景提供專業(yè)的數(shù)據(jù)去重能力,為該需求提供解決方案。

金融大數(shù)據(jù)分析的數(shù)據(jù)分流應(yīng)用

該數(shù)據(jù)去重技術(shù)可以根據(jù)數(shù)據(jù)的payload、全數(shù)據(jù)或自定義規(guī)則進(jìn)行數(shù)據(jù)比對(duì),從而判斷是否有重復(fù),然后做多余數(shù)據(jù)的過(guò)濾去重。邁普數(shù)據(jù)去重的多業(yè)務(wù)引擎技術(shù)可以幫助客戶把最關(guān)心的數(shù)據(jù)傳輸?shù)较冗M(jìn)的大數(shù)據(jù)分析和安全分析解決方案中,從而幫助客戶減少需要分析的大數(shù)據(jù)總量,讓這些分析系統(tǒng)可以專注于提供豐富的、情景化的和深入的網(wǎng)絡(luò)分析,同時(shí)實(shí)現(xiàn)節(jié)約成本的目標(biāo)。

其次是可視化分析不得不面臨敏感數(shù)據(jù)的安全問(wèn)題。雖然金融很多數(shù)據(jù)在交易過(guò)程中經(jīng)過(guò)加密,但經(jīng)過(guò)一定算法和基線建模后,很多類似密碼等數(shù)據(jù)還是可以被破解的。常見的有: 姓名、身份證號(hào)碼、地址、電話號(hào)碼、銀行賬號(hào)、郵箱地址、所屬城市、郵編、密碼類 ( 如賬戶查詢密碼、取款密碼、登錄密碼等 )、組織機(jī)構(gòu)名稱、營(yíng)業(yè)執(zhí)照號(hào)碼、銀行帳號(hào)、交易日期、交易金額等等。在金融機(jī)構(gòu)和政府等數(shù)據(jù)集中且頻繁使用的環(huán)境,必須考慮數(shù)據(jù)的敏感信息安全問(wèn)題。

本文分析的數(shù)據(jù)脫敏的使用場(chǎng)景是基于非生產(chǎn)環(huán)境的中數(shù)據(jù)脫敏分析。在部分企事業(yè)單位和金融機(jī)構(gòu),擁有自屬的或第三方的開發(fā)團(tuán)隊(duì),經(jīng)常需要現(xiàn)網(wǎng)環(huán)境的真實(shí)數(shù)據(jù)在非生產(chǎn)環(huán)境(開發(fā)、外包、數(shù)據(jù)分析等)進(jìn)行測(cè)試,尤其是需要在網(wǎng)的、實(shí)時(shí)的數(shù)據(jù)進(jìn)行仿真模擬。

在數(shù)據(jù)采集后,如何把在網(wǎng)的實(shí)時(shí)的數(shù)據(jù),脫敏后給仿真系統(tǒng)或第三方數(shù)據(jù)分析平臺(tái),邁普數(shù)據(jù)脫敏的多業(yè)務(wù)引擎技術(shù)可以幫助此類場(chǎng)景落地。

金融大數(shù)據(jù)分析的數(shù)據(jù)分流應(yīng)用

邁普脫敏技術(shù),是基于特定區(qū)域數(shù)據(jù)匿名化和去識(shí)別之類的不可逆數(shù)據(jù)掩碼方式進(jìn)行脫敏。脫敏后的數(shù)據(jù)應(yīng)具有原數(shù)據(jù)的特征,因?yàn)樗鼈內(nèi)詫⒂糜陂_發(fā)或測(cè)試場(chǎng)景。 帶有數(shù)值分布范圍、具有指定格式(如信用卡號(hào)前4位指代銀行名稱,或身份證號(hào)18位前4位為出生省份等)的數(shù)據(jù),在脫敏后應(yīng)與原始信息相似。姓名和地址等字段應(yīng)符合基本的語(yǔ)言認(rèn)知,而不是裁剪為無(wú)意義的字符串。因此需要避免使用數(shù)據(jù)的人員(數(shù)據(jù)分析師,BI工程師等)將某單位的數(shù)據(jù)確認(rèn)為某個(gè)人的信息,而導(dǎo)致不良后果。脫敏技術(shù)通過(guò)對(duì)

數(shù)據(jù)進(jìn)行脫敏,在一定程度上保證其無(wú)法根據(jù)數(shù)據(jù)反識(shí)別用戶,達(dá)到保證數(shù)據(jù)安全與最大化挖掘數(shù)據(jù)價(jià)值的平衡。

邁普長(zhǎng)期專注于金融領(lǐng)域的業(yè)務(wù)研究,積累了大量IP數(shù)據(jù)的技術(shù),依托全國(guó)產(chǎn)的硬件平臺(tái),邁普針對(duì)金融大數(shù)據(jù)應(yīng)用中常用的需求進(jìn)行了技術(shù)創(chuàng)新,如數(shù)據(jù)去重、數(shù)據(jù)脫敏、數(shù)據(jù)切片等精細(xì)化的數(shù)據(jù)管理側(cè)的應(yīng)用需求研究,可以提供完整的解決方案,為金融在線大數(shù)據(jù)采集,分發(fā)等提供預(yù)處理的能力,使金融的大數(shù)據(jù)運(yùn)維和業(yè)務(wù)可視化系列應(yīng)用更加敏捷的交付和部署。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-10-18
金融大數(shù)據(jù)分析的數(shù)據(jù)分流應(yīng)用
隨著金融業(yè)務(wù)的互聯(lián)網(wǎng)化、移動(dòng)化,如何進(jìn)行精確的客戶營(yíng)銷成為了金融業(yè)務(wù)發(fā)展的一個(gè)挑戰(zhàn),相關(guān)的大數(shù)據(jù)挖掘、分析、可視化的探索也越來(lái)越多。

長(zhǎng)按掃碼 閱讀全文