消費(fèi)金融對(duì)實(shí)時(shí)數(shù)倉(cāng)系統(tǒng)建設(shè)的挑戰(zhàn)及馬上消費(fèi)金融實(shí)踐案例解析

在大數(shù)據(jù)和人工智能時(shí)代,數(shù)據(jù)作為資源的一種存在形式,已經(jīng)成為了非常重要的生產(chǎn)要素,通過對(duì)其分析挖掘可以創(chuàng)造出巨大的經(jīng)濟(jì)價(jià)值。

數(shù)據(jù)從產(chǎn)生到應(yīng)用,需經(jīng)過接入、清洗、整合和加工,這些工作通常在數(shù)據(jù)倉(cāng)庫(kù)中完成,關(guān)于數(shù)倉(cāng)通常有兩類說法,1類是大數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)倉(cāng),所謂大數(shù)據(jù)倉(cāng)庫(kù)通常是指采用大數(shù)據(jù)技術(shù)構(gòu)建的數(shù)據(jù)倉(cāng)庫(kù),隨著hadoop的興起逐漸流行;另1類是離線數(shù)倉(cāng)與實(shí)時(shí)數(shù)倉(cāng),離線數(shù)倉(cāng)主要是T+1同步和處理數(shù)據(jù),具有1天的數(shù)據(jù)延遲,而實(shí)時(shí)數(shù)倉(cāng)則可以做到實(shí)時(shí)或者近似實(shí)時(shí),具有不同的應(yīng)用場(chǎng)景。

實(shí)時(shí)數(shù)倉(cāng)的發(fā)展已經(jīng)具有較長(zhǎng)的歷史,應(yīng)用到了各行各業(yè),但是作為最近幾年剛興起的消費(fèi)金融領(lǐng)域,實(shí)時(shí)數(shù)倉(cāng)的建設(shè)又將面臨哪些新的挑戰(zhàn)?

(一)實(shí)時(shí)性,消費(fèi)金融,根據(jù)中國(guó)銀監(jiān)會(huì)的定義,需以小額、分散為原則開展業(yè)務(wù),以馬上消費(fèi)金融公司為例,人均借貸3000元,業(yè)務(wù)遍及全國(guó),該小額分散的業(yè)務(wù)特性決定了必須完全依靠數(shù)據(jù)在線上完成整個(gè)授信放貸過程,如果按照傳統(tǒng)銀行的方式線下簽單、人工審批,則會(huì)產(chǎn)生巨額的人工成本,以3000元的人均客單價(jià)帶來(lái)的利潤(rùn)根本無(wú)法承受該成本。

依靠數(shù)據(jù)實(shí)時(shí)授信要求實(shí)時(shí)數(shù)倉(cāng)從數(shù)據(jù)接入、清洗、整合、加工到查詢整個(gè)過程需控制在毫秒級(jí)完成,因?yàn)樵谡麄€(gè)授信決策過程中除了實(shí)時(shí)數(shù)倉(cāng)的數(shù)據(jù)服務(wù)外,還有諸多環(huán)節(jié),比如:與前端app對(duì)接的api系統(tǒng),留存申請(qǐng)單的申請(qǐng)單系統(tǒng),機(jī)器學(xué)習(xí)的模型評(píng)分,控制決策步驟的工作流系統(tǒng),做欺詐、信用評(píng)估等決策的規(guī)則引擎系統(tǒng)等,所以每個(gè)環(huán)節(jié)都需做到極致,時(shí)間盡量壓縮,只有這樣才可能做到一次授信在亞秒級(jí)完成,為客戶帶來(lái)較好的用戶體驗(yàn)。

(二)數(shù)據(jù)質(zhì)量,離線數(shù)倉(cāng)支持的大多是BI報(bào)表等統(tǒng)計(jì)類業(yè)務(wù),統(tǒng)計(jì)類業(yè)務(wù)對(duì)數(shù)據(jù)質(zhì)量要求不高,出現(xiàn)少量數(shù)據(jù)錯(cuò)誤并不會(huì)引起統(tǒng)計(jì)數(shù)據(jù)的較大波動(dòng),從而不影響數(shù)據(jù)決策,對(duì)于數(shù)據(jù)質(zhì)量要求高的業(yè)務(wù),由于離線數(shù)倉(cāng)中均是離線任務(wù),任務(wù)時(shí)效性要求不高,當(dāng)發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題后,通常會(huì)有一定的時(shí)間可以修復(fù)解決,最終實(shí)現(xiàn)較高的數(shù)據(jù)質(zhì)量。對(duì)于實(shí)時(shí)數(shù)倉(cāng),很多行業(yè)或者絕大部分公司對(duì)它的定位主要還是OLAP業(yè)務(wù),支撐數(shù)據(jù)的準(zhǔn)實(shí)時(shí)分析,對(duì)數(shù)據(jù)錯(cuò)誤不特別敏感,但是在消費(fèi)金融行業(yè),在第一個(gè)

實(shí)時(shí)性挑戰(zhàn)處有提到,依靠數(shù)據(jù)做實(shí)時(shí)授信,授信是消費(fèi)金融公司賴以生存的最關(guān)鍵因素,授信做的好,表現(xiàn)為通過率提升,增加放款額,逾期率降低,減少壞賬成本,一增一減,大幅提升盈利水平,反之,則大幅壓縮盈利空間或者出現(xiàn)放款額越多虧損越大的問題,可見,授信對(duì)于實(shí)時(shí)數(shù)倉(cāng)的定位將不再是OLAP的分析場(chǎng)景,而是OLTP的聯(lián)機(jī)交易業(yè)務(wù),對(duì)數(shù)據(jù)質(zhì)量要求極高,盡可能避免或者減少因數(shù)據(jù)問題影響授信業(yè)務(wù)。

(三)數(shù)據(jù)獲得/應(yīng)用成本,同樣圍繞消費(fèi)金融的授信放貸業(yè)務(wù),如何降低數(shù)據(jù)獲得與應(yīng)用成本,快速把數(shù)據(jù)價(jià)值體現(xiàn)到授信過程中,對(duì)于消費(fèi)金融公司非常重要,在用戶的授信過程,需要用到外部購(gòu)買數(shù)據(jù),自建數(shù)據(jù),各業(yè)務(wù)系統(tǒng)產(chǎn)生的歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù),這些數(shù)據(jù)具有數(shù)據(jù)量大且散落于各系統(tǒng)庫(kù)表中的特點(diǎn),需有比較好的查詢機(jī)制,支持大數(shù)據(jù)量的多維查詢和跨庫(kù)甚至是跨異構(gòu)數(shù)據(jù)庫(kù)的統(tǒng)一查詢能力,避免當(dāng)有新的授信規(guī)則需要數(shù)據(jù)時(shí)還需到各研發(fā)條線排期開發(fā)數(shù)據(jù)接口或者傳統(tǒng)技術(shù)無(wú)法滿足大數(shù)據(jù)量的查詢時(shí)效性問題。

授信主要分反欺詐與風(fēng)險(xiǎn)定價(jià)兩個(gè)大的階段,其中尤其是反欺詐階段,快速迭代反欺詐的規(guī)則和模型,將大幅降低違約成本,能否快速迭代,其中最關(guān)鍵的因素之一就是在線下分析/挖掘數(shù)據(jù)發(fā)現(xiàn)新的規(guī)則或者訓(xùn)練出更好的模型時(shí),能否在最短的時(shí)間內(nèi)對(duì)接上依賴的數(shù)據(jù)從而完成生產(chǎn)環(huán)境部署,這需要有非常好的的數(shù)據(jù)架構(gòu)作為基礎(chǔ),這對(duì)傳統(tǒng)的實(shí)時(shí)數(shù)倉(cāng)提出了非常大的挑戰(zhàn),實(shí)時(shí)數(shù)倉(cāng)架構(gòu)將不再局限在先匯聚數(shù)據(jù)再查詢,是否可以不匯聚任何數(shù)據(jù)或者部分匯聚部分還存于源庫(kù)表,在多源異構(gòu)存儲(chǔ)中實(shí)現(xiàn)實(shí)時(shí)數(shù)倉(cāng)業(yè)務(wù)。

綜上所述,在消費(fèi)金融行業(yè),對(duì)數(shù)倉(cāng)提出了更加高標(biāo)準(zhǔn)的要求,主要體現(xiàn)在實(shí)時(shí)數(shù)倉(cāng)的時(shí)效性、數(shù)據(jù)質(zhì)量、數(shù)據(jù)查得/應(yīng)用成本三個(gè)方面。

馬上消費(fèi)金融公司作為消費(fèi)金融持牌機(jī)構(gòu),其打造的符合消費(fèi)金融業(yè)務(wù)特點(diǎn)的實(shí)時(shí)數(shù)倉(cāng)項(xiàng)目,基于大數(shù)據(jù)技術(shù)實(shí)現(xiàn),比較好的解決了以上挑戰(zhàn),目前已經(jīng)完成對(duì)全公司核心系統(tǒng)的所有數(shù)據(jù)實(shí)時(shí)接入,日接入數(shù)據(jù)超過10億行,自研分布式統(tǒng)一查詢模塊,實(shí)現(xiàn)億級(jí)數(shù)據(jù)多表關(guān)聯(lián)查詢毫秒級(jí)返回且支持異構(gòu)數(shù)據(jù)庫(kù)聯(lián)查,為實(shí)時(shí)風(fēng)控業(yè)務(wù)提供了非常好的數(shù)據(jù)架構(gòu)和數(shù)據(jù)支撐。

下面,我們以馬上消費(fèi)金融的實(shí)時(shí)數(shù)倉(cāng)系統(tǒng)為例,向大家展示消費(fèi)金融公司基于大數(shù)據(jù)平臺(tái)的實(shí)時(shí)數(shù)倉(cāng)解決方案。

(一)針對(duì)消費(fèi)金融行業(yè)數(shù)據(jù)處理的實(shí)時(shí)性要求,馬上消費(fèi)金融從以下幾方面提出了解決方案:

1、元數(shù)據(jù)的自動(dòng)管理。在元數(shù)據(jù)當(dāng)中維護(hù)MySql的schema、Kafka的topic、HBase的tableName、rowkey字段,ElasticSearch的索引列字段等信息。

2、性能和規(guī)模擴(kuò)展性。借助于分布式消息系統(tǒng)Kafka和列式存儲(chǔ)系統(tǒng)HBase以及ElasticSearch集群可動(dòng)態(tài)擴(kuò)展系統(tǒng)的高可用性。

3、高指標(biāo)的SLA。實(shí)時(shí)數(shù)倉(cāng)系統(tǒng)提供的服務(wù)響應(yīng)在毫秒級(jí)別,7×24小時(shí)不宕機(jī)提供服務(wù)。

4、接口、標(biāo)準(zhǔn)兼容性。提供標(biāo)準(zhǔn)的SQL語(yǔ)句查詢,滿足NoSql解析為標(biāo)準(zhǔn)SQL的查詢。

5、數(shù)據(jù)的一致性。實(shí)現(xiàn)數(shù)據(jù)精準(zhǔn)實(shí)時(shí)同步,做到了Exactly Once的語(yǔ)義。

6、配置化、定制化管理。通過配置化管理實(shí)現(xiàn)對(duì)多個(gè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)的接入,避免硬編碼,通過定制化SQL對(duì)外提供實(shí)時(shí)的數(shù)據(jù)查詢服務(wù)。

(二)馬上消費(fèi)金融實(shí)時(shí)數(shù)倉(cāng)系統(tǒng)的演進(jìn)過程:

第一階段的實(shí)時(shí)數(shù)倉(cāng)系統(tǒng)落地系統(tǒng)架構(gòu),如下圖:

消費(fèi)金融對(duì)實(shí)時(shí)數(shù)倉(cāng)系統(tǒng)建設(shè)的挑戰(zhàn)及馬上消費(fèi)金融實(shí)踐案例解析

在系統(tǒng)的第一階段,馬上消費(fèi)金融使用阿里開源的canal對(duì)mysql的binlog進(jìn)行實(shí)時(shí)同步,將數(shù)據(jù)同步到下游的Kafka。Kafka作為數(shù)據(jù)的緩沖層,可以為系統(tǒng)本身提供數(shù)據(jù)拉取源,同時(shí)也可滿足其他業(yè)務(wù)部門在Kafka當(dāng)中的數(shù)據(jù)訂閱需求。

另外,其通過自主開發(fā)的plugin插件進(jìn)行對(duì)Kafka數(shù)據(jù)的消費(fèi),將數(shù)據(jù)轉(zhuǎn)存到HBase和ElasticSearch當(dāng)中;自研的統(tǒng)一查詢平臺(tái),使newSql解析器將標(biāo)準(zhǔn)的SQL查詢解析為對(duì)ES查詢的DSL,同時(shí)支持ES作為一級(jí)查詢引擎,HBase作為二級(jí)查詢引擎實(shí)現(xiàn)查詢的多層高可靠查詢服務(wù),服務(wù)響應(yīng)平均在幾百毫秒以內(nèi)。

在第一階段的系統(tǒng)落地并實(shí)踐一段時(shí)間之后,馬上消費(fèi)金融實(shí)時(shí)數(shù)倉(cāng)系統(tǒng)的設(shè)計(jì)團(tuán)隊(duì)有了新發(fā)現(xiàn),即Dremio可以更好地解決異構(gòu)存儲(chǔ)的數(shù)據(jù)源之間的 join 查詢,如:Elasticsearch、MySQL、MongoDB、Hbase之間進(jìn)行 join 等多種業(yè)務(wù)查詢的場(chǎng)景。經(jīng)過全方位測(cè)試,他們進(jìn)行了該系統(tǒng)第二階段方案的落地。

第二階段的實(shí)時(shí)數(shù)倉(cāng)系統(tǒng)落地系統(tǒng)架構(gòu),如下圖:

消費(fèi)金融對(duì)實(shí)時(shí)數(shù)倉(cāng)系統(tǒng)建設(shè)的挑戰(zhàn)及馬上消費(fèi)金融實(shí)踐案例解析

升級(jí)版的實(shí)時(shí)數(shù)倉(cāng)系統(tǒng)引入了dremio,這使得系統(tǒng)的響應(yīng)能力提升了一個(gè)數(shù)量級(jí),平均查詢耗時(shí)在幾十毫秒以內(nèi),多表join查詢(2000W~1.3億數(shù)據(jù)量)響應(yīng)時(shí)間在幾百毫秒以內(nèi)。進(jìn)而更好地實(shí)現(xiàn)了實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)對(duì)業(yè)務(wù)系統(tǒng)數(shù)據(jù)決策的支持,滿足了即席查詢和包含連接、聚合等操作的復(fù)雜查詢需求。

結(jié)語(yǔ)

隨著監(jiān)管趨嚴(yán),2018年金融行業(yè)將更加回歸理性,合規(guī)、普惠、服務(wù)實(shí)體經(jīng)濟(jì)將是消費(fèi)金融公司發(fā)展的主旋律?;谛☆~、大量、短期、高頻的業(yè)務(wù)特點(diǎn),消費(fèi)金融公司若想兼顧效率與風(fēng)控,必須在技術(shù)方面尋求解決方案,通過實(shí)時(shí)數(shù)倉(cāng)系統(tǒng)創(chuàng)建一站式數(shù)據(jù)中心,自助式對(duì)金融數(shù)據(jù)進(jìn)行多維度分析和聯(lián)機(jī)查詢,為用戶的數(shù)據(jù)安全和業(yè)務(wù)的快速?zèng)Q策提供重要支撐。馬上消費(fèi)金融是消費(fèi)金融領(lǐng)域科技應(yīng)用的探索者與實(shí)踐者,希望本文分享的該公司實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)落地案例對(duì)于同業(yè)機(jī)構(gòu)解決同類問題有一定的參考意義。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-02-14
消費(fèi)金融對(duì)實(shí)時(shí)數(shù)倉(cāng)系統(tǒng)建設(shè)的挑戰(zhàn)及馬上消費(fèi)金融實(shí)踐案例解析
在大數(shù)據(jù)和人工智能時(shí)代,數(shù)據(jù)作為資源的一種存在形式,已經(jīng)成為了非常重要的生產(chǎn)要素,通過對(duì)其分析挖掘可以創(chuàng)造出巨大的經(jīng)濟(jì)價(jià)值。

長(zhǎng)按掃碼 閱讀全文