螞蟻金服開放計(jì)算架構(gòu):下一代金融級(jí)計(jì)算架構(gòu)

  螞蟻金服開放計(jì)算架構(gòu):下一代金融級(jí)計(jì)算架構(gòu)

當(dāng)前互聯(lián)網(wǎng)技術(shù)早已進(jìn)入了大數(shù)據(jù)、人工智能的階段,各種計(jì)算模式,計(jì)算引擎層出不窮。從10年前的MapReduce分布式計(jì)算開始,幾乎每三年就會(huì)出現(xiàn)一次新的計(jì)算引擎更迭,從開山鼻祖的Hadoop,到后來(lái)流式計(jì)算的Storm,之后出現(xiàn)了基于內(nèi)存迭代計(jì)算的Spark紅極一時(shí),然后到今天Flink又以迅雷不及掩耳之勢(shì)走入大家的視野。同時(shí)不僅僅是數(shù)據(jù)計(jì)算,機(jī)器學(xué)習(xí)框架最近幾年也是層出不窮:Keras,PyTorch,Caffe2,TensorFlow……可以說(shuō)每一個(gè)計(jì)算引擎的興起,都意味著計(jì)算技術(shù)一次新的突破。

伴隨著計(jì)算引擎的發(fā)展,如今互聯(lián)網(wǎng)商業(yè)服務(wù)越發(fā)依賴大數(shù)據(jù)及人工智能技術(shù),從最初的數(shù)據(jù)倉(cāng)庫(kù)分析型業(yè)務(wù),已經(jīng)逐漸演變成現(xiàn)在實(shí)時(shí)性更強(qiáng),復(fù)雜度更高的智能決策服務(wù)。

兩者的結(jié)合為更多的商業(yè)創(chuàng)新帶來(lái)可能,但是背后的技術(shù)現(xiàn)象卻是技術(shù)體系越發(fā)龐大與復(fù)雜,各個(gè)計(jì)算引擎的交替使用帶來(lái)學(xué)習(xí)成本的直線飆升,同時(shí)研發(fā)成本的增加與效率的降低也是普遍問(wèn)題。比研發(fā)效能降低更為糟糕的是不同的計(jì)算引擎之間數(shù)據(jù)無(wú)法共享及打通,絕大多數(shù)場(chǎng)景需要使用中間存儲(chǔ)進(jìn)行轉(zhuǎn)儲(chǔ),造成了存儲(chǔ)資源的浪費(fèi)與數(shù)據(jù)量的成倍放大。除此之外,諸如缺少統(tǒng)一元數(shù)據(jù),存在數(shù)據(jù)安全等隱患始終威脅著日益龐大且臃腫的系統(tǒng)體系。

面對(duì)這些不可忽視的問(wèn)題,螞蟻金服在2018年提出了開放計(jì)算架構(gòu)的概念,希望通過(guò)設(shè)計(jì)一套符合當(dāng)下計(jì)算體系,同時(shí)又能應(yīng)對(duì)未來(lái)計(jì)算趨勢(shì)的技術(shù)框架,來(lái)解決計(jì)算引擎更新、統(tǒng)一研發(fā)體系數(shù)據(jù)共享互通、數(shù)據(jù)風(fēng)險(xiǎn)防控等幾方面問(wèn)題。

首先在計(jì)算引擎方面,開放計(jì)算框架認(rèn)為計(jì)算引擎始終是持續(xù)更新的,因此需要有一套統(tǒng)一的元數(shù)據(jù)及狀態(tài)管理,針對(duì)不同的計(jì)算作業(yè)狀態(tài)進(jìn)行統(tǒng)一管理,達(dá)到兼容任何一種計(jì)算引擎,并且實(shí)現(xiàn)插件化能力;另外在研發(fā)層面,不同的計(jì)算引擎有不同的研發(fā)模式與API接口,要想統(tǒng)一各種引擎的研發(fā)能力,需要在頂層進(jìn)行計(jì)算DSL的封裝。為此,我們推出了SmartSQL,在標(biāo)準(zhǔn)SQL規(guī)范之上擴(kuò)展了部分功能及語(yǔ)法,希望用最簡(jiǎn)單通用的語(yǔ)言,描述絕大部分的計(jì)算及機(jī)器學(xué)習(xí)作業(yè);另外,為了解決多種引擎數(shù)據(jù)無(wú)法打通及共享的問(wèn)題,螞蟻金服自主研發(fā)了統(tǒng)一存儲(chǔ)系統(tǒng),支持多種類型的數(shù)據(jù)存儲(chǔ)格式,同時(shí)支持一份數(shù)據(jù)不同格式之間的自動(dòng)轉(zhuǎn)換及遷移,極大地簡(jiǎn)化了引擎層對(duì)存儲(chǔ)的使用,同時(shí)節(jié)約了大量成本。

不只是傳統(tǒng)的計(jì)算及存儲(chǔ)形態(tài),在目前的互聯(lián)網(wǎng)服務(wù)中有大量的關(guān)系型數(shù)據(jù),同時(shí)諸如社交,風(fēng)控,反洗錢,營(yíng)銷等場(chǎng)景都對(duì)關(guān)系計(jì)算有大量的需求,因此圖計(jì)算作為一種新的數(shù)據(jù)形態(tài)也是螞蟻金服重點(diǎn)投入的領(lǐng)域。在開放計(jì)算架構(gòu)之中,包含了離/在線一體的圖計(jì)算引擎及存儲(chǔ),從使用場(chǎng)景,可以覆蓋在線、實(shí)時(shí)、離線各個(gè)場(chǎng)景,用于支持不同時(shí)效性的業(yè)務(wù)。從功能上,具備金融級(jí)圖數(shù)據(jù)庫(kù),超大規(guī)模圖計(jì)算,流圖混合的動(dòng)態(tài)圖計(jì)算以及超快內(nèi)存圖等計(jì)算能力,覆蓋了不同量級(jí)的數(shù)據(jù)計(jì)算能力。另外與其他計(jì)算引擎一樣,螞蟻金服也研發(fā)了基于SQL規(guī)則的Graph SQL作為統(tǒng)一圖查詢語(yǔ)言,用于覆蓋所有的圖計(jì)算引擎。

在機(jī)器學(xué)習(xí)方面,開放計(jì)算架構(gòu)還包含了之前已經(jīng)開源的SQLFlow以及剛剛推出的ElasticDL彈性深度學(xué)習(xí)框架。SQLFLow作為連接數(shù)據(jù)與訓(xùn)練的橋梁,在標(biāo)準(zhǔn)SQL的基礎(chǔ)上擴(kuò)展了針對(duì)機(jī)器學(xué)習(xí)的語(yǔ)法,讓數(shù)據(jù)分析人員可以像寫SQL一樣訓(xùn)練出自己的數(shù)據(jù)模型。另外SQLFlow支持市面上大多數(shù)機(jī)器學(xué)習(xí)引擎,以及ElasticDL彈性框架。ElasticDL是基于k8s體系的彈性深度機(jī)器學(xué)習(xí)框架,兼容TensorFlow引擎與Keras語(yǔ)法,通過(guò)彈性調(diào)度達(dá)到減少訓(xùn)練等待時(shí)間以及訓(xùn)練運(yùn)行時(shí)間的目的。

這一整套體系又稱為Big Data Base,就是螞蟻金服摸索出來(lái)的金融數(shù)據(jù)智能的最佳實(shí)踐,即下一代大數(shù)據(jù)的基石。

在9月27日杭州云棲大會(huì)第三天,螞蟻金服將在數(shù)字金融技術(shù)專場(chǎng)上分享開放體系下的金融數(shù)據(jù)實(shí)踐,包括螞蟻開放計(jì)算架構(gòu)的技術(shù)細(xì)節(jié),歡迎屆時(shí)關(guān)注。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-09-24
螞蟻金服開放計(jì)算架構(gòu):下一代金融級(jí)計(jì)算架構(gòu)
  當(dāng)前互聯(lián)網(wǎng)技術(shù)早已進(jìn)入了大數(shù)據(jù)、人工智能的階段,各種計(jì)算模式,計(jì)算引擎層出不窮。

長(zhǎng)按掃碼 閱讀全文