未來已來!分布式數(shù)據(jù)庫的“星辰大海”絕不僅限于替換!

記得兩三年前,當人們在談?wù)撈鸱植际綌?shù)據(jù)庫等技術(shù)時,還經(jīng)常在用“未來”等詞語描述這一新技術(shù)的應(yīng)用前景。在剛剛過去的2020年,新一代數(shù)據(jù)庫龍頭Snowflake成功上市,成為歷史上規(guī)模最大的軟件企業(yè)IPO。我們回頭一看才發(fā)現(xiàn),原來未來已來!

然而,分布式數(shù)據(jù)庫應(yīng)該如何在企業(yè)中正確地落地,一直是業(yè)界討論的焦點。在國內(nèi),大部分讀者第一次了解到分布式數(shù)據(jù)庫時,首要的問題就是:分布式數(shù)據(jù)庫是否能替換Oracle?然而,從全球數(shù)據(jù)量發(fā)展的方向來看,其爆發(fā)性增長,主要集中在基于數(shù)字化創(chuàng)新的多樣化業(yè)務(wù)場景。因此,單純替代傳統(tǒng)Oracle占據(jù)核心優(yōu)勢的固有領(lǐng)域,并非是數(shù)據(jù)庫未來的增長方向。以Snowflake為例,其業(yè)務(wù)并沒有替換Oracle核心應(yīng)用領(lǐng)域,卻以4億美元營收換回700億美元市值,正在撼動Oracle在數(shù)據(jù)市場的龍頭地位,其背后的原因值得我們深思。

未來已來!分布式數(shù)據(jù)庫的“星辰大?!苯^不僅限于替換!

基于“替換”的思維永遠無法“超越”

實際上,在替換Oracle的問題上,并沒有“能”或“不能”這樣一刀切的答案。分布式數(shù)據(jù)庫的設(shè)計初衷是解決全新的實際業(yè)務(wù)問題,在Oracle所無法滿足的場景中,與企業(yè)客戶一同迎接數(shù)字化轉(zhuǎn)型的機遇,而并不是為了單純替換某個原有系統(tǒng)。

傳統(tǒng)關(guān)系型數(shù)據(jù)庫在核心交易等領(lǐng)域深耕了40多年,到目前為止,大部分純交易場景不論從數(shù)據(jù)量還是商業(yè)模式都沒有本質(zhì)的變化,其業(yè)務(wù)的擴展空間也十分有限。而在企業(yè)數(shù)字化轉(zhuǎn)型的過程中,數(shù)據(jù)量會隨著業(yè)務(wù)發(fā)展快速膨脹,形成全新的業(yè)務(wù)需求及數(shù)據(jù)增量,為數(shù)據(jù)庫帶來全新的市場機遇。

相比傳統(tǒng)關(guān)系型數(shù)據(jù)庫,分布式數(shù)據(jù)庫在提供ACID事務(wù)一致性的能力的同時,擁有更靈活的擴展能力,及多數(shù)據(jù)模型的處理能力。在面向海量數(shù)據(jù)彈性擴展的新興業(yè)務(wù)需求時,做到“不使用Oracle而選擇分布式數(shù)據(jù)庫”,是我們在行業(yè)中應(yīng)用分布式架構(gòu)的最佳實踐。也就是說,使用分布式數(shù)據(jù)庫逐步迭代,伴隨全新的數(shù)字化業(yè)務(wù)漸漸滲透到傳統(tǒng)業(yè)務(wù),成為新的數(shù)據(jù)核心場景,是分布式數(shù)據(jù)庫技術(shù)在企業(yè)中最佳的落地方案。

因此,分布式數(shù)據(jù)庫的星辰大海,絕不僅僅在于對傳統(tǒng)關(guān)系型數(shù)據(jù)庫的簡單替換。如果只是為了使用及推廣新技術(shù),而進行固有架構(gòu)的替換,將會面臨極大的技術(shù)風(fēng)險與挑戰(zhàn)。只有站在企業(yè)客戶的角度出發(fā),與客戶共同挖掘數(shù)字化轉(zhuǎn)型中的全新數(shù)據(jù)價值,才能突破固有框架,建立全新的分布式技術(shù)賽道,超越傳統(tǒng)的架構(gòu)邊界。

如何選擇最佳落地場景

從業(yè)務(wù)場景的角度,自上世紀70年代末關(guān)系型數(shù)據(jù)庫誕生,Oracle、DB2等數(shù)據(jù)庫已經(jīng)經(jīng)歷了40多年的發(fā)展歷史,對于其固有的業(yè)務(wù)場景來說,基本已經(jīng)做到了業(yè)界極致。而面向新的數(shù)據(jù)中臺聯(lián)機湖倉、微服務(wù)數(shù)據(jù)融合管理、海量數(shù)據(jù)實時訪問、非結(jié)構(gòu)化在線處理等方面,傳統(tǒng)交易性數(shù)據(jù)庫則明顯力不從心。企業(yè)客戶選擇分布式數(shù)據(jù)庫落地場景時,應(yīng)該選擇適當?shù)膽?yīng)用場景,以真正發(fā)揮其優(yōu)勢能力,并持續(xù)打磨技術(shù)團隊的運維能力,逐步推向核心。

1) 數(shù)據(jù)中臺聯(lián)機湖倉

在不少的企業(yè)IT架構(gòu)規(guī)劃中,數(shù)據(jù)中臺已經(jīng)成為整個IT戰(zhàn)略的一部分,包含了歷史數(shù)據(jù)平臺甚至非結(jié)構(gòu)化數(shù)據(jù)處理等多數(shù)據(jù)模型領(lǐng)域,幾乎覆蓋了企業(yè)中除了業(yè)務(wù)應(yīng)用系統(tǒng)之外的全部數(shù)據(jù)處理及服務(wù)能力。

在此場景下Oracle無法滿足擴展能力,而Hadoop又無法支持實時并發(fā)業(yè)務(wù)。國際上也沒有直接與其對標的技術(shù)體系,最為貼近的則是Lakehouse(湖倉一體化)。Lakehouse的行業(yè)主要廠商包括像Snowflake及Databricks等分布式數(shù)據(jù)庫廠商,其產(chǎn)品可以分為數(shù)據(jù)湖與計算引擎兩大核心模塊。2020年Gartner進一步引入了Augmented Transactions Processing處理場景,強調(diào)事務(wù)一致性,要求數(shù)據(jù)庫在分析處理過程中同時保持低延遲,以提升實時聯(lián)機處理能力。

未來已來!分布式數(shù)據(jù)庫的“星辰大?!苯^不僅限于替換!

可以預(yù)見,支持Augmented Transactions Processing能力的聯(lián)機湖倉,將為數(shù)據(jù)中臺提升實時聯(lián)機處理能力,數(shù)據(jù)實現(xiàn)一次存儲多業(yè)務(wù)多數(shù)據(jù)模型同時使用,加速數(shù)據(jù)的處理效率,減少數(shù)據(jù)冗余,提供更綠色環(huán)保的數(shù)據(jù)基礎(chǔ)設(shè)施。

未來已來!分布式數(shù)據(jù)庫的“星辰大?!苯^不僅限于替換!

2) 微服務(wù)數(shù)據(jù)融合管理

微服務(wù)應(yīng)用開發(fā)架構(gòu)逐漸成為主流的今天,傳統(tǒng)一個應(yīng)用對接一個數(shù)據(jù)庫的架構(gòu)被拆散成幾十上百個微服務(wù),每個微服務(wù)都可能需要使用獨立的數(shù)據(jù)庫實例,因此在企業(yè)內(nèi)部數(shù)據(jù)庫實例數(shù)量近年來呈井噴態(tài)勢發(fā)展。

分布式數(shù)據(jù)庫的出現(xiàn)可以很好地解決數(shù)據(jù)庫實例批量管理中,擴展困難以及維護困難的問題。同時,基于引擎級多模技術(shù),分布式數(shù)據(jù)庫可以基于同一份數(shù)據(jù),支撐多種數(shù)據(jù)庫引擎的聯(lián)機交易,通過跨引擎事務(wù)一致性能力,為客戶打通微服務(wù)架構(gòu)下異構(gòu)數(shù)據(jù)源的ACID一致性。因此,分布式數(shù)據(jù)庫技術(shù)相比傳統(tǒng)Oracle等數(shù)據(jù)庫更有利于微服務(wù)化,為企業(yè)打通底層數(shù)據(jù),降低數(shù)據(jù)的存儲及管理成本。助力研發(fā)團隊進行DevOps持續(xù)交付,提升產(chǎn)品研發(fā)效率。

未來已來!分布式數(shù)據(jù)庫的“星辰大?!苯^不僅限于替換!

3) 海量數(shù)據(jù)實時訪問

海量數(shù)據(jù)的存儲和計算通常由數(shù)倉(MPP數(shù)據(jù)庫)或大數(shù)據(jù)平臺(Hadoop)完成,數(shù)據(jù)量往往達到千億(甚至萬億)級別。傳統(tǒng)應(yīng)用中,由于數(shù)倉中需要預(yù)先完成數(shù)據(jù)清洗入庫,數(shù)倉及大數(shù)據(jù)平臺無法支持實時并發(fā)數(shù)據(jù)訪問,限于現(xiàn)有平臺的處理模型,因此難以進行聯(lián)機業(yè)務(wù)的創(chuàng)新。然而,數(shù)據(jù)化轉(zhuǎn)型過程中,對客聯(lián)機交易、歷史數(shù)據(jù)服務(wù)平臺或IoT物聯(lián)網(wǎng)系統(tǒng)中,會產(chǎn)生要求聯(lián)機實時處理海量數(shù)據(jù)的解決方案。

分布式數(shù)據(jù)庫可以在這一場景中,協(xié)助企業(yè)客戶獲得更佳的使用體驗。首先,分布式數(shù)據(jù)庫與Hadoop及數(shù)據(jù)倉庫一樣具有很好的彈性擴展能力。其次,分布式數(shù)據(jù)庫可以提供與傳統(tǒng)關(guān)系型數(shù)據(jù)庫同等的ACID支持,以保障其關(guān)鍵業(yè)務(wù)的事務(wù)一致性。最重要的是,分布式數(shù)據(jù)庫可以更好地支持高并發(fā)的業(yè)務(wù)訪問,可以像使用單機數(shù)據(jù)庫一樣,在包含幾千億甚至萬億級記錄的表中實現(xiàn)毫秒級數(shù)據(jù)檢索。

未來已來!分布式數(shù)據(jù)庫的“星辰大?!苯^不僅限于替換!

4) 非結(jié)構(gòu)化數(shù)據(jù)治理

非結(jié)構(gòu)化數(shù)據(jù)包括圖片、文檔、音視頻等對象文件,以往只是單純存放于存儲系統(tǒng)中,提供單一的保存及調(diào)取功能。因此,除了直接操作這些文件的業(yè)務(wù)系統(tǒng)外,非結(jié)構(gòu)化數(shù)據(jù)對于企業(yè)中的其他系統(tǒng)就是一個黑匣子,無法發(fā)揮數(shù)據(jù)的潛在價值。

如今的業(yè)務(wù)系統(tǒng)往往開始大規(guī)模聯(lián)機使用這類非結(jié)構(gòu)化數(shù)據(jù)。例如,在業(yè)務(wù)中各類文件采集,交易過程頭像、指紋、聲紋監(jiān)管要求的原檔留存,各類業(yè)務(wù)的360客戶畫像系統(tǒng),處理過程需要與非結(jié)構(gòu)化數(shù)據(jù)進行高頻比對,并發(fā)處理及采樣修正,這些場景都需要非結(jié)構(gòu)化數(shù)據(jù)的聯(lián)機實時管理。單純采用NAS或網(wǎng)盤存儲海量非結(jié)構(gòu)化數(shù)據(jù),早已經(jīng)無法滿足這類實時聯(lián)機處理能力的需求。

同時,數(shù)字化轉(zhuǎn)型中非結(jié)構(gòu)化數(shù)據(jù)不再是靜態(tài)的文件。通過AI機器學(xué)習(xí)及比對分析,非結(jié)構(gòu)化數(shù)據(jù)將包含更多元化的業(yè)務(wù)屬性,為各類業(yè)務(wù)系統(tǒng)提供信息輸入。因此,需要對其進行有效的分類治理,盤活非結(jié)構(gòu)化數(shù)據(jù)資產(chǎn)的潛在價值。

未來已來!分布式數(shù)據(jù)庫的“星辰大?!苯^不僅限于替換!

未來已來!分布式數(shù)據(jù)庫的“星辰大海”絕不僅限于替換!

分布式數(shù)據(jù)庫可以有效提升非結(jié)構(gòu)化數(shù)據(jù)的實時處理能力,結(jié)合引擎級多模能力統(tǒng)一存儲結(jié)構(gòu)化及對象數(shù)據(jù),可以有效地實現(xiàn)基于標簽特征數(shù)據(jù)的分類治理,成為企業(yè)「非結(jié)構(gòu)化數(shù)據(jù)治理」建立堅實的底座。

分布式技術(shù)演進趨勢

從技術(shù)角度,在各行業(yè)對海量數(shù)據(jù)、互聯(lián)網(wǎng)類應(yīng)用快速發(fā)展的需求中,彈性擴張、多模式等功能是傳統(tǒng)Oracle數(shù)據(jù)庫所難以滿足的,也是分布式數(shù)據(jù)庫存在的最大價值與目的。在這類技術(shù)背景下,做到“不使用Oracle而選擇分布式數(shù)據(jù)庫”是最正確的答案。分布式數(shù)據(jù)庫的最佳落地與使用方式,正是從海量數(shù)據(jù)業(yè)務(wù)到核心的逐步迭代過程。先從存在海量數(shù)據(jù)彈性擴展的新興業(yè)務(wù)需求入手,隨著業(yè)務(wù)革新不斷的深入,逐漸滲透進傳統(tǒng)業(yè)務(wù)及應(yīng)用中。

1) 彈性:存算分離實現(xiàn)靈活擴展

作為分布式數(shù)據(jù)庫,彈性擴展能力是其存在的核心意義與價值。相比起傳統(tǒng)MPP數(shù)據(jù)倉庫,新型分布式數(shù)據(jù)庫可以基于存算分離的部署模型,實現(xiàn)存儲與計算資源獨立擴展的能力,實現(xiàn)對應(yīng)用層面無感知的按需彈性擴展。

未來已來!分布式數(shù)據(jù)庫的“星辰大?!苯^不僅限于替換!

未來已來!分布式數(shù)據(jù)庫的“星辰大?!苯^不僅限于替換!

2) 事務(wù):原生分布式強一致性

在分布式技術(shù)逐步貼近業(yè)務(wù)核心的過程中,客戶對于ACID事務(wù)一致性的要求也持續(xù)提升。例如,在聯(lián)機交易業(yè)務(wù)中,往往要求“RR級別事務(wù)隔離”能力。在這類需求中,基于分庫分表技術(shù)的解決方案,由于數(shù)據(jù)庫本身無法提供此支持,(部分產(chǎn)品甚至不提供事務(wù)支持或通過1PC提交進行弱化)。導(dǎo)致需要借助大量外圍應(yīng)用程序邏輯配合,才能達到最終一致性的效果,大量消耗開發(fā)人員的設(shè)計精力。而原生分布式數(shù)據(jù)庫,得益于源自內(nèi)核的分布式設(shè)計,客戶可以放心地將事務(wù)一致性邏輯交由數(shù)據(jù)庫層進行處理,讓開發(fā)人員回歸到純粹的業(yè)務(wù)設(shè)計,為業(yè)務(wù)提供直接有效的研發(fā)產(chǎn)出,提升企業(yè)研發(fā)效率。

未來已來!分布式數(shù)據(jù)庫的“星辰大?!苯^不僅限于替換!

3) 融合:引擎級多模,打開湖倉一體新賽道

關(guān)系型數(shù)據(jù)庫經(jīng)過了40多年的發(fā)展,早已經(jīng)從最開始的純結(jié)構(gòu)化模型衍生出了支持XML、JSON、地理信息、圖等不同的能力。傳統(tǒng)數(shù)據(jù)庫由于在同一個物理設(shè)備上使用同構(gòu)引擎,多模式能力很難真正發(fā)揮到極致。而在分布式數(shù)據(jù)庫架構(gòu)中,用戶完全可以使用不同的物理設(shè)備及底層數(shù)據(jù)結(jié)構(gòu),承載不同數(shù)據(jù)模型的計算及存儲引擎,真正做到原生的引擎級多模技術(shù)。從而提供跨不同數(shù)據(jù)模型乃至不同數(shù)據(jù)庫語言及引擎之間的數(shù)據(jù)共享,避免不同模型間進行聯(lián)機處理時,由于頻繁數(shù)據(jù)拷貝,導(dǎo)致傳輸延遲及存儲空間浪費?;诙嗄D芰?gòu)建同時滿足結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)湖,同時賦予跨引擎數(shù)據(jù)一致性能力,及實時數(shù)據(jù)分析能力,真正意義上讓全局數(shù)據(jù)實時可見。開發(fā)者因此可以跨越不同數(shù)據(jù)引擎間的開發(fā)鴻溝,提升開發(fā)效率及系統(tǒng)性能,打開分布式技術(shù)的全新賽道。

未來已來!分布式數(shù)據(jù)庫的“星辰大?!苯^不僅限于替換!

未來已來!分布式數(shù)據(jù)庫的“星辰大?!苯^不僅限于替換!

總結(jié)

傳統(tǒng)關(guān)系型數(shù)據(jù)庫歷經(jīng)了40多年的發(fā)展,在其主打的核心交易領(lǐng)域幾乎走到了極致。單獨以核心交易場景對標新型分布式數(shù)據(jù)庫,就好似用傳統(tǒng)的馬車標準來衡量新生的汽車技術(shù),無法對新技術(shù)做到合理的評估。

分布式數(shù)據(jù)庫的誕生首先是為了解決傳統(tǒng)數(shù)據(jù)庫不擅長的場景,在關(guān)系型數(shù)據(jù)庫做到極致的領(lǐng)域同樣需要很長的時間才能完善。得益于高彈性、強事務(wù)一致、多模融合等特點,近年來不少企業(yè)已經(jīng)在:數(shù)據(jù)中臺聯(lián)機湖倉、微服務(wù)數(shù)據(jù)融合管理、海量數(shù)據(jù)實時訪問、非結(jié)構(gòu)化在線處理等領(lǐng)域,實現(xiàn)原生分布式數(shù)據(jù)庫規(guī)模化的生產(chǎn)落地。我們欣喜地看到,分布式數(shù)據(jù)庫的應(yīng)用領(lǐng)域幾乎每年都會有大幅度擴展,成為支撐企業(yè)數(shù)字化改革升級中不可或缺的彈性數(shù)據(jù)基礎(chǔ)設(shè)施。

巨杉數(shù)據(jù)庫早在2014年起就發(fā)布基于多模引擎的支持,為客戶提供可同時管理多種數(shù)據(jù)結(jié)構(gòu)的分布式數(shù)據(jù)基礎(chǔ)設(shè)施。已經(jīng)協(xié)助超過100家金融銀行客戶和超過1000家企業(yè)用戶,提供分布式數(shù)據(jù)庫技術(shù)。借助自主專利的STP分布式序列時鐘協(xié)議,實現(xiàn)RR級事務(wù)隔離及跨引擎事務(wù)一致性能力,為數(shù)據(jù)中臺提供聯(lián)機湖倉生產(chǎn)落地的最佳實踐,已成功協(xié)助客戶在高達1.2萬億數(shù)據(jù)量生產(chǎn)環(huán)境下,提供安全穩(wěn)定、可靈活擴展、高性能、高并發(fā)的數(shù)據(jù)底座。

回顧過去的10年,分布式數(shù)據(jù)庫經(jīng)歷了從行業(yè)質(zhì)疑、小規(guī)模試水、到如今在部分行業(yè)的規(guī)?;瘧?yīng)用。我們堅信,在新的一年中我國的分布式數(shù)據(jù)庫產(chǎn)業(yè)一定會更加蓬勃發(fā)展,未來的三到五年分布式數(shù)據(jù)庫的應(yīng)用規(guī)模有望超越Oracle成為核心交易業(yè)務(wù)的重要組成部分。

未來,借助100%自主研發(fā)的原生分布式數(shù)據(jù)庫引擎,及引擎級多模特性,巨杉數(shù)據(jù)庫將秉持以客戶為中心的價值觀,與客戶及上下游合作伙伴一同,為金融、能源、運營商及政企客戶提供優(yōu)質(zhì)的產(chǎn)品、技術(shù)服務(wù)及生態(tài)支持,推動全球數(shù)字化進程。

分布式數(shù)據(jù)庫:未來已來。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )