數(shù)據(jù)如水海納百川,數(shù)據(jù)湖如何成為數(shù)據(jù)治理的新范式?

科技云報(bào)道原創(chuàng)。

10年前,Pentaho公司創(chuàng)始人兼CTO詹姆斯·迪克遜(James Dixon)在他的博客中第一次提出“數(shù)據(jù)湖”(Data Lake)的概念;10年后的今天,在業(yè)界“數(shù)據(jù)中臺(tái)”大火的時(shí)代背景下,再來討論“數(shù)據(jù)湖”,別有一番風(fēng)味。

歷史的演變:從“數(shù)據(jù)倉庫”到“數(shù)據(jù)湖”

在萬物互聯(lián)的時(shí)代,各行各業(yè)、各類設(shè)備和應(yīng)用都在24小時(shí)不間斷產(chǎn)生大量數(shù)據(jù)。IDC統(tǒng)計(jì)顯示,全球近90%的數(shù)據(jù)將在這幾年內(nèi)產(chǎn)生,預(yù)計(jì)到2025年,全球數(shù)據(jù)量將比2016年的16.1ZB增加十倍,達(dá)到163ZB。數(shù)據(jù)的海量與多元化決定了從數(shù)據(jù)中獲取有用的價(jià)值變得越來越困難,如果無法從數(shù)據(jù)中獲得益處,那么數(shù)據(jù)價(jià)值就無從談起。

這時(shí)候,數(shù)據(jù)需要更深度的價(jià)值挖掘。目前,數(shù)據(jù)的價(jià)值呈現(xiàn)兩極化特征,一是及時(shí)發(fā)現(xiàn),實(shí)時(shí)分析快速促進(jìn)業(yè)務(wù)發(fā)展;二是長期存放,數(shù)據(jù)累積起來,探索數(shù)據(jù)后隱藏的規(guī)律,統(tǒng)一分析其價(jià)值,為業(yè)務(wù)發(fā)展提供參考。

新的數(shù)據(jù)價(jià)值給企業(yè)帶來更多智能創(chuàng)新應(yīng)用,比如增長黑客、推薦系統(tǒng),用戶行為分析,AIoT帶來的更多模型,這也意味著IT基礎(chǔ)設(shè)施的變革。

以往的計(jì)算和存儲(chǔ)耦合的架構(gòu)就會(huì)呈現(xiàn)資源利用率非常低的狀況,數(shù)據(jù)是不斷累積、不斷增長,但計(jì)算的算力要求可能是峰谷,為了存儲(chǔ)更多的數(shù)據(jù)購買更多的計(jì)算,擴(kuò)容的時(shí)候必須一起擴(kuò)容,最終導(dǎo)致穩(wěn)定性不是最優(yōu),兩種資源無法獨(dú)立擴(kuò)展,使用成本也不是最優(yōu)。

在傳統(tǒng)架構(gòu)中,原始數(shù)據(jù)統(tǒng)一存放在Hadoop分布式文件系統(tǒng)(HDFS)系統(tǒng)上,引擎以Hadoop和Spark 為主,受到開源軟件本身能力的限制,傳統(tǒng)技術(shù)無法滿足企業(yè)用戶在數(shù)據(jù)規(guī)模、存儲(chǔ)成本、查詢性能以及彈性計(jì)算架構(gòu)升級(jí)等方面的需求。

如果這些多元的數(shù)據(jù)無法被其它應(yīng)用所使用,那么這一過程不可避免地會(huì)形成數(shù)據(jù)孤島,以至于無法滿足數(shù)據(jù)量迅速增長的需求。

傳統(tǒng)數(shù)據(jù)處理方式,就像“一條小河”,里面有ERP、CRM等各種業(yè)務(wù)系統(tǒng),用戶可以設(shè)計(jì)“一個(gè)河道”,數(shù)據(jù)庫在最底層。數(shù)據(jù)經(jīng)過整理后形成中間層的數(shù)據(jù)倉庫,然后通過商務(wù)智能工具(BI)來及進(jìn)行展示。

簡(jiǎn)單理解,在傳統(tǒng)數(shù)據(jù)處理過程中,用戶大概知道能有多少“水”,還可以通過“閘門”管控水量。

但是,在互聯(lián)網(wǎng)時(shí)代,各種各樣的視頻、移動(dòng)終端信息如“洪水猛獸”,形成大規(guī)模的海量數(shù)據(jù),用戶來不及整理和使用。這時(shí),一個(gè)新的設(shè)想打開了人們的視野,假設(shè)有那么一片洼地,沒有河道,所有數(shù)據(jù)先蓄積到里面,然后通過有效的工具進(jìn)行查詢和處理,這便是數(shù)據(jù)湖。

國際研究機(jī)構(gòu)MarketsandMarkets最新研究報(bào)告顯示,到2024年,全球數(shù)據(jù)湖市場(chǎng)將突破200億美元,增至201億美元,復(fù)合年增長率將高達(dá)20.6%??梢哉f,隨著數(shù)據(jù)治理與應(yīng)用需求激增,數(shù)據(jù)湖成為數(shù)據(jù)管理的重要方式已成為不爭(zhēng)的事實(shí)。

對(duì)于數(shù)據(jù)湖而言,有幾個(gè)重要特點(diǎn)。第一,存儲(chǔ)的原始自然數(shù)據(jù),既可以是結(jié)構(gòu)化數(shù)據(jù),也可以是非結(jié)構(gòu)化數(shù)據(jù);第二,因?yàn)槭褂昧嗽朴?jì)算,用戶可以快速縮放海量數(shù)據(jù);第三,在數(shù)據(jù)查詢過程中,除了能進(jìn)行建目錄、數(shù)據(jù)遷移和抽取等動(dòng)作,還能進(jìn)一步歸類、進(jìn)行數(shù)據(jù)分析等等。另外,數(shù)據(jù)湖不僅是高可用、高持久、海量數(shù)據(jù)處理的選擇,同時(shí)還能滿足安全、合規(guī)和審計(jì)等要求。

而對(duì)于用戶來說,借助最新的數(shù)據(jù)湖解決方案,不僅能解決過去的數(shù)據(jù)孤島問題,同時(shí)還能兼容傳統(tǒng)的數(shù)據(jù)倉庫和數(shù)據(jù)分析方法。最重要的是,更適合現(xiàn)代應(yīng)用部署,比如和機(jī)器學(xué)習(xí)結(jié)合,進(jìn)行預(yù)測(cè)性的分析。

數(shù)據(jù)湖與數(shù)據(jù)倉庫并不是替代關(guān)系 湖倉一體化成為新趨勢(shì)

隨著數(shù)據(jù)湖概念的興起,業(yè)界對(duì)于數(shù)據(jù)倉庫和數(shù)據(jù)湖的對(duì)比甚至爭(zhēng)論就一直不斷。有人說數(shù)據(jù)湖是下一代大數(shù)據(jù)平臺(tái),各大云廠商也在紛紛的提出自己的數(shù)據(jù)湖解決方案,一些云數(shù)倉產(chǎn)品也增加了和數(shù)據(jù)湖聯(lián)動(dòng)的特性。不過在我們看來,數(shù)據(jù)湖與數(shù)據(jù)倉庫并不是替代關(guān)系,而是互為補(bǔ)充、相輔相成。

無論是數(shù)據(jù)倉庫,還是數(shù)據(jù)湖,其所要解決的問題離不開數(shù)據(jù)的存儲(chǔ)、調(diào)用、處理、分析、應(yīng)用等。而隨著需求側(cè)的發(fā)展變化,數(shù)據(jù)湖與數(shù)據(jù)倉庫被寄予了更高的期待:如何完成內(nèi)部的統(tǒng)一,從而滿足數(shù)據(jù)訪問使用的靈活性與高性能并舉。

早期業(yè)界認(rèn)為數(shù)據(jù)湖可能將會(huì)是未來的主流趨勢(shì),甚至有數(shù)據(jù)湖代替數(shù)據(jù)倉庫之勢(shì),但隨著新技術(shù)發(fā)展的熱度下降,市場(chǎng)對(duì)數(shù)據(jù)湖的認(rèn)知愈發(fā)理性。畢竟,數(shù)據(jù)倉庫在決策支持和商業(yè)智能應(yīng)用方面有著悠久的歷史。

也因此,湖倉一體化(Lakehouse)正在成為近些年來的熱點(diǎn)。湖倉一體采用開放式架構(gòu),既構(gòu)建于數(shù)據(jù)湖低成本的數(shù)據(jù)存儲(chǔ)架構(gòu)上,同時(shí)具備數(shù)據(jù)倉庫的數(shù)據(jù)處理和管理功能,助力商業(yè)決策。因此,從某種程度上來講,數(shù)據(jù)湖產(chǎn)品的不斷迭代升級(jí)也是在向湖倉一體化趨勢(shì)靠近。隨著企業(yè)及組織不斷上云、數(shù)據(jù)分析需求的激增,湖倉一體化分析方案正在成為下一代數(shù)據(jù)分析系統(tǒng)的核心。

如今,越來越多的企業(yè)開始融合數(shù)據(jù)湖和數(shù)據(jù)倉庫的平臺(tái),不僅可以實(shí)現(xiàn)數(shù)據(jù)倉庫的功能,還實(shí)現(xiàn)了各種不同類型數(shù)據(jù)的處理功能、數(shù)據(jù)科學(xué)、用于發(fā)現(xiàn)新模型的高級(jí)功能。

相比單獨(dú)的數(shù)據(jù)倉庫和數(shù)據(jù)湖,湖倉一體提供完善的數(shù)據(jù)管理能力。數(shù)據(jù)湖中會(huì)存在兩類數(shù)據(jù):原始數(shù)據(jù)和處理后的數(shù)據(jù)。數(shù)據(jù)湖中的數(shù)據(jù)會(huì)不斷的積累、演化,包含數(shù)據(jù)源、數(shù)據(jù)連接、數(shù)據(jù)格式、數(shù)據(jù)schema,對(duì)于數(shù)據(jù)具有一定的權(quán)限管理能力。

其次,湖倉一體為企業(yè)提供全量數(shù)據(jù)的存儲(chǔ)場(chǎng)所,可以對(duì)數(shù)據(jù)的全生命周期進(jìn)行管理,包括數(shù)據(jù)的定義、接入、存儲(chǔ)、處理、分析、應(yīng)用的全過程。一個(gè)強(qiáng)大的數(shù)據(jù)湖,需要能做到對(duì)其間的任意一條數(shù)據(jù)的接入、存儲(chǔ)、處理、消費(fèi)過程是可追溯的,能夠清楚的重現(xiàn)數(shù)據(jù)完整的產(chǎn)生過程和流動(dòng)過程。

一般情況下,數(shù)據(jù)的加載、轉(zhuǎn)換、處理會(huì)使用批處理計(jì)算引擎;需要實(shí)時(shí)計(jì)算的部分,會(huì)使用流式計(jì)算引擎;對(duì)于一些探索式的分析場(chǎng)景,可能又需要引入交互式分析引擎。對(duì)此,湖倉一體擁有豐富的計(jì)算引擎,提供從批處理、流式計(jì)算、交互式分析到機(jī)器學(xué)習(xí)等各類計(jì)算引擎。

湖倉一體本身還內(nèi)置多模態(tài)的存儲(chǔ)引擎,以滿足不同的應(yīng)用對(duì)于數(shù)據(jù)訪問需求。但是,在實(shí)際的使用過程中,為了達(dá)到可接受的性價(jià)比,湖倉一體解決方案提供可插拔式存儲(chǔ)框架,支持的類型有HDFS/S3等, 并且在必要時(shí)還可以與外置存儲(chǔ)引擎協(xié)同工作,滿足多樣化的應(yīng)用需求。

作為全球云計(jì)算巨頭,亞馬遜云科技在數(shù)據(jù)倉庫方面已經(jīng)擁有多款產(chǎn)品,比如:Amazon Redshift,是一個(gè)基于云的重要的數(shù)據(jù)倉庫產(chǎn)品,不僅具有強(qiáng)大的縮放能力,成本也是傳統(tǒng)的數(shù)據(jù)庫的十分之一。還有圖形數(shù)據(jù)庫Amazon Neptune,也在中國成功落地。

近期,亞馬遜云科技又針對(duì)數(shù)據(jù)及數(shù)據(jù)分析等服務(wù)持續(xù)發(fā)力,推出“智能湖倉”架構(gòu)。據(jù)了解,“智能湖倉”架構(gòu)將亞馬遜云科技的數(shù)據(jù)服務(wù)無縫集成,打通數(shù)據(jù)湖和數(shù)據(jù)倉庫之間數(shù)據(jù)移動(dòng)和訪問,并且進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)在數(shù)據(jù)湖、數(shù)據(jù)倉庫,以及在數(shù)據(jù)查詢、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等各類專門構(gòu)建的服務(wù)之間按需移動(dòng),從而形成統(tǒng)一且連續(xù)的整體,滿足客戶各種實(shí)際業(yè)務(wù)場(chǎng)景下的不同需求。

“智能湖倉”架構(gòu)以Amazon Simple Storage Service(Amazon S3)為基礎(chǔ)構(gòu)建數(shù)據(jù)湖,作為中央存儲(chǔ)庫,圍繞數(shù)據(jù)湖集成專門的“數(shù)據(jù)服務(wù)環(huán)”,包括數(shù)據(jù)倉庫、機(jī)器學(xué)習(xí)、大數(shù)據(jù)處理、日志分析等數(shù)據(jù)服務(wù),然后再利用Amazon Lake Formation、Amazon Glue、Amazon Athena、Amazon Redshift Spectrum等工具,實(shí)現(xiàn)數(shù)據(jù)湖的構(gòu)建、數(shù)據(jù)的移動(dòng)和管理等。

從Linux基金會(huì)開啟開源Lakehouse項(xiàng)目、Databricks新添Delta Engine來增強(qiáng)Lakehouse服務(wù)能力,到Apache Iceberg的火熱、AWS Lake Formation等,不難看到,湖倉一體化正在成為主流服務(wù)商們探索的方向。同時(shí),隨著國內(nèi)外廠商們紛紛加入開源生態(tài),推動(dòng)生態(tài)不斷成熟,數(shù)據(jù)湖與數(shù)據(jù)倉的關(guān)聯(lián)正在變得愈發(fā)密切。

不管是大數(shù)據(jù)開發(fā)者,還是企業(yè)大數(shù)據(jù)技術(shù)決策者,都應(yīng)該重新審視數(shù)據(jù)湖和數(shù)據(jù)倉庫的融合應(yīng)用,通過構(gòu)建更強(qiáng)大的業(yè)務(wù)平臺(tái)為企業(yè)減輕運(yùn)營壓力,提高工作效率,讓企業(yè)IT為業(yè)務(wù)創(chuàng)造更多新的可能。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2021-06-30
數(shù)據(jù)如水海納百川,數(shù)據(jù)湖如何成為數(shù)據(jù)治理的新范式?
數(shù)據(jù)如水海納百川,數(shù)據(jù)湖如何成為數(shù)據(jù)治理的新范式?

長按掃碼 閱讀全文