消除數(shù)據(jù)重力,從智能湖倉(Lake House)讀懂實現(xiàn)數(shù)據(jù)價值的未來

忽如一夜春風來,湖倉架構(gòu)似花開。

今年的云計算市場,似乎誰不提湖倉架構(gòu)誰就落伍。為何湖倉架構(gòu)這么火?如今看來,數(shù)據(jù)湖和數(shù)據(jù)倉庫加速互動,看似偶然、其實必然。

曾幾何時,很多用戶因為本地數(shù)據(jù)倉庫方案各種局限性而叫苦不迭;當進入到大數(shù)據(jù)時代,數(shù)據(jù)湖概念興起,人們看到了實現(xiàn)數(shù)據(jù)價值的新途徑,甚至還有廠商發(fā)出用數(shù)據(jù)湖替代傳統(tǒng)數(shù)據(jù)倉庫功能的聲音。

殊不知,數(shù)據(jù)湖與數(shù)據(jù)倉庫從來就不是取代與被取代的關(guān)系。在數(shù)據(jù)湖蓬勃發(fā)展的同時,數(shù)據(jù)倉庫借著云計算的東風,同樣在高速成長與進化。尤其是當我們踐行大數(shù)據(jù)十余載、數(shù)據(jù)價值逐漸深入人心之時,驀然回首愈發(fā)明白:數(shù)據(jù)只有打通、流動、共享才能充分發(fā)揮其價值。

這也是以亞馬遜云科技Lake House為代表的智能湖倉架構(gòu)近年來廣受用戶青睞的原因。數(shù)據(jù)湖與數(shù)據(jù)倉庫既不是非此即彼的二元選擇,也不是永不相交的兩條平行線,無縫流動、彼此補充才是二者最佳歸宿,也是加速挖掘數(shù)據(jù)價值的唯一途徑。

從亞馬遜云科技Lake House智能湖倉架構(gòu),我們真正讀懂了實現(xiàn)數(shù)據(jù)價值的未來。

數(shù)據(jù)湖為何是必然選擇

眾所周知,數(shù)據(jù)已然成為一種關(guān)鍵的生產(chǎn)資料,成為數(shù)字化時代一切運轉(zhuǎn)的基礎(chǔ)。大量基于數(shù)據(jù)驅(qū)動的業(yè)務(wù)場景涌現(xiàn),加速重塑企業(yè)與組織的生產(chǎn)、經(jīng)營、銷售、服務(wù)等業(yè)務(wù)。

以銀行營銷為例,過去更多依賴本地部署的數(shù)據(jù)倉庫解決方案來制定營銷方案,數(shù)據(jù)模型范式有要求、維度單一、實時性差,導(dǎo)致營銷方案分析維度少、業(yè)務(wù)響應(yīng)差,頗像“事后諸葛亮”;而如今的銀行營銷方案,通常構(gòu)建在基于數(shù)據(jù)驅(qū)動的場景之上,會收集用戶各種維度的相關(guān)數(shù)據(jù),采用機器學習不斷學習訓練模型,實現(xiàn)在合適場景、合適時機將合適產(chǎn)品推薦給用戶,并形成數(shù)據(jù)價值閉環(huán),不斷完善模型,實時調(diào)整營銷策略,實現(xiàn)銀行與用戶的雙贏。

一個小小的營銷場景恰恰反映出數(shù)據(jù)湖核心價值所在。自2010年P(guān)entaho CTO James Dixon首次提出數(shù)據(jù)湖概念以來,數(shù)據(jù)湖之所以迅速被人們所認可,核心原因在于它幫助用戶梳理清楚從數(shù)據(jù)存儲、數(shù)據(jù)匯聚到數(shù)據(jù)挖掘的過程,這恰恰是大數(shù)據(jù)時代下實現(xiàn)數(shù)據(jù)價值的關(guān)鍵基礎(chǔ)。

大數(shù)據(jù)時代,海量規(guī)模、類型豐富的數(shù)據(jù)每時每刻都在產(chǎn)生,而數(shù)據(jù)湖作為一個以原始格式存儲數(shù)據(jù)的系統(tǒng),按原樣存儲數(shù)據(jù),無需事先對數(shù)據(jù)進行結(jié)構(gòu)化處理,可以存儲結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及二進制數(shù)據(jù)等,并進行數(shù)據(jù)拉通、消除數(shù)據(jù)孤島,為數(shù)據(jù)分析、機器學習等提供極大便利。

數(shù)據(jù)湖概念深入人心,但數(shù)據(jù)湖落地卻并不是一帆風順,這十年以來各類代表廠商、營銷理念、解決方案層出不窮,失敗案例也不在少數(shù),而近年來真正“撥亂反正”、率先走出數(shù)據(jù)湖價值落地之路則是以亞馬遜云科技為代表的云服務(wù)提供商們。

歸根結(jié)底,云計算的彈性、可擴展性、存算分離等特性,使之與數(shù)據(jù)湖不期而遇時,在技術(shù)層面和使用層面高度契合,成就了實現(xiàn)數(shù)據(jù)價值的一段佳話。

當云與數(shù)據(jù)湖不期而遇

云計算與數(shù)據(jù)湖之所以能成為一對絕佳的CP,數(shù)據(jù)規(guī)模是關(guān)鍵因素。

看一個直觀例子,OpenAI GPT-1模型參數(shù)只有1.1億個,預(yù)訓練數(shù)據(jù)量為5GB,最新的GPT-3模型參數(shù)則高達1750億個,預(yù)訓練數(shù)據(jù)量高達45TB,模型規(guī)模和數(shù)據(jù)量增長了千倍,更何況那些基于AI模型的各種智能應(yīng)用每天所產(chǎn)生的海量數(shù)據(jù)。

基于數(shù)據(jù)驅(qū)動的智慧應(yīng)用爆發(fā),帶來PB級甚至EB級的海量規(guī)模數(shù)據(jù)時,云計算與數(shù)據(jù)湖組合帶來的價值愈發(fā)凸顯:當數(shù)據(jù)規(guī)模越來越大時,計算能力成為關(guān)鍵,而有了云計算的彈性與可擴展,可以讓海量數(shù)據(jù)的存儲與分析更加容易;與此同時,云計算與數(shù)據(jù)湖都廣泛采用分布式架構(gòu)與開源體系,技術(shù)迭代與進化得以加速,適應(yīng)未來數(shù)據(jù)處理的新需求與新變化;另外,在云上構(gòu)建起數(shù)據(jù)湖平臺之后,天然集成更多新技術(shù)與服務(wù),例如更好支撐起機器學習等人工智能技術(shù),實現(xiàn)云數(shù)智的融合。

因此,雖然開源和存儲廠商是數(shù)據(jù)湖概念的先行者,但真正走出落地之路則是以亞馬遜云科技為代表的云服務(wù)商。

以亞馬遜云科技為例,早在2009年就推出了 Amazon Elastic MapReduce(EMR)架構(gòu),實現(xiàn)跨 EC2 實例集群自動配置 HDFS;2012年,亞馬遜云科技推出了具有標志性意義的云數(shù)據(jù)庫倉庫服務(wù)Amazon RedShift;隨后,亞馬遜云科技陸續(xù)打造出Athena、Glue、Lake Formation等一系列核心產(chǎn)品,逐漸形成完整的數(shù)據(jù)湖解決方案。

亞馬遜作為全球最大的互聯(lián)網(wǎng)公司,其數(shù)據(jù)規(guī)模、數(shù)據(jù)復(fù)雜度、數(shù)據(jù)處理難度、數(shù)據(jù)價值挖掘在業(yè)界無出其右,這使得亞馬遜云科技對于數(shù)據(jù)湖的理解、使用以及產(chǎn)品打造等方面往往極具借鑒價值。

例如,數(shù)據(jù)湖構(gòu)建的核心目的是為了數(shù)據(jù)分析與數(shù)據(jù)挖掘,因此快捷的交互式查詢就至關(guān)重要。以Amazon Athena為例,其簡單易用,采用標準SQL 分析 Amazon S3 中的數(shù)據(jù),只需指向開發(fā)者存儲在 S3 中的數(shù)據(jù),定義架構(gòu)即可開始查詢,它無需執(zhí)行復(fù)雜的ETL作業(yè)來為數(shù)據(jù)分析做好準備。

而數(shù)據(jù)湖無需事先對數(shù)據(jù)進行結(jié)構(gòu)化處理,可以按照任何格式存儲數(shù)據(jù),帶來最大的挑戰(zhàn)之一就是查找數(shù)據(jù)并了解數(shù)據(jù)結(jié)構(gòu)和格式,此時數(shù)據(jù)目錄和ETL服務(wù)就至關(guān)重要。以Amazon Glue 服務(wù)為例,其核心解決思路就是為用戶建立起無服務(wù)器架構(gòu)的數(shù)據(jù)目錄和ETL服務(wù),無需用戶自己寫ETL管道,快速完成數(shù)據(jù)的抽取、轉(zhuǎn)換和加載。

此外,構(gòu)建和使用數(shù)據(jù)湖并不是一件輕松的事情,隨著海量數(shù)據(jù)規(guī)模的不斷增加,數(shù)據(jù)湖的建立、配置、管理和使用的復(fù)雜性也會隨之增加,很多用戶對于加載數(shù)據(jù)源、設(shè)置分區(qū)、定義轉(zhuǎn)換作業(yè)等復(fù)雜手動任務(wù)更是深惡痛絕。

此時,云計算的優(yōu)勢再一次凸顯出來。以Amazon Lake Formation為例,開發(fā)者只需手動定義數(shù)據(jù)源,制定要應(yīng)用的數(shù)據(jù)訪問和安全策略,Lake Formation 會自動幫助開發(fā)者從數(shù)據(jù)庫和對象存儲中收集并按目錄分類數(shù)據(jù),再將數(shù)據(jù)移動到新的Amazon S3 數(shù)據(jù)湖,大幅縮短數(shù)據(jù)湖的構(gòu)建時間。

可以說,數(shù)據(jù)湖已經(jīng)不僅僅是一個概念,更代表著過去十年用戶實現(xiàn)數(shù)據(jù)價值的一種進化。在這個過程中,云計算憑借著彈性、可擴展、靈活的特性,不斷屏蔽數(shù)據(jù)湖從建立到使用過程中的各種復(fù)雜性,降低數(shù)據(jù)湖的使用門檻,加速實現(xiàn)數(shù)據(jù)價值的落地。

但這就足夠了么?

攻克最后的壁壘

2020年是一個重要的分水嶺,全球疫情常態(tài)化以及錯綜復(fù)雜的內(nèi)外部環(huán)境,使得企業(yè)無時無刻都面臨著不確定性,數(shù)字化時代的敏捷性和全局視角洞察能力正變得愈發(fā)重要,而數(shù)據(jù)的打通、流動與共享無疑是構(gòu)建起敏捷性和全局視角洞察能力的關(guān)鍵所在。

換句話說,數(shù)據(jù)湖、數(shù)據(jù)倉庫以及其他數(shù)據(jù)存儲方案并不是彼此割裂,而是需要無縫協(xié)同工作,讓數(shù)據(jù)自由流動、共享與使用,讓基于數(shù)據(jù)的決策更加科學與精準。尤其考慮到海量數(shù)據(jù)規(guī)模成為常態(tài)的大背景下,無論是數(shù)據(jù)湖、數(shù)據(jù)倉庫還是其他數(shù)據(jù)存儲方案,其所存儲的數(shù)據(jù)量一直在不斷膨脹,逐漸衍生出一種新的現(xiàn)象:即數(shù)據(jù)往來、移動操作變得愈加復(fù)雜與困難。

亞馬遜云科技將這種現(xiàn)象形象地比喻為“數(shù)據(jù)重力”。毫無疑問,“數(shù)據(jù)重力”是實現(xiàn)數(shù)據(jù)價值的最后壁壘。要想打破壁壘,Amazon Lake House智能湖倉架構(gòu)來圍繞數(shù)據(jù)湖構(gòu)建起專用數(shù)據(jù)閉環(huán),實現(xiàn)以安全且受控的方式在不同數(shù)據(jù)存儲方案之間快速移動數(shù)據(jù)。

事實上,亞馬遜云科技很早就致力于消除數(shù)據(jù)重力現(xiàn)象。早在Amazon Redshift誕生伊始,就允許從數(shù)據(jù)湖S3中導(dǎo)入數(shù)據(jù)進行分析,并且在2017年推出Redshift Spectrum引擎,打通數(shù)據(jù)倉庫對數(shù)據(jù)湖中數(shù)據(jù)的直接訪問;之后,2019年,亞馬遜云科技將redshift spectrum 引擎命名為Lake House引擎;到2020年re:Invent大會上,亞馬遜云科技提出Lake House智能湖倉架構(gòu)。

Lake House智能湖倉架構(gòu)關(guān)鍵之處在于以高度擴展的數(shù)據(jù)湖為核心,構(gòu)建起專用數(shù)據(jù)閉環(huán),實現(xiàn)以安全且受控的方式在不同數(shù)據(jù)存儲方案之間快速移動數(shù)據(jù), 為不同業(yè)務(wù)場景專門構(gòu)建的分析工具或數(shù)據(jù)存儲之間無縫的協(xié)同工作(例如:數(shù)據(jù)倉庫、搜索引擎、機器學習平臺等)。

現(xiàn)實需求情況的確如此如此,例如,用戶有時希望將來自Web應(yīng)用程序的點擊流數(shù)據(jù)直接收集在數(shù)據(jù)湖內(nèi),并將其中部分數(shù)據(jù)移至數(shù)據(jù)倉庫以生成每日報告;用戶有時又希望將特定區(qū)域內(nèi)的產(chǎn)品銷售查詢結(jié)果從數(shù)據(jù)倉庫復(fù)制到數(shù)據(jù)湖內(nèi),進而使用機器學習對大規(guī)模數(shù)據(jù)集運行產(chǎn)品推薦算法。

隨著亞馬遜云科技在2020年Re: Invent上公布一系列新功能,Lake House架構(gòu)逐步形成五大特征:可擴展數(shù)據(jù)湖、專門構(gòu)建的(Purpose-built)分析服務(wù)、無縫數(shù)據(jù)移動、統(tǒng)一數(shù)據(jù)治理、出色的性能與成本效益。

以無縫數(shù)據(jù)移動為例,亞馬遜云科技的無服務(wù)器數(shù)據(jù)集成服務(wù)Glue已經(jīng)日臻成熟,提供數(shù)據(jù)集成所需要的全部功能,自動發(fā)現(xiàn)數(shù)據(jù)并存儲Schema,與亞馬遜云科技上運行的Aurora、RDS、RedShift、S3和數(shù)據(jù)庫引擎天然集成。通過Glue elastic view, 開發(fā)人員使用PartiQL即可在多種數(shù)據(jù)庫及數(shù)據(jù)存儲方案內(nèi)創(chuàng)建物化視圖,幾分鐘就能完成跨數(shù)據(jù)存儲方案的數(shù)據(jù)合并與復(fù)制。

又如,在當今海量數(shù)據(jù)規(guī)模的環(huán)境中,對于數(shù)據(jù)訪問活動的授權(quán)、管理和審計等一系列治理至關(guān)重要。例如,如何實現(xiàn)跨組織內(nèi)各類數(shù)據(jù)存儲方案的安全管理、訪問控制與審計跟蹤,往往因為極其復(fù)雜和耗時讓用戶捉襟見肘。面對這種情況,Lake House架構(gòu)憑借集中訪問控制與策略,輔以列與行層級的過濾等功能,帶來細粒度訪問控制與治理選項,能夠立足單一控制點對跨數(shù)據(jù)湖及專用數(shù)據(jù)存儲系統(tǒng)的訪問行為進行全面管理。

綜合來看,隨著基于數(shù)據(jù)驅(qū)動的智慧應(yīng)用遍地開花,用戶面臨的將是一個數(shù)據(jù)規(guī)模更加龐大、管理更加復(fù)雜的數(shù)據(jù)環(huán)境。面向未來,數(shù)據(jù)湖、數(shù)據(jù)倉庫以及專用分析引擎的協(xié)同運行會更加頻繁,智能湖倉架構(gòu)必然會成為用戶們的首選,而Amazon Lake House無疑將迎來更大的價值舞臺。

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2021-05-27
消除數(shù)據(jù)重力,從智能湖倉(Lake House)讀懂實現(xiàn)數(shù)據(jù)價值的未來
基于數(shù)據(jù)驅(qū)動的智慧應(yīng)用爆發(fā),帶來PB級甚至EB級的海量規(guī)模數(shù)據(jù)時,云計算與數(shù)據(jù)湖組合帶來的價值愈發(fā)凸顯:當數(shù)據(jù)規(guī)模越來越大時,計算能力成為關(guān)鍵,而有了云計算的彈性與可擴展,可以讓海量數(shù)據(jù)的存儲與分析

長按掃碼 閱讀全文