消除數(shù)據(jù)重力,從智能湖倉(Lake House)讀懂實(shí)現(xiàn)數(shù)據(jù)價(jià)值的未來

原標(biāo)題:消除數(shù)據(jù)重力,從智能湖倉(Lake House)讀懂實(shí)現(xiàn)數(shù)據(jù)價(jià)值的未來

忽如一夜春風(fēng)來,湖倉架構(gòu)似花開。

今年的云計(jì)算市場(chǎng),似乎誰不提湖倉架構(gòu)誰就落伍。為何湖倉架構(gòu)這么火?如今看來,數(shù)據(jù)湖和數(shù)據(jù)倉庫加速互動(dòng),看似偶然、其實(shí)必然。

曾幾何時(shí),很多用戶因?yàn)楸镜財(cái)?shù)據(jù)倉庫方案各種局限性而叫苦不迭;當(dāng)進(jìn)入到大數(shù)據(jù)時(shí)代,數(shù)據(jù)湖概念興起,人們看到了實(shí)現(xiàn)數(shù)據(jù)價(jià)值的新途徑,甚至還有廠商發(fā)出用數(shù)據(jù)湖替代傳統(tǒng)數(shù)據(jù)倉庫功能的聲音。

殊不知,數(shù)據(jù)湖與數(shù)據(jù)倉庫從來就不是取代與被取代的關(guān)系。在數(shù)據(jù)湖蓬勃發(fā)展的同時(shí),數(shù)據(jù)倉庫借著云計(jì)算的東風(fēng),同樣在高速成長與進(jìn)化。尤其是當(dāng)我們踐行大數(shù)據(jù)十余載、數(shù)據(jù)價(jià)值逐漸深入人心之時(shí),驀然回首愈發(fā)明白:數(shù)據(jù)只有打通、流動(dòng)、共享才能充分發(fā)揮其價(jià)值。

這也是以亞馬遜云科技Lake House為代表的智能湖倉架構(gòu)近年來廣受用戶青睞的原因。數(shù)據(jù)湖與數(shù)據(jù)倉庫既不是非此即彼的二元選擇,也不是永不相交的兩條平行線,無縫流動(dòng)、彼此補(bǔ)充才是二者最佳歸宿,也是加速挖掘數(shù)據(jù)價(jià)值的唯一途徑。

從亞馬遜云科技Lake House智能湖倉架構(gòu),我們真正讀懂了實(shí)現(xiàn)數(shù)據(jù)價(jià)值的未來。

數(shù)據(jù)湖為何是必然選擇

眾所周知,數(shù)據(jù)已然成為一種關(guān)鍵的生產(chǎn)資料,成為數(shù)字化時(shí)代一切運(yùn)轉(zhuǎn)的基礎(chǔ)。大量基于數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)場(chǎng)景涌現(xiàn),加速重塑企業(yè)與組織的生產(chǎn)、經(jīng)營、銷售、服務(wù)等業(yè)務(wù)。

以銀行營銷為例,過去更多依賴本地部署的數(shù)據(jù)倉庫解決方案來制定營銷方案,數(shù)據(jù)模型范式有要求、維度單一、實(shí)時(shí)性差,導(dǎo)致營銷方案分析維度少、業(yè)務(wù)響應(yīng)差,頗像“事后諸葛亮”;而如今的銀行營銷方案,通常構(gòu)建在基于數(shù)據(jù)驅(qū)動(dòng)的場(chǎng)景之上,會(huì)收集用戶各種維度的相關(guān)數(shù)據(jù),采用機(jī)器學(xué)習(xí)不斷學(xué)習(xí)訓(xùn)練模型,實(shí)現(xiàn)在合適場(chǎng)景、合適時(shí)機(jī)將合適產(chǎn)品推薦給用戶,并形成數(shù)據(jù)價(jià)值閉環(huán),不斷完善模型,實(shí)時(shí)調(diào)整營銷策略,實(shí)現(xiàn)銀行與用戶的雙贏。

一個(gè)小小的營銷場(chǎng)景恰恰反映出數(shù)據(jù)湖核心價(jià)值所在。自2010年P(guān)entaho CTO James Dixon首次提出數(shù)據(jù)湖概念以來,數(shù)據(jù)湖之所以迅速被人們所認(rèn)可,核心原因在于它幫助用戶梳理清楚從數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)匯聚到數(shù)據(jù)挖掘的過程,這恰恰是大數(shù)據(jù)時(shí)代下實(shí)現(xiàn)數(shù)據(jù)價(jià)值的關(guān)鍵基礎(chǔ)。

大數(shù)據(jù)時(shí)代,海量規(guī)模、類型豐富的數(shù)據(jù)每時(shí)每刻都在產(chǎn)生,而數(shù)據(jù)湖作為一個(gè)以原始格式存儲(chǔ)數(shù)據(jù)的系統(tǒng),按原樣存儲(chǔ)數(shù)據(jù),無需事先對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,可以存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及二進(jìn)制數(shù)據(jù)等,并進(jìn)行數(shù)據(jù)拉通、消除數(shù)據(jù)孤島,為數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等提供極大便利。

數(shù)據(jù)湖概念深入人心,但數(shù)據(jù)湖落地卻并不是一帆風(fēng)順,這十年以來各類代表廠商、營銷理念、解決方案層出不窮,失敗案例也不在少數(shù),而近年來真正“撥亂反正”、率先走出數(shù)據(jù)湖價(jià)值落地之路則是以亞馬遜云科技為代表的云服務(wù)提供商們。

歸根結(jié)底,云計(jì)算的彈性、可擴(kuò)展性、存算分離等特性,使之與數(shù)據(jù)湖不期而遇時(shí),在技術(shù)層面和使用層面高度契合,成就了實(shí)現(xiàn)數(shù)據(jù)價(jià)值的一段佳話。

當(dāng)云與數(shù)據(jù)湖不期而遇

云計(jì)算與數(shù)據(jù)湖之所以能成為一對(duì)絕佳的CP,數(shù)據(jù)規(guī)模是關(guān)鍵因素。

看一個(gè)直觀例子,OpenAI GPT-1模型參數(shù)只有1.1億個(gè),預(yù)訓(xùn)練數(shù)據(jù)量為5GB,最新的GPT-3模型參數(shù)則高達(dá)1750億個(gè),預(yù)訓(xùn)練數(shù)據(jù)量高達(dá)45TB,模型規(guī)模和數(shù)據(jù)量增長了千倍,更何況那些基于AI模型的各種智能應(yīng)用每天所產(chǎn)生的海量數(shù)據(jù)。

基于數(shù)據(jù)驅(qū)動(dòng)的智慧應(yīng)用爆發(fā),帶來PB級(jí)甚至EB級(jí)的海量規(guī)模數(shù)據(jù)時(shí),云計(jì)算與數(shù)據(jù)湖組合帶來的價(jià)值愈發(fā)凸顯:當(dāng)數(shù)據(jù)規(guī)模越來越大時(shí),計(jì)算能力成為關(guān)鍵,而有了云計(jì)算的彈性與可擴(kuò)展,可以讓海量數(shù)據(jù)的存儲(chǔ)與分析更加容易;與此同時(shí),云計(jì)算與數(shù)據(jù)湖都廣泛采用分布式架構(gòu)與開源體系,技術(shù)迭代與進(jìn)化得以加速,適應(yīng)未來數(shù)據(jù)處理的新需求與新變化;另外,在云上構(gòu)建起數(shù)據(jù)湖平臺(tái)之后,天然集成更多新技術(shù)與服務(wù),例如更好支撐起機(jī)器學(xué)習(xí)等人工智能技術(shù),實(shí)現(xiàn)云數(shù)智的融合。

因此,雖然開源和存儲(chǔ)廠商是數(shù)據(jù)湖概念的先行者,但真正走出落地之路則是以亞馬遜云科技為代表的云服務(wù)商。

以亞馬遜云科技為例,早在2009年就推出了 Amazon Elastic MapReduce(EMR)架構(gòu),實(shí)現(xiàn)跨 EC2 實(shí)例集群自動(dòng)配置 HDFS;2012年,亞馬遜云科技推出了具有標(biāo)志性意義的云數(shù)據(jù)庫倉庫服務(wù)Amazon RedShift;隨后,亞馬遜云科技陸續(xù)打造出Athena、Glue、Lake Formation等一系列核心產(chǎn)品,逐漸形成完整的數(shù)據(jù)湖解決方案。

亞馬遜作為全球最大的互聯(lián)網(wǎng)公司,其數(shù)據(jù)規(guī)模、數(shù)據(jù)復(fù)雜度、數(shù)據(jù)處理難度、數(shù)據(jù)價(jià)值挖掘在業(yè)界無出其右,這使得亞馬遜云科技對(duì)于數(shù)據(jù)湖的理解、使用以及產(chǎn)品打造等方面往往極具借鑒價(jià)值。

例如,數(shù)據(jù)湖構(gòu)建的核心目的是為了數(shù)據(jù)分析與數(shù)據(jù)挖掘,因此快捷的交互式查詢就至關(guān)重要。以Amazon Athena為例,其簡單易用,采用標(biāo)準(zhǔn)SQL 分析 Amazon S3 中的數(shù)據(jù),只需指向開發(fā)者存儲(chǔ)在 S3 中的數(shù)據(jù),定義架構(gòu)即可開始查詢,它無需執(zhí)行復(fù)雜的ETL作業(yè)來為數(shù)據(jù)分析做好準(zhǔn)備。

而數(shù)據(jù)湖無需事先對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,可以按照任何格式存儲(chǔ)數(shù)據(jù),帶來最大的挑戰(zhàn)之一就是查找數(shù)據(jù)并了解數(shù)據(jù)結(jié)構(gòu)和格式,此時(shí)數(shù)據(jù)目錄和ETL服務(wù)就至關(guān)重要。以Amazon Glue 服務(wù)為例,其核心解決思路就是為用戶建立起無服務(wù)器架構(gòu)的數(shù)據(jù)目錄和ETL服務(wù),無需用戶自己寫ETL管道,快速完成數(shù)據(jù)的抽取、轉(zhuǎn)換和加載。

此外,構(gòu)建和使用數(shù)據(jù)湖并不是一件輕松的事情,隨著海量數(shù)據(jù)規(guī)模的不斷增加,數(shù)據(jù)湖的建立、配置、管理和使用的復(fù)雜性也會(huì)隨之增加,很多用戶對(duì)于加載數(shù)據(jù)源、設(shè)置分區(qū)、定義轉(zhuǎn)換作業(yè)等復(fù)雜手動(dòng)任務(wù)更是深惡痛絕。

此時(shí),云計(jì)算的優(yōu)勢(shì)再一次凸顯出來。以Amazon Lake Formation為例,開發(fā)者只需手動(dòng)定義數(shù)據(jù)源,制定要應(yīng)用的數(shù)據(jù)訪問和安全策略,Lake Formation 會(huì)自動(dòng)幫助開發(fā)者從數(shù)據(jù)庫和對(duì)象存儲(chǔ)中收集并按目錄分類數(shù)據(jù),再將數(shù)據(jù)移動(dòng)到新的Amazon S3 數(shù)據(jù)湖,大幅縮短數(shù)據(jù)湖的構(gòu)建時(shí)間。

可以說,數(shù)據(jù)湖已經(jīng)不僅僅是一個(gè)概念,更代表著過去十年用戶實(shí)現(xiàn)數(shù)據(jù)價(jià)值的一種進(jìn)化。在這個(gè)過程中,云計(jì)算憑借著彈性、可擴(kuò)展、靈活的特性,不斷屏蔽數(shù)據(jù)湖從建立到使用過程中的各種復(fù)雜性,降低數(shù)據(jù)湖的使用門檻,加速實(shí)現(xiàn)數(shù)據(jù)價(jià)值的落地。

但這就足夠了么?

攻克最后的壁壘

2020年是一個(gè)重要的分水嶺,全球疫情常態(tài)化以及錯(cuò)綜復(fù)雜的內(nèi)外部環(huán)境,使得企業(yè)無時(shí)無刻都面臨著不確定性,數(shù)字化時(shí)代的敏捷性和全局視角洞察能力正變得愈發(fā)重要,而數(shù)據(jù)的打通、流動(dòng)與共享無疑是構(gòu)建起敏捷性和全局視角洞察能力的關(guān)鍵所在。

換句話說,數(shù)據(jù)湖、數(shù)據(jù)倉庫以及其他數(shù)據(jù)存儲(chǔ)方案并不是彼此割裂,而是需要無縫協(xié)同工作,讓數(shù)據(jù)自由流動(dòng)、共享與使用,讓基于數(shù)據(jù)的決策更加科學(xué)與精準(zhǔn)。尤其考慮到海量數(shù)據(jù)規(guī)模成為常態(tài)的大背景下,無論是數(shù)據(jù)湖、數(shù)據(jù)倉庫還是其他數(shù)據(jù)存儲(chǔ)方案,其所存儲(chǔ)的數(shù)據(jù)量一直在不斷膨脹,逐漸衍生出一種新的現(xiàn)象:即數(shù)據(jù)往來、移動(dòng)操作變得愈加復(fù)雜與困難。

亞馬遜云科技將這種現(xiàn)象形象地比喻為“數(shù)據(jù)重力”。毫無疑問,“數(shù)據(jù)重力”是實(shí)現(xiàn)數(shù)據(jù)價(jià)值的最后壁壘。要想打破壁壘,Amazon Lake House智能湖倉架構(gòu)來圍繞數(shù)據(jù)湖構(gòu)建起專用數(shù)據(jù)閉環(huán),實(shí)現(xiàn)以安全且受控的方式在不同數(shù)據(jù)存儲(chǔ)方案之間快速移動(dòng)數(shù)據(jù)。

事實(shí)上,亞馬遜云科技很早就致力于消除數(shù)據(jù)重力現(xiàn)象。早在Amazon Redshift誕生伊始,就允許從數(shù)據(jù)湖S3中導(dǎo)入數(shù)據(jù)進(jìn)行分析,并且在2017年推出Redshift Spectrum引擎,打通數(shù)據(jù)倉庫對(duì)數(shù)據(jù)湖中數(shù)據(jù)的直接訪問;之后,2019年,亞馬遜云科技將redshift spectrum 引擎命名為Lake House引擎;到2020年re:Invent大會(huì)上,亞馬遜云科技提出Lake House智能湖倉架構(gòu)。

Lake House智能湖倉架構(gòu)關(guān)鍵之處在于以高度擴(kuò)展的數(shù)據(jù)湖為核心,構(gòu)建起專用數(shù)據(jù)閉環(huán),實(shí)現(xiàn)以安全且受控的方式在不同數(shù)據(jù)存儲(chǔ)方案之間快速移動(dòng)數(shù)據(jù), 為不同業(yè)務(wù)場(chǎng)景專門構(gòu)建的分析工具或數(shù)據(jù)存儲(chǔ)之間無縫的協(xié)同工作(例如:數(shù)據(jù)倉庫、搜索引擎、機(jī)器學(xué)習(xí)平臺(tái)等)。

現(xiàn)實(shí)需求情況的確如此如此,例如,用戶有時(shí)希望將來自Web應(yīng)用程序的點(diǎn)擊流數(shù)據(jù)直接收集在數(shù)據(jù)湖內(nèi),并將其中部分?jǐn)?shù)據(jù)移至數(shù)據(jù)倉庫以生成每日?qǐng)?bào)告;用戶有時(shí)又希望將特定區(qū)域內(nèi)的產(chǎn)品銷售查詢結(jié)果從數(shù)據(jù)倉庫復(fù)制到數(shù)據(jù)湖內(nèi),進(jìn)而使用機(jī)器學(xué)習(xí)對(duì)大規(guī)模數(shù)據(jù)集運(yùn)行產(chǎn)品推薦算法。

隨著亞馬遜云科技在2020年Re: Invent上公布一系列新功能,Lake House架構(gòu)逐步形成五大特征:可擴(kuò)展數(shù)據(jù)湖、專門構(gòu)建的(Purpose-built)分析服務(wù)、無縫數(shù)據(jù)移動(dòng)、統(tǒng)一數(shù)據(jù)治理、出色的性能與成本效益。

以無縫數(shù)據(jù)移動(dòng)為例,亞馬遜云科技的無服務(wù)器數(shù)據(jù)集成服務(wù)Glue已經(jīng)日臻成熟,提供數(shù)據(jù)集成所需要的全部功能,自動(dòng)發(fā)現(xiàn)數(shù)據(jù)并存儲(chǔ)Schema,與亞馬遜云科技上運(yùn)行的Aurora、RDS、RedShift、S3和數(shù)據(jù)庫引擎天然集成。通過Glue elastic view, 開發(fā)人員使用PartiQL即可在多種數(shù)據(jù)庫及數(shù)據(jù)存儲(chǔ)方案內(nèi)創(chuàng)建物化視圖,幾分鐘就能完成跨數(shù)據(jù)存儲(chǔ)方案的數(shù)據(jù)合并與復(fù)制。

又如,在當(dāng)今海量數(shù)據(jù)規(guī)模的環(huán)境中,對(duì)于數(shù)據(jù)訪問活動(dòng)的授權(quán)、管理和審計(jì)等一系列治理至關(guān)重要。例如,如何實(shí)現(xiàn)跨組織內(nèi)各類數(shù)據(jù)存儲(chǔ)方案的安全管理、訪問控制與審計(jì)跟蹤,往往因?yàn)闃O其復(fù)雜和耗時(shí)讓用戶捉襟見肘。面對(duì)這種情況,Lake House架構(gòu)憑借集中訪問控制與策略,輔以列與行層級(jí)的過濾等功能,帶來細(xì)粒度訪問控制與治理選項(xiàng),能夠立足單一控制點(diǎn)對(duì)跨數(shù)據(jù)湖及專用數(shù)據(jù)存儲(chǔ)系統(tǒng)的訪問行為進(jìn)行全面管理。

綜合來看,隨著基于數(shù)據(jù)驅(qū)動(dòng)的智慧應(yīng)用遍地開花,用戶面臨的將是一個(gè)數(shù)據(jù)規(guī)模更加龐大、管理更加復(fù)雜的數(shù)據(jù)環(huán)境。面向未來,數(shù)據(jù)湖、數(shù)據(jù)倉庫以及專用分析引擎的協(xié)同運(yùn)行會(huì)更加頻繁,智能湖倉架構(gòu)必然會(huì)成為用戶們的首選,而Amazon Lake House無疑將迎來更大的價(jià)值舞臺(tái)。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2021-05-27
消除數(shù)據(jù)重力,從智能湖倉(Lake House)讀懂實(shí)現(xiàn)數(shù)據(jù)價(jià)值的未來
基于數(shù)據(jù)驅(qū)動(dòng)的智慧應(yīng)用爆發(fā),帶來PB級(jí)甚至EB級(jí)的海量規(guī)模數(shù)據(jù)時(shí),云計(jì)算與數(shù)據(jù)湖組合帶來的價(jià)值愈發(fā)凸顯:當(dāng)數(shù)據(jù)規(guī)模越來越大時(shí),計(jì)算能力成為關(guān)鍵,而有了云計(jì)算的彈性與可擴(kuò)展,可以讓海量數(shù)據(jù)的存儲(chǔ)與分析

長按掃碼 閱讀全文