數(shù)據(jù)湖十年風(fēng)雨路,云服務(wù)商緣何脫穎而出

原標(biāo)題:數(shù)據(jù)湖十年風(fēng)雨路,云服務(wù)商緣何脫穎而出

數(shù)據(jù)湖,是一個并不新穎卻越來越被用戶看重的名詞。

從2010年P(guān)entaho公司的創(chuàng)始人兼首席技術(shù)官詹姆斯·狄克遜(James Dixon)首次提出數(shù)據(jù)湖的概念開始,數(shù)據(jù)湖十年發(fā)展之路可謂是兜兜轉(zhuǎn)轉(zhuǎn)、起起伏伏。在這期間,既有開源廠商們提出的各種營銷理念,也有傳統(tǒng)存儲廠商打造的各類解決方案,更有業(yè)界對于數(shù)據(jù)湖帶來的數(shù)據(jù)沼澤、數(shù)據(jù)價值探索等問題的深入思考。

時至如今,數(shù)據(jù)湖雖然經(jīng)歷了各種各樣的“挫折”,但是數(shù)據(jù)湖在數(shù)字化時代給用戶帶來的價值已經(jīng)愈發(fā)清晰。而率先幫助用戶走出數(shù)據(jù)湖價值落地之路的,不是開源廠商,也不是傳統(tǒng)存儲廠商,恰恰是以AWS為代表的云服務(wù)提供商們。

這背后有何緣由?這一切還得從數(shù)據(jù)湖的本質(zhì)談起。

數(shù)據(jù)湖的價值凸顯

維基百科對于數(shù)據(jù)湖的定義是:“Data Lake是一個以原始格式存儲數(shù)據(jù)的存儲庫或系統(tǒng)。它按原樣存儲數(shù)據(jù),而無需事先對數(shù)據(jù)進行結(jié)構(gòu)化處理。一個數(shù)據(jù)湖可以存儲結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及二進制數(shù)據(jù)等?!?/p>

數(shù)據(jù)湖最大的價值在于可以幫助用戶梳理清楚從數(shù)據(jù)存儲、數(shù)據(jù)匯聚到數(shù)據(jù)挖掘這些過程。比如,相比于數(shù)據(jù)倉庫對于數(shù)據(jù)協(xié)作有規(guī)則限制,數(shù)據(jù)湖對于數(shù)據(jù)寫入沒有限制,可以更容易的收集數(shù)據(jù);數(shù)據(jù)湖可以匯聚來自各種數(shù)據(jù)源的數(shù)據(jù),并進行數(shù)據(jù)拉通,從而消除數(shù)據(jù)孤島的問題;而數(shù)據(jù)湖中存放著最原始的數(shù)據(jù)則更加有利于數(shù)據(jù)價值的挖掘。

千萬不要小看數(shù)據(jù)湖所能完成的這些數(shù)據(jù)處理過程。這些都是用戶們在數(shù)字化時代發(fā)揮數(shù)據(jù)價值所必不可少的基礎(chǔ)。時至今日,數(shù)據(jù)其實已經(jīng)成為數(shù)字化時代的一種最為重要的生產(chǎn)資料,數(shù)據(jù)正在加速重塑企業(yè)與組織的生產(chǎn)、經(jīng)營、銷售、服務(wù)等流程,就如AWS首席云計算企業(yè)戰(zhàn)略顧問張俠所指出的:“在當(dāng)今企業(yè)中,數(shù)據(jù)流就是企業(yè)的血液流,企業(yè)的數(shù)字化轉(zhuǎn)型很重要的一個方向就是把數(shù)字化的資產(chǎn)好好利用起來?!?/p>

數(shù)據(jù)湖成為大勢所趨

與此同時,數(shù)據(jù)湖在過去十年并不缺乏產(chǎn)品與解決方案,為何數(shù)據(jù)湖失敗的案例依然不少,為何又是以AWS為代表的云服務(wù)提供商們率先走在數(shù)據(jù)湖解決方案落地的最前沿?

事實上,作為很早推動數(shù)據(jù)湖服務(wù)的公司,AWS的數(shù)據(jù)湖解決方案成功并不是偶然。首先,Amazon作為全球最大的互聯(lián)網(wǎng)公司之一,其數(shù)據(jù)規(guī)模、數(shù)據(jù)復(fù)雜度、數(shù)據(jù)處理難度、數(shù)據(jù)價值挖掘在業(yè)界無出其右,由于背靠Amazon,AWS數(shù)據(jù)湖解決方案天然就得到了不斷的歷練,比如Amazon內(nèi)部一個數(shù)據(jù)湖部署--Galaxy,就存儲了超過50PB的數(shù)據(jù)量,每天進行著多達60萬的數(shù)據(jù)分析任務(wù)。

其次,AWS數(shù)據(jù)湖在產(chǎn)品技術(shù)層面進行了持續(xù)的提升與完善,其產(chǎn)品組合的成熟度和豐富程度走在了業(yè)界的前列。舉個例子,大部分?jǐn)?shù)據(jù)湖解決方案都是基于開源Hadoop的,但之前Hadoop集群的計算和存儲緊耦合架構(gòu),使得數(shù)據(jù)湖架構(gòu)的擴展成本高、效率低;而AWS在構(gòu)建數(shù)據(jù)湖解決方案時候,很重要的一個選擇就是讓計算與存儲分離,在存儲上采用S3對象存儲服務(wù),從而讓數(shù)據(jù)湖解決方案可以更好地應(yīng)用在用戶業(yè)務(wù)領(lǐng)域。

另外,AWS作為云計算市場的龍頭,其公有云的環(huán)境也有利于數(shù)據(jù)湖解決方案的部署,在過去十年中為多個不同行業(yè)、不同規(guī)模的用戶提供相關(guān)的數(shù)據(jù)湖服務(wù),積累了豐富的用戶實踐經(jīng)驗。

在產(chǎn)品、解決方案以及用戶實踐上的領(lǐng)先其實就是AWS在數(shù)據(jù)湖領(lǐng)域脫穎而出的秘訣所在。

十年之后,AWS描繪出數(shù)據(jù)湖全景圖

從十年前的概念到如今被越來越多行業(yè)用戶所認同和采用,數(shù)據(jù)湖如今不再只是一個名詞,它更代表著一種進化,它是過去十年數(shù)字化驅(qū)動下,用戶在數(shù)據(jù)層面的需求、技術(shù)、產(chǎn)品不斷進化的一個縮影。

過去十年移動化、社交化帶來了數(shù)據(jù)指數(shù)級增長、數(shù)據(jù)來源廣泛化、數(shù)據(jù)類型多元化,而像5G、物聯(lián)網(wǎng)、邊緣計算的興起,只會加劇數(shù)據(jù)應(yīng)用的趨勢,并且會讓現(xiàn)代數(shù)據(jù)應(yīng)用的復(fù)雜性進一步提升,這恰恰反映出用戶過去十年對數(shù)據(jù)應(yīng)用的需求不斷驅(qū)動著數(shù)據(jù)湖走向落地。

在技術(shù)層面來看,云計算、大數(shù)據(jù)以及人工智能具備天然融合在一起的屬性,云計算無疑是過去十年對整個IT產(chǎn)業(yè)界帶來最大變革的技術(shù),它的彈性、靈活為數(shù)據(jù)湖帶來了堅實的基礎(chǔ);而人工智能在過去幾年取得突破性的發(fā)展,使之成為驅(qū)動數(shù)據(jù)湖發(fā)展的最大驅(qū)動力之一。

而過去十年也是數(shù)據(jù)湖產(chǎn)品與解決方案不斷走向成熟的十年。像AWS這樣的供應(yīng)商已經(jīng)逐步打造出非常全面與完善的數(shù)據(jù)湖解決方案,可以涵蓋從數(shù)據(jù)收集、匯聚到分析、應(yīng)用、可視化等方方面面?!皵?shù)據(jù)湖從2014年進入了發(fā)展的第二個階段。以AWS為例,圍繞數(shù)據(jù)湖相關(guān)的技術(shù)、產(chǎn)品已經(jīng)基本成熟?!睆垈b如是說。

根據(jù)介紹,AWS數(shù)據(jù)湖平臺包括了數(shù)據(jù)倉庫、大數(shù)據(jù)處理、交互查詢、運營分析、數(shù)據(jù)交換、可視化、實時分析、推薦、預(yù)測分析。事實上,AWS這種全面的數(shù)據(jù)湖生態(tài)完整覆蓋了數(shù)據(jù)湖的數(shù)據(jù)收集、存儲、分析、應(yīng)用四個階段,并且這些產(chǎn)品、工具以及服務(wù)彼此之間并不是孤立的,互相配合可以達到更加出色效果,快速、便捷地幫助用戶構(gòu)建起數(shù)據(jù)湖相關(guān)應(yīng)用。

AWS擁有涵蓋全面的數(shù)據(jù)分析組件

在AWS 數(shù)據(jù)湖平臺中有很多非常出色的組件,可以幫助用戶解決數(shù)據(jù)湖中典型的挑戰(zhàn)。比如,Amazon EMR大數(shù)據(jù)處理組件,可以在AWS上輕松運行Spark、Hadoop、Hive等大數(shù)據(jù)分析。EMR解決了開源生態(tài)集群部署與維護升級繁雜的痛點,這對于用戶快速應(yīng)用數(shù)據(jù)湖開源產(chǎn)品與工具大有裨益,

而 Amazon Redshift是一款性能優(yōu)秀、強大、使用簡單、全托管的數(shù)據(jù)倉庫服務(wù),可以輕松進行大規(guī)模并行處理,支持TB級規(guī)模數(shù)據(jù)的擴展,可以通過Spectrum引起將查詢擴展到Amazon S3,與數(shù)據(jù)湖集成可以進行EB級的數(shù)據(jù)湖分析。

其他像Amazon Kinesis、AWS Lake Formation、Amazon Aurora、Amazon S3等都是AWS上深受用戶喜歡的產(chǎn)品與服務(wù)。張俠認為:“數(shù)據(jù)湖在云計算時代得以快速發(fā)展,它發(fā)展到現(xiàn)在已經(jīng)包含了所有的數(shù)據(jù)庫、數(shù)據(jù)倉庫等服務(wù),是企業(yè)數(shù)據(jù)體系的基礎(chǔ)。數(shù)據(jù)湖其實比國內(nèi)流行的數(shù)據(jù)中臺更加全面,任何想構(gòu)建數(shù)據(jù)中臺的企業(yè)其實都可以在AWS找到全面的解決方案?!?/p>

多款新品落地,AWS加速中國數(shù)據(jù)湖應(yīng)用

在中國市場,各個行業(yè)用戶對于數(shù)據(jù)湖也是經(jīng)歷了一個從認知到認可的過程。張俠坦言,當(dāng)前中國市場的數(shù)據(jù)湖應(yīng)用依然處于早期階段,整個市場有著非常大的潛力。

中國數(shù)據(jù)湖市場之所以是一個重要且廣闊的市場,無外乎三點:

首先,中國對于數(shù)字經(jīng)濟的重視程度超乎想象,從國家政策還是企業(yè)自身都對于發(fā)展數(shù)字經(jīng)濟有著廣泛的共識,數(shù)字經(jīng)濟加速推動了各個行業(yè)的數(shù)字化進程。根據(jù)IDC《數(shù)據(jù)時代2025》白皮書預(yù)測,中國數(shù)據(jù)量預(yù)計在未來7年將每年平均增長30%,位居世界第一,隨之而來的就是對于數(shù)據(jù)存儲、匯聚、分析越來越多的需求。

其次,在經(jīng)歷了多年的“企業(yè)上云”之后,各行各業(yè)對于云計算的認知和認可已經(jīng)形成,在企業(yè)加速上云這個過程中,數(shù)據(jù)湖作為與云計算天然緊密聯(lián)系在一起的應(yīng)用,其實已經(jīng)具備了非常好的基礎(chǔ)設(shè)施環(huán)境,用戶在上云之后逐步采用數(shù)據(jù)湖服務(wù)也是順勢而為。

再次,中國市場在5G、人工智能、物聯(lián)網(wǎng)等領(lǐng)域的步伐快速,尤其是5G商用所帶來的云計算、通信、大數(shù)據(jù)、人工智能等多項技術(shù)走向融合,未來在各個行業(yè)中會催生出更多新的現(xiàn)代化數(shù)據(jù)應(yīng)用場景,數(shù)據(jù)湖在這個過程中將會起到重要的支撐作用。

AWS在數(shù)據(jù)湖領(lǐng)域深厚的積累有助于推動中國數(shù)據(jù)湖應(yīng)用落地

據(jù)悉,針對中國市場,AWS近期在中國兩個區(qū)域陸續(xù)上線了多款重磅級的新產(chǎn)品與新服務(wù),其中就包括AWS Glue和Amazon Athena兩款跟數(shù)據(jù)湖相關(guān)的服務(wù)。張俠透露:“AWS中國之后會陸續(xù)上線數(shù)據(jù)湖相關(guān)的產(chǎn)品與服務(wù)。隨著越來越多服務(wù)落地中國,中國區(qū)用戶可以在短短幾天之內(nèi)完成數(shù)據(jù)湖的建立工作?!?/p>

例如,AWS Glue是數(shù)據(jù)湖應(yīng)用中一款非常重要的服務(wù),它可以幫助用戶建立起無服務(wù)器架構(gòu)的數(shù)據(jù)目錄和ETL服務(wù),自動發(fā)現(xiàn)數(shù)據(jù)并存儲Schema,與AWS上運行的Aurora、RDS、Redshift、S3和數(shù)據(jù)庫引擎天然集成,這將給用戶在使用數(shù)據(jù)湖帶來巨大好處。舉個例子,用戶之前想將數(shù)據(jù)導(dǎo)入Redshift云數(shù)據(jù)倉庫,之前需要自己寫ETL管道,非常不方便,如今有了AWS Glue能夠快速完成數(shù)據(jù)的抽取、轉(zhuǎn)換和加載。

“中國市場的確是到了該好好研究與使用數(shù)據(jù)湖的階段了,尤其是5G、邊緣計算應(yīng)用上來之后,在數(shù)據(jù)層面更應(yīng)該匹配走數(shù)據(jù)湖這條路?!睆垈b最后表示道。

總體而言,數(shù)據(jù)湖一晃已經(jīng)走過了十年,從一個概念逐步走向落地。在這十年中,以AWS為代表云服務(wù)提供商們真是洞悉了用戶在數(shù)據(jù)湖上的需求,并且圍繞數(shù)據(jù)湖打造出來的一系列全面的產(chǎn)品體系,使得數(shù)據(jù)湖真正走出了一條價值之路。

十年意味著一個階段的結(jié)束,也預(yù)示著下一個階段的開啟。數(shù)據(jù)湖在未來會有更大的舞臺。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2020-04-08
數(shù)據(jù)湖十年風(fēng)雨路,云服務(wù)商緣何脫穎而出
在技術(shù)層面來看,云計算、大數(shù)據(jù)以及人工智能具備天然融合在一起的屬性,云計算無疑是過去十年對整個IT產(chǎn)業(yè)界帶來最大變革的技術(shù),它的彈性、靈活為數(shù)據(jù)湖帶來了堅實的基礎(chǔ);而人工智能在過去幾年取得突破性的發(fā)展

長按掃碼 閱讀全文