為什么說云原生數(shù)據(jù)湖正在成為首選?

原標題:為什么說云原生數(shù)據(jù)湖正在成為首選?

“因為疫情的原因,銀行業(yè)務(wù)線上化、數(shù)字化的趨勢明顯加快,基于數(shù)據(jù)驅(qū)動的業(yè)務(wù)場景不斷涌現(xiàn),業(yè)務(wù)變化多、彈性大、需要快速響應(yīng),數(shù)據(jù)量大、類型豐富,所以我們開始借助云原生數(shù)據(jù)湖服務(wù)實現(xiàn)對各類業(yè)務(wù)的快速支持。”一個城商行數(shù)據(jù)部主任去年向大數(shù)據(jù)在線如是說。

的確,隨著千行百業(yè)數(shù)字化轉(zhuǎn)型的深入,數(shù)據(jù)已經(jīng)成為最重要的生產(chǎn)要素,猶如數(shù)字化時代的“石油”。不過,就像石油需要經(jīng)過開采、精煉一樣,數(shù)據(jù)要想挖掘其價值,也需要經(jīng)過采集、匯聚、挖掘和分析,最終在各種應(yīng)用場景中創(chuàng)造出價值。

所以用戶近年來對于數(shù)據(jù)湖的理念、產(chǎn)品和方案愈發(fā)接受,加上云計算的日漸普及,云原生數(shù)據(jù)湖服務(wù)正在獲得越來越多用戶的青睞,成為用戶挖掘數(shù)據(jù)價值的首選。

云與數(shù)據(jù)湖為何是最佳CP

在過去,很多企業(yè)的數(shù)據(jù)以ERP、CRM數(shù)據(jù)為主,數(shù)據(jù)規(guī)模往往是TB級,企業(yè)通常在本地采用昂貴的數(shù)據(jù)倉庫解決方案來存儲和分析數(shù)據(jù),這種方式模型范式固定,底層數(shù)據(jù)無法做到多樣變化,逐漸跟不上企業(yè)業(yè)務(wù)變化的速度。

今天,在5G、物聯(lián)網(wǎng)、人工智能等技術(shù)的驅(qū)動下,多個行業(yè)用戶的數(shù)據(jù)量達到PB級,并且數(shù)據(jù)類型豐富,除了ERP等數(shù)據(jù)外,還有大量像文檔、視音頻、行為數(shù)據(jù)等非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),業(yè)務(wù)對于數(shù)據(jù)分析的及時性也愈發(fā)苛刻,這使得很多用戶將目光瞄準了云端。

云計算擁有極為靈活、彈性和可擴展的計算存儲資源,使得數(shù)據(jù)的存儲、分析和應(yīng)用變得無比容易;而數(shù)據(jù)湖最大的價值在于將企業(yè)內(nèi)各種格式的數(shù)據(jù)統(tǒng)一匯聚,在一份數(shù)據(jù)之上進行多種分析,高性價比且高效的挖掘數(shù)據(jù)價值。有專家甚至直言,以數(shù)據(jù)湖為底座的數(shù)據(jù)平臺正在成為企業(yè)數(shù)字化轉(zhuǎn)型的核心。

事實上,真正讓數(shù)據(jù)湖發(fā)揮價值與作用的恰恰是云計算。自2010年數(shù)據(jù)湖概念被提出以來,云服務(wù)商將數(shù)據(jù)湖概念推向落地并且大獲成功。云計算的分布式架構(gòu)和對于開源技術(shù)體系的支持,可以讓企業(yè)及時采用當(dāng)下快速變化的數(shù)據(jù)技術(shù),另外也有利于數(shù)據(jù)湖與機器學(xué)習(xí)、AI等技術(shù)服務(wù)集成,形成數(shù)據(jù)價值實現(xiàn)的閉環(huán)。以華為云云原生數(shù)據(jù)湖MRS服務(wù)為例,經(jīng)歷多年發(fā)展,已經(jīng)廣泛應(yīng)用于公用事業(yè)、金融、運營商、醫(yī)療等行業(yè)3000+政企,成為云原生數(shù)據(jù)湖的突出代表。

那么,數(shù)據(jù)湖在經(jīng)歷十年的發(fā)展之后,會在云計算時代呈現(xiàn)出哪些新的趨勢?我們從華為云云原生數(shù)據(jù)湖MRS四大核心能力和最近三大新特性中一見端倪。

數(shù)據(jù)湖再進化

回首數(shù)據(jù)湖過去十年,正是數(shù)據(jù)湖產(chǎn)品、技術(shù)和商業(yè)模式不斷探索與落地之路。在這十年里,開源廠商、傳統(tǒng)存儲廠商和云服務(wù)商紛紛加入到數(shù)據(jù)湖的推廣與落地之中。最終,云服務(wù)商們脫穎而出,推動著數(shù)據(jù)湖持續(xù)進化。

以華為云云原生數(shù)據(jù)湖MRS為例,其除了之前Hadoop生態(tài)的Spark、Flink、Kafka、HBase等各種高性能組件之外,持續(xù)添加像人工智能、數(shù)智融合元數(shù)據(jù)、緩存加速、跨源跨域分析等新能力,不斷拓展數(shù)據(jù)分析的邊界;并且同時支持混合云和公有云兩種形態(tài);更加重要的是,云原生數(shù)據(jù)湖MRS豐富的組件和豐富的數(shù)據(jù)生態(tài)有機結(jié)合,為開發(fā)者提供廣泛的選擇,可以讓客戶在公有云快速構(gòu)建高性價比、靈活開放、安全可靠的一站式大數(shù)據(jù)平臺。

事實上,華為云云原生數(shù)據(jù)湖MRS之所以能夠引領(lǐng)數(shù)據(jù)湖的發(fā)展趨勢,離不開其在諸多行業(yè)、不同用戶的真實場景中的錘煉,通過各種需求趨勢的洞察實現(xiàn)各種核心能力的不斷提升。以近年來熱門的“數(shù)據(jù)上云”為例,云原生數(shù)據(jù)湖MRS等服務(wù)就承接了華為大數(shù)據(jù)全面上云,經(jīng)歷了內(nèi)部復(fù)雜、大體量業(yè)務(wù)的高壓錘煉,像支持華為終端云觸達全球7億用戶、PB級數(shù)據(jù)處理量和20000+大數(shù)據(jù)節(jié)點,對于產(chǎn)品服務(wù)不斷成長都極具價值。

如今,華為云云原生數(shù)據(jù)湖MRS經(jīng)過內(nèi)部和全球客戶交付的錘煉,已經(jīng)形成企業(yè)級、易運維、高安全、低成本四大核心能力。

  • 首先是企業(yè)級,基于華為FusionInsight大數(shù)據(jù)企業(yè)級平臺能力,歷經(jīng)行業(yè)數(shù)萬節(jié)點部署量的考驗,提供企業(yè)級調(diào)度實現(xiàn)不同作業(yè)之間的資源隔離,提供多級用戶SLA保障。
  • 其次是易運維,用戶無需關(guān)注硬件的購買和維護。專門研發(fā)的企業(yè)級集群管理系統(tǒng),可讓用戶更好監(jiān)控和管理大數(shù)據(jù)平臺;并可通過短信/郵件的方式,提醒用戶平臺異常。
  • 第三是高安全,經(jīng)由華為專業(yè)的安全團隊和德國PSA安全認證測試,提供云上高安全的大數(shù)據(jù)服務(wù)?;贙erberos認證,實現(xiàn)了基于角色的安全控制以及完善的審計功能。
  • 第四則是易用運維,基于多樣化的云基礎(chǔ)設(shè)施,提供了豐富的計算、存儲設(shè)施的選擇,MRS集群可以用時再創(chuàng)建、用時再擴容,用完就可以銷毀、縮容,確保成本最優(yōu)。

事實上,除了上述四大核心能力外,華為云云原生數(shù)據(jù)湖MRS近期還更新了三大新特性,進一步完善了服務(wù)功能與能力,更加貼近當(dāng)前用戶對于數(shù)據(jù)湖的使用需求。

MRS三大新特性值得關(guān)注

近期,華為云云原生數(shù)據(jù)湖MRS進行了全面升級,最為值得關(guān)注的就是Hudi、ClickHouse、Pulsar三大熱門組件的引入。

傳統(tǒng)數(shù)據(jù)湖不支持數(shù)據(jù)更新,導(dǎo)致數(shù)據(jù)采用T+1離線處理模式,完全無法匹配業(yè)務(wù)靈活多變的需求。因此,華為云云原生數(shù)據(jù)湖MRS引入Hudi組件,來有效解決數(shù)據(jù)時效性問題。Hudi可以支持數(shù)據(jù)更新、數(shù)據(jù)刪除,還有ACID保證,保證數(shù)據(jù)實時入湖更新操作。

引入Hudi之后,華為云云原生數(shù)據(jù)湖MRS的數(shù)據(jù)時效更快,實現(xiàn)分鐘級數(shù)據(jù)入湖,數(shù)據(jù)時效性從T+1到T+0;面對數(shù)據(jù)有刪除、更新的場景,Hudi處理效率比傳統(tǒng)采用Hive更新方式高10倍+;此外,Hudi可以讓開發(fā)人員的數(shù)據(jù)更新操作和使用數(shù)據(jù)庫一樣簡單,單條語句即可完成;而數(shù)據(jù)實時采集入湖,Hudi把入湖處理的工作分散到全天,把整個資源消耗的高峰和低峰抹平掉,大幅提升資源利用率。

Apache Pulsar是一個發(fā)布-訂閱消息系統(tǒng),使用計算與存儲分離的云原生架構(gòu)。作為一個云原生的分布式消息流平臺,Pulsar采用了計算存儲分離架構(gòu),擁有靈活擴展、多租戶、更靈活訂閱模式和分層存儲等優(yōu)勢。從對比測試來看,Pulsar比Kafka更具優(yōu)勢。華為云云原生數(shù)據(jù)湖MRS已經(jīng)發(fā)布Pulsar的POC版本,用戶可以一鍵式部署Pulsar服務(wù),包括Broker和Bookie角色。

ClickHouse則是最近這兩年非?;鸬囊豢铋_源的分析型數(shù)據(jù)庫,擁有極致壓縮率和極速查詢性能。傳統(tǒng)OLAP引擎處理能力有限,數(shù)據(jù)一般需要先組織再與BI工具對接,導(dǎo)致BI用戶與數(shù)據(jù)工程師溝通周期長、協(xié)作效率低。

此次華為云云原生數(shù)據(jù)湖MRS上線ClickHouse高性能引擎集群,用戶只需要幾分鐘,就可以輕松方便地一鍵式完成集群部署搭建,快速擁有PB級數(shù)據(jù)的秒級交互查詢分析能力,幫助用戶帶來極致的性能體驗!

華為云云原生數(shù)據(jù)湖MRS的ClickHouse擁有手動擋集群模式升級、平滑的彈性擴容能力、多元的鯤鵬算力加持、靈活易用的配置管理、高可用HA部署架構(gòu)、豐富的監(jiān)控運維能力和可靠的安全防護能力等優(yōu)勢。目前,華為云云原生數(shù)據(jù)湖MRS的ClickHouse服務(wù)在華為內(nèi)部實踐已經(jīng)取得很好效果,整體使用規(guī)模已經(jīng)達到2000+節(jié)點,數(shù)據(jù)量規(guī)模達10+PB,日增數(shù)據(jù)量100TB。

讓大數(shù)據(jù)遷移更容易

事實上,大數(shù)據(jù)和數(shù)據(jù)湖相關(guān)技術(shù)、方案經(jīng)過十余年的發(fā)展已經(jīng)日趨成熟,當(dāng)前各大行業(yè)、不同用戶中存在著大量特點迥異的數(shù)據(jù)湖解決方案。為此,華為云打造了大數(shù)據(jù)遷移上云解決方案,提供IDC上云、CDH上云、云上資源遷移等多種大數(shù)據(jù)遷移解決方案,可以實現(xiàn)業(yè)務(wù)零改造、不中斷、便捷高效的大數(shù)據(jù)遷移。

以某車企的車聯(lián)網(wǎng)業(yè)務(wù)為例,其采用CDH開源大數(shù)據(jù)解決方案,隨著車聯(lián)網(wǎng)數(shù)據(jù)不斷增加,其自建機房空間不足,擴建與研發(fā)投入成本高,運維成本也持續(xù)上升,車輛狀態(tài)分析、實時監(jiān)控分析等數(shù)據(jù)分析需求卻一直在增加,通過華為云大數(shù)據(jù)遷移方案將其車聯(lián)網(wǎng)業(yè)務(wù)全面服務(wù)化和云化,實現(xiàn)資源彈性擴縮容、百萬級車輛并發(fā)安全穩(wěn)定介入和打通全價值鏈數(shù)據(jù)。

如今,華為云大數(shù)據(jù)已經(jīng)成為久經(jīng)各種業(yè)務(wù)場景考驗、屢獲市場殊榮的云服務(wù),覆蓋金融、互聯(lián)網(wǎng)、交通、制造等多個行業(yè)超過3000家政企客戶和超過10000家互聯(lián)網(wǎng)客戶,并且連續(xù)三年蟬聯(lián)中國大數(shù)據(jù)平臺軟件市場份額榜首。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2022-03-25
為什么說云原生數(shù)據(jù)湖正在成為首選?
以華為云云原生數(shù)據(jù)湖MRS為例,其除了之前Hadoop生態(tài)的Spark、Flink、Kafka、HBase等各種高性能組件之外,持續(xù)添加像人工智能、數(shù)智融合元數(shù)據(jù)、緩存加速、跨源跨域分析等新能力,不

長按掃碼 閱讀全文