大數(shù)據(jù)不得不說的事兒(一):存算分離憑什么能一統(tǒng)天下

原標題:大數(shù)據(jù)不得不說的事兒(一):存算分離憑什么能一統(tǒng)天下

隨著大數(shù)據(jù)系統(tǒng)建設(shè)的深入,企業(yè)的數(shù)據(jù)基礎(chǔ)設(shè)施面臨兩個問題:

  • 一個是成本問題,隨著累積的數(shù)據(jù)量的增大,大數(shù)據(jù)業(yè)務(wù)量的增多,數(shù)據(jù)存儲和處理的成本越來越高,企業(yè)數(shù)據(jù)基礎(chǔ)設(shè)施的投資越來越大,這部分投資擠占了企業(yè)大數(shù)據(jù)業(yè)務(wù)創(chuàng)新的空間。
  • 另一個是效率問題,大數(shù)據(jù)處理組件多,不同組件使用不同的數(shù)據(jù)處理格式,比如大家熟悉的數(shù)據(jù)湖、數(shù)據(jù)倉庫使用的就是不同的格式,多樣化的數(shù)據(jù)格式導(dǎo)致數(shù)據(jù)存儲變得復(fù)雜,系統(tǒng)中應(yīng)對不同的場景,往往同樣的數(shù)據(jù)需要存儲多份,不同組件之間還需要大量的數(shù)據(jù)拷貝和格式轉(zhuǎn)換,消耗大量的資源。

那么,為什么存算分離架構(gòu)會受到越來越多企業(yè)IT部門的青睞呢?

這里不得不說一下Hadoop架構(gòu),2004-2006年間,Google陸續(xù)發(fā)表了Google File System、MapReduce和BigTable三篇革命性技術(shù)的文章,奠定了分布式系統(tǒng)理論基礎(chǔ)。隨后以這三項技術(shù)為核心的開源框架如雨后春筍般涌現(xiàn)出來,Apache基金會開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop便是其中之一。由于Hadoop能夠在開發(fā)者不了解分布式底層細節(jié)的情況下,利用集群的計算和存儲能力,對大量數(shù)據(jù)進行可靠、高效、可伸縮的分布式高速運算,成為了大數(shù)據(jù)分析時代驅(qū)動數(shù)據(jù)價值挖掘和變現(xiàn)炙手可熱的技術(shù)之一。

而在Hadoop三代版本的演進中證明了存算分離已成為大數(shù)據(jù)建設(shè)的必然趨勢。

存算分離1.0:以靈活擴展,優(yōu)化成本為核心

作為大數(shù)據(jù)平臺普遍的技術(shù)?;A(chǔ),Hadoop 1.0使用通用服務(wù)器和普通硬盤搭建了大規(guī)模數(shù)據(jù)存儲和計算集群。在設(shè)計之初,由于單機吞吐量和集群網(wǎng)絡(luò)帶寬限制,Hadoop集群部署都存儲和計算在一起,將計算的代碼移動到數(shù)據(jù)所在的地方,而不是將數(shù)據(jù)傳輸?shù)接嬎愎?jié)點,這種方式可以產(chǎn)生更少的數(shù)據(jù)遷移,降低機器間、機柜間的網(wǎng)絡(luò)帶寬消耗,有效解決了分散在各個弱連接的存儲節(jié)點間的海量數(shù)據(jù)訪問的困難。

經(jīng)過十幾年的發(fā)展,隨著海量負載和大數(shù)據(jù)用例的出現(xiàn),單一Hadoop集群的規(guī)模變大,多個Hadoop集群需同時支撐不同的業(yè)務(wù)。因此在存儲和計算耦合架構(gòu)下,大數(shù)據(jù)集群將面臨兩個重要問題:

  • 成本:由于存算一體,計算資源和存儲資源是按某一比例強綁定,系統(tǒng)擴容必須按節(jié)點數(shù)目增加,導(dǎo)致內(nèi)存或磁盤的浪費。另外由于使用3副本的數(shù)據(jù)存儲模式,在大集群(100+ 節(jié)點、PB級別)下將造成高昂的存儲成本。
  • 資源利用率低:由于多個Hadoop 集群承接不同的工作負載,隨著支撐業(yè)務(wù)需求的波動,系統(tǒng)負載出現(xiàn)峰谷,然而存算一體的架構(gòu)導(dǎo)致各集群的資源完全獨立隔離不能共享(跨行業(yè)的存算一體架構(gòu)下的Hadoop集群平均資源利用率在25%以下)。

考慮到上述問題,不少企業(yè)開始思考這種一體化架構(gòu)以及數(shù)據(jù)本地化的必要性。2012年前后,F(xiàn)acebook、AWS等廠商基于GFS論文中的EC算法,提出了存儲和計算分離的架構(gòu)原型。

2014年,EMC Isilon使用One File System (OneFS)作為底層文件系統(tǒng)提供EC能力,并局部兼容HDFS以RPC協(xié)議來連接Hadoop計算集群,從而為Hadoop集群實現(xiàn)了存算分離的能力。隨后VMWare推出虛擬化Hadoop計算節(jié)點支持,連同Isilon OneFS分布式存儲實現(xiàn)了商業(yè)可用的存算分離Hadoop平臺,給產(chǎn)品帶來了非常大的靈活性,存儲和計算可以按需創(chuàng)建和自動彈性伸縮,無須準確估算未來的業(yè)務(wù)規(guī)模,降低了系統(tǒng)部署和擴展成本,同時將CPU和磁盤充分調(diào)度起來,解決了資源利用不均衡的問題,而存算分離也因此逐漸成為Hadoop 2.0 技術(shù)演進的趨勢。

下一代存算分離:以數(shù)據(jù)為中心,走向?qū)崟r分析

Hadoop 2.0 平臺的優(yōu)點在于使用EC替代了3副本減低了存儲的成本,并在存算解耦后能獨立擴計算集群和存儲集群提高資源利用率。但用戶依然面對管理多套異構(gòu)集群,數(shù)據(jù)跨集群遷移耗用大量計算和帶寬資源,和管理HDFS協(xié)議和S3協(xié)議異構(gòu)存儲的困境。

以政府行業(yè)為例,當前政務(wù)管理大數(shù)據(jù)逐漸向城市運行大數(shù)據(jù)演進,涉及多部門、IoT等數(shù)據(jù)。上百個水平(城市)+垂直(委辦局)應(yīng)用涌現(xiàn),辦理一項業(yè)務(wù)經(jīng)常涉及多種應(yīng)用,同時在城市運行大數(shù)據(jù)演進過程中,還會有新應(yīng)用不斷接入進來這些應(yīng)用的高峰時間段差異很大,每種應(yīng)用的擴容周期也差異較大,因此需要多種應(yīng)用間可共享數(shù)據(jù),提升數(shù)據(jù)使用效率;系統(tǒng)靈活擴展,安心運維。

因此隨著新興業(yè)務(wù)的發(fā)展,解決數(shù)據(jù)存得下的問題已經(jīng)無法滿足企業(yè)大數(shù)據(jù)建設(shè)的訴求,下一代大數(shù)據(jù)存儲應(yīng)該更多以數(shù)據(jù)為中心,聚焦數(shù)據(jù)用得好的問題,以數(shù)據(jù)驅(qū)動融合分析、統(tǒng)一存儲,進一步驅(qū)動數(shù)據(jù)價值實時變現(xiàn)。

開源社區(qū)提出了湖倉融合的新興數(shù)據(jù)格式,支持數(shù)據(jù)湖、數(shù)據(jù)倉庫使用同一種格式,同一份數(shù)據(jù)支持多種組件訪問,減少數(shù)據(jù)重復(fù)存儲和搬遷,縮短了數(shù)據(jù)加工鏈路、減少中間過程的同時,大大提高了數(shù)據(jù)分析的效率。

華為海量存儲在商用的存算分離1.0方案滿足降成本的客戶需求后,當前率先在存儲上支持湖倉融合的新興數(shù)據(jù)格式,在下一代存算分離架構(gòu)下,基于一份數(shù)據(jù)支持接數(shù)據(jù)湖、數(shù)據(jù)倉庫同時訪問。提供以業(yè)務(wù)為中心的高彈性大數(shù)據(jù)計算,以數(shù)據(jù)為中心的高性能海量存儲,用戶無感知的原生HDFS和S3兼容能力,進一步向湖倉一體、一湖多云、實時分析演進。

隨著5G和IoT到來,數(shù)據(jù)激增,同時大數(shù)據(jù)業(yè)務(wù)重要性不斷提高,逐步轉(zhuǎn)變?yōu)樯a(chǎn)核心系統(tǒng),例如金融的大數(shù)據(jù)清算、經(jīng)營分析,運營商的行程碼、詳單查詢和應(yīng)急救災(zāi)業(yè)務(wù)等,大數(shù)據(jù)系統(tǒng)已經(jīng)成為對企業(yè)生產(chǎn)運營有重大影響的關(guān)鍵一環(huán),而且數(shù)據(jù)價值密度不斷提升,海量大數(shù)據(jù)存儲既要求低成本,又要求高可靠高性能,還要擁有容災(zāi)備份、多租戶隔離防擾臨、大數(shù)據(jù)復(fù)雜生態(tài)對接、計算熱插拔、跨域協(xié)同分析、安全性等能力,因此隨著企業(yè)級大數(shù)據(jù)建設(shè)的深入,基于存算分離架構(gòu),計算承接豐富的應(yīng)用接入需求,存儲提供成熟穩(wěn)定的底座支撐業(yè)務(wù)發(fā)展和生態(tài)對接是一道必經(jīng)之路。

附:后續(xù)還將推出《論大數(shù)據(jù)存算分離》第二篇,敬請關(guān)注!

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2022-04-16
大數(shù)據(jù)不得不說的事兒(一):存算分離憑什么能一統(tǒng)天下
隨后VMWare推出虛擬化Hadoop計算節(jié)點支持,連同Isilon OneFS分布式存儲實現(xiàn)了商業(yè)可用的存算分離Hadoop平臺,給產(chǎn)品帶來了非常大的靈活性,存儲和計算可以按需創(chuàng)建和自動彈性伸縮,無

長按掃碼 閱讀全文