原標(biāo)題：大數(shù)據(jù)不得不說(shuō)的事兒（一）：存算分離憑什么能一統(tǒng)天下

隨著大數(shù)據(jù)系統(tǒng)建設(shè)的深入，企業(yè)的數(shù)據(jù)基礎(chǔ)設(shè)施面臨兩個(gè)問(wèn)題：

一個(gè)是成本問(wèn)題，隨著累積的數(shù)據(jù)量的增大，大數(shù)據(jù)業(yè)務(wù)量的增多，數(shù)據(jù)存儲(chǔ)和處理的成本越來(lái)越高，企業(yè)數(shù)據(jù)基礎(chǔ)設(shè)施的投資越來(lái)越大，這部分投資擠占了企業(yè)大數(shù)據(jù)業(yè)務(wù)創(chuàng)新的空間。
另一個(gè)是效率問(wèn)題，大數(shù)據(jù)處理組件多，不同組件使用不同的數(shù)據(jù)處理格式，比如大家熟悉的數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)使用的就是不同的格式，多樣化的數(shù)據(jù)格式導(dǎo)致數(shù)據(jù)存儲(chǔ)變得復(fù)雜，系統(tǒng)中應(yīng)對(duì)不同的場(chǎng)景，往往同樣的數(shù)據(jù)需要存儲(chǔ)多份，不同組件之間還需要大量的數(shù)據(jù)拷貝和格式轉(zhuǎn)換，消耗大量的資源。

那么，為什么存算分離架構(gòu)會(huì)受到越來(lái)越多企業(yè)IT部門(mén)的青睞呢？

這里不得不說(shuō)一下Hadoop架構(gòu)，2004-2006年間，Google陸續(xù)發(fā)表了Google File System、MapReduce和BigTable三篇革命性技術(shù)的文章，奠定了分布式系統(tǒng)理論基礎(chǔ)。隨后以這三項(xiàng)技術(shù)為核心的開(kāi)源框架如雨后春筍般涌現(xiàn)出來(lái)，Apache基金會(huì)開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop便是其中之一。由于Hadoop能夠在開(kāi)發(fā)者不了解分布式底層細(xì)節(jié)的情況下，利用集群的計(jì)算和存儲(chǔ)能力，對(duì)大量數(shù)據(jù)進(jìn)行可靠、高效、可伸縮的分布式高速運(yùn)算，成為了大數(shù)據(jù)分析時(shí)代驅(qū)動(dòng)數(shù)據(jù)價(jià)值挖掘和變現(xiàn)炙手可熱的技術(shù)之一。

而在Hadoop三代版本的演進(jìn)中證明了存算分離已成為大數(shù)據(jù)建設(shè)的必然趨勢(shì)。

存算分離1.0：以靈活擴(kuò)展，優(yōu)化成本為核心

作為大數(shù)據(jù)平臺(tái)普遍的技術(shù)?；A(chǔ)，Hadoop 1.0使用通用服務(wù)器和普通硬盤(pán)搭建了大規(guī)模數(shù)據(jù)存儲(chǔ)和計(jì)算集群。在設(shè)計(jì)之初，由于單機(jī)吞吐量和集群網(wǎng)絡(luò)帶寬限制，Hadoop集群部署都存儲(chǔ)和計(jì)算在一起，將計(jì)算的代碼移動(dòng)到數(shù)據(jù)所在的地方，而不是將數(shù)據(jù)傳輸?shù)接?jì)算節(jié)點(diǎn)，這種方式可以產(chǎn)生更少的數(shù)據(jù)遷移，降低機(jī)器間、機(jī)柜間的網(wǎng)絡(luò)帶寬消耗，有效解決了分散在各個(gè)弱連接的存儲(chǔ)節(jié)點(diǎn)間的海量數(shù)據(jù)訪問(wèn)的困難。

經(jīng)過(guò)十幾年的發(fā)展，隨著海量負(fù)載和大數(shù)據(jù)用例的出現(xiàn)，單一Hadoop集群的規(guī)模變大，多個(gè)Hadoop集群需同時(shí)支撐不同的業(yè)務(wù)。因此在存儲(chǔ)和計(jì)算耦合架構(gòu)下，大數(shù)據(jù)集群將面臨兩個(gè)重要問(wèn)題：

成本：由于存算一體，計(jì)算資源和存儲(chǔ)資源是按某一比例強(qiáng)綁定，系統(tǒng)擴(kuò)容必須按節(jié)點(diǎn)數(shù)目增加，導(dǎo)致內(nèi)存或磁盤(pán)的浪費(fèi)。另外由于使用3副本的數(shù)據(jù)存儲(chǔ)模式，在大集群（100+ 節(jié)點(diǎn)、PB級(jí)別）下將造成高昂的存儲(chǔ)成本。
資源利用率低：由于多個(gè)Hadoop 集群承接不同的工作負(fù)載，隨著支撐業(yè)務(wù)需求的波動(dòng)，系統(tǒng)負(fù)載出現(xiàn)峰谷，然而存算一體的架構(gòu)導(dǎo)致各集群的資源完全獨(dú)立隔離不能共享（跨行業(yè)的存算一體架構(gòu)下的Hadoop集群平均資源利用率在25%以下）。

考慮到上述問(wèn)題，不少企業(yè)開(kāi)始思考這種一體化架構(gòu)以及數(shù)據(jù)本地化的必要性。2012年前后，F(xiàn)acebook、AWS等廠商基于GFS論文中的EC算法，提出了存儲(chǔ)和計(jì)算分離的架構(gòu)原型。

2014年，EMC Isilon使用One File System (OneFS)作為底層文件系統(tǒng)提供EC能力，并局部兼容HDFS以RPC協(xié)議來(lái)連接Hadoop計(jì)算集群，從而為Hadoop集群實(shí)現(xiàn)了存算分離的能力。隨后VMWare推出虛擬化Hadoop計(jì)算節(jié)點(diǎn)支持，連同Isilon OneFS分布式存儲(chǔ)實(shí)現(xiàn)了商業(yè)可用的存算分離Hadoop平臺(tái)，給產(chǎn)品帶來(lái)了非常大的靈活性，存儲(chǔ)和計(jì)算可以按需創(chuàng)建和自動(dòng)彈性伸縮，無(wú)須準(zhǔn)確估算未來(lái)的業(yè)務(wù)規(guī)模，降低了系統(tǒng)部署和擴(kuò)展成本，同時(shí)將CPU和磁盤(pán)充分調(diào)度起來(lái)，解決了資源利用不均衡的問(wèn)題，而存算分離也因此逐漸成為Hadoop 2.0 技術(shù)演進(jìn)的趨勢(shì)。

下一代存算分離：以數(shù)據(jù)為中心，走向?qū)崟r(shí)分析

Hadoop 2.0 平臺(tái)的優(yōu)點(diǎn)在于使用EC替代了3副本減低了存儲(chǔ)的成本，并在存算解耦后能獨(dú)立擴(kuò)計(jì)算集群和存儲(chǔ)集群提高資源利用率。但用戶依然面對(duì)管理多套異構(gòu)集群，數(shù)據(jù)跨集群遷移耗用大量計(jì)算和帶寬資源，和管理HDFS協(xié)議和S3協(xié)議異構(gòu)存儲(chǔ)的困境。

以政府行業(yè)為例，當(dāng)前政務(wù)管理大數(shù)據(jù)逐漸向城市運(yùn)行大數(shù)據(jù)演進(jìn)，涉及多部門(mén)、IoT等數(shù)據(jù)。上百個(gè)水平(城市)+垂直(委辦局)應(yīng)用涌現(xiàn)，辦理一項(xiàng)業(yè)務(wù)經(jīng)常涉及多種應(yīng)用，同時(shí)在城市運(yùn)行大數(shù)據(jù)演進(jìn)過(guò)程中，還會(huì)有新應(yīng)用不斷接入進(jìn)來(lái)這些應(yīng)用的高峰時(shí)間段差異很大，每種應(yīng)用的擴(kuò)容周期也差異較大，因此需要多種應(yīng)用間可共享數(shù)據(jù)，提升數(shù)據(jù)使用效率；系統(tǒng)靈活擴(kuò)展，安心運(yùn)維。

因此隨著新興業(yè)務(wù)的發(fā)展，解決數(shù)據(jù)存得下的問(wèn)題已經(jīng)無(wú)法滿足企業(yè)大數(shù)據(jù)建設(shè)的訴求，下一代大數(shù)據(jù)存儲(chǔ)應(yīng)該更多以數(shù)據(jù)為中心，聚焦數(shù)據(jù)用得好的問(wèn)題，以數(shù)據(jù)驅(qū)動(dòng)融合分析、統(tǒng)一存儲(chǔ)，進(jìn)一步驅(qū)動(dòng)數(shù)據(jù)價(jià)值實(shí)時(shí)變現(xiàn)。

開(kāi)源社區(qū)提出了湖倉(cāng)融合的新興數(shù)據(jù)格式，支持?jǐn)?shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)使用同一種格式，同一份數(shù)據(jù)支持多種組件訪問(wèn)，減少數(shù)據(jù)重復(fù)存儲(chǔ)和搬遷，縮短了數(shù)據(jù)加工鏈路、減少中間過(guò)程的同時(shí)，大大提高了數(shù)據(jù)分析的效率。

華為海量存儲(chǔ)在商用的存算分離1.0方案滿足降成本的客戶需求后，當(dāng)前率先在存儲(chǔ)上支持湖倉(cāng)融合的新興數(shù)據(jù)格式，在下一代存算分離架構(gòu)下，基于一份數(shù)據(jù)支持接數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)同時(shí)訪問(wèn)。提供以業(yè)務(wù)為中心的高彈性大數(shù)據(jù)計(jì)算，以數(shù)據(jù)為中心的高性能海量存儲(chǔ)，用戶無(wú)感知的原生HDFS和S3兼容能力，進(jìn)一步向湖倉(cāng)一體、一湖多云、實(shí)時(shí)分析演進(jìn)。

隨著5G和IoT到來(lái)，數(shù)據(jù)激增，同時(shí)大數(shù)據(jù)業(yè)務(wù)重要性不斷提高，逐步轉(zhuǎn)變?yōu)樯a(chǎn)核心系統(tǒng)，例如金融的大數(shù)據(jù)清算、經(jīng)營(yíng)分析，運(yùn)營(yíng)商的行程碼、詳單查詢和應(yīng)急救災(zāi)業(yè)務(wù)等，大數(shù)據(jù)系統(tǒng)已經(jīng)成為對(duì)企業(yè)生產(chǎn)運(yùn)營(yíng)有重大影響的關(guān)鍵一環(huán)，而且數(shù)據(jù)價(jià)值密度不斷提升，海量大數(shù)據(jù)存儲(chǔ)既要求低成本，又要求高可靠高性能，還要擁有容災(zāi)備份、多租戶隔離防擾臨、大數(shù)據(jù)復(fù)雜生態(tài)對(duì)接、計(jì)算熱插拔、跨域協(xié)同分析、安全性等能力，因此隨著企業(yè)級(jí)大數(shù)據(jù)建設(shè)的深入，基于存算分離架構(gòu)，計(jì)算承接豐富的應(yīng)用接入需求，存儲(chǔ)提供成熟穩(wěn)定的底座支撐業(yè)務(wù)發(fā)展和生態(tài)對(duì)接是一道必經(jīng)之路。

附：后續(xù)還將推出《論大數(shù)據(jù)存算分離》第二篇，敬請(qǐng)關(guān)注！

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

大數(shù)據(jù)不得不說(shuō)的事兒（一）：存算分離憑什么能一統(tǒng)天下

存算分離1.0：以靈活擴(kuò)展，優(yōu)化成本為核心

下一代存算分離：以數(shù)據(jù)為中心，走向?qū)崟r(shí)分析

下一篇