導(dǎo)讀:移動(dòng)互聯(lián)時(shí)代,企業(yè)都面臨著海量數(shù)據(jù)帶來(lái)的挑戰(zhàn),有一些企業(yè)馴服了海量數(shù)據(jù),實(shí)現(xiàn)了“存的下、算的出”,但即使如此,這些企業(yè)很少跨過(guò)數(shù)據(jù)保護(hù)的門(mén)檻,因?yàn)閭鹘y(tǒng)數(shù)據(jù)保護(hù)技術(shù)在面對(duì)PB級(jí)別數(shù)據(jù)量時(shí),都或多或少的出現(xiàn)了問(wèn)題,浪潮工程師開(kāi)發(fā)了分級(jí)保護(hù)方案,很好的滿(mǎn)足了100PB級(jí)別的數(shù)據(jù)保護(hù)需求。
PB數(shù)據(jù)量挑戰(zhàn)傳統(tǒng)數(shù)據(jù)保護(hù)技術(shù)
提到數(shù)據(jù)保護(hù)和容災(zāi),很多人都會(huì)想到備份技術(shù)、存儲(chǔ)復(fù)制技術(shù)、數(shù)據(jù)卷復(fù)制技術(shù)、數(shù)據(jù)庫(kù)日志傳輸?shù)?,但是這些傳統(tǒng)技術(shù)沒(méi)法適應(yīng)海量數(shù)據(jù)環(huán)境。數(shù)PB乃至數(shù)十PB規(guī)模的數(shù)據(jù),是傳統(tǒng)數(shù)據(jù)保護(hù)技術(shù)和容災(zāi)技術(shù)在設(shè)計(jì)和形成之初,所不能想象的。這些技術(shù)適用于百TB以下數(shù)據(jù)規(guī)模,大多數(shù)不能做到實(shí)時(shí)保護(hù),容災(zāi)數(shù)據(jù)日常處于離線(xiàn)或不可訪(fǎng)問(wèn)狀態(tài),難以滿(mǎn)足大數(shù)據(jù)的應(yīng)用需求。
勉強(qiáng)部署這些技術(shù)在海量數(shù)據(jù)環(huán)境下,災(zāi)難恢復(fù)、可用性、穩(wěn)定性等技術(shù)表現(xiàn)也會(huì)大打折扣。拿傳統(tǒng)備份技術(shù)來(lái)說(shuō),日常演練/驗(yàn)證,數(shù)據(jù)需要重新加載,PB級(jí)數(shù)據(jù)環(huán)境下,加載時(shí)間往往是數(shù)天、甚至數(shù)周,若容災(zāi)數(shù)據(jù)不能進(jìn)行有效的日常驗(yàn)證,整個(gè)容災(zāi)架構(gòu)的可靠性和實(shí)用性會(huì)急劇下降,所以在很多場(chǎng)景中,傳統(tǒng)方案僅限于方案,不能實(shí)際部署。
數(shù)據(jù)分級(jí)解決大數(shù)據(jù)容災(zāi)問(wèn)題
OpenStack、Hadoop、Spark等目前主流的云和大數(shù)據(jù)平臺(tái),數(shù)據(jù)可靠性主要通過(guò)存儲(chǔ)子系統(tǒng)的副本和糾刪碼等技術(shù)來(lái)保證,這些技術(shù)只能保證本地?cái)?shù)據(jù)安全可靠,沒(méi)法應(yīng)對(duì)人為破壞、物理/邏輯故障、站點(diǎn)故障等情況,需要增加歷史數(shù)據(jù)保護(hù)和遠(yuǎn)距離容災(zāi)保護(hù)。
大數(shù)據(jù)平臺(tái)80%左右都是原始數(shù)據(jù),這些數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)清洗、治理形成平臺(tái)的標(biāo)準(zhǔn)資源庫(kù)數(shù)據(jù),這個(gè)環(huán)節(jié)是一個(gè)海量數(shù)據(jù)結(jié)構(gòu)化的過(guò)程,隨后,根據(jù)上層業(yè)務(wù)應(yīng)用需求,由標(biāo)準(zhǔn)資源庫(kù)快速派生出多個(gè)主題庫(kù)、專(zhuān)題庫(kù)等,這些數(shù)據(jù)庫(kù)就直接對(duì)接上層應(yīng)用了。
海量數(shù)據(jù)保護(hù)需要在深入了解業(yè)務(wù)模型和數(shù)據(jù)屬性的技術(shù)上,對(duì)這些數(shù)據(jù)進(jìn)行分級(jí)保護(hù),根據(jù)重要程度等技術(shù)指標(biāo),執(zhí)行不同的保護(hù)策略,避免了成本高、技術(shù)難落地等實(shí)際問(wèn)題。
數(shù)據(jù)分級(jí)保護(hù)
一個(gè)案例——50PB數(shù)據(jù)的保護(hù)
分級(jí)僅是海量數(shù)據(jù)保護(hù)的方案框架,具體方案需要針對(duì)客戶(hù)的具體應(yīng)用場(chǎng)景進(jìn)行設(shè)計(jì),所以我們以剛剛成功上線(xiàn)的一個(gè)案例來(lái)詳細(xì)展開(kāi)。
該用戶(hù)的數(shù)據(jù)量屬于超大規(guī)模級(jí)別,在全省有11個(gè)大數(shù)據(jù)分中心,1個(gè)大數(shù)據(jù)總中心,各個(gè)中心采集自己區(qū)域的原始數(shù)據(jù),生成本地的標(biāo)準(zhǔn)資源庫(kù),然后根據(jù)各自需求生成本地的主題庫(kù)、專(zhuān)題庫(kù)等,承接本地上層的應(yīng)用;同時(shí),各分中心傳輸本地的標(biāo)準(zhǔn)資源庫(kù)至總中心,匯聚為全省的標(biāo)準(zhǔn)資源庫(kù),生成相關(guān)主題庫(kù)、專(zhuān)題庫(kù),具備承接全省范圍內(nèi)業(yè)務(wù)需求的能力,12個(gè)中心數(shù)據(jù)總量接近50PB。
數(shù)據(jù)分析——50PB數(shù)據(jù)保護(hù)1PB即可
用戶(hù)希望建立有效的容災(zāi)機(jī)制,防范物理、邏輯、站點(diǎn)等故障。根據(jù)上文所述的原則,需要先對(duì)客戶(hù)的數(shù)據(jù)進(jìn)行分類(lèi),根據(jù)不同的重要程度采取不同的數(shù)據(jù)保護(hù)技術(shù)。
首先是原始數(shù)據(jù),這些數(shù)據(jù)可再生,而且據(jù)經(jīng)過(guò)熱度訪(fǎng)問(wèn)期后,便成為冷數(shù)據(jù),價(jià)值低,規(guī)模大,不必采用額外的保護(hù)技術(shù);其次是,標(biāo)準(zhǔn)資源庫(kù)數(shù)據(jù),這些庫(kù)數(shù)據(jù)是大數(shù)據(jù)平臺(tái)的初次結(jié)果數(shù)據(jù),含金量很高,是用戶(hù)大數(shù)據(jù)環(huán)境的核心數(shù)據(jù),不易重建,有很強(qiáng)的數(shù)據(jù)保護(hù)和容災(zāi)需求,然后是各類(lèi)主題庫(kù)、專(zhuān)題庫(kù)等數(shù)據(jù),這些庫(kù)數(shù)據(jù)由標(biāo)準(zhǔn)資源庫(kù)數(shù)據(jù)經(jīng)過(guò)二次加工派生出而出,并支持快速重建,發(fā)生問(wèn)題可以在用戶(hù)要求的RTO(復(fù)原時(shí)間目標(biāo))內(nèi)完成重建,因而這類(lèi)數(shù)據(jù)也不需要額外容災(zāi)保護(hù)。最后則是各中心間冗余數(shù)據(jù),顯然這些數(shù)據(jù)不需要容災(zāi)保護(hù)
綜上,本項(xiàng)目?jī)H需要為總中心的全量標(biāo)準(zhǔn)資源庫(kù)數(shù)據(jù)進(jìn)行容災(zāi)保護(hù),數(shù)據(jù)量約1PB。
應(yīng)用方案——3條傳輸通路冗余、計(jì)算存儲(chǔ)分離
浪潮為用戶(hù)設(shè)計(jì)了異地容災(zāi)方案,將方案按照客戶(hù)要求部署在分?jǐn)?shù)據(jù)中心10中??傊行牡娜繕?biāo)準(zhǔn)資源庫(kù)有1PB結(jié)構(gòu)化數(shù)據(jù),每日數(shù)據(jù)變化量為30TB~50TB,所以,異地容災(zāi)架構(gòu)中數(shù)據(jù)傳輸技術(shù)要支持高頻率周期性傳輸和實(shí)時(shí)傳輸模式,將增量數(shù)據(jù)復(fù)制過(guò)來(lái),根據(jù)生產(chǎn)環(huán)境的壓力變化兩種傳輸技術(shù)可以靈活組合,保證異地容災(zāi)大數(shù)據(jù)平臺(tái)為在線(xiàn)狀態(tài),日??梢詫?shí)時(shí)查詢(xún)數(shù)據(jù)、驗(yàn)證數(shù)據(jù)。所以,容災(zāi)數(shù)據(jù)傳輸采用ETL定制化工具,這種數(shù)據(jù)傳輸技術(shù)與大數(shù)據(jù)平臺(tái)有著天然的親和性,高速穩(wěn)定、成熟可靠,目前,容災(zāi)方案可以保證RPO≤1小時(shí),RTO≤2小時(shí)。
最后,容災(zāi)中心大數(shù)據(jù)平臺(tái),采用計(jì)算和存儲(chǔ)分離的部署模式,容災(zāi)存儲(chǔ)采用企業(yè)級(jí)分布式存儲(chǔ),并和上層大數(shù)據(jù)平臺(tái)對(duì)接,使方案具備很強(qiáng)的數(shù)據(jù)湖特性:容災(zāi)數(shù)據(jù)可以靈活的分配給非大數(shù)據(jù)平臺(tái)環(huán)境,支持容災(zāi)數(shù)據(jù)在不同類(lèi)型的業(yè)務(wù)系統(tǒng)間共享,避免數(shù)據(jù)再次復(fù)制過(guò)程,最大化數(shù)據(jù)價(jià)值。
以下為容災(zāi)方案技術(shù)架構(gòu)圖:
容災(zāi)方案技術(shù)架構(gòu)圖
本項(xiàng)目在總中心部署3臺(tái)ETL服務(wù)器(后續(xù)計(jì)劃在容災(zāi)中心也部署3臺(tái),實(shí)現(xiàn)ETL服務(wù)器的站點(diǎn)互備架構(gòu)),形成三條邏輯冗余的數(shù)據(jù)傳輸通道,從總中心大數(shù)據(jù)平臺(tái)抽取標(biāo)準(zhǔn)資源庫(kù)全量數(shù)據(jù)至容災(zāi)中心,之后進(jìn)行差量數(shù)據(jù)復(fù)制,容災(zāi)中心數(shù)據(jù)和生產(chǎn)中心數(shù)據(jù)保持一定的時(shí)間差異,可以提升防范邏輯數(shù)據(jù)故障的能力。
容災(zāi)中心,日常主要工作為接收總中心標(biāo)準(zhǔn)資源庫(kù)數(shù)據(jù),并提供數(shù)據(jù)查詢(xún)、驗(yàn)證服務(wù)、低頻運(yùn)行臨時(shí)分配的作業(yè)任務(wù),根據(jù)建設(shè)目標(biāo),此平臺(tái)配置和生產(chǎn)中心標(biāo)準(zhǔn)資源庫(kù)同量存儲(chǔ)資源,但不需配置同等的計(jì)算資源,所以,本方案采用30臺(tái)服務(wù)器(約為總中心大數(shù)據(jù)平臺(tái)計(jì)算力的10%)、40臺(tái)高密存儲(chǔ)節(jié)點(diǎn)(配置海量數(shù)據(jù)存儲(chǔ)池,提供4PB可用容量,實(shí)現(xiàn)未來(lái)三年的容量預(yù)留)搭建大數(shù)據(jù)容災(zāi)平臺(tái)。30臺(tái)服務(wù)器包括1臺(tái)管理節(jié)點(diǎn)、2臺(tái)主服務(wù)節(jié)點(diǎn)以及27臺(tái)數(shù)據(jù)節(jié)點(diǎn),平臺(tái)服務(wù)組件采用高可靠主備模式,防止單節(jié)點(diǎn)故障問(wèn)題。海量存儲(chǔ)池采用糾刪數(shù)據(jù)冗余機(jī)制,保證可靠性和空間利用率,海量存儲(chǔ)池,被上層大數(shù)據(jù)平臺(tái)管理,隨著容災(zāi)數(shù)據(jù)的快速增長(zhǎng),可以實(shí)現(xiàn)在不擴(kuò)容平臺(tái)計(jì)算資源的條件下,在線(xiàn)擴(kuò)展其容量至數(shù)百PB,滿(mǎn)足用戶(hù)后期數(shù)據(jù)的快速增長(zhǎng)需求。
Hadoop容災(zāi)平臺(tái)
結(jié)語(yǔ),海量數(shù)據(jù)將是企業(yè)新常態(tài)
目前全球數(shù)據(jù)量約為44ZB,到2025年會(huì)上升至163ZB,也就是說(shuō),數(shù)據(jù)的高速增長(zhǎng)將成為越來(lái)越多的企業(yè)面臨的常態(tài)化問(wèn)題,而不是新挑戰(zhàn)。在可見(jiàn)的時(shí)間內(nèi),網(wǎng)絡(luò)等方面的技術(shù)條件都不足以使得企業(yè)進(jìn)行全面不加取舍的數(shù)據(jù)保護(hù),分級(jí)保護(hù)將成為越來(lái)越多用戶(hù)的選擇,希望這個(gè)案例能夠給更多的企業(yè)用戶(hù)提供良好的借鑒范例。
- 為什么年輕人不愛(ài)換手機(jī)了
- 柔宇科技未履行金額近億元被曝已6個(gè)月發(fā)不出工資
- 柔宇科技被曝已6個(gè)月發(fā)不出工資 公司回應(yīng)欠薪有補(bǔ)償方案
- 第六座“綠動(dòng)未來(lái)”環(huán)保公益圖書(shū)館落地貴州山區(qū)小學(xué)
- 窺見(jiàn)“新紀(jì)元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機(jī)打造全新一代屏幕壓感
- 清潔家電新老玩家市場(chǎng)定位清晰,攜手共進(jìn),核心技術(shù)決定未來(lái)
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達(dá)成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。