分布式架構馭數(shù)而行,海量數(shù)據(jù)方能有備無患

“過去會區(qū)分核心數(shù)據(jù)和非核心數(shù)據(jù)?,F(xiàn)在是所有數(shù)據(jù)都很重要,所有數(shù)據(jù)都不能丟失?!比ツ晡錆h一家大型三甲醫(yī)院信息中心主任接受筆者采訪的觀點依然讓人記憶猶新。

無獨有偶,在產業(yè)數(shù)字化和數(shù)字產業(yè)化的雙輪驅動下,一個海量數(shù)據(jù)時代正加速到來。IDC《數(shù)據(jù)時代2025》白皮書就預測,到2025年全球數(shù)據(jù)量總和將達到175ZB;其中,來自中國的數(shù)據(jù)量預計未來五年年平均增長30%,并且到2025年將成為全球數(shù)據(jù)量最大的區(qū)域。

海量數(shù)據(jù)時代來臨,一方面為企業(yè)擁抱數(shù)字化、洞悉市場規(guī)律、挖掘數(shù)據(jù)價值提供了充分條件;另一方面,海量數(shù)據(jù)的存儲、備份、恢復等也給傳統(tǒng)備份方式、產品帶來了前所未有的挑戰(zhàn)。正如愛數(shù)公司所認為,數(shù)據(jù)大爆炸讓數(shù)據(jù)備不完、存不下、管理難愈發(fā)成為各行各業(yè)的新常態(tài),而基于分布式架構的備份系統(tǒng),正是應對海量數(shù)據(jù)備份恢復挑戰(zhàn)的那一副良劑。

為何繞不開一個“快”字

海量數(shù)據(jù)的產生離不開外部政策的強力導向和企業(yè)數(shù)字化轉型的內部強大驅動力。

以中國市場為例,《中國數(shù)字經(jīng)濟發(fā)展白皮書(2020)》透露,數(shù)字經(jīng)濟近年來成為經(jīng)濟發(fā)展的又一引擎,其GDP占比逐年提升,在數(shù)字經(jīng)濟的推動下,各行各業(yè)的數(shù)字化轉型明顯提速;而剛剛出爐的《十四五規(guī)劃》報告中,更是強調提升數(shù)字產業(yè)經(jīng)濟占比的核心目標,全面推動建設數(shù)字中國和發(fā)展數(shù)字經(jīng)濟。

同樣,海量數(shù)據(jù)的產生也離不開企業(yè)數(shù)字化轉型強大的內部驅動力。尤其是隨著數(shù)字化轉型進入到深水區(qū),云計算、大數(shù)據(jù)、AI等數(shù)字化技術加速在業(yè)務場景中落地,極大地產生了豐富的數(shù)據(jù)。

那么,與過去相比,如何理解當前海量數(shù)據(jù)的規(guī)模?

用幾個簡單的數(shù)據(jù)來形象說明。例如,一家中型科技公司的開發(fā)測試環(huán)境往往達到上萬個虛擬機主機;交通、智慧城市等場景一年往往能產生超過10PB規(guī)模的數(shù)據(jù)量;銀行、保險等金融機構擁有超億個小文件……

各個行業(yè)用戶明顯感覺到數(shù)據(jù)量爆炸性的增長?!懊鎸A繑?shù)據(jù),越來越多用戶存在備不完、存不下、管理難的情況。”愛數(shù)AnyBackup產品副總裁常華如是說。

具體來看,首先是用戶的數(shù)據(jù)總量呈現(xiàn)出指數(shù)級的增長趨勢,完全備份幾乎無法完成,哪怕用戶,精打細算、調優(yōu)海量備份任務的計劃調度,依然有觸碰到紅線的風險;其次,采用傳統(tǒng)備份架構體系,往往存在著N套備份系統(tǒng)對應N*N個備份客戶端的情況,使得管理備份任務變得異常復雜;最后,隨著數(shù)字化程度越來越高,用戶生產數(shù)據(jù)增速越來越快,但是規(guī)定的備份時間窗口沒有變,使得備份窗口壓力極大。

“傳統(tǒng)備份解決方案通常是采用串聯(lián)、堆疊的部署方式,現(xiàn)在已經(jīng)很難適用海量數(shù)據(jù)的保護了?!背HA表示道,“解決之道就是分布式架構,通過分布式架構的易擴展、高吞吐和高可用,來實現(xiàn)海量數(shù)據(jù)備份恢復的以快制勝?!?/p>

分布式架構有何獨特之處

在數(shù)據(jù)保護領域采用分布式架構乃是順勢而為,順應了海量數(shù)據(jù)時代數(shù)據(jù)保護需求的變化。

分布式架構本身并不稀奇,之前在IT各個領域都有著廣泛的應用。那么,分布式架構應用在數(shù)據(jù)保護領域有哪些獨特之處,它又是如何實現(xiàn)易擴展、高吞吐和高可用來解決海量數(shù)據(jù)備份恢復的挑戰(zhàn)?

以愛數(shù)AnyBackup Family 7分布式架構為例,之所以能實現(xiàn)易擴展、高吞吐和高可用,不僅僅是其采用了Scale-Out橫向擴展架構,還在于其完成了從客戶端到底層備份介質端到端的優(yōu)化,針對備份恢復的每一個環(huán)節(jié)進行有針對性的優(yōu)化,從局部到整體完成與分布式架構的適配、調優(yōu)。

例如,在客戶端,針對虛擬化、數(shù)據(jù)庫、云平臺等工作負載,愛數(shù)提供了專有API,結合各種調優(yōu)算法,來實現(xiàn)海量備份性能的提升;又如,通過負載均衡,對于備份任務和備份容量進行多任務分發(fā)和合理分配,以達到一個整體最優(yōu)的性能。

“在六節(jié)點集群吞吐量測試報告中,備份吞吐率達到36TB/h,恢復吞吐率達到20TB/h?!背HA透露,“愛數(shù)AnyBackup Family 7分布式架構今年將實現(xiàn)單套備份系統(tǒng)最高支持32個節(jié)點,存儲池容量超過10PB?!?/p>

另外,存算分離架構也是愛數(shù)AnyBackup Family 7分布式架構的一大核心特征。存算分離架構的一大好處就是具有足夠的靈活性,當用戶規(guī)模越來越大之后,其對于靈活性要求也會提升,往往需要根據(jù)業(yè)務或者工作負載的需求來靈活擴展計算或者存儲,如果采用計算與存儲緊耦合的方式,計算與存儲擴縮容則極為不方便,無法滿足用戶業(yè)務對于靈活性的需求。

以愛數(shù)AnyBackup Family 7分布式架構為例,在其存算分離架構之中,分布式計算主要負責海量任務并發(fā)和負載均衡,完成各種任務的調度、匹配與優(yōu)化;而分布式存儲則通過多通道的并發(fā)和數(shù)據(jù)負載均衡,將接受過來的數(shù)據(jù)寫入到備份節(jié)點之中。

“存算分離架構,可以最大限度來提升備份與恢復的每個工作環(huán)節(jié)?!睈蹟?shù)AnyBackup研發(fā)副總裁鄧平介紹道,“例如,分布式的SLA策略調度,針對保護任務、保護對象,采取不同的備份策略和周期?!?/p>

事實上,采用分布式架構的備份產品在實際業(yè)務場景中已經(jīng)凸顯出其優(yōu)勢。以某省政務云平臺為例,其云主機的數(shù)據(jù)量已經(jīng)達到1520TB,數(shù)據(jù)庫的數(shù)據(jù)量則達到了1641TB,整個平臺有數(shù)千個任務,并且依然保持著很高的增長速度,其每個備份域只需要部署一套備份系統(tǒng)即可完成日常的備份作業(yè),所有39個節(jié)點通過一套運營管理產品就實現(xiàn)了全平臺的管理,極大簡化了日常管理工作。

從分布式架構帶來哪些啟示

哈佛大學管理學教授克里斯坦森在《創(chuàng)新者的窘境》中認為,創(chuàng)新關鍵不僅僅在于技術進步或者科學發(fā)現(xiàn),更加關鍵的是在于對市場需求變遷的主動響應。

毫無疑問,海量數(shù)據(jù)時代,用戶對于備份恢復的需求變化就是“快”,在時間窗口有限的情況下完成對于不斷增長的海量數(shù)據(jù)的備份、管理與恢復。

這種趨勢直接驅動著以愛數(shù)為代表的公司將分布式架構創(chuàng)新應用在備份產品之上,并且以全局的視角,以及著眼于備份恢復每一個環(huán)節(jié)的優(yōu)化,來實現(xiàn)“快”這個目標。

面向未來,“快”始終是數(shù)據(jù)備份恢復的核心目標,分布式架構在數(shù)據(jù)保護領域的創(chuàng)新還會有巨大的空間,以真正實現(xiàn)海量數(shù)據(jù)的有備無患。

免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2021-03-27
分布式架構馭數(shù)而行,海量數(shù)據(jù)方能有備無患
以愛數(shù)AnyBackupFamily7分布式架構為例,在其存算分離架構之中,分布式計算主要負責海量任務并發(fā)和負載均衡,完成各種任務的調度、匹配與優(yōu)化;而分布式存儲則通過多通道的并發(fā)和數(shù)據(jù)負載均衡

長按掃碼 閱讀全文