拒絕成為空中樓閣,智能運維為災(zāi)備建設(shè)打開新思路

2010年,筆者有幸現(xiàn)場觀摩了西部某區(qū)域性銀行的容災(zāi)演練:“數(shù)據(jù)庫系統(tǒng)癱瘓”和“數(shù)據(jù)中心發(fā)生火災(zāi)”兩個場景演練全部在真實生產(chǎn)環(huán)境進(jìn)行,演練時間加起來不過10分鐘,恢復(fù)速度讓包括筆者在內(nèi)的現(xiàn)場人員驚嘆不已。然而,更讓筆者震驚的是2014年銀監(jiān)會的通告,該行應(yīng)急恢復(fù)處置機(jī)制嚴(yán)重缺失,導(dǎo)致系統(tǒng)恢復(fù)工作進(jìn)展緩慢,業(yè)務(wù)系統(tǒng)中斷長達(dá)37小時40分鐘,其間完全依靠手工辦理業(yè)務(wù)。

這件事情促使筆者曾經(jīng)思考過:哪怕企業(yè)的災(zāi)備體系建設(shè)完備、日常演練流暢,但企業(yè)真正的災(zāi)難恢復(fù)能力到底如何?企業(yè)又該如何評估自身的災(zāi)難恢復(fù)能力?

如何讓企業(yè)的災(zāi)備系統(tǒng)不成為一種擺設(shè),做到災(zāi)備建設(shè)心中有一桿秤?這是業(yè)界一直困擾和渴望解決的。如今,愛數(shù)提供了一種新思路,在業(yè)界率先將智能運維能力融入到災(zāi)備體系之中,為企業(yè)構(gòu)建可見的可恢復(fù)能力打開了新局面。

災(zāi)備不應(yīng)成為空中樓閣

過去幾年里,類似該區(qū)域性銀行的案例不在少數(shù),空有災(zāi)備體系,面對災(zāi)難/事故卻無能為力。

歸根結(jié)底,業(yè)務(wù)變化所帶來的復(fù)雜性與相對穩(wěn)固的災(zāi)備體系逐漸不匹配。一方面,各行各業(yè)數(shù)字化轉(zhuǎn)型和智能化升級,帶來的是業(yè)務(wù)場景數(shù)量、形態(tài)都在發(fā)生急速變化,以一個股份制銀行為例,其業(yè)務(wù)場景如今就超過300多個,類似因為疫情而興起的云柜員場景,也在銀行中迅速普及,新業(yè)務(wù)場景的井噴,帶來著數(shù)據(jù)量激增和數(shù)據(jù)類型更加豐富,也意味著帶來了新的災(zāi)備需求。

另一方面,企業(yè)的災(zāi)備體系一旦建立,往往是相對固定的,雖然也會有日常的一些演練,但是相比于動態(tài)快速變化的業(yè)務(wù)場景,已經(jīng)建成的災(zāi)備體系乃至災(zāi)備思維卻愈發(fā)難適應(yīng)這種變化,企業(yè)災(zāi)備體系并不知道未來備份存儲容量應(yīng)該如何規(guī)劃,也不知道災(zāi)備系統(tǒng)運行狀態(tài)如何,更不知道新增任務(wù)最合適的策略和恢復(fù)風(fēng)險評估。

過去,這些工作往往依賴于資深的災(zāi)備專家來完成。但顯然,業(yè)務(wù)的快速變化以及專家資源的稀缺,使得大部分企業(yè)都面臨著如何建立有效災(zāi)難恢復(fù)能力的挑戰(zhàn)。愛數(shù)資深災(zāi)備專家常華直言,投入巨資的災(zāi)備建設(shè),其核心訴求應(yīng)該是災(zāi)難恢復(fù)能力,當(dāng)前大部分企業(yè)都面臨著災(zāi)備資源可監(jiān)控但無法預(yù)測,災(zāi)備恢復(fù)能力水平難以評估、可恢復(fù)能力不可見等典型痛點。

而解決這些痛點的思路,就是將智能運維的理念、技術(shù)、方案引入到災(zāi)備體系之中,讓災(zāi)備恢復(fù)能力的指標(biāo)體系化,災(zāi)備運營更加智能化和可視化,徹底告別過去華而不實的“空中樓閣”建設(shè)現(xiàn)象。

智能運維為災(zāi)備打開新思路

智能運維的理念如今深深影響到數(shù)據(jù)中心的方方面面。

同樣,把智能運維的理念、技術(shù)和方案納入到災(zāi)備體系是否可行?愛數(shù)首先在業(yè)界做了嘗試,將AnyRobot與AnyBackup進(jìn)行緊密集成,為災(zāi)備體系融入了智能運維能力。AnyRobot是愛數(shù)開放、高效、經(jīng)濟(jì)的機(jī)器數(shù)據(jù)分析平臺,其目的是在海量機(jī)器數(shù)據(jù)中挖掘出價值。

首先,愛數(shù)基于多年面向大型客戶災(zāi)備建設(shè)的經(jīng)驗和積累的方案,對災(zāi)備體系中管理者、運維團(tuán)隊、審計人員等不同角色需求進(jìn)行調(diào)研,了解不同角色的需求。愛數(shù)技術(shù)專家表示,高層管理者更加關(guān)注數(shù)據(jù)是否可用、災(zāi)備體系的建設(shè)成效如何,而運維團(tuán)隊則更加關(guān)注備份、容災(zāi)的一些具體的操作、狀態(tài)和指標(biāo),愛數(shù)的AnyRobot增強(qiáng)災(zāi)難恢復(fù)解決方案基于這些需求基礎(chǔ)上進(jìn)行設(shè)計。

之后,針對愛數(shù)AnyBackup災(zāi)備環(huán)境,聚焦災(zāi)備恢復(fù)能力三個重要方面:災(zāi)備系統(tǒng)可用、災(zāi)備資源可用和可恢復(fù)能力,愛數(shù)進(jìn)行詳細(xì)的分析。例如,針對災(zāi)難恢復(fù)演練的分析,就極具價值,可以根據(jù)災(zāi)難恢復(fù)演練情況來分析企業(yè)相應(yīng)的可恢復(fù)能力。

此外,愛數(shù)對災(zāi)備執(zhí)行過程合規(guī)和災(zāi)備體系建設(shè)成效可視化兩個能力進(jìn)行增強(qiáng),讓災(zāi)備體系建設(shè)更加完善。愛數(shù)技術(shù)專家介紹,像災(zāi)備執(zhí)行過程所有任務(wù)、管理員操作過程是否合規(guī),將有助于進(jìn)一步提升災(zāi)難恢復(fù)能力。

在這些基礎(chǔ)上,愛數(shù)對于AnyBackup環(huán)境下災(zāi)備體系進(jìn)行指標(biāo)明細(xì)化,然后通過全面分析來幫助用戶增強(qiáng)系統(tǒng)災(zāi)難恢復(fù)能力。

AnyRobot讓災(zāi)備恢復(fù)能力可見

具體來看,愛數(shù)AnyRobot智能運維災(zāi)備解決方案從五個方面來徹底提升災(zāi)備恢復(fù)能力:

其一、實現(xiàn)了全面的基礎(chǔ)設(shè)施監(jiān)控,保障備份系統(tǒng)可用,包括CPU使用率、磁盤空間、讀寫狀態(tài)等,可以全面、及時了解備份系統(tǒng)各種資源的基本情況。

其二、實現(xiàn)對備份的存儲容量智能預(yù)測,避免資源儲備不足,例如云存儲、磁帶、磁盤等,基于當(dāng)前備份數(shù)據(jù)增長情況和剩余容量情況,管理員可以根據(jù)指標(biāo)情況進(jìn)行相應(yīng)操作。

其三、實現(xiàn)備份任務(wù)監(jiān)控分析,有效評估災(zāi)難恢復(fù)的風(fēng)險,對比歷史備份任務(wù)指標(biāo)和可用備份資源,給出新建備份任務(wù)窗口、數(shù)據(jù)恢復(fù)風(fēng)險評估等建議。眾所周知,備份容災(zāi)任務(wù)一旦增多,在成百上千個任務(wù)中發(fā)現(xiàn)問題對于管理員是個極大挑戰(zhàn),而通過智能手段來洞察備份中的異常,及時給出建議,將極大提升災(zāi)備恢復(fù)能力。

其四、對備份系統(tǒng)的管理員操作行為審計,確保備份數(shù)據(jù)安全。像對備份系統(tǒng)用戶登錄監(jiān)控、備份系統(tǒng)執(zhí)行操作命令監(jiān)控,及時了解操作情況和不合規(guī)情況。

其五、災(zāi)備體系監(jiān)控大屏,積累多個行業(yè)大屏模板,形成災(zāi)備運營的可視化。這其中,愛數(shù)與國內(nèi)領(lǐng)先的大數(shù)據(jù)BI廠商帆軟合作,共同為用戶構(gòu)建災(zāi)備運營的可視化,讓用戶對于災(zāi)備體系狀態(tài)一目了然。

總體來看,產(chǎn)業(yè)數(shù)字化和企業(yè)數(shù)字化轉(zhuǎn)型在不斷走向深入,業(yè)務(wù)連續(xù)性的重要性也日益突出,如何確保業(yè)務(wù)連續(xù)、提升用戶體驗,災(zāi)備體系的作用不可低估。面對數(shù)字化帶來的新場景、新需求、新痛點,必須要有新思路、新手段、新方案來解決,而愛數(shù)將AnyBackup與AnyRobot緊密集成,的確是提供了一種新思路,為用戶災(zāi)備恢復(fù)能力可見打開了新局面。面向未來,愛數(shù)的這種理念必然將惠及到更多行業(yè)用戶之中,其解決方案有望發(fā)揮更大價值。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2021-08-19
拒絕成為空中樓閣,智能運維為災(zāi)備建設(shè)打開新思路
愛數(shù)技術(shù)專家表示,高層管理者更加關(guān)注數(shù)據(jù)是否可用、災(zāi)備體系的建設(shè)成效如何,而運維團(tuán)隊則更加關(guān)注備份、容災(zāi)的一些具體的操作、狀態(tài)和指標(biāo),愛數(shù)的AnyRobot增強(qiáng)災(zāi)難恢復(fù)解決方案基于這些需求基礎(chǔ)上進(jìn)行設(shè)

長按掃碼 閱讀全文