為什么你的分布式數(shù)據(jù)中心需要一個全棧智能運(yùn)維平臺?

出于對業(yè)務(wù)連續(xù)性和數(shù)據(jù)安全性的考慮,越來越多的用戶選擇建設(shè)分布式數(shù)據(jù)中心來作為災(zāi)備節(jié)點。而隨著分布式數(shù)據(jù)中心越來越多,企業(yè)及其運(yùn)維人員也面臨越來越多的難題:

  缺乏統(tǒng)一的運(yùn)維管理

分布式數(shù)據(jù)中心沒有專業(yè)運(yùn)維人員,難以運(yùn)維包含服務(wù)器、桌面等復(fù)雜的IT系統(tǒng);IT建設(shè)“各自為政”,缺乏統(tǒng)一的管理規(guī)劃,運(yùn)維管理成本高;辦公終端部署在不同地理位置,維護(hù)周期長,造成業(yè)務(wù)中斷,影響辦公效率。

傳統(tǒng)組網(wǎng)方式運(yùn)維復(fù)雜

分布式數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)備遠(yuǎn)程運(yùn)維復(fù)雜,難以統(tǒng)一策略下發(fā),廣域網(wǎng)鏈路、應(yīng)用難以可視化監(jiān)控;廣域網(wǎng)安全流量無法可視分析,分支容易被潛伏威脅當(dāng)做跳板攻擊總部,且難以發(fā)現(xiàn)和處置。

缺乏統(tǒng)一的業(yè)務(wù)支撐架構(gòu)

分布式數(shù)據(jù)中心業(yè)務(wù)和數(shù)據(jù)之間存在孤島,導(dǎo)致其與總部數(shù)據(jù)中心無法形成業(yè)務(wù)協(xié)同和數(shù)據(jù)協(xié)同;非云化數(shù)據(jù)中心更新難,不能有效保障應(yīng)用、漏洞、補(bǔ)丁的上傳下達(dá)。

日益嚴(yán)重的安全威脅

分布式數(shù)據(jù)中心缺乏員工準(zhǔn)入規(guī)則,導(dǎo)致其成為全網(wǎng)安全的薄弱點;如果能構(gòu)建統(tǒng)一安全入口,就可以降低數(shù)據(jù)丟失風(fēng)險。

這些問題的存在,要求分布式數(shù)據(jù)中心要建立起一套統(tǒng)一的、全棧的、運(yùn)維管理體系。

信服云托管云以穩(wěn)定的通信網(wǎng)、集約高效的管理服務(wù)信息系統(tǒng)和高科技IT設(shè)施設(shè)備為技術(shù)核心,以信息感知、趨勢預(yù)測、資源共享為應(yīng)用重點,結(jié)合互聯(lián)網(wǎng)、大數(shù)據(jù)技術(shù),集中海量數(shù)據(jù)跨行業(yè)、跨部門高度共享,實現(xiàn)對分布式數(shù)據(jù)中心業(yè)務(wù)透徹全面、實時智能的感知或預(yù)測趨勢。通過統(tǒng)一管理、統(tǒng)一運(yùn)維,以及標(biāo)準(zhǔn)化的運(yùn)維流程和智能化的監(jiān)控與事件分析,提高運(yùn)維效率、降低運(yùn)維成本。

綜合考慮網(wǎng)絡(luò)安全等級保護(hù)要求和業(yè)務(wù)應(yīng)用的實際需求,提供事前防御、事中控制、事后審計全方位保障,提高信息安全防護(hù)能力。同時提供可靠的數(shù)據(jù)備份與業(yè)務(wù)容災(zāi)機(jī)制,保障業(yè)務(wù)連續(xù)性。

信服云托管云采用超融合架構(gòu),構(gòu)建分布式云化資源池,融合計算、存儲、網(wǎng)絡(luò)基礎(chǔ)設(shè)施資源,承載云計算管理平臺以提供對的分支節(jié)點監(jiān)控、管理及運(yùn)維服務(wù)。

對于核心業(yè)務(wù)承載需求,云化資源池可以實現(xiàn)平滑的線性擴(kuò)容,為業(yè)務(wù)系統(tǒng)提供充足的IaaS層資源,同時結(jié)合數(shù)據(jù)庫管理平臺、大數(shù)據(jù)服務(wù)、桌面云等提供豐富的PaaS層服務(wù)。

托管云SCC管理中心統(tǒng)一運(yùn)維、遠(yuǎn)程升級乃至應(yīng)用推送,副中心無需專業(yè)IT人員,采用自動化的手段,降低總部人員對大量邊緣節(jié)點的運(yùn)維的難度。分支節(jié)點開箱即用,新業(yè)務(wù)上線時間縮短70%,日常運(yùn)維效率提升50%以上。

托管云智能運(yùn)維平臺融合AIOps智能算法與專家規(guī)則,覆蓋托管云62%+故障問題,實現(xiàn)了各類網(wǎng)絡(luò)、硬件可靠性、存儲、計算卡慢問題的檢測與分析能力。

可以提前感知各類資源使用異常,實現(xiàn)了多項基于AI預(yù)測的調(diào)度優(yōu)化能力,用于避免故障與卡慢問題的發(fā)生。

還可以提前預(yù)測虛擬網(wǎng)絡(luò)發(fā)生性能瓶頸和資源不足的風(fēng)險,預(yù)測租戶彈性EIP的流量大小并推薦帶寬,輔助SRE提前執(zhí)行帶寬規(guī)劃業(yè)務(wù),避免由于EIP資源和帶寬不足導(dǎo)致發(fā)生無法新開租戶或租戶業(yè)務(wù)卡頓的故障。

一、OneAgent能力

可觀測性是運(yùn)維的基礎(chǔ),它是通過檢查其輸出來衡量系統(tǒng)內(nèi)部狀態(tài)的能?。為了實現(xiàn)系統(tǒng)的可觀測性,需要使用多個采集器,造成資源浪費(fèi)。

雖然國內(nèi)外都有大量的數(shù)據(jù)采集器,但大多數(shù)采集能力單一,比如 Telegraf 僅支持指標(biāo),F(xiàn)ilebeat只服務(wù)日志,OpenTelemetry 的 Collector 對非云原生的組件并不友好,需要大量安裝 Exporter 插件。

Octopus是深信服ACMP&創(chuàng)新研究院自研的可觀測數(shù)據(jù)采集Agent,擁有的輕量級、高性能、自動化配置等諸多生產(chǎn)級別特性,可以署于物理機(jī)、虛擬機(jī)、Kubernetes等多種環(huán)境中來采集數(shù)據(jù),真正實現(xiàn)了一體化各種環(huán)境(傳統(tǒng)環(huán)境,云/云原生)統(tǒng)一數(shù)據(jù)采集,一個進(jìn)程或 Daemonset Pod 就可以實現(xiàn)全方位的數(shù)據(jù)采集,配置體驗良好,可擴(kuò)展性強(qiáng)。

二、資源預(yù)測和處置推薦

隨著用戶業(yè)務(wù)的發(fā)展,托管云上的計算、存儲等資源都需要進(jìn)行相應(yīng)的優(yōu)化調(diào)整。資源的配置優(yōu)化需要滿足業(yè)務(wù)的兩個要求:足夠的資源,保證業(yè)務(wù)的穩(wěn)定性;盡可能節(jié)約成本,但目前的難題是:無法提前感知計算、存儲資源的未來風(fēng)險;無法獲得計算、存儲資源未來風(fēng)險的處置建議;無法對閑置資源提前預(yù)估,因而造成IT成本上升。

“資源預(yù)測”功能在增加用戶對計算、存儲資源未來風(fēng)險感知能力的同時,提供了明確的資源配置建議,降低因資源不足導(dǎo)致的故障發(fā)生頻率,提前規(guī)避因業(yè)務(wù)不足導(dǎo)致的業(yè)務(wù)中斷或資源過剩造成成本上升的問題。

↑ 資源預(yù)測功能界面展示

另外,當(dāng)資源過剩時,也可基于智能算法對閑置虛擬機(jī)進(jìn)行識別,回收對應(yīng)的資源池或服務(wù)器資源。以檢測深信服的客戶業(yè)務(wù)系統(tǒng)虛擬機(jī)4K+為例,經(jīng)虛擬機(jī)閑置識別檢測,發(fā)現(xiàn)并處置(含縮容和關(guān)機(jī))130+臺,0負(fù)面反饋。

↑ 閑置虛擬機(jī)識別功能界面展示

三、資源競爭感知與負(fù)載均衡能力

隨著虛擬機(jī)的新建、開關(guān)機(jī)及其自身負(fù)載的變化,集群主機(jī)間總是面臨負(fù)載不均問題,從而導(dǎo)致資源競爭,業(yè)務(wù)性能受到嚴(yán)重影響。

準(zhǔn)確、及時甚至提前感知資源競爭,采取高效的負(fù)載均衡策略,可為核心業(yè)務(wù)提供長期穩(wěn)定的性能保障。

為解決上述問題,該平臺實現(xiàn)了DRS:資源競爭感知與附在均衡能力。

引入多項核心指標(biāo)分析資源競爭與業(yè)務(wù)真實資源需求,基于負(fù)載變化預(yù)測結(jié)果搜索最佳負(fù)載均衡策略?;?a href="http://m.ygpos.cn/AI_1.html" target="_blank" class="keylink">AI預(yù)測的DRS可快速甚至提前感知資源競爭,及時進(jìn)行負(fù)載調(diào)度,降低業(yè)務(wù)受到資源競爭影響的時間?;贏I負(fù)載變化分析與Cost-Benefit模型的調(diào)度策略,可大幅提升單次調(diào)度帶來的收益,減少業(yè)務(wù)遭受資源競爭的頻率。

↑ 資源競爭告警與負(fù)載均衡調(diào)度建議展示

以上就是關(guān)于分布式數(shù)據(jù)中心全棧智能運(yùn)維平臺的介紹,本期內(nèi)容還有信服云托管云運(yùn)維可控技術(shù)負(fù)責(zé)人Will的視頻直播分享,在“深信服科技”公眾號可以觀看回放。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )