可視化讓你一眼看出內(nèi)網(wǎng)故障

原標(biāo)題:可視化讓你一眼看出內(nèi)網(wǎng)故障

云計算時代的到來給人們帶來了很多便利,同時也帶來了挑戰(zhàn)。比如,硬件環(huán)境更加復(fù)雜、設(shè)備多樣、處理難度大,運行的平臺系統(tǒng)更加多樣化,需要更廣的知識面,對運維安全要求也更高,所以在云環(huán)境下,我們需要對云運維平臺進行可視化管理。

運維可視化核心是將所運維的服務(wù)、資源、設(shè)備的狀態(tài)和正在發(fā)生的事件通過可視化的手段呈現(xiàn)出來,指導(dǎo)運維人員或者產(chǎn)品研發(fā)人員做出正確的運維決策。某種程度上,云平臺的運維與可視化相輔相成,可視化程度越高,運維就越簡單,運維效率也就越高。

在云運維的工作范疇中,實時監(jiān)控對故障的發(fā)現(xiàn)和診斷起到至關(guān)重要的作用。今天,我們以私有云監(jiān)控中的一個重點場景——內(nèi)網(wǎng)監(jiān)控為例,來介紹可視化的重要作用(內(nèi)網(wǎng)指的是一個企業(yè)的內(nèi)部網(wǎng)絡(luò),包括機房內(nèi)部網(wǎng)絡(luò)和機房間的網(wǎng)絡(luò))。

異常事件可視化

當(dāng)運維工程師發(fā)現(xiàn)自己負(fù)責(zé)的系統(tǒng)出現(xiàn)故障時,檢查網(wǎng)絡(luò)連接是否有異常,是故障排查流程當(dāng)中的標(biāo)準(zhǔn)步驟。在這個場景中,工程師需要知道自己的系統(tǒng)所在的機房以及所依賴的網(wǎng)絡(luò)通路是否存在故障,所以希望內(nèi)網(wǎng)監(jiān)控系統(tǒng)提供一個網(wǎng)絡(luò)故障概覽,展示給定的時間段中相關(guān)機房的異常事件。

最簡單的方式是將所有的網(wǎng)絡(luò)故障展示在表格當(dāng)中。

如上表所示,每一行代表一個故障事件。

第一列表示故障關(guān)聯(lián)的機房

第二列表示故障的起止時間

第三列表示故障的嚴(yán)重程度

這種展現(xiàn)方式存在以下三個問題:

不能第一眼看出哪些故障嚴(yán)重,哪些故障輕微。

不能直觀感受到每個故障的持續(xù)時長。

很難知道在某一時刻哪幾個機房同時存在故障。

當(dāng)時間段很長,篩選出的故障事件很多時,表格會變得很長,就更加不利于工程師了解網(wǎng)絡(luò)狀況。

為解決以上問題,我們需要在機房、時間、 程度三個維度上都能直觀的展示故障事件。從時間跨度來想,有點像事件流的感覺,似乎可以用事件流圖來展示。

圖1 事件流圖

如圖1所示,事件流圖用一條事件河流來表示事件。河流被橫向切分為若干條色帶,每條色帶代表一個類別的事件。色帶的高度(河流的寬度)代表在某個時刻,各類別包含事件的個數(shù)。事件越多,河流越寬,反之越窄。

這種事件流圖適合展示在一段時間內(nèi)事件群體的統(tǒng)計變化,而我們需要能夠展示每個事件的個體信息。因此,我們對事件流圖作了幾個修改:

每個故障事件用一個矩形條表示,矩形條左右兩邊的位置對應(yīng)事件的起止時間。

矩形條的顏色用來區(qū)分事件的嚴(yán)重程度,而不是事件的類別。

關(guān)聯(lián)到某一個機房的故障事件矩形條放在河流的同一個高度位置。如果事件在時間上能完全錯開,則將矩形條左右放置。如果事件在時間上有重疊,則拓寬機房所占河流的寬度,將矩形條上下放置。

圖2 異常事件流圖

圖2展示了我們的事件流圖方案。

圖中展示了三個機房的異常,其中機房一有1個嚴(yán)重的異常事件(用紅色來標(biāo)識),這個異常事件是一個時間跨度比較長的嚴(yán)重異常事件。機房二有4個輕度的異常事件(用黃色標(biāo)識),這4個異常是時間跨度比較短的輕度異常事件,機房三有12個輕度的異常事件(用黃色標(biāo)識),這12個異常事件中也有三個時間跨度比較長的時間。如果鼠標(biāo)放置在異常事件矩形塊上,就能查看哪個機房出現(xiàn)異常。

通過這個圖,工程師可以很方便地看到每個機房的每個故障事件的詳細信息,比表格的方式直觀得多。

總 結(jié)

事件流圖,從機房、時間、異常程度三個維度都能直觀的展示故障事件,幫助工程師快速查看異常情況。其實,事件流圖還可以用于展示變更事件,甚至可以將變更事件與異常事件組合,讓工程師能一眼查看異常事件可能是由哪些變更事件引起的。

我們從智能運維場景中抽象出一些可視化組件,比如這里的事件流圖組件,再通過前端工程化工具把這些子元素串聯(lián)起來,構(gòu)建出前端統(tǒng)一展現(xiàn)層框架,后面我們會逐一介紹這些可視化組件與框架其他細節(jié)。

關(guān)于智能運維的后續(xù)文章,還請持續(xù)關(guān)注百度云微信公眾號。有問題可微信后臺留言,我們隨時解答。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-03-21
可視化讓你一眼看出內(nèi)網(wǎng)故障
為解決以上問題,我們需要在機房、時間、 程度三個維度上都能直觀的展示故障事件。

長按掃碼 閱讀全文