讓運維由簡化繁,內(nèi)網(wǎng)異常不用擔(dān)心,連通性矩陣圖一目了然

原標(biāo)題:讓運維由簡化繁,內(nèi)網(wǎng)異常不用擔(dān)心,連通性矩陣圖一目了然

在云環(huán)境下,云平臺的運維更離不開運維可視化。在上次文章《智能運維 | 可視化讓你一眼看出內(nèi)網(wǎng)故障》中,我們詳細(xì)介紹了內(nèi)網(wǎng)可視化的事件流圖。本文繼續(xù)從可視化角度分析,百度內(nèi)網(wǎng)監(jiān)測系統(tǒng)(NetRadar)如何展示在某個時刻的內(nèi)網(wǎng)異常,從而讓運維工程師直觀地了解情況。

什么是機房連通性可視化

當(dāng)運維工程師發(fā)現(xiàn)自己的系統(tǒng)出現(xiàn)異常,并通過事件流圖得知內(nèi)網(wǎng)存在異常后,他需要進一步得知這些異常影響了內(nèi)網(wǎng)的哪些部分,從而判斷內(nèi)網(wǎng)的異常是否造成了自己系統(tǒng)的故障。在這種情況下,運維工程師希望能夠有一個視圖直觀地展示異常的影響范圍。具體來說影響范圍包括:

  • 哪些機房之間的連通性有異常
  • 哪些機房的內(nèi)部網(wǎng)絡(luò)存在異常
  • 連通性異常是否是地域性的

備注:一個區(qū)域包含多個機房,比如華北區(qū)域包括4個機房,華東區(qū)域包括4個機房,華南區(qū)域包括3個機房。區(qū)域之間通常用跨區(qū)域的鏈路連接??鐓^(qū)域鏈路出現(xiàn)故障時,會導(dǎo)致兩個區(qū)域中的機房互相不能連通。

檢測可視化網(wǎng)絡(luò)狀態(tài)的方法包括兩種:圖(graph)和連通性矩陣。

  • 在圖中,每個節(jié)點代表一個網(wǎng)絡(luò)實體,比如交換機、路由器、主機等,每條邊代表網(wǎng)絡(luò)實體之間的鏈路。
  • 在連通性矩陣中,網(wǎng)絡(luò)實體對應(yīng)矩陣的行和列,矩陣中的元素表示所在行和列對應(yīng)的網(wǎng)絡(luò)實體之間的鏈路。

根據(jù)上述的需求,我們可以看出工程師們主要關(guān)注機房之間的連通性情況。如果用圖的方式表達(dá),就會形成一個全連通圖,圖中大量的邊不利于工程師掌握網(wǎng)絡(luò)總體狀態(tài)。因此,我們決定使用連通性矩陣的可視化方法。

1、連通性矩陣

假設(shè)有a1、a2、a3、a4四個機房,可以用一個4行4列連通性矩陣來表示,其中機房ai對應(yīng)矩陣中的第i行和第i列。矩陣中第i行第j列的元素描述的就是機房ai到機房aj的連通性狀態(tài),如下圖:

圖1 連通性矩陣

我們不妨用bij來表示矩陣中位于第i行第j列的元素。圖中存在一個紅色的圓點,位于b32,以及一個灰色的三角形,位于b44。

b32的紅色的圓點代表機房a3到機房a2的鏈路出現(xiàn)了異常。在矩陣中,與b32對稱的元素b23代表的是機房a2到機房a3的鏈路狀態(tài)。b23和b32說的都是機房a2和機房a3之間的鏈路,只是方向不同,這正好可以表達(dá)內(nèi)網(wǎng)監(jiān)控系統(tǒng)的探測方向。

為了探測網(wǎng)絡(luò)連通性,監(jiān)控系統(tǒng)在服務(wù)器之間發(fā)送探測包。比如,服務(wù)器x給服務(wù)器y發(fā)送了一個探測包,y收到探測包后給x發(fā)送一個響應(yīng)包。如果x收到了響應(yīng)包,就認(rèn)為x到y(tǒng)的鏈路沒有問題。反過來,y也可以給x發(fā)送探測包,x發(fā)送響應(yīng)包。這說明內(nèi)網(wǎng)監(jiān)控系統(tǒng)的探測是存在方向性的。

所以圖中b32有紅點,b23沒有點的意思就是:機房a3的服務(wù)器主動發(fā)送探測包探測機房a2中的服務(wù)器,存在大量丟失響應(yīng)包或者延遲顯著增大的情況,連通性有異常;而機房a2的服務(wù)器主動發(fā)送探測包探測機房a3中的服務(wù)器,響應(yīng)包基本都能正常到達(dá)。兩個探測方向結(jié)論不一致主要是由機房的網(wǎng)絡(luò)出口和入口設(shè)備不同,并且單一設(shè)備出故障導(dǎo)致。

b44的灰色三角形代表的是機房a4的機房內(nèi)網(wǎng)絡(luò)存在異常。連通性矩陣的主對角線元素bii都代表機房內(nèi)網(wǎng)絡(luò)的狀態(tài)。為了能夠與機房間網(wǎng)絡(luò)有更直觀的區(qū)分,我們選擇了三角形來表示。

最后,顏色代表了異常的程度,紅色代表異常程度比較嚴(yán)重,灰色代表異常程度比較輕微。所以圖1中a3到a2的機房間網(wǎng)絡(luò)存在比較嚴(yán)重的連通性異常,而a4的機房內(nèi)網(wǎng)絡(luò)則存在比較輕微的連通性異常。

當(dāng)連通性矩陣中存在多個異常點時,這些點可以形成特定的模式,分別代表不同的網(wǎng)絡(luò)問題。

下面,我們就來分析幾種常見的模式。

2、單機房出/入口鏈路問題

在連通性矩陣圖中,可能會出現(xiàn)整行紅色圓點。

圖2.1 單機房出口鏈路問題

圖2.1存在三個紅色的圓點,分別位于b31、b32、b34位置。這就是整行紅色圓點的情況。 每個點的含義如下:b31代表的是a3到a1的鏈路有異常,b32是a3到a2的鏈路有異常, b34 表示a3到a4鏈路有問題, 從這幾個鏈路問題來看,鏈路都是從a3出來的,所以a3的出口鏈路出現(xiàn)了故障。

當(dāng)然有可能出現(xiàn)整列紅色圓點的情況,如下圖所示:

圖2.2 單機房入口鏈路問題

圖2.2的三個紅色圓點,分別在b13、b23、b43位置。同理:b13表示a1到a3的鏈路有問題, b23說明a2到a3鏈路有故障, b43呈現(xiàn)a4到a3的鏈路問題,這一列的鏈路問題,說明a3的入口鏈路出現(xiàn)的異常。

是不是有整行、整列的紅點情況呢?

圖2.3 單機房出入口鏈路問題

圖2.3包含了6個紅色圓點,是圖2.1與圖2.2的集合, 整行與整列的異常代表a3的出/入鏈路都出現(xiàn)異常。

3、單機房核心設(shè)備問題

圖2.1、圖2.2、圖2.3都看到b33這個點是沒有狀態(tài)的,那如果在b33的點的異常情況也加上有表示什么呢?看如下可視化方式:

圖3 單機房核心設(shè)備問題

圖3所示,除了圖2.2中的6個紅色圓點,還在b33中有個紅色的三角,b33位置的三角剛好在矩陣圖的主對角線上,代表a3機房內(nèi)網(wǎng)絡(luò)出現(xiàn)故障。圖3的6個紅色圓點說明a3的出/入鏈路出現(xiàn)網(wǎng)絡(luò)異常,紅色三角說明a3單機房核心設(shè)備也出現(xiàn)故障。

4、區(qū)域鏈路問題

通常,網(wǎng)絡(luò)不是只在某一個區(qū)域,有可能同時有華北區(qū)域a1、a2、a3、a4四個機房,華東區(qū)域b1、b2、b3、b4四個機房,華南區(qū)域c1、c2、c3、c4四個機房,如下圖所示。

圖4.1 區(qū)域鏈路問題

圖4.1,我們可以看出機房分別用三個顏色來標(biāo)識:紫色、藍(lán)色、綠色。這幾個顏色在右上角有說明分別代表華北區(qū)域、華東區(qū)域與華南區(qū)域。同時,圖中在藍(lán)色區(qū)塊的華東區(qū)域(b1、b2、b3、b4機房)兩個區(qū)塊有大批紅點出現(xiàn),呈現(xiàn)兩個矩陣形狀的圓點,這說明華東區(qū)域的鏈路問題導(dǎo)致機房互相不能連通。那如果,我們想對區(qū)域進行篩選,只查看華北、華南的區(qū)域之間的情況呢?如下圖所示:

圖4.2 區(qū)域篩選鏈路問題

如圖4.2中只有一個紅色三角與紅色圓點,與圖4.1相比,這里篩選掉了圖4.1華東區(qū)域的所有異常。 我們從圖4.2中,能看到一個細(xì)節(jié)問題,鼠標(biāo)移動到異常點的時候,出現(xiàn)“進入c3-a4機房詳情頁 ”tooltip信息,點擊這個異常點,可以進一步查看這倆機房間的異常事件與相關(guān)的指標(biāo)趨勢。如果想要知道a4機房內(nèi)的詳情,可以點擊這個異常點查看詳情,然后我們可以進一步觀察a4內(nèi)部集群之間的網(wǎng)絡(luò)連通性, 集群的網(wǎng)絡(luò)連通性跟機房連通性矩陣的方式是一樣的,就不詳細(xì)展開了。

總 結(jié)

矩陣圖的最大優(yōu)點在于,尋找對應(yīng)元素的交點很方便,而且不會遺漏,顯示對應(yīng)元素的關(guān)系也很清楚。所以是一種很好的方式來可視化機房連通性的異常狀況。從內(nèi)網(wǎng)連通性矩陣圖來看,可視化能讓運維由繁化簡,關(guān)鍵是我們?nèi)绾螐臉I(yè)務(wù)角度出發(fā),用可視化手段來表達(dá)運維數(shù)據(jù)。在智能運維場景中,我們結(jié)合業(yè)務(wù),抽象出這些可視化組件,單獨看這些可視化組件沒那么神奇,但是如果我們把它們放在一起,就得到了運維通用的解決方案。

后面我們還會持續(xù)發(fā)布可視化相關(guān)的文章,請關(guān)注百度云微信公眾號。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-04-10
讓運維由簡化繁,內(nèi)網(wǎng)異常不用擔(dān)心,連通性矩陣圖一目了然
當(dāng)連通性矩陣中存在多個異常點時,這些點可以形成特定的模式,分別代表不同的網(wǎng)絡(luò)問題。

長按掃碼 閱讀全文