讓運(yùn)維由簡(jiǎn)化繁,內(nèi)網(wǎng)異常不用擔(dān)心,連通性矩陣圖一目了然

原標(biāo)題:讓運(yùn)維由簡(jiǎn)化繁,內(nèi)網(wǎng)異常不用擔(dān)心,連通性矩陣圖一目了然

在云環(huán)境下,云平臺(tái)的運(yùn)維更離不開(kāi)運(yùn)維可視化。在上次文章《智能運(yùn)維 | 可視化讓你一眼看出內(nèi)網(wǎng)故障》中,我們?cè)敿?xì)介紹了內(nèi)網(wǎng)可視化的事件流圖。本文繼續(xù)從可視化角度分析,百度內(nèi)網(wǎng)監(jiān)測(cè)系統(tǒng)(NetRadar)如何展示在某個(gè)時(shí)刻的內(nèi)網(wǎng)異常,從而讓運(yùn)維工程師直觀地了解情況。

什么是機(jī)房連通性可視化

當(dāng)運(yùn)維工程師發(fā)現(xiàn)自己的系統(tǒng)出現(xiàn)異常,并通過(guò)事件流圖得知內(nèi)網(wǎng)存在異常后,他需要進(jìn)一步得知這些異常影響了內(nèi)網(wǎng)的哪些部分,從而判斷內(nèi)網(wǎng)的異常是否造成了自己系統(tǒng)的故障。在這種情況下,運(yùn)維工程師希望能夠有一個(gè)視圖直觀地展示異常的影響范圍。具體來(lái)說(shuō)影響范圍包括:

  • 哪些機(jī)房之間的連通性有異常
  • 哪些機(jī)房的內(nèi)部網(wǎng)絡(luò)存在異常
  • 連通性異常是否是地域性的

備注:一個(gè)區(qū)域包含多個(gè)機(jī)房,比如華北區(qū)域包括4個(gè)機(jī)房,華東區(qū)域包括4個(gè)機(jī)房,華南區(qū)域包括3個(gè)機(jī)房。區(qū)域之間通常用跨區(qū)域的鏈路連接。跨區(qū)域鏈路出現(xiàn)故障時(shí),會(huì)導(dǎo)致兩個(gè)區(qū)域中的機(jī)房互相不能連通。

檢測(cè)可視化網(wǎng)絡(luò)狀態(tài)的方法包括兩種:圖(graph)和連通性矩陣。

  • 在圖中,每個(gè)節(jié)點(diǎn)代表一個(gè)網(wǎng)絡(luò)實(shí)體,比如交換機(jī)、路由器、主機(jī)等,每條邊代表網(wǎng)絡(luò)實(shí)體之間的鏈路。
  • 在連通性矩陣中,網(wǎng)絡(luò)實(shí)體對(duì)應(yīng)矩陣的行和列,矩陣中的元素表示所在行和列對(duì)應(yīng)的網(wǎng)絡(luò)實(shí)體之間的鏈路。

根據(jù)上述的需求,我們可以看出工程師們主要關(guān)注機(jī)房之間的連通性情況。如果用圖的方式表達(dá),就會(huì)形成一個(gè)全連通圖,圖中大量的邊不利于工程師掌握網(wǎng)絡(luò)總體狀態(tài)。因此,我們決定使用連通性矩陣的可視化方法。

1、連通性矩陣

假設(shè)有a1、a2、a3、a4四個(gè)機(jī)房,可以用一個(gè)4行4列連通性矩陣來(lái)表示,其中機(jī)房ai對(duì)應(yīng)矩陣中的第i行和第i列。矩陣中第i行第j列的元素描述的就是機(jī)房ai到機(jī)房aj的連通性狀態(tài),如下圖:

圖1 連通性矩陣

我們不妨用bij來(lái)表示矩陣中位于第i行第j列的元素。圖中存在一個(gè)紅色的圓點(diǎn),位于b32,以及一個(gè)灰色的三角形,位于b44。

b32的紅色的圓點(diǎn)代表機(jī)房a3到機(jī)房a2的鏈路出現(xiàn)了異常。在矩陣中,與b32對(duì)稱的元素b23代表的是機(jī)房a2到機(jī)房a3的鏈路狀態(tài)。b23和b32說(shuō)的都是機(jī)房a2和機(jī)房a3之間的鏈路,只是方向不同,這正好可以表達(dá)內(nèi)網(wǎng)監(jiān)控系統(tǒng)的探測(cè)方向。

為了探測(cè)網(wǎng)絡(luò)連通性,監(jiān)控系統(tǒng)在服務(wù)器之間發(fā)送探測(cè)包。比如,服務(wù)器x給服務(wù)器y發(fā)送了一個(gè)探測(cè)包,y收到探測(cè)包后給x發(fā)送一個(gè)響應(yīng)包。如果x收到了響應(yīng)包,就認(rèn)為x到y(tǒng)的鏈路沒(méi)有問(wèn)題。反過(guò)來(lái),y也可以給x發(fā)送探測(cè)包,x發(fā)送響應(yīng)包。這說(shuō)明內(nèi)網(wǎng)監(jiān)控系統(tǒng)的探測(cè)是存在方向性的。

所以圖中b32有紅點(diǎn),b23沒(méi)有點(diǎn)的意思就是:機(jī)房a3的服務(wù)器主動(dòng)發(fā)送探測(cè)包探測(cè)機(jī)房a2中的服務(wù)器,存在大量丟失響應(yīng)包或者延遲顯著增大的情況,連通性有異常;而機(jī)房a2的服務(wù)器主動(dòng)發(fā)送探測(cè)包探測(cè)機(jī)房a3中的服務(wù)器,響應(yīng)包基本都能正常到達(dá)。兩個(gè)探測(cè)方向結(jié)論不一致主要是由機(jī)房的網(wǎng)絡(luò)出口和入口設(shè)備不同,并且單一設(shè)備出故障導(dǎo)致。

b44的灰色三角形代表的是機(jī)房a4的機(jī)房?jī)?nèi)網(wǎng)絡(luò)存在異常。連通性矩陣的主對(duì)角線元素bii都代表機(jī)房?jī)?nèi)網(wǎng)絡(luò)的狀態(tài)。為了能夠與機(jī)房間網(wǎng)絡(luò)有更直觀的區(qū)分,我們選擇了三角形來(lái)表示。

最后,顏色代表了異常的程度,紅色代表異常程度比較嚴(yán)重,灰色代表異常程度比較輕微。所以圖1中a3到a2的機(jī)房間網(wǎng)絡(luò)存在比較嚴(yán)重的連通性異常,而a4的機(jī)房?jī)?nèi)網(wǎng)絡(luò)則存在比較輕微的連通性異常。

當(dāng)連通性矩陣中存在多個(gè)異常點(diǎn)時(shí),這些點(diǎn)可以形成特定的模式,分別代表不同的網(wǎng)絡(luò)問(wèn)題。

下面,我們就來(lái)分析幾種常見(jiàn)的模式。

2、單機(jī)房出/入口鏈路問(wèn)題

在連通性矩陣圖中,可能會(huì)出現(xiàn)整行紅色圓點(diǎn)。

圖2.1 單機(jī)房出口鏈路問(wèn)題

圖2.1存在三個(gè)紅色的圓點(diǎn),分別位于b31、b32、b34位置。這就是整行紅色圓點(diǎn)的情況。 每個(gè)點(diǎn)的含義如下:b31代表的是a3到a1的鏈路有異常,b32是a3到a2的鏈路有異常, b34 表示a3到a4鏈路有問(wèn)題, 從這幾個(gè)鏈路問(wèn)題來(lái)看,鏈路都是從a3出來(lái)的,所以a3的出口鏈路出現(xiàn)了故障。

當(dāng)然有可能出現(xiàn)整列紅色圓點(diǎn)的情況,如下圖所示:

圖2.2 單機(jī)房入口鏈路問(wèn)題

圖2.2的三個(gè)紅色圓點(diǎn),分別在b13、b23、b43位置。同理:b13表示a1到a3的鏈路有問(wèn)題, b23說(shuō)明a2到a3鏈路有故障, b43呈現(xiàn)a4到a3的鏈路問(wèn)題,這一列的鏈路問(wèn)題,說(shuō)明a3的入口鏈路出現(xiàn)的異常。

是不是有整行、整列的紅點(diǎn)情況呢?

圖2.3 單機(jī)房出入口鏈路問(wèn)題

圖2.3包含了6個(gè)紅色圓點(diǎn),是圖2.1與圖2.2的集合, 整行與整列的異常代表a3的出/入鏈路都出現(xiàn)異常。

3、單機(jī)房核心設(shè)備問(wèn)題

圖2.1、圖2.2、圖2.3都看到b33這個(gè)點(diǎn)是沒(méi)有狀態(tài)的,那如果在b33的點(diǎn)的異常情況也加上有表示什么呢?看如下可視化方式:

圖3 單機(jī)房核心設(shè)備問(wèn)題

圖3所示,除了圖2.2中的6個(gè)紅色圓點(diǎn),還在b33中有個(gè)紅色的三角,b33位置的三角剛好在矩陣圖的主對(duì)角線上,代表a3機(jī)房?jī)?nèi)網(wǎng)絡(luò)出現(xiàn)故障。圖3的6個(gè)紅色圓點(diǎn)說(shuō)明a3的出/入鏈路出現(xiàn)網(wǎng)絡(luò)異常,紅色三角說(shuō)明a3單機(jī)房核心設(shè)備也出現(xiàn)故障。

4、區(qū)域鏈路問(wèn)題

通常,網(wǎng)絡(luò)不是只在某一個(gè)區(qū)域,有可能同時(shí)有華北區(qū)域a1、a2、a3、a4四個(gè)機(jī)房,華東區(qū)域b1、b2、b3、b4四個(gè)機(jī)房,華南區(qū)域c1、c2、c3、c4四個(gè)機(jī)房,如下圖所示。

圖4.1 區(qū)域鏈路問(wèn)題

圖4.1,我們可以看出機(jī)房分別用三個(gè)顏色來(lái)標(biāo)識(shí):紫色、藍(lán)色、綠色。這幾個(gè)顏色在右上角有說(shuō)明分別代表華北區(qū)域、華東區(qū)域與華南區(qū)域。同時(shí),圖中在藍(lán)色區(qū)塊的華東區(qū)域(b1、b2、b3、b4機(jī)房)兩個(gè)區(qū)塊有大批紅點(diǎn)出現(xiàn),呈現(xiàn)兩個(gè)矩陣形狀的圓點(diǎn),這說(shuō)明華東區(qū)域的鏈路問(wèn)題導(dǎo)致機(jī)房互相不能連通。那如果,我們想對(duì)區(qū)域進(jìn)行篩選,只查看華北、華南的區(qū)域之間的情況呢?如下圖所示:

圖4.2 區(qū)域篩選鏈路問(wèn)題

如圖4.2中只有一個(gè)紅色三角與紅色圓點(diǎn),與圖4.1相比,這里篩選掉了圖4.1華東區(qū)域的所有異常。 我們從圖4.2中,能看到一個(gè)細(xì)節(jié)問(wèn)題,鼠標(biāo)移動(dòng)到異常點(diǎn)的時(shí)候,出現(xiàn)“進(jìn)入c3-a4機(jī)房詳情頁(yè) ”tooltip信息,點(diǎn)擊這個(gè)異常點(diǎn),可以進(jìn)一步查看這倆機(jī)房間的異常事件與相關(guān)的指標(biāo)趨勢(shì)。如果想要知道a4機(jī)房?jī)?nèi)的詳情,可以點(diǎn)擊這個(gè)異常點(diǎn)查看詳情,然后我們可以進(jìn)一步觀察a4內(nèi)部集群之間的網(wǎng)絡(luò)連通性, 集群的網(wǎng)絡(luò)連通性跟機(jī)房連通性矩陣的方式是一樣的,就不詳細(xì)展開(kāi)了。

總 結(jié)

矩陣圖的最大優(yōu)點(diǎn)在于,尋找對(duì)應(yīng)元素的交點(diǎn)很方便,而且不會(huì)遺漏,顯示對(duì)應(yīng)元素的關(guān)系也很清楚。所以是一種很好的方式來(lái)可視化機(jī)房連通性的異常狀況。從內(nèi)網(wǎng)連通性矩陣圖來(lái)看,可視化能讓運(yùn)維由繁化簡(jiǎn),關(guān)鍵是我們?nèi)绾螐臉I(yè)務(wù)角度出發(fā),用可視化手段來(lái)表達(dá)運(yùn)維數(shù)據(jù)。在智能運(yùn)維場(chǎng)景中,我們結(jié)合業(yè)務(wù),抽象出這些可視化組件,單獨(dú)看這些可視化組件沒(méi)那么神奇,但是如果我們把它們放在一起,就得到了運(yùn)維通用的解決方案。

后面我們還會(huì)持續(xù)發(fā)布可視化相關(guān)的文章,請(qǐng)關(guān)注百度云微信公眾號(hào)。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2019-04-10
讓運(yùn)維由簡(jiǎn)化繁,內(nèi)網(wǎng)異常不用擔(dān)心,連通性矩陣圖一目了然
當(dāng)連通性矩陣中存在多個(gè)異常點(diǎn)時(shí),這些點(diǎn)可以形成特定的模式,分別代表不同的網(wǎng)絡(luò)問(wèn)題。

長(zhǎng)按掃碼 閱讀全文