云智慧AIOps智能運維應用實戰(zhàn)之智能關聯(lián)分析

從信息化時代開始,企業(yè)IT系統(tǒng)就在不斷的生產(chǎn)著各種監(jiān)控數(shù)據(jù)和業(yè)務數(shù)據(jù),但信息孤島的存在和數(shù)據(jù)處理能力的限制,讓無數(shù)企業(yè)空守寶山而無用。時至今日,雖然橫向擴展的分布式架構、通用靈活的云計算系統(tǒng)得到廣泛普及,但是IT數(shù)據(jù)所提供的業(yè)務價值不但沒有提升,反而因為數(shù)據(jù)量的指數(shù)增長和雙模IT(Bimodal IT),數(shù)據(jù)豎井(Data Silos)的問題愈發(fā)嚴重。

云智慧AIOps智能運維應用實戰(zhàn)之智能關聯(lián)分析

智能關聯(lián)分析與上一篇《云智慧AIOps智能運維應用實戰(zhàn)之告警抑制》是相輔相成的,告警消息通過有效的關聯(lián),獲得更高的壓縮比;而關聯(lián)分析所面向的數(shù)據(jù)不但來自于告警抑制輸出的警報,還有日志數(shù)據(jù)、業(yè)務指標數(shù)據(jù)等,因此部署了告警抑制之后,可通過智能關聯(lián)分析獲得更有價值的數(shù)據(jù)結果。

智能關聯(lián)分析的典型應用場景

企業(yè)的應用系統(tǒng)架構復雜,技術體系多樣,離散地采用了多種監(jiān)控系統(tǒng)來實現(xiàn)不同的技術棧監(jiān)控,如基礎設施與服務采用開源的Zabbix、第三方的監(jiān)控寶,網(wǎng)絡監(jiān)控使用Solarwinds軟件,應用性能管理采用透視寶等,還有一些業(yè)務和性能使用日志分析的手段進行監(jiān)控。

云智慧AIOps智能運維應用實戰(zhàn)之智能關聯(lián)分析

在常規(guī)的運維工作中,由于業(yè)務系統(tǒng)的拓撲結構非常復雜,當不同監(jiān)控系統(tǒng)產(chǎn)生大量監(jiān)控數(shù)據(jù)并生成警報時,運維人員很難判斷警報的分布范圍以及各個警報之間的關系。云智慧AIOps智能運維平臺智能關聯(lián)分析,利用大數(shù)據(jù)分析和機器學習等人工智能方法,對客戶現(xiàn)有的業(yè)務、設備、網(wǎng)絡拓撲圖等信息進行自動梳理,形成業(yè)務邏輯拓撲關系圖,將雜亂的IT數(shù)據(jù)和業(yè)務數(shù)據(jù)進行分類,并與拓撲關系圖中的節(jié)點匹配,幫助運維人員明確故障的根本原因和影響范圍,提升運維效率。

智能關聯(lián)分析的特色和價值

云智慧AIOps智能運維平臺的智能關聯(lián)分析產(chǎn)品對于IT運維管理人員具有以下特色和價值:

離散數(shù)據(jù)的多維聚合分析,尋找根源問題更加全面

從應用性能管理軟件、系統(tǒng)日志、Zabbix等多種監(jiān)控系統(tǒng)中采集性能數(shù)據(jù),在采集過程中實時對指標進行各個維度的標定并建立關聯(lián)關系,通過關系對各個技術棧進行全局分析,這種方法突破了原有方法分析問題的局限,幫助用戶快速診斷出問題并進行修復。

精準定位故障,有助于快速處置

利用云智慧大數(shù)據(jù)平臺PB級數(shù)據(jù)處理能力,采用機器學習的方法建立多指標關聯(lián)分析模型,全面而精準地從單一用戶視角來追蹤故障問題,使用故障根因自動定位技術能夠提高故障定位速度,從而提高業(yè)務可用性。

不僅基于單純的時間切片方法構建關系,還利用了應用調(diào)用鏈關系、基于聚類等職能分析算法的自動關系發(fā)現(xiàn)與構建算法,從而提升了關系構建的完備性和準確性。

此外,云智慧AIOps智能運維平臺智能關聯(lián)分析,還能以業(yè)務鏈上每個對象的KPI的變化進行監(jiān)控和關聯(lián)分析,幫助業(yè)務部門掌握業(yè)務運行規(guī)律,降低業(yè)務運營風險。

智能關聯(lián)分析典型案例

云智慧某大型金融客戶的業(yè)務生產(chǎn)環(huán)境有基礎硬件上千臺,各個業(yè)務系統(tǒng)的依賴與調(diào)用關系非常復雜。當出現(xiàn)問題時,往往需要數(shù)小時才能對故障進行定位,并且過程中需要協(xié)調(diào)研發(fā)、運維等多個部門的人員來進行,整體效率低。

云智慧AIOps智能運維應用實戰(zhàn)之智能關聯(lián)分析

通過已有的 APM、基礎設施監(jiān)控等監(jiān)控系統(tǒng),獲取各個業(yè)務的內(nèi)部拓撲關系,然后根據(jù)業(yè)務鏈整理出核心業(yè)務拓撲圖十幾個,分別將這些拓撲圖導入云智慧AIOps智能運維平臺,并為每個拓撲圖中的節(jié)點設置告警匹配的條件,實現(xiàn)告警消息與業(yè)務拓撲的配置。最后,將告警事件匹配到拓撲中,運維人員可以在故障發(fā)生時,通過智能關聯(lián)分析功能,迅速定位根因和故障的影響范圍。

在實際的生產(chǎn)過程中,該企業(yè)的故障修復時間一般為數(shù)小時到1天不等。而使用云智慧AIOps智能運維平臺智能關聯(lián)分析之后,大規(guī)模故障的修復時間有效地減少到了一小時以內(nèi),完成問題定位、止損以及故障修復的全部工作。

總結

云智慧智能運維AIOps平臺智能關聯(lián)分析,以企業(yè)現(xiàn)有IT監(jiān)控數(shù)據(jù)、日志數(shù)據(jù)和業(yè)務數(shù)據(jù)為突破點,通過應用高性能大數(shù)據(jù)處理和人工智能技術,對業(yè)務、應用、設備、網(wǎng)絡等信息進行智能化梳理和邏輯關聯(lián),建立數(shù)據(jù)層的拓撲關系,消除IT數(shù)據(jù)內(nèi)部和業(yè)務數(shù)據(jù)之間的斷層,深入發(fā)現(xiàn)IT數(shù)據(jù)的核心價值,成為企業(yè)打破IT系統(tǒng)之間的數(shù)據(jù)豎井壁壘的最佳選擇。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2018-11-09
云智慧AIOps智能運維應用實戰(zhàn)之智能關聯(lián)分析
從信息化時代開始,企業(yè)IT系統(tǒng)就在不斷的生產(chǎn)著各種監(jiān)控數(shù)據(jù)和業(yè)務數(shù)據(jù),但信息孤島的存在和數(shù)據(jù)處理能力的限制,讓無數(shù)企業(yè)空守寶山而無用。

長按掃碼 閱讀全文