讓運維更智能 智能業(yè)務運維的AI之道

大數(shù)據(jù)技術和人工智能技術的高速發(fā)展,推動運維管理由傳統(tǒng)的人工運維向智能運維轉(zhuǎn)變。AIOps即Artificial Intelligence for IT Operations的縮寫,是把機器學習、深度學習等人工智能算法應用于IT運維工具和業(yè)務系統(tǒng)所采集的大型數(shù)據(jù)集,并嘗試模擬人類行為(如發(fā)現(xiàn)、判斷、響應)的智能化運維管理平臺。智能運維AIOps讓運維管理具備算法和機器學習能力,通過持續(xù)學習將運維人員從紛繁復雜的告警中解放出來、使運維變得智能化。據(jù)Gartner預測,2020年AIOps的采用率將會達到整個運維行業(yè)的40%。

人工智能在AIOps中的具體應用

傳統(tǒng)的運維方式在監(jiān)控、問題發(fā)現(xiàn)、告警以及故障處理等各個環(huán)節(jié)均存在明顯不足,需要大量依賴人的經(jīng)驗、工作效率低下,并且在數(shù)據(jù)采集、異常診斷分析、告警事件以及故障處理的效率等方面都有待提高。那么,以AI技術為支撐的AIOps是否能夠解決這些問題呢?下面我們從監(jiān)控、問題發(fā)現(xiàn)、告警以及處置這四個階段分別介紹AI技術在各階段的應用及價值。

讓運維更智能 智能業(yè)務運維的AI之道

智能化監(jiān)控

企業(yè)使用大量的監(jiān)控工具如APM、NPM、日志、DEM、基礎設施監(jiān)控等,來實現(xiàn)各個技術棧的監(jiān)控。然而大量無效/無用數(shù)據(jù)會增加后端數(shù)據(jù)處理的壓力,而數(shù)據(jù)的漏采可能導致問題、故障的漏報,此外監(jiān)控工具需要大量的人工調(diào)試配置、嚴重依賴運維人員的經(jīng)驗,人工成本巨大。在智能運維中,通過基于機器學習算法的智能數(shù)據(jù)采集器來實現(xiàn)智能的數(shù)據(jù)過濾、關鍵數(shù)據(jù)識別、采集密度與頻率調(diào)整以及采集服務器的性能均衡,從而提升數(shù)據(jù)采集的準確度、最小化人為干預程度、降低人力成本以及提高運維管理效能。

智能化問題發(fā)現(xiàn)

企業(yè)IT系統(tǒng)規(guī)模的擴大、運維環(huán)境的復雜化,使得運維人員從海量的數(shù)據(jù)中發(fā)現(xiàn)問題的難度也越來越大。AIOps可以通過智能異常檢測、故障關聯(lián)分析、故障根因分析和智能異常預測等能力,幫助運維人員快速定位問題、追溯故障根源,并實現(xiàn)故障的預測預警。

以智能異常檢測為例,通過基于密度算法的異常檢測(LOF)方法、基于Ensemble的快速異常檢測方法、基于歷史數(shù)據(jù)模型的異常檢測等方法等AI技術,能夠自動、實時、準確地從監(jiān)控數(shù)據(jù)中發(fā)現(xiàn)異常,為后續(xù)故障的分析與處理提供基礎。對故障進行根源分析是在眾多可能引起故障的因素中,追溯到導致故障發(fā)生的癥結(jié)所在,并找出根本性的解決方案。利用機器學習或者深度學習的方法可以找出不同因素的之間的強相關關系,并利用這些關系,推斷出哪些因素是根本性的因素,幫助用戶快速診斷問題、提高故障的定位速度以及修復效率。

此外,故障往往不是獨立存在的。海恩法則告訴我們,任何不安全的事故都可以預防。智能異常預測通過對重要特性數(shù)據(jù)進行預測算法學習來實現(xiàn)故障的提前診斷、從而避免損失。故障預測的場景包括:磁盤故障預測、網(wǎng)絡故障預測以及內(nèi)存泄露預測等,可以大幅度降低運維背鍋的風險。

智能化告警

傳統(tǒng)的告警管理一般使用固定閾值并且需要運維人員手動設置,這種方式不僅工作量巨大且十分依賴運維人員的經(jīng)驗,閾值設置不當可能導致告警風暴或者告警漏報等后果。當監(jiān)控環(huán)境發(fā)生變化時,原先的固定閾值無法滿足告警管理的要求。智能運維采用動態(tài)基線告警方式,智能分析數(shù)據(jù)的動態(tài)極限(即相對于歷史時刻,當前狀態(tài)的數(shù)據(jù)范圍),彌補了以往人為設置固定閾值的缺陷,智能地分析數(shù)據(jù)的發(fā)展趨勢以及分析數(shù)據(jù)動態(tài)極限,從而對告警做出智能的判斷。

各種監(jiān)控工具會產(chǎn)生海量的告警信息,這些告警信息中可能存在大量的冗余告警甚至形成告警風暴,對運維人員產(chǎn)生極大干擾,降低了運維工作的效率。智能運維針對短時、大量的、甚至是持續(xù)的冗余告警,可以通過相似度、相關性判斷對這些冗余告警進行合并,從而為運維人員提供有效的告警信息,能夠大幅降低運維工作的難度。

在運維管理中,如果一個告警長時間得不到解決,系統(tǒng)將該告警發(fā)送給上一級進行處理,這種告警策略即為告警升級。傳統(tǒng)運維中一般采用“固定時間區(qū)間”的方法設置告警升級策略,其潛在的遲滯性可能會對業(yè)務造成一定的損失。云智慧智能運維方案通過梳理性能與業(yè)務之間的關聯(lián)關系建立模型,當性能指標發(fā)生異常時分析對業(yè)務的影響程度,若影響程度超過條件時,自動升級告警事件,系統(tǒng)將升級事件通知發(fā)送給對應的告警組處理,避免因告警處理不及時帶來的業(yè)務損失。

智能化故障自動處理

傳統(tǒng)運維管理中對故障的處理非常依賴運維人員的經(jīng)驗,但人的經(jīng)驗無法覆蓋所有故障范圍,運維人員經(jīng)驗不足可能會使得運維效率低下或者產(chǎn)生錯誤決策。智能運維將API接入的實時監(jiān)測結(jié)果或者預測結(jié)果引入決策知識庫(智慧大腦)智能生成決策建議,并根據(jù)根據(jù)實際結(jié)果及趨勢判斷采用的處理策略,可以是人工處理或者自動處理,有效減少問題排查的時間、大幅提升問題解決的效率,提升企業(yè)運維的標準化程度。

智能運維AIOps的價值

得益于大數(shù)據(jù)、云計算以及人工智能技術的發(fā)展,使得大量依賴人腦決策以及手工操作的傳統(tǒng)IT運維模式快速地向如今的AIOps轉(zhuǎn)變。特別是以機器學習為主的人工智能技術的迅猛發(fā)展,幫助解決了傳統(tǒng)運維中的大量痛點,特別是在異常檢測、異常預測、關聯(lián)分析、根因分析、告警抑制、故障自動處理等多個方面和環(huán)節(jié)發(fā)揮作用。

讓運維更智能 智能業(yè)務運維的AI之道

以云智慧的某大型金融客戶為例,通過使用云智慧智能業(yè)務運維平臺,無論是整體運維工作效率,還是核心 KPI 都有大幅度的提升,同時IT運營也初步實現(xiàn)了數(shù)字化和智能化。在人工智能浪潮下,有了AI加持的智能業(yè)務運維可以為企業(yè)提供從智能告警、故障預測、故障檢測與分析、故障定位到故障處理的運維能力閉環(huán),幫助企業(yè)數(shù)字化轉(zhuǎn)型,實現(xiàn)業(yè)務的健康持續(xù)增長。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2018-08-31
讓運維更智能 智能業(yè)務運維的AI之道
大數(shù)據(jù)技術和人工智能技術的高速發(fā)展,推動運維管理由傳統(tǒng)的人工運維向智能運維轉(zhuǎn)變。

長按掃碼 閱讀全文