大數(shù)據(jù)技術(shù)和人工智能技術(shù)的高速發(fā)展,推動(dòng)運(yùn)維管理由傳統(tǒng)的人工運(yùn)維向智能運(yùn)維轉(zhuǎn)變。AIOps即Artificial Intelligence for IT Operations的縮寫,是把機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能算法應(yīng)用于IT運(yùn)維工具和業(yè)務(wù)系統(tǒng)所采集的大型數(shù)據(jù)集,并嘗試模擬人類行為(如發(fā)現(xiàn)、判斷、響應(yīng))的智能化運(yùn)維管理平臺(tái)。智能運(yùn)維AIOps讓運(yùn)維管理具備算法和機(jī)器學(xué)習(xí)能力,通過持續(xù)學(xué)習(xí)將運(yùn)維人員從紛繁復(fù)雜的告警中解放出來、使運(yùn)維變得智能化。據(jù)Gartner預(yù)測(cè),2020年AIOps的采用率將會(huì)達(dá)到整個(gè)運(yùn)維行業(yè)的40%。
人工智能在AIOps中的具體應(yīng)用
傳統(tǒng)的運(yùn)維方式在監(jiān)控、問題發(fā)現(xiàn)、告警以及故障處理等各個(gè)環(huán)節(jié)均存在明顯不足,需要大量依賴人的經(jīng)驗(yàn)、工作效率低下,并且在數(shù)據(jù)采集、異常診斷分析、告警事件以及故障處理的效率等方面都有待提高。那么,以AI技術(shù)為支撐的AIOps是否能夠解決這些問題呢?下面我們從監(jiān)控、問題發(fā)現(xiàn)、告警以及處置這四個(gè)階段分別介紹AI技術(shù)在各階段的應(yīng)用及價(jià)值。
智能化監(jiān)控
企業(yè)使用大量的監(jiān)控工具如APM、NPM、日志、DEM、基礎(chǔ)設(shè)施監(jiān)控等,來實(shí)現(xiàn)各個(gè)技術(shù)棧的監(jiān)控。然而大量無效/無用數(shù)據(jù)會(huì)增加后端數(shù)據(jù)處理的壓力,而數(shù)據(jù)的漏采可能導(dǎo)致問題、故障的漏報(bào),此外監(jiān)控工具需要大量的人工調(diào)試配置、嚴(yán)重依賴運(yùn)維人員的經(jīng)驗(yàn),人工成本巨大。在智能運(yùn)維中,通過基于機(jī)器學(xué)習(xí)算法的智能數(shù)據(jù)采集器來實(shí)現(xiàn)智能的數(shù)據(jù)過濾、關(guān)鍵數(shù)據(jù)識(shí)別、采集密度與頻率調(diào)整以及采集服務(wù)器的性能均衡,從而提升數(shù)據(jù)采集的準(zhǔn)確度、最小化人為干預(yù)程度、降低人力成本以及提高運(yùn)維管理效能。
智能化問題發(fā)現(xiàn)
企業(yè)IT系統(tǒng)規(guī)模的擴(kuò)大、運(yùn)維環(huán)境的復(fù)雜化,使得運(yùn)維人員從海量的數(shù)據(jù)中發(fā)現(xiàn)問題的難度也越來越大。AIOps可以通過智能異常檢測(cè)、故障關(guān)聯(lián)分析、故障根因分析和智能異常預(yù)測(cè)等能力,幫助運(yùn)維人員快速定位問題、追溯故障根源,并實(shí)現(xiàn)故障的預(yù)測(cè)預(yù)警。
以智能異常檢測(cè)為例,通過基于密度算法的異常檢測(cè)(LOF)方法、基于Ensemble的快速異常檢測(cè)方法、基于歷史數(shù)據(jù)模型的異常檢測(cè)等方法等AI技術(shù),能夠自動(dòng)、實(shí)時(shí)、準(zhǔn)確地從監(jiān)控?cái)?shù)據(jù)中發(fā)現(xiàn)異常,為后續(xù)故障的分析與處理提供基礎(chǔ)。對(duì)故障進(jìn)行根源分析是在眾多可能引起故障的因素中,追溯到導(dǎo)致故障發(fā)生的癥結(jié)所在,并找出根本性的解決方案。利用機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)的方法可以找出不同因素的之間的強(qiáng)相關(guān)關(guān)系,并利用這些關(guān)系,推斷出哪些因素是根本性的因素,幫助用戶快速診斷問題、提高故障的定位速度以及修復(fù)效率。
此外,故障往往不是獨(dú)立存在的。海恩法則告訴我們,任何不安全的事故都可以預(yù)防。智能異常預(yù)測(cè)通過對(duì)重要特性數(shù)據(jù)進(jìn)行預(yù)測(cè)算法學(xué)習(xí)來實(shí)現(xiàn)故障的提前診斷、從而避免損失。故障預(yù)測(cè)的場(chǎng)景包括:磁盤故障預(yù)測(cè)、網(wǎng)絡(luò)故障預(yù)測(cè)以及內(nèi)存泄露預(yù)測(cè)等,可以大幅度降低運(yùn)維背鍋的風(fēng)險(xiǎn)。
智能化告警
傳統(tǒng)的告警管理一般使用固定閾值并且需要運(yùn)維人員手動(dòng)設(shè)置,這種方式不僅工作量巨大且十分依賴運(yùn)維人員的經(jīng)驗(yàn),閾值設(shè)置不當(dāng)可能導(dǎo)致告警風(fēng)暴或者告警漏報(bào)等后果。當(dāng)監(jiān)控環(huán)境發(fā)生變化時(shí),原先的固定閾值無法滿足告警管理的要求。智能運(yùn)維采用動(dòng)態(tài)基線告警方式,智能分析數(shù)據(jù)的動(dòng)態(tài)極限(即相對(duì)于歷史時(shí)刻,當(dāng)前狀態(tài)的數(shù)據(jù)范圍),彌補(bǔ)了以往人為設(shè)置固定閾值的缺陷,智能地分析數(shù)據(jù)的發(fā)展趨勢(shì)以及分析數(shù)據(jù)動(dòng)態(tài)極限,從而對(duì)告警做出智能的判斷。
各種監(jiān)控工具會(huì)產(chǎn)生海量的告警信息,這些告警信息中可能存在大量的冗余告警甚至形成告警風(fēng)暴,對(duì)運(yùn)維人員產(chǎn)生極大干擾,降低了運(yùn)維工作的效率。智能運(yùn)維針對(duì)短時(shí)、大量的、甚至是持續(xù)的冗余告警,可以通過相似度、相關(guān)性判斷對(duì)這些冗余告警進(jìn)行合并,從而為運(yùn)維人員提供有效的告警信息,能夠大幅降低運(yùn)維工作的難度。
在運(yùn)維管理中,如果一個(gè)告警長(zhǎng)時(shí)間得不到解決,系統(tǒng)將該告警發(fā)送給上一級(jí)進(jìn)行處理,這種告警策略即為告警升級(jí)。傳統(tǒng)運(yùn)維中一般采用“固定時(shí)間區(qū)間”的方法設(shè)置告警升級(jí)策略,其潛在的遲滯性可能會(huì)對(duì)業(yè)務(wù)造成一定的損失。云智慧智能運(yùn)維方案通過梳理性能與業(yè)務(wù)之間的關(guān)聯(lián)關(guān)系建立模型,當(dāng)性能指標(biāo)發(fā)生異常時(shí)分析對(duì)業(yè)務(wù)的影響程度,若影響程度超過條件時(shí),自動(dòng)升級(jí)告警事件,系統(tǒng)將升級(jí)事件通知發(fā)送給對(duì)應(yīng)的告警組處理,避免因告警處理不及時(shí)帶來的業(yè)務(wù)損失。
智能化故障自動(dòng)處理
傳統(tǒng)運(yùn)維管理中對(duì)故障的處理非常依賴運(yùn)維人員的經(jīng)驗(yàn),但人的經(jīng)驗(yàn)無法覆蓋所有故障范圍,運(yùn)維人員經(jīng)驗(yàn)不足可能會(huì)使得運(yùn)維效率低下或者產(chǎn)生錯(cuò)誤決策。智能運(yùn)維將API接入的實(shí)時(shí)監(jiān)測(cè)結(jié)果或者預(yù)測(cè)結(jié)果引入決策知識(shí)庫(智慧大腦)智能生成決策建議,并根據(jù)根據(jù)實(shí)際結(jié)果及趨勢(shì)判斷采用的處理策略,可以是人工處理或者自動(dòng)處理,有效減少問題排查的時(shí)間、大幅提升問題解決的效率,提升企業(yè)運(yùn)維的標(biāo)準(zhǔn)化程度。
智能運(yùn)維AIOps的價(jià)值
得益于大數(shù)據(jù)、云計(jì)算以及人工智能技術(shù)的發(fā)展,使得大量依賴人腦決策以及手工操作的傳統(tǒng)IT運(yùn)維模式快速地向如今的AIOps轉(zhuǎn)變。特別是以機(jī)器學(xué)習(xí)為主的人工智能技術(shù)的迅猛發(fā)展,幫助解決了傳統(tǒng)運(yùn)維中的大量痛點(diǎn),特別是在異常檢測(cè)、異常預(yù)測(cè)、關(guān)聯(lián)分析、根因分析、告警抑制、故障自動(dòng)處理等多個(gè)方面和環(huán)節(jié)發(fā)揮作用。
以云智慧的某大型金融客戶為例,通過使用云智慧智能業(yè)務(wù)運(yùn)維平臺(tái),無論是整體運(yùn)維工作效率,還是核心 KPI 都有大幅度的提升,同時(shí)IT運(yùn)營(yíng)也初步實(shí)現(xiàn)了數(shù)字化和智能化。在人工智能浪潮下,有了AI加持的智能業(yè)務(wù)運(yùn)維可以為企業(yè)提供從智能告警、故障預(yù)測(cè)、故障檢測(cè)與分析、故障定位到故障處理的運(yùn)維能力閉環(huán),幫助企業(yè)數(shù)字化轉(zhuǎn)型,實(shí)現(xiàn)業(yè)務(wù)的健康持續(xù)增長(zhǎng)。
- 小米召回SU7標(biāo)準(zhǔn)版車型,春運(yùn)低價(jià)票來襲,12306客服回應(yīng),你怎么看?
- 智譜管理層變動(dòng)引關(guān)注:兩名高管離職,公司未來走向成謎
- 特斯拉召回超120萬輛汽車:安全隱患不容忽視
- 小米召回SU7標(biāo)準(zhǔn)版車型:OTA升級(jí)解決,這次為何小米首度召回?
- Anthropic推出全新API:AI信息驗(yàn)證之戰(zhàn)再掀波瀾
- 未來解碼:英偉達(dá)引領(lǐng)機(jī)器人技術(shù)產(chǎn)業(yè)融合,智造新篇章
- 網(wǎng)易云下架SM娛樂版權(quán)歌曲:數(shù)百萬用戶將受影響,版權(quán)之爭(zhēng)再起波瀾
- 百川智能全新模型Baichuan-M1:顛覆醫(yī)療循證模式,三大推理能力引領(lǐng)全場(chǎng)景深度思考
- 武漢阿里巴巴總部即將亮相,共繪數(shù)字產(chǎn)業(yè)新藍(lán)圖
- iPhone 16在禁令后苦盡甘來:蘋果即將與印尼達(dá)成協(xié)議,解禁在望
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。