云智慧AIOps智能運維應(yīng)用實戰(zhàn)之統(tǒng)一告警

企業(yè)IT系統(tǒng)構(gòu)建是一個聚沙成塔的過程,伴隨業(yè)務(wù)規(guī)模的不斷增長,IT系統(tǒng)越來越多、IT架構(gòu)的復(fù)雜度呈指數(shù)級增長,運維部門承受著巨大的管理壓力,這就需要對離散的IT監(jiān)測系統(tǒng)和海量的告警數(shù)據(jù)進行統(tǒng)一的采集、處理和呈現(xiàn)。

云智慧基于大數(shù)據(jù)和機器學(xué)習(xí)算法構(gòu)建的智能運維統(tǒng)一告警平臺,能夠接入各種主流監(jiān)控系統(tǒng)的告警消息與數(shù)據(jù),實現(xiàn)統(tǒng)一的告警接入、發(fā)送與處理,幫助用戶打通數(shù)據(jù)孤島,建立統(tǒng)一標(biāo)準(zhǔn)與管理規(guī)范,減少對運維的事務(wù)性干擾,提升運維和企業(yè)運營的整體管理水平。

智能化統(tǒng)一告警管理典型應(yīng)用場景和需求分析

智能運維統(tǒng)一告警平臺廣泛適用于核心業(yè)務(wù)對IT的依賴程度較高,具有較大IT規(guī)模和較高IT成熟度的中大型企業(yè),非常重視IT效率對業(yè)務(wù)效能的提升,希望充分利用云計算、大數(shù)據(jù)、人工智能技術(shù),從而獲得互聯(lián)網(wǎng)+和數(shù)字化轉(zhuǎn)型的成功,然而在現(xiàn)實中常常具備以下場景特征:

業(yè)務(wù)系統(tǒng)繁多:包括企業(yè)HR系統(tǒng)、OA系統(tǒng)、財務(wù)系統(tǒng)、訂單系統(tǒng)、ERP系統(tǒng)、協(xié)同系統(tǒng)、進銷存系統(tǒng)等多個業(yè)務(wù)系統(tǒng);

IT系統(tǒng)規(guī)模復(fù)雜:IT系統(tǒng)的復(fù)雜性導(dǎo)致對應(yīng)的監(jiān)控系統(tǒng)繁多,監(jiān)控系統(tǒng)分散但關(guān)聯(lián)性很強,技術(shù)體系不統(tǒng)一,有些已非常陳舊;

運維壓力巨大:運維人員少,在多個監(jiān)控系統(tǒng)間往返,工作效率低,不斷受到業(yè)務(wù)部門的投訴和抱怨,績效考核難,流動性大,新人培養(yǎng)困難;

智能運維統(tǒng)一告警應(yīng)用場景和管理需求如下:

監(jiān)控系統(tǒng)離散,各個監(jiān)控系統(tǒng)的告警規(guī)則設(shè)置方式不同,告警消息分散存儲,不便于統(tǒng)一管理;

告警通知方式有限,基本采用郵件和短信告警,經(jīng)常會造成“告警風(fēng)暴”,各個業(yè)務(wù)系統(tǒng)的告警方式不同,無法自定義告警消息格式;

告警后定位問題困難,需要能夠快速知曉并定位問題,針對告警消息關(guān)聯(lián)定位到歷史快照;

缺少解決具體告警問題處理的自動化運維手段,針對 “模式化”問題,需要通過告警事件形成標(biāo)準(zhǔn)的自動化處置手段(如服務(wù)自動重啟)等;

缺乏統(tǒng)一的告警分析及處理平臺,缺少集中的告警事件消息的展現(xiàn)及處理界面,分散管理造成人工及管理成本的增加;

尚未建立健全面向標(biāo)準(zhǔn)規(guī)范的告警事件處理機制與流程,無法與企業(yè)的ITIL等事件管理流程及系統(tǒng)進行對接,無法形成面向問題事件分級處理的管理模型及支持面向運維人員的可量化KPI考核體系。

智能化統(tǒng)一告警管理解決方案

云智慧智能運維統(tǒng)一告警平臺可通過restAPI 、Agent 等采集方式實現(xiàn)多套監(jiān)控系統(tǒng)數(shù)據(jù)的統(tǒng)一接入告警平臺,形成統(tǒng)一派單、統(tǒng)一運維的效果,建立更加完整的監(jiān)控體系,幫助企業(yè)用戶達(dá)成六個“統(tǒng)一”:統(tǒng)一管理、統(tǒng)一規(guī)范、統(tǒng)一處理、統(tǒng)一展現(xiàn)、統(tǒng)一通道、統(tǒng)一權(quán)限。

云智慧AIOps智能運維應(yīng)用實戰(zhàn)之統(tǒng)一告警

整合主流的開源監(jiān)控工具及商用監(jiān)控產(chǎn)品,將以上各種監(jiān)控軟件采集的性能指標(biāo)參數(shù)通過該平臺進行統(tǒng)一的告警規(guī)則及發(fā)送、排班設(shè)定,同時也支持直接接入并發(fā)送這些監(jiān)控系統(tǒng)產(chǎn)生的告警消息;

支持手機短信、電子郵件、電話語音、企業(yè)微信、App推送等多種告警通知方式;

告警平臺能幫助用戶在一個統(tǒng)一平臺上可視化查看及管理IT系統(tǒng)的所有告警消息,基于可配置的問題事件等級管理及與外部系統(tǒng)的集成接口,幫助企業(yè)用戶形成標(biāo)準(zhǔn)的告警事件處理流程和考評體系。

統(tǒng)一告警平臺圍繞接入發(fā)現(xiàn)、設(shè)置部署、異常告警、關(guān)閉總結(jié)的閉環(huán)管理流程進行設(shè)計,幫助企業(yè)構(gòu)建包含“監(jiān)控、工單、自動化運維”等完整的運維支撐體系,達(dá)到設(shè)備接入可發(fā)現(xiàn)、無盲點,監(jiān)控手段同步跟進,異常情況及時預(yù)警,故障告警完整跟蹤,故障處理解決方案可歸檔的互聯(lián)網(wǎng)級運維響應(yīng)目標(biāo)。

智能化統(tǒng)一告警管理典型案例

某金融公司擁有50余套核心業(yè)務(wù)監(jiān)控系統(tǒng),并且每個系統(tǒng)會獨立的產(chǎn)生告警通知,當(dāng)出現(xiàn)大規(guī)模故障時,運維人員同時會收到來自各個系統(tǒng)的大量告警通知,對正常的工作造成了極大困擾。

云智慧AIOps智能運維應(yīng)用實戰(zhàn)之統(tǒng)一告警

通過部署云智慧智能告警平臺,利用 restAPI 、Agent 采集等方式對接各個監(jiān)控系統(tǒng),將各個系統(tǒng)的告警消息進行統(tǒng)一匯聚和整合,讓運維人員在一個平臺上接收、處理所有故障消息,配合前文提到的告警抑制和智能關(guān)聯(lián)分析功能,大幅縮短了整個運維團隊的平均接手時間(MTTA,Mean Time To Assistant縮寫),從過去的平均25分23秒降低到了4分16秒。

自2016年云智慧推出智能運維統(tǒng)一告警平臺以來,已經(jīng)在銀行、證券、保險、航空、醫(yī)藥、制造、新零售等數(shù)十個行業(yè)的上百家中大型客戶中得到了成功部署和良好運行。在2018年7月Gartner發(fā)表的《Hype Cycle for ICT in China, 2018》中,云智慧籍此平臺成為AIOps領(lǐng)域的Sample Vendors。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-12-14
云智慧AIOps智能運維應(yīng)用實戰(zhàn)之統(tǒng)一告警
企業(yè)IT系統(tǒng)構(gòu)建是一個聚沙成塔的過程,伴隨業(yè)務(wù)規(guī)模的不斷增長,IT系統(tǒng)越來越多、IT架構(gòu)的復(fù)雜度呈指數(shù)級增長,運維部門承受著巨大的管理壓力,這就需要對離散的IT

長按掃碼 閱讀全文