智能運(yùn)維:從場(chǎng)景中積蓄運(yùn)維變革的未來

伴隨金融機(jī)構(gòu)數(shù)字化轉(zhuǎn)型的加速,IT運(yùn)維從理念到模式正在向智能運(yùn)維全面邁進(jìn)。作為率先實(shí)現(xiàn)智能運(yùn)維工程化落地的全棧IT運(yùn)維服務(wù)商,云智慧(北京)科技有限公司總裁劉洪濤先生為《新金融世界》分享了智能運(yùn)維對(duì)于金融數(shù)字化和FinTech的意義,以及智能運(yùn)維在金融機(jī)構(gòu)落地過程中的注意要點(diǎn)。

金融數(shù)字化的運(yùn)維變革

數(shù)字化時(shí)代,IT對(duì)金融業(yè)務(wù)的重要程度與日俱增,是推動(dòng)機(jī)構(gòu)進(jìn)行智能運(yùn)維變革的關(guān)鍵。

舉例而言,在幾年前,很多金融機(jī)構(gòu)會(huì)在半夜12點(diǎn)-1點(diǎn)暫停交易進(jìn)行系統(tǒng)維護(hù),這在今天是絕不允許的?,F(xiàn)在的金融客戶怎么可能接受零點(diǎn)秒殺卻無法完成支付的情況?!

如今的金融交易必須達(dá)到24小時(shí)不間斷的秒級(jí)響應(yīng)要求。這就意味著,IT對(duì)于金融而言已經(jīng)由業(yè)務(wù)支撐系統(tǒng)轉(zhuǎn)變?yōu)闃I(yè)務(wù)本身。

劉洪濤表示:“我們?cè)诟鹑谛袠I(yè)用戶交流的時(shí)候,大家談的都是業(yè)務(wù),關(guān)注的也是業(yè)務(wù)。”在這樣的應(yīng)用環(huán)境下,傳統(tǒng)運(yùn)維針對(duì)IT系統(tǒng)或者單獨(dú)IT平臺(tái)的監(jiān)控已經(jīng)不能滿足需求。“客戶關(guān)心的是交易是否成功,用戶交易的體驗(yàn)怎么樣,所以對(duì)運(yùn)維要求與過去相比有很大的不同。過去,IT從底層設(shè)備、操作系統(tǒng)、應(yīng)用、到業(yè)務(wù)這么幾層,運(yùn)維的關(guān)注點(diǎn)在于底層設(shè)備的高可用和穩(wěn)定性,衡量指標(biāo)是SLA能達(dá)到幾個(gè)9。今天,大家的關(guān)注點(diǎn)集中到業(yè)務(wù)層面,衡量IT對(duì)業(yè)務(wù)影響程度的指標(biāo)變成了MTTR(Mean Time to Recovery,平均故障修復(fù)時(shí)間),這就需要從業(yè)務(wù)的視角,實(shí)現(xiàn)覆蓋所有業(yè)務(wù)鏈路的端到端全局監(jiān)控、管理和分析,把監(jiān)控的點(diǎn)和面都做完整,還要與業(yè)務(wù)指標(biāo)進(jìn)行關(guān)聯(lián),這就比傳統(tǒng)運(yùn)維復(fù)雜度高很多”,劉洪濤說。

當(dāng)前金融運(yùn)維的另外一個(gè)挑戰(zhàn)來自于數(shù)字化轉(zhuǎn)型的推進(jìn)。區(qū)塊鏈、虛擬化、容器、IoT等FinTech新技術(shù)的應(yīng)用,導(dǎo)致IT規(guī)模和復(fù)雜度呈指數(shù)增長(zhǎng)。過去,傳統(tǒng)運(yùn)維收到不明原因的告警信息,可以把相關(guān)設(shè)備一臺(tái)臺(tái)關(guān)掉,再逐一重啟來進(jìn)行排查,解除故障。但在金融系統(tǒng)如此龐大的今天,這類單純依靠人工的故障修復(fù)方法顯然是不可取的。不僅如此,隨著IT運(yùn)行環(huán)境越來越復(fù)雜,每時(shí)每刻產(chǎn)生的IT數(shù)據(jù)量更加驚人,依靠人工設(shè)定告警閾值、分析處理海量告警信息同樣不現(xiàn)實(shí)。這就需要利用大數(shù)據(jù)和AI技術(shù)的助力,通過模式識(shí)別和算法對(duì)歷史數(shù)據(jù)進(jìn)行學(xué)習(xí),設(shè)置更加有效的動(dòng)態(tài)告警閾值,同時(shí)對(duì)海量告警信息進(jìn)行實(shí)時(shí)壓縮、收斂和關(guān)聯(lián)分析,利用根因分析追蹤導(dǎo)致事件發(fā)生的根本原因,實(shí)現(xiàn)告警事件的及時(shí)處置,有效降低MTTR。

智能運(yùn)維的認(rèn)知和核心技術(shù)

到目前為止,業(yè)界針對(duì)AIOps(智能運(yùn)維)的認(rèn)知尚未統(tǒng)一,有人說AIOps就是算法,有的則認(rèn)為是自動(dòng)化運(yùn)維。劉洪濤表示:“其實(shí)AIOps并不是像APM那樣的產(chǎn)品,而是一種理念。用AI技術(shù)去提升金融機(jī)構(gòu)的運(yùn)維能力和效率,讓它具有更好的智能化,更高效的解決金融業(yè)務(wù)運(yùn)行過程中遇到的種種問題。同時(shí),AI是一種可以工程化的實(shí)用科技,AIOps就是AI在IT運(yùn)維領(lǐng)域的落地,通過AI技術(shù)的工程化,全面提升現(xiàn)有ITOM、ITSM 和ITOA產(chǎn)品和解決方案能力。”

智能運(yùn)維:從場(chǎng)景中積蓄運(yùn)維變革的未來

  云智慧金融行業(yè)智能運(yùn)維管控中心

談到AIOps(智能運(yùn)維)的核心技術(shù),劉洪濤認(rèn)為:“目前,智能運(yùn)維的關(guān)鍵不是算法,因?yàn)楹芏嗨惴ǘ家呀?jīng)非常成熟而且開源了。但是,客戶的應(yīng)用場(chǎng)景千差萬別,需求也各不相同,到底哪種算法用什么樣的模式匹配到客戶場(chǎng)景中,這才是核心。這是一個(gè)‘技術(shù)工程化’落地的過程,對(duì)于智能運(yùn)維提供商來說,既要有非常好的算法能力,又要對(duì)客戶的應(yīng)用場(chǎng)景有非常好的理解力,還要有工程化落地的能力。這幾種能力都具備,才能幫客戶解決問題。”

此外,AIOps需要完整的歷史數(shù)據(jù)、日志數(shù)據(jù)和實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)。因此,要實(shí)現(xiàn)AIOps落地,數(shù)據(jù)采集能力同樣必不可少,只有這樣才能通過AI得到有價(jià)值的結(jié)果。

金融行業(yè)智能運(yùn)維落地的理念和建議

早在2016年,云智慧就率先提出了智能運(yùn)維的概念,并在金融、通信、制造、零售等多個(gè)行業(yè)進(jìn)行了實(shí)踐。針對(duì)AIOps在金融行業(yè)的落地,云智慧秉承的理念是: “以數(shù)據(jù)為基礎(chǔ),算法為支撐,場(chǎng)景為導(dǎo)向”。

部署智能運(yùn)維首先要理解傳統(tǒng)運(yùn)維管理與智能運(yùn)維的邏輯差異:傳統(tǒng)運(yùn)維管理是依賴流程——故障、告警、處理,依靠工單系統(tǒng)把這些串起來。智能運(yùn)維是基于數(shù)據(jù)和智能化分析結(jié)果進(jìn)行運(yùn)維管理,與傳統(tǒng)運(yùn)維的邏輯完全不一樣。

智能運(yùn)維:從場(chǎng)景中積蓄運(yùn)維變革的未來

  云智慧DOCP智能運(yùn)維中臺(tái)

與傳統(tǒng)運(yùn)維管理依靠ITSM平臺(tái)管理所有IT問題不同,智能運(yùn)維的落地注重場(chǎng)景化,解決的是某一類問題。例如智能運(yùn)維的四大場(chǎng)景:統(tǒng)一監(jiān)控、根因分析、動(dòng)態(tài)基線、故障預(yù)測(cè)。當(dāng)然,智慧運(yùn)維的基礎(chǔ)仍然是數(shù)據(jù),在數(shù)據(jù)之上構(gòu)建AI分析能力,在AI之上是事件管理等產(chǎn)品模塊。這些模塊以松耦合的方式組成,可根據(jù)用戶需求的不同任意組合,提供告警抑制、異常檢測(cè)、根因分析、多維分析、調(diào)用鏈追蹤、故障預(yù)測(cè)等場(chǎng)景化解決方案能力。最后通過可視化運(yùn)維監(jiān)控中心,把IT價(jià)值直觀呈現(xiàn)在IT和業(yè)務(wù)部門面前,讓管理者和業(yè)務(wù)運(yùn)營(yíng)負(fù)責(zé)人都能看懂IT。

劉洪濤建議:“智能運(yùn)維不要上來就做大而全的,我們的建議是‘小步快跑,階梯式前進(jìn)’。具體來說,先從某個(gè)運(yùn)維問題總結(jié)出來的場(chǎng)景入手,而落地的時(shí)候要充分考慮未來幾個(gè)、甚至幾十個(gè)場(chǎng)景的整體需求。這種做法的好處在于效率最高,ROI最合算,也最有可能達(dá)成目標(biāo)。IT團(tuán)隊(duì)在逐步積累AIOps經(jīng)驗(yàn)的同時(shí),樹立起智能運(yùn)維成功部署的信心。而業(yè)務(wù)部門可以從一個(gè)場(chǎng)景的變化快速看到AIOps價(jià)值和成效,自然更愿意配合IT部門的變革,推進(jìn)業(yè)務(wù)與IT的融合。所以,我們的建議是做好規(guī)劃,階段式實(shí)現(xiàn)AIOps落地。”

金融行業(yè)智能運(yùn)維的四大典型場(chǎng)景

云智慧總結(jié)了現(xiàn)階段金融機(jī)構(gòu)推進(jìn)AIOps智能運(yùn)維落地的四個(gè)典型場(chǎng)景。

一、統(tǒng)一監(jiān)控。這是幾乎所有用戶在完成系統(tǒng)構(gòu)建、業(yè)務(wù)上線之后都要用到的。統(tǒng)一監(jiān)控與傳統(tǒng)監(jiān)控不同之處在于,它是服務(wù)于業(yè)務(wù)的。過去的監(jiān)控系統(tǒng)主要監(jiān)控底層硬件設(shè)備和豎井式IT系統(tǒng),但對(duì)于金融機(jī)構(gòu)來說,這些分散的監(jiān)控系統(tǒng)共同支撐起業(yè)務(wù)的運(yùn)轉(zhuǎn)。因此,必須有一個(gè)開放的統(tǒng)一監(jiān)控平臺(tái),把業(yè)務(wù)和一個(gè)個(gè)孤立的監(jiān)控系統(tǒng)整合起來,同時(shí)也可以依托這個(gè)平臺(tái)獲得完整的IT數(shù)據(jù)。目前,在IT成熟度最高的銀行業(yè),已經(jīng)有部分機(jī)構(gòu)完成了統(tǒng)一監(jiān)控平臺(tái)的構(gòu)建,而規(guī)模較小的城商行、農(nóng)信、證券、基金等金融機(jī)構(gòu)則有明顯的統(tǒng)一監(jiān)控需求。

二、根因分析。系統(tǒng)產(chǎn)生的大量告警信息怎么判斷?依靠人工處理和工程師的經(jīng)驗(yàn)判斷故障變得越來越困難。利用智能算法對(duì)異?;蛘吖收系母蜻M(jìn)行分析,給出故障的根因推薦以及深入分析結(jié)果,讓事件得到迅速處理。這也是一個(gè)AIOps的主要應(yīng)用場(chǎng)景。

三、動(dòng)態(tài)基線。動(dòng)態(tài)基線是各種監(jiān)控場(chǎng)景里的典型需求,基于歷史數(shù)據(jù),利用智能算法深度學(xué)習(xí),對(duì)未來一段時(shí)間內(nèi)每個(gè)時(shí)間點(diǎn)的數(shù)值進(jìn)行精準(zhǔn)預(yù)測(cè),將預(yù)測(cè)值作為基線來監(jiān)控和告警。由于業(yè)務(wù)指標(biāo)受時(shí)間、季節(jié)、事件等因素影響不斷波動(dòng),這就導(dǎo)致IT指標(biāo)的變化同樣是動(dòng)態(tài)的,也只有動(dòng)態(tài)閾值才能更快、更準(zhǔn)確的發(fā)現(xiàn)問題,提高運(yùn)維的事件響應(yīng)和處理效率。

四、故障預(yù)測(cè)。很多問題的發(fā)生都是有征兆的,故障預(yù)測(cè)基于歷史告警消息的相關(guān)性,對(duì)當(dāng)前處于故障狀態(tài)的警報(bào)可能造成的影響進(jìn)行預(yù)測(cè)判斷 ,從而實(shí)現(xiàn)故障的提前預(yù)警。這種場(chǎng)景最能體現(xiàn)AIOps的智能分析能力,但需要針對(duì)歷史數(shù)據(jù)進(jìn)行大量學(xué)習(xí)和訓(xùn)練,取得成效相對(duì)較慢。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-05-24
智能運(yùn)維:從場(chǎng)景中積蓄運(yùn)維變革的未來
伴隨金融機(jī)構(gòu)數(shù)字化轉(zhuǎn)型的加速,IT運(yùn)維從理念到模式正在向智能運(yùn)維全面邁進(jìn)。

長(zhǎng)按掃碼 閱讀全文