拯救運維人!智能運維如何實現(xiàn)1+1>2

如果要評選世界上壓力最大的工作,那么運維管理估計會大概率的入圍。

人們形容運維人的工作日常:不是在解決問題就是在解決問題的路上。以至于運維人自己也感嘆干的工作是操著賣白fen的心、賺著賣白菜的錢……

運維工作有多難?來通過一個真實案例直觀感受一下。

某大型汽車集團,在全球汽車行業(yè)排名前列,不僅部署了Tivoli、SAP、EP、SDAP等眾多軟件,還應(yīng)用了Zabbix等諸多開源軟件;隨著云計算的普及,該集團還將部分業(yè)務(wù)部署在公有云之中。數(shù)據(jù)量龐大且類型豐富,復雜的多云環(huán)境,繁多的監(jiān)控運維工具,超級多的無效運維事件,讓該集團運維工作挑戰(zhàn)巨大,運維人員日常工作中如坐針氈,“惶惶不可終日”。

類似情況在其他企業(yè)比比皆是。同為打工人,運維人不該被這樣對待。如何改變這種局面?近年來,智能運維異軍突起,成為解救企業(yè)和運維人員的及時雨。

智能運維,即通過結(jié)合大數(shù)據(jù)和機器學習等相關(guān)技術(shù),以數(shù)據(jù)采集與分析各種數(shù)據(jù)支持所有主要的IT運營功能,將徹底改變過去傳統(tǒng)運維的種種詬病,被認為既是解放運維人員的救星,也可為眾多企業(yè)的數(shù)字化轉(zhuǎn)型保駕護航。

運維為何就這么難

在當下,很多企業(yè)經(jīng)過多年數(shù)字化建設(shè),通過整合監(jiān)控與告警、與ITSM集成、自動化運維,基本建成了包含“監(jiān)控、管理、控制”三大維度的運維體系。但這種典型的傳統(tǒng)運維體系卻是大而不強、全而不準。

究其原因,它是時間的產(chǎn)物,伴隨著企業(yè)數(shù)字化建設(shè)的進程而逐漸搭建起的,缺乏頂層設(shè)計和全局視角,更像是眾多工具與產(chǎn)品的堆砌。由于底層數(shù)據(jù)并未徹底打通,導致工具與工具、方案與方案彼此之間并不存在強邏輯聯(lián)系,依然是以“各自為政”為主。

以監(jiān)控維度為例,在運維界有句老話:監(jiān)控先行。整個集中監(jiān)控體系的構(gòu)建,從最早的網(wǎng)絡(luò)管理,到后續(xù)的數(shù)據(jù)庫/數(shù)據(jù)庫管理、存儲/服務(wù)器管理,再到之后的虛擬化/云管理,才逐漸形成集中監(jiān)控體系,通過不同的監(jiān)控工具來實現(xiàn)這些平臺的實時告警查看和平臺優(yōu)化建議。但現(xiàn)實中,這種監(jiān)控體系卻無法覆蓋與打通鏈路監(jiān)控(Traces)、指標監(jiān)控(Metrics)和日志監(jiān)控(Logs)全部運維數(shù)據(jù),不能構(gòu)建起面向業(yè)務(wù)自上而下的監(jiān)控全覆蓋。

監(jiān)控體系自身尚且如此,監(jiān)控與管理、控制之間就更缺乏全鏈路的聯(lián)動。這些情況直接導致了當前很多企業(yè)在運維上面臨著運維數(shù)據(jù)范圍不足、告警泛濫、根因分析定位難、缺少全鏈路聯(lián)動分析等情況。

首先,企業(yè)數(shù)字化轉(zhuǎn)型的進程中,面臨著IT環(huán)境日趨復雜、應(yīng)用大量增加、設(shè)備種類繁多等情況。Gartner就預(yù)測設(shè)備和應(yīng)用程序所產(chǎn)生的數(shù)據(jù)量正以每年2-3倍的速度增長,且數(shù)據(jù)類型多樣。另一方面,業(yè)務(wù)和環(huán)境的復雜性也讓運維對象、數(shù)據(jù)與指標覆蓋不足,運維數(shù)據(jù)范圍不足造成故障發(fā)生前缺少健康度洞察,難以提前預(yù)測故障事件。

其次,大量設(shè)備與應(yīng)用,各種各樣的監(jiān)控工具,讓監(jiān)控對象條目過多、告警數(shù)量多造成當故障事件發(fā)生時,告警泛濫,誤報、漏報情況嚴重,難以實現(xiàn)精準告警。更加致命的是,故障事件發(fā)生之后,基于告警的機制很難有效定位問題,缺少調(diào)用鏈信息,難以定位到服務(wù)和請求類的根本原因。

另外,業(yè)務(wù)依賴關(guān)系復雜也造成了整個運維缺少全局運維視圖,跨多系統(tǒng)的運維無法聯(lián)動,單業(yè)務(wù)系統(tǒng)內(nèi)部的服務(wù)調(diào)用請求難以分析。

“傳統(tǒng)運維是建立在CMDB的基礎(chǔ)之上,CMDB自身的限制性、時效性、可維護性、復雜性等決定了其無法給運維人員呈現(xiàn)不同運維工具之間的監(jiān)控關(guān)系?!睈蹟?shù)運維技術(shù)專家透露道。

因此,智能運維開始呼之欲出,也即現(xiàn)在流行的AIOps。Gartner認為,AIOps將跨平臺的數(shù)據(jù)鏈進行打通與集成,通過機器學習和大數(shù)據(jù)等技術(shù),讓運維獲得主動、個性化和動態(tài)的洞察力,從而支撐起所有IT運營的功能。Gartner并預(yù)測到2022年,有40%的大型企業(yè)將會進行部署AIOps平臺。

智能運維雖好,卻也有一個很現(xiàn)實的問題,即全球沒有一家公司的產(chǎn)品可以覆蓋全部數(shù)據(jù)范圍來幫助用戶構(gòu)建智能運維中心。借助生態(tài)的力量,廠商與廠商在產(chǎn)品、技術(shù)以及方案層面的打通與聯(lián)動就成為當前智能運維最重要的發(fā)展方向。例如,愛數(shù)與聽云在今年的戰(zhàn)略合作就開啟了智能運維方案打造的新思路。

如何讓智能運維1+1>2

愛數(shù)與聽云在智能運維領(lǐng)域開啟了新模式。今年1月份,雙方攜手正式推出了智能運維整合方案,旨在幫助客戶全面管理、深度洞察海量、多源、異構(gòu)的機器數(shù)據(jù)。

具體來看,中國用戶對于這種智能運維整合方案需求更加迫切。中國企業(yè)的業(yè)務(wù)規(guī)模性和復雜性在全球無出其右,帶來了對于日益主動的IT運營、更加細化的成本優(yōu)化目標和質(zhì)量期望、更加快速的故障響應(yīng)與處理、更加穩(wěn)定的業(yè)務(wù)持續(xù)性等運維需求。

在雙方的整合方案中,愛數(shù)聚焦在智能運維領(lǐng)域多年,擁有深厚的技術(shù)積累和豐富的實踐經(jīng)驗,其AnyRobot是一款開放、高效、經(jīng)濟的機器數(shù)據(jù)分析平臺;而聽云是國內(nèi)唯一一家連續(xù)多年入選Gartner APM魔力象限的廠商,主要聚焦在應(yīng)用性能管理和用戶體驗優(yōu)化。

愛數(shù)AnyRobot主要聚焦指標監(jiān)控(Metrics)和日志監(jiān)控(Logs)數(shù)據(jù),而聽云智能監(jiān)控產(chǎn)品主要聚焦鏈路監(jiān)控(Traces)、指標監(jiān)控(Metrics)數(shù)據(jù),雙方聯(lián)合方案則實現(xiàn)了全方位接入企業(yè)各維度機器數(shù)據(jù),可以全方位提高客戶運維效率,驅(qū)動組織業(yè)務(wù)運營創(chuàng)新。

聽云與愛數(shù)簽署戰(zhàn)略合作

例如,該智能運維整體方案可以實現(xiàn)日志溯源與智能分析,通過運維數(shù)據(jù)間開放集成,AnyRobot實時采集業(yè)務(wù)應(yīng)用及其底層基礎(chǔ)設(shè)施的日志數(shù)據(jù),與聽云APM應(yīng)用性能監(jiān)控數(shù)據(jù)進行開放共享,對用戶業(yè)務(wù)系統(tǒng)的機器數(shù)據(jù)進行統(tǒng)一管理。在運維故障分析過程中,可直接追蹤事件發(fā)生過程,一鍵定位故障根源,確保業(yè)務(wù)運營高效運行,并提供端到端的完整應(yīng)用性能優(yōu)化方案,提升用戶體驗。

另外,該智能運維整體方案還可以對配置的日志告警數(shù)據(jù)和性能監(jiān)控數(shù)據(jù)進行綜合分析,避免重復告警;并增加智能告警算法,根據(jù)告警歷史數(shù)據(jù)進行智能檢測,從而提高告警準確性,縮短故障發(fā)現(xiàn)時間、減少誤報漏報、提升故障修復效率。

與此同時,除了監(jiān)控之外,愛數(shù)與聽云產(chǎn)品的開放性,也保證了解決方案可以跟ITSM和自動化運維平臺之間進行打通與聯(lián)動。

某種程度來看,愛數(shù)與聽云走到一起,就是在幫助用戶打通過去傳統(tǒng)運維的種種“壁壘”,讓運維數(shù)據(jù)、工具、平臺可以實現(xiàn)打通與聯(lián)通,讓運維真正成為一盤棋。與此同時,雙方合作也揭示運維平臺未來的發(fā)展趨勢。

運維平臺趨勢:開放、高效、經(jīng)濟

隨著大部分企業(yè)數(shù)字化轉(zhuǎn)型的不斷深入,業(yè)務(wù)數(shù)字化程度不斷提升,運維所面臨的復雜性、多樣性將會只增不減。由于運維所涉及的相關(guān)領(lǐng)域與內(nèi)容實在是太過于廣泛,未來也不能一家公司就可以徹底搞定,所以在業(yè)務(wù)復雜性不斷提升的趨勢下,運維平臺走向開放、高效與經(jīng)濟乃是大勢所趨。

以愛數(shù)AnyRobot機器數(shù)據(jù)分析平臺為例,其產(chǎn)品從設(shè)計開始就聚焦了開放、高效、經(jīng)濟三個核心特征。

在開放性方面,愛數(shù)AnyRobot采用了創(chuàng)新Hub架構(gòu),實現(xiàn)多源異構(gòu)數(shù)據(jù)、多機器數(shù)據(jù)平臺的統(tǒng)一納管,可以讓用戶具備更多機器數(shù)據(jù)接入的能力,同時機器數(shù)據(jù)接入之后,實現(xiàn)統(tǒng)一的機器數(shù)據(jù)分析平臺和通用的數(shù)據(jù)消費能力。

開放性給運維帶來何種好處?舉個例子,金融、電信、能源、互聯(lián)網(wǎng)等行業(yè)的眾多用戶,在底層數(shù)據(jù)分析平臺上采用了開源數(shù)據(jù)分析平臺ELK或商業(yè)數(shù)據(jù)分析平臺Splunk,并且運行多年,與各個業(yè)務(wù)捆綁緊密。隨著技術(shù)的發(fā)展,安全審計等的要求,僅僅依靠ELK或者Splunk已不能完全符合用戶的真實需求,愛數(shù)AnyRobot的Hub架構(gòu)讓與ELK、Splunk等共同服務(wù)用戶的機器數(shù)據(jù)的采集、存儲和分析。

此外,在高效層面,愛數(shù)AnyRobot還采用了小程序架構(gòu),讓用戶更好地獲取應(yīng)用分析App的能力;在經(jīng)濟層面,愛數(shù)AnyRobot采用了存算分離架構(gòu),實現(xiàn)計算與存儲分離,同時計算可以實現(xiàn)完全的彈性擴展,最大限度的為用戶節(jié)省各種資源。

從長遠來看,開放、高效、經(jīng)濟的運維平臺也是最符合企業(yè)用戶對于運維的要求。未來,隨著企業(yè)數(shù)字化轉(zhuǎn)型的深入,以及像愛數(shù)、聽云這些中國智能運維廠商利用生態(tài)不斷完善聯(lián)合解決方案,中國用戶有望得到更加出色的智能運維產(chǎn)品與服務(wù)。

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2021-01-21
拯救運維人!智能運維如何實現(xiàn)1+1>2
智能運維,即通過結(jié)合大數(shù)據(jù)和機器學習等相關(guān)技術(shù),以數(shù)據(jù)采集與分析各種數(shù)據(jù)支持所有主要的IT運營功能,將徹底改變過去傳統(tǒng)運維的種種詬病,被認為既是解放運維人員的救星,也可為眾多企業(yè)的數(shù)字化轉(zhuǎn)型保駕護航。

長按掃碼 閱讀全文