構建可觀測性的核心能力是什么?

科技云報道原創(chuàng)。

云原生時代,企業(yè)從單體架構發(fā)展到分布式架構,廣泛采用微服務、容器、Serverless等部署方式,IT基礎設施變得愈發(fā)不可控。這導致傳統(tǒng)的監(jiān)控技術和工具很難跟蹤這些分布式架構中的通信路徑和相互依賴關系,更別提排查問題并定位根本原因了。

Gartner認為數(shù)字化轉(zhuǎn)型以業(yè)務為中心,服務和用戶體驗是關鍵目標。而IT監(jiān)控以系統(tǒng)可用為中心,僅關注系統(tǒng)可用性指標對于轉(zhuǎn)型中的企業(yè)而言是一場災難。到2023年,依賴于“正常運行時間”指標的監(jiān)控實踐將抑制90%的轉(zhuǎn)型計劃。

當監(jiān)控無法再單獨以運維的視角、被動地解決故障為目標,而要追隨IT架構的改變和云原生技術的實踐,融入開發(fā)與業(yè)務部門的視角,具備比原有監(jiān)控更廣泛、更主動的能力,“可觀測性”概念誕生了。

“可觀測性”究竟是什么?實現(xiàn)“可觀測性”的核心能力有哪些?

可觀測性:云原生時代的必備能力

2018年,可觀測性(Observability)被引入IT領域,CNCF-Landscape率先出現(xiàn)了Observability的分組。自此以后,“可觀測性”逐漸取代“監(jiān)控”,成為云原生技術領域最熱門的話題之一。

近兩年,可觀測性紅遍IT運維領域,火起來的導火索是CNCF在云原生定義中提到 Observerbility,并聲稱這是云原生時代的必備能力。加之包括谷歌在內(nèi)的眾多大廠一擁而上,“可觀測性”正式出道。

谷歌給出可觀測性的核心價值很簡單:快速排障(troubleshooting)。

隨著系統(tǒng)越來越精細,越來越復雜,越來越動態(tài),越來越龐大,潛藏的問題和風險也就越來越多。因此,任何一個軟件的成功,不僅僅要依靠軟件架構的合理設計、軟件開發(fā)的代碼質(zhì)量,更要依靠軟件系統(tǒng)的運行維護。而運行維護的基礎,就是可觀測性,通過提前發(fā)現(xiàn)異常,快速定位根本原因,迅速排除或者規(guī)避故障。

因此,可觀測性是從系統(tǒng)內(nèi)部出發(fā),基于白盒化的思路去監(jiān)測系統(tǒng)內(nèi)部的運行情況。可觀測性貫穿應用開發(fā)的整個聲明周期,通過分析應用的指標、日志和鏈路等數(shù)據(jù),構建完整的觀測模型,從而實現(xiàn)故障診斷、根因分析和快速恢復。

雖然可觀測性是由傳統(tǒng)監(jiān)控發(fā)展而來,但是他們有著本質(zhì)的不同。

傳統(tǒng)監(jiān)控更多的是指運維自動化工具,主要用途是替代人自動監(jiān)控系統(tǒng)運行情況,在系統(tǒng)發(fā)生異常時告警,最終還是需要人工去分析異常、故障診斷和根因分析。

但現(xiàn)代IT系統(tǒng)的關鍵詞是分布式、池化、大數(shù)據(jù)、零信任、彈性、容錯、云原生等,越來越龐大,越來越精細,越來越動態(tài),同時也越來越復雜。通過人去尋找各種信息的關聯(lián)性,再根據(jù)經(jīng)驗判斷和優(yōu)化,顯然是不可行的,耗時耗力還無法找到問題根因。

可觀測性不僅包含傳統(tǒng)監(jiān)控的能力,更多的是面向業(yè)務,強調(diào)將業(yè)務全過程透明化的理念,實現(xiàn)全景監(jiān)控、智能運維和自修復能力等體系化的服務能力。

有業(yè)界專家一句話總結傳統(tǒng)監(jiān)控與可觀測性的區(qū)別:“監(jiān)控告訴我們系統(tǒng)的哪些部分是工作的;可觀測性告訴我們那里為什么不工作了。”

可觀測性體系的三大維度

在CNCF對于云原生的定義中,已經(jīng)明確將可觀測性列為一項必備要素。

CNCF云原生生態(tài)也整合了可觀測性體系,在CNCF生態(tài)全景圖中可觀測性主要是按照 Monitoring監(jiān)控指標、Logging事件日志、Tracing鏈路追蹤三個維度來分類。

監(jiān)控指標(Monitoring

云原生監(jiān)控指標可觀測產(chǎn)品大都是從傳統(tǒng)的監(jiān)控產(chǎn)品發(fā)展而來的,傳統(tǒng)監(jiān)控中Zabbix以其高可用和圖形化展示而廣受歡迎。

而在云原生時代,CNCF孵化的監(jiān)控工具Prometheus取代了以Zabbix為代表的眾多傳統(tǒng)監(jiān)控工具,已基本成為云原生監(jiān)控體系通用的解決方案,并可以通過配合Grafana工具實現(xiàn)監(jiān)控數(shù)據(jù)圖形化進行可視化分析。

事件日志(Logging

在業(yè)界中,事件日志可觀測產(chǎn)品也已經(jīng)是一片紅海。日志管理方案大都包含日志收集、日志聚合、日志存儲與分析幾個模塊,具體過程是日志收集工具與應用程序容器一起運行,并直接從應用程序收集消息,然后將消息轉(zhuǎn)發(fā)到中央日志存儲以進行匯總和分析。

在這方面Elastic Stack日志解決方案獨占鰲頭,幾乎覆蓋了日志管理的全流程,其中一大變數(shù)是用于日志聚合、過濾等業(yè)務的Logstash效能較差,在未來可能會被CNCF孵化的Fluentd取代。

鏈路追蹤(Tracing

比起監(jiān)控日志與事件日志,鏈路追蹤可觀測的產(chǎn)品競爭要相對激烈得多。其根本原因在于鏈路數(shù)據(jù)與實際業(yè)務和業(yè)務實現(xiàn)協(xié)議、編程語言等細粒度具體場景密切相關。

這也導致針對不同產(chǎn)品實現(xiàn)和網(wǎng)絡協(xié)議的鏈路追蹤產(chǎn)品層出不窮,但是他們在功能實現(xiàn)上并沒有太本質(zhì)的差距,卻又受制于實現(xiàn)細節(jié),彼此互斥,很難搭配工作。

構建可觀測性能力的關鍵

傳統(tǒng)的工具是垂直向的,在引入一個新的組件的同時也會引入一個與之對應的觀測工具。盡管保證了數(shù)據(jù)的全面性,但丟失了數(shù)據(jù)的關聯(lián)性和分析排查的連貫性。

如果有一個統(tǒng)一的數(shù)據(jù)平臺,把所有數(shù)據(jù)放在一個平臺,似乎就能解決關聯(lián)性的問題。

但實際情況往往是,建立了一個觀測指標、日志、鏈路的統(tǒng)一平臺,數(shù)據(jù)堆在了一個地方,用的時候還是按傳統(tǒng)的方式各看各的,關聯(lián)性還得靠人的知識和經(jīng)驗。

因此,可觀測性能力的構建,最關鍵的其實是解決數(shù)據(jù)統(tǒng)一和關聯(lián)的問題:把之前需要人去比對、過濾的事交給程序去處理,人的時間更多的用在判斷和決策上。

中國信通院《可觀測性技術發(fā)展白皮書》指出,可觀測平臺能力的構建,需要具備統(tǒng)一數(shù)據(jù)模型、統(tǒng)一數(shù)據(jù)處理、統(tǒng)一數(shù)據(jù)分析、數(shù)據(jù)編排、數(shù)據(jù)展示的能力。

那么,如何做數(shù)據(jù)統(tǒng)一和關聯(lián)呢?

在統(tǒng)一數(shù)據(jù)平臺上,由于數(shù)據(jù)是來自于各種觀測工具的,雖然在數(shù)據(jù)格式上統(tǒng)一了,但不同工具的元數(shù)據(jù)截然不同。如果在統(tǒng)一數(shù)據(jù)平臺上去梳理和映射這些元數(shù)據(jù),將是龐雜、難維護、不可持續(xù)的。

那么該如何做呢?答案就是標準化。

只有將標準化、結構化的數(shù)據(jù)喂給觀測平臺,觀測平臺才能從中發(fā)現(xiàn)巨大價值。統(tǒng)一數(shù)據(jù)平臺只是在數(shù)據(jù)格式上進行了標準化,而要想將數(shù)據(jù)關聯(lián)還必須建立context的標準化,context就是數(shù)據(jù)的空間信息,再疊加上時間信息的關聯(lián)就可以發(fā)揮真正的觀測價值。

目前,CNCF為了統(tǒng)一這一亂象,推出了Open Telemetry以期實現(xiàn)理想狀態(tài)下的大一統(tǒng):統(tǒng)一Logs、Trace、Metrics三種數(shù)據(jù)協(xié)議標準,使用一個Agent完成所有可觀測性數(shù)據(jù)的采集和傳輸,適配眾多云廠商,兼容CNCF上眾多的開源與商業(yè)項目。

可以說Open Telemetry是一套與平臺無關、與廠商無關、與語言無關的追蹤協(xié)議規(guī)范,意在讓鏈路追蹤可觀測更加規(guī)范化。

但遺憾是,至今未有廠商或開源項目可以統(tǒng)一Open Telemetry后端,三種數(shù)據(jù)源的統(tǒng)一存儲、展示與關聯(lián)分析仍面臨極大挑戰(zhàn),而解決以上問題的前提,仍然是統(tǒng)一數(shù)據(jù)源(數(shù)據(jù)格式)。

總的來說,云原生可觀測性方興未艾,因為云原生的應用系統(tǒng)趨于規(guī)?;蛷碗s化,越是復雜的龐大機器越是會強調(diào)其可靠性和穩(wěn)定性。

未來,云原生可觀測未來需要一個大一統(tǒng)的可落地產(chǎn)品,通過統(tǒng)一的標準匯聚三者的數(shù)據(jù),挖掘交叉區(qū)域的價值。

來源:科技云報道

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2022-07-13
構建可觀測性的核心能力是什么?
構建可觀測性的核心能力是什么?

長按掃碼 閱讀全文