為什么5G核心網和電信云需要可觀測性?在過去的2021年,其實5G核心網在全球發(fā)生了多次影響范圍大、持續(xù)時間長、社會影響廣的故障。2021年的4月份加拿大Rogers發(fā)生了一次長達26個小時全國范圍的移動通信網故障,故障發(fā)生后缺乏快速定位手段,導致故障難以在短時間內定位、消除。
5G通信網的穩(wěn)定運行是保障社會穩(wěn)定運行的重要基礎,而5G核心網則是5G通信網的樞紐和大腦,是整個通信網運行、維護、保障的重中之中。通過以上事件可以感知5G核心網在運行穩(wěn)定性上還有待提升,另一方面現有的故障監(jiān)測、快速定位、快速恢復能力存在短板。
5G核心網的運維困境
云杉網絡通過對多個運營商的一線運維技術人員調研和交流之后,發(fā)現現階段5G核心網的運維痛點集中在:(1)云網絡“黑盒化”:(2)運維技術難度高;(3)故障定責定界難;(4)云平臺面向業(yè)務的保障難。以下舉幾個實際例子。
例子一:當PCF出問題的時候,核心網運維可能會聯(lián)系云平臺“我們這里的PCF1服務不正常,看到服務器上有告警,你們趕緊處理一下”,而云平臺運維可能會覺得“服務器的告警好像和PCF的服務異常沒什么關系,是不是PCF軟件出問題了?”
例子二:某個VNF升級之后,服務有異常,核心網運維查了半天也找不出原因,最后看到虛擬機有告警,反饋給網絡云運維后,很可能得到這樣的反饋“升級前后都有相同的告警,升級前沒有問題,是不是你們新版本軟件的原因?”
追究其原因,5G核心網和電信云是通過通用x86+云技術、容器技術,提供軟硬解耦的解決方案,穩(wěn)定性不確定,更多的需要依靠云、容器的動態(tài)、彈性能力提供相對的可靠性。同時,5G核心網完全承載在一個Overlay疊加Underlay的網絡上,網元內部復雜的微服務通過一個Full-Mesh的網絡互聯(lián),網元之間的邊界不清晰、路徑不清晰,網絡基本處于“黑盒”狀態(tài)。由此也不難看出:可觀測性對5G核心網的可靠性運行非常重要!
近幾年,云原生可觀測性已經成為IT領域解決業(yè)務可靠性的重要理論,“可觀測性=可靠性”基本成為IT運維的共同認知。所謂云原生可觀測性,簡單來說就是快速有效的診斷復雜業(yè)務系統(tǒng)內部的運行狀態(tài)。經過近十年的發(fā)展,云杉網絡從SDN核心技術逐步走向網絡自動化和可觀測性,致力解決云原生應用診斷難的核心痛點,其中DeepFlow產品在各行各業(yè)積累了大量的實戰(zhàn)經驗,成功幫助數家企業(yè)構建多維度、一體化的可觀測性平臺。
DeepFlow幫助5G核心網和電信云構建可觀測性
DeepFlow是一款面向5G核心網,應對網絡功能服務(NFS)解耦后的新挑戰(zhàn),進行網絡流量采集、分發(fā)、可視化與監(jiān)控保障的產品。幫助運營商在5G核心網基于服務架構中統(tǒng)一采集網絡、系統(tǒng)、應用的可觀測指標數據,并動態(tài)關聯(lián)其資源、服務、業(yè)務、事件等屬性,實現對5G核心網全景性能監(jiān)控;并提供容器化后網元服務間訪問調用的全棧鏈路追蹤,幫助構建5G核心網可觀測性能力,應對云原生特點,緊密結合5G服務,解決5G核心網生產中遇到的監(jiān)控、運維、保障等難題。
1.多維度、深層次5G核心網全景性能監(jiān)控
在5G核心網中,自身運行的網絡IP節(jié)點數量已經百倍以上規(guī)模的增長,容器化微服務POD形成一個Full-Mesh的網絡,網絡的虛擬化、彈性變化,使得整個5G核心網的內部網絡“黑盒化”。
對5G核心網來說,可以通過DeepFlow的采集器技術,實現網絡+應用的全面可觀測性,不用再依賴5GC開發(fā)廠商的日志輸出能力、指標輸出能力、用戶追蹤數據輸出能力。同時借助DeepFlow強大的數據分析能力,可以對5G核心網網元、云平臺,從宏觀到微觀、不同層次、不同維度的全景性能監(jiān)控。
比如,云平臺運維人員:可以從全網宿主機的觀測視圖,監(jiān)測云資源池、宿主機之間的流量互訪拓撲、業(yè)務訪問性能;可以從單網元的宿主機觀測視圖,監(jiān)測某個網元(比如AMF或SMF)的VNF軟件內部的微服務/模塊在宿主機上的分布情況,在宿主機之間的互訪拓撲、互訪性能,快速發(fā)現宿主機維度的異常情況。
比如,核心網運維人員:通過VNF網元的維度,觀測全網VNF網元SBI口的業(yè)務互訪關系和業(yè)務互訪性能;通過VNF網元內部的微服務POD維度,觀測VNF網元內部POD粒度的互訪關系、互訪性能;通過POD到POD的網絡全棧鏈路追蹤,觀測任意一次客戶端到服務端在云網絡中的流量流轉路徑。
2.跨層、逐段分解網絡全棧鏈路追蹤
DeepFlow的網絡全棧鏈路追蹤,是解決5G核心網、云平臺之間快速跨層故障定界的關鍵能力,將虛擬化所實現的邏輯通信進行逐步展開,清晰展示每段的網絡狀態(tài)、性能,結合知識圖譜及豐富的指標數據,快速定位性能異常的問題范圍邊界。
對于5G核心網和電信云平臺的運維人員來說,目前最頭痛事情就是故障的跨層定界,通過DeepFlow跨層的網絡全棧鏈路追蹤,可以非常迅速的確定某一次業(yè)務訪問是否有丟包、時延問題,并快速確定故障發(fā)生的位置,從而在云平臺和軟件層之間做快速的定界、定位。
3.業(yè)務訪問從應用到網絡端到端追蹤
除了全棧鏈路追蹤,DeepFlow對每一次業(yè)務訪問的應用層實現了應用+網絡的端到端追蹤。運維人員可以通過系統(tǒng)檢索、分析、追蹤任意一次訪問,快速洞察應用異常。“從客戶端進程——>服務1進程——>服務2進程——>……——>服務n”的端到端服務調用關系,每一段服務調用的時延、異常均實現了關聯(lián)分析,包括每一段服務調用的流量在云網絡中的關鍵路徑及時延指標關聯(lián)分析,可以說DeepFlow實現了應用+網絡統(tǒng)一的可觀測性,并且深入且細致到每一次業(yè)務訪問的粒度。
在5G核心網領域,監(jiān)控、運維、保障都是新難題,作為一家IT網絡解決方案廠商,云杉網絡將加大創(chuàng)新力度,重點發(fā)展5G方面的業(yè)務,持續(xù)為中國5G高質量發(fā)展貢獻力量。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )