事件回顧:加拿大Rogers大規(guī)模斷網(wǎng)
當(dāng)?shù)貢r(shí)間2021年4月18日,加拿大第一大移動(dòng)通信網(wǎng)絡(luò)運(yùn)營(yíng)商Rogers Wireless及旗下Fido Solutions發(fā)生超大規(guī)模斷網(wǎng),造成嚴(yán)重的社會(huì)影響。此次大規(guī)模斷網(wǎng)事件波及加拿大全國范圍及近千萬用戶、持續(xù)時(shí)間長(zhǎng)、造成影響大,對(duì)Rogers帶了巨大的直接經(jīng)濟(jì)損失和間接品牌損失,對(duì)加拿大經(jīng)濟(jì)產(chǎn)生了重大負(fù)面影響。這也是5G網(wǎng)絡(luò)有史以來最大的事故。此次事件產(chǎn)生的直接原因是5GC設(shè)備商軟件升級(jí),觸發(fā)隱性軟件Bug。經(jīng)過分析,該事故的深層次原因是5GC NFV化,帶來了核心網(wǎng)云網(wǎng)絡(luò)黑盒化問題,導(dǎo)致5GC運(yùn)維技術(shù)難度高,故障定界定責(zé)定位難度高,難以發(fā)現(xiàn)網(wǎng)元故障征兆,出現(xiàn)故障之后難以快速確定問題界面,難以快速確定故障源。
015GC運(yùn)維痛點(diǎn)
隨著CT與IT技術(shù)的融合以及5GC NFV化的發(fā)展,逐漸暴露出IT技術(shù)對(duì)通信網(wǎng)絡(luò)可靠性的影響。云計(jì)算技術(shù)可以為通信網(wǎng)絡(luò)帶來硬件通用化、彈性化、資源池化,業(yè)務(wù)迭代加速等好處,但原有專用設(shè)備的可靠性、易維護(hù)性在新的云架構(gòu)中面臨巨大挑戰(zhàn)。
在實(shí)際的5GC運(yùn)維過程中,已經(jīng)暴露出系統(tǒng)“黑盒化”、運(yùn)維技術(shù)難度高、故障定責(zé)定界難、面向業(yè)務(wù)保障難等一系列挑戰(zhàn)。
正是由于NFV化帶來的網(wǎng)絡(luò)可靠性問題和運(yùn)維保障困難,各大運(yùn)營(yíng)商在現(xiàn)階段只能退而求其次,暫緩5GC三層解耦工作,只推進(jìn)硬件層解耦,或者硬件層與虛擬層、網(wǎng)元層廠商綁定,由5GC廠商來確保網(wǎng)絡(luò)運(yùn)行可靠性,但實(shí)際工作中,5GC廠商在對(duì)現(xiàn)網(wǎng)進(jìn)行運(yùn)維保障時(shí)面臨與運(yùn)營(yíng)商同樣的技術(shù)挑戰(zhàn)和跨技術(shù)部門協(xié)同的困境。
02DeepFlow云網(wǎng)絡(luò)流量監(jiān)控運(yùn)維管理平臺(tái)
DeepFlow是由云杉網(wǎng)絡(luò)開發(fā),面向云數(shù)據(jù)中心、用于業(yè)務(wù)可靠性保障的一款云網(wǎng)絡(luò)流量監(jiān)控運(yùn)維管理平臺(tái)。
DeepFlow基于云原生的軟探針流量采集技術(shù)、智能流量分析技術(shù),實(shí)現(xiàn)對(duì)5GC云資源池硬件層網(wǎng)絡(luò)接口、虛擬層網(wǎng)絡(luò)接口、VNF層網(wǎng)絡(luò)接口的全棧流量采集和分析,搭建5GC網(wǎng)絡(luò)智能監(jiān)控分析平臺(tái)。
圖1 DeepFlow 5GC網(wǎng)絡(luò)監(jiān)控架構(gòu)
03方案要點(diǎn)
兼容性強(qiáng):與各廠商5GC方案全兼容。
低資源消耗:1%的CPU資源、1%的內(nèi)存資源、1?~1%的網(wǎng)絡(luò)帶寬資源。
跨層跨域:硬件層、虛擬化層、容器層全棧流量采集和網(wǎng)絡(luò)性能分析,準(zhǔn)確、客觀反映網(wǎng)元/網(wǎng)絡(luò)狀態(tài),不依賴廠商日志。
秒級(jí)定位:智能分析、關(guān)聯(lián)展現(xiàn)任意資源點(diǎn)間端到端、逐跳性能指標(biāo),實(shí)現(xiàn)故障秒級(jí)定界、定責(zé)、定位。
運(yùn)維場(chǎng)景:有效支撐丟包、時(shí)延、傳輸層異常、應(yīng)用層異常、網(wǎng)絡(luò)風(fēng)暴、信令風(fēng)暴等場(chǎng)景的監(jiān)控、運(yùn)維、故障定位。
04使用案例
2020年在某電信運(yùn)營(yíng)商網(wǎng)絡(luò)云測(cè)試資源池進(jìn)行了DeepFlow系統(tǒng)的部署,納管宿主機(jī)、虛擬機(jī)、容器POD、IP,實(shí)現(xiàn)對(duì)5GC的納管覆蓋和可視化監(jiān)測(cè)分析。
通過在網(wǎng)絡(luò)云測(cè)試資源池的部署使用,充分證明了DeepFlow的產(chǎn)品能力,能夠打開5GC云資源池“網(wǎng)絡(luò)黑盒”,實(shí)現(xiàn)對(duì)所有5GC網(wǎng)元(VNF)不同層次、不同維度的拓?fù)淇梢暬靶阅苤笜?biāo)智能分析;建立面向宿主機(jī)、虛擬機(jī)、容器、5GC網(wǎng)元的多維度網(wǎng)絡(luò)監(jiān)測(cè)視圖,建立跨硬件層、虛擬層、網(wǎng)元層的統(tǒng)一可視化監(jiān)控運(yùn)維能力,降低各技術(shù)專業(yè)運(yùn)維難度;通過跨層的可視化能力,解決了故障快速定界、定責(zé)的難題,快速定位故障源,提升解決時(shí)效;解決業(yè)務(wù)保障、網(wǎng)元運(yùn)維、云資源運(yùn)維、網(wǎng)絡(luò)運(yùn)維的協(xié)同難題;為5GC云資源池提供針對(duì)性的安全觀測(cè)手段(信令風(fēng)暴、網(wǎng)絡(luò)風(fēng)暴、DDoS攻擊、非法IP訪問等)。
05故障定位案例
場(chǎng)景1:網(wǎng)元微服務(wù)DNS異常快速發(fā)現(xiàn)及快速定位
在使用DeepFlow系統(tǒng)對(duì)5GC系統(tǒng)進(jìn)行監(jiān)控運(yùn)維過程中,5GC網(wǎng)元(VNF)的監(jiān)控視圖中發(fā)現(xiàn)PCF的“DNS異常均值”超出合理范圍。
圖2 PCF的“DNS異常均值”超出合理范圍
在DeepFlow系統(tǒng)中一鍵快速切換到PCF的容器POD視圖中,發(fā)現(xiàn)“cse-etcd-1”的“DNS異常均值”最高,快速鎖定故障源在網(wǎng)元容器POD-“cse-etcd-1”,指導(dǎo)網(wǎng)元運(yùn)維人員介入處理故障。
圖3 PCF內(nèi)的某個(gè)容器POD的“DNS異常均值”超出合理范圍
一鍵快速切換到“cse-etcd-2”的DNS日志視圖,發(fā)現(xiàn)“cse-etcd-2”的DNS請(qǐng)求被DNS服務(wù)器反饋“名字錯(cuò)誤”,快速為PCF業(yè)務(wù)運(yùn)維人提供了詳細(xì)DNS日志用于根因分析。
圖4 “cse-etcd-2”的異常DNS日志
通過以上過程可以發(fā)現(xiàn),通過DeepFlow云網(wǎng)絡(luò)流量監(jiān)控運(yùn)維管理平臺(tái),可以快速發(fā)現(xiàn)5GC VNF內(nèi)的異常征兆,分鐘級(jí)界定出故障界面發(fā)生在5GC VNF層,分鐘級(jí)鎖定出現(xiàn)問題的具體位置在VNF的某個(gè)具體容器POD。
場(chǎng)景2:網(wǎng)元微服務(wù)TCP建連失敗量異??焖侔l(fā)現(xiàn)及快速定位
在使用DeepFlow系統(tǒng)對(duì)5GC系統(tǒng)進(jìn)行監(jiān)控運(yùn)維過程中,5GC網(wǎng)元(VNF)的監(jiān)控視圖中發(fā)現(xiàn)PCF的TCP建連失敗遠(yuǎn)高于正常值(在5分鐘內(nèi)累計(jì)55.45K個(gè))。
圖5 PCF的TCP建連失敗總量異常
一鍵快速切換到PCF的容器POD視圖中,檢查“建連—失敗總量”排名,發(fā)現(xiàn)“vha-pod211-2”的容器POD異常,快速鎖定故障源在網(wǎng)元容器POD-“vha-pod211-2”,指導(dǎo)PCF網(wǎng)元運(yùn)維人員介入處理故障。
圖6 PCF的vha-pod211-2容器POD建連失敗總量異常
一鍵快速切換到“vha-pod211-2”的流日志視圖,可以發(fā)現(xiàn)大量的“服務(wù)端直接重置”異常,快速為網(wǎng)元運(yùn)維人提供流量日志用于根因分析。
圖7 PCF的TCP建連失敗流日志
通過以上過程可以發(fā)現(xiàn),通過DeepFlow云網(wǎng)絡(luò)流量監(jiān)控運(yùn)維管理平臺(tái),可以快速發(fā)現(xiàn)5GC VNF內(nèi)的異常征兆,分鐘級(jí)界定出故障界面發(fā)生在5GC VNF層,分鐘級(jí)鎖定出現(xiàn)問題的具體位置在VNF的某個(gè)具體容器POD。
場(chǎng)景3:虛擬機(jī)時(shí)延異??焖侔l(fā)現(xiàn)及快速定位
在Free5GC搭建的一套5GC環(huán)境中,使用DeepFlow云網(wǎng)絡(luò)流量監(jiān)控運(yùn)維管理平臺(tái)對(duì)5GC的全棧流量進(jìn)行采集和可視化分析,通過模擬虛擬化層的故障,在虛擬機(jī)接口制造500ms的時(shí)延。
通過DeepFlow平臺(tái),在5GC VNF的可視化視圖中,快速發(fā)現(xiàn)AMF->AUSF、AUSF->UDM鏈路出現(xiàn)HTTP時(shí)延峰值異常告警(圖8步驟1)。
通過DeepFlow平臺(tái)的全棧性能指標(biāo)可視化視圖,可以一鍵快速查閱AUSF->UDM全路徑①-③、⑤-⑦接口的HTTP時(shí)延峰值、TCP建連客戶端時(shí)延峰值、TCP建連客戶端時(shí)延峰值,秒級(jí)鎖定問題位置在接口⑤與接口⑥之間,即UDM的宿主機(jī)與虛機(jī)間的接口導(dǎo)致時(shí)延異常(圖8步驟2)。
圖8 虛擬機(jī)時(shí)延故障定位過程注1:①AUSF容器接口;②AUSF虛機(jī)接口;③AUSF宿主機(jī)接口;⑤UDM宿主機(jī)接口;⑥UDM虛機(jī)接口;⑦UDM容器接口注2:步驟3-5表示HTTP時(shí)延、TCP建連客戶端時(shí)延、TCP建連客戶端時(shí)延的全棧指標(biāo)圖形化解讀。
通過以上過程可以發(fā)現(xiàn),通過DeepFlow云網(wǎng)絡(luò)流量監(jiān)控運(yùn)維管理平臺(tái),可以快速發(fā)現(xiàn)5GC VNF內(nèi)的異常征兆,分鐘級(jí)界定出故障界面發(fā)生在虛擬機(jī)層,分鐘級(jí)鎖定出現(xiàn)問題的具體位置在某臺(tái)虛擬機(jī)的某個(gè)虛接口。
05DeepFlow產(chǎn)品對(duì)5GC的價(jià)值
實(shí)現(xiàn)云資源池網(wǎng)絡(luò)可視化,打開系統(tǒng)黑盒;
降低云資源池運(yùn)維對(duì)各專業(yè)的技術(shù)挑戰(zhàn);
破解云資源池運(yùn)維跨層定責(zé)定界、故障源定位難題;
提升業(yè)務(wù)運(yùn)行可維護(hù)性、可靠性;
推進(jìn)三層解耦的技術(shù)發(fā)展和實(shí)施落地。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )