作者:浪潮資深存儲架構師 葉毓睿、浪潮存儲架構師 李強
隨著5G、大數(shù)據(jù)為代表的新基建不斷落地,現(xiàn)代數(shù)據(jù)中心正迅速崛起,新型的存儲器件、軟件技術及解決方案的發(fā)展使得存儲系統(tǒng)越來越復雜。這一趨勢下,浪潮存儲基于InView智能管理平臺,為企業(yè)提供了智能、簡單且易用的存儲管理和運維。
解決存儲系統(tǒng)的復雜性需要AI技術
存儲系統(tǒng)的生命周期包括準備、實施、維護三個階段,這是一個非常復雜的過程。從準備階段的方案設計到實施過程中的現(xiàn)場性能調(diào)優(yōu),再到維護階段的監(jiān)控管理、問題定位和解決,加之由于用戶數(shù)據(jù)中心環(huán)境復雜,存儲設備種類數(shù)量繁多,所以存儲系統(tǒng)的生命周期是一個復雜的體系,解決存儲系統(tǒng)的復雜生命周期運行和管理需要AI技術的加持。
圖1:存儲系統(tǒng)生命周期三階段
AI技術可以解決存儲系統(tǒng)運行和管理的復雜性,AI技術會不斷地從存儲及其運行環(huán)境中采集存儲的各種狀態(tài)信息和性能數(shù)據(jù),用機器學習、算法分析,學習用戶的存儲使用情況,進而自動化的調(diào)整并優(yōu)化存儲系統(tǒng),使存儲服務能更好地適應用戶的需求。比如:智能化的把數(shù)據(jù)保存在合適的區(qū)域;自動的完成數(shù)據(jù)均衡;預測未來的需求;預防潛在的問題;自動參數(shù)調(diào)優(yōu)等,有AI加持的智能化存儲管理可以增強存儲系統(tǒng)的可靠性、降低存儲的復雜性和維護成本。
權威IT調(diào)研與咨詢服務公司Gartner也在持續(xù)關注存儲智能化的發(fā)展,并給出了AIOps(Artificial Intelligence IT Operations)的定義: AIOps利用大數(shù)據(jù)和AI技術增強IT管理和運維的能力,包括:可用性和性能監(jiān)測、事件關聯(lián)和分析、IT服務管理和自動化。
用戶期待AI加持的存儲智能管理
全球的用戶也期待著擁有智能化管理的存儲產(chǎn)品。IDC在2018年6月完成了一項全球存儲用戶的智能化特性調(diào)查,用戶對使用AI / ML算法推動存儲系統(tǒng)的改進抱以積極的態(tài)度。
圖2:IDC調(diào)研用戶對AI存儲的需求
同時,IDC還調(diào)研了已經(jīng)使用了存儲智能運維技術(AIOps)的用戶,詢問他們從中得到了哪些好處。圖3展示了用戶目前最關心的五項智能服務。其中,排第一的AIOps用途是改善系統(tǒng)的整體可用性,其次是加快問題解決速度及提高性能容量規(guī)劃,預測性地識別任何即將發(fā)生的故障,監(jiān)視與存儲相關的其他IT基礎架構也被用戶重點關注。整體來說,存儲智能運維技術(AIOps)在整個的市場和發(fā)展趨勢是非常好的,對于用戶來說,用戶期待借助存儲智能運維技術(AIOps)來解決日常手段或者現(xiàn)有方法不能解決的存儲管理問題。
圖3:IDC調(diào)研:用戶最希望使用的AIOps特性
浪潮存儲智能運維(AIOps)的關鍵功能和應用場景
圖4:存儲的AIOps框架
一個完整的存儲智能運維(AIOps)框架包括監(jiān)控、學習、預測、推薦和實施五個過程,五個過程能為存儲提供根因分析、自動調(diào)優(yōu)、預防故障、容量預測和規(guī)劃、性能預測和規(guī)劃、IT服務管理等功能。
圖5:Gartner 定義的AIOps主要功能
學術界也非常關注存儲的AIOps。國外的存儲和系統(tǒng)領域的頂級會議FAST、ATC、SRE、KDD有很多相關文章,清華大學、中科院、華中科技大學等國內(nèi)科研機構也在故障預測、根因分析、異常檢測、自動調(diào)優(yōu)等方面有優(yōu)秀的科研成果。清華大學在《計算機學會通訊》上發(fā)表了“基于機器學習的運維”,系統(tǒng)地闡述了智能運維的關鍵技術,把AIOps分成針對歷史事件、針對當前事件和針對未來事件三類應用場景。歷史事件場景中瓶頸分析指的是制約存儲或系統(tǒng)服務的硬件或軟件瓶頸;當前事件場景主要是根據(jù)當前的日志和告警,快速檢測、定位異常,并完成故障的根因分析,最終實現(xiàn)快速止損,控制故障的影響范圍;未來事件場景中是通過AI技術自動挖掘故障發(fā)生前的日志、性能參數(shù)指標,找到故障前的可重復的模式,從而在今后出現(xiàn)類似的日志模式時,提前預測故障、性能容量變化趨勢以及系統(tǒng)可能的熱點瓶頸。
圖6:AIOps的關鍵場景和技術
磁盤故障預測和性能容量預測給存儲管理做“減法”
根據(jù)圖3 IDC的用戶調(diào)查來看,針對未來事件的預測分析是存儲用戶重點關注的五大功能之一。存儲本身很復雜,數(shù)據(jù)中心環(huán)境和用戶應用也很復雜,預測性分析技術是準確預測存儲風險和故障、解決存儲的復雜性的重要一部分。預測性分析技術是通過分析歷史的日志、告警、報錯等信息,AI算法可以自動分析出問題出現(xiàn)前的頻繁出現(xiàn)的數(shù)據(jù)模式,之后在從正常存儲系統(tǒng)上匹配這些AI學習到模式就能形成預測。對于一個復雜的存儲系統(tǒng)來說,用戶關注最多的是硬盤、性能和容量的預測分析,磁盤故障預測和性能容量預測則成為兩大關鍵功能。
為什么關注硬盤故障預測?公開數(shù)據(jù)顯示百度數(shù)據(jù)中心4年29萬次硬件故障中,硬盤故障占比高達81.84%。對于傳統(tǒng)的存儲廠商來說,雖然磁盤的絕對故障率不高,但是在所有的存儲部件中,如CPU、內(nèi)存、主板、網(wǎng)卡、HBA卡、電源等,磁盤的故障率是最高的。雖然傳統(tǒng)存儲有RAID、副本等機制,但是數(shù)據(jù)重建過程中使用了大量IO資源,這導致存儲性能嚴重下降,而且重建時間很長往往以天計。因此,數(shù)據(jù)重建對用戶的業(yè)務影響很大。如果我們可以提前預測磁盤故障,用戶可以選擇業(yè)務不繁忙的時間來重建數(shù)據(jù),那么重建帶來的影響可以忽略不計。同時,預測可以把突發(fā)事件變?yōu)橛媱澥录?,也降低了存儲的維護成本。
為什么關注容量性能預測?除故障外,用戶在日常使用存儲的過程中關注最多的就是容量和性能。系統(tǒng)容量不足會導致系統(tǒng)不可用,用戶業(yè)務中斷。性能指標主要指時延、帶寬、IOPS,隨著用戶業(yè)務的發(fā)展,給存儲帶來的性能壓力越來越大,性能不足會讓用戶的應用變慢甚至無響應。利用AI技術,對存儲的性能、容量變化趨勢進行準確預測,一方面可以告知用戶進行擴容、軟硬件升級的時間點,另一方面也能提供存儲規(guī)劃的具體參考指標。
浪潮存儲智能管理平臺的磁盤故障預測技術
圖7:浪潮磁盤故障預測系統(tǒng)整體架構
同典型的AI系統(tǒng)一樣,浪潮智能管理平臺先對歷史數(shù)據(jù)進行訓練,生成AI模型,最后在新的數(shù)據(jù)到來時形成預測。具體說包括以下五個部分:輸入數(shù)據(jù)、預處理、模型訓練、優(yōu)化集成和預測。對于軟件系統(tǒng)來說關鍵點有:數(shù)據(jù)來源、算法選擇和評估指標。
其一,數(shù)據(jù)來源
硬盤本身提供了SMART數(shù)據(jù)(Self-Monitoring Analysis and Reporting Technology)。SMART是90年代定義的硬盤狀態(tài)檢測和預警系統(tǒng)的規(guī)范,提供了磁頭、磁盤、電機、電路等硬盤硬件的運行數(shù)據(jù)。目前幾乎所有的硬盤廠商都已經(jīng)支持了該規(guī)范。下表列出了與故障相關的SMART值。
表1:故障相關的SMART值
浪潮存儲智能管理平臺基于SMART數(shù)據(jù)進行磁盤故障預測,且都取得了不錯的效果。在2020年2月的存儲頂會FAST(USENIX Conference on File and Storage Technologies)上發(fā)表的最新論文表明,SMART再加上存儲性能數(shù)據(jù)可以進一步提升預測準確率。作者采用了12個磁盤IO性能指標、18個服務器性能指標、4個位置信息,基于CNN和LSTM的AI算法實現(xiàn)了提前10天故障預測誤報率0.5%、漏報率5.1%。我們也將著手在浪潮存儲平臺上能應用最新的技術來進一步提高預測的準確性。
其二,算法選擇
可用于磁盤故障預測的AI算法有很多,如傳統(tǒng)算法決策樹、經(jīng)典的SVM(Support Vector Machine)、在各種競賽上大放異彩的XGBoost(Gradient Tree Boosting)以及深度學習算法CNN和LSTM。實際效果及頂級會議KDD、ATC、FAST的論文實驗結果都表明,XGBoost、CNN、LSTM的效果比傳統(tǒng)算法有明顯優(yōu)勢。
其三,評價指標
在完成了歷史數(shù)據(jù)訓練,故障預測之后,我們需要對預測的效果進行評估。表2描述了機器學習中標準的評價指標。
表2:機器學習模型評價指標
基于表2中的定義,評價磁盤故障預測的主要有準確率、漏報率和誤報率:
? 準確率=:判定正確的盤(含好盤和壞盤)占所有盤的比例
? 誤報率=:好盤被誤判成壞盤占所有好盤的比例
? 漏報率=:沒有識別出的壞盤占所有壞盤的比例
準確率高,誤報和漏報低,是浪潮存儲追求的目標。這相當于我們在發(fā)現(xiàn)幾乎所有壞盤的同時,沒有把好盤誤判成壞盤。但是從算法調(diào)優(yōu)的角度看,誤報率和漏報率是一對矛盾,誤報率的降低會引起漏率報的上升,漏報率的降低會引起誤報率的上升。
浪潮存儲智能管理平臺的性能容量預測技術
對于存儲來說,性能和容量預測是兩件不同的事情,都為用戶帶來不同的價值。但是站在技術角度,兩者都屬于數(shù)據(jù)挖掘中時間序列預測問題(Time Series Prediction)。時間序列,也叫時間數(shù)列、歷史復數(shù)或動態(tài)數(shù)列。它是將某種統(tǒng)計指標的數(shù)值,按時間先后順序排到所形成的數(shù)列。預測的基本原理是:統(tǒng)計分析過去的時間序列數(shù)據(jù),形成擬合函數(shù)或者AI算法模型,以擬合的函數(shù)結果或模型來預測未來的趨勢。
時間序列預測法可用于短期、中期和長期預測。造成時間序列數(shù)據(jù)發(fā)生變化的因素主要有以下四個:
1)趨勢性:時間序列曲線呈現(xiàn)出一種緩慢而長期的持續(xù)上升、下降、不變的整體趨勢。
2)周期性:由于外部的影響,隨季節(jié)的交替,時間序列曲線有明顯的周期性的高峰、低谷。
3)隨機性:個別的數(shù)據(jù)變化為隨機變動,但整體呈現(xiàn)出統(tǒng)計規(guī)律。
4)綜合性:以上幾種變化因素的疊加或組合。預測時可以過濾除去不規(guī)則的隨機因素,最終展現(xiàn)出趨勢性和周期性變動。
經(jīng)典的時間序列預測算法有ARIMA、線性回歸、深度學習算法等。這些算法有各自的優(yōu)劣勢,產(chǎn)品會根據(jù)不同的用戶應用場景來選擇不同的算法。圖8展示了各個算法的實際效果。
圖8:時間序列算法效果比較
對于存儲來說,除核心算法外,存儲還有自身的容量和性能指標。表3列出了浪潮存儲智能管理平臺支持的未來1天、7天、30天、90天的3個容量趨勢指標,15個性能趨勢指標。
表3:性能容量預測指標
存儲產(chǎn)業(yè)界中,作為新數(shù)據(jù)時代“新存儲”引領者,浪潮存儲基于InView智能管理平臺,提供了預測性分析、端到端的故障定位、性能洞察等一系列的智能化功能,幫助用戶分析復雜應用環(huán)境下從虛擬機到后端存儲端到端的性能瓶頸,確定影響性能瓶頸的主要因素,并最終給出可行的優(yōu)化或解決問題的建議。其中磁盤故障預測、性能容量預測的智能化功能,可以幫助用戶預防硬件故障帶來的損失,并給出具體的擴容建議,為用戶提供更穩(wěn)定、高性能、智能化的存儲服務,使存儲服務能更好地適應用戶需求,同時降低存儲的復雜性和維護成本。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )