近日,谷歌又出現(xiàn)大面積癱瘓事件,導(dǎo)致全球范圍內(nèi)多款Google服務(wù)崩潰,這已經(jīng)是谷歌近半年第三次出現(xiàn)大規(guī)模宕機(jī)事件,堪稱上演宕機(jī)“帽子戲法”。
回顧此次宕機(jī)事件,谷歌在出現(xiàn)宕機(jī)之后的反應(yīng)倒是挺快。根據(jù)谷歌云官方推特表述,經(jīng)過(guò)谷歌運(yùn)維工程師近50分鐘的緊急處理,相關(guān)服務(wù)在當(dāng)?shù)貢r(shí)間凌晨4點(diǎn)32分恢復(fù)正常,真是“同是天涯運(yùn)維人,凌晨加班曾相識(shí)”。
再來(lái)看看此次宕機(jī)事件的“元兇”--“internal storage quota issue”,谷歌后續(xù)的一份初步調(diào)查報(bào)告中稱:此次宕機(jī)的原因是“我們的自動(dòng)配額管理系統(tǒng)出現(xiàn)了問(wèn)題,降低了谷歌中央身份管理系統(tǒng)的容量,導(dǎo)致其在全球范圍內(nèi)返回錯(cuò)誤。因此,我們無(wú)法驗(yàn)證用戶請(qǐng)求是否經(jīng)過(guò)認(rèn)證,并向用戶提供錯(cuò)誤?!?/p>
何謂“自動(dòng)配額管理”問(wèn)題?難道之前大部分媒體報(bào)道的“磁盤寫滿”宕機(jī)原因都是錯(cuò)的?亦或是“磁盤寫滿”是表象,“自動(dòng)配額管理”才是誘因?帶著好奇心,大數(shù)據(jù)在線小編找到了資深存儲(chǔ)專家李工,請(qǐng)他詳細(xì)分析了此次谷歌宕機(jī)事件背后的大瓜。
請(qǐng)教完大神之后,小編對(duì)數(shù)據(jù)中心當(dāng)前運(yùn)維情況進(jìn)行了一番調(diào)研。現(xiàn)階段,金融、政務(wù)、交通等行業(yè)的數(shù)據(jù)中心,無(wú)論是規(guī)模、設(shè)備數(shù)量還是應(yīng)用種類、復(fù)雜性都遠(yuǎn)勝過(guò)去。Gartner首席分析師Pankaj Prasad分析,企業(yè)IT基礎(chǔ)架構(gòu)和應(yīng)用程序所產(chǎn)生的數(shù)據(jù)量正以每年2-3倍的速度增長(zhǎng),其中像指標(biāo)、日志等機(jī)器所產(chǎn)生的數(shù)據(jù)類型多樣且增長(zhǎng)迅速,未來(lái)會(huì)給運(yùn)維帶來(lái)極大挑戰(zhàn)。
根據(jù)相關(guān)調(diào)查數(shù)據(jù)顯示,隨著全球數(shù)據(jù)規(guī)模的爆炸性增長(zhǎng),在企業(yè)數(shù)據(jù)中心的故障中,存儲(chǔ)設(shè)備相關(guān)故障已經(jīng)占到70%以上,成為數(shù)據(jù)中心故障的“主力軍”,以某國(guó)際互聯(lián)網(wǎng)社交企業(yè)為例,每天需要修復(fù)數(shù)據(jù)24TB,每天因修復(fù)帶來(lái)的跨機(jī)架流量高達(dá)180TB。并且,近期銀行、證券等金融行業(yè)也是頻頻故障癱瘓,有著深厚先進(jìn)技術(shù)積累的科技、金融領(lǐng)域企業(yè)尚且在運(yùn)維上頻頻觸礁,其他領(lǐng)域的風(fēng)險(xiǎn)和困境可想而知。
可以說(shuō),解決存儲(chǔ)設(shè)備故障問(wèn)題等于給數(shù)據(jù)中心買來(lái)一份“保險(xiǎn)”。顯然,在數(shù)據(jù)中心技術(shù)和新應(yīng)用的層出不窮的今天,傳統(tǒng)運(yùn)維依然高度依賴人的經(jīng)驗(yàn)和人的精力,運(yùn)維人員就像一群救火隊(duì)員,不是在解決問(wèn)題就是在解決問(wèn)題的路上,以至于好多運(yùn)維人員感嘆自己是操著賣白粉的心賺著賣白菜的錢。。。
如何拯救運(yùn)維人員于水火之中?徹底解決數(shù)據(jù)中心復(fù)雜化帶來(lái)的運(yùn)維復(fù)雜化?智能運(yùn)維絕對(duì)是大勢(shì)所趨,小編也大致分析了一下當(dāng)前智能運(yùn)維解決方案的近況。當(dāng)前,智能運(yùn)維圍繞設(shè)備異常、容量預(yù)警等關(guān)鍵場(chǎng)景,融入AI相關(guān)特性,讓運(yùn)維走向自動(dòng)化和智能化,但號(hào)稱智能運(yùn)維解決方案的多如牛毛,你搜索一下,搞不好是“X田系”搞的……小編又請(qǐng)教了一下存儲(chǔ)大牛老李,他說(shuō)需要從三個(gè)方面來(lái)衡量一款智能運(yùn)維解決方案的優(yōu)劣。
首先需要具備容量預(yù)測(cè)能力(設(shè)備側(cè)+云端均具備)。假設(shè)客戶能夠提前預(yù)知陣列或存儲(chǔ)池,甚至是更細(xì)粒度對(duì)象的容量變化趨勢(shì),那么容量配額不足導(dǎo)致服務(wù)宕機(jī)的發(fā)生可能性則會(huì)大大降低。智能運(yùn)維解決方案需要云上+本地聯(lián)動(dòng)運(yùn)維能力,并且能夠基于時(shí)序預(yù)測(cè)等關(guān)鍵技術(shù),最好可以向客戶提供未來(lái)最長(zhǎng)365天的容量趨勢(shì)預(yù)測(cè),并能夠提前預(yù)警80%配額,提醒用戶提前擴(kuò)容。
其次需要具備風(fēng)險(xiǎn)盤預(yù)測(cè)能力(異常檢測(cè)模型服務(wù)提前14天預(yù)測(cè)硬盤故障),智能運(yùn)維方案需要每日采集數(shù)據(jù)中心硬盤數(shù)據(jù)(硬盤ID、SN、硬盤非安全斷電次數(shù)、通電時(shí)長(zhǎng)),從歷史數(shù)據(jù)中識(shí)別硬盤不同屬性的突變模式對(duì)當(dāng)前狀態(tài)進(jìn)行預(yù)測(cè),結(jié)合用戶反饋數(shù)據(jù),定期執(zhí)行模型自優(yōu)化,持續(xù)提升預(yù)測(cè)精度,并且為數(shù)據(jù)中心硬盤提供主動(dòng)運(yùn)維。風(fēng)險(xiǎn)盤預(yù)測(cè)能力考驗(yàn)的是方案商的算法模型能力,突變模型服務(wù)企業(yè)越多、模型訓(xùn)練越久,識(shí)別風(fēng)險(xiǎn)故障就越正確。
如果廠商一上來(lái)就說(shuō)自己模型準(zhǔn)確率高達(dá)99.9%,這十有八九是騙子,勸你趕緊報(bào)警。
最后,具備存儲(chǔ)性能異常預(yù)測(cè)管理能力(圍繞存儲(chǔ)性能相關(guān)問(wèn)題提供全面分析處理方案)。這種能力又分為三塊:第一是性能預(yù)測(cè)及潮汐預(yù)警,需要基于時(shí)間序列預(yù)測(cè)等關(guān)鍵技術(shù)的性能預(yù)測(cè)特性以及基于閾值觸發(fā)的性能潮汐預(yù)警,能夠讓客戶預(yù)知設(shè)備關(guān)鍵性能指標(biāo)變化趨勢(shì)(如時(shí)延、IOPS、塊帶寬),提早發(fā)現(xiàn)設(shè)備性能瓶頸點(diǎn),輔助客戶盡早規(guī)避可能發(fā)生的異常;
另外,第二是性能異常檢測(cè)與根因定界分析,針對(duì)“傳統(tǒng)的專家經(jīng)驗(yàn)規(guī)則或靜態(tài)閾值預(yù)警,無(wú)法覆蓋大多數(shù)性能異常場(chǎng)景,且可能存在誤報(bào)漏報(bào)的情況”,方案可以基于機(jī)器學(xué)習(xí)的關(guān)鍵性能KPI異常檢測(cè)及根因定界特性,無(wú)監(jiān)督自學(xué)習(xí)的異常檢測(cè)模型能夠?qū)崟r(shí)檢測(cè)設(shè)備時(shí)延是否異常,異常檢測(cè)準(zhǔn)確率越高越好;另外有些廠商在存儲(chǔ)設(shè)備中內(nèi)置基于多集成樹算法融合模型,外加皮爾遜相關(guān)性關(guān)聯(lián)分析算法,實(shí)現(xiàn)異常根因的定界分析,大幅提升客戶發(fā)現(xiàn)性能問(wèn)題、定位問(wèn)題邊界的效率。
第三就是常見性能故障自修復(fù),有能力將逐步實(shí)現(xiàn)異常場(chǎng)景的快速自愈,降低客戶運(yùn)維門檻,降低客戶運(yùn)維成本,實(shí)時(shí)保障客戶業(yè)務(wù)不受干擾。
小編又進(jìn)一步調(diào)研了當(dāng)前的市場(chǎng)情況,在眾多數(shù)據(jù)中心智能運(yùn)維解決方案中,以華為為代表中國(guó)廠商的解決方案近年來(lái)不斷進(jìn)步,甚至達(dá)到了業(yè)界領(lǐng)先水平。以華為數(shù)據(jù)管理引擎DME為例,目前在銀行、證券、政府等多個(gè)行業(yè)廣泛應(yīng)用,在保護(hù)用戶數(shù)據(jù)隱私的前提下,有效地幫助金融等行業(yè)用戶構(gòu)建構(gòu)筑端到端的感知能力、智能的分析能力以及可信的執(zhí)行能力來(lái)實(shí)現(xiàn)運(yùn)維自動(dòng)化閉環(huán),大幅提升運(yùn)維和資源利用效率。
面向未來(lái),隨著智能運(yùn)維技術(shù)的不斷成熟與完善,小編相信數(shù)據(jù)中心運(yùn)維人員不再是那個(gè)忙得四腳朝天的“熱鍋螞蟻”,而是故障圍困萬(wàn)千重,我自巋然不動(dòng),任憑風(fēng)云起,穩(wěn)坐釣魚臺(tái),談笑間,故障已灰飛煙滅。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 雷軍說(shuō)破了3999元的心魔,然而蘋果就如一座大山在頭上壓著
- 中國(guó)不買了,三大光刻機(jī)企業(yè)都降低預(yù)期,后悔莫及
- 東軟解決方案論壇2024在武漢開幕 東軟發(fā)布多款創(chuàng)新型解決方案
- 收入首超特斯拉,比亞迪市值為何只有六分之一?
- 永洪科技:點(diǎn)亮數(shù)據(jù)分析之光,成就數(shù)據(jù)價(jià)值之夢(mèng)
- 明星為何爭(zhēng)做探店頂流?
- 小米80多萬(wàn)元的車值嗎?為誰(shuí)造?
- 江湖老劉:胖東來(lái)為何備受追捧
- 臺(tái)積電更強(qiáng)了,漲價(jià)一成收割美國(guó)芯片
- 雙十一期間大連海參為何受歡迎
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。