在不確定性中尋找確定性。
01抵抗不確定性的“免疫力”
這次疫情“黑天鵝”,讓許多企業(yè)用戶開始意識(shí)到,系統(tǒng)的數(shù)字化能力是抵御包括疫情在內(nèi)的諸多不確定性風(fēng)險(xiǎn)以及未來就緒的最佳途徑。
通過將數(shù)字化轉(zhuǎn)化為生產(chǎn)方式,無縫融入商業(yè)模式和全場景體驗(yàn),構(gòu)建線上線下的一體化鏈條,讓企業(yè)真正獲得抵抗不確定性的“免疫力”;而這樣的前提在于:
第一,在如此快速變化的時(shí)代,業(yè)務(wù)和需求都在快速迭代,用戶的應(yīng)用也正在更多的向云原生和微服務(wù)架構(gòu)轉(zhuǎn)型,這要求基礎(chǔ)設(shè)施能夠快速部署以及靈活可擴(kuò)展;
第二,當(dāng)下的經(jīng)濟(jì)環(huán)境,需要在技術(shù)先進(jìn)性和經(jīng)濟(jì)合理性中找到平衡支點(diǎn);
第三,如果說企業(yè)的“免疫力”來自于系統(tǒng)的數(shù)字化能力打造,那么穩(wěn)定、持續(xù)的數(shù)字化能力輸出大概率來自于系統(tǒng)的健壯性。核心的數(shù)據(jù)基礎(chǔ)設(shè)施如果同樣擁有了“免疫力”,無疑能夠更好的抵御各種故障對(duì)系統(tǒng)的沖擊,保證上層業(yè)務(wù)的正常運(yùn)行。
02XSKY SDS V4.2正式發(fā)布
日前,為了幫助企業(yè)用戶更好的應(yīng)對(duì)當(dāng)下不確定性的大環(huán)境,增強(qiáng)抵抗各種不確定性的“免疫力”,XSKY正式迭代發(fā)布了V4.2版本,帶來了一系列新功能以及增強(qiáng)的特性,讓SDS更加可靠,易用和可運(yùn)維。
本次版本中,帶來了數(shù)據(jù)校驗(yàn)增強(qiáng),硬盤亞健康處理,網(wǎng)絡(luò)亞健康處理,閑時(shí)自動(dòng)重平衡四大重磅功能,從數(shù)據(jù)端到端安全、硬件組件的亞健康管理和容量管理三大領(lǐng)域進(jìn)行“免疫力”提升,同時(shí)還帶來了場景化進(jìn)一步增強(qiáng)等九項(xiàng)新增與優(yōu)化功能;并全新發(fā)布XSKY S3 Console對(duì)象接口產(chǎn)品,幫助客戶進(jìn)一步降低使用對(duì)象產(chǎn)品的門檻。
基于上述發(fā)布,客戶在一系列業(yè)務(wù)場景中實(shí)現(xiàn)了性能倍增,以及面對(duì)多樣化的工作負(fù)載,進(jìn)一步簡化運(yùn)維,增強(qiáng)抵御系統(tǒng)故障的能力:
1、VMware場景,vSphere中vMotion、克隆操作的復(fù)制性能提升了1.5倍;
2、容器場景,Pod創(chuàng)建速度更快,以100個(gè)Pod創(chuàng)建速度為例,從30+分鐘優(yōu)化到4分鐘,效能提升7.5倍;
3、相同硬件配置情況下,整個(gè)系統(tǒng)支持對(duì)象數(shù)比上一個(gè)版本提升了1倍。
以上是場景中顯著提升的部分,同時(shí)還有整體系統(tǒng)性能穩(wěn)定性的提升。
03可靠性增強(qiáng)
1、高強(qiáng)度實(shí)時(shí)數(shù)據(jù)校驗(yàn)
數(shù)據(jù)靜默錯(cuò)誤是現(xiàn)代存儲(chǔ)系統(tǒng)最難處理的故障之一?,F(xiàn)在機(jī)房周邊環(huán)境復(fù)雜,特別是SSD的大量使用,使得外部的強(qiáng)干擾導(dǎo)致本來輸入的0/1的高低電平發(fā)生改變而發(fā)生靜默錯(cuò)誤的幾率越來越大。
XSKY過去版本在多副本(EC)數(shù)據(jù)保護(hù)已經(jīng)積累了大量的數(shù)據(jù)安全性保證措施,同時(shí)支持定期后臺(tái)數(shù)據(jù)掃描來檢查不一致。
在V4.2版本中,我們又增加了一個(gè)強(qiáng)有力的數(shù)據(jù)保護(hù)措施,通過在IO路徑加入了實(shí)時(shí)數(shù)據(jù)校驗(yàn)機(jī)制來確保數(shù)據(jù)讀寫的即時(shí)安全。該措施使得在寫IO的時(shí)候,底層存儲(chǔ)引擎會(huì)計(jì)算寫入數(shù)據(jù)的CRC值并記錄到對(duì)應(yīng)數(shù)據(jù)的元數(shù)據(jù)中;
讀IO的時(shí)候,會(huì)讀出數(shù)據(jù),同時(shí)計(jì)算CRC值然后與元數(shù)據(jù)中記錄的CRC比對(duì),如果不一致,告警,使用其他副本數(shù)據(jù)來恢復(fù),恢復(fù)后同步會(huì)打印告警消息。
實(shí)時(shí)IO流程的數(shù)據(jù)校驗(yàn)使得分布式系統(tǒng)整體容錯(cuò)性大大增強(qiáng),同時(shí)解決了數(shù)據(jù)一致性的即時(shí)性問題,避免任何情況下應(yīng)用從存儲(chǔ)系統(tǒng)中讀取可能的不一致數(shù)據(jù)。
實(shí)時(shí)數(shù)據(jù)校驗(yàn)可以按照卷的粒度開啟或者關(guān)閉,內(nèi)部實(shí)驗(yàn)室性能綜合測試評(píng)估對(duì)系統(tǒng)的性能峰值影響少于10%。建議關(guān)鍵業(yè)務(wù)開啟實(shí)時(shí)數(shù)據(jù)校驗(yàn)功能,避免靜默錯(cuò)誤的發(fā)生。
2、硬盤亞健康檢測
硬盤亞健康引起的系統(tǒng)性能抖動(dòng)是分布式存儲(chǔ)極難處理的現(xiàn)象之一,自動(dòng)檢測集群中的慢盤和壞盤,告警并自動(dòng)隔離,是存儲(chǔ)系統(tǒng)在健壯性上的必要支撐。
在新版本中,XSKY進(jìn)一步完善了檢測方法和處理機(jī)制。壞盤判斷相對(duì)簡單,會(huì)通過檢測SCSI/NVME的IO指令錯(cuò)誤碼, 以及相關(guān)設(shè)備的介質(zhì)事件發(fā)生(如拔盤)等進(jìn)行壞盤決策。
而判斷慢盤是最需要經(jīng)驗(yàn)的。XSKY根據(jù)現(xiàn)網(wǎng)大量的已部署集群的工程經(jīng)驗(yàn),將算法應(yīng)用到所有的存儲(chǔ)介質(zhì)守護(hù)進(jìn)程(OSD)中進(jìn)行實(shí)時(shí)分析,其采用三個(gè)維度來判斷慢盤:
? 縱向時(shí)延比較:本OSD的性能延遲超過閾值的次數(shù);
? 橫向時(shí)延比較:與存儲(chǔ)池內(nèi)其他OSD平均延遲進(jìn)行比較,通過標(biāo)準(zhǔn)差計(jì)算相應(yīng)偏離;
? IO粒度:當(dāng)一個(gè)IO在本OSD對(duì)應(yīng)介質(zhì)中處理超過一定時(shí)間的 。
這種立體的判斷方法,使得系統(tǒng)識(shí)別慢盤的準(zhǔn)確度和速度都大幅提高。
新版本也進(jìn)一步完善了慢盤的處理流程,采用告警-隔離-重試,逐步遞進(jìn):
? 告警:上述檢測機(jī)制發(fā)現(xiàn)的所有磁盤亞健康情況都會(huì)發(fā)送對(duì)應(yīng)告警到界面,提示用戶檢查;
? 隔離:當(dāng)且僅當(dāng)出現(xiàn)IO粒度慢盤和壞盤時(shí),系統(tǒng)會(huì)指定守護(hù)進(jìn)程(OSD)自動(dòng)退出;
? 重試:當(dāng)且僅當(dāng)出現(xiàn)IO粒度慢盤和壞盤情況OSD主動(dòng)退出時(shí),系統(tǒng)會(huì)根據(jù)對(duì)應(yīng)的錯(cuò)誤情況來連續(xù)嘗試?yán)鹨欢ù螖?shù)來,如繼續(xù)異常則不再拉起該OSD。重試過程中由于OSD已經(jīng)隔離退出,因此不會(huì)影響在線IO。
3、網(wǎng)絡(luò)亞健康檢測
分布式系統(tǒng),網(wǎng)絡(luò)的穩(wěn)定性對(duì)系統(tǒng)的性能影響非常大。XSKY SDS新版本可以自動(dòng)識(shí)別集群網(wǎng)絡(luò)故障,發(fā)送告警信息,協(xié)助管理員快速排查網(wǎng)絡(luò)問題。
實(shí)現(xiàn)原理如下:
? 系統(tǒng)所有守護(hù)進(jìn)程通過分布式網(wǎng)絡(luò)延遲檢測算法,實(shí)時(shí)判斷不同節(jié)點(diǎn)的網(wǎng)絡(luò)延遲和副本之間數(shù)據(jù)復(fù)制的網(wǎng)絡(luò)延遲來獲得當(dāng)前系統(tǒng)內(nèi)所有節(jié)點(diǎn)的實(shí)時(shí)網(wǎng)絡(luò)情況;
? 計(jì)算出系統(tǒng)所有節(jié)點(diǎn)中1min, 5min, 15min內(nèi)的網(wǎng)絡(luò)延遲的平均值作為評(píng)判基線;
? 遍歷系統(tǒng)所有節(jié)點(diǎn)的1min,5min,15min的網(wǎng)絡(luò)延遲數(shù)據(jù),通過標(biāo)準(zhǔn)差計(jì)算分析偏離指數(shù),當(dāng)指數(shù)超過閾值時(shí)則認(rèn)為網(wǎng)絡(luò)有問題。
4、存儲(chǔ)池容量分布閑時(shí)自動(dòng)重平衡
分布式存儲(chǔ),在進(jìn)行擴(kuò)容或者縮容的時(shí)候,會(huì)觸發(fā)存儲(chǔ)池進(jìn)行重平衡。由于算法的拓?fù)溥m應(yīng)性或者人為干預(yù),也有小概率情況下出現(xiàn)算法自動(dòng)計(jì)算的存儲(chǔ)池容量不平衡的情況出現(xiàn)。
以前出現(xiàn)這種情況,需要運(yùn)維人員進(jìn)行手動(dòng)的容量再平衡。在新版本中,加入了智能檢測這種情況并且智能啟動(dòng)重平衡的全自動(dòng)化處理流程,避免極端情況下由于某個(gè)OSD寫滿(超過閾值)而引起業(yè)務(wù)不能寫入的現(xiàn)象。
分布式存儲(chǔ)系統(tǒng)利用閑時(shí)(晚上12點(diǎn)-2點(diǎn),可配置),對(duì)于容量不均衡的存儲(chǔ)池(容量差異大于1%)進(jìn)行重平衡。自動(dòng)重平衡會(huì)以最低恢復(fù)帶寬進(jìn)行,也可以關(guān)閉,避免對(duì)峰值業(yè)務(wù)造成影響。
04場景化增強(qiáng)
1、OpenStack場景優(yōu)化
很多用戶選擇XSKY SDS代替OpenStack自帶的開源軟件定義存儲(chǔ)。為了解決資源消耗問題,XSKY自研了具有專利技術(shù)的 XDC模塊,提供LibRBD proxy代理,通過代理劫持客戶端訪問RBD的命令,將無序的訪問命令統(tǒng)一管理起來,根據(jù)系統(tǒng)資源使用情況按需打開RBD通道,從而達(dá)到資源的有效管理。
在快照選擇上,XSKY提供ROW(Redirect on Write)技術(shù)。傳統(tǒng)存儲(chǔ)COW快照后在寫性能方面的效率要比ROW低很多,但是在讀性能ROW的效率要低于COW快照。而軟件定義存儲(chǔ)的整體性能可由多節(jié)點(diǎn)負(fù)擔(dān),且XSKY產(chǎn)品在讀性能方面做了大量優(yōu)化,因此,在SDS產(chǎn)品中采用ROW快照,可有效規(guī)避傳統(tǒng)存儲(chǔ)創(chuàng)建快照后存在的性能問題。
但上述改動(dòng)使得OpenStack支持多套存儲(chǔ)和跨池克隆等場景處理起來比較復(fù)雜。在新版本里,XSKY通過對(duì)納管開源Ceph,在線數(shù)據(jù)遷移和跨池克隆等功能模塊持續(xù)進(jìn)行優(yōu)化,性能和穩(wěn)定性都得到較大的提升。
2、VMware場景優(yōu)化
XSKY內(nèi)部統(tǒng)計(jì),大約有1/3的存儲(chǔ)應(yīng)用場景都是VMware場景。在新版本中,XSKY持續(xù)對(duì)VAAI接口進(jìn)行優(yōu)化。本版本的優(yōu)化主要有兩點(diǎn):
? UNMAP的支持粒度從4M改為1M。因?yàn)镋SXi應(yīng)用大部分都是1M粒度,所以對(duì)于ESXi的UNMAP操作可以顯著增加容量釋放空間;
? XCOPY直接從最底層OSD到OSD進(jìn)行數(shù)據(jù)復(fù)制,性能提升1.5倍。對(duì)于虛機(jī)克隆和遷移操作顯著減少了時(shí)間。
3、容器場景優(yōu)化
新版本針對(duì)CSI的API接口持續(xù)進(jìn)行優(yōu)化,提升批量創(chuàng)建Pod的速度,提升了單集群支持Pod的數(shù)量,并且把通過API創(chuàng)建的資源和通過系統(tǒng)UI創(chuàng)建的資源進(jìn)行隔離,提升了安全性。
XSKY的CSI很早就支持RAW卷、卷擴(kuò)容、快照和克隆等增值特性。這次新版本加入了對(duì)用戶名和密碼進(jìn)行加密保存的支持,并且支持容器的MPIO特性,在三層網(wǎng)絡(luò)下也可以部署延展集群,實(shí)現(xiàn)容器的同城雙活。
4、S3對(duì)象存儲(chǔ)策略優(yōu)化
對(duì)象存儲(chǔ)在企業(yè)市場使用,和公有云場景不同,需要更多的精細(xì)化管理控制。在這次發(fā)布的新版本里,IT管理員可以根據(jù)業(yè)務(wù)需要,對(duì)S3用戶通過API創(chuàng)建的存儲(chǔ)桶可以靈活指定存儲(chǔ)策略。
如上圖所示,如果管理員允許使用Location參數(shù),S3 用戶調(diào)用 S3 Put Bucket API 創(chuàng)建存儲(chǔ)桶時(shí),可以使用攜帶 LocationConstraint 參數(shù)來指定要使用的存儲(chǔ)策略。
但是如果管理員想控制某些用戶的存儲(chǔ)策略,則可以通過設(shè)置禁止使用Location參數(shù),則S3用戶創(chuàng)建桶時(shí)只能選擇管理員設(shè)置好的存儲(chǔ)策略(可以指定某個(gè)策略,也可以使用缺省策略,甚至可以在不同策略里輪詢)。
05可運(yùn)維增強(qiáng)
1、集成巡檢工具
從V4.2版本開始,XSKY SDS管理節(jié)點(diǎn)內(nèi)置了巡檢工具,只需要啟動(dòng)運(yùn)行,就可以自動(dòng)完成巡檢并提交巡檢報(bào)告。在V4.2版本以前的集群,可以從官網(wǎng)下載最新的工具進(jìn)行集群巡檢。
獲得巡檢結(jié)果后,通過官網(wǎng)上傳巡檢結(jié)果文件,后臺(tái)XSKY售后支持系統(tǒng)會(huì)利用內(nèi)部知識(shí)庫以及智能分析系統(tǒng)來進(jìn)行故障或隱患的發(fā)現(xiàn),生成巡檢報(bào)告,并提供給用戶。
2、文件訪問日志
支持針對(duì)文件的操作,進(jìn)行日志記錄,滿足審計(jì)等客戶需求,方便操作追溯。
3、告警記錄優(yōu)化
告警記錄優(yōu)化,增加了告警自動(dòng)恢復(fù)機(jī)制,錯(cuò)誤碼,告警原因,詳情和處理意見,使得用戶可以自行針對(duì)處理建議進(jìn)行修復(fù),也增強(qiáng)了系統(tǒng)的透明性,使得運(yùn)維更便捷。
4、優(yōu)化歸并文件空洞掃描
可按照策略進(jìn)行空間掃描進(jìn)行二次歸并,及時(shí)進(jìn)行空間回收,提高對(duì)象存儲(chǔ)空間使用率。
5、存儲(chǔ)桶對(duì)象數(shù)規(guī)格提升和告警優(yōu)化
新版本對(duì)索引池的性能進(jìn)行持續(xù)優(yōu)化,相同硬件配置的情況下,整個(gè)系統(tǒng)支持對(duì)象數(shù)比上一個(gè)版本提升了1倍。并且可以在界面看到單桶已經(jīng)存儲(chǔ)文件數(shù)量,超出存儲(chǔ)文件數(shù)閾值限制寫入,保證已寫入桶數(shù)據(jù)的預(yù)期性能。
06推出全新XSKY S3 Console軟件
對(duì)象存儲(chǔ)通過S3 API來使用,這種方式對(duì)于很多企業(yè)用戶來說不太直觀。他們希望有一個(gè)工具,可以類似公有云一樣,實(shí)現(xiàn)文件的上傳和下載等基本的操作。
XSKY S3 Console是一款面向XSKY S3用戶的便捷管理對(duì)象存儲(chǔ)服務(wù)的圖形化Web應(yīng)用程序,主要提供了豐富的桶、文件夾及文件等級(jí)別的管理功能。幫助使用XSKY對(duì)象產(chǎn)品的客戶降低使用門檻。
本次新版本中,XSKY的對(duì)象存儲(chǔ)內(nèi)置了S3 Console功能。用戶只需要安裝好對(duì)象存儲(chǔ),打開瀏覽器就可以直接基于S3 Console來使用對(duì)象存儲(chǔ)。
通過XSKY S3 Console,對(duì)象存儲(chǔ)就不僅僅只適合開發(fā)人員使用,普通用戶也可以很方便的使用對(duì)象存儲(chǔ)。
07小結(jié)
XSKY SDS V4.2的發(fā)布,使得XSKY SDS的健壯性、性能、易用性和可運(yùn)維能力都有了大幅的提升,保證上層業(yè)務(wù)穩(wěn)定運(yùn)行,助力客戶利用SDS的優(yōu)勢更加敏捷應(yīng)對(duì)疫情帶來的影響。XSKY S3 Console,則拉近了對(duì)象存儲(chǔ)和用戶的距離,可以加快對(duì)象存儲(chǔ)在企業(yè)中的普及。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 為什么年輕人不愛換手機(jī)了
- 柔宇科技未履行金額近億元被曝已6個(gè)月發(fā)不出工資
- 柔宇科技被曝已6個(gè)月發(fā)不出工資 公司回應(yīng)欠薪有補(bǔ)償方案
- 第六座“綠動(dòng)未來”環(huán)保公益圖書館落地貴州山區(qū)小學(xué)
- 窺見“新紀(jì)元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機(jī)打造全新一代屏幕壓感
- 清潔家電新老玩家市場定位清晰,攜手共進(jìn),核心技術(shù)決定未來
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達(dá)成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。