2022年1月15日,湯加火山突然劇烈噴發(fā),火山噴發(fā)不僅使得湯加全境面臨海嘯、暴雨、洪水和強(qiáng)風(fēng)的威脅,遮天蔽日的火山灰還嚴(yán)重阻礙了通信,使得湯加瞬間陷入了全境“失聯(lián)”的狀態(tài),與外部世界的聯(lián)系幾乎完全中斷。
在如此巨大的自然災(zāi)害的面前,傳統(tǒng)的數(shù)據(jù)庫(kù)高可用架構(gòu)顯得不堪一擊——部署在湯加本地的機(jī)房不可避免地遭遇了斷電,無(wú)法對(duì)外提供服務(wù);關(guān)鍵的業(yè)務(wù)數(shù)據(jù)丟失,產(chǎn)生了不可估量的損失。地球的雷霆怒火面前,人類總是顯得無(wú)比渺小,面對(duì)災(zāi)害無(wú)力回天。如何居安思危,通過(guò)有效的災(zāi)備方案,快速恢復(fù)生產(chǎn)、業(yè)務(wù)和服務(wù),降低區(qū)域性災(zāi)難對(duì)企業(yè)數(shù)據(jù)的破壞,減少負(fù)面沖擊,這是無(wú)數(shù)企業(yè)亟待解決的問(wèn)題。
“兩地三中心”解決方案就是為應(yīng)對(duì)此類大范圍自然災(zāi)害而提出的。“兩地三中心”中的兩地是指同城、異地;三中心是指生產(chǎn)中心、同城災(zāi)備中心、異地災(zāi)備中心。當(dāng)單個(gè)地域的業(yè)務(wù)無(wú)法幸存時(shí),可以采用同城雙中心加異地災(zāi)備的“兩地三中心”容災(zāi)備份解決方案,來(lái)應(yīng)對(duì)大范圍自然災(zāi)害導(dǎo)致的業(yè)務(wù)中斷和數(shù)據(jù)丟失。金倉(cāng)KingbaseES兩地三中心高可用災(zāi)備解決方案可以完美解決各種場(chǎng)景下的災(zāi)備切換問(wèn)題。下面,讓我們來(lái)看看金倉(cāng)KingbaseES的“兩地三中心”實(shí)現(xiàn)方案。
金倉(cāng)KES數(shù)據(jù)庫(kù)的兩地三中心架構(gòu)
金倉(cāng)KingbaseES集群支持的兩地三中心容災(zāi)系統(tǒng)屬于數(shù)據(jù)級(jí)的容災(zāi),提供數(shù)據(jù)庫(kù)軟件的兩地三中心解決方案,易用、易維護(hù)、可靠性高;并且用戶可以在金倉(cāng)KingbaseES的兩地三中心方案上對(duì)應(yīng)用和業(yè)務(wù)進(jìn)行改造,構(gòu)造應(yīng)用級(jí)或業(yè)務(wù)級(jí)容災(zāi)系統(tǒng)。
定義:
兩地三中心:一種業(yè)務(wù)連續(xù)性容災(zāi)方案。三數(shù)據(jù)中心并存的特性,能在任意兩個(gè)數(shù)據(jù)中心受損的情況下保障核心業(yè)務(wù)的連續(xù),大大提高容災(zāi)方案的可用性。
生產(chǎn)中心:對(duì)外提供服務(wù)。
同城災(zāi)備中心:通常在離生產(chǎn)中心幾十公里的距離建立同城災(zāi)備中心,應(yīng)用可在不丟失數(shù)據(jù)的情況下切換到同城災(zāi)備中心運(yùn)行,是兩地三中心容災(zāi)方案的第一級(jí)容災(zāi)保護(hù)。
異地災(zāi)備中心:通常在離生產(chǎn)中心幾百或者上千公里的地方建立異地災(zāi)備中心,應(yīng)對(duì)區(qū)域性重大災(zāi)難,實(shí)現(xiàn)異步復(fù)制災(zāi)備,是兩地三中心容災(zāi)方案的第二級(jí)容災(zāi)保護(hù)。
SYNC:節(jié)點(diǎn)間同/異步關(guān)系,SYNC表示同步模式,數(shù)據(jù)會(huì)實(shí)時(shí)地同步傳輸?shù)絊YNC指向的節(jié)點(diǎn)。
ASYNC:節(jié)點(diǎn)間同/異步關(guān)系,ASYNC表示異步模式,數(shù)據(jù)會(huì)非實(shí)時(shí)地同步傳輸?shù)紸SYNC指向的節(jié)點(diǎn),數(shù)據(jù)可能有一定的滯后性。
RTO(Recovery Time Objective):從災(zāi)難發(fā)生到整個(gè)系統(tǒng)恢復(fù)正常所需要的最大時(shí)長(zhǎng)。
RPO(Recovery Point Objective):最多可能丟失數(shù)據(jù)的時(shí)長(zhǎng)。
●能力
當(dāng)前,人大金倉(cāng)KingbaseES"兩地三中心"提供如下功能:
1.數(shù)據(jù)同步,在多個(gè)副本之間進(jìn)行數(shù)據(jù)同步,并基于同城短距離和異地遠(yuǎn)距離的不同場(chǎng)景提供最優(yōu)的數(shù)據(jù)同步方案;
2.熱備,備庫(kù)可讀,分擔(dān)業(yè)務(wù)壓力,識(shí)別讀寫事務(wù)并進(jìn)行分發(fā),降低單個(gè)數(shù)據(jù)副本的業(yè)務(wù)壓力,提高整套系統(tǒng)的處理能力;
3.故障切換與故障恢復(fù)能力,保證7*24小時(shí)提供數(shù)據(jù)服務(wù),各種軟硬件故障下能夠提供安全可靠的數(shù)據(jù)服務(wù),最大程度提供數(shù)據(jù)可靠性和服務(wù)持續(xù)性;
4.獨(dú)立備份,生產(chǎn)數(shù)據(jù)最后的保障,即使整套業(yè)務(wù)、數(shù)據(jù)庫(kù)系統(tǒng)都無(wú)法恢復(fù),還有最后的獨(dú)立備份數(shù)據(jù)作為最終數(shù)據(jù)安全保障手段。
●方案優(yōu)勢(shì)
相比跨中心的同城容災(zāi)和跨地域的異地容災(zāi),兩地三中心容災(zāi)方案結(jié)合兩者的優(yōu)勢(shì),可以同時(shí)應(yīng)對(duì)中心級(jí)別故障和地域級(jí)別災(zāi)難。
對(duì)于中心級(jí)別故障,容災(zāi)切換時(shí)保證數(shù)據(jù)庫(kù)數(shù)據(jù)一致性。
對(duì)于地域級(jí)別災(zāi)難,該方案可將業(yè)務(wù)恢復(fù)至異地災(zāi)備數(shù)據(jù),盡可能保全業(yè)務(wù)數(shù)據(jù)不丟失。
金倉(cāng)KES兩地三中心集群災(zāi)難恢復(fù)演練
●演練目標(biāo)
通過(guò)實(shí)戰(zhàn)演練,檢驗(yàn)金倉(cāng)KingbaseES兩地三中心集群應(yīng)對(duì)各種故障場(chǎng)景的能力:
A、是否支持自動(dòng)故障切換和資源恢復(fù)
B、驗(yàn)證業(yè)務(wù)恢復(fù)的時(shí)長(zhǎng)
C、檢驗(yàn)數(shù)據(jù)同步延遲情況
●演練環(huán)境
此次金倉(cāng)KingbaseES兩地三中心集群災(zāi)難恢復(fù)演練采用5個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)的模式,將生產(chǎn)中心、同城災(zāi)備中心放置于成都相隔30km機(jī)房,異地災(zāi)備中心放置于北京機(jī)房(成都至北京的直線距離約為1500km,絕大多數(shù)用戶的災(zāi)備系統(tǒng)設(shè)計(jì)的災(zāi)備距離不會(huì)超過(guò)此值,最大限度地覆蓋了客戶的災(zāi)備場(chǎng)景)。服務(wù)器節(jié)點(diǎn)信息如下圖:
●演練內(nèi)容 | 生產(chǎn)中心整體故障
模擬生產(chǎn)中心主庫(kù)和備庫(kù)全部發(fā)生故障的場(chǎng)景:例如處于成都地域的生產(chǎn)中心機(jī)房遭到破壞,整體斷電或者異常病毒造成設(shè)備癱瘓。
檢驗(yàn)金倉(cāng)KingbaseES兩地三中心集群對(duì)上述故障的處理能力、故障處理能力邊界及故障對(duì)業(yè)務(wù)的影響時(shí)長(zhǎng)。
●自動(dòng)故障切換
應(yīng)用業(yè)務(wù)訪問(wèn)的生產(chǎn)中心故障,同城災(zāi)備中心經(jīng)過(guò)集群多節(jié)點(diǎn)間心跳判斷生產(chǎn)中心已不可訪問(wèn)。同城災(zāi)備中心迅速自動(dòng)故障切換,提升本中心繼續(xù)為應(yīng)用提供服務(wù),僅需秒級(jí)的業(yè)務(wù)恢復(fù)時(shí)長(zhǎng)!
該階段的容災(zāi)RPO等于0,RTO在幾秒-幾十秒內(nèi)(可配置)。
●自動(dòng)恢復(fù)加入集群
當(dāng)生產(chǎn)中心整體發(fā)生故障時(shí),切換后主庫(kù)轉(zhuǎn)移到同城災(zāi)備中心。之后,位于同城災(zāi)備中心的主庫(kù),將自動(dòng)對(duì)生產(chǎn)中心的故障數(shù)據(jù)庫(kù)進(jìn)行恢復(fù)(例如此時(shí)生產(chǎn)中心已恢復(fù)供電或解決了設(shè)備癱瘓問(wèn)題)。
先自動(dòng)恢復(fù)node1,作為同步備庫(kù)恢復(fù)。再自動(dòng)恢復(fù)node2,作為異步備庫(kù)恢復(fù)。在業(yè)務(wù)恢復(fù)期間,同城災(zāi)備中心始終對(duì)外提供服務(wù),恢復(fù)過(guò)程對(duì)用戶無(wú)感,RTO/RPO=0!
同時(shí),當(dāng)生產(chǎn)中心整體恢復(fù)后,又可作為當(dāng)前同城災(zāi)備中心的同城容災(zāi)節(jié)點(diǎn),提供與之相應(yīng)的故障處理能力,業(yè)務(wù)又回到開(kāi)始的同城雙中心均可訪問(wèn)的場(chǎng)景。
●演練內(nèi)容 | 生產(chǎn)中心和同城災(zāi)備中心全部故障
模擬生產(chǎn)中心和同城災(zāi)備中心全部故障的場(chǎng)景:例如處于成都的生產(chǎn)中心和同城災(zāi)備中心因不可抗力的因素整體遭到破壞。
該階段的容災(zāi)RPO取值為 0 ~ 數(shù)秒/數(shù)分鐘。取決于業(yè)務(wù)帶寬規(guī)劃值和業(yè)務(wù)高峰/低峰區(qū)。RTO一般建議用戶手動(dòng)切換執(zhí)行,自動(dòng)切換在數(shù)分鐘內(nèi)。
位于北京的異地災(zāi)備中心可手動(dòng)/自動(dòng)切換至對(duì)外提供服務(wù)的狀態(tài),作為數(shù)據(jù)系統(tǒng)最后的保障。此場(chǎng)景一般從應(yīng)用層面系統(tǒng)性地規(guī)劃應(yīng)用/業(yè)務(wù)系統(tǒng)和數(shù)據(jù)系統(tǒng)整體的計(jì)劃遷移。金倉(cāng)為此類災(zāi)難級(jí)恢復(fù)也提供了基礎(chǔ)保障。
●演練內(nèi)容 | 實(shí)測(cè)生產(chǎn)中心、同城災(zāi)備中心、異地災(zāi)備中心數(shù)據(jù)差異
通過(guò)實(shí)戰(zhàn)演練,查看生產(chǎn)中心、同城災(zāi)備中心、異地災(zāi)備中心數(shù)據(jù)同步延遲情況,直觀了解實(shí)際地域距離、網(wǎng)絡(luò)帶寬、網(wǎng)絡(luò)延遲等對(duì)數(shù)據(jù)同步的影響??蛻艨梢愿鶕?jù)自己的業(yè)務(wù)場(chǎng)景來(lái)決定容災(zāi)環(huán)境的設(shè)置標(biāo)準(zhǔn)(網(wǎng)絡(luò)帶寬、容災(zāi)距離等)。
本次測(cè)試主要關(guān)注數(shù)據(jù)差異值的范圍。
測(cè)試1:kbbench灌1000萬(wàn)數(shù)據(jù)
./kbbench -Usystem -p10001 -i test -s100-s 100比例因子,會(huì)在內(nèi)置的一個(gè)10w行數(shù)據(jù)表放大100倍,將在kbbench_accounts表中創(chuàng)建10,000,000行。共計(jì)數(shù)據(jù)量:Total data size: 1554 MB產(chǎn)生的數(shù)據(jù)庫(kù)日志量:
test=# selectsys_size_pretty(sys_wal_lsn_diff('0/80008A8','0/56888B20'));sys_size_pretty-----------------1257 MB
(1 行記錄)
比較運(yùn)行過(guò)程中生產(chǎn)中心與同城災(zāi)備中心的同步備機(jī)日志差異:
●日志無(wú)差異;
●數(shù)據(jù)庫(kù)的同步機(jī)制在業(yè)務(wù)層面上是保證完全一致。
select application_name,sys_wal_lsn_diff(sys_current_wal_flush_lsn(),flush_lsn)/1024/1024 as MB from sys_stat_replication;application_name | mb------------------------------+------------------------node2 | 0.00000000000000000000node3 | 0.00000000000000000000
(2 行記錄)
比較運(yùn)行過(guò)程中同城災(zāi)備中心與異地災(zāi)備中心的異步備庫(kù)日志差異:
●異步備庫(kù)處于同城,級(jí)聯(lián)(串聯(lián))的特性極大緩解了生產(chǎn)中心到同城災(zāi)備中心的網(wǎng)絡(luò)壓力,(在CPU、IO等未達(dá)到瓶頸時(shí))即使是異步模式,也可以實(shí)時(shí)同步級(jí)聯(lián)節(jié)點(diǎn)完成數(shù)據(jù)同步。
●異地災(zāi)備中心的數(shù)據(jù)庫(kù),日志差異較大,最高峰達(dá)984M左右的差異(差異值主要取決于距離和帶寬、網(wǎng)絡(luò)延遲。因此,需提前規(guī)劃好異地的帶寬配置情況,以滿足累積日志平均每天近飽和的傳輸完。金倉(cāng)可利用日志壓縮功能,為用戶更多地節(jié)省昂貴的異地專用帶寬)。
test=# selectapplication_name,sys_wal_lsn_diff(sys_last_wal_receive_lsn(),flush_lsn)/1024/1024as MB from sys_stat_replication;application_name |mb------------------------------+------------------------node4 | 0.00000000000000000000node5 |984.2698364257812500test=# select application_name,sys_wal_lsn_diff(sys_last_wal_receive_lsn(),flush_lsn)/1024/1024as MB from sys_stat_replication;application_name | mb------------------------------+------------------------node4 | 0.00000000000000000000node5 |754.11923456456578460(2 rows)
ps:測(cè)試過(guò)程中,異地帶寬已占滿20MB/s,證明高峰期數(shù)據(jù)的差異帶寬占了很大的決定性作用。
測(cè)試2:模擬500客戶端并發(fā)測(cè)試,運(yùn)行5min
./kbbench -Usystem -p10001 -r -j 64 -c 500 -T 300 test
運(yùn)行結(jié)束后產(chǎn)生日志
:test=# select sys_size_pretty(sys_wal_lsn_diff('0/9C040C80','0/BC3CE7A0'));sys_size_pretty-----------------516 MB
(1 行記錄)
比較運(yùn)行過(guò)程中生產(chǎn)中心與同城災(zāi)備中心的同步備機(jī)日志差異,日志無(wú)差異。
test=# select application_name,sys_wal_lsn_diff(sys_current_wal_flush_lsn(),flush_lsn)/1024/1024 as MB from sys_stat_replication;
application_name | mb
------------------------------+------------------------
node1 | 0.00000000000000000000
node3 | 0.00000000000000000000
(2 rows)
比較運(yùn)行過(guò)程同城災(zāi)備中心異步備庫(kù)與異地災(zāi)備中心異步備庫(kù)日志差異,異地容災(zāi)節(jié)點(diǎn)趨近于0,可以看到在異地帶寬滿足正常業(yè)務(wù)流量時(shí),波動(dòng)非常穩(wěn)定。
test=# select application_name,sys_wal_lsn_diff(sys_last_wal_receive_lsn(),flush_lsn)/1024/1024 as MB from sys_stat_replication;
application_name | mb
------------------------------+------------------------
node4 | 0.00000000000000000000
node5 |0.8233871459960938
(2 rows)
小結(jié)
在實(shí)際演練過(guò)程中,還有其他幾類場(chǎng)景,金倉(cāng)KingbaseES兩地三中心集群故障處理結(jié)果總結(jié)如下:
●生產(chǎn)中心和同城災(zāi)備中心可以保證數(shù)據(jù)無(wú)丟失的RPO=0、RTO=秒級(jí)的高可用容災(zāi)方案。在各類場(chǎng)景的演練均能做好數(shù)據(jù)不丟,服務(wù)不斷,無(wú)須人工干預(yù)的企業(yè)級(jí)處理標(biāo)準(zhǔn)(對(duì)應(yīng)信息安全技術(shù)信息系統(tǒng)災(zāi)難恢復(fù)規(guī)劃6級(jí))。
●異地災(zāi)備中心數(shù)據(jù)差異有一定的波動(dòng)。差異值主要取決于距離和帶寬、網(wǎng)絡(luò)延遲,金倉(cāng)會(huì)提前幫助客戶規(guī)劃好異地的帶寬配置情況,以滿足當(dāng)前業(yè)務(wù)系統(tǒng)評(píng)估日志每天的生成量,制定合理的帶寬值。同時(shí)利用日志壓縮功能,可以壓縮日志在50-70%以上,可為用戶節(jié)省昂貴的異地專用帶寬。在合理的滿足業(yè)務(wù)流量需求上,RPO可以達(dá)到秒級(jí)。RTO推薦用戶手動(dòng)執(zhí)行,自動(dòng)切換異地災(zāi)備默認(rèn)RTO在數(shù)分鐘內(nèi)完成。
應(yīng)用案例
當(dāng)前,金倉(cāng)KingbaseES“兩地三中心”方案已在x中心核心業(yè)務(wù)系統(tǒng)中成功應(yīng)用,為關(guān)鍵政務(wù)數(shù)據(jù)的安全保駕護(hù)航。
系統(tǒng)于2020年底上線并穩(wěn)定運(yùn)行后,該中心技術(shù)負(fù)責(zé)人致電金倉(cāng),充分肯定金倉(cāng)方案、產(chǎn)品及服務(wù)團(tuán)隊(duì)的專業(yè)性和先進(jìn)性,對(duì)金倉(cāng)在項(xiàng)目中的勤奮務(wù)實(shí)與專業(yè)精神予以贊揚(yáng)并表示感謝。
結(jié)語(yǔ)
隨著互聯(lián)網(wǎng)的不斷發(fā)展和電子政務(wù)建設(shè)步伐的邁進(jìn),各行各業(yè)不斷加緊開(kāi)展線上業(yè)務(wù),越來(lái)越多的用戶核心業(yè)務(wù)都要求二十四小時(shí)不斷網(wǎng),持續(xù)運(yùn)行,對(duì)數(shù)據(jù)安全提出了更高的要求。
但是,地震、海嘯、龍卷風(fēng)、火山噴發(fā)、泥石流、山體滑坡,以及氣候變化引發(fā)的干旱、洪水.....如同達(dá)摩克里斯之劍一般懸在我們頭頂,隨時(shí)威脅著數(shù)據(jù)安全,影響著人類文明的進(jìn)程。身處地球,沒(méi)有誰(shuí)能置身事外。誰(shuí)都無(wú)法預(yù)測(cè)這些自然災(zāi)難將會(huì)何時(shí)降臨,切斷服務(wù)、摧毀業(yè)務(wù)核心數(shù)據(jù)。這就需要我們具備應(yīng)對(duì)各種災(zāi)難、故障場(chǎng)景的能力,而金倉(cāng)KingbaseES兩地三中心集群將會(huì)是您最好的選擇。
完善的災(zāi)備方案、智能的故障自動(dòng)恢復(fù)和資源轉(zhuǎn)移、瞬時(shí)的業(yè)務(wù)恢復(fù)時(shí)長(zhǎng)......金倉(cāng)KingbaseES兩地三中心集群,與您一起應(yīng)對(duì)各種災(zāi)難場(chǎng)景,帶您避免自然災(zāi)害對(duì)業(yè)務(wù)的毀滅性打擊!
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )