作者:jihong10102006
一、什么是高可用
高可用HA(High Availability)是分布式系統(tǒng)架構(gòu)設(shè)計中必須考慮的因素之一,它通常是指,通過設(shè)計減少系統(tǒng)不能提供服務的時間。
假設(shè)系統(tǒng)一直能夠提供服務,我們說系統(tǒng)的可用性是100%。如果系統(tǒng)每運行100個時間單位,會有1個時間單位無法提供服務,我們說系統(tǒng)的可用性是99%。很多公司的高可用目標是4個9,也就是99.99%,這就意味著,系統(tǒng)的年停機時間為8.76個小時。
百度的搜索首頁,是業(yè)內(nèi)公認高可用保障非常出色的系統(tǒng),甚至人們會通過www.baidu.com能不能訪問來判斷“網(wǎng)絡的連通性”,百度高可用的服務讓人留下啦“網(wǎng)絡通暢,百度就能訪問”,“百度打不開,應該是網(wǎng)絡連不上”的印象,這其實是對百度HA最高的褒獎。
二、如何保障系統(tǒng)的高可用
我們都知道,單點是系統(tǒng)高可用的大敵,單點往往是系統(tǒng)高可用最大的風險和敵人,應該盡量在系統(tǒng)設(shè)計的過程中避免單點。方法論上,高可用保證的原則是“集群化”,或者叫“冗余”:只有一個單點,掛了服務會受影響;如果有冗余備份,掛了還有其他backup能夠頂上。
保證系統(tǒng)高可用,架構(gòu)設(shè)計的核心準則是:冗余。有了冗余之后,還不夠,每次出現(xiàn)故障需要人工介入恢復勢必會增加系統(tǒng)的不可服務實踐。所以,又往往是通過“自動故障轉(zhuǎn)移”來實現(xiàn)系統(tǒng)的高可用。接下來我們看下典型互聯(lián)網(wǎng)架構(gòu)中,如何通過冗余+自動故障轉(zhuǎn)移來保證系統(tǒng)的高可用特性。
三、常見的互聯(lián)網(wǎng)分層架構(gòu)
常見互聯(lián)網(wǎng)分布式架構(gòu)如上,分為:
(1)客戶端層:典型調(diào)用方是瀏覽器browser或者手機應用APP(2)反向代理層:系統(tǒng)入口,反向代理(3)站點應用層:實現(xiàn)核心應用邏輯,返回html或者json(4)服務層:如果實現(xiàn)了服務化,就有這一層(5)數(shù)據(jù)-緩存層:緩存加速訪問存儲(6)數(shù)據(jù)-數(shù)據(jù)庫層:數(shù)據(jù)庫固化數(shù)據(jù)存儲整個系統(tǒng)的高可用,又是通過每一層的冗余+自動故障轉(zhuǎn)移來綜合實現(xiàn)的。
四、分層高可用架構(gòu)實踐
1. 客戶端層->反向代理層的高可用
客戶端層到反向代理層的高可用,是通過反向代理層的冗余來實現(xiàn)的。以nginx為例:有兩臺nginx,一臺對線上提供服務,另一臺冗余以保證高可用,常見的實踐是keepalived存活探測,相同virtual IP提供服務。
自動故障轉(zhuǎn)移:當nginx掛了的時候,keepalived能夠探測到,會自動的進行故障轉(zhuǎn)移,將流量自動遷移到shadow-nginx,由于使用的是相同的virtual IP,這個切換過程對調(diào)用方是透明的。
2. 反向代理層->站點層的高可用
反向代理層到站點層的高可用,是通過站點層的冗余來實現(xiàn)的。假設(shè)反向代理層是nginx,nginx.conf里能夠配置多個web后端,并且nginx能夠探測到多個后端的存活性。
自動故障轉(zhuǎn)移:當web-server掛了的時候,nginx能夠探測到,會自動的進行故障轉(zhuǎn)移,將流量自動遷移到其他的web-server,整個過程由nginx自動完成,對調(diào)用方是透明的。
3. 站點層->服務層的高可用
站點層到服務層的高可用,是通過服務層的冗余來實現(xiàn)的?!胺者B接池”會建立與下游服務多個連接,每次請求會“隨機”選取連接來訪問下游服務。
自動故障轉(zhuǎn)移:當service掛了的時候,service-connection-pool能夠探測到,會自動的進行故障轉(zhuǎn)移,將流量自動遷移到其他的service,整個過程由連接池自動完成,對調(diào)用方是透明的(所以說RPC-client中的服務連接池是很重要的基礎(chǔ)組件)。
4. 服務層>緩存層的高可用
服務層到緩存層的高可用,是通過緩存數(shù)據(jù)的冗余來實現(xiàn)的。 緩存層的數(shù)據(jù)冗余又有幾種方式:第一種是利用客戶端的封裝,service對cache進行雙讀或者雙寫。
緩存層也可以通過支持主從同步的緩存集群來解決緩存層的高可用問題。
以redis為例,redis天然支持主從同步,redis官方也有sentinel哨兵機制,來做redis的存活性檢測。
自動故障轉(zhuǎn)移:當redis主掛了的時候,sentinel能夠探測到,會通知調(diào)用方訪問新的redis,整個過程由sentinel和redis集群配合完成,對調(diào)用方是透明的。
說完緩存的高可用,這里要多說一句,業(yè)務對緩存并不一定有“高可用”要求,更多的對緩存的使用場景,是用來“加速數(shù)據(jù)訪問”:把一部分數(shù)據(jù)放到緩存里,如果緩存掛了或者緩存沒有命中,是可以去后端的數(shù)據(jù)庫中再取數(shù)據(jù)的。
這類允許“cache miss”的業(yè)務場景,緩存架構(gòu)的建議是:
將kv緩存封裝成服務集群,上游設(shè)置一個代理(代理可以用集群的方式保證高可用),代理的后端根據(jù)緩存訪問的key水平切分成若干個實例,每個實例的訪問并不做高可用。
緩存實例掛了屏蔽:當有水平切分的實例掛掉時,代理層直接返回cache miss,此時緩存掛掉對調(diào)用方也是透明的。key水平切分實例減少,不建議做re-hash,這樣容易引發(fā)緩存數(shù)據(jù)的不一致。
5. 服務層>數(shù)據(jù)庫層的高可用
大部分互聯(lián)網(wǎng)技術(shù),數(shù)據(jù)庫層都用了“主從同步,讀寫分離”架構(gòu),所以數(shù)據(jù)庫層的高可用,又分為“讀庫高可用”與“寫庫高可用”兩類。
服務層>數(shù)據(jù)庫層“讀”的高可用
服務層到數(shù)據(jù)庫讀的高可用,是通過讀庫的冗余來實現(xiàn)的。
既然冗余了讀庫,一般來說就至少有2個從庫,“數(shù)據(jù)庫連接池”會建立與讀庫多個連接,每次請求會路由到這些讀庫。
自動故障轉(zhuǎn)移:當讀庫掛了的時候,db-connection-pool能夠探測到,會自動的進行故障轉(zhuǎn)移,將流量自動遷移到其他的讀庫,整個過程由連接池自動完成,對調(diào)用方是透明的(所以說DAO中的數(shù)據(jù)庫連接池是很重要的基礎(chǔ)組件)。
服務層>數(shù)據(jù)庫層“寫”的高可用
服務層到數(shù)據(jù)庫寫的高可用,是通過寫庫的冗余來實現(xiàn)的。
以mysql為例,可以設(shè)置兩個mysql雙主同步,一臺對線上提供服務,另一臺冗余以保證高可用,常見的實踐是keepalived存活探測,相同virtual IP提供服務。
自動故障轉(zhuǎn)移:當寫庫掛了的時候,keepalived能夠探測到,會自動的進行故障轉(zhuǎn)移,將流量自動遷移到shadow-db-master,由于使用的是相同的virtual IP,這個切換過程對調(diào)用方是透明的。
五、總結(jié)
高可用HA(High Availability)是分布式系統(tǒng)架構(gòu)設(shè)計中必須考慮的因素之一,它通常是指,通過設(shè)計減少系統(tǒng)不能提供服務的時間。
方法論上,高可用是通過冗余+自動故障轉(zhuǎn)移來實現(xiàn)的。
整個互聯(lián)網(wǎng)分層系統(tǒng)架構(gòu)的高可用,又是通過每一層的冗余+自動故障轉(zhuǎn)移來綜合實現(xiàn)的,具體的:
客戶端層到反向代理層的高可用,是通過反向代理層的冗余實現(xiàn)的,常見實踐是keepalived + virtual IP自動故障轉(zhuǎn)移。反向代理層到站點層的高可用,是通過站點層的冗余實現(xiàn)的,常見實踐是nginx與web-server之間的存活性探測與自動故障轉(zhuǎn)移。站點層到服務層的高可用,是通過服務層的冗余實現(xiàn)的,常見實踐是通過service-connection-pool來保證自動故障轉(zhuǎn)移。服務層到緩存層的高可用,是通過緩存數(shù)據(jù)的冗余實現(xiàn)的,常見實踐是緩存客戶端雙讀雙寫,或者利用緩存集群的主從數(shù)據(jù)同步與sentinel?;钆c自動故障轉(zhuǎn)移;更多的業(yè)務場景,對緩存沒有高可用要求,可以使用緩存服務化來對調(diào)用方屏蔽底層復雜性。服務層到數(shù)據(jù)庫“讀”的高可用,是通過讀庫的冗余實現(xiàn)的,常見實踐是通過db-connection-pool來保證自動故障轉(zhuǎn)移。服務層到數(shù)據(jù)庫“寫”的高可用,是通過寫庫的冗余實現(xiàn)的,常見實踐是keepalived + virtual IP自動故障轉(zhuǎn)移。末了,希望文章的思路是清晰的,希望大家對高可用的概念和實踐有個系統(tǒng)的認識.
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- IDC:三季度全球以太網(wǎng)交換機收入同比下降7.9%、環(huán)比增長6.6%
- Fortinet李宏凱:2025年在中國大陸啟動SASE PoP節(jié)點部署 助力企業(yè)出海
- Fortinet李宏凱:2024年Fortinet全球客戶已超80萬
- 央國企采購管理升級,合合信息旗下啟信慧眼以科技破局難點
- Apache Struts重大漏洞被黑客利用,遠程代碼執(zhí)行風險加劇
- Crunchbase:2024年AI網(wǎng)絡安全行業(yè)風險投資超過26億美元
- 調(diào)查報告:AI與云重塑IT格局,77%的IT領(lǐng)導者視網(wǎng)絡安全為首要挑戰(zhàn)
- 長江存儲發(fā)布聲明:從無“借殼上市”意愿
- 泛微·數(shù)智大腦Xiaoe.AI正式發(fā)布,千人現(xiàn)場體驗數(shù)智化運營場景
- IDC:2024年第三季度北美IT分銷商收入增長至202億美元
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。