宕機(jī)時(shí)間少七倍,揭秘AWS基礎(chǔ)設(shè)施的運(yùn)維之道

從2006年8月份正式開通云服務(wù),到2020年第三季度收入達(dá)到116億美元,同比增長29%,年化收入達(dá)到460億美元。AWS營收規(guī)模在一個(gè)IT產(chǎn)業(yè)史上堪稱神話,這背后數(shù)據(jù)中心等基礎(chǔ)設(shè)施功不可沒。如果沒有強(qiáng)大的數(shù)據(jù)中心作為支撐,為全球數(shù)以萬計(jì)用戶提供各種各樣云服務(wù),AWS不可能連續(xù)多年保持如此驚人的增長速度。

一直以來,AWS的數(shù)據(jù)中心無論是數(shù)量、規(guī)模、設(shè)計(jì)、運(yùn)營都充滿神秘感,外界對其是知之甚少,也是業(yè)界眾多伙伴十分感興趣的。在今年的AWS re:Invent大會(huì)上,AWS 全球基礎(chǔ)架構(gòu)和客戶支持資深副總裁 Peter DeSantis甩出諸多干貨,詳細(xì)介紹了AWS的數(shù)據(jù)中心在面向全球服務(wù)眾多用戶是如何做到穩(wěn)定、定制和環(huán)保的。

任何設(shè)備都會(huì)壞

數(shù)據(jù)中心等基礎(chǔ)設(shè)施是云服務(wù)商的核心命脈,由于大部分云服務(wù)商隨著業(yè)務(wù)的增長,其數(shù)據(jù)中心的規(guī)模和設(shè)備數(shù)量也會(huì)隨之膨脹,帶來的就是數(shù)據(jù)中心故障和宕機(jī)風(fēng)險(xiǎn)的增長。AWS作為全球云計(jì)算巨頭,其數(shù)據(jù)中心規(guī)模無出其右,它又是如何看待風(fēng)險(xiǎn)以及解決風(fēng)險(xiǎn)的。

“不要去回避各種故障,因?yàn)槿魏卧O(shè)備都會(huì)壞,你需要做的就是預(yù)測什么時(shí)候壞,并且做好準(zhǔn)備。”--這就是AWS在數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)營和維護(hù)的核心原則。也正是在這個(gè)原則的指導(dǎo)下,AWS一年的平均宕機(jī)時(shí)間比2018年規(guī)模次大的云端供應(yīng)商少七倍之多。

面對規(guī)模如此之大、復(fù)雜性如此高的數(shù)據(jù)中心基礎(chǔ)設(shè)施,AWS的首先思路就是降低各種設(shè)備的復(fù)雜性,比如發(fā)電機(jī)組的配電系統(tǒng)和UPS,這些都是傳統(tǒng)廠商生產(chǎn)的通用型產(chǎn)品,往往擁有豐富的功能和極高的復(fù)雜性,“部件越復(fù)雜的東西意味著壞的概率就越大。配電系統(tǒng)的控制系統(tǒng)是嵌入式系統(tǒng),非常復(fù)雜,很多功能其實(shí)并不是AWS所需要的?!?AWS大中華區(qū)產(chǎn)品部計(jì)算與存儲(chǔ)總監(jiān)周舸介紹道。

為此,AWS的思路就是降低產(chǎn)品的復(fù)雜性,既符合自身業(yè)務(wù)需求,又提升了運(yùn)維的簡易性。比如,AWS針對自身情況做了一套控制器系統(tǒng),一旦有問題發(fā)生,可以馬上進(jìn)行修改,做到盡量不影響到用戶業(yè)務(wù);又如,AWS將數(shù)據(jù)中心UPS電池做小,通過自己的軟件來控制UPS,當(dāng)每個(gè)單元設(shè)備出現(xiàn)問題時(shí),其所帶來的麻煩也下降很多。

除了數(shù)據(jù)中心部件級的運(yùn)維之外,AWS對于整個(gè)地理區(qū)域的可用區(qū)都有著全面的保護(hù)機(jī)制。據(jù)悉,AWS 細(xì)分地理區(qū)域和可用區(qū)(AZ),這與其他云提供商有很大不同:首先,遠(yuǎn)距離的可用區(qū)設(shè)置,可以降低自然災(zāi)難(火災(zāi),水災(zāi)…)帶來的業(yè)務(wù)中斷風(fēng)險(xiǎn);其次,用戶選擇最近站點(diǎn)接入以低延遲訪問AWS云資源;第三, AWS分別管理每個(gè)區(qū)域中的運(yùn)維,將故障分割;

“從最小的零件,到整個(gè)可用區(qū)的架構(gòu),AWS是一層層思考如果發(fā)生了故障或者宕機(jī)會(huì)給用戶帶來哪種影響,并且盡量不影響到用戶的業(yè)務(wù)。”周舸補(bǔ)充道。

定制芯片,讓數(shù)據(jù)中心發(fā)揮極致

在數(shù)據(jù)中心等基礎(chǔ)設(shè)施中,芯片擔(dān)當(dāng)著計(jì)算的重任,對于整個(gè)數(shù)據(jù)中心的能耗、效率、性能、運(yùn)維等都有著重要影響。同樣,AWS在針對不同應(yīng)用和需求定制芯片上也在持續(xù)發(fā)力,持續(xù)打造數(shù)據(jù)中心的極致能。

在AWS Nitro方面,已經(jīng)成為數(shù)據(jù)中心物理資源的一個(gè)抽象層,AWS 云平臺(tái)通過 AWS Nitro 控制器向 Amazon EC2 添加網(wǎng)絡(luò),存儲(chǔ)和安全資源。今年,Nitro已經(jīng)成功發(fā)展到第四代。

在剛剛推出的Amazon EC2 Mac計(jì)算實(shí)例中,就是AWS通過在在 Mac Mini 上安裝了 Nitro Controller,沒有 Hypervisor 的Nitro Controller可以安全快速地連接到 Mac Mini。那些為iPhone、iPad、Mac、Apple Watch、Apple TV和Safari開發(fā)應(yīng)用的開發(fā)人員,可以通過使用EC2 Mac實(shí)例,在幾秒鐘內(nèi)配置和訪問macOS環(huán)境,根據(jù)需求動(dòng)態(tài)擴(kuò)展容量。

AWS Graviton 是基于 ARM 的芯片組,今年推出了AWS Graviton 2作為通用處理器;高性價(jià)比的 AWS Graviton 2 不僅可以很好地處理前端工作負(fù)載,對于 IO 密集型工作負(fù)載也很友好。

事實(shí)上,當(dāng)前芯片處理器已經(jīng)發(fā)展到一個(gè)十字路口,最近幾年以來,芯片處理器能力的提升一直不太明顯,芯片頻率提升在減慢,取而代之的是芯片核心數(shù)在不斷提升,處理器走向并行處理的趨勢明顯。

“有三個(gè)條件在影響多核處理器的發(fā)展。首先是多核操作系統(tǒng);其次是多核應(yīng)用程序;另外一個(gè)就是微服務(wù)。2015年之后,容器、無服務(wù)等微服務(wù)化發(fā)展迅速,微服務(wù)將工作負(fù)載切分的很細(xì),這就對計(jì)算資源要求很細(xì),特別是和多核架構(gòu)?!敝荇赐嘎?。

現(xiàn)在傳統(tǒng)處理器因?yàn)樾枰嫒輦鹘y(tǒng)工作負(fù)載,所以芯片越做越大、越來越復(fù)雜,增加了很多功能,比如SMT多線程控制組件,SMT雖然可以多個(gè)線程共享和共用計(jì)算資源,但也會(huì)帶來工作負(fù)載不平衡、性能容易受影響以及安全隱患等問題?!癎raviton 2這樣的多核處理器就能很好地解決這些問題?!敝荇幢硎尽?/p>

可再生能源,讓數(shù)據(jù)中心走向環(huán)保

有人統(tǒng)計(jì),目前全球數(shù)據(jù)中心的電力消耗總量已經(jīng)占據(jù)了全球電力使用量的百分之三,到2025年,全球數(shù)據(jù)中心使用的電力總量按現(xiàn)在的電力價(jià)格來估算的話,將會(huì)超過百億美元,年均復(fù)合增長率將達(dá)到6%。隨著全球數(shù)字化腳步的提速,未來對于超大型數(shù)據(jù)中心的需求也上升。AWS作為超大型數(shù)據(jù)中心的運(yùn)營者,其對于數(shù)據(jù)中心走向環(huán)保的步伐正在持續(xù)加速。

環(huán)保,也是今年 Peter DeSantis在re:Invent大會(huì)上演講的一個(gè)核心議題。

據(jù)悉,AWS 致力于以盡可能環(huán)保的方式運(yùn)營業(yè)務(wù),并實(shí)現(xiàn)全球基礎(chǔ)設(shè)施 100% 使用可再生能源。AWS 正朝著到 2025 年 100 % 利用可再生能源的道路前進(jìn),比其最初的 2030 年目標(biāo)提前了五年。

為此,AWS 用多項(xiàng)舉措來提高用水的效率,減少用于冷卻數(shù)據(jù)中心的飲用水的使用。AWS 通過評估每個(gè) AWS 區(qū)域的氣候模式、當(dāng)?shù)厮Y源管理和可用性以及保護(hù)飲用水水源的機(jī)會(huì)來制定用水戰(zhàn)略。

此外,亞馬遜宣布了五個(gè)新的公用事業(yè)規(guī)模的太陽能項(xiàng)目,為中國、澳大利亞和美國的全球業(yè)務(wù)提供電力,一共增加 615 MW 再生能源發(fā)電能力,預(yù)計(jì)每年發(fā)電 120 萬 MW。

2020 年亞馬遜對可再生能源的總投資項(xiàng)目已達(dá)到 35 個(gè),裝機(jī)容量超過 4 GW,這也是目前世界上單一企業(yè)在1年內(nèi)對可再生能源的最大的一筆投資。這些新項(xiàng)目將使亞馬遜所擁有的可再生能源的的總裝機(jī)容量在 2020 年達(dá)到 6.5 GW,并成為有史以來最大的企業(yè)可再生能源采購商。

事實(shí)上,AWS對于數(shù)據(jù)中心環(huán)保的投入,不僅僅是對于自身成本的一直控制,更是踐行環(huán)保理念的責(zé)任體現(xiàn)。面向未來,AWS在數(shù)據(jù)中心基礎(chǔ)設(shè)施領(lǐng)域的建設(shè)理念必然會(huì)影響到全球更多用戶和同行,為基礎(chǔ)設(shè)施發(fā)展帶來全新的思考。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2020-12-17
宕機(jī)時(shí)間少七倍,揭秘AWS基礎(chǔ)設(shè)施的運(yùn)維之道
AWS針對自身情況做了一套控制器系統(tǒng),一旦有問題發(fā)生,可以馬上進(jìn)行修改,做到盡量不影響到用戶業(yè)務(wù);又如,AWS將數(shù)據(jù)中心UPS電池做小,通過自己的軟件來控制UPS,當(dāng)每個(gè)單元設(shè)備出現(xiàn)問題時(shí),其所帶來的

長按掃碼 閱讀全文