京東云如何扛過(guò)618大促,新時(shí)代云架構(gòu)是關(guān)鍵

原標(biāo)題:京東云如何扛過(guò)618大促,新時(shí)代云架構(gòu)是關(guān)鍵

“京東云提供計(jì)算服務(wù)”,當(dāng)你在手機(jī)上打開(kāi)京東APP的時(shí)候,總會(huì)在最下面看到這行小字。

不過(guò)我敢打賭,你在看到這篇文章之前根本沒(méi)發(fā)現(xiàn)過(guò)這行字。雖然它的確很小,也的確被放在了最下方,但它卻是安全、穩(wěn)定的保障。正如云計(jì)算所代表的無(wú)感知存在一樣——意識(shí)不到的云服務(wù)就是最好的云服務(wù)。而一旦你發(fā)現(xiàn)了它,就意味著它可能出現(xiàn)了某些故障,正如當(dāng)停水停電的時(shí)候我們才意識(shí)到水電的可貴。

云服務(wù)還會(huì)出故障么?答案是一定的。其實(shí)作為全國(guó)乃至全球性的電商平臺(tái),僅就京東商城來(lái)說(shuō)每年的交易量就是天文數(shù)字,這背后用于支撐的系統(tǒng)更是經(jīng)歷了多重挑戰(zhàn)。比如大家都很熟悉的618、雙11等大促活動(dòng),特別是定點(diǎn)秒殺所帶來(lái)的峰值壓力是世界性的難題,而要想“扛住”這些壓力,就需要一款強(qiáng)壯、穩(wěn)定、安全的云平臺(tái),這也正是京東云必須承載的使命。

高RAS特性迎來(lái)全新應(yīng)用場(chǎng)景挑戰(zhàn)

如今京東云覆蓋各個(gè)行業(yè)領(lǐng)域超過(guò)2500家的合作伙伴,隨著用戶規(guī)模不斷增大,特定行業(yè)與云原生類(lèi)用戶對(duì)應(yīng)用開(kāi)發(fā)和運(yùn)營(yíng)模式提出許多新的要求,傳統(tǒng)用戶也正在將更多復(fù)雜業(yè)務(wù)遷移上云, 這些持續(xù)變化的技術(shù)需求對(duì)京東云服務(wù)提出新的挑戰(zhàn)。

RAS特性首當(dāng)其沖。RAS包括了Reliability(可靠性)、Availability(可用性)、Serviceability(安全性)三個(gè)詞的首字母,其作用在于確保整個(gè)系統(tǒng)盡可能長(zhǎng)期可靠的運(yùn)行而不下線,并且具備足夠強(qiáng)大的容錯(cuò)機(jī)制。這個(gè)詞最早來(lái)自于大型主機(jī),但是伴隨著分布式x86架構(gòu)成為主流,伴隨著云應(yīng)用成為行業(yè)發(fā)展的必然選擇,RAS特性的重要性再一次凸顯出來(lái)。

在以往的主機(jī)時(shí)代,某臺(tái)系統(tǒng)某個(gè)部件的損壞或故障,只會(huì)造成單一系統(tǒng)的崩潰或者宕機(jī);但是在公有云或者混合云的環(huán)境當(dāng)中,同一臺(tái)服務(wù)器上可能運(yùn)行了若干不同業(yè)務(wù)、不同場(chǎng)景的虛擬機(jī),一旦物理設(shè)備崩潰,將會(huì)波及眾多用戶,同時(shí)也會(huì)對(duì)運(yùn)營(yíng)商自身造成巨大損失。而在現(xiàn)有的故障集合中,內(nèi)存錯(cuò)誤是最高發(fā)同時(shí)也是最嚴(yán)重故障之一。

即便是對(duì)于個(gè)人來(lái)說(shuō),我們?cè)谌粘J褂弥幸步?jīng)常會(huì)遇到電腦內(nèi)存故障的問(wèn)題,更何況對(duì)于成百上千臺(tái)服務(wù)器的數(shù)據(jù)中心來(lái)說(shuō),類(lèi)似的情況更是司空見(jiàn)慣。來(lái)自Google的一份調(diào)查報(bào)告顯示:內(nèi)存錯(cuò)誤率其實(shí)比想象中的要高,“所有在用設(shè)備中大約1/3每年至少遇到一次內(nèi)存錯(cuò)誤,平均每年發(fā)生的可修正錯(cuò)誤為22000次。”

這么高的故障率并不是危言聳聽(tīng)。據(jù)統(tǒng)計(jì),京東云數(shù)據(jù)中心內(nèi)存錯(cuò)誤在整體硬件故障中的占比達(dá)到37%,換句話說(shuō)每三次故障中就有一次是因?yàn)閮?nèi)存導(dǎo)致的。為了盡可能將內(nèi)存故障率降到最低,京東云積極尋求多種方案,希望通過(guò)對(duì)內(nèi)存錯(cuò)誤的發(fā)現(xiàn)與預(yù)測(cè),通過(guò)在線快速遷移恢復(fù)技術(shù), 減少內(nèi)存錯(cuò)誤對(duì)云主機(jī)造成的影響,進(jìn)而建立完善的云主機(jī)故障預(yù)測(cè)和恢復(fù)系統(tǒng)。

在評(píng)估了眾多解決方案之后,京東云找到了英特爾,希望從源頭上解決問(wèn)題。

英特爾MCA Recovery+MFP打造內(nèi)存高效穩(wěn)定

京東云通過(guò)引入英特爾MCA Recovery與Memory Failure Prediction(MFP)技術(shù),結(jié)合京東云的故障恢復(fù)系統(tǒng),用來(lái)降低內(nèi)存錯(cuò)誤對(duì)京東云主機(jī)穩(wěn)定性的影響。所謂MCA的全稱(chēng)叫做了Machine Check Architecture,這是一種基于底層架構(gòu)的智能診斷系統(tǒng),用戶可以在系統(tǒng)的BIOS層面實(shí)現(xiàn)對(duì)于大大小小錯(cuò)誤的管理——大到上次系統(tǒng)宕機(jī)的元兇到底是誰(shuí)這種推理破案故事,小到內(nèi)存哪個(gè)顆?;蛘吣膫€(gè)鏈路哪跟線上出現(xiàn)了一個(gè)bit錯(cuò)誤之類(lèi),都可以輕松搞定。

另一項(xiàng)名為英特爾MFP的技術(shù)則可以通過(guò)對(duì)內(nèi)存微觀層面故障數(shù)據(jù)進(jìn)行學(xué)習(xí)和數(shù)據(jù)挖掘,智能訓(xùn)練和建立DIMM健康評(píng)估模型 (DHAM),并實(shí)時(shí)監(jiān)控主機(jī)內(nèi)存運(yùn)行狀況,分析主機(jī)不同層面的內(nèi)存錯(cuò)誤,包括DIMM、rank、bank、column、row和cell等, 將主機(jī)內(nèi)存狀況與 DIMM 健康評(píng)估模型進(jìn)行對(duì)比,以預(yù)測(cè)發(fā)生內(nèi)存故障的可能。

從被動(dòng)到主動(dòng),從應(yīng)用到實(shí)踐,如今在英特爾MCA Recovery與MFP的“雙重加持”下,京東云主機(jī)因內(nèi)存故障造成的系統(tǒng)崩潰頻率已經(jīng)大大降低。甚至當(dāng)某一個(gè)節(jié)點(diǎn)出現(xiàn)潛在故障的可能時(shí),英特爾MFP 技術(shù)就可以第一時(shí)間預(yù)警并提供熱遷移,避免潛在內(nèi)故障導(dǎo)致的云主機(jī)宕機(jī)。而如果故障發(fā)生在MFP預(yù)測(cè)范圍外,京東云系統(tǒng)則可以通過(guò)MCA Recovery進(jìn)行恢復(fù),防止頁(yè)面被其它應(yīng)用/進(jìn)程再次使用,并將故障節(jié)點(diǎn)上報(bào)給服務(wù)器管理系統(tǒng)進(jìn)行內(nèi)存更換。

如今,已經(jīng)部署英特爾MCA Recovery+MFP的京東云將計(jì)算節(jié)點(diǎn)主機(jī)的宕機(jī)率減少了40%,內(nèi)存故障條件下的熱遷移成功率提高了50%,保障了云主機(jī)99.975%的可用性?!巴ㄟ^(guò)這一技術(shù)將有效提升京東云服務(wù)的可靠性和穩(wěn)定性”,京東科技京東云事業(yè)群硬件研發(fā)負(fù)責(zé)人陳國(guó)峰如是說(shuō)。

助力超大規(guī)模平臺(tái)云上創(chuàng)新,英特爾多管齊下保障應(yīng)用安全

除了京東云如今幾乎所有的公有云都采用了英特爾至強(qiáng)可擴(kuò)展處理器平臺(tái),英特爾提供的解決方案也不僅僅局限于計(jì)算、存儲(chǔ)的單一層面,而是包括了網(wǎng)絡(luò)、安全、管理等多個(gè)領(lǐng)域。正如英特爾6大支柱所彰顯的那樣,英特爾也為云服務(wù)商們?cè)S多了多種解決方案,滿足不同應(yīng)用場(chǎng)景的需求。

比如在網(wǎng)絡(luò)領(lǐng)域,英特爾以太網(wǎng)解決方案就可以提供高達(dá)100 Gbps的網(wǎng)絡(luò)帶寬,并支持網(wǎng)絡(luò)功能虛擬化(NFV) 在內(nèi)的多種技術(shù),搭配智能網(wǎng)絡(luò)接口卡 (SmartNIC)、支持Tofino的P4可編程交換機(jī)等平臺(tái),可以幫助眾多超大規(guī)模云服務(wù)商和大型數(shù)據(jù)中心提供高帶寬、低延遲的快速響應(yīng)能力。

人工智能也是當(dāng)下應(yīng)用的熱門(mén),各大互聯(lián)網(wǎng)公司也提供了多種場(chǎng)景的應(yīng)用服務(wù)。但你可能不知道,相對(duì)于采用加速器實(shí)現(xiàn)的智能計(jì)算來(lái)說(shuō),英特爾至強(qiáng)可擴(kuò)展平臺(tái)自身就提供了深度學(xué)習(xí)加速技術(shù)(英特爾DL Boost),可以讓客戶不需要額外的投資就能夠獲得針對(duì)卷積神經(jīng)網(wǎng)絡(luò)的、計(jì)算密集型工作負(fù)載優(yōu)化的環(huán)境。有數(shù)據(jù)統(tǒng)計(jì),這種技術(shù)可以幫助客戶獲得高達(dá)3.4倍的性能提升。

包括在安全領(lǐng)域,英特爾也借助于QuickAssist 技術(shù)為加密、散列、公鑰 加密和壓縮等計(jì)算密集型操作提供硬件加速,實(shí)現(xiàn)高達(dá) 4.3 倍的效率提升。與此同時(shí),該技術(shù)還可以幫助保護(hù)加密私鑰。在客戶進(jìn)入需使用私鑰的虛擬機(jī)之前,私鑰都處于加密狀態(tài)。只有芯片中的英特爾QAT能夠解密此私鑰,從硬件層面實(shí)現(xiàn)了底層的應(yīng)用保護(hù)。

從計(jì)算到存儲(chǔ),從網(wǎng)絡(luò)到安全,從硬件到軟件,英特爾所實(shí)現(xiàn)的是對(duì)云服務(wù)商的全方位防護(hù),從底層加密到中層虛擬化再到上層智能應(yīng)用都有,更重要的是這些并不需要客戶進(jìn)行額外的投資或者增加設(shè)備,從而在管理效率、成本控制等多個(gè)方面實(shí)現(xiàn)了提升。

當(dāng)下,云計(jì)算已經(jīng)如水、電、天然氣一樣與我們的生活息息相關(guān),我們?cè)谑謾C(jī)上的每一次操作、每一筆下單都對(duì)應(yīng)到了后端數(shù)據(jù)中心的相應(yīng)計(jì)算操作。無(wú)論是京東云還是京東商城,抑或是其他超大規(guī)模的云服務(wù)商,英特爾都在通過(guò)一致、可預(yù)測(cè)的性能表現(xiàn);廣泛、優(yōu)化的軟件生態(tài)系統(tǒng);出色的性?xún)r(jià)比;跨云服務(wù)與多云協(xié)同等技術(shù)與生態(tài)優(yōu)勢(shì),為用戶提供最廣泛的可用性,為客戶們提供更高效、更安全、更可靠的平臺(tái),也幫助更多云上的各種應(yīng)用加速,推動(dòng)數(shù)字化快速發(fā)展。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2021-09-27
京東云如何扛過(guò)618大促,新時(shí)代云架構(gòu)是關(guān)鍵
無(wú)論是京東云還是京東商城,抑或是其他超大規(guī)模的云服務(wù)商,英特爾都在通過(guò)一致、可預(yù)測(cè)的性能表現(xiàn);廣泛、優(yōu)化的軟件生態(tài)系統(tǒng);出色的性?xún)r(jià)比;跨云服務(wù)與多云協(xié)同等技術(shù)與生態(tài)優(yōu)勢(shì),為用戶提供最廣泛的可用性,為客

長(zhǎng)按掃碼 閱讀全文