“京東云提供計(jì)算服務(wù)”,當(dāng)你在手機(jī)上打開京東APP的時(shí)候,總會(huì)在最下面看到這行小字。
不過我敢打賭,你在看到這篇文章之前根本沒發(fā)現(xiàn)過這行字。雖然它的確很小,也的確被放在了最下方,但它卻是安全、穩(wěn)定的保障。正如云計(jì)算所代表的無(wú)感知存在一樣——意識(shí)不到的云服務(wù)就是最好的云服務(wù)。而一旦你發(fā)現(xiàn)了它,就意味著它可能出現(xiàn)了某些故障,正如當(dāng)停水停電的時(shí)候我們才意識(shí)到水電的可貴。
云服務(wù)還會(huì)出故障么?答案是一定的。其實(shí)作為全國(guó)乃至全球性的電商平臺(tái),僅就京東商城來說每年的交易量就是天文數(shù)字,這背后用于支撐的系統(tǒng)更是經(jīng)歷了多重挑戰(zhàn)。比如大家都很熟悉的618、雙11等大促活動(dòng),特別是定點(diǎn)秒殺所帶來的峰值壓力是世界性的難題,而要想“扛住”這些壓力,就需要一款強(qiáng)壯、穩(wěn)定、安全的云平臺(tái),這也正是京東云必須承載的使命。
高RAS特性迎來全新應(yīng)用場(chǎng)景挑戰(zhàn)
如今京東云覆蓋各個(gè)行業(yè)領(lǐng)域超過2500家的合作伙伴,隨著用戶規(guī)模不斷增大,特定行業(yè)與云原生類用戶對(duì)應(yīng)用開發(fā)和運(yùn)營(yíng)模式提出許多新的要求,傳統(tǒng)用戶也正在將更多復(fù)雜業(yè)務(wù)遷移上云, 這些持續(xù)變化的技術(shù)需求對(duì)京東云服務(wù)提出新的挑戰(zhàn)。
RAS特性首當(dāng)其沖。RAS包括了Reliability(可靠性)、Availability(可用性)、Serviceability(安全性)三個(gè)詞的首字母,其作用在于確保整個(gè)系統(tǒng)盡可能長(zhǎng)期可靠的運(yùn)行而不下線,并且具備足夠強(qiáng)大的容錯(cuò)機(jī)制。這個(gè)詞最早來自于大型主機(jī),但是伴隨著分布式x86架構(gòu)成為主流,伴隨著云應(yīng)用成為行業(yè)發(fā)展的必然選擇,RAS特性的重要性再一次凸顯出來。
在以往的主機(jī)時(shí)代,某臺(tái)系統(tǒng)某個(gè)部件的損壞或故障,只會(huì)造成單一系統(tǒng)的崩潰或者宕機(jī);但是在公有云或者混合云的環(huán)境當(dāng)中,同一臺(tái)服務(wù)器上可能運(yùn)行了若干不同業(yè)務(wù)、不同場(chǎng)景的虛擬機(jī),一旦物理設(shè)備崩潰,將會(huì)波及眾多用戶,同時(shí)也會(huì)對(duì)運(yùn)營(yíng)商自身造成巨大損失。而在現(xiàn)有的故障集合中,內(nèi)存錯(cuò)誤是最高發(fā)同時(shí)也是最嚴(yán)重故障之一。
即便是對(duì)于個(gè)人來說,我們?cè)谌粘J褂弥幸步?jīng)常會(huì)遇到電腦內(nèi)存故障的問題,更何況對(duì)于成百上千臺(tái)服務(wù)器的數(shù)據(jù)中心來說,類似的情況更是司空見慣。來自Google的一份調(diào)查報(bào)告顯示:內(nèi)存錯(cuò)誤率其實(shí)比想象中的要高,“所有在用設(shè)備中大約1/3每年至少遇到一次內(nèi)存錯(cuò)誤,平均每年發(fā)生的可修正錯(cuò)誤為22000次?!?/p>
這么高的故障率并不是危言聳聽。據(jù)統(tǒng)計(jì),京東云數(shù)據(jù)中心內(nèi)存錯(cuò)誤在整體硬件故障中的占比達(dá)到37%,換句話說每三次故障中就有一次是因?yàn)閮?nèi)存導(dǎo)致的。為了盡可能將內(nèi)存故障率降到最低,京東云積極尋求多種方案,希望通過對(duì)內(nèi)存錯(cuò)誤的發(fā)現(xiàn)與預(yù)測(cè),通過在線快速遷移恢復(fù)技術(shù), 減少內(nèi)存錯(cuò)誤對(duì)云主機(jī)造成的影響,進(jìn)而建立完善的云主機(jī)故障預(yù)測(cè)和恢復(fù)系統(tǒng)。
在評(píng)估了眾多解決方案之后,京東云找到了英特爾,希望從源頭上解決問題。
英特爾MCA Recovery+MFP打造內(nèi)存高效穩(wěn)定
京東云通過引入英特爾MCA Recovery與Memory Failure Prediction(MFP)技術(shù),結(jié)合京東云的故障恢復(fù)系統(tǒng),用來降低內(nèi)存錯(cuò)誤對(duì)京東云主機(jī)穩(wěn)定性的影響。所謂MCA的全稱叫做了Machine Check Architecture,這是一種基于底層架構(gòu)的智能診斷系統(tǒng),用戶可以在系統(tǒng)的BIOS層面實(shí)現(xiàn)對(duì)于大大小小錯(cuò)誤的管理——大到上次系統(tǒng)宕機(jī)的元兇到底是誰(shuí)這種推理破案故事,小到內(nèi)存哪個(gè)顆?;蛘吣膫€(gè)鏈路哪跟線上出現(xiàn)了一個(gè)bit錯(cuò)誤之類,都可以輕松搞定。
另一項(xiàng)名為英特爾MFP的技術(shù)則可以通過對(duì)內(nèi)存微觀層面故障數(shù)據(jù)進(jìn)行學(xué)習(xí)和數(shù)據(jù)挖掘,智能訓(xùn)練和建立DIMM健康評(píng)估模型 (DHAM),并實(shí)時(shí)監(jiān)控主機(jī)內(nèi)存運(yùn)行狀況,分析主機(jī)不同層面的內(nèi)存錯(cuò)誤,包括DIMM、rank、bank、column、row和cell等, 將主機(jī)內(nèi)存狀況與 DIMM 健康評(píng)估模型進(jìn)行對(duì)比,以預(yù)測(cè)發(fā)生內(nèi)存故障的可能。
從被動(dòng)到主動(dòng),從應(yīng)用到實(shí)踐,如今在英特爾MCA Recovery與MFP的“雙重加持”下,京東云主機(jī)因內(nèi)存故障造成的系統(tǒng)崩潰頻率已經(jīng)大大降低。甚至當(dāng)某一個(gè)節(jié)點(diǎn)出現(xiàn)潛在故障的可能時(shí),英特爾MFP 技術(shù)就可以第一時(shí)間預(yù)警并提供熱遷移,避免潛在內(nèi)故障導(dǎo)致的云主機(jī)宕機(jī)。而如果故障發(fā)生在MFP預(yù)測(cè)范圍外,京東云系統(tǒng)則可以通過MCA Recovery進(jìn)行恢復(fù),防止頁(yè)面被其它應(yīng)用/進(jìn)程再次使用,并將故障節(jié)點(diǎn)上報(bào)給服務(wù)器管理系統(tǒng)進(jìn)行內(nèi)存更換。
如今,已經(jīng)部署英特爾MCA Recovery+MFP的京東云將計(jì)算節(jié)點(diǎn)主機(jī)的宕機(jī)率減少了40%,內(nèi)存故障條件下的熱遷移成功率提高了50%,保障了云主機(jī)99.975%的可用性?!巴ㄟ^這一技術(shù)將有效提升京東云服務(wù)的可靠性和穩(wěn)定性”,京東科技京東云事業(yè)群硬件研發(fā)負(fù)責(zé)人陳國(guó)峰如是說。
助力超大規(guī)模平臺(tái)云上創(chuàng)新,英特爾多管齊下保障應(yīng)用安全
除了京東云如今幾乎所有的公有云都采用了英特爾至強(qiáng)可擴(kuò)展處理器平臺(tái),英特爾提供的解決方案也不僅僅局限于計(jì)算、存儲(chǔ)的單一層面,而是包括了網(wǎng)絡(luò)、安全、管理等多個(gè)領(lǐng)域。正如英特爾6大支柱所彰顯的那樣,英特爾也為云服務(wù)商們?cè)S多了多種解決方案,滿足不同應(yīng)用場(chǎng)景的需求。
比如在網(wǎng)絡(luò)領(lǐng)域,英特爾以太網(wǎng)解決方案就可以提供高達(dá)100 Gbps的網(wǎng)絡(luò)帶寬,并支持網(wǎng)絡(luò)功能虛擬化(NFV) 在內(nèi)的多種技術(shù),搭配智能網(wǎng)絡(luò)接口卡 (SmartNIC)、支持Tofino的P4可編程交換機(jī)等平臺(tái),可以幫助眾多超大規(guī)模云服務(wù)商和大型數(shù)據(jù)中心提供高帶寬、低延遲的快速響應(yīng)能力。
人工智能也是當(dāng)下應(yīng)用的熱門,各大互聯(lián)網(wǎng)公司也提供了多種場(chǎng)景的應(yīng)用服務(wù)。但你可能不知道,相對(duì)于采用加速器實(shí)現(xiàn)的智能計(jì)算來說,英特爾至強(qiáng)可擴(kuò)展平臺(tái)自身就提供了深度學(xué)習(xí)加速技術(shù)(英特爾DL Boost),可以讓客戶不需要額外的投資就能夠獲得針對(duì)卷積神經(jīng)網(wǎng)絡(luò)的、計(jì)算密集型工作負(fù)載優(yōu)化的環(huán)境。有數(shù)據(jù)統(tǒng)計(jì),這種技術(shù)可以幫助客戶獲得高達(dá)3.4倍的性能提升。
包括在安全領(lǐng)域,英特爾也借助于QuickAssist 技術(shù)為加密、散列、公鑰 加密和壓縮等計(jì)算密集型操作提供硬件加速,實(shí)現(xiàn)高達(dá) 4.3 倍的效率提升。與此同時(shí),該技術(shù)還可以幫助保護(hù)加密私鑰。在客戶進(jìn)入需使用私鑰的虛擬機(jī)之前,私鑰都處于加密狀態(tài)。只有芯片中的英特爾QAT能夠解密此私鑰,從硬件層面實(shí)現(xiàn)了底層的應(yīng)用保護(hù)。
從計(jì)算到存儲(chǔ),從網(wǎng)絡(luò)到安全,從硬件到軟件,英特爾所實(shí)現(xiàn)的是對(duì)云服務(wù)商的全方位防護(hù),從底層加密到中層虛擬化再到上層智能應(yīng)用都有,更重要的是這些并不需要客戶進(jìn)行額外的投資或者增加設(shè)備,從而在管理效率、成本控制等多個(gè)方面實(shí)現(xiàn)了提升。
當(dāng)下,云計(jì)算已經(jīng)如水、電、天然氣一樣與我們的生活息息相關(guān),我們?cè)谑謾C(jī)上的每一次操作、每一筆下單都對(duì)應(yīng)到了后端數(shù)據(jù)中心的相應(yīng)計(jì)算操作。無(wú)論是京東云還是京東商城,抑或是其他超大規(guī)模的云服務(wù)商,英特爾都在通過一致、可預(yù)測(cè)的性能表現(xiàn);廣泛、優(yōu)化的軟件生態(tài)系統(tǒng);出色的性價(jià)比;跨云服務(wù)與多云協(xié)同等技術(shù)與生態(tài)優(yōu)勢(shì),為用戶提供最廣泛的可用性,為客戶們提供更高效、更安全、更可靠的平臺(tái),也幫助更多云上的各種應(yīng)用加速,推動(dòng)數(shù)字化快速發(fā)展。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 騰訊隱身,令人生畏
- 迪卡儂的價(jià)格、lululemon的品質(zhì),平替正成為年輕消費(fèi)者的心頭好
- 三場(chǎng)與AI有關(guān)的死亡
- 100億美元史上最大融資的背后,國(guó)內(nèi)外巨頭齊瞄準(zhǔn)Data+AI
- 有一種羨慕叫“別人家的年終獎(jiǎng)”:京東采銷平均23薪,全網(wǎng)熱議“人的價(jià)值”
- 行業(yè)首個(gè)“人機(jī)大戰(zhàn)”對(duì)壘!AI翻譯已媲美人工
- 蘋果開啟年終大促,降價(jià)1200元,被國(guó)產(chǎn)手機(jī)嚇怕了?
- 1999 元起,OPPO A5 Pro 超防水、超抗摔、超耐用
- 長(zhǎng)三角,如何把數(shù)據(jù)要素變成新長(zhǎng)江?
- 大模型,在內(nèi)卷中尋找出口
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。