“京東云提供計算服務(wù)”,當(dāng)你在手機(jī)上打開京東APP的時候,總會在最下面看到這行小字。
不過我敢打賭,你在看到這篇文章之前根本沒發(fā)現(xiàn)過這行字。雖然它的確很小,也的確被放在了最下方,但它卻是安全、穩(wěn)定的保障。正如云計算所代表的無感知存在一樣——意識不到的云服務(wù)就是最好的云服務(wù)。而一旦你發(fā)現(xiàn)了它,就意味著它可能出現(xiàn)了某些故障,正如當(dāng)停水停電的時候我們才意識到水電的可貴。
云服務(wù)還會出故障么?答案是一定的。其實作為全國乃至全球性的電商平臺,僅就京東商城來說每年的交易量就是天文數(shù)字,這背后用于支撐的系統(tǒng)更是經(jīng)歷了多重挑戰(zhàn)。比如大家都很熟悉的618、雙11等大促活動,特別是定點秒殺所帶來的峰值壓力是世界性的難題,而要想“扛住”這些壓力,就需要一款強(qiáng)壯、穩(wěn)定、安全的云平臺,這也正是京東云必須承載的使命。
高RAS特性迎來全新應(yīng)用場景挑戰(zhàn)
如今京東云覆蓋各個行業(yè)領(lǐng)域超過2500家的合作伙伴,隨著用戶規(guī)模不斷增大,特定行業(yè)與云原生類用戶對應(yīng)用開發(fā)和運營模式提出許多新的要求,傳統(tǒng)用戶也正在將更多復(fù)雜業(yè)務(wù)遷移上云, 這些持續(xù)變化的技術(shù)需求對京東云服務(wù)提出新的挑戰(zhàn)。
RAS特性首當(dāng)其沖。RAS包括了Reliability(可靠性)、Availability(可用性)、Serviceability(安全性)三個詞的首字母,其作用在于確保整個系統(tǒng)盡可能長期可靠的運行而不下線,并且具備足夠強(qiáng)大的容錯機(jī)制。這個詞最早來自于大型主機(jī),但是伴隨著分布式x86架構(gòu)成為主流,伴隨著云應(yīng)用成為行業(yè)發(fā)展的必然選擇,RAS特性的重要性再一次凸顯出來。
在以往的主機(jī)時代,某臺系統(tǒng)某個部件的損壞或故障,只會造成單一系統(tǒng)的崩潰或者宕機(jī);但是在公有云或者混合云的環(huán)境當(dāng)中,同一臺服務(wù)器上可能運行了若干不同業(yè)務(wù)、不同場景的虛擬機(jī),一旦物理設(shè)備崩潰,將會波及眾多用戶,同時也會對運營商自身造成巨大損失。而在現(xiàn)有的故障集合中,內(nèi)存錯誤是最高發(fā)同時也是最嚴(yán)重故障之一。
即便是對于個人來說,我們在日常使用中也經(jīng)常會遇到電腦內(nèi)存故障的問題,更何況對于成百上千臺服務(wù)器的數(shù)據(jù)中心來說,類似的情況更是司空見慣。來自Google的一份調(diào)查報告顯示:內(nèi)存錯誤率其實比想象中的要高,“所有在用設(shè)備中大約1/3每年至少遇到一次內(nèi)存錯誤,平均每年發(fā)生的可修正錯誤為22000次。”
這么高的故障率并不是危言聳聽。據(jù)統(tǒng)計,京東云數(shù)據(jù)中心內(nèi)存錯誤在整體硬件故障中的占比達(dá)到37%,換句話說每三次故障中就有一次是因為內(nèi)存導(dǎo)致的。為了盡可能將內(nèi)存故障率降到最低,京東云積極尋求多種方案,希望通過對內(nèi)存錯誤的發(fā)現(xiàn)與預(yù)測,通過在線快速遷移恢復(fù)技術(shù), 減少內(nèi)存錯誤對云主機(jī)造成的影響,進(jìn)而建立完善的云主機(jī)故障預(yù)測和恢復(fù)系統(tǒng)。
在評估了眾多解決方案之后,京東云找到了英特爾,希望從源頭上解決問題。
英特爾MCA Recovery+MFP打造內(nèi)存高效穩(wěn)定
京東云通過引入英特爾MCA Recovery與Memory Failure Prediction(MFP)技術(shù),結(jié)合京東云的故障恢復(fù)系統(tǒng),用來降低內(nèi)存錯誤對京東云主機(jī)穩(wěn)定性的影響。所謂MCA的全稱叫做了Machine Check Architecture,這是一種基于底層架構(gòu)的智能診斷系統(tǒng),用戶可以在系統(tǒng)的BIOS層面實現(xiàn)對于大大小小錯誤的管理——大到上次系統(tǒng)宕機(jī)的元兇到底是誰這種推理破案故事,小到內(nèi)存哪個顆?;蛘吣膫€鏈路哪跟線上出現(xiàn)了一個bit錯誤之類,都可以輕松搞定。
另一項名為英特爾MFP的技術(shù)則可以通過對內(nèi)存微觀層面故障數(shù)據(jù)進(jìn)行學(xué)習(xí)和數(shù)據(jù)挖掘,智能訓(xùn)練和建立DIMM健康評估模型 (DHAM),并實時監(jiān)控主機(jī)內(nèi)存運行狀況,分析主機(jī)不同層面的內(nèi)存錯誤,包括DIMM、rank、bank、column、row和cell等, 將主機(jī)內(nèi)存狀況與 DIMM 健康評估模型進(jìn)行對比,以預(yù)測發(fā)生內(nèi)存故障的可能。
從被動到主動,從應(yīng)用到實踐,如今在英特爾MCA Recovery與MFP的“雙重加持”下,京東云主機(jī)因內(nèi)存故障造成的系統(tǒng)崩潰頻率已經(jīng)大大降低。甚至當(dāng)某一個節(jié)點出現(xiàn)潛在故障的可能時,英特爾MFP 技術(shù)就可以第一時間預(yù)警并提供熱遷移,避免潛在內(nèi)故障導(dǎo)致的云主機(jī)宕機(jī)。而如果故障發(fā)生在MFP預(yù)測范圍外,京東云系統(tǒng)則可以通過MCA Recovery進(jìn)行恢復(fù),防止頁面被其它應(yīng)用/進(jìn)程再次使用,并將故障節(jié)點上報給服務(wù)器管理系統(tǒng)進(jìn)行內(nèi)存更換。
如今,已經(jīng)部署英特爾MCA Recovery+MFP的京東云將計算節(jié)點主機(jī)的宕機(jī)率減少了40%,內(nèi)存故障條件下的熱遷移成功率提高了50%,保障了云主機(jī)99.975%的可用性?!巴ㄟ^這一技術(shù)將有效提升京東云服務(wù)的可靠性和穩(wěn)定性”,京東科技京東云事業(yè)群硬件研發(fā)負(fù)責(zé)人陳國峰如是說。
助力超大規(guī)模平臺云上創(chuàng)新,英特爾多管齊下保障應(yīng)用安全
除了京東云如今幾乎所有的公有云都采用了英特爾至強(qiáng)可擴(kuò)展處理器平臺,英特爾提供的解決方案也不僅僅局限于計算、存儲的單一層面,而是包括了網(wǎng)絡(luò)、安全、管理等多個領(lǐng)域。正如英特爾6大支柱所彰顯的那樣,英特爾也為云服務(wù)商們許多了多種解決方案,滿足不同應(yīng)用場景的需求。
比如在網(wǎng)絡(luò)領(lǐng)域,英特爾以太網(wǎng)解決方案就可以提供高達(dá)100 Gbps的網(wǎng)絡(luò)帶寬,并支持網(wǎng)絡(luò)功能虛擬化(NFV) 在內(nèi)的多種技術(shù),搭配智能網(wǎng)絡(luò)接口卡 (SmartNIC)、支持Tofino的P4可編程交換機(jī)等平臺,可以幫助眾多超大規(guī)模云服務(wù)商和大型數(shù)據(jù)中心提供高帶寬、低延遲的快速響應(yīng)能力。
人工智能也是當(dāng)下應(yīng)用的熱門,各大互聯(lián)網(wǎng)公司也提供了多種場景的應(yīng)用服務(wù)。但你可能不知道,相對于采用加速器實現(xiàn)的智能計算來說,英特爾至強(qiáng)可擴(kuò)展平臺自身就提供了深度學(xué)習(xí)加速技術(shù)(英特爾DL Boost),可以讓客戶不需要額外的投資就能夠獲得針對卷積神經(jīng)網(wǎng)絡(luò)的、計算密集型工作負(fù)載優(yōu)化的環(huán)境。有數(shù)據(jù)統(tǒng)計,這種技術(shù)可以幫助客戶獲得高達(dá)3.4倍的性能提升。
包括在安全領(lǐng)域,英特爾也借助于QuickAssist 技術(shù)為加密、散列、公鑰 加密和壓縮等計算密集型操作提供硬件加速,實現(xiàn)高達(dá) 4.3 倍的效率提升。與此同時,該技術(shù)還可以幫助保護(hù)加密私鑰。在客戶進(jìn)入需使用私鑰的虛擬機(jī)之前,私鑰都處于加密狀態(tài)。只有芯片中的英特爾QAT能夠解密此私鑰,從硬件層面實現(xiàn)了底層的應(yīng)用保護(hù)。
從計算到存儲,從網(wǎng)絡(luò)到安全,從硬件到軟件,英特爾所實現(xiàn)的是對云服務(wù)商的全方位防護(hù),從底層加密到中層虛擬化再到上層智能應(yīng)用都有,更重要的是這些并不需要客戶進(jìn)行額外的投資或者增加設(shè)備,從而在管理效率、成本控制等多個方面實現(xiàn)了提升。
當(dāng)下,云計算已經(jīng)如水、電、天然氣一樣與我們的生活息息相關(guān),我們在手機(jī)上的每一次操作、每一筆下單都對應(yīng)到了后端數(shù)據(jù)中心的相應(yīng)計算操作。無論是京東云還是京東商城,抑或是其他超大規(guī)模的云服務(wù)商,英特爾都在通過一致、可預(yù)測的性能表現(xiàn);廣泛、優(yōu)化的軟件生態(tài)系統(tǒng);出色的性價比;跨云服務(wù)與多云協(xié)同等技術(shù)與生態(tài)優(yōu)勢,為用戶提供最廣泛的可用性,為客戶們提供更高效、更安全、更可靠的平臺,也幫助更多云上的各種應(yīng)用加速,推動數(shù)字化快速發(fā)展。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。