起底蘇寧云技術能力,為818大促海量數(shù)據(jù)護航

蘇寧全場景零售布局,線上線下融合的經(jīng)營管理模式,意味著在818大促等節(jié)點,數(shù)據(jù)量峰值可能是日常銷售的幾十。而背后大量的數(shù)據(jù),就需要強大的計算和存儲能力支撐,而有能力支撐這些全場景復雜運算和數(shù)據(jù)存儲需求的,正是云計算。

業(yè)務的高速發(fā)展,意味著對云資源的持續(xù)需求增長,在保證業(yè)務連續(xù)性的同時如何保證業(yè)務對于資源的利用是否高效、對動態(tài)峰值需求是否極速響應至關重要。針對818大促產(chǎn)生的數(shù)據(jù)峰值,蘇寧云技術需綜合考慮安全性、可控性、資源利用率、資源成本等因素。

每秒數(shù)百萬次的高并發(fā)請求,系統(tǒng)間數(shù)百億次的調(diào)用,數(shù)十億的實時消息推送,數(shù)千應用服務的精準協(xié)同…在這一系列龐大數(shù)據(jù)的背后,蘇寧云技術是如何保證在818期間核心服務不降級、無重大事故的?

提升資源調(diào)度效率,818物理機整體使用率提升10%

在私有云領域,提升整合比、降低TOC是必然需要考慮的,具體到,比如數(shù)據(jù)中心建設需要物盡其用、物美價廉。蘇寧云基于該理念出發(fā),在應對資源使用率提升和有效應對業(yè)務峰值這對基礎矛盾的實踐中,推出了基礎資源微調(diào)度產(chǎn)品。818期間,通過資源爭搶組件與兄弟團隊的資源池間均衡能力雙劍合璧,蘇寧云的物理機整體使用率提升了10%, 在保障穩(wěn)定性的同時獲得了較好的經(jīng)濟成本收益。

比如在監(jiān)控粒度從分鐘級別提升到秒級,設計上以分散監(jiān)控,邊緣化計算的理念為指導,為識別毛刺波峰類異常、獲取資源畫像及訓練預測提供數(shù)據(jù)基礎。并且通過對歷史數(shù)據(jù)的分析,建立系統(tǒng)關鍵服務與guest 在物理核級別歸屬隔離關系,確保關鍵服務與guest不會互相干擾。針對資源爭搶程度和資源使用程度的判斷,通過算法建立資源爭搶健康評分和資源使用評分,使判斷變得更加簡單易行。通過自動化的物理機PCPU級別的微調(diào)度,迅速完成資源熱點均衡,降低峰峰疊加到來時發(fā)生資源爭搶的概率;且通過Qos自動調(diào)配能夠達到對特定虛機進行快速精準的干預,保障大促核心系統(tǒng)的關鍵資源供給。

保障資源調(diào)度穩(wěn)定性,精準調(diào)配數(shù)十萬虛擬機

818大促帶來超過日常幾十倍的業(yè)務流量,保障大規(guī)模服務器資源穩(wěn)定性是極具挑戰(zhàn)的工作之一。蘇寧云通過動態(tài)資源調(diào)度技術為應用系統(tǒng)數(shù)十萬虛擬機進行精準資源調(diào)配,提前規(guī)避虛擬化超分場景下業(yè)務系統(tǒng)間的資源競爭風險,解決大促全鏈路壓測識別出的虛擬機資源爭搶和物理機負載超安全水位問題,確保在零點流量洪峰到來時參與大促活動的業(yè)務系統(tǒng)能獲得充足的資源服務能力并穩(wěn)定運行,保障大促活動順利進行。

動態(tài)資源調(diào)度技術依賴系統(tǒng)容量規(guī)劃系統(tǒng)刻畫出應用負載畫像數(shù)據(jù),再結合不同機型物理機虛擬化服務能力,為應用系統(tǒng)進行精準資源匹配,保障關鍵應用系統(tǒng)資源需求。系統(tǒng)容量規(guī)劃管理大促活動場景和系統(tǒng)容量,收集和分析大促全鏈路壓測應用性能數(shù)據(jù)和虛擬機監(jiān)控數(shù)據(jù),對線上核心購物和瀏覽鏈路、線下購物主流程、支付主流程、商戶端主流程、金融服務、物流、客服、售后等幾千個參與大促活動系統(tǒng)繪制應用負載畫像,為精細化資源調(diào)度提供大促活動場景下的應用負載特征數(shù)據(jù)。

同時,根據(jù)大促活動場景下的應用負載畫像數(shù)據(jù)和全鏈路壓測收集的物理機CPU、內(nèi)存、網(wǎng)絡多維度負荷數(shù)據(jù),動態(tài)資源調(diào)度為大促業(yè)務系統(tǒng)重新進行資源匹配,進行二次資源調(diào)度和資源調(diào)整。業(yè)務系統(tǒng)資源需求除了包括靜態(tài)的資源規(guī)格需求,還考慮了CPU算力、內(nèi)存使用、網(wǎng)絡吞吐、磁盤IO等運行時資源消耗需求。只有精準匹配了業(yè)務系統(tǒng)的多維度運行時資源需求,才能有效的保障大促活動中應用系統(tǒng)運行穩(wěn)定,不出現(xiàn)資源競爭,不影響應用系統(tǒng)服務能力和大促活動正常運營。對于大促全鏈路壓測識別出的虛擬機資源爭搶和物理機超安全水位問題,通過仿真調(diào)度重新匹配資源。如果當前物理機資源充足,根據(jù)仿真調(diào)度結果鎖定資源放置位置,輔助運維人員精確調(diào)整資源,如果當前物理機資源余量不足,評估出資源缺口,則補充新的物理機資源。

未來,將會繼續(xù)深化使用負載畫像數(shù)據(jù),利用AI算法分析在大促不同活動場景和時間段的資源需求變化特征,實現(xiàn)分時復用資源調(diào)度能力,資源調(diào)度精度更細致,并與內(nèi)核資源隔離和保障技術相結合,降低資源競爭風險的同時實現(xiàn)物理機資源利用率提升,資源使用成本降低。

構建全方位安全體系,護航818大促

本次818大促恰逢蘇寧30周年,期間設有多個重要促銷節(jié)點,眾多豐富且大力度的促銷玩法琳瑯滿目,在利益驅(qū)動下,黑客和灰產(chǎn)在此期間的攻擊力度和攻擊頻次預計也將大幅提升。在訪問暴漲、訂單激增、滲透力度空前的情況下,如何有效應對各類網(wǎng)絡攻擊以保障業(yè)務系統(tǒng)的安全穩(wěn)定,無疑是對蘇寧安全團隊的一次重大考驗。

蘇寧安全體系提供全面、快速、精準的漏洞掃描、風險管理及專家級安全服務。其中漏洞掃描結合動態(tài)爬蟲技術,全面深入搜集應用攻擊面信息,并采用6W+漏洞檢測插件,監(jiān)測各類主機及應用存在的安全風險。在818大促預熱活動前,已完成近千個系統(tǒng)、兩千多域名、數(shù)十萬臺主機的安全掃描與修復。使用SDK與KMS進行交互,給數(shù)據(jù)穿上一層安全外衣,使得數(shù)據(jù)在收集、傳輸、處理、交換、存儲、銷毀的全生命周期中得到保護。此外,蘇寧數(shù)據(jù)庫審計系統(tǒng)支持對業(yè)務網(wǎng)絡中的數(shù)據(jù)庫進行全方位安全審計,提高數(shù)據(jù)資產(chǎn)安全。

動態(tài)的攻防博弈有利于幫助安全團隊提升日常威脅檢測發(fā)現(xiàn)能力、事件分析決策能力和應急處置能力。蘇寧通過在真實的網(wǎng)絡環(huán)境中進行實戰(zhàn)攻防演習,攻擊方對核心目標進行滲透攻擊,防守方對安全事件進行全方位檢測,在過載的信息中明確防護方案,并快速做出應急處理。針對網(wǎng)絡攻擊,結合大數(shù)據(jù)分析和NLP技術,打造Web攻擊智能AI檢測引擎,可有效識別變形攻擊和0day漏洞。目前,蘇寧web攻擊模型攔截準確率達98%,召回率達94%;Bot攻擊模型攔截準確率達97%,召回率達90%。可支撐百萬級QPS請求過濾分析,大促攔截攻擊達10億+次。并通過對海量流量、日志數(shù)據(jù)進行深入關聯(lián)分析,并與威脅情報系統(tǒng)在全網(wǎng)采集的信息碰撞比對,結合主機運行狀態(tài)的實時監(jiān)控數(shù)據(jù),生成攻擊者畫像,并在攻擊行為發(fā)生前及時阻斷,避免信息資產(chǎn)遭受損失。

面對818期間的巨大數(shù)據(jù)量和超大流量洪峰,高穩(wěn)定性、高延展性、高可用性,是蘇寧云技術團隊交出的優(yōu)秀答卷,818之后,蘇寧云技術團隊還將對全量信息數(shù)據(jù)進行復盤分析,查漏補缺進一步提升和優(yōu)化,以支撐高速發(fā)展的業(yè)務需求。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )