起底蘇寧云技術(shù)能力,為818大促海量數(shù)據(jù)護(hù)航

蘇寧全場景零售布局,線上線下融合的經(jīng)營管理模式,意味著在818大促等節(jié)點(diǎn),數(shù)據(jù)量峰值可能是日常銷售的幾十。而背后大量的數(shù)據(jù),就需要強(qiáng)大的計(jì)算和存儲(chǔ)能力支撐,而有能力支撐這些全場景復(fù)雜運(yùn)算和數(shù)據(jù)存儲(chǔ)需求的,正是云計(jì)算。

業(yè)務(wù)的高速發(fā)展,意味著對云資源的持續(xù)需求增長,在保證業(yè)務(wù)連續(xù)性的同時(shí)如何保證業(yè)務(wù)對于資源的利用是否高效、對動(dòng)態(tài)峰值需求是否極速響應(yīng)至關(guān)重要。針對818大促產(chǎn)生的數(shù)據(jù)峰值,蘇寧云技術(shù)需綜合考慮安全性、可控性、資源利用率、資源成本等因素。

每秒數(shù)百萬次的高并發(fā)請求,系統(tǒng)間數(shù)百億次的調(diào)用,數(shù)十億的實(shí)時(shí)消息推送,數(shù)千應(yīng)用服務(wù)的精準(zhǔn)協(xié)同…在這一系列龐大數(shù)據(jù)的背后,蘇寧云技術(shù)是如何保證在818期間核心服務(wù)不降級、無重大事故的?

提升資源調(diào)度效率,818物理機(jī)整體使用率提升10%

在私有云領(lǐng)域,提升整合比、降低TOC是必然需要考慮的,具體到,比如數(shù)據(jù)中心建設(shè)需要物盡其用、物美價(jià)廉。蘇寧云基于該理念出發(fā),在應(yīng)對資源使用率提升和有效應(yīng)對業(yè)務(wù)峰值這對基礎(chǔ)矛盾的實(shí)踐中,推出了基礎(chǔ)資源微調(diào)度產(chǎn)品。818期間,通過資源爭搶組件與兄弟團(tuán)隊(duì)的資源池間均衡能力雙劍合璧,蘇寧云的物理機(jī)整體使用率提升了10%, 在保障穩(wěn)定性的同時(shí)獲得了較好的經(jīng)濟(jì)成本收益。

比如在監(jiān)控粒度從分鐘級別提升到秒級,設(shè)計(jì)上以分散監(jiān)控,邊緣化計(jì)算的理念為指導(dǎo),為識別毛刺波峰類異常、獲取資源畫像及訓(xùn)練預(yù)測提供數(shù)據(jù)基礎(chǔ)。并且通過對歷史數(shù)據(jù)的分析,建立系統(tǒng)關(guān)鍵服務(wù)與guest 在物理核級別歸屬隔離關(guān)系,確保關(guān)鍵服務(wù)與guest不會(huì)互相干擾。針對資源爭搶程度和資源使用程度的判斷,通過算法建立資源爭搶健康評分和資源使用評分,使判斷變得更加簡單易行。通過自動(dòng)化的物理機(jī)PCPU級別的微調(diào)度,迅速完成資源熱點(diǎn)均衡,降低峰峰疊加到來時(shí)發(fā)生資源爭搶的概率;且通過Qos自動(dòng)調(diào)配能夠達(dá)到對特定虛機(jī)進(jìn)行快速精準(zhǔn)的干預(yù),保障大促核心系統(tǒng)的關(guān)鍵資源供給。

保障資源調(diào)度穩(wěn)定性,精準(zhǔn)調(diào)配數(shù)十萬虛擬機(jī)

818大促帶來超過日常幾十倍的業(yè)務(wù)流量,保障大規(guī)模服務(wù)器資源穩(wěn)定性是極具挑戰(zhàn)的工作之一。蘇寧云通過動(dòng)態(tài)資源調(diào)度技術(shù)為應(yīng)用系統(tǒng)數(shù)十萬虛擬機(jī)進(jìn)行精準(zhǔn)資源調(diào)配,提前規(guī)避虛擬化超分場景下業(yè)務(wù)系統(tǒng)間的資源競爭風(fēng)險(xiǎn),解決大促全鏈路壓測識別出的虛擬機(jī)資源爭搶和物理機(jī)負(fù)載超安全水位問題,確保在零點(diǎn)流量洪峰到來時(shí)參與大促活動(dòng)的業(yè)務(wù)系統(tǒng)能獲得充足的資源服務(wù)能力并穩(wěn)定運(yùn)行,保障大促活動(dòng)順利進(jìn)行。

動(dòng)態(tài)資源調(diào)度技術(shù)依賴系統(tǒng)容量規(guī)劃系統(tǒng)刻畫出應(yīng)用負(fù)載畫像數(shù)據(jù),再結(jié)合不同機(jī)型物理機(jī)虛擬化服務(wù)能力,為應(yīng)用系統(tǒng)進(jìn)行精準(zhǔn)資源匹配,保障關(guān)鍵應(yīng)用系統(tǒng)資源需求。系統(tǒng)容量規(guī)劃管理大促活動(dòng)場景和系統(tǒng)容量,收集和分析大促全鏈路壓測應(yīng)用性能數(shù)據(jù)和虛擬機(jī)監(jiān)控?cái)?shù)據(jù),對線上核心購物和瀏覽鏈路、線下購物主流程、支付主流程、商戶端主流程、金融服務(wù)、物流、客服、售后等幾千個(gè)參與大促活動(dòng)系統(tǒng)繪制應(yīng)用負(fù)載畫像,為精細(xì)化資源調(diào)度提供大促活動(dòng)場景下的應(yīng)用負(fù)載特征數(shù)據(jù)。

同時(shí),根據(jù)大促活動(dòng)場景下的應(yīng)用負(fù)載畫像數(shù)據(jù)和全鏈路壓測收集的物理機(jī)CPU、內(nèi)存、網(wǎng)絡(luò)多維度負(fù)荷數(shù)據(jù),動(dòng)態(tài)資源調(diào)度為大促業(yè)務(wù)系統(tǒng)重新進(jìn)行資源匹配,進(jìn)行二次資源調(diào)度和資源調(diào)整。業(yè)務(wù)系統(tǒng)資源需求除了包括靜態(tài)的資源規(guī)格需求,還考慮了CPU算力、內(nèi)存使用、網(wǎng)絡(luò)吞吐、磁盤IO等運(yùn)行時(shí)資源消耗需求。只有精準(zhǔn)匹配了業(yè)務(wù)系統(tǒng)的多維度運(yùn)行時(shí)資源需求,才能有效的保障大促活動(dòng)中應(yīng)用系統(tǒng)運(yùn)行穩(wěn)定,不出現(xiàn)資源競爭,不影響應(yīng)用系統(tǒng)服務(wù)能力和大促活動(dòng)正常運(yùn)營。對于大促全鏈路壓測識別出的虛擬機(jī)資源爭搶和物理機(jī)超安全水位問題,通過仿真調(diào)度重新匹配資源。如果當(dāng)前物理機(jī)資源充足,根據(jù)仿真調(diào)度結(jié)果鎖定資源放置位置,輔助運(yùn)維人員精確調(diào)整資源,如果當(dāng)前物理機(jī)資源余量不足,評估出資源缺口,則補(bǔ)充新的物理機(jī)資源。

未來,將會(huì)繼續(xù)深化使用負(fù)載畫像數(shù)據(jù),利用AI算法分析在大促不同活動(dòng)場景和時(shí)間段的資源需求變化特征,實(shí)現(xiàn)分時(shí)復(fù)用資源調(diào)度能力,資源調(diào)度精度更細(xì)致,并與內(nèi)核資源隔離和保障技術(shù)相結(jié)合,降低資源競爭風(fēng)險(xiǎn)的同時(shí)實(shí)現(xiàn)物理機(jī)資源利用率提升,資源使用成本降低。

構(gòu)建全方位安全體系,護(hù)航818大促

本次818大促恰逢蘇寧30周年,期間設(shè)有多個(gè)重要促銷節(jié)點(diǎn),眾多豐富且大力度的促銷玩法琳瑯滿目,在利益驅(qū)動(dòng)下,黑客和灰產(chǎn)在此期間的攻擊力度和攻擊頻次預(yù)計(jì)也將大幅提升。在訪問暴漲、訂單激增、滲透力度空前的情況下,如何有效應(yīng)對各類網(wǎng)絡(luò)攻擊以保障業(yè)務(wù)系統(tǒng)的安全穩(wěn)定,無疑是對蘇寧安全團(tuán)隊(duì)的一次重大考驗(yàn)。

蘇寧安全體系提供全面、快速、精準(zhǔn)的漏洞掃描、風(fēng)險(xiǎn)管理及專家級安全服務(wù)。其中漏洞掃描結(jié)合動(dòng)態(tài)爬蟲技術(shù),全面深入搜集應(yīng)用攻擊面信息,并采用6W+漏洞檢測插件,監(jiān)測各類主機(jī)及應(yīng)用存在的安全風(fēng)險(xiǎn)。在818大促預(yù)熱活動(dòng)前,已完成近千個(gè)系統(tǒng)、兩千多域名、數(shù)十萬臺(tái)主機(jī)的安全掃描與修復(fù)。使用SDK與KMS進(jìn)行交互,給數(shù)據(jù)穿上一層安全外衣,使得數(shù)據(jù)在收集、傳輸、處理、交換、存儲(chǔ)、銷毀的全生命周期中得到保護(hù)。此外,蘇寧數(shù)據(jù)庫審計(jì)系統(tǒng)支持對業(yè)務(wù)網(wǎng)絡(luò)中的數(shù)據(jù)庫進(jìn)行全方位安全審計(jì),提高數(shù)據(jù)資產(chǎn)安全。

動(dòng)態(tài)的攻防博弈有利于幫助安全團(tuán)隊(duì)提升日常威脅檢測發(fā)現(xiàn)能力、事件分析決策能力和應(yīng)急處置能力。蘇寧通過在真實(shí)的網(wǎng)絡(luò)環(huán)境中進(jìn)行實(shí)戰(zhàn)攻防演習(xí),攻擊方對核心目標(biāo)進(jìn)行滲透攻擊,防守方對安全事件進(jìn)行全方位檢測,在過載的信息中明確防護(hù)方案,并快速做出應(yīng)急處理。針對網(wǎng)絡(luò)攻擊,結(jié)合大數(shù)據(jù)分析和NLP技術(shù),打造Web攻擊智能AI檢測引擎,可有效識別變形攻擊和0day漏洞。目前,蘇寧web攻擊模型攔截準(zhǔn)確率達(dá)98%,召回率達(dá)94%;Bot攻擊模型攔截準(zhǔn)確率達(dá)97%,召回率達(dá)90%??芍?strong>百萬級QPS請求過濾分析,大促攔截攻擊達(dá)10億+次。并通過對海量流量、日志數(shù)據(jù)進(jìn)行深入關(guān)聯(lián)分析,并與威脅情報(bào)系統(tǒng)在全網(wǎng)采集的信息碰撞比對,結(jié)合主機(jī)運(yùn)行狀態(tài)的實(shí)時(shí)監(jiān)控?cái)?shù)據(jù),生成攻擊者畫像,并在攻擊行為發(fā)生前及時(shí)阻斷,避免信息資產(chǎn)遭受損失。

面對818期間的巨大數(shù)據(jù)量和超大流量洪峰,高穩(wěn)定性、高延展性、高可用性,是蘇寧云技術(shù)團(tuán)隊(duì)交出的優(yōu)秀答卷,818之后,蘇寧云技術(shù)團(tuán)隊(duì)還將對全量信息數(shù)據(jù)進(jìn)行復(fù)盤分析,查漏補(bǔ)缺進(jìn)一步提升和優(yōu)化,以支撐高速發(fā)展的業(yè)務(wù)需求。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )