刷新OpenStack最大規(guī)模集群紀(jì)錄,智算中心操作系統(tǒng)有了新標(biāo)桿

刷新OpenStack最大規(guī)模集群紀(jì)錄,智算中心操作系統(tǒng)有了新標(biāo)桿

2020年初,一場以新基建之名的數(shù)字基礎(chǔ)設(shè)施建設(shè)熱潮,讓國人為之興奮。所謂“新基建”也稱為新型基礎(chǔ)設(shè)施,主要是指融合了云計(jì)算、大數(shù)據(jù)、人工智能等新興數(shù)字技術(shù)的城市基礎(chǔ)設(shè)施,2020年4月中央明確“新基建”范圍,包括5G建設(shè)、大數(shù)據(jù)中心、人工智能等七大領(lǐng)域。新基建之所以重要,還在于它承擔(dān)了推動(dòng)傳統(tǒng)基礎(chǔ)設(shè)施向新型基礎(chǔ)設(shè)施轉(zhuǎn)型的歷史重任,這在十三五與十四五之交具有格外重要的意義。

針對(duì)新基建以及大數(shù)據(jù)中心等具體的數(shù)字基礎(chǔ)設(shè)施,浪潮作為國內(nèi)老牌技術(shù)廠商以及全球第二大服務(wù)器廠商,在2020年4月提出了“智算中心”的概念,為大規(guī)模數(shù)據(jù)中心的演進(jìn)指明了方向。如果說大規(guī)模數(shù)據(jù)中心強(qiáng)調(diào)的是算力、性能、可靠性等,那么智算中心更多強(qiáng)調(diào)的是算力的集約化,包括各種異構(gòu)計(jì)算的整合以及云、大數(shù)據(jù)、人工智能等平臺(tái)的協(xié)同打通。開放標(biāo)準(zhǔn)、集約高效、普適普惠,是智算中心的基本特征。

從大規(guī)模數(shù)據(jù)中心到智算中心,其核心“操作系統(tǒng)”又將迎來怎樣的變化?2020年11月25日,浪潮在2020云海創(chuàng)新論壇(IIF2020)上發(fā)布了智算中心操作系統(tǒng),向外界展示了對(duì)智算中心操作系統(tǒng)的構(gòu)想及落地實(shí)踐——云海OS完成了全球最大規(guī)模OpenStack單一集群1000節(jié)點(diǎn)的云數(shù)智融合實(shí)踐。

刷新OpenStack最大規(guī)模集群紀(jì)錄,智算中心操作系統(tǒng)有了新標(biāo)桿

(浪潮信息副總裁張東)

浪潮信息副總裁張東表示,浪潮云海OS以開源開放技術(shù)為基礎(chǔ)、以新時(shí)期用戶需求為出發(fā)點(diǎn),不斷進(jìn)化成為開放、融合、敏捷、智能的操作系統(tǒng),滿足新基建時(shí)代智算中心的要求,奠定了政企數(shù)字化轉(zhuǎn)型“云數(shù)智”融合的基礎(chǔ),是智算中心的中樞。

浪潮云海OS經(jīng)歷了從虛擬化管理到云數(shù)據(jù)中心操作系統(tǒng)的演變,如今又進(jìn)化為智算中心操作系統(tǒng),而其底座仍然是開源技術(shù)及工業(yè)標(biāo)準(zhǔn)硬件,從而滿足開放標(biāo)準(zhǔn)、普適普惠、集約高效的要求。

  突破OpenStack大規(guī)模單一集群

在11月25日舉辦的浪潮云海創(chuàng)新論壇2020上,浪潮云海發(fā)布了全球最大規(guī)模OpenStack單一集群達(dá)1000節(jié)點(diǎn)的云數(shù)智融合實(shí)踐。浪潮云海在2019年就完成了單一集群500節(jié)點(diǎn)的測試,是當(dāng)時(shí)基于OpenStack Rocky版本的全球最大規(guī)模單一集群實(shí)踐。本次1000節(jié)點(diǎn)大規(guī)模測試,在規(guī)模、場景、性能等方面進(jìn)行了全面突破,完成了從500節(jié)點(diǎn)到1000節(jié)點(diǎn)的升級(jí),還刷新了今年4月云海OS所取得的SPEC Cloud IaaS 測試紀(jì)錄,實(shí)現(xiàn)了量變到質(zhì)變的躍遷。

刷新OpenStack最大規(guī)模集群紀(jì)錄,智算中心操作系統(tǒng)有了新標(biāo)桿

中國信通院全程參與了兩次集群的測試。中國信通院云大所副所長栗蔚表示,OpenStack是當(dāng)前主流的云架構(gòu)開源項(xiàng)目,逐漸成為高速發(fā)展企業(yè)和成熟企業(yè)基礎(chǔ)IT架構(gòu)的首選解決方案之一。OpenStack在小規(guī)模部署時(shí),其性能和穩(wěn)定性較為穩(wěn)定,開源特性和良好的社區(qū)支持也為小規(guī)模部署提供了技術(shù)參考。隨著企業(yè)探索的不斷深入,大規(guī)模應(yīng)用的需求越發(fā)迫切,OpenStack大規(guī)模云集群有待突破。

作為全球頂級(jí)的開源項(xiàng)目之一,OpenStack已經(jīng)走過了十年的歷程,成為私有云的產(chǎn)業(yè)事實(shí)標(biāo)準(zhǔn)以及部分公有云的“底座”,是當(dāng)前全球部署最為廣泛的開源云軟件。截止2020年,OpenStack發(fā)布了22個(gè)版本,社區(qū)里有超過40個(gè)項(xiàng)目,全球有超過1000萬的基于OpenStack的計(jì)算核心,在全球187個(gè)國家和地區(qū)有數(shù)十萬成員。今年10月,OpenStack基金會(huì)演進(jìn)成為Open Infrastructure Foundation開源基礎(chǔ)設(shè)施基金會(huì),凸顯了融合人工智能、5G、大數(shù)據(jù)、邊緣計(jì)算等新型工作負(fù)載的定位。

一方面,OpenStack可以納管和支持融合的工作負(fù)載越來越多;另一方面,由于開源技術(shù)和復(fù)雜組件帶來的局限性,導(dǎo)致當(dāng)達(dá)到一定規(guī)模時(shí),系統(tǒng)的運(yùn)維難度陡增、并發(fā)性能降低,而通過對(duì)系統(tǒng)的合理優(yōu)化方能滿足大規(guī)模節(jié)點(diǎn)部署的應(yīng)用場景,保證系統(tǒng)的正常穩(wěn)定運(yùn)行,這就是浪潮云海OpenStack大規(guī)模單一集群測試的意義所在。

  更大、更全、更高

浪潮在多年云平臺(tái)建設(shè)的探索中發(fā)現(xiàn),大型用戶的云平臺(tái)實(shí)踐普遍面臨大規(guī)模的挑戰(zhàn)。隨著內(nèi)外部用戶數(shù)量的增長,單一應(yīng)用和服務(wù)的規(guī)模變得愈發(fā)龐大,需要同時(shí)部署數(shù)百甚至數(shù)千臺(tái)虛擬機(jī)。如果使用多個(gè)小規(guī)模集群構(gòu)建云平臺(tái),應(yīng)用和服務(wù)的跨集群部署、管理、升級(jí)會(huì)變得異常困難甚至無法實(shí)現(xiàn),因此對(duì)單一集群的規(guī)模產(chǎn)生了強(qiáng)烈的需求。

刷新OpenStack最大規(guī)模集群紀(jì)錄,智算中心操作系統(tǒng)有了新標(biāo)桿

針對(duì)大型用戶對(duì)大規(guī)模云平臺(tái)單一集群的需求,浪潮云海團(tuán)隊(duì)在中國信通院的見證下開展了OpenStack大規(guī)模單一集群的測試。浪潮云計(jì)算與大數(shù)據(jù)產(chǎn)品線首席架構(gòu)師亓開元表示,從2019年的OpenStack單一集群500節(jié)點(diǎn)到今年的1000節(jié)點(diǎn),不僅僅是更大規(guī)模的單一集群,今年還加入了大數(shù)據(jù)和人工智能,測試集群支撐的業(yè)務(wù)更全,整體系統(tǒng)達(dá)到的更高性能。

本次測試,浪潮云海團(tuán)隊(duì)在短短3天內(nèi)完成了1000臺(tái)服務(wù)器部署,支撐傳統(tǒng)業(yè)務(wù)、云原生業(yè)務(wù)、大數(shù)據(jù)業(yè)務(wù)、人工智能應(yīng)用等,并刷新了SPEC Cloud基準(zhǔn)測試世界紀(jì)錄:OpenStack實(shí)現(xiàn)3000個(gè)虛擬機(jī)高并發(fā)創(chuàng)建,密度可達(dá)5萬,30分鐘內(nèi)完成百節(jié)點(diǎn)裸機(jī)發(fā)放;容器實(shí)現(xiàn)1000節(jié)點(diǎn)管理,3萬POD并發(fā)創(chuàng)建,20萬POD管理,10萬應(yīng)用管理;存儲(chǔ)實(shí)現(xiàn)240節(jié)點(diǎn)管理,10萬卷分布式存儲(chǔ),單節(jié)點(diǎn)1萬IOPS,單集群240萬IOPS;SDN實(shí)現(xiàn)2到7層網(wǎng)絡(luò)10萬臺(tái)虛擬機(jī)統(tǒng)一管理配置,流量靈活調(diào)度。

亓開元強(qiáng)調(diào),浪潮公司大力支持OpenStack大規(guī)模單一集群的測試,僅本次測試用的1000臺(tái)服務(wù)器的成本就高達(dá)上億,是直接從生產(chǎn)線拉下來后送入老化線,其目標(biāo)就是向用戶展示浪潮的交鑰匙工程能力。換言之,本次所測試實(shí)現(xiàn)的1000臺(tái)OpenStack大規(guī)模單一集群,同樣的方案可以直接部署到用戶的數(shù)據(jù)中心,馬上就可獲得本次測試所實(shí)現(xiàn)的各種極致性能,例如金融和電信等行業(yè)都對(duì)1000節(jié)點(diǎn)單一集群有著實(shí)際需求,因此1000節(jié)點(diǎn)單一集群相應(yīng)就極具行業(yè)參考規(guī)范價(jià)值。

而在1000節(jié)點(diǎn)之后,下一個(gè)測試規(guī)模是什么?亓開元介紹,實(shí)際上在本次測試中也進(jìn)行了1000節(jié)點(diǎn)集群的多集群連接測試,未來可以通過多集群方式擴(kuò)大到上萬節(jié)點(diǎn),滿足用戶更大規(guī)模數(shù)據(jù)中心的未來需求。

從云數(shù)據(jù)中心到智算中心

作為OpenStack社區(qū)的重要成員之一,浪潮早在2015年就開始圍繞“開放、融合、敏捷”的理念,以O(shè)penStack為核心構(gòu)建數(shù)據(jù)中心操作系統(tǒng),通過敏捷開發(fā)的模式實(shí)現(xiàn)了虛擬、裸機(jī)、容器的統(tǒng)一管理及增強(qiáng)。尤其是在高性能、高效率、高可用、資源融合、多云融合、云數(shù)智融合以及智能運(yùn)維、智能服務(wù)等方面持續(xù)進(jìn)行優(yōu)化創(chuàng)新,在開源版本基礎(chǔ)上融入了大量企業(yè)級(jí)增強(qiáng)和優(yōu)化,打造了云數(shù)智堅(jiān)實(shí)的底座。

刷新OpenStack最大規(guī)模集群紀(jì)錄,智算中心操作系統(tǒng)有了新標(biāo)桿

實(shí)際上,對(duì)于云計(jì)算、大數(shù)據(jù)和人工智能計(jì)算來說,這是三種不同形態(tài)的計(jì)算方式,對(duì)于計(jì)算資源的要求和調(diào)度等有著各自的要求,那么作為智算中心操作系統(tǒng)又是如何實(shí)現(xiàn)云數(shù)智融合的呢?這首先就需要對(duì)云計(jì)算、大數(shù)據(jù)和人工智能等開源技術(shù)的深入掌握和深度理解,特別是需要掌握OpenStack云計(jì)算“底座”的精深知識(shí)以及相關(guān)的工程實(shí)踐,而這就是1000節(jié)點(diǎn)單一集群測試和實(shí)踐的重要價(jià)值。

對(duì)于浪潮云海OS來說,不僅強(qiáng)調(diào)對(duì)OpenStack開源技術(shù)的掌握,更強(qiáng)調(diào)參與開源社區(qū)以及通過自己的實(shí)踐來回饋開源社區(qū)。例如在OpenStack第21個(gè)版本Ussuri和剛發(fā)布的第22個(gè)版本Victoria中,浪潮在代碼提交數(shù)、完成藍(lán)圖數(shù)、起草藍(lán)圖數(shù)、補(bǔ)丁修復(fù)數(shù)和參與人天數(shù)均達(dá)到全球前列、中國第一。近年來,浪潮的社區(qū)貢獻(xiàn)主要集中在Nova(計(jì)算)、Cinder(塊存儲(chǔ))、Cyborg(加速)、Vitrage(根因分析)、Manila(文件存儲(chǔ))等核心模塊,并主導(dǎo)完成Nova通過Cyborg管理加速設(shè)備的特性、貢獻(xiàn)Inspur GPU、FPGA、NVMe SSD等硬件設(shè)備驅(qū)動(dòng),有效促進(jìn)了人工智能、邊緣計(jì)算等新興領(lǐng)域的發(fā)展,今年還發(fā)布了Venus智能日志管理開源項(xiàng)目,與業(yè)界共同構(gòu)建開放統(tǒng)一的智能基礎(chǔ)設(shè)施。

而面向云原生領(lǐng)域、滿足用戶容器化場景需求,浪潮基于微服務(wù)思想、以應(yīng)用為中心、面向私有云市場打造的企業(yè)級(jí)容器服務(wù)平臺(tái),這就是浪潮云海容器云平臺(tái)InCloud K8S(簡稱ICK8S),并于2020年9月發(fā)布了V2.2版本。該版本新增了微服務(wù)治理功能,并在應(yīng)用管理、應(yīng)用部署、應(yīng)用中心等方面全面升級(jí),實(shí)現(xiàn)針對(duì)容器化業(yè)務(wù)場景的全面覆蓋。例如在最重要的微服務(wù)治理方面,ICK8S實(shí)現(xiàn)了無侵入式微服務(wù)治理——支持全流量治理、鏈路追蹤、灰度發(fā)布等治理服務(wù),治理實(shí)現(xiàn)與業(yè)務(wù)開發(fā)的完全解耦,平臺(tái)兼容多種微服務(wù)框架,已有微服務(wù)應(yīng)用無需額外改造即可平滑遷移。

在面向人工智能和機(jī)器學(xué)習(xí)方面,大數(shù)據(jù)處理平臺(tái)浪潮云海Insight入選了Forrester發(fā)布中國預(yù)測分析和機(jī)器學(xué)習(xí)市場研究報(bào)告《Now Tech: PredictiveAnalytics And Machine Learning In China,Q3 2020》(簡稱PAML),浪潮與百度、阿里云、騰訊云等企業(yè)入選中國預(yù)測分析和機(jī)器學(xué)習(xí)市場第一陣營。浪潮云海Insight平臺(tái)具備數(shù)據(jù)智能化分析挖掘、多數(shù)據(jù)源協(xié)同計(jì)算、大規(guī)模集群一鍵式部署、異構(gòu)平臺(tái)混合部署與資源精細(xì)化管理等領(lǐng)先技術(shù)特性。

正是有了前期在云計(jì)算、大數(shù)據(jù)和人工智能等領(lǐng)域的技術(shù)布局,如今浪潮云海OS才有可能升級(jí)到智算中心操作系統(tǒng),特別是實(shí)踐了1000節(jié)點(diǎn)大規(guī)模單一融合集群。浪潮以O(shè)penStack、K8S等開放基礎(chǔ)設(shè)施為底座,融入AIOps和人工智能訓(xùn)練推理平臺(tái),構(gòu)建云數(shù)智一體化平臺(tái)并提供智能化服務(wù)。“智算中心操作系統(tǒng)是智算中心的靈魂,能夠有效聯(lián)接下層硬件和上層服務(wù),異構(gòu)融合多種算力和多元場景,敏捷應(yīng)對(duì)不同智算需求,以智能驅(qū)動(dòng)創(chuàng)新”,浪潮信息副總裁張東就此表示。

總結(jié)來說:浪潮云海OS向智算中心操作系統(tǒng)的升級(jí),是面向未來政企用戶需求而提前進(jìn)行的布局。浪潮作為互聯(lián)網(wǎng)市場的第一大服務(wù)器廠商,將互聯(lián)網(wǎng)對(duì)于新興技術(shù)的需求以及相應(yīng)的技術(shù)方案沉淀和積累下來,再向傳統(tǒng)政企用戶擴(kuò)散。無論是云原生、大數(shù)據(jù)和人工智能等,真正要全面進(jìn)入政企應(yīng)用還要幾年的時(shí)間,而浪潮智算中心操作系統(tǒng)不僅為新基建樹立了新標(biāo)桿,更是為十四五的政企數(shù)字化轉(zhuǎn)型立下了新標(biāo)桿!

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )