OpenRack3.0背后的云數(shù)據中心開放進化

6月25日,OCP China Day(開放計算中國日)在北京舉行,大會由OCP基金會和OCP鉑金成員浪潮聯(lián)合主辦,近1000名工程師和數(shù)據中心從業(yè)者參加了此次大會。

OpenRack3.0背后的云數(shù)據中心開放進化

OCP China Day開放計算中國日現(xiàn)場

OCP是全球的最大硬件開放社區(qū),核心會員超過200家,包括Google、微軟、Intel、IBM、浪潮等,超過7000家企業(yè)曾參與社區(qū)的活動。2011年Facebook發(fā)起成立了該社區(qū),旨在重構數(shù)據中心硬件設計,通過開放開源的方式,構筑創(chuàng)新技術生態(tài)。社區(qū)成立后,發(fā)展速度超出了所有人預料,2018年,OCP非董事會成員采購額同比增長率超過120%,達到25.6億美元,到2022年預計將超過107億美元。

目前,所有的云計算數(shù)據中心都全部或者部分采用了OCP的開放技術,整機柜服務器、存儲服務器、機架式高密度服務器等一大批云計算時代的創(chuàng)新技術和產品都是在OCP社區(qū)的直接推動下發(fā)展起來的。OCP的發(fā)展歷程也是整個數(shù)據中心產業(yè)的云計算變革過程。

5G催生云數(shù)據中心2.0

本次OCP China Day活動主要聚焦于邊緣計算、AI以及云數(shù)據中心三大議題。隨著5G 的應用,此前以云計算、移動互聯(lián)、大數(shù)據為代表的信息技術變革開始迎來新起點,5G時代不僅是AI、邊緣計算的時代,也是物聯(lián)網的時代,也是更大帶寬、更大規(guī)?;ヂ?lián)的時代,云數(shù)據中心需要承載更大規(guī)模的訪問量和數(shù)據量,從而進一步加快規(guī)?;?、現(xiàn)代化升級。

如果說現(xiàn)在的云數(shù)據中心是1.0版本,那么5G時代的云數(shù)據中心則是2.0版本。通過水冷、48V供電,克服物理限制,進一步提高數(shù)據中心功率密度;軟件定義技術全面應用,硬件標準化,固件開源統(tǒng)一化,IT基礎架構實現(xiàn)真正的統(tǒng)一、融合、開放;Redfish新管理架構替代當前的IPMI,同時與openBMC相結合,形成新一代的數(shù)據中心管理技術生態(tài)。

從OpenRack3.0看下一代整機柜服務器

截止至2019年1月,全球超大規(guī)模數(shù)據中心的數(shù)量已經達到430個,同比增長11%,預計年底可以達到500個。按照每個數(shù)據中心 10萬臺的容量計算,已建成超大規(guī)模數(shù)據中心可容納4300萬臺服務器,而根據IDC數(shù)據,2018年全球服務器總出貨量僅為1175萬臺。

這些大規(guī)模和超大規(guī)模數(shù)據中心一直在不斷的提高設備密度,直接導致以整機柜為主的不同形態(tài)的多節(jié)點服務器,在過去的10年中,全球市場的出貨量份額從0起步上升至20%。OCP的OpenRack2.0和ODCC的天蝎2.5是目前整機柜服務器的兩個主要的公開技術標準,已經部署的服務器大多遵循上述兩個標準。但是這兩個標準在供電和散熱方面遇到了物理限制的硬墻,難以繼續(xù)提高密度。所以,OCP和ODCC都在開發(fā)下一代標準3.0,這一代標準普遍實現(xiàn)了12-48V高壓供電、15-33KW高功率支持以及液冷散熱的支持。

大會上,Facebook技術負責人Steve Mills系統(tǒng)講解了最新的OpenRack 3.0整機柜服務器規(guī)范,新規(guī)范在供電、散熱等方面提升以外,還將高度從41OU增加到44OU,最大重量從1400Kg提高到1600kg;支持21英寸和19英寸兩種規(guī)格的節(jié)點,節(jié)點高度單位同時支持OU和標準U;內部結構也進行了調整,可以讓用戶部署專門異構加速器、存儲等擴展模塊,由于該規(guī)范涉及到液冷和48V供電等尚未規(guī)模應用的技術,很多細節(jié)仍然待定,所以,該標準仍未正式發(fā)布,處于公開征詢意見的階段。

OpenRack3.0背后的云數(shù)據中心開放進化

  Steve Mills, Facebook Technical Lead

OpenRack 3.0以外的努力

OCP的開放標準往往來源于成熟的應用實踐,成員企業(yè)的領先實踐經過一系列復雜、嚴謹和完全透明公開的流程后,才會成為社區(qū)標準,這樣的嚴格流程保證了OCP標準的實用性和權威性,也帶來了一個問題——OCP的標準滯后于實際應用的發(fā)展,比如異構加速器的標準OAM今年才發(fā)布,而英偉達的GPU技術在十幾年前就出現(xiàn)了,GPU用于AI領域也有快10年時間。

OCP、ODCC社區(qū)成員在技術和方案層面的快速創(chuàng)新,彌補了標準升級緩慢帶來的問題。OCP成員的創(chuàng)新IP或者技術規(guī)范只要經過被社區(qū)接受,就可以在社區(qū)平臺上發(fā)布。本次活動上,騰訊聯(lián)合浪潮將T-flex2.0規(guī)范貢獻給了OCP社區(qū),該規(guī)范此前已經被ODCC社區(qū)所接受,基于I/O池化技術,通過服務器不同模塊的解耦重組,實現(xiàn)服務器的模塊化迭代和靈活組合,可以實現(xiàn)異構加速、冷存儲、HPC集群等各類不同的應用方案,也就是超大規(guī)模數(shù)據中心可以基于該規(guī)范對統(tǒng)一服務器架構,降低采購運維的復雜度,降低整體成本。

數(shù)據中心的效率不僅要依靠硬件層面的創(chuàng)新,也要依靠管理技術的提高。Intel在大會上介紹了兩項數(shù)據中心管理技術。大部分云平臺一旦進入管理的廣播模式(也就是管理節(jié)點向資源節(jié)點發(fā)送各種調度指令),所有資源節(jié)點都會將管理命令優(yōu)先處理,從而導致當前排隊的的業(yè)務進程停止,業(yè)務會出現(xiàn)短暫的中斷,Intel將管理中斷功能放到了PRM層面,這樣可以有效的縮短業(yè)務中斷時間。另外,數(shù)據中心的冷卻系統(tǒng)會根據負載水平進行調節(jié),但是大規(guī)模數(shù)據中心的反饋復雜、延時非常高,導致冷卻調節(jié)明顯慢于負載的變化,Intel在管理系統(tǒng)中加入了AI支持的預測窗口,冷卻系統(tǒng)調節(jié)不必依賴反饋,冷卻策略更為精準。

IT基礎架構的開放重構

微軟SONiC是近幾年來最成功的數(shù)據中心開源項目,Mellanox、DELTA等公司的400G以太交換機都支持SONiC,中國ODCC社區(qū)的鳳凰項目也完全采用了SONiC,微軟已經構建起了開源交換機操作系統(tǒng)SONiC、白盒交換機融為一體的產業(yè)生態(tài)。

阿里巴巴在活動上分享了SONiC的應用實踐,阿里巴巴采用了SONiC搭建了一個超大規(guī)模的生產網絡,連接數(shù)十萬服務器,數(shù)百萬虛擬機和數(shù)千萬終端,實現(xiàn)了高帶寬和低延遲,讓阿里巴巴具備了承受“雙十一”網絡狂潮的能力,而且阿里巴巴基于SONiC做了大量的個性化開發(fā),很好的推動了阿里巴巴實際業(yè)務的創(chuàng)新。

OpenRack3.0背后的云數(shù)據中心開放進化

阿里巴巴高級專家劉永鋒

SONiC等SDN技術重構了數(shù)據中心網絡,Ceph等SDS技術重構數(shù)據中心存儲,OpenStack等云計算技術重構了數(shù)據中心服務器,開源的定義軟件與標準化的硬件正在成為新一代IT基礎架構的標準化選擇。

Open Firmware,固件層面的開放

OCP另一個社區(qū)項目Open Firmware近年來發(fā)展很快,該社區(qū)的宗旨是發(fā)展敏捷、開放、標準的固件設計規(guī)范來適應新一代云計算基礎架構發(fā)展需求。固件是指設備內部保存的設備底層代碼,類似于“驅動程序”,操作系統(tǒng)必須通過固件才能驅動服務器的部件運行。通過固件的開放化,數(shù)據中心可以開發(fā)深度的數(shù)據中心統(tǒng)一管理方案,實現(xiàn)固件的遠程統(tǒng)一升級等高級操作,從而簡化數(shù)據中心的運維復雜度,甚至實現(xiàn)數(shù)據中心的自治。

項目組正在開發(fā)開源套件,這些套件僅包括最基本的平臺代碼來識別白盒硬件,同時也在聯(lián)合社區(qū)成員發(fā)展可構建和引導的白盒硬件系統(tǒng),形成軟硬一體化的Open Firmware生態(tài)。

OpenRMC,完成下一代管理技術的框架

社區(qū)的另一個由浪潮牽頭成立的項目組OpenRMC,正在致力于OpenBMC與Redfish的融合,形成下一代數(shù)據中心管理的統(tǒng)一框架,這是一個Linux、DMTF與OCP三個社區(qū)的聯(lián)合項目。

OpenRack3.0背后的云數(shù)據中心開放進化

浪潮高級技術總監(jiān)郭洪昌

BMC(Baseboard Management Controller)是監(jiān)控服務器狀態(tài)并提供帶外管理服務的嵌入式管理單元,各主要服務器供應商BMC軟件棧均是閉源的,彼此兼容性差,影響了數(shù)據中心設備的統(tǒng)一管理。因此,2015年,Facebook發(fā)起了OpenBMC開源項目,此后該項目轉入Linux基金會。

RedFish是下一代數(shù)據中心管理標準,由OMTF標準組織制定,來替代當前的IPMI。IPMI功能較少,擴展性差,只適用于中小規(guī)模的數(shù)據中心管理。Redfish擴展性好,功能豐富,針對不同供應商的種類多樣的基礎設施提供規(guī)范化易集成的管理接口,除了服務器外,Redfish也在逐漸擴展對存儲、網絡方面的支持,可以滿足超大規(guī)模數(shù)據中心的高級管理需求。

OCP的OpenRMC小組已經開發(fā)了業(yè)內第一個符合Redfish規(guī)范的OpenBMC版本,進一步提升了OpenBMC的模塊化、規(guī)范化程度,并且在加快推出正式的社區(qū)標準。未來OpenRMC有望與Open Firmware融合,形成一整套深入固件層的數(shù)據中心管理架構規(guī)范。

統(tǒng)一、開放、融合,是技術也是產業(yè)

此次OCP China Day活動展示技術內容,構成了一個完整的下一代云數(shù)據中心技術框架——新升級的新形態(tài)Open Rack 3.0,從固件到數(shù)據中心多個層面的開放融合、更豐富的管理。這些技術會隨著5G、AI的應用,而逐步替代原來的技術,完成整個技術生態(tài)的升級換代。

另外,值得一提的是,OCP、ODCC以及其他軟硬件開放社區(qū),正在實際需求的帶動下,深度交流合作,甚至于模糊邊界。在此次大會上,主題演講的內容不僅來自OCP各個技術組,也來自ODCC社區(qū),百度分享了天蝎服務器的實踐經驗。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2019-06-28
OpenRack3.0背后的云數(shù)據中心開放進化
6月25日,OCP China Day(開放計算中國日)在北京舉行,大會由OCP基金會和OCP鉑金成員浪潮聯(lián)合主辦,近1000名工程師和數(shù)據中心從業(yè)者參加了此

長按掃碼 閱讀全文