2023開(kāi)年,浪浪山的一只小豬妖火出了圈,在《中國(guó)奇譚》這部國(guó)漫的第一個(gè)單元中,小豬妖躊躇滿志,想要做出一番事業(yè),結(jié)果費(fèi)盡千辛萬(wàn)苦,自己的工作成果卻被否定,然后,小豬妖說(shuō)出了那句經(jīng)典臺(tái)詞“我想離開(kāi)浪浪山”。
小豬妖的遭遇,戳中了當(dāng)代打工人的隱痛,也像極了數(shù)據(jù)中心里那些鮮為人知,又百抓撓心的困境。
近年來(lái),我們能夠在很多論壇、峰會(huì)、發(fā)布會(huì)商聽(tīng)到一些高瞻遠(yuǎn)矚、提綱挈領(lǐng)的話,比如“計(jì)算力就是生產(chǎn)力”、“數(shù)字經(jīng)濟(jì)的基礎(chǔ)設(shè)施”、“上云用數(shù)賦智”等,這些宏觀層面的趨勢(shì)、路線支撐著云數(shù)據(jù)中心、智算中心等計(jì)算集群的快速發(fā)展,我們也在此前的文章中分析過(guò)很多。
不過(guò),實(shí)際建設(shè)過(guò)程中,會(huì)面臨這樣那樣的具體挑戰(zhàn),可能是坐在辦公室/研究所,對(duì)著PPT指點(diǎn)江山的人很難想象的。
比如西部某高校中計(jì)算中心的一個(gè)女工作人員曾告訴我,服務(wù)器散熱主要靠風(fēng)冷,維持降溫會(huì)加大送風(fēng)風(fēng)力,她們女員工進(jìn)機(jī)房都是沒(méi)法穿裙子的;機(jī)房?jī)?nèi)的噪音很大,常年負(fù)責(zé)運(yùn)維的同事,聽(tīng)力也受到了損害。
這些細(xì)節(jié)而真實(shí)的難題,構(gòu)成了數(shù)據(jù)中心必須翻越的浪浪山,否則就會(huì)像小豬妖一樣疲憊且做無(wú)用功,而這些問(wèn)題,只能從扎根在腳下的土地中來(lái),從與一線人員交流中來(lái)。今天我們就結(jié)合一些實(shí)地見(jiàn)聞來(lái)聊一聊,數(shù)據(jù)中心正在等待翻越哪些山巒。
第一重山:電
談到數(shù)據(jù)中心的中美差異,你會(huì)想到什么?芯片、架構(gòu)、軟件、產(chǎn)業(yè)鏈?有一個(gè)容易被忽略但很重要的因素是:供電。
益企研究院自2018年來(lái)實(shí)地考察了多個(gè)國(guó)內(nèi)云數(shù)據(jù)中心,發(fā)現(xiàn)2 路2U 是國(guó)內(nèi)服務(wù)器市場(chǎng)上的主流規(guī)格,IDC的服務(wù)器市場(chǎng)追蹤報(bào)告也證實(shí),2018—2021 年,機(jī)柜式服務(wù)器中2U 規(guī)格占據(jù)了70%左右。然而,美國(guó)市場(chǎng)上,1U反而更受歡迎。
1U和2U究竟是什么?到底是什么原因?qū)е铝诉@種差別?又意味著什么呢?
(中國(guó)電子信創(chuàng)云基地(順義)機(jī)房的2U服務(wù)器)
我們知道,隨著IT設(shè)備技術(shù)的變化,現(xiàn)代數(shù)據(jù)中心采用的服務(wù)器高度一般為1U或2U,U指的是機(jī)架式服務(wù)器的厚度,1U是4.45厘米,而早期數(shù)據(jù)中心的機(jī)架式服務(wù)器高度一般在3-5U。
U的數(shù)字越少,服務(wù)器高度越低,單機(jī)計(jì)算密度越高,1U服務(wù)器的計(jì)算密度可以達(dá)到2U服務(wù)器的兩倍。然而,東數(shù)西算工程中對(duì)數(shù)據(jù)中心集群的要求,京津冀、長(zhǎng)三角、粵港澳大灣區(qū)、成渝這幾個(gè)樞紐節(jié)點(diǎn)都強(qiáng)調(diào)了“高密度”。因?yàn)橹挥忻芏雀?,才能在有限的土地面積上供給更多的算力,提高土地資源效益。
這樣看,1U應(yīng)該是更好的選擇,但實(shí)地走訪得到的結(jié)果,卻是2U規(guī)格在中國(guó)云數(shù)據(jù)中心的占比較多,這是為什么呢?這里有一個(gè)決定性因素——供電能力。
因?yàn)?U比2U更耗電,支撐約18臺(tái)2U服務(wù)器的單機(jī)柜供電量需要達(dá)到6kW,如果換成部署36臺(tái)1U服務(wù)器,那供電量就要達(dá)到12kW。如果單機(jī)柜的供電能力達(dá)不到,就無(wú)法充分發(fā)揮1U的密度優(yōu)勢(shì)。
(和林格爾東方超算云數(shù)據(jù)中心內(nèi)景)
而目前,我國(guó)數(shù)據(jù)中心的機(jī)柜功率還是普遍偏低的,主流功率以4-6KW為主,“東數(shù)西算”工程的宣傳中,甚至還可以看到“2.5 千瓦標(biāo)準(zhǔn)機(jī)架”的配置,6kW以上的機(jī)柜占比只有32%。
數(shù)據(jù)中心的供電系統(tǒng),既有舊疾,也有新患。舊疾在于,傳統(tǒng)數(shù)據(jù)中心的各個(gè)機(jī)電系統(tǒng)分別運(yùn)行,采集精度不足,調(diào)控范圍也有限,供電能力和IT需求無(wú)法精細(xì)化對(duì)等,一旦單機(jī)柜功率密度加大,電源連續(xù)運(yùn)行的可靠性就可能受到影響,發(fā)生停機(jī)中斷的風(fēng)險(xiǎn)也會(huì)增大。對(duì)于云服務(wù)商來(lái)說(shuō),云數(shù)據(jù)中心斷電會(huì)直接導(dǎo)致客戶業(yè)務(wù)終端,帶來(lái)經(jīng)濟(jì)損失,這是不可承受之重。
新患在于,國(guó)家提出“雙碳”戰(zhàn)略后,建設(shè)綠色節(jié)能數(shù)據(jù)中心已經(jīng)成為共識(shí),而單機(jī)功率密度的增加,會(huì)直接提高制冷要求,從而增加空調(diào)設(shè)備和空冷用電。以2021 年數(shù)字中國(guó)萬(wàn)里行考察過(guò)的云數(shù)據(jù)中心為例,騰訊云懷來(lái)瑞北數(shù)據(jù)中心使用 52U 機(jī)柜,UCloud(優(yōu)刻得)烏蘭察布云基地使用 47U 和54U的機(jī)柜,如果都改用1U服務(wù)器,不僅不能真正提高密度,反而會(huì)增大服務(wù)器散熱設(shè)計(jì)的挑戰(zhàn)。
已知數(shù)據(jù)中心必須提高計(jì)算密度,那就要提高單柜密度,單機(jī)柜功率需要更高可靠、高可用的供電能力來(lái)保障,因此可以得出,供電能力接下來(lái)會(huì)是中國(guó)數(shù)據(jù)中心必須翻越的一重山。
第二重山:冷
前面提到,機(jī)柜功率密度的提升,會(huì)讓制冷用電上升??赡苡袡C(jī)智的小伙伴會(huì)問(wèn),采用更高效節(jié)能的制冷方式,不就可以解決這個(gè)問(wèn)題,順利向高密度進(jìn)化了?
確實(shí)如此,數(shù)據(jù)中心行業(yè)為了更加節(jié)能的制冷系統(tǒng),可謂是操碎了心。一方面是加速“西算”,充分發(fā)揮烏蘭察布等西部地區(qū)的氣候優(yōu)勢(shì),建設(shè)新數(shù)據(jù)中心,利用室外自然冷源?!皵?shù)字中國(guó)萬(wàn)里行”實(shí)地考察了7個(gè)數(shù)據(jù)中心集群,發(fā)現(xiàn)張家口數(shù)據(jù)中心集群、和林格爾數(shù)據(jù)中心集群的數(shù)據(jù)中心,一年有 10個(gè)月以上的時(shí)間可以使用自然冷源,年均 PUE 可達(dá) 1.2。
另外就是發(fā)揮液體冷卻在降低能耗上的優(yōu)越性,逐步用液冷服務(wù)器替代風(fēng)冷。比如阿里巴巴2018年在河北省張家口市張北縣部署了一個(gè)浸沒(méi)式液冷(Immersion Cooling)機(jī)房,一個(gè)臥置的54U機(jī)柜,部署32臺(tái)1U雙路服務(wù)器和4臺(tái)4U的JBOD。開(kāi)篇我們提到,風(fēng)冷機(jī)房給女員工著裝上帶來(lái)的小困擾,液冷技術(shù)就能很好地解決這個(gè)問(wèn)題。
這是不是意味著,液冷技術(shù)很快會(huì)在數(shù)據(jù)中心行業(yè)普及呢?結(jié)束2021年數(shù)字中國(guó)萬(wàn)里行后,益企研究院推出的《2021中國(guó)云數(shù)據(jù)中心考察報(bào)告》,給出了“謹(jǐn)慎觀望”的答案。
我們認(rèn)為,原因有三:
1.成熟期的生態(tài)問(wèn)題。
液體冷卻雖然制冷效率遠(yuǎn)高于風(fēng)冷,但長(zhǎng)期以來(lái),風(fēng)冷機(jī)房在數(shù)據(jù)中心建設(shè)中占據(jù)了主流,幾十年一貫制的風(fēng)冷服務(wù)器已經(jīng)形成了成熟的生態(tài)鏈,建設(shè)和運(yùn)營(yíng)成本都有優(yōu)勢(shì),因此一些氣候優(yōu)越的地區(qū),風(fēng)冷方案就可以滿足降PUE的需求,比如華為烏蘭察布云數(shù)據(jù)中心就以 8 千瓦的風(fēng)冷機(jī)柜為主。此外,在一些東部中部地區(qū)有引入液冷的需求和意愿,但也要考慮成本,如果能夠通過(guò)優(yōu)化UPS架構(gòu),采用智能化能效管理方案等,取得顯著的節(jié)能效果,那么能風(fēng)冷就風(fēng)冷。
2.過(guò)渡期的技術(shù)問(wèn)題。
當(dāng)然,對(duì)于HPC、AI等計(jì)算,采用液冷的優(yōu)勢(shì)很大,因此也有一些公司希望嘗試液冷技術(shù),但又不想改造風(fēng)冷機(jī)房,于是從風(fēng)冷升級(jí)到液冷的過(guò)渡期,出現(xiàn)了“風(fēng)液混布”的市場(chǎng)需求。
我們知道,風(fēng)冷服務(wù)器可以與制冷設(shè)備松耦合,環(huán)境適應(yīng)性、靈活度很高,而浸沒(méi)式液冷需要將服務(wù)器的板卡、CPU、內(nèi)存等發(fā)熱元器件完全浸沒(méi)在冷卻液中,噴淋式液冷則需要對(duì)機(jī)箱或機(jī)柜進(jìn)行改造,二者帶來(lái)的成本都比較高。過(guò)渡期中,冷板式液冷與風(fēng)冷混合使用,是比較適合的方案。但是,冷板式液冷要將冷板固定在服務(wù)器的主要發(fā)熱器件上,依靠流經(jīng)冷板的液體將熱量帶走,全密封和防泄漏要求高,設(shè)計(jì)和制造難度很大。
(華為云東莞松山湖數(shù)據(jù)中心部署的Atlas 900集群,采用風(fēng)液混合技術(shù)散熱)
3.產(chǎn)業(yè)鏈的協(xié)作問(wèn)題。
液冷數(shù)據(jù)中心需要產(chǎn)業(yè)鏈上下游的協(xié)同創(chuàng)新,包括制造、設(shè)計(jì)、材料、施工、運(yùn)維等各個(gè)環(huán)節(jié)。風(fēng)冷模式也正因?yàn)樗神詈?,?dǎo)致制冷行業(yè)和數(shù)據(jù)中心行業(yè)是比較割裂的,推動(dòng)數(shù)據(jù)中心向液冷變革,必須要構(gòu)建一個(gè)新的生態(tài),加強(qiáng)各角色的聯(lián)系,降低液冷服務(wù)器的前期制造成本和后續(xù)維護(hù)成本。這需要一個(gè)多方磨合、配合的過(guò)程,不是一朝一夕能夠?qū)崿F(xiàn)的。
從這些角度來(lái)看,液冷數(shù)據(jù)中心雖然是大勢(shì)所趨,但還有較長(zhǎng)的路要走,整個(gè)行業(yè)都在持續(xù)關(guān)注變化。
第三重山:芯
如果說(shuō)供電效率、風(fēng)冷液冷,是云數(shù)據(jù)中心機(jī)房基礎(chǔ)設(shè)施的重要變化,那么芯片可能就是IT基礎(chǔ)設(shè)施的重點(diǎn)關(guān)注對(duì)象。
2021年,由安謀科技獨(dú)家冠名贊助的數(shù)字中國(guó)萬(wàn)里行,在考察貴州、內(nèi)蒙古烏蘭察布、和林格爾期間發(fā)現(xiàn)了一個(gè)新的現(xiàn)象——中國(guó)“芯”力量正在崛起,國(guó)產(chǎn)技術(shù)的成熟度和應(yīng)用程度正在提升,追趕主流。阿里云的倚天710、AWS的Graviton、Ampere的Altra等,都獲得了長(zhǎng)足的發(fā)展與應(yīng)用。
造成這一局面的原因很多,比如云全棧走向自主化,為中國(guó)“芯”提供了市場(chǎng)支撐;政務(wù)、金融、交通、電力、制造等行業(yè)的數(shù)字化加快,為中國(guó)“芯”提供了應(yīng)用落地場(chǎng)景;x86與 Arm 并存,為中國(guó)“芯”基于新架構(gòu)進(jìn)行定制和優(yōu)化提供了研發(fā)基礎(chǔ)。
但必須指出的是,月亮都有暗面。中國(guó)“芯”崛起的背后,也要看到中國(guó)半導(dǎo)體領(lǐng)域還艱難中探索。
首先,是制程工藝的枷鎖。我們知道,摩爾定律的延續(xù)是基于制程工藝的推進(jìn),然而半導(dǎo)體制程工藝的提升已經(jīng)觸達(dá)天花板很久了,跟不上芯片規(guī)格提升的速度。所以,云數(shù)據(jù)中心開(kāi)始采用“堆CPU”的做法來(lái)提升機(jī)柜密度,但是靠堆料帶來(lái)的性能提升是有邊界的,不能止步于此。
于是后摩爾時(shí)代,小芯片(Chiplet)開(kāi)始被很多國(guó)產(chǎn)芯片廠商選中。這種新的芯片設(shè)計(jì)模式,可以把多個(gè)硅片封裝在一起,組成一個(gè)芯片網(wǎng)絡(luò),x86 和 Arm 生態(tài)系統(tǒng)都在采用這項(xiàng)技術(shù)。但需要注意的是,目前的IP重用方法中,對(duì)IP的測(cè)試和驗(yàn)證已經(jīng)有比較成熟的方法,但多個(gè)Chiplet封裝后如何測(cè)試、良率怎么保證,還是中國(guó)“芯”必須解決的問(wèn)題。
更主要的是,小芯片的封裝依靠先進(jìn)的封裝技術(shù),芯片I/O接口可以和封裝協(xié)同設(shè)計(jì)并優(yōu)化,對(duì)于芯片性能的提升非常重要。這就要求先進(jìn)封裝設(shè)計(jì)與芯片設(shè)計(jì)有較強(qiáng)的交互性,同時(shí)也對(duì)設(shè)計(jì)工具提出了一定的要求,我們知道,EDA工具一直是我國(guó)半導(dǎo)體領(lǐng)域的“軟肋”之一,這一點(diǎn)不解決,在Chiplet越來(lái)越重要的當(dāng)下,中國(guó)“芯”很難高枕無(wú)憂。
目前看來(lái),數(shù)據(jù)中心集群作為數(shù)字基礎(chǔ)設(shè)施的重要組成部分,正在發(fā)生一系列變化,究竟干得怎么樣,有哪些待解問(wèn)題,是一個(gè)必須回答又不容易回答的問(wèn)題。
不識(shí)廬山真面目,只緣身在此山中。很多事情,只有在貼近實(shí)地一線,再抽離出來(lái)縱覽全局,才能看到困住數(shù)據(jù)中心前進(jìn)腳步的一重重“浪浪山”。
2023數(shù)據(jù)中心需要跨越的山巒還很多,盡管道阻且長(zhǎng),但只要一直行在路上,總有海闊天空任鳥(niǎo)飛的那天。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 一半是產(chǎn)品,一半是服務(wù),華為品牌帶給消費(fèi)者的有贊嘆更有溫暖
- 在人群里,看見(jiàn)「鯤鵬開(kāi)發(fā)者」
- 游戲體驗(yàn)天花板,一加 Ace 5 系列售價(jià) 2299 元起
- 為創(chuàng)意和管理提效,新廣告投放(3.0)驅(qū)動(dòng)消費(fèi)品商家高效增長(zhǎng)
- 榮耀Magic7系列全面升級(jí)大王影像,首發(fā)AI超級(jí)長(zhǎng)焦拍遠(yuǎn)更清晰
- 2024過(guò)去了,留下十個(gè)科技記憶
- 年貨節(jié)如何大爆單?別錯(cuò)過(guò)巨量千川這三波紅利
- 美國(guó)無(wú)人機(jī)禁令升級(jí)?當(dāng)?shù)乜茖W(xué)家率先“喊疼”:我們離不開(kāi)大疆
- iQOO Neo10 Pro:性能特長(zhǎng)之外,亦有全能實(shí)力
- 自動(dòng)駕駛第一股的轉(zhuǎn)型迷途:圖森未來(lái)賭上了AIGC
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。