熱浪和人工智能挑戰(zhàn)會給數(shù)據(jù)中心帶來壓力嗎?

最佳溫度范圍是影響數(shù)據(jù)中心高效運(yùn)行的關(guān)鍵因素。然而,隨著許多國家進(jìn)入極端高溫時(shí)期,出現(xiàn)嚴(yán)重且日益嚴(yán)重的停電風(fēng)險(xiǎn)。

熱浪可能導(dǎo)致數(shù)據(jù)中心組件過熱和故障,導(dǎo)致運(yùn)營商關(guān)閉服務(wù)器以防止損壞,從而導(dǎo)致停機(jī)和潛在的中斷。

例如,2022年7月,倫敦創(chuàng)紀(jì)錄的高溫達(dá)到104華氏度(40攝氏度),導(dǎo)致冷卻系統(tǒng)故障,導(dǎo)致谷歌和甲骨文數(shù)據(jù)中心下線。兩個(gè)月后,酷熱天氣導(dǎo)致推特位于薩克拉門托地區(qū)的數(shù)據(jù)中心癱瘓。

敏感電子設(shè)備和硬件(例如服務(wù)器、存儲設(shè)備和網(wǎng)絡(luò)設(shè)備)中的各個(gè)組件都有特定的工作溫度才能實(shí)現(xiàn)最佳運(yùn)行。數(shù)據(jù)中心的建議溫度范圍可能低至65華氏度或高至95華氏度,在防止過熱和設(shè)備潛在損壞方面起著關(guān)鍵作用。該范圍由特定硬件目標(biāo)的工作溫度范圍和該硬件可以運(yùn)行的條件決定。

隨著熱浪越來越頻繁,這將是一個(gè)反復(fù)出現(xiàn)且日益嚴(yán)重的問題,熱浪加上停電,數(shù)據(jù)中心就離線了。溫度波動(dòng)始終是數(shù)據(jù)中心運(yùn)營需要考慮的問題,而天氣的預(yù)期范圍并不是主要問題。

極端溫度,尤其是高溫,會給電網(wǎng)帶來巨大壓力,并可能增加當(dāng)?shù)厣钣盟氖褂昧?,而這些用水量取決于冷卻系統(tǒng)。當(dāng)熱浪來襲時(shí),電力和水的使用量將根據(jù)系統(tǒng)和冷卻技術(shù)類型而增加,從而給當(dāng)?shù)厥袌鰩眍~外的壓力。

確保熱浪期間的連續(xù)性

如今全球都出現(xiàn)了極端高溫,許多人都致力于確保數(shù)據(jù)中心能夠繼續(xù)運(yùn)行。確保熱浪期間連續(xù)性的關(guān)鍵利益相關(guān)者是現(xiàn)場設(shè)施經(jīng)理,以及更廣泛的設(shè)施團(tuán)隊(duì),包括電工、機(jī)械工程師以及暖通空調(diào)專業(yè)人員。

此外,數(shù)據(jù)中心冷卻擁有龐大的控制系統(tǒng)網(wǎng)絡(luò),需要穩(wěn)定的電流來操作系統(tǒng)的各個(gè)組件,以確保調(diào)節(jié)后的空氣以最佳方式流入數(shù)據(jù)中心空間。

數(shù)據(jù)中心運(yùn)營商和支持這些設(shè)施的機(jī)械團(tuán)隊(duì)已經(jīng)為一系列自然災(zāi)害和資源限制做好了計(jì)劃。數(shù)據(jù)中心運(yùn)營商隨后與客戶密切合作,以滿足已發(fā)布或商定的服務(wù)水平協(xié)議(SLA)。

如果資源或自然災(zāi)害需要關(guān)閉或限制某些服務(wù),可能還會與客戶制定應(yīng)急計(jì)劃。過去幾年最大的關(guān)注點(diǎn)是效率,盡可能有效地利用電力、冷卻和水資源,并減少整個(gè)設(shè)施的浪費(fèi)。這是通過提高數(shù)據(jù)中心溫度、改進(jìn)監(jiān)控解決方案和智能樓宇管理系統(tǒng)以及改進(jìn)配電和調(diào)節(jié)來實(shí)現(xiàn)的。

數(shù)據(jù)中心運(yùn)營商越來越多地采用液體冷卻技術(shù),以進(jìn)一步提高其設(shè)施的效率,同時(shí)在許多情況下在設(shè)施或IT設(shè)備層面轉(zhuǎn)向閉環(huán)、“無水”冷卻設(shè)計(jì)。所有這些都有助于數(shù)據(jù)中心更加高效地在日益嚴(yán)峻的條件下運(yùn)行。

節(jié)能基礎(chǔ)設(shè)施和更有效的冷卻設(shè)計(jì)(例如液體冷卻)是目前正在考慮的兩種技術(shù)。高效數(shù)據(jù)中心電源管理的另一種有效但較少被探索的策略是減少主動(dòng)管理的數(shù)據(jù)量?!?/p>

由于數(shù)據(jù)消耗了數(shù)據(jù)中心30%或更多的資源,并且80%的數(shù)據(jù)都是冷數(shù)據(jù),因此高效的數(shù)據(jù)管理可以幫助減少數(shù)據(jù)中心三分之一的負(fù)擔(dān),甚至不需要對基礎(chǔ)設(shè)施進(jìn)行任何改造。

隨著熱浪頻率的上升,再加上更高密度的人工智能處理器的熱量輸出更大,問題在兩個(gè)方面變得更加復(fù)雜。

● 人工智能增加了數(shù)據(jù)中心的熱量和電力消耗,使冷卻挑戰(zhàn)更加復(fù)雜。

● 人工智能使挑戰(zhàn)復(fù)雜化,并提供解決方案。

人工智能的持續(xù)崛起將加劇這些挑戰(zhàn),但許多挑戰(zhàn)也有助于解決保持?jǐn)?shù)據(jù)中心在可接受的工作溫度下運(yùn)行的問題。

人工智能耗電量巨大,更多的人工智能處理會增加數(shù)據(jù)中心的熱量輸出和功耗,從而加劇這一問題。

一方面,在更密集的硬件配置下,模型訓(xùn)練和推理的AI工作負(fù)載需要大量的計(jì)算能力和能源。為AI模型和應(yīng)用提供動(dòng)力的服務(wù)器會產(chǎn)生大量熱量,必須進(jìn)行散熱和冷卻。

訓(xùn)練這些模型時(shí)會發(fā)生復(fù)雜的計(jì)算,需要更多資源密集型的硬件,從而提高模型的最佳運(yùn)行整體功率。資源利用率和發(fā)電量的增加意味著數(shù)據(jù)中心內(nèi)會產(chǎn)生更多的熱量,從而給冷卻系統(tǒng)帶來壓力。此外,人工智能算法和模型的動(dòng)態(tài)特性可能會導(dǎo)致電力需求和熱量產(chǎn)生的激增,而傳統(tǒng)的冷卻系統(tǒng)可能難以跟上。

考慮到過去一年來為了滿足對LLM的巨大需求而對集中式數(shù)據(jù)中心建設(shè)的巨額投資,我預(yù)計(jì)電網(wǎng)的壓力將會增加。

雖然人工智能工作負(fù)載的增加,為保持?jǐn)?shù)據(jù)中心的最佳運(yùn)行溫度帶來了更多挑戰(zhàn),但它也可以成為解決問題的良方。

這可以包括優(yōu)化熱性能管理的人工智能,包括液體冷卻或氣流的需求流和冷卻系統(tǒng)的預(yù)測性維護(hù)。

隨著熱浪的增加,人工智能還可以用于為實(shí)時(shí)天氣和長期環(huán)境模式的系統(tǒng)提供動(dòng)力,從而根據(jù)外部因素自動(dòng)調(diào)整能源消耗和冷卻系統(tǒng)。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-07-25
熱浪和人工智能挑戰(zhàn)會給數(shù)據(jù)中心帶來壓力嗎?
熱浪可能導(dǎo)致數(shù)據(jù)中心組件過熱和故障,導(dǎo)致運(yùn)營商關(guān)閉服務(wù)器以防止損壞,從而導(dǎo)致停機(jī)和潛在的中斷。

長按掃碼 閱讀全文