數(shù)據(jù)管理創(chuàng)新在數(shù)據(jù)中心效率中的作用
如今,企業(yè)IT管理者的工作比以往任何時候都更具挑戰(zhàn)性。他們必須管理不斷增長的數(shù)據(jù),并使用更小的團隊利用不斷發(fā)展的技術(shù)。其任務是將IT從成本中心轉(zhuǎn)變?yōu)槟軌虍a(chǎn)生競爭優(yōu)勢的戰(zhàn)略投資。
隨著當今全球氣候危機迫在眉睫,通過提高數(shù)據(jù)中心效率、減少能源消耗和電子廢物來變得更加對環(huán)境負責,企業(yè)也面臨著更大的壓力。
如今的處境
據(jù)估計,全球8000多個數(shù)據(jù)中心每年運行所需的電力占全球總發(fā)電量的3%。盡管服務器和存儲技術(shù)在處理和管理大量數(shù)據(jù)方面已經(jīng)變得非常高效,但數(shù)據(jù)增長速度超過了這些進步,推動了對數(shù)據(jù)處理能力的額外能源需求。
如今,數(shù)據(jù)中心大約55%的能源用于為服務器和存儲等硬件系統(tǒng)供電,而超過40%的能源用于冷卻這些和其他硬件資源。隨著人工智能驅(qū)動的數(shù)據(jù)處理和深度學習變得更加普遍,對能源的需求預計將加速增長。
數(shù)據(jù)數(shù)字化和貨幣化的提高與生成式人工智能相結(jié)合,正在推動數(shù)據(jù)量和服務需求的新一輪爆炸式增長。這將顯著增加對計算、存儲和網(wǎng)絡資源的需求,并進一步加劇降低能耗的挑戰(zhàn)。
因此,IT管理人員必須優(yōu)先考慮數(shù)據(jù)管理效率——使用最少的能源快速、安全地處理、存儲和移動數(shù)據(jù),同時不影響可擴展性或性能。事實上,這是推動未開發(fā)的數(shù)據(jù)中心效率的關鍵。
將討論范圍從容量和密度擴展到性能
長期以來,數(shù)據(jù)中心管理者一直將占地面積視為提高效率和降低成本的關鍵因素??紤]到數(shù)據(jù)的爆炸性增長,提高容量利用率,無論是基于虛擬機的整合、高密度磁盤、重復數(shù)據(jù)刪除還是壓縮,將降低能耗,這是合乎邏輯的。
但是性能的作用呢?雖然IT組織可能已經(jīng)考慮到更快的CPU、內(nèi)存和磁盤在增加能耗方面的作用,但可能沒有考慮現(xiàn)代數(shù)據(jù)管理解決方案在加速計算以降低能耗方面所發(fā)揮的作用。
事實上,加速計算的最新發(fā)展包括特定領域的架構(gòu),其中包括用于并行處理的GPU、用于超高速網(wǎng)絡的數(shù)據(jù)處理單元(DPU)以及基于并行文件系統(tǒng)的存儲。對于人工智能工作負載,這些架構(gòu)比現(xiàn)有的企業(yè)基礎架構(gòu)要高效得多。以下是需要考慮的幾個因素:
效率性能不足會降低效率。數(shù)據(jù)等待時間長、不必要的數(shù)據(jù)移動和高延遲會消耗能源,并減慢工作流程?,F(xiàn)代數(shù)據(jù)管理系統(tǒng)利用并行處理和數(shù)據(jù)路徑,來加速計算并優(yōu)化應用性能。并行計算對存儲系統(tǒng)提出了一些獨特的要求,特別是以適當?shù)乃俣炔⑿邢騁PU提供大量數(shù)據(jù)的能力。這可以提高創(chuàng)建和運行人工智能模型的效率。
能源專為加速計算而設計的服務器和存儲架構(gòu)可提供更高的能效和線性橫向擴展性能,從而大大減少數(shù)據(jù)中心部署的系統(tǒng)數(shù)量。
GPU的能源效率是人工智能的42倍,而并行文件系統(tǒng)每瓦驅(qū)動的數(shù)據(jù)量可提高10倍,兩者相結(jié)合,只需傳統(tǒng)技術(shù)的一小部分功耗和機架空間即可提供出色的結(jié)果系統(tǒng)。
電子垃圾電子垃圾是增長最快的環(huán)境問題之一,占全球城市固體垃圾的5%以上。隨著世界日益電子化,這個數(shù)字肯定會增長。與此同時,全球回收率低迷至17%左右。隨著越來越多的電子設備的生產(chǎn),每個設備都有自己的碳足跡,以及空氣、土壤和地下水污染,這對氣候變化的影響可能是災難性的。
向軟件驅(qū)動、硬件加速架構(gòu)的轉(zhuǎn)變可以實現(xiàn)未來的技術(shù)增強,而無需硬件升級。這是延長技術(shù)壽命而不產(chǎn)生不必要浪費的重要一步。
完整的數(shù)據(jù)管理
我們正處于眾所周知的十字路口,數(shù)據(jù)中心效率既有惡化的機會,也有可能提高的機會。全球幾乎每個組織的數(shù)據(jù)都將繼續(xù)快速增長。
我們也正在進入一個人工智能的新時代,其依賴大型語言模型(LLM)來提高NLP準確性,如驅(qū)動ChatGPT等復雜工具。這些新的人工智能模型將包括訓練、分析和推理,使用多達數(shù)萬億個參數(shù),這給服務器和其他基礎設施帶來了更大的負擔。
組織如何才能保持領先地位?
專注于高效的數(shù)據(jù)管理和快速性能,包括IO吞吐量。能夠優(yōu)化GPU并行處理的存儲解決方案對于加速人工智能、數(shù)據(jù)分析、模擬和可視化的計算將變得更加重要。正確的存儲可以提高GPU性能和資源利用率,這將對數(shù)據(jù)中心的可持續(xù)性產(chǎn)生積極影響。更高的性能還可以實現(xiàn)每瓦特更多的操作,從而可以將能源效率提高3.5倍,并將AI數(shù)據(jù)中心TCO降低3倍以上。
利用智能監(jiān)控工具,例如,掃描數(shù)據(jù)中心的數(shù)據(jù)中心基礎設施管理(DCIM),不僅可以查明多余的用電量,還可以確定哪些地方的電力容量未得到充分利用。大多數(shù)數(shù)據(jù)中心資源嚴重過度配置,平均服務器利用率低得驚人,只有12%到18%??梢哉匣蛑匦虏渴鹩撵`服務器,以減少浪費的處理能力,并提高整體性能和效率。
最后,可能會擔心人工智能工作負載加速計算在數(shù)據(jù)中心產(chǎn)生的熱量。請注意,包括Equinix和Meta在內(nèi)的多家知名組織已開始在80華氏度或更高溫度下運行其數(shù)據(jù)中心,大約比行業(yè)平均水平高出10度。研究是否可以將數(shù)據(jù)中心溫度提高幾度,以大幅節(jié)省冷卻成本。同時,探索蒸發(fā)冷卻、儲熱器和潛在的外部空氣等技術(shù),在不損害環(huán)境的情況下冷卻數(shù)據(jù)中心。
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。