極客網·人工智能2月13日 ChatGPT紅遍網絡,其背后的AI模型訓練也廣受關注。IBM研究部門日前宣布,其開發(fā)的云原生超級計算機Vela可以快速部署并用于訓練基礎AI模型。自2022年5月以來,該公司數(shù)十名研究人員一直在使用這款超級計算機訓練具有數(shù)百億參數(shù)的AI模型。
基礎模型是基于大量未標記數(shù)據(jù)訓練的AI模型,它們的通用性意味著只需微調就可以用于一系列不同的任務。它們的規(guī)模非常龐大,需要大量且成本高昂的計算能力。因此正如專家表示,計算能力將成為開發(fā)下一代大規(guī)?;A模型的最大瓶頸,訓練它們需要花費大量算力和時間。
訓練可以運行數(shù)百億個或數(shù)千億個參數(shù)的模型,需要采用高性能的計算硬件,包括網絡、并行文件系統(tǒng)和裸機節(jié)點等。這些硬件很難部署,運行成本也很高。微軟于2020年5月為OpenAI建造了AI超級計算機,并托管在Azure云平臺中。但IBM表示,它們是由硬件驅動的,這增加了成本,并限制了靈活性。
云端AI超級計算機
因此,IBM創(chuàng)建了名為Vela的“專門專注于大規(guī)模AI”的系統(tǒng)。
Vela可以根據(jù)需要部署到IBM的任何一個云數(shù)據(jù)中心中,它本身就是一個“虛擬云”。與構建物理的超級計算機相比,雖然這種方法在計算能力方面有所下降,但創(chuàng)造了一個更靈活的解決方案。云計算解決方案通過API接口為工程師提供資源,更方便地訪問廣泛的IBM云生態(tài)系統(tǒng)以進行更深入的集成,并能夠根據(jù)需要擴展性能。
IBM工程師解釋說,Vela能夠訪問IBM云對象存儲上的數(shù)據(jù)集,而不是構建自定義存儲后端。以往這些基礎設施必須單獨構建到超級計算機中。
任何AI超級計算機的關鍵組成部分都是大量的GPU以及連接它們的節(jié)點。Vela其實是將每個節(jié)點配置為虛擬機(而不是裸機),這是最常見的方法,也被廣泛認為是AI訓練最理想的方法。
Vela是如何構建的?
云端虛擬計算機的弊病之一是性能不能保證。為了解決性能下降問題,并在虛擬機內部提供裸機性能,IBM工程師找到了一種釋放全部節(jié)點性能(包括GPU、CPU、網絡和存儲),并將負載損耗降低到5%以下的方法。
這涉及到為虛擬化配置裸機主機,支持虛擬機擴展、大型頁面和單根IO虛擬化,以及真實地表示虛擬機內的所有設備和連接;還包括網卡與CPU和GPU匹配,以及它們彼此之間如何橋接起來。完成這些工作后,他們發(fā)現(xiàn)虛擬機節(jié)點的性能“接近裸機”。
此外,他們還致力于設計具有大型GPU內存和大量本地存儲的AI節(jié)點,用于緩存AI訓練數(shù)據(jù)、模型和成品。在使用PyTorch的測試中,他們發(fā)現(xiàn)通過優(yōu)化工作負載通信模式,與超級計算中使用的類似Infiniband的更快的網絡相比,他們還能夠彌補以太網網絡相對較慢的瓶頸。
配置方面,每個Vela都采用了8個80GB A100 GPU、兩個第二代Intel Xeon可擴展處理器、1.5TB內存和四個3.2TB NVMe硬盤驅動器,并能夠以任何規(guī)模部署到IBM在全球的任何一個云數(shù)據(jù)中心。
IBM的工程師表示:“擁有合適的工具和基礎設施是提高研發(fā)效率的關鍵因素。許多團隊選擇遵循為AI構建傳統(tǒng)超級計算機的可靠路徑……我們一直在研究一種更好的解決方案,以提供高性能計算和高端用戶生產力的雙重好處?!?nbsp;
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )