連接超2萬(wàn)顆B200 GPU!亞馬遜云科技聯(lián)手英偉達(dá)打造「云上AI算力」新王

隨著英偉達(dá)在GTC2024大會(huì)上推出全新的NVIDIA Blackwell GPU平臺(tái)和NVIDIA GB200 Grace Blackwell Superchip“超級(jí)GPU”,AI算力又突破新高峰。

現(xiàn)在,全球云和AI一哥再攜手——亞馬遜云科技與英偉達(dá)宣布,NVIDIA Blackwell GPU平臺(tái)即將登陸亞馬遜云科技,為客戶提供前所未有的云上AI計(jì)算能力。

據(jù)悉,亞馬遜云科技與英偉達(dá)和合作,除了提升服務(wù)英偉達(dá)AI算力需求,亞馬遜云科技將提供配置GB200 NVL72的英偉達(dá)Blackwell平臺(tái),還計(jì)劃提供配備基于新的英偉達(dá)B100 GPU的Amazn EC2實(shí)例,將超級(jí)云上AI算力提供了第三方客戶。

亞馬遜云科技首席執(zhí)行官Adam Selipsky表示:“我們雙方的深入合作可以追溯到13年前,那時(shí)我們共同推出了世界上第一個(gè)亞馬遜云科技上的GPU云實(shí)例,而今天我們?yōu)榭蛻籼峁┝俗顝V泛的英偉達(dá)GPU解決方案。英偉達(dá)下一代Grace Blackwell處理器是生成式AI和GPU計(jì)算的標(biāo)志性事件。當(dāng)結(jié)合亞馬遜云科技強(qiáng)大的Elastic Fabric Adapter網(wǎng)絡(luò)、Amazon EC2 UltraClusters的超規(guī)模集群功能,以及Amazon Nitro高級(jí)虛擬化系統(tǒng)及其安全功能時(shí),我們就能夠使客戶更快、更大規(guī)模且更安全地構(gòu)建和運(yùn)行具有數(shù)萬(wàn)億參數(shù)的大型語(yǔ)言模型?!?/p>

AI算力新王誕生:連接20736顆B200 GPU

英偉達(dá)Blackwell將加入亞馬遜云科技與英偉達(dá)合作的Project Ceiba項(xiàng)目。

Ceiba項(xiàng)目首次亮相是在去年11月底亞馬遜云科技2023 re:Invent全球大會(huì)上,是一臺(tái)專為英偉達(dá)自身的研究和開(kāi)發(fā)而設(shè)的超級(jí)計(jì)算機(jī),獨(dú)家托管在亞馬遜云科技上。

該項(xiàng)目專為英偉達(dá)的AI團(tuán)隊(duì)設(shè)計(jì),他們利用Ceiba推進(jìn)大語(yǔ)言模型、圖形(圖像/視頻/3D生成)與仿真、數(shù)字生物學(xué)、機(jī)器人技術(shù)、自動(dòng)駕駛汽車、NVIDIA Earth-2氣候預(yù)測(cè)等領(lǐng)域的AI技術(shù),以幫助英偉達(dá)推動(dòng)未來(lái)生成式AI的創(chuàng)新。

根據(jù)去年11月的報(bào)道,Ceiba是當(dāng)時(shí)英偉達(dá)與亞馬遜云科技合作建造的世界上最快的AI超級(jí)計(jì)算之一,當(dāng)時(shí)的計(jì)算性能為65exaflops。

現(xiàn)在,隨著英偉達(dá)Blackwell的加入,新的Ceiba項(xiàng)目擁有20,736顆GB200 GPU的超級(jí)計(jì)算機(jī),采用新型NVIDIA GB200 NVL72系統(tǒng)構(gòu)建,該系統(tǒng)利用第五代NVLink技術(shù)連接10,368顆NVIDIA Grace CPU。系統(tǒng)還通過(guò)亞馬遜云科技的第四代EFA網(wǎng)絡(luò)進(jìn)行擴(kuò)展,為每個(gè)Superchip提供高達(dá)800 Gbps的低延遲、高帶寬網(wǎng)絡(luò)吞吐量,能夠處理高達(dá)414 exaflops的AI計(jì)算量。

與去年11月底的re:Invent2023全球大會(huì)上披露的上一代Hopper架構(gòu)上構(gòu)建的Ceiba相比,搭載GB200 Superchips芯片的全新Ceiba計(jì)算性能從65exaflops提升至414 exaflops,提升了6倍多。

這也就意味著,從去年11月到今年3月,僅僅4個(gè)月時(shí)間,云上AI算力峰值就提升6倍!

合作賦能萬(wàn)億級(jí)別大模型研發(fā)

事實(shí)上,在大模型研發(fā)領(lǐng)域,萬(wàn)億級(jí)參數(shù)規(guī)模此前還算是一道門檻。

根據(jù)公開(kāi)的報(bào)道,去年年中發(fā)布的GPT4的模型參數(shù)是1.8萬(wàn)億,由8個(gè)220B模型組成;前不久發(fā)布的Claude3模型沒(méi)有公布參數(shù)規(guī)模,而馬斯克最新開(kāi)源的Grok大模型參數(shù)是3140億參數(shù)規(guī)模。

亞馬遜云科技和英偉達(dá)的這次合作,能夠在加速萬(wàn)億級(jí)別大語(yǔ)言模型的研發(fā),為生成式AI領(lǐng)域的前沿突破提供新的可能。

亞馬遜云科技方面也表示,很快客戶就能在亞馬遜云科技上使用基于NVIDIA GB200 Grace Blackwell Superchip和B100 Tensor Core GPUs的基礎(chǔ)設(shè)施,對(duì)于數(shù)萬(wàn)億參數(shù)規(guī)模的大語(yǔ)言模型而言,其推理工作負(fù)載將實(shí)現(xiàn)巨大飛躍。

NVIDIA GB200 Grace Blackwell Superchip是英偉達(dá)剛剛在2024年GTC大會(huì)推出的最新GPU產(chǎn)品。新的NVIDIA B200 GPU 由 2080 億個(gè)晶體管組成,而NVIDIA GB200 包含了兩個(gè) B200 GPU 和一個(gè) Grace CPU。

在具有1750 億個(gè)參數(shù)的 GPT-3 大語(yǔ)言模型基準(zhǔn)測(cè)試中,GB200 性能是 H100 的 7 倍,訓(xùn)練速度是 H100 的 4 倍,成本和能耗上GB200 比 H100 降低了 25 倍。

具體來(lái)看,亞馬遜云科技將提供配置GB200 NVL72的英偉達(dá)Blackwell平臺(tái),該平臺(tái)具備配備72顆Blackwell GPU和36顆Grace CPU,通過(guò)第五代NVIDIA NVLink互連。

NVIDIA GB200 NVL72 是一種多節(jié)點(diǎn)、液冷、機(jī)架級(jí)系統(tǒng),利用 Blackwell 為萬(wàn)億參數(shù)模型提供強(qiáng)力計(jì)算,在單個(gè)機(jī)架中可實(shí)現(xiàn) 720 petaflops 的 AI 訓(xùn)練性能和1.4 exaflops 的AI推理性能。

亞馬遜云科技則在云中為其提供強(qiáng)大的EFA網(wǎng)絡(luò)連接、高級(jí)虛擬化的Amazon Nitro系統(tǒng)和Amazon EC2 UltraClusters超大規(guī)模集群等技術(shù)支持,客戶能夠在亞馬遜云科技上擴(kuò)展至數(shù)千個(gè)GB200 Superchips。

亞馬遜云科技還計(jì)劃提供配備基于新的英偉達(dá)B100 GPU的Amazn EC2實(shí)例,并能夠在Amazon EC2 UltraClusters中進(jìn)行大規(guī)模部署。此前,亞馬遜云科技已經(jīng)推出了基于英偉達(dá)H100芯片的Amazon EC2 P5實(shí)例,客戶能夠在云上將其P5實(shí)例擴(kuò)展到超過(guò)2萬(wàn)個(gè)英偉達(dá)H100 GPU。

GB200芯片同時(shí)也在亞馬遜云科技和英偉達(dá)共同開(kāi)發(fā)的AI平臺(tái)NVIDIA DGX Cloud上可用,這是一個(gè)在亞馬遜云科技上雙方共同開(kāi)發(fā)的AI平臺(tái),為企業(yè)開(kāi)發(fā)者提供了構(gòu)建和部署先進(jìn)生成式AI模型所需的專用基礎(chǔ)設(shè)施和軟件。

共同推進(jìn)生成式AI在醫(yī)療健康與生命科學(xué)領(lǐng)域的應(yīng)用

亞馬遜云科技與英偉達(dá)在利用計(jì)算機(jī)輔助的藥物發(fā)現(xiàn)領(lǐng)域進(jìn)行合作拓展,推出了新的NVIDIA BioNeMo基礎(chǔ)模型,用于生成化學(xué)、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),以及理解藥物分子與目標(biāo)的相互作用。

這些新模型將很快在Amazon HealthOmics上提供,這是一個(gè)專為幫助醫(yī)療保健和生命科學(xué)組織存儲(chǔ)、查詢和分析基因組、轉(zhuǎn)錄組及其他組學(xué)數(shù)據(jù)而設(shè)計(jì)的專用服務(wù)。

Amazon HealthOmics和英偉達(dá)醫(yī)療保健團(tuán)隊(duì)還合作推出生成式AI微服務(wù),以推進(jìn)藥物發(fā)現(xiàn)、醫(yī)療技術(shù)和數(shù)字健康領(lǐng)域的發(fā)展,該服務(wù)提供一個(gè)新的GPU加速的云端服務(wù)目錄,涵蓋生物學(xué)、化學(xué)、成像和醫(yī)療保健數(shù)據(jù),以便醫(yī)療企業(yè)能夠在亞馬遜云科技上利用生成式AI的最新成果。(果青)

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2024-03-20
連接超2萬(wàn)顆B200 GPU!亞馬遜云科技聯(lián)手英偉達(dá)打造「云上AI算力」新王
隨著英偉達(dá)在GTC2024大會(huì)上推出全新的NVIDIA Blackwell GPU平臺(tái)和NVIDIA GB200 Grace Blackwell Superchip“超級(jí)GPU”,AI算力又突破新高峰?,F(xiàn)在,全球云和AI一

長(zhǎng)按掃碼 閱讀全文