上兩周剛剛召開的NVIDIA GTC 2024大會(huì),已經(jīng)成為IT業(yè)界影響力最大的會(huì)議。與會(huì)人員超過(guò)17000人,規(guī)模超過(guò)當(dāng)年喬布斯的蘋果發(fā)布會(huì)。在會(huì)上,NVIDIA發(fā)布了新的芯片、軟件和方案,展示了在AI時(shí)代的絕對(duì)霸主地位和龐大的野心。
實(shí)際上,黃(仁勛)教主已經(jīng)掩飾不住NVIDIA的野心了:在GPU市場(chǎng)占有率超過(guò)80%的NVIDIA,還發(fā)布了數(shù)據(jù)中心整體解決方案,力圖主導(dǎo)這個(gè)超過(guò)1萬(wàn)億美元的龐大市場(chǎng)。
不過(guò),即使強(qiáng)如NVIDIA,在構(gòu)建AI系統(tǒng)的時(shí)候,仍然選擇了標(biāo)配外置專業(yè)存儲(chǔ)。雖然HBM(高帶寬內(nèi)存)取代了DDR內(nèi)存,但是外置專業(yè)存儲(chǔ)一直獨(dú)立存在。就像當(dāng)年雄霸天下的Oracle數(shù)據(jù)庫(kù),同樣也是標(biāo)配外置專業(yè)存儲(chǔ)(EMC、華為等)。
注:2024 NVIDIA GTC大會(huì)期間,NVIDIA開設(shè)存儲(chǔ)專場(chǎng)panel座談,邀請(qǐng)業(yè)界頭部存儲(chǔ)廠商及大客戶,共同研討如何通過(guò)存儲(chǔ)來(lái)解決AI時(shí)代面臨的一系列挑戰(zhàn)。
為什么存儲(chǔ)對(duì)AI如此重要?NVIDIA為什么要廣泛的與主流存儲(chǔ)廠商合作,而不是自己做存儲(chǔ)?我們將逐層展開,撥云見日,探尋背后的真相。
一、NVIDIA不僅僅想賣芯片,其野心是賣整個(gè)數(shù)據(jù)中心方案,以GPU+CUDA為核心構(gòu)建了AI數(shù)據(jù)中心全棧架構(gòu),其中標(biāo)配外置專業(yè)存儲(chǔ)。
我們都知道,數(shù)據(jù)中心IT堆棧中,計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)是三大核心組件。
在計(jì)算側(cè),NVIDIA通過(guò)自研GPU和DPU來(lái)加速取代CPU算力;網(wǎng)絡(luò)側(cè),NVIDIA通過(guò)收購(gòu)Mellanox,加速推廣IB網(wǎng)絡(luò);存儲(chǔ)側(cè),廣泛與主流存儲(chǔ)廠商(DELL EMC、NetApp、Pure Storage、DDN、IBM、Vast Data、WEKA……)合作,從OVX(數(shù)據(jù)中心推理)、DGX basepod(企業(yè)AI訓(xùn)練集群)到DGX superpod(大規(guī)模訓(xùn)練集群)再到DGX supercomputer(超大規(guī)模訓(xùn)練集群),不變的是里面都標(biāo)配外置專業(yè)存儲(chǔ)。
二、為什么在NVIDIA的方案架構(gòu)中,外置專業(yè)存儲(chǔ)是“必配品”?
1. AI和傳統(tǒng)應(yīng)用不同,傳統(tǒng)應(yīng)用主要是產(chǎn)生數(shù)據(jù)并存下來(lái);而AI自身新產(chǎn)生的數(shù)據(jù)很少,主要是利用現(xiàn)有的存量數(shù)據(jù),即“喂數(shù)據(jù)進(jìn)去,吐出來(lái)的是訓(xùn)練好的大模型和Token(標(biāo)記)”。
2.缺數(shù)據(jù),無(wú)AI。數(shù)據(jù)的質(zhì)量決定了AI的高度。AI需要大量的高質(zhì)量數(shù)據(jù)從哪里來(lái)?最普遍的做法是首先獲取大量的互聯(lián)網(wǎng)公開數(shù)據(jù)作為基礎(chǔ)性輸入,然后最核心的還是結(jié)合企業(yè)內(nèi)部的數(shù)據(jù),包括核心生產(chǎn)數(shù)據(jù)和歷史存量數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練。
3.當(dāng)今企業(yè)80%以上的數(shù)據(jù)仍存放在數(shù)據(jù)中心,其余少量在邊緣和云上。在數(shù)據(jù)中心,專業(yè)的外置存儲(chǔ)是企業(yè)數(shù)據(jù)的核心載體。因此,只有將NVIDIA AI系統(tǒng)與外置存儲(chǔ)相連,才能快速形成數(shù)據(jù)的閉環(huán),支撐AI大模型的訓(xùn)練。而在大模型完成訓(xùn)練,面向行業(yè)應(yīng)用落地的時(shí)候(如RAG推理),AI應(yīng)用必須與生產(chǎn)存儲(chǔ)相連接,直接調(diào)用企業(yè)生產(chǎn)數(shù)據(jù)。因此,無(wú)論在大模型的訓(xùn)練階段,還是行業(yè)應(yīng)用推理階段,AI系統(tǒng)都必須配套外置專業(yè)存儲(chǔ),才能讓企業(yè)數(shù)據(jù),特別是生產(chǎn)數(shù)據(jù)直接變成AI的“燃料”。
4.隨著AI大模型的加速迭代,參數(shù)規(guī)模和數(shù)據(jù)量成萬(wàn)倍的增長(zhǎng),如何快速做好EB級(jí)數(shù)據(jù)的加載和準(zhǔn)備,把數(shù)據(jù)快速喂給大模型成為提升訓(xùn)練效率的瓶頸之一;同時(shí),在訓(xùn)練過(guò)程中需要不斷保存checkpoint,以便因故障中斷/訓(xùn)練效果不達(dá)預(yù)期時(shí)重新訓(xùn)練,對(duì)checkpoint的保存和讀取速度也極大了影響了訓(xùn)練效率。而外置存儲(chǔ)從誕生之初就是為了解決數(shù)據(jù)的保存和讀取問(wèn)題,外置存儲(chǔ)的一小步性能優(yōu)化,對(duì)AI系統(tǒng)的訓(xùn)練效率有巨大的提升,這也是NVIDIA系統(tǒng)選擇外置存儲(chǔ)的一大原因。
5.而在行業(yè)應(yīng)用推理階段,由于場(chǎng)景眾多、AI新應(yīng)用層出不窮,如何為解決數(shù)據(jù)pipeline成為關(guān)鍵問(wèn)題。主流存儲(chǔ)廠商均提供跨邊緣、數(shù)據(jù)中心和云的數(shù)據(jù)流動(dòng)、統(tǒng)一管理和數(shù)據(jù)加速功能,簡(jiǎn)化了AI應(yīng)用對(duì)數(shù)據(jù)的訪問(wèn)和處理過(guò)程,讓大模型應(yīng)用部署和運(yùn)行更加簡(jiǎn)單高效。
三、既然存儲(chǔ)這么重要,為什么NVIDIA自己不做存儲(chǔ),或者像收購(gòu)Mallenox一樣直接收購(gòu)一家存儲(chǔ)廠商,而是堅(jiān)定的與主流存儲(chǔ)廠商開展合作?
1.IT產(chǎn)業(yè),全棧通吃不是主流,沒(méi)有一家廠商可以搞定全部的客戶需求,封閉架構(gòu)無(wú)法持久,分層合作才是關(guān)鍵。NVIDIA瞄準(zhǔn)的是整個(gè)AI數(shù)據(jù)中心市場(chǎng),但是它本質(zhì)上是一家計(jì)算平臺(tái)公司,通過(guò)定義好系統(tǒng)架構(gòu),開放合作,能夠滿足不同階段的多樣化客戶需求,與伙伴一起共同建設(shè)面向未來(lái)的數(shù)據(jù)中心。
2.NVIDIA如果自己重新做一套存儲(chǔ)產(chǎn)品,本質(zhì)上也無(wú)法取代客戶當(dāng)前的生產(chǎn)存儲(chǔ),也無(wú)法有效利用客戶的生產(chǎn)數(shù)據(jù)。NVIDIA想要的是掌控算力平臺(tái),當(dāng)前聯(lián)合外置專業(yè)存儲(chǔ)廠商是上策。
3.以存儲(chǔ)為代表的傳統(tǒng)IT廠商,在企業(yè)和運(yùn)營(yíng)商客戶已耕耘二三十年,有大量的客戶基礎(chǔ)和數(shù)據(jù)存量,NVIDIA和存儲(chǔ)廠商合作,本質(zhì)上是把原來(lái)以CPU為中心的伙伴拉攏到自己身邊,通過(guò)聯(lián)合方案,讓存儲(chǔ)廠商帶著NVIDIA的軟硬件一起銷售,擴(kuò)大客戶和產(chǎn)品覆蓋面;同時(shí),存儲(chǔ)廠商具備成熟的企業(yè)級(jí)交付服務(wù)能力,這也是NVIDIA所不擅長(zhǎng)的??偠灾琋VIDIA和存儲(chǔ)的合作是互惠互利、合作共贏的。
四、對(duì)于中國(guó)區(qū)市場(chǎng)客戶的啟示
無(wú)論客戶采用什么算力平臺(tái)(NVIDIA/昇騰/…),存儲(chǔ)絕對(duì)不容忽視。NVIDIA的系統(tǒng)無(wú)論集群規(guī)模大小,均標(biāo)配外置專業(yè)存儲(chǔ)。對(duì)于中國(guó)的客戶而言,無(wú)論當(dāng)前的AI集群處于什么階段(規(guī)劃中/建設(shè)中),我們都強(qiáng)烈建議立即關(guān)注存儲(chǔ)的配套建設(shè)問(wèn)題,對(duì)存儲(chǔ)的“小”投入,將帶來(lái)AI系統(tǒng)效率的“大”提升。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 三星Galaxy S25系列在中國(guó)發(fā)布,帶來(lái)多維度升級(jí)
- 果然白嫖才是王道!DeepSeek的開源“妙招”,讓美國(guó)成了眾矢之的
- 多模賦能開啟Galaxy AI新時(shí)代 三星Galaxy S25系列中國(guó)發(fā)布
- 影目科技、雷鳥創(chuàng)新出狠招!AI眼鏡圈沸騰了!
- 節(jié)前眾巨頭入局“送禮”電商,為啥雷聲大雨點(diǎn)???
- 挑戰(zhàn)梁文鋒的李飛飛何許人也?百元成本真能蒸餾出頂級(jí)AI模型?
- 何必把DeepSeek推上神壇?
- 云廠商的DeepSeek大捷
- 昆侖萬(wàn)維旗下天工AI正式上線DeepSeek R1+聯(lián)網(wǎng)搜索
- 掃地機(jī)高增長(zhǎng)神話破滅!科沃斯、石頭科技艱難 “破冰”!
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。