超算,是計(jì)算產(chǎn)業(yè)的明珠,是人類探索未知的航船。超算的發(fā)展與變化,不僅代表著各個(gè)國(guó)家與地區(qū)間的科技競(jìng)爭(zhēng)力,更將作為趨勢(shì)風(fēng)向標(biāo),影響整個(gè)數(shù)字化體系的走向。
在目前階段,超算與AI計(jì)算的融合是大勢(shì)所趨。為了將AI模型與AI計(jì)算融入超算體系,一輪新的超算變革正在醞釀發(fā)生。與此同時(shí),一個(gè)關(guān)鍵問題也顯露了出來:我們是否需要配合AI大模型風(fēng)潮,打造全新且獨(dú)立的存儲(chǔ)體系?
在超算領(lǐng)域擁有廣泛聲譽(yù)的橡樹嶺國(guó)家實(shí)驗(yàn)室(Oak Ridge National Laboratory),已經(jīng)就這個(gè)問題給出了明確的答案:需要。
日前,我們?cè)谙饦鋷X實(shí)驗(yàn)室發(fā)布的面向2027年構(gòu)建下一代數(shù)據(jù)中心相關(guān)計(jì)劃中已經(jīng)看到,其明確提出了應(yīng)對(duì)十億到百億級(jí)大模型的引入,除了需要面向傳統(tǒng)HPC場(chǎng)景的PFS(Parallel file system 并行文件系統(tǒng)),還需要單獨(dú)設(shè)立AOS(AI-optimized storage AI 優(yōu)化存儲(chǔ))存儲(chǔ)系統(tǒng),并給出了相關(guān)的詳細(xì)品類定義與規(guī)格約束。
這個(gè)信息為何重要?其又將如何影響計(jì)算與存儲(chǔ)產(chǎn)業(yè)的持續(xù)發(fā)展?
讓我們共同來解讀一下,這個(gè)智能時(shí)代的存力信標(biāo)。
科學(xué)之巔的超算答案
不久之前,諾蘭導(dǎo)演的電影《奧本海默》在全球熱映,其中對(duì)曼哈頓工程的描繪讓人印象深刻。
事實(shí)上,曼哈頓工程的影響遠(yuǎn)不止于影片介紹的范圍。成立于1934年,隸屬于美國(guó)能源部的橡樹嶺國(guó)家實(shí)驗(yàn)室,原本就屬于曼哈頓工程的一部分。作為美國(guó)乃至全球最具代表性的國(guó)家實(shí)驗(yàn)室,其存在目的是攻克當(dāng)下最嚴(yán)峻的科學(xué)難題,開發(fā)具有跨時(shí)代意義的技術(shù)。
從上世紀(jì)40年代開發(fā)核反應(yīng)堆,到率先在完成中子散射開展材料的相關(guān)研究,再到為半導(dǎo)體產(chǎn)業(yè)提供了一系列信息與相關(guān)技術(shù)。橡樹嶺國(guó)家實(shí)驗(yàn)室可謂在每個(gè)階段都深度參與了信息時(shí)代的重大科學(xué)發(fā)現(xiàn),被譽(yù)為人類科學(xué)之巔。
時(shí)間來到今天,橡樹嶺國(guó)家實(shí)驗(yàn)室最具盛名的能力就是超算。在的2022年全球超算Top500名單中,橡樹嶺國(guó)家實(shí)驗(yàn)室的Frontier超級(jí)計(jì)算機(jī)系統(tǒng)奪得第一。其憑借1.102 Exaflop/s的HPL分?jǐn)?shù),成為人類有史以來第一臺(tái)“E級(jí)超算”計(jì)算機(jī)。也就是說,F(xiàn)rontier實(shí)現(xiàn)了斷代式的驚人算力,其超算性能大于排在它身后的468個(gè)超算體系之和。同時(shí),F(xiàn)rontier還是全球AI計(jì)算能力最強(qiáng)的計(jì)算體系之一,其AI計(jì)算能力已經(jīng)投身到了智能交通、智能醫(yī)療等領(lǐng)域的探索中。
由此可見,橡樹嶺國(guó)家實(shí)驗(yàn)室在超算領(lǐng)域擁有極強(qiáng)的先進(jìn)性,堪稱廣義超算領(lǐng)域的絕對(duì)權(quán)威。而在打造Frontier為代表的超算體系過程中,實(shí)驗(yàn)室也正以更加深邃的目光,望向AI計(jì)算與存儲(chǔ)的前沿探索之路。
他們給出的AI存力答案,顯然可以被更多超算體系,乃至數(shù)字化建設(shè)整體所參考。
對(duì)AI存力底座的明確定義
長(zhǎng)久以來,我們都知道AI專項(xiàng)算力的重要性。那么是否需要在存儲(chǔ)領(lǐng)域構(gòu)建AI專項(xiàng)存力呢?這一直是個(gè)業(yè)界激烈爭(zhēng)論的問題。而橡樹嶺國(guó)家實(shí)驗(yàn)室的答案,或許可以起到一錘定音的效果。在其發(fā)布的面向2027構(gòu)建下一代數(shù)據(jù)中心方案中,明確提出了面對(duì)大模型的引入,除了需要面向傳統(tǒng)超算場(chǎng)景的存儲(chǔ)體系之外,要單獨(dú)設(shè)立AOS(AI-optimized storage)品類。這也就是說,要建設(shè)傳統(tǒng)超算業(yè)務(wù)和面向AI業(yè)務(wù)負(fù)載的兩套I/O存儲(chǔ)系統(tǒng)——PFS和AOS,即構(gòu)建更適應(yīng)、更匹配AI負(fù)載的專項(xiàng)存儲(chǔ)。
這是因?yàn)橄饦鋷X國(guó)家實(shí)驗(yàn)室已經(jīng)意識(shí)到,未來超算將面臨著越來越多的AI處理任務(wù)。這不僅僅需要算力系統(tǒng)的提升,更需要單獨(dú)針對(duì)存儲(chǔ)系統(tǒng)進(jìn)行升級(jí)。因此對(duì)AI工作負(fù)載定制全新的存儲(chǔ)子系統(tǒng)至關(guān)重要。
兩套I/O存儲(chǔ)系統(tǒng)相比較的話,很容易找到區(qū)別。
傳統(tǒng)的PFS,更多是針對(duì)單一POSIX文件命名空間,整體業(yè)務(wù)的I/O較大,并且更多針對(duì)大文件進(jìn)行運(yùn)算處理,更強(qiáng)調(diào)集群聚合帶寬,對(duì)小文件的創(chuàng)建或讀取性能要求并不高。
而相較于PFS,AI應(yīng)用折射到AOS負(fù)載上的文件更加復(fù)雜,大小不一,并且數(shù)據(jù)密集型分析占據(jù)了更大比重,在全流程中會(huì)產(chǎn)生大量的數(shù)據(jù)或元數(shù)據(jù)隨機(jī)讀寫情況。這就需要存儲(chǔ)系統(tǒng)既具備高達(dá)千萬級(jí)的IOPS與OPS、又擁有十TB/s級(jí)別的超高帶寬來進(jìn)行高速順序讀寫。
簡(jiǎn)而言之,新的AI負(fù)載會(huì)帶來巨大的存儲(chǔ)性能需求,這是傳統(tǒng)PFS系統(tǒng)所謂無法負(fù)擔(dān)的。只有存儲(chǔ)性能極大升級(jí),才能讓AI算力利用率提升,整個(gè)模型的訓(xùn)練效率升級(jí)。
其次,極為重要的一點(diǎn)在于AI場(chǎng)景下計(jì)算節(jié)點(diǎn)故障率高,平均要達(dá)到天級(jí)甚至小時(shí)級(jí)就出現(xiàn)故障,因此需要頻繁的斷點(diǎn)續(xù)訓(xùn),并且還有可能需要很多階段性的模型數(shù)據(jù)與窗體數(shù)據(jù)定期保存。因此與傳統(tǒng)的超算任務(wù)相比,AI任務(wù)需要存儲(chǔ)具有更大的容量以及更高的效率。
接下來,我們還要看到共享存儲(chǔ)的必要性。橡樹嶺國(guó)家實(shí)驗(yàn)室要求計(jì)算任務(wù)在任何計(jì)算節(jié)點(diǎn)都可以隨機(jī)訪問任何一個(gè)文件,從而確保AI任務(wù)在任何節(jié)點(diǎn)訪問時(shí)性能具有強(qiáng)一致性。
除此之外,AOS還具備在底層文件系統(tǒng)與AOS之間的高效并行數(shù)據(jù)傳輸能力,從而確保文件的跨層調(diào)度能力。
為了保護(hù)珍貴的AI數(shù)據(jù)資產(chǎn),AOS對(duì)存儲(chǔ)可靠性的要求也提升了很多。由于各種AI訓(xùn)練大量采用分布式,需要在單點(diǎn)故障后依舊保持?jǐn)?shù)據(jù)高可用、任務(wù)不中斷。這需要滿足跨節(jié)點(diǎn)的EC(Erasure Coding)能力,不像一些傳統(tǒng)并行文件系統(tǒng)僅可做到節(jié)點(diǎn)內(nèi)EC,當(dāng)節(jié)點(diǎn)宕機(jī)后就會(huì)出現(xiàn)數(shù)據(jù)丟失、數(shù)據(jù)完整性受損,并且對(duì)于故障后的數(shù)據(jù)重構(gòu)的性能速度,也規(guī)定了相關(guān)時(shí)長(zhǎng)。
最后,AOS還需要具備本地?cái)?shù)據(jù)的清洗與處理的能力,包含敏感信息去除、隱私信息過濾,甚至轉(zhuǎn)碼、去重等工作,從而簡(jiǎn)化數(shù)據(jù)預(yù)訓(xùn)練工作,提升AI任務(wù)的整體效率。
總結(jié)來說,橡樹嶺國(guó)家實(shí)驗(yàn)室已經(jīng)明確提出,AI大模型浪潮不僅需要專項(xiàng)算力,還需要專項(xiàng)存力。傳統(tǒng)的并行文件系統(tǒng)已經(jīng)無法滿足AI任務(wù)的需求,AI存儲(chǔ)的門檻正在變得更高,定義正在更加清晰明確。
由橡樹嶺國(guó)家實(shí)驗(yàn)室的超算探索出發(fā),AI存力的概念將影響到整個(gè)產(chǎn)業(yè)。
存儲(chǔ)發(fā)展的時(shí)代信標(biāo)
橡樹嶺國(guó)家實(shí)驗(yàn)室的發(fā)現(xiàn),可以說是一個(gè)時(shí)代信標(biāo),它將輻射到更廣泛的區(qū)域,給存儲(chǔ)產(chǎn)業(yè)的升級(jí)發(fā)展提出明確信號(hào)。
首先,業(yè)界可以由此凝結(jié)成一個(gè)共識(shí):AI需要專業(yè)算力,也需要專業(yè)存儲(chǔ)。AI存力概念將成為大模型時(shí)代主導(dǎo)存儲(chǔ)產(chǎn)業(yè)的骨干。
其次,我們可以看到超算領(lǐng)域?qū)⑹紫鹊玫絾⑹尽T谌蚋鱾€(gè)國(guó)家與地區(qū),超算都是國(guó)之利器,是科技競(jìng)賽的關(guān)鍵節(jié)點(diǎn)。而在超算與AI水乳交融的發(fā)展趨勢(shì)下,超算場(chǎng)景必須積極引入AI存力升級(jí),設(shè)置專業(yè)的外置存儲(chǔ),并且積極踐行以存強(qiáng)算,通過存儲(chǔ)升級(jí)來提升AI算力利用率。比如將AI大模型密集型計(jì)算之前,為了降低計(jì)算通信開銷比,可以將一部分?jǐn)?shù)據(jù)預(yù)處理下沉到存儲(chǔ)層完成,以此節(jié)省AI算力。最終可以通過存儲(chǔ)來提升超算體系的先進(jìn)性與自主性。
接下來,我們還可以看到這一趨勢(shì)將釋放到超算場(chǎng)景之外。在AI大模型走入千行百業(yè)的進(jìn)程中,各個(gè)領(lǐng)域都需要考慮存儲(chǔ)是否能夠適配AI模型與算力系統(tǒng)。適時(shí)進(jìn)行存儲(chǔ)升級(jí),實(shí)現(xiàn)存、算、AI的相輔相成,是智能化發(fā)展過程中的關(guān)鍵。
這些啟示,對(duì)于中國(guó)存儲(chǔ)產(chǎn)業(yè)的發(fā)展,尤有至關(guān)重要的意義。
存力勃發(fā),時(shí)代之選
在大模型發(fā)展中,存力是前提條件,也是產(chǎn)業(yè)支柱。尤其對(duì)應(yīng)到中國(guó)在實(shí)現(xiàn)科技自立自強(qiáng),推進(jìn)數(shù)實(shí)融合的大勢(shì)當(dāng)中。AI浪潮恰好是一個(gè)絕佳契機(jī),可以以最低成本,最高價(jià)值實(shí)現(xiàn)存儲(chǔ)產(chǎn)業(yè)的全面升級(jí)更新。
從目前全球主流趨勢(shì)來看,存儲(chǔ)升級(jí)對(duì)AI發(fā)展的助力是多方位、全面性的。是一個(gè)高吞吐、可共享、大容量、高可靠的存儲(chǔ)系統(tǒng),是產(chǎn)業(yè)智能化、經(jīng)濟(jì)智能化發(fā)展的關(guān)鍵。
在這個(gè)趨勢(shì)下,中國(guó)存力建設(shè)有以下幾個(gè)機(jī)遇需要緊緊把握:
1.擴(kuò)大存力規(guī)模,提升先進(jìn)存儲(chǔ)占比。
隨著AI大模型的崛起,以及AI深入到超算、大型政企數(shù)字化等場(chǎng)景,會(huì)有更多企業(yè)傾向于進(jìn)行本地化的AI訓(xùn)練與相關(guān)數(shù)據(jù)存儲(chǔ)。這個(gè)過程中,既需要擴(kuò)大存力整體規(guī)模,也需要提升以全閃存為代表的先進(jìn)存儲(chǔ)占比,以此來滿足智能化發(fā)展所需。
2.提升存儲(chǔ)技術(shù)創(chuàng)新,應(yīng)對(duì)AI時(shí)代的數(shù)據(jù)復(fù)雜性。
AI帶來了數(shù)據(jù)復(fù)雜性與應(yīng)用流程多樣性等一系列挑戰(zhàn),因此存儲(chǔ)的先進(jìn)性必須得到進(jìn)一步提升。比如說,在建設(shè)數(shù)據(jù)湖的過程中,多數(shù)據(jù)中心、多業(yè)務(wù)系統(tǒng)的數(shù)據(jù)歸集緩慢且復(fù)雜,跨業(yè)務(wù)的數(shù)據(jù)倒換的低效且繁瑣,都給存儲(chǔ)帶來了考驗(yàn)。因此,存儲(chǔ)需要提升協(xié)議互通能力、數(shù)據(jù)跨域調(diào)度、跨系統(tǒng)可視化數(shù)據(jù)管理等能力。以存儲(chǔ)技術(shù)創(chuàng)新,應(yīng)對(duì)AI時(shí)代的一系列技術(shù)挑戰(zhàn)。
3.提升存儲(chǔ)安全與運(yùn)維能力,確保AI發(fā)展無憂。
AI大模型不僅帶來了數(shù)據(jù)的復(fù)雜性,還帶來了一系列全新的安全隱患,以及愈加復(fù)雜的存儲(chǔ)運(yùn)維管理壓力。因此,存儲(chǔ)需要積極踐行主動(dòng)安全、自動(dòng)運(yùn)維等能力,從而確保AI體系的健康發(fā)展。
在這些努力的堅(jiān)持不懈下,AI存力將得到極大發(fā)展。就像我們知道AI算力即生產(chǎn)力,AI存力也將在未來成為生產(chǎn)力釋放的關(guān)鍵,成為產(chǎn)業(yè)智能化的引擎。
總結(jié)起來,一項(xiàng)產(chǎn)業(yè)升級(jí)與技術(shù)發(fā)展,首先需要找到信標(biāo),讀懂趨勢(shì)。如果說此前我們對(duì)于AI專項(xiàng)存儲(chǔ)的定義與發(fā)展還有爭(zhēng)議,那么橡樹嶺國(guó)家實(shí)驗(yàn)室對(duì)未來數(shù)據(jù)中心的定義,就是為這一爭(zhēng)論畫下了句號(hào)。
依靠其在超算領(lǐng)域,乃至全球科研界的地位,首先我們可以看到AI存儲(chǔ)本身的絕對(duì)必要性。其次可以對(duì)AI存儲(chǔ)的定義、門檻與發(fā)展規(guī)范提出詳細(xì)的要求。由此一來,我們可以在越來越多的證據(jù)下,清楚地看到AI大模型時(shí)代存儲(chǔ)升級(jí)的必然。
AI存力的價(jià)值,在頂級(jí)實(shí)驗(yàn)室的論證與探索中可以證明;在存儲(chǔ)產(chǎn)業(yè)多年來走向自主化、先進(jìn)化的發(fā)展腳步中可以證明;在每一次AI訓(xùn)練之后,模型開發(fā)者對(duì)存儲(chǔ)價(jià)值的慨嘆中可以證明。
抓住AI機(jī)遇,促使存力勃發(fā),是時(shí)代之選,更是時(shí)代之幸。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- AI手機(jī)時(shí)代,OPPO如何讓用戶不再“用隱私換便捷”
- 中國(guó)科技?xì)偭耍『P攀讋?chuàng)RGB-Mini LED電視斬獲CES多項(xiàng)大獎(jiǎng)
- 人形機(jī)器人戰(zhàn)場(chǎng)烽煙四起!宇樹化身“價(jià)格屠夫”
- 支付寶,大夢(mèng)難成
- 蘋果急需救場(chǎng),廉價(jià)版iPhone16確定了,但會(huì)漲價(jià)
- 優(yōu)酷《甄嬛愛不停》為“甄粉”圓夢(mèng),孫儷、蔣欣等《甄嬛傳》原班人馬線下重聚
- 美國(guó)是真慌了,芯片設(shè)備采購(gòu)居于全球第一,大舉擴(kuò)張芯片產(chǎn)能
- 手機(jī)不好賣了,國(guó)產(chǎn)手機(jī)降價(jià),蘋果更狠,所有產(chǎn)品都降價(jià)
- 聯(lián)想發(fā)起猛攻,PC與智能手機(jī)份額均創(chuàng)新高
- TCL華星供屏聯(lián)想YOGA Air X AI元啟版柔性O(shè)LED無界超感屏
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。