123,123

超算，是計算產(chǎn)業(yè)的明珠，是人類探索未知的航船。超算的發(fā)展與變化，不僅代表著各個國家與地區(qū)間的科技競爭力，更將作為趨勢風(fēng)向標，影響整個數(shù)字化體系的走向。

在目前階段，超算與AI計算的融合是大勢所趨。為了將AI模型與AI計算融入超算體系，一輪新的超算變革正在醞釀發(fā)生。與此同時，一個關(guān)鍵問題也顯露了出來：我們是否需要配合AI大模型風(fēng)潮，打造全新且獨立的存儲體系？

在超算領(lǐng)域擁有廣泛聲譽的橡樹嶺國家實驗室（Oak Ridge National Laboratory），已經(jīng)就這個問題給出了明確的答案：需要。

日前，我們在橡樹嶺實驗室發(fā)布的面向2027年構(gòu)建下一代數(shù)據(jù)中心相關(guān)計劃中已經(jīng)看到，其明確提出了應(yīng)對十億到百億級大模型的引入，除了需要面向傳統(tǒng)HPC場景的PFS（Parallel file system 并行文件系統(tǒng)），還需要單獨設(shè)立AOS（AI-optimized storage AI 優(yōu)化存儲）存儲系統(tǒng)，并給出了相關(guān)的詳細品類定義與規(guī)格約束。

這個信息為何重要？其又將如何影響計算與存儲產(chǎn)業(yè)的持續(xù)發(fā)展？

讓我們共同來解讀一下，這個智能時代的存力信標。

科學(xué)之巔的超算答案

不久之前，諾蘭導(dǎo)演的電影《奧本海默》在全球熱映，其中對曼哈頓工程的描繪讓人印象深刻。

事實上，曼哈頓工程的影響遠不止于影片介紹的范圍。成立于1934年，隸屬于美國能源部的橡樹嶺國家實驗室，原本就屬于曼哈頓工程的一部分。作為美國乃至全球最具代表性的國家實驗室，其存在目的是攻克當(dāng)下最嚴峻的科學(xué)難題，開發(fā)具有跨時代意義的技術(shù)。

從上世紀40年代開發(fā)核反應(yīng)堆，到率先在完成中子散射開展材料的相關(guān)研究，再到為半導(dǎo)體產(chǎn)業(yè)提供了一系列信息與相關(guān)技術(shù)。橡樹嶺國家實驗室可謂在每個階段都深度參與了信息時代的重大科學(xué)發(fā)現(xiàn)，被譽為人類科學(xué)之巔。

時間來到今天，橡樹嶺國家實驗室最具盛名的能力就是超算。在的2022年全球超算Top500名單中，橡樹嶺國家實驗室的Frontier超級計算機系統(tǒng)奪得第一。其憑借1.102 Exaflop/s的HPL分數(shù)，成為人類有史以來第一臺“E級超算”計算機。也就是說，F(xiàn)rontier實現(xiàn)了斷代式的驚人算力，其超算性能大于排在它身后的468個超算體系之和。同時，F(xiàn)rontier還是全球AI計算能力最強的計算體系之一，其AI計算能力已經(jīng)投身到了智能交通、智能醫(yī)療等領(lǐng)域的探索中。

由此可見，橡樹嶺國家實驗室在超算領(lǐng)域擁有極強的先進性，堪稱廣義超算領(lǐng)域的絕對權(quán)威。而在打造Frontier為代表的超算體系過程中，實驗室也正以更加深邃的目光，望向AI計算與存儲的前沿探索之路。

他們給出的AI存力答案，顯然可以被更多超算體系，乃至數(shù)字化建設(shè)整體所參考。

對AI存力底座的明確定義

長久以來，我們都知道AI專項算力的重要性。那么是否需要在存儲領(lǐng)域構(gòu)建AI專項存力呢？這一直是個業(yè)界激烈爭論的問題。而橡樹嶺國家實驗室的答案，或許可以起到一錘定音的效果。在其發(fā)布的面向2027構(gòu)建下一代數(shù)據(jù)中心方案中，明確提出了面對大模型的引入，除了需要面向傳統(tǒng)超算場景的存儲體系之外，要單獨設(shè)立AOS（AI-optimized storage）品類。這也就是說，要建設(shè)傳統(tǒng)超算業(yè)務(wù)和面向AI業(yè)務(wù)負載的兩套I/O存儲系統(tǒng)——PFS和AOS，即構(gòu)建更適應(yīng)、更匹配AI負載的專項存儲。

這是因為橡樹嶺國家實驗室已經(jīng)意識到，未來超算將面臨著越來越多的AI處理任務(wù)。這不僅僅需要算力系統(tǒng)的提升，更需要單獨針對存儲系統(tǒng)進行升級。因此對AI工作負載定制全新的存儲子系統(tǒng)至關(guān)重要。

兩套I/O存儲系統(tǒng)相比較的話，很容易找到區(qū)別。

傳統(tǒng)的PFS，更多是針對單一POSIX文件命名空間，整體業(yè)務(wù)的I/O較大，并且更多針對大文件進行運算處理，更強調(diào)集群聚合帶寬，對小文件的創(chuàng)建或讀取性能要求并不高。

而相較于PFS，AI應(yīng)用折射到AOS負載上的文件更加復(fù)雜，大小不一，并且數(shù)據(jù)密集型分析占據(jù)了更大比重，在全流程中會產(chǎn)生大量的數(shù)據(jù)或元數(shù)據(jù)隨機讀寫情況。這就需要存儲系統(tǒng)既具備高達千萬級的IOPS與OPS、又擁有十TB/s級別的超高帶寬來進行高速順序讀寫。

簡而言之，新的AI負載會帶來巨大的存儲性能需求，這是傳統(tǒng)PFS系統(tǒng)所謂無法負擔(dān)的。只有存儲性能極大升級，才能讓AI算力利用率提升，整個模型的訓(xùn)練效率升級。

其次，極為重要的一點在于AI場景下計算節(jié)點故障率高，平均要達到天級甚至小時級就出現(xiàn)故障，因此需要頻繁的斷點續(xù)訓(xùn)，并且還有可能需要很多階段性的模型數(shù)據(jù)與窗體數(shù)據(jù)定期保存。因此與傳統(tǒng)的超算任務(wù)相比，AI任務(wù)需要存儲具有更大的容量以及更高的效率。

接下來，我們還要看到共享存儲的必要性。橡樹嶺國家實驗室要求計算任務(wù)在任何計算節(jié)點都可以隨機訪問任何一個文件，從而確保AI任務(wù)在任何節(jié)點訪問時性能具有強一致性。

除此之外，AOS還具備在底層文件系統(tǒng)與AOS之間的高效并行數(shù)據(jù)傳輸能力，從而確保文件的跨層調(diào)度能力。

為了保護珍貴的AI數(shù)據(jù)資產(chǎn)，AOS對存儲可靠性的要求也提升了很多。由于各種AI訓(xùn)練大量采用分布式，需要在單點故障后依舊保持數(shù)據(jù)高可用、任務(wù)不中斷。這需要滿足跨節(jié)點的EC（Erasure Coding）能力，不像一些傳統(tǒng)并行文件系統(tǒng)僅可做到節(jié)點內(nèi)EC，當(dāng)節(jié)點宕機后就會出現(xiàn)數(shù)據(jù)丟失、數(shù)據(jù)完整性受損，并且對于故障后的數(shù)據(jù)重構(gòu)的性能速度，也規(guī)定了相關(guān)時長。

最后，AOS還需要具備本地數(shù)據(jù)的清洗與處理的能力，包含敏感信息去除、隱私信息過濾，甚至轉(zhuǎn)碼、去重等工作，從而簡化數(shù)據(jù)預(yù)訓(xùn)練工作，提升AI任務(wù)的整體效率。

總結(jié)來說，橡樹嶺國家實驗室已經(jīng)明確提出，AI大模型浪潮不僅需要專項算力，還需要專項存力。傳統(tǒng)的并行文件系統(tǒng)已經(jīng)無法滿足AI任務(wù)的需求，AI存儲的門檻正在變得更高，定義正在更加清晰明確。

由橡樹嶺國家實驗室的超算探索出發(fā)，AI存力的概念將影響到整個產(chǎn)業(yè)。

存儲發(fā)展的時代信標

橡樹嶺國家實驗室的發(fā)現(xiàn)，可以說是一個時代信標，它將輻射到更廣泛的區(qū)域，給存儲產(chǎn)業(yè)的升級發(fā)展提出明確信號。

首先，業(yè)界可以由此凝結(jié)成一個共識：AI需要專業(yè)算力，也需要專業(yè)存儲。AI存力概念將成為大模型時代主導(dǎo)存儲產(chǎn)業(yè)的骨干。

其次，我們可以看到超算領(lǐng)域?qū)⑹紫鹊玫絾⑹?。在全球各個國家與地區(qū)，超算都是國之利器，是科技競賽的關(guān)鍵節(jié)點。而在超算與AI水乳交融的發(fā)展趨勢下，超算場景必須積極引入AI存力升級，設(shè)置專業(yè)的外置存儲，并且積極踐行以存強算，通過存儲升級來提升AI算力利用率。比如將AI大模型密集型計算之前，為了降低計算通信開銷比，可以將一部分數(shù)據(jù)預(yù)處理下沉到存儲層完成，以此節(jié)省AI算力。最終可以通過存儲來提升超算體系的先進性與自主性。

接下來，我們還可以看到這一趨勢將釋放到超算場景之外。在AI大模型走入千行百業(yè)的進程中，各個領(lǐng)域都需要考慮存儲是否能夠適配AI模型與算力系統(tǒng)。適時進行存儲升級，實現(xiàn)存、算、AI的相輔相成，是智能化發(fā)展過程中的關(guān)鍵。

這些啟示，對于中國存儲產(chǎn)業(yè)的發(fā)展，尤有至關(guān)重要的意義。

存力勃發(fā)，時代之選

在大模型發(fā)展中，存力是前提條件，也是產(chǎn)業(yè)支柱。尤其對應(yīng)到中國在實現(xiàn)科技自立自強，推進數(shù)實融合的大勢當(dāng)中。AI浪潮恰好是一個絕佳契機，可以以最低成本，最高價值實現(xiàn)存儲產(chǎn)業(yè)的全面升級更新。

從目前全球主流趨勢來看，存儲升級對AI發(fā)展的助力是多方位、全面性的。是一個高吞吐、可共享、大容量、高可靠的存儲系統(tǒng)，是產(chǎn)業(yè)智能化、經(jīng)濟智能化發(fā)展的關(guān)鍵。

在這個趨勢下，中國存力建設(shè)有以下幾個機遇需要緊緊把握：

1.擴大存力規(guī)模，提升先進存儲占比。

隨著AI大模型的崛起，以及AI深入到超算、大型政企數(shù)字化等場景，會有更多企業(yè)傾向于進行本地化的AI訓(xùn)練與相關(guān)數(shù)據(jù)存儲。這個過程中，既需要擴大存力整體規(guī)模，也需要提升以全閃存為代表的先進存儲占比，以此來滿足智能化發(fā)展所需。

2.提升存儲技術(shù)創(chuàng)新，應(yīng)對AI時代的數(shù)據(jù)復(fù)雜性。

AI帶來了數(shù)據(jù)復(fù)雜性與應(yīng)用流程多樣性等一系列挑戰(zhàn)，因此存儲的先進性必須得到進一步提升。比如說，在建設(shè)數(shù)據(jù)湖的過程中，多數(shù)據(jù)中心、多業(yè)務(wù)系統(tǒng)的數(shù)據(jù)歸集緩慢且復(fù)雜，跨業(yè)務(wù)的數(shù)據(jù)倒換的低效且繁瑣，都給存儲帶來了考驗。因此，存儲需要提升協(xié)議互通能力、數(shù)據(jù)跨域調(diào)度、跨系統(tǒng)可視化數(shù)據(jù)管理等能力。以存儲技術(shù)創(chuàng)新，應(yīng)對AI時代的一系列技術(shù)挑戰(zhàn)。

3.提升存儲安全與運維能力，確保AI發(fā)展無憂。

AI大模型不僅帶來了數(shù)據(jù)的復(fù)雜性，還帶來了一系列全新的安全隱患，以及愈加復(fù)雜的存儲運維管理壓力。因此，存儲需要積極踐行主動安全、自動運維等能力，從而確保AI體系的健康發(fā)展。

在這些努力的堅持不懈下，AI存力將得到極大發(fā)展。就像我們知道AI算力即生產(chǎn)力，AI存力也將在未來成為生產(chǎn)力釋放的關(guān)鍵，成為產(chǎn)業(yè)智能化的引擎。

總結(jié)起來，一項產(chǎn)業(yè)升級與技術(shù)發(fā)展，首先需要找到信標，讀懂趨勢。如果說此前我們對于AI專項存儲的定義與發(fā)展還有爭議，那么橡樹嶺國家實驗室對未來數(shù)據(jù)中心的定義，就是為這一爭論畫下了句號。

依靠其在超算領(lǐng)域，乃至全球科研界的地位，首先我們可以看到AI存儲本身的絕對必要性。其次可以對AI存儲的定義、門檻與發(fā)展規(guī)范提出詳細的要求。由此一來，我們可以在越來越多的證據(jù)下，清楚地看到AI大模型時代存儲升級的必然。

AI存力的價值，在頂級實驗室的論證與探索中可以證明；在存儲產(chǎn)業(yè)多年來走向自主化、先進化的發(fā)展腳步中可以證明；在每一次AI訓(xùn)練之后，模型開發(fā)者對存儲價值的慨嘆中可以證明。

抓住AI機遇，促使存力勃發(fā)，是時代之選，更是時代之幸。

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個人觀點，與極客網(wǎng)無關(guān)。文章僅供讀者參考，并請自行核實相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

尋找AI時代的關(guān)鍵拼圖，從美國橡樹嶺國家實驗室讀懂AI存力信標

下一篇

尋找AI時代的關(guān)鍵拼圖，從美國橡樹嶺國家實驗室讀懂AI存力信標

下一篇

尋找AI時代的關(guān)鍵拼圖，從美國橡樹嶺國家實驗室讀懂AI存力信標