AI作為引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術(shù),正成為發(fā)展新質(zhì)生產(chǎn)力的重要引擎。預(yù)計(jì)未來兩年,AI大模型將落地50%+行業(yè)場景,引領(lǐng)廣泛的智能化革命。數(shù)據(jù)作為AI產(chǎn)業(yè)鏈的基礎(chǔ)要素,其規(guī)模與質(zhì)量直接決定了AI智算的廣度與深度。
在AI大模型的全生命周期中,包含4個(gè)關(guān)鍵環(huán)節(jié):
● 數(shù)據(jù)歸集:數(shù)據(jù)采集方式多樣,需兼容NFS、SMB、S3等多種存儲(chǔ)協(xié)議,構(gòu)建超大容量、靈活適應(yīng)的“數(shù)據(jù)倉庫”。
● 數(shù)據(jù)預(yù)處理:針對數(shù)據(jù)在此階段的復(fù)雜性與無序性,需構(gòu)建可靈活應(yīng)對混合IO負(fù)載與多變讀寫模式的存儲(chǔ)架構(gòu)。
● 模型訓(xùn)練:需高效加載數(shù)據(jù)至GPU進(jìn)行計(jì)算,對存儲(chǔ)性能有嚴(yán)格要求(高IOPS、高帶寬、低延遲),以確保訓(xùn)練過程的流暢與高效。
● 推理應(yīng)用:需快速加載海量模型文件,單個(gè)文件大小在幾十GB至上百GB不等。若同時(shí)啟動(dòng)數(shù)十個(gè)推理業(yè)務(wù),整體數(shù)據(jù)量將達(dá)幾十至上百TB,對讀取效率提出較高要求。
在整個(gè)流程中,模型訓(xùn)練是最重要的一環(huán),對存儲(chǔ)系統(tǒng)性能要求極高。為確保訓(xùn)練任務(wù)如期完成,實(shí)現(xiàn)訓(xùn)練數(shù)據(jù)快速加載、GPU無等待、Checkpoint(AI大模型訓(xùn)練過程中定期保存的模型狀態(tài)快照)快速保存與恢復(fù)的目標(biāo),通常需要存儲(chǔ)系統(tǒng)提供數(shù)百GB/s的帶寬,以及千萬級的IOPS處理能力。
以自然語言處理(NLP)在大型預(yù)訓(xùn)練語言模型GPT3中的Checkpoint保存場景為例,175B的參數(shù)規(guī)模,其Checkpoint文件達(dá)3TB左右,若要在30s內(nèi)完成Checkpoint文件的保存,其寫帶寬需達(dá)到100GB/s。為此,亟需構(gòu)建高性能、高可擴(kuò)展性的數(shù)據(jù)存儲(chǔ)底座,以支撐AI大模型的核心業(yè)務(wù)流程。
憑借在數(shù)據(jù)存儲(chǔ)領(lǐng)域十余年的創(chuàng)新與積淀,宏杉科技精耕細(xì)作,以MC27000-MOFS高性能分布式并行存儲(chǔ)系統(tǒng)與MacroDisk智能盤柜為核心,打造智算中心AI存儲(chǔ)解決方案,為AI大模型的精研之路奠定堅(jiān)實(shí)基礎(chǔ)。
MC27000-MOFS高性能分布式并行存儲(chǔ),提供高效運(yùn)行引擎
數(shù)據(jù)歸集和預(yù)處理階段,MOFS系統(tǒng)可構(gòu)建基于傳統(tǒng)HDD硬盤的海量數(shù)據(jù)資源池,支持NFS/CIFS/HDFS協(xié)議互訪與多節(jié)點(diǎn)并發(fā)讀寫,極大地加速了數(shù)據(jù)的導(dǎo)入與處理。其單集群單文件系統(tǒng)容量可達(dá)1000PB,文件數(shù)量達(dá)千億級,充分滿足AI智算對海量數(shù)據(jù)的處理需求。
在模型訓(xùn)練和推理階段,MOFS系統(tǒng)可提供全NVMe介質(zhì)的高性能資源池,通過部署增強(qiáng)型客戶端,并融合客戶端切片、MPI-IO、RDMA網(wǎng)絡(luò)、小文件聚合等先進(jìn)技術(shù),系統(tǒng)單節(jié)點(diǎn)混合讀寫性能可達(dá)30GB/s以上,實(shí)現(xiàn)了數(shù)據(jù)的高效處理與流暢傳輸。
MacroDisk智能盤柜,打造穩(wěn)定存儲(chǔ)底座
當(dāng)前,Lustre/GPFS等并行文件系統(tǒng)已被廣泛應(yīng)用于AI訓(xùn)練流程之中,成為驅(qū)動(dòng)AI智算發(fā)展的關(guān)鍵力量。然而,Lustre的多個(gè)數(shù)據(jù)存儲(chǔ)單元(OSS)并未自帶數(shù)據(jù)保護(hù)功能,當(dāng)一個(gè)客戶端或節(jié)點(diǎn)發(fā)生故障時(shí),其中的數(shù)據(jù)在重新啟動(dòng)前將不可訪問。因此,存算分離是此架構(gòu)下提升系統(tǒng)整體可靠性的關(guān)鍵路徑。
在Lustre/GPFS并行文件系統(tǒng)+集中式存儲(chǔ)的整體架構(gòu)下,宏杉科技以MacroDisk智能盤柜為關(guān)鍵硬件支撐,面向HPC、AI等場景,無縫對接客戶Lustre/GPFS等原有并行文件系統(tǒng),為AI訓(xùn)練構(gòu)建了極致性能、極致可靠的存儲(chǔ)資源池。
MacroDisk支持NVMe over ROCE+INOF、NVMe over FC兩種高速數(shù)據(jù)傳輸方式,單套設(shè)備即可提供100w IOPS、20GB/s帶寬;采用雙控制器Active-Active架構(gòu),確保數(shù)據(jù)的高效讀寫及訪問;集成磁盤監(jiān)測、慢盤檢測、磁盤診斷等功能,實(shí)現(xiàn)對磁盤健康狀況的實(shí)時(shí)監(jiān)控與精準(zhǔn)維護(hù);引入CRAID3.0技術(shù),采用22+3或者23+2的比例進(jìn)行數(shù)據(jù)硬盤和校驗(yàn)硬盤的配置,在保障數(shù)據(jù)安全的同時(shí),實(shí)現(xiàn)高達(dá)92%的空間利用率,為AI智算中心的穩(wěn)定運(yùn)行與未來發(fā)展提供了強(qiáng)有力的支撐。
隨著國家政策的持續(xù)推動(dòng)與技術(shù)趨勢的加速演進(jìn),AI智算正邁向更加高效、智能、安全的新紀(jì)元。作為一站式數(shù)據(jù)存儲(chǔ)專家,宏杉科技將緊跟行業(yè)發(fā)展脈搏,以數(shù)賦智,用更多前沿創(chuàng)新方案助力AI產(chǎn)業(yè)“新藍(lán)海”的開拓。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )