有人曾言,數(shù)據(jù)決定人工智能發(fā)展的天花板。深以為然。
隨著ChatGPT等AIGC應(yīng)用所展現(xiàn)出的強大能力,人們意識到通用人工智能的奇點正在來臨,越來越多的企業(yè)開始涌入這條賽道。在AIGC浪潮席卷全球之際,數(shù)據(jù)的重要性也愈發(fā)被業(yè)界所認同。
之所以會如此,有兩個關(guān)鍵原因:其一,高質(zhì)量數(shù)據(jù)是AIGC 應(yīng)用的核心,決定著算法的性能、泛化能力和應(yīng)用效果;其二,與數(shù)據(jù)相關(guān)的“存、管、用、傳”逐漸成為AIGC發(fā)展的瓶頸,亟待高水平的基礎(chǔ)設(shè)施來協(xié)助突破。
可以說,深度學(xué)習(xí)在過去十年的高速發(fā)展,讓異構(gòu)算力的作用與價值得到高度認可;未來十年,數(shù)據(jù)存儲的變革將決定著高質(zhì)量數(shù)據(jù)發(fā)展的深度。
AIGC市場發(fā)展趨勢是什么
大模型所展現(xiàn)出的強大能力和較強的泛用性,已經(jīng)讓AIGC應(yīng)用在辦公、會議、對話、搜索、廣告等內(nèi)容生成領(lǐng)域初露鋒芒。當(dāng)前,AIGC和大模型的賽道熱鬧非凡,僅僅中國市場就有上百個大模型涌現(xiàn),“百模大戰(zhàn)”的盛況讓市場熱度持續(xù)升溫。那么,未來的大模型和AIGC市場的發(fā)展趨勢是什么?
毫無疑問,接下來,出于對交互體驗升級和降本增效的巨大需求,AIGC和大模型廣泛進入垂直行業(yè)已是不可阻擋的趨勢。Gartner預(yù)測,到2032年,生成式人工智能市場規(guī)模將達到2000億美元,在金融、教育、醫(yī)療、工業(yè)等領(lǐng)域有著廣闊的應(yīng)用前景。
中金公司研究部判斷,未來的大模型市場類似云計算市場,就像一個冰激凌蛋筒,上面的冰激凌球代表金融、醫(yī)療、教育等多個關(guān)鍵行業(yè)的垂直大模型,與私有云的現(xiàn)狀與曲同工;下面的筒身則代表著通用大模型,覆蓋廣泛的長尾市場,類似公有云市場那樣的覆蓋。
顯然,越來越多行業(yè)用戶看到了垂直行業(yè)大模型的巨大潛力。這些重點行業(yè)場景足夠豐富、業(yè)務(wù)數(shù)據(jù)量巨大、降本增效需求強烈,加上這些行業(yè)的用戶本身即是私有云的重度用戶,看重數(shù)據(jù)的安全性和本地化部署,對于垂直大模型的需求極為強烈。
“當(dāng)前,大模型和AIGC市場依然處于早期。但AIGC對于整個行業(yè)應(yīng)用是變革性的,所有行業(yè)都必須去適應(yīng)AIGC帶來的變化。這無疑在未來五到十年將產(chǎn)生持續(xù)且巨大的數(shù)據(jù)存儲需求。”浪潮信息首席架構(gòu)師葉毓睿判斷道。
AIGC數(shù)據(jù)存儲挑戰(zhàn)到底有哪些
今年4月,OpenAI CEO Sam Altman認為,增加大模型的參數(shù)數(shù)量不再是提升大模型能力的最有效手段,大規(guī)模、高質(zhì)量數(shù)據(jù)和數(shù)據(jù)高效處理工程化才是關(guān)鍵。事實上,從OpenAI GPT-5開始,多模態(tài)被視為是大模型下一階段的重要演進方向。
多模態(tài)大模型意味著除了文本數(shù)據(jù)之外,音視頻數(shù)據(jù)也將加入其中,這會讓AIGC的數(shù)據(jù)特征呈現(xiàn)出數(shù)據(jù)海量化、多元數(shù)據(jù)類型復(fù)雜、服務(wù)協(xié)議多樣、性能要求苛刻和要求服務(wù)持續(xù)在線,進而帶來一系列極為復(fù)雜的數(shù)據(jù)存儲挑戰(zhàn)。
浪潮分布式存儲總經(jīng)理姜樂果認為,當(dāng)下AIGC應(yīng)用背后需要對行業(yè)上下游對數(shù)據(jù)進行采集、標注、訓(xùn)練、推理、歸檔,帶來了異構(gòu)數(shù)據(jù)的融合、持續(xù)的低延遲與高帶寬和EB級大容量存儲需求等三大重要挑戰(zhàn)。
首先是異構(gòu)數(shù)據(jù)的融合。大模型訓(xùn)練數(shù)據(jù)呈現(xiàn)來源多、格式多的多源異構(gòu)現(xiàn)狀,對于面向單一數(shù)據(jù)類型設(shè)計的傳統(tǒng)存儲是極大挑戰(zhàn)。這種傳統(tǒng)模式的缺陷就是很難在一個數(shù)據(jù)平臺上滿足不同數(shù)據(jù)類型對于性能的不同需求,在大模型從采集、標注到訓(xùn)練、推理整個數(shù)據(jù)存儲管道中,需要來回進行數(shù)據(jù)拷貝,數(shù)據(jù)處理效率低且無法滿足AIGC應(yīng)用的處理需求。
“傳統(tǒng)存儲需要以搬移數(shù)據(jù)的方式實現(xiàn)多協(xié)議訪問,這是AIGC應(yīng)用平臺一大關(guān)鍵瓶頸。支持異構(gòu)數(shù)據(jù)的多協(xié)議融合將是解決挑戰(zhàn)的關(guān)鍵?!苯獦饭毖缘?。
第二是持續(xù)的低延遲與高帶寬。在大模型的訓(xùn)練過程中,需要頻繁從數(shù)據(jù)集取Token。但是每個Token通常只有4個字節(jié),這就造成了實時高并發(fā)的海量小IO,需要極低的延遲來保障性能;此外,大模型在存儲模型Checkpoint時,需要高帶寬來支撐數(shù)據(jù)的快速寫入。
“大模型訓(xùn)練時候通常要調(diào)用上千塊GPU塊,某一塊卡出現(xiàn)故障或者問題的情況比較正常。如果出現(xiàn)故障,模型需要重新拉起,利用備用節(jié)點來替代,備用節(jié)點CheckPoint需要存儲的高帶寬來實現(xiàn)數(shù)據(jù)快速寫入,否則就很容易造成GPU算力資源的浪費。”浪潮信息AI架構(gòu)師楊鑫介紹道。
第三是EB級大容量存儲需求。大模型的越多數(shù)據(jù)投喂結(jié)果越精準的工作原理,決定著大模型訓(xùn)練存在深度學(xué)習(xí)網(wǎng)絡(luò)層數(shù)多、連接多、參數(shù)和數(shù)據(jù)集種類復(fù)雜、數(shù)據(jù)量大的特征,隨著模型參數(shù)和數(shù)據(jù)量的快速增長,對于存儲的大容量和擴展需求也迫在眉睫。
“比如,浪潮信息自身的源1.0大模型,加入音視頻數(shù)據(jù)之后,經(jīng)過不斷訓(xùn)練已經(jīng)達到上百PB的數(shù)據(jù)規(guī)模。”姜樂果介紹道,“隨著訓(xùn)練的不斷深入,對于數(shù)據(jù)存儲容量、性能的需求也會持續(xù)增長,需要存儲具備極致容量和極致性能的能力。”
葉毓睿則表示,AIGC涉及包括采集、標注、訓(xùn)練、推理、歸檔等數(shù)據(jù)處理的過程較長,且不同階段對于性能、延時、數(shù)據(jù)安全等要求不同。從產(chǎn)業(yè)變革的角度看,AIGC正在推動數(shù)據(jù)存儲產(chǎn)業(yè)進行全方位的技術(shù)升級,未來專業(yè)的AIGC存儲產(chǎn)品與解決方案需求將大幅增加。
浪潮存儲,讓AIGC有數(shù)
如果說數(shù)據(jù)存儲是AIGC應(yīng)用的地基,那么這個地基的深度與優(yōu)劣將決定著AIGC應(yīng)用的通用性和效率。一旦AIGC應(yīng)用的效率持續(xù)提升和拓展,也意味著垂直行業(yè)的生產(chǎn)力有望迎來質(zhì)的變化。
當(dāng)前,市場中專門針對AIGC的存儲解決方案并不多,尤其是經(jīng)過驗證過的存儲解決方案很少。浪潮信息是市場中率先推出相應(yīng)解決方案的廠商,利用一套AS13000融合存儲支撐生成式AI的全階段應(yīng)用,一套存儲提供端到端的數(shù)據(jù)流支持流程,滿足面向文本、音頻、圖像、視頻、代碼以及多模態(tài)和全模態(tài)的大模型需求。
據(jù)悉,浪潮信息AS13000提供全閃、混閃、帶庫、光盤四種介質(zhì),支持文件、對象、大數(shù)據(jù)、視頻、塊協(xié)議,可滿足大容量、多協(xié)議共享,百萬以上IOPS,100GB以上帶寬,冷數(shù)據(jù)的長期保存和歸檔?!袄顺毙畔⒌腁IGC存儲解決方案已經(jīng)支撐過浪潮信息源1.0大模型以及其他AI公司的大模型訓(xùn)練。”姜樂果如是說。
從浪潮信息透露的信息來看,AS13000有效避免了傳統(tǒng)存儲方案臺設(shè)備并存帶來的各種復(fù)雜性、數(shù)據(jù)處理低效率以及數(shù)據(jù)孤島,對于AIGC突破海量數(shù)據(jù)瓶頸和加速釋放數(shù)據(jù)價值有著極大幫助。
姜樂果介紹,浪潮信息生成式AI存儲解決方案擁有極致融合、極致性能、極致節(jié)能,和熱溫冷冰四級全生命周期存儲管理四大特點。
第一是極致融合。一個集群內(nèi)支持多個存儲池,一個存儲池內(nèi)支持文本、圖片、音頻、視頻等多種類型數(shù)據(jù)存儲,一份數(shù)據(jù)又可以被前端不同業(yè)務(wù)場景以文件、對象、大數(shù)據(jù)以及視頻的存儲方式并行訪問。完美契合了多模態(tài)大模型場景的數(shù)據(jù)存儲需求,并且實現(xiàn)應(yīng)用間數(shù)據(jù)實時共享以及存儲空間的最優(yōu)化。
第二則是極致性能。AIGC帶來的是性能指數(shù)級的增長,大帶寬、高IOPS在未來會成為業(yè)務(wù)需求的標配。對此,浪潮信息的解決思路是通過架構(gòu)、硬件、關(guān)鍵技術(shù)、IO路徑優(yōu)化等多種手段實現(xiàn)存儲性能的充分釋放。
“比如,數(shù)控分離架構(gòu)可以減少東西向數(shù)據(jù)量的轉(zhuǎn)發(fā);GDS、RMDA技術(shù)則可以縮短I/O路徑,SPDK、緩存零拷貝技術(shù)則可以有效減少I/O路徑上的數(shù)據(jù)拷貝;基于自研NVMe SSD開發(fā)的盤控協(xié)同技術(shù),則減少I/O訪問SSD盤的次數(shù),進一步提升性能。”姜樂果補充道,“像全閃單節(jié)點帶寬超過50GB/s,IOPS超過50萬,雙控全閃節(jié)點,帶寬超過100GB/s,IOPS超過100萬?!?/p>
以源1.0大模型為例,在AS13000并行存儲支撐下,2128個GPU集群上跑了16天完成訓(xùn)練,算力效率達到45%,遠超MT-NLG與GPT-3等國際知名模型。
第三則是極致節(jié)能。相關(guān)數(shù)據(jù)預(yù)測,到2025年,我國AI算力總量將超過1800EFlops,AI算力占總算力比重超過85%,這意味著與AI相關(guān)的數(shù)據(jù)存儲也將大幅增加,隨之而來不容忽視的挑戰(zhàn)就是節(jié)能減排。為此,浪潮信息最新的G7硬件平臺中,存儲專用的液冷服務(wù)器涵蓋性能型和容量型,且均采用模塊化冷板組件設(shè)計模式,并且浪潮信息具有風(fēng)液式,全液式等完善的端到端解決方案。
最后則是端到端的全生命周期管理。浪潮信息生成式AI存儲解決方案采用閃存、磁盤、磁帶、光盤四種介質(zhì)提供熱溫冷冰四種存儲資源,且實現(xiàn)了資源的互通和數(shù)據(jù)全生命周期的管理。此外,四種介質(zhì)、四類存儲節(jié)點提供熱溫冷冰自動流轉(zhuǎn),滿足各類應(yīng)用的靈活配置需求,用戶們可以根據(jù)性能型、均衡型、容量型、高密容量型四種機型的按需靈活配置,進一步降低整體投入。
“目前市場上能夠構(gòu)建起完整端到端支撐平臺的用戶還是少數(shù)。大部分用戶希望是有一攬子解決方案,來支撐起他們迅速構(gòu)建起平臺。浪潮信息自身擁有大模型的經(jīng)驗,可以通過生成式AI存儲解決方案將好的經(jīng)驗和實踐快速輸出到市場中,更好地推動AIGC產(chǎn)業(yè)發(fā)展?!苯獦饭偨Y(jié)道。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。