浪潮信息趙帥:開放計算創(chuàng)新 應對Scaling Law挑戰(zhàn)

日前在2024開放計算中國峰會上,浪潮信息服務器產品線總經理趙帥表示,智能時代,開源模型和開放計算激發(fā)了人工智能產業(yè)生態(tài)的創(chuàng)新活力,面對大模型Scaling Law帶來的AI基礎設施Scaleup和Scaleout的挑戰(zhàn),數(shù)據(jù)中心需要以開放創(chuàng)新加速算力系統(tǒng)、管理和基礎設施的全向Scale進程,推動AI產業(yè)的創(chuàng)新發(fā)展。

開源開放推動人工智能創(chuàng)新與算力生態(tài)的全面發(fā)展

生成式人工智能的飛躍式進步正在加速智能時代的到來,數(shù)據(jù)中心基礎設施面臨全方位創(chuàng)新,將越來越依賴更加廣泛的全球化開放協(xié)作,加速AI技術創(chuàng)新與應用,共同構建一個充滿創(chuàng)新活力的智能世界,而激發(fā)人工智能創(chuàng)新活力,開源開放是核心和源泉。

模型開源激發(fā)人工智能創(chuàng)新活力。隨著開源大模型能力的不斷增強和開源生態(tài)的持續(xù)壯大,帶動模型、應用到產業(yè)的全面發(fā)展,三分之二的基礎模型選擇開源,超過80%以上的AI項目使用開源框架進行開發(fā),開源模型的下載量突破3億次,并衍生出超過 3萬個新模型,Llama 3.1、通義千問、源2.0等開源大模型成為人工智能創(chuàng)新的驅動力。

硬件開放完善人工智能算力生態(tài)。人工智能帶來指數(shù)級增長的算力需求,全球已有上百家公司投入新型AI芯片的研發(fā)與設計,百花齊放的算力芯片需要統(tǒng)一的算力平臺才能快速推向市場,實現(xiàn)落地。開放加速規(guī)范OAM的出現(xiàn)大大加速多元算力芯片的適配兼容過程,大幅降低資源投入,使算力部署和迭代提速,支撐上層大模型和AIGC應用的快速迭代成熟。目前,90% 高端AI芯片基于OAM規(guī)范設計,去年浪潮信息剛剛發(fā)布的基于OAM規(guī)范的開放加速計算平臺NF5698G7與多款主流AI加速芯片適配兼容,基于OAM的智算產業(yè)生態(tài)圈日趨完善。

我們可以看到,AI時代,算力正在呈現(xiàn)出多元化的發(fā)展趨勢。為應對AIGC、云計算、大數(shù)據(jù)等應用復雜且不斷變化的計算需求,不僅僅是GPU,CPU、FPGA、ASIC等芯片也在朝著更加多樣化和專用化的方向發(fā)展。而且無論是手機、電腦、邊緣設備、CPU通用服務器、加速服務器都具有了AI計算的能力,可以說一切計算皆AI,AI算力已經深入到千行百業(yè),滲透進每一個計算設備里。面向人工智能的算力范式不斷革新,基于CPU的通用服務器不僅要承載大數(shù)據(jù)、關鍵計算、科學計算外,也要承擔AI應用的重要任務,這也是CPU通用服務器的重大機遇。

但隨著應用范式的多樣化,目前x86、ARM、RISC-V等不同架構的CPU處理器百花齊放,僅中國,就有10多種CPU處理器,不同CPU協(xié)議標準不統(tǒng)一,同時為了更好的適合AI推理高并行的計算特點,CPU總線互聯(lián)帶寬、內存帶寬及容量也需要特別優(yōu)化,使得系統(tǒng)功耗、總線速率、電流密度不斷提升……多種因素疊加之下,硬件開發(fā)、固件適配、部件測試資源等時間激增,給算力系統(tǒng)設計帶來巨大挑戰(zhàn)。

為了縮短從芯片到算力系統(tǒng)的轉化時間,給用戶提供更快、更好的算力支撐,CPU端也亟需構建智算時代的CPU統(tǒng)一底座, 能夠兼容不同芯片廠商、多代產品。2024開放計算中國峰會上,開放算力模組(OCM)規(guī)范正式啟動,首批成員包括中國電子標準院、百度、小紅書、浪潮信息、聯(lián)想、超聚變、英特爾、AMD等機構和企業(yè)。

全新的開放算力模組OCM規(guī)范,旨在建立基于處理器的標準化算力模組單元,通過統(tǒng)一不同處理器算力單元對外高速互連、管理協(xié)議、供電接口等,實現(xiàn)服務器主板平臺的深度解耦和模塊化設計,兼容不同架構的多代處理器芯片,方便客戶根據(jù)人工智能、云計算、大數(shù)據(jù)等多樣化應用場景,靈活、快速匹配最適合的算力平臺,推動算力產業(yè)高質量快速發(fā)展。

OCM規(guī)范是國內首個服務器計算模組設計規(guī)范,產業(yè)界上下游伙伴將基于OCM規(guī)范,共同建立標準化的算力模組單元,構建開放合作、融合創(chuàng)新的產業(yè)生態(tài),為用戶提供更多通用性強、綠色高效、安全可靠的算力選擇。

以開放創(chuàng)新的全向Scale應對大模型第一性原理

算力、算法和數(shù)據(jù)是推動人工智能發(fā)展的三駕馬車,自Transformer架構出現(xiàn)以來,大模型性能與其參數(shù)量、計算當量、數(shù)據(jù)量的協(xié)同作用尤為顯著,業(yè)界稱之為大語言模型的第一性原理——Scaling Law。

智算時代,需要用開放的理念來加速算力系統(tǒng)全向Scale,從而應對大模型的Scaling Law。隨著大模型能力的持續(xù)進化,算法規(guī)模和復雜性不斷增加、數(shù)據(jù)量越來越大,算力需求也在不斷攀升,需要同時應對單系統(tǒng)性能提升Scale up與多系統(tǒng)大規(guī)模擴展Scale out兩個方向擴展的挑戰(zhàn),對數(shù)據(jù)中心基礎設施、算力管理、迭代升級等都提出了更高要求。

在算力方面,智算中心需要同時應對兩個方向的擴展,分別是強算力支持、一機多芯、多元多模的單機系統(tǒng)Scale up要求和大規(guī)模AI組網、高帶寬、資源池化的大規(guī)?;瘮U展Scale out要求,以開放加速模組和開放網絡實現(xiàn)算力的Scale。UBB2.0開放標準支持更高算力規(guī)格的加速卡、可以實現(xiàn)更大的OAM domain互聯(lián),未來可以支持8000+張加速卡Scale up,突破大模型All to All通信過程中的互聯(lián)瓶頸。同時,大模型的發(fā)展需要更大規(guī)模的算力系統(tǒng),浪潮信息開放網絡交換機可實現(xiàn)16000+個計算節(jié)點10萬+加速卡的Scale out組網,滿足加速卡之間的互聯(lián)通信需求,帶寬利用率高達95%+。

在管理方面,需要解決跨平臺適配、模塊化架構、快速迭代的Scale要求,以開放的固件解決方案實現(xiàn)了管理的Scale。當前,異構算力多元分化,異步迭代,管理接口規(guī)范各不相同,導致固件平臺分支版本龐大,相互割裂,無法歸一,單一企業(yè)資源在維護和適配如此眾多的分支版本方面捉襟見肘。為解決一系列管理挑戰(zhàn),需要依托于開源社區(qū)的開源固件平臺,構建原生解耦架構提升可擴展性,建立統(tǒng)一標準的接口規(guī)范,支持用戶對于自主模塊進行定制化,實現(xiàn)標準接口規(guī)范下的異步、自主定制迭代,以滿足智算時代的算力迭代需求。

在基礎設施方面,數(shù)據(jù)中心面臨智能算力擴展的兩大Scale挑戰(zhàn):一是GPU、CPU算力提升,單芯片單卡功耗急劇增加,單機柜在供電和制冷上面臨著Scale up支撐挑戰(zhàn);同時,Scaling Law驅動GPU規(guī)模無限膨脹,達到萬卡、十萬卡級別,帶來了數(shù)據(jù)中心層級Scale out的支撐挑戰(zhàn),需要開放標準和開放生態(tài)將實現(xiàn)基礎實施的Scale,滿足快速建設、高算力/高能耗支撐要求。采用開放標準、開放生態(tài)構建的數(shù)據(jù)中心基礎設施,能更好地匹配智算時代多元、異構算力的擴展和迭代速度,進而支撐上層智能應用的進一步普及。以浪潮信息為例,基于開放標準推出的液冷冷板組件,支撐單機系統(tǒng)內GPU和CPU核心算力原件Scale up擴展;推出模塊化、標準接口的120kw機柜,兼容液冷、風冷場景,支撐柜內更大的部署需求;推出基于開放標準的預制化集裝箱數(shù)據(jù)中心,大幅壓縮建設周期,其擴展性很好的滿足了AI算力系統(tǒng)的Scale需要。

開放計算為數(shù)據(jù)中心的全向Scale,提供了一個可以迅速傳遞到整個產業(yè)鏈的“通道”。目前,開放加速模組和開放網絡實現(xiàn)了算力的Scale,開放固件解決方案實現(xiàn)了管理的Scale,開放標準和開放生態(tài)實現(xiàn)了基礎設施的Scale。開放計算對于智算時代至關重要,需要用開放應對多元算力,用開放促進算力的Scale,基于開放創(chuàng)新構建的全向Scale能力將會成為未來AI基礎設施的核心驅動力,加速智算時代的創(chuàng)新,加速人工智能的前行。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )