2023年大煉模型興起,全球范圍內(nèi)都出現(xiàn)了算力供不應(yīng)求、一卡難求的情況。各地紛紛興建數(shù)據(jù)中心、智算中心,來解決國產(chǎn)大模型的算力短缺問題。
今年算力市場又倒向了另一個方向,算力開始過剩和大量閑置了。
主要體現(xiàn)在,高端顯卡囤積居奇的生意不好做了,“GPU倒?fàn)敗钡呐笥讶σ呀?jīng)從“欲購從速,過時不候”,變成了“A100/H100滯銷,幫幫我們”。而算力租賃市場,理想情況下的上架率應(yīng)該是80%,但很多集群只能達到30%甚至更低,投入大量資金建設(shè)的算力閑置,租不出去。
于是一種聲音開始甚囂塵上,認為算力荒已經(jīng)緩解了,供過于求,應(yīng)該放慢自主化智算的建設(shè)。還有人說,智算中心建的太多了,大模型都用不完了。
發(fā)展自主化智算,到底還有沒有必要?
還記得2023年算力荒焦灼、智算建設(shè)突飛猛進的時候,倪光南院士曾提到過:各地盲目建設(shè)各種低水平智算中心,讓人唏噓不已,一定要警惕“技術(shù)房地產(chǎn)”和“數(shù)字爛尾樓”。所謂“技術(shù)房地產(chǎn)”,就是算力資源賣不出去,只能變成一堆放著服務(wù)器的磚頭水泥房子,閑置在那里。
短短一年多時間,從算力短缺到算力過剩,究竟是怎么發(fā)生的?目前來看,閑置算力主要集中在三種情況:
1.用不起。英偉達的高端顯卡GPU是AI訓(xùn)練的首選,2023年一度一卡難求。以N卡為主的智算資源閑置,一是因為巨頭們此前已經(jīng)大量囤積采購了GPU,需求減少;二是炒作之后價格昂貴,即使價格回落,中小企業(yè)還是用不起。在很多討論“算力過?!钡脑u論區(qū),我們總能看到“降價試試”的留言,說明高端AI算力的需求仍在,只是昂貴的N卡被價格勸退了。
2.不好用。國產(chǎn)卡組成的算力集群,也存在上架率不高、資源閑置的問題,主要是不好用。因為國產(chǎn)卡的集中度不高,一個千卡或萬卡集群,往往是由各類國產(chǎn)算力卡組成的,異構(gòu)算力之間的協(xié)同調(diào)度,涉及大量工程化細節(jié),沒有做好就無法開箱即用。勉強用了,又時不時出現(xiàn)業(yè)務(wù)中斷、算效不高、恢復(fù)訓(xùn)練慢等各種問題,導(dǎo)致客戶流失。這類被迫閑置的國產(chǎn)算力,正是沒有考慮配套,盲目建設(shè)的低水平智算中心。
3.用不上。“百模大戰(zhàn)”之后,企業(yè)不再大煉模型,預(yù)訓(xùn)練的算力需求也就大幅下降,算力市場開始轉(zhuǎn)向以推理算力為主。但推理市場的爆發(fā),需要一個過程,目前AI的行業(yè)滲透率還比較低,總體不到10%,很多企業(yè)對AI的投入以嘗試為主,還沒有大規(guī)模爆發(fā)。所以,訓(xùn)練用算力開始出現(xiàn)閑置,而推理用算力還未大規(guī)模崛起,因此短缺問題尚未完全顯現(xiàn)。
低水平算力的閑置與過剩,再一次警醒我們:一個繁榮健康的算力市場,關(guān)鍵不是建出來,而是用起來。
這種情況下,仍然大力發(fā)展自主化智算,還有必要嗎?
我們認為,這個問題的答案不該有猶豫,要旗幟鮮明地,鼓勵自主化智算基礎(chǔ)設(shè)施的繼續(xù)建設(shè)、加速建設(shè)。
首先,從長期看,國內(nèi)智算屬于后發(fā),基礎(chǔ)仍然薄弱。
中國智算的進步速度是很快的,但也要客觀看到,美國這樣的IT先行者,從20世紀90年代以來就在IT建設(shè)上大力投入。根據(jù)彼得森國際經(jīng)濟研究所的消息,在2024年美國在電子制造業(yè)建設(shè)方面(主要是芯片)的投資,就超過了1996年至2020年(24年的時間跨度)的總投資。而產(chǎn)業(yè)界,xAI、Meta、OpenAI等海外AI巨頭,都在積極布局十萬卡、五十萬卡規(guī)模的智算集群。
所以,國內(nèi)自主化智算近年來的發(fā)展雖然迅猛,也是在積極補課,打牢基礎(chǔ)。這時候如果停止,不僅會前功盡棄,還會讓中美在AI基礎(chǔ)設(shè)施上的差距進一步拉大。
從近期看,自主化AI算力需求仍然沒有得到充分滿足,算力荒仍在。
一方面,海外AI算力進口受到限制,極不穩(wěn)定。目前,國內(nèi)AI訓(xùn)練芯片市場英偉達占據(jù)了80%~80%的市場份額,要避免威脅供應(yīng)鏈安全,這種情況必須盡快改變。上海的“算力浦江”智算行動實施方案(2024—2025年)要在2025年,實現(xiàn)新建智算中心的國產(chǎn)算力芯片使用占比超過50%;《北京市算力基礎(chǔ)設(shè)施建設(shè)實施方案(2024—2027年)》則提出,2027年要具備100%自主可控智算中心建設(shè)能力。
三年左右,從不到20%發(fā)展到100%。所以,如今的自主化智算不是太多了,而是還不夠。
與此同時,算力需求仍在增長。大模型的規(guī)模法則仍在繼續(xù),以Sora為代表的視頻生成模型對算力的需求量是LLM大模型的數(shù)倍,已經(jīng)出現(xiàn)了“一棟樓放不下一個模型”“一個模型需要多個集群”的情況,超萬卡智算中心是必不可少的基礎(chǔ)設(shè)施,目前國內(nèi)的十萬卡集群還遠遠不足。
此外,大煉模型的階段雖然結(jié)束了,但基礎(chǔ)模型的市場集中度提高和能力提高,又會釋放AI應(yīng)用需求,促進AI的行業(yè)滲透率、普及率,導(dǎo)致AI推理算力的需求爆發(fā),急需要更多高質(zhì)量算力來滿足。目前部分國產(chǎn)AI算力集群的利用率極高,西安昇騰智能科技有限公司的人工智算中心算力使用率就高達98.5%;曙光在長沙的5A級智算中心,也吸引上百家企業(yè)入駐,實現(xiàn)萬余個商業(yè)應(yīng)用接入。因此,隨著產(chǎn)業(yè)智能化升級的繼續(xù)推進,國產(chǎn)AI算力荒不是已經(jīng)解決,而是從現(xiàn)在開始重視和應(yīng)對。
互聯(lián)網(wǎng)產(chǎn)業(yè)的核心,當(dāng)然不是寬帶和機房,但沒有“寬帶高速公路”,就沒有美國互聯(lián)網(wǎng)經(jīng)濟的爆發(fā);移動互聯(lián)網(wǎng)的核心,也不是基站,但沒有廣泛覆蓋的4G基站,就沒有智能手機和移動應(yīng)用軟件的興起。AI大模型也是一樣, AI作為一種依附在基礎(chǔ)設(shè)施之上的軟件技術(shù),核心不是智算,但沒有自主化智算,國內(nèi)AI絕不可能獨善其身、獨自蓬勃發(fā)展。
因此,自主化智算并不存在過剩,更不該就此放慢發(fā)展。
綜上,“國內(nèi)AI算力過?!保莻€假問題,“如何合理地推進自主化智算的建設(shè)”,才是真問題。
解決這個真問題,國內(nèi)智算產(chǎn)業(yè)已經(jīng)來到了承上啟下的新階段。不僅要追求把智算中心“建起來”,還要能運營好、用起來。
因此,智算廠商的競爭,也從售賣硬件資源與智算解決方案,轉(zhuǎn)變?yōu)槎嗑S度、綜合性、長期服務(wù)的競爭。比如華為昇騰AI全棧、中科曙光的“立體計算”、寧暢的“全局智算”、聯(lián)想的“萬全生態(tài)”,新華三的“1+N”智算等,以更全面的能力,支撐自主化智算的建設(shè)運營。
追求全面,并不意味著胡子眉毛一把抓,目前來看,智算廠商們主要集中解決自主化AI算力的幾個痛點問題:
1.異構(gòu)問題。目前,國產(chǎn)AI芯片還無法規(guī)模化出貨,市場集中度較低,因此都是以混合算力的形式,來加入智算集群。多元異構(gòu)算力的協(xié)同調(diào)度、管理、算效、業(yè)務(wù)可靠性等,面臨很多技術(shù)挑戰(zhàn)。如果一個企業(yè)或開發(fā)者,要針對ABCD不同廠商的卡進行適配開發(fā),是不可能的。所以,就需要智算廠商提供相應(yīng)的系統(tǒng)平臺,屏蔽底層異構(gòu)硬件的復(fù)雜性,讓大家用好國產(chǎn)算卡。比如聯(lián)想的萬全異構(gòu)智算平臺,實現(xiàn)異構(gòu)化AI算力的管理與調(diào)配;新華三面向異構(gòu)智算的智能管理平臺,一站式應(yīng)對多樣化的AI應(yīng)用場景。
2.算效問題。解決“低質(zhì)量算力過剩,自主化高質(zhì)量算力不足”的結(jié)構(gòu)性問題,需要進一步提高國產(chǎn)AI的性能。面對工藝制程的限制,可以通過軟硬件系統(tǒng)的無縫配合,從而實現(xiàn)國產(chǎn)算卡性能的充分釋放。以昇騰為例,就與昇思緊密結(jié)合,為各類智算場景提供高性能的自主化AI算力,深圳鵬城實驗室的“鵬城云腦Ⅱ”就依托昇騰實現(xiàn)了中國首個自主可控的E級智能算力平臺,可以提供不低于1000Pops的整機AI計算能力。
3.運營問題。如今,一些地方在智算中心建設(shè)之前,開始提出上架率、收益率等要求,需要保證項目投運后有一定的使用率。同時,也會要求建設(shè)方提供設(shè)計、使用、運營等一體化服務(wù),避免智算中心因無人運營而成為“數(shù)字爛尾樓”。以用促建、以服促用,已經(jīng)是自主化智算發(fā)展的必然潮流。比如新華三與杭州市合作,打造“圖靈小鎮(zhèn)”,培育AIGC產(chǎn)業(yè)和數(shù)字人才;中科曙光“立體計算”主張“算力建設(shè)、應(yīng)用賦能、生態(tài)共生”三位一體,推動多元算力向新質(zhì)生產(chǎn)力轉(zhuǎn)化,目前已經(jīng)在5A級智算中心落地實踐。
回顧這一年多來,國內(nèi)智算的發(fā)展突飛猛進,取得了舉世矚目的成績,我們不必再為算力荒而憂心忡忡。但人無遠慮必有近憂,AI算力的自主化之路不能就此戛然而止,而要一鼓作氣,再加把勁,把已經(jīng)取得的成果夯實,為接下來的智能浪潮做好準備。
避免低質(zhì)量算力過剩,與加速自主化智算發(fā)展,這兩件事可以并行不悖,也應(yīng)該理性分開看待。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 世界第一!阿里云PolarDB登頂全球數(shù)據(jù)庫性能及性價比排行榜
- 榮耀MagicBook Pro 14掀起性能風(fēng)暴,續(xù)航超12小時
- “耐玩戰(zhàn)神,續(xù)航超神”的真我Neo7 SE,國補到手價僅1530元起
- “小單快返”遭重創(chuàng),快時尚巨頭要求供應(yīng)商緊急外遷,“曲線救國”來得及嗎?
- 百萬騎手社保落地:實際行動勝于“搶跑”
- 阿里嘗到了AI的甜頭
- DeepSeek帶飛萬元AI女友:單身狗福音,生育率躺槍
- 頂級雙芯戰(zhàn)無敵,電競夢想觸手可及,ROG魔霸9X開啟預(yù)約
- 開局即決戰(zhàn) ROG助力電影《流浪地球3》美術(shù)創(chuàng)作
- 移動云電腦云平板:工作娛樂,掌上精彩
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。