AI算力不夠,已經(jīng)是老大難問題。ChatGPT等大語言模型,掀起了新一輪“大煉模型”和“煉大模型”的熱潮,又讓本就不足的算力雪上加霜。
適用于AI計算的GPU供不應求,買不到卡的企業(yè)和科研機構嗷嗷待哺,買到了卡的企業(yè)不得不面對漲價,也被架在成本的火上烤。
目前,英偉達的GPU是AI計算最主流的硬件。有業(yè)內(nèi)人士估算過,GPT-4模型僅滿足日訪問量的計算需求,就需要六萬張英偉達A100,每一張價格在60-100萬人民幣,而A100和更強大的H100,這兩款芯片此前都被列入了美國的禁止出口清單里。還好在英偉達的游說下,又能夠在 2023 年 3 月 1 日之前繼續(xù)給大陸提供 A100 產(chǎn)品。
現(xiàn)在緩沖期已經(jīng)到了,AI算力的局面是蠟燭兩頭燒,一邊是越來越少的海外高性能芯片,一邊是越來越多的大模型訓推需求,究竟怎么辦呢?
我知道很多普通網(wǎng)友很急,覺得又被卡脖子了,但大家確實不用那么急,為AI算力荒解困,業(yè)內(nèi)其實已經(jīng)探索出了短策、中策和長策。今天就來講講,如何見招拆招。
短策:開源節(jié)流,過緊日子
實事求是來說,最關鍵的AI芯片GPU被國際廠商壟斷,市場占有率達到80%以上。而國產(chǎn)廠商雖然也有相應的產(chǎn)品,但要么還沒有量產(chǎn),無法滿足規(guī)模應用的需求;要么性能跟海外先進產(chǎn)品的差異很大,實用中大概只能達到60%左右的水平。而中美博弈,短期內(nèi)是不會有方向性的轉變的,未來高性能芯片的封禁可能是常態(tài)。
所以結論就是,放棄幻想,接下來要準備過AI算力的緊日子了。
目前業(yè)內(nèi)的應付辦法有兩種:
一是開源。
對于N卡,繼續(xù)買,抓緊囤貨。
國內(nèi)頭部互聯(lián)網(wǎng)公司,尤其是已經(jīng)推出了大模型的企業(yè),都會進行20%左右的戰(zhàn)略備貨,儲備了萬片級別的英偉達A100芯片,所以算力基礎都不差。某一線云廠商透露,現(xiàn)在自家有10萬片的A100,能夠滿足好幾個客戶復現(xiàn)GPT的AI算力需求。
此前國內(nèi)區(qū)塊鏈火爆,礦機廠商和數(shù)字貨幣販子也買了大量英偉達GPU用來“挖礦”,聽說也被一些AI公司緊急收了過來。而且,雖然緩沖期已到,但只要交付模式上商務合規(guī),還是有可能繼續(xù)用到先進產(chǎn)品的。
對于國產(chǎn)芯,加快上馬,落地部署。
目前,國內(nèi)的頭部科技公司,已經(jīng)開始籌備或落實,將寒武紀MLU370/590、燧原、百度昆侖芯、阿里平頭哥等,部署到算力集群中,盡管占比還比較少,但國產(chǎn)芯的使用和適配已經(jīng)開始了,隨著合規(guī)及產(chǎn)能提速,也能滿足AI并行計算的需求。
芯片的國產(chǎn)化替代,這一步遲早要走,大模型成了那個提前上馬的變量。
二是節(jié)流。
既然AI基礎設施跟大模型建設熱潮之間有剪刀差,咱能不能把錢花在刀刃上呢?還真能。
OpenAI選擇訓大語言模型來實現(xiàn)通用人工智能,超大規(guī)模參數(shù)來達到“智能涌現(xiàn)”,堪稱為“敗家子兒式創(chuàng)新”。微軟公司的博客中透露,2019 年微軟宣布向 OpenAI 投資 10 億美元,為了讓OpenAI 能訓練出越來越強大的模型,將28.5萬個CPU和10000個GPU聯(lián)接起來,造了一個超級計算集群。
背靠家大業(yè)大的微軟,這么燒無可厚非。但放到中國語境下,或許我們還可以想一想,等這波GPT式熱度消退,基礎模型已經(jīng)成型,那些燒錢打造的算力基礎設施該何去何從?百億萬億參數(shù)的大模型,部署到工廠、礦區(qū)、城市之類的行業(yè)場景,是不是也有相應的算力支撐?
冷靜下來后,為AI算力“節(jié)流”,才是大模型真正落地的必經(jīng)之路。
節(jié)流,有兩個辦法:一是大模型“瘦身”,通過剪枝讓模型稀疏化、知識蒸餾對模型進行壓縮,通過權重共享來減少參數(shù)量……總之,一旦一種技術路線被證明有效,那么很快就會有多種技術手段對其進行優(yōu)化,讓模型成本大幅下降。
最近加州大學伯克利分校打造的icuna (小羊駝)模型,就只用8張A100訓練了一天時間,將130億參數(shù)模型的訓練成本,從1000美元降低至300美元。所以,模型“瘦身”可以有效減少單個模型的算力資源消耗。
二是硬件“壓榨”,通過端到端優(yōu)化,從AI芯片中“壓榨”出更多性能,把有限的硬件用到極致,也是一種節(jié)流。
舉個例子,主流的大模型,包括ChatGPT、GPT-4,都是以Transformer 架構為主,微軟通過ONNX開源推理引擎的優(yōu)化,可以將大語言模型的推理性能提高17倍。某國產(chǎn)芯片廠商針對Transformer結構特性進行優(yōu)化,將芯片性能提升到原本的五倍以上,壓縮顯存30%以上。資源利用率更高,相當于在AI訓練和推理時單位部署成本更低了。
總的來說,面對短期內(nèi)“AI算力荒”,我們只能接受現(xiàn)實,正視差距,廣積糧食,開源節(jié)流。
承認這一點沒有什么好憋屈的,畢竟中國AI從零起步,到今天能跟no.1站在同一張牌桌,這才是我們熟悉的故事。
中策:兼容并包的全國算網(wǎng)
一雙眼睛全盯著高性能GPU,會發(fā)現(xiàn)差距簡直無從彌補,還在越拉越大。英偉達、英特爾、AMD等已經(jīng)將AI芯片支撐推進到了4nm,而光刻機禁運,制程追不上,國內(nèi)14nm制程將將量產(chǎn),巧婦難為無米之炊。
但換個角度,可能就柳暗花明又一村。
大家可能還記得,去年東數(shù)西算工程正式啟動,新型國家算力網(wǎng)絡成了新的熱點,我們也做過很多報道和分析。
當時我們就提到:實現(xiàn)先進算力的一體化、集約化、多樣化供給,是“全國算力一盤棋”的題中之義。而這只是全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系中的一環(huán)。
今天看來,通過幾年時間,構建數(shù)網(wǎng)、數(shù)紐、數(shù)鏈、數(shù)腦、數(shù)盾,對于AI大模型的數(shù)據(jù)、算力、聯(lián)接、商業(yè)化等多種挑戰(zhàn),是一種持續(xù)釋放影響的“中策”。
本質上說,AI模型的訓練推理是CPU+加速芯片。GPU的高并行性,可以成規(guī)模地處理AI工作負載,為深度學習加速,在進行模型的訓練和推斷時會更具有效率優(yōu)勢。英偉達的A100,在AI推理時吞吐量是CPU的249倍。
但這并不意味著,CPU不能做并行計算,加速芯片沒有其他選擇。
生成式AI的模型訓練通常是在云端完成的,云端芯片以CPU+GPU異構計算為主。一些小型的模型是完全可以CPU訓練的,可能訓練速度慢一點,但確實可以用。
此外,ASIC芯片也很適合AI計算,目前還沒有明顯的頭部廠商,國產(chǎn)廠商還有機會,很多企業(yè)開始推出自研的ASIC加速芯片。比如谷歌的TPU、英特爾的DPU、國內(nèi)寒武紀的NPU、地平線的BPU等。
模型訓練好之后,需要結合數(shù)據(jù)計算“推理”出各種結論。手機人臉識別認出“你是你”這個環(huán)節(jié)就是“端側推理”,iPhone將相冊上傳到云端進行用戶行為分析就是“云端推理”。
相對模型訓練而言,推理階段處理的是小批量數(shù)據(jù),這時候GPU并行計算的性價比就不那么明顯了,尤其是在邊緣和終端大規(guī)模部署AI算法,是難以承受如此高的成本的。FPGA、ASIC等加速芯片,協(xié)助CPU來滿足推理的計算需求,是具有競爭優(yōu)勢的。
這跟算網(wǎng)有什么關系呢?
劃重點,在全國一體化算力網(wǎng)絡體系的各種政策文件中,“算力多元化”的出現(xiàn)頻率是非常高的。
多元化,一方面體現(xiàn)在多種計算架構,支持CPU、GPU、ASIC、FPGA等多種芯片的混合部署,充分發(fā)揮不同體系架構的優(yōu)勢;
另一方面,體現(xiàn)在多種算力,模型訓練、邊緣推理、數(shù)值模擬的不同場景需要不同的算力,AI算力、通用算力、高性能算力等綜合配給,才能很好地支撐各類行業(yè)AI應用。
正如微軟Azure高性能計算和人工智能產(chǎn)品負責人Nidhi Chappell所說,“讓更大的模型訓練更長的時間,意味著你不僅需要擁有最大的基礎設施,還必須能夠長期可靠地運行它”。
要長期可靠地保障AI算力資源,自然要發(fā)揮中國智慧——東方不亮西方亮,黑了南方有北方。通過全國一體化算力網(wǎng)絡的建設,充分推動多種架構的落地部署,國產(chǎn)芯片的同步發(fā)展。
未來幾年算網(wǎng)成型,對于保障算力供給,應對不可抗力,會起到非常關鍵的作用。
長策:長出那雙手
理想化的角度來說,緩解AI算力荒的終極解決思路,肯定是造出對標國際一流水平的自研芯片。但這就像“中國什么時候能有自己的OpenAI”一樣,是一個漫長的暢想。
漫長,指的不只是足夠長的時間和耐心,給半導體行業(yè)足夠多的錢,還要能吸納全球頂尖的技術人才、全球優(yōu)質的風險投資機構、計算機基礎人才的培養(yǎng)、允許失敗試錯的創(chuàng)新氛圍和兜底機制、充分信息化數(shù)字化的優(yōu)質數(shù)據(jù)基礎、繁榮的商業(yè)市場……這是一個社會工程。
那么,我們是不是就得一直這么憋屈呢?
當然不是。咱們除了“脖子”,還有“手”啊,就不能用自己的長處,去卡別人的脖子呢?
這雙手,可能是新的計算體系。
今天,經(jīng)典計算的“摩爾定律”已死,英偉達提出的“新摩爾定律”也面對AI算力供需的剪刀差有心無力。
光計算、類腦計算、量子計算等新計算體系,正在成為各國的重點布局方向。以量子計算為例,有望徹底解決經(jīng)典計算的算力不足問題。
當然,總想著“彎道超車”大概率會翻車,提到這點只是想提醒一下,不要只盯著CPU/GPU這些已經(jīng)被卡脖子的焦點領域,而忽視了其他路線,將路走窄了。畢竟誰能想到,當年游戲宅們追捧的顯卡能卡住今天的AI計算市場呢?
英偉達GPU被發(fā)現(xiàn)可以用來跑AI之前,只有游戲發(fā)燒友會對N卡津津樂道,這種“無心插柳柳成蔭”的結果,恰好說明了多技術路線創(chuàng)新的重要性,或許會在某條路上就發(fā)現(xiàn)驚喜。
這雙手,也可能產(chǎn)業(yè)生態(tài)。
AI本來就是一個工程性、交叉性很強的學科,AI芯片要充分釋放能力,除了更高制程的工藝,也離不開深刻理解行業(yè)用戶的使用習慣,才能把軟硬件做到位。
英偉達GPU的主流地位,與CUDA生態(tài)有直接關系。而CUDA的護城河正是軟件堆棧,可以讓研究人員和軟件開發(fā)者更好地在GPU上編程,構建應用。
如果說AI算力問題,國產(chǎn)硬件的差距是明線,軟件生態(tài)就是那條更難的暗線。
首先是軟件,就拿大模型來說,下接底層算力硬件、操作系統(tǒng)和框架,上接行業(yè)應用,需要提供一整套從開發(fā)、應用、管理的全流程服務和工程化方法,而目前積累了全面技術棧的只有少數(shù)國內(nèi)頭部企業(yè)。
其次是生態(tài),CUDA生態(tài)經(jīng)過多年積累,在AI計算的絕對主導地位,而國內(nèi)幾個頭部企業(yè)都有各自的AI生態(tài)。我們就曾遇到過這樣的采訪對象,一個工業(yè)企業(yè)的數(shù)字化案例中,既有A生態(tài)的一些軟硬件,又有B生態(tài)的一些解決方案。多個生態(tài)并存,增加了產(chǎn)業(yè)的選項自由和安全感,也難免帶來適配上的復雜度,以及一些重復性工作。
國產(chǎn)芯片硬件的突破或在旦夕之間,但軟件生態(tài)的爆發(fā)卻需要漫長的時間去醞釀。而一旦生態(tài)如同齒輪一樣轉起來了,吸納更多產(chǎn)業(yè)資源和人才力量,很多軟硬件創(chuàng)新都能加速發(fā)展。
大語言模型的這波熱鬧中,我有聽到一些聲音,說中國AI行業(yè)“渾身上下都是脖子”“一卡脖子就翻白眼,一開源就全球領先”。
很能理解大家“怒其不爭”的心情,但實事求是地看,中國AI走到今天,靠的從來不是誰的施舍,是真的有一群人,在卡脖子時沒有翻白眼,而是與禁令搶時間,與海外合作伙伴想對策,把國產(chǎn)芯片扶上馬送一程。
如果說,無需擔心“AI算力荒”,這是一種無視現(xiàn)實差距的盲目自信。但也確實不用一提算力、一提芯片,就縈繞著“生于憂患死于安樂”的焦慮氣息。
星光不問趕路人,與其花時間自憐自哀,不如在有限的規(guī)則里,做力所能及的事。短策、中策、長策久久為功,這才是中國緩解“AI算力荒”的真實選擇。
免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 技術領先的美國為何在六代機研發(fā)上落后了?制造業(yè)基礎薄弱是主因
- 國產(chǎn)手機玩田忌賽馬,舊款旗艦降價超千元,不敢與蘋果硬拼
- 在人群里,看見「鯤鵬開發(fā)者」
- 游戲體驗天花板,一加 Ace 5 系列售價 2299 元起
- 為創(chuàng)意和管理提效,新廣告投放(3.0)驅動消費品商家高效增長
- 榮耀Magic7系列全面升級大王影像,首發(fā)AI超級長焦拍遠更清晰
- 2024過去了,留下十個科技記憶
- 年貨節(jié)如何大爆單?別錯過巨量千川這三波紅利
- 中國六代機首飛成功,還是兩款,宣告全球戰(zhàn)機技術將由中國引領
- 美國無人機禁令升級?當?shù)乜茖W家率先“喊疼”:我們離不開大疆
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。