爆火的DeepSeek引發(fā)成本、技術(shù)質(zhì)疑,未來(lái)算力還重要嗎?

TechWeb文/卞海川

近期,DeepSeek在AI大模型領(lǐng)域引發(fā)熱議,憑借其驚人的性能表現(xiàn)和低成本訓(xùn)練模式,迅速吸引了全球關(guān)注,且熱度一直不減。但隨之而來(lái)的,對(duì)其成本、技術(shù)以及為未來(lái)作為大模型基礎(chǔ)設(shè)施的算力也引發(fā)了爭(zhēng)議。

DeepSeek陷成本誤區(qū)?

提及成本,DeepSeek發(fā)表的原始報(bào)告中有詳細(xì)解釋這筆成本的計(jì)算:“在預(yù)訓(xùn)練階段,每兆個(gè)token上訓(xùn)練DeepSeek-V3僅需要180K H800 GPU小時(shí),也就是說(shuō),在我們擁有2048個(gè)H800 GPU的叢集上需要3.7天。因此,我們的預(yù)訓(xùn)練階段在不到兩個(gè)月的時(shí)間內(nèi)完成,耗費(fèi)2664K GPU小時(shí)。加上上下文長(zhǎng)度擴(kuò)充所需的119K GPU小時(shí)和后制訓(xùn)練所需的5K GPU小時(shí),DeepSeek-V3的完整訓(xùn)練僅需2.788M GPU小時(shí)。假設(shè)H800 GPU的租賃價(jià)格為每GPU小時(shí)2美元,我們的總訓(xùn)練成本僅為557.6萬(wàn)美元?!?/p>

對(duì)此,近日知名的SemiAnalysis公開(kāi)發(fā)布的《DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts》的報(bào)告中稱(chēng):DeepSeek論文中提到的600萬(wàn)美元成本僅指預(yù)訓(xùn)練運(yùn)行的GPU成本,這只是模型總成本的一小部分,他們?cè)谟布系幕ㄙM(fèi)遠(yuǎn)高于5億美元。例如為了開(kāi)發(fā)新的架構(gòu)創(chuàng)新,在模型開(kāi)發(fā)過(guò)程中,需要投入大量資金來(lái)測(cè)試新想法、新架構(gòu)思路,并進(jìn)行消融實(shí)驗(yàn)。開(kāi)發(fā)和實(shí)現(xiàn)這些想法需要整個(gè)團(tuán)隊(duì)投入大量人力和GPU計(jì)算時(shí)間。例如深度求索的關(guān)鍵創(chuàng)新—多頭潛在注意力機(jī)制(Multi-Head Latent Attention),就耗費(fèi)了數(shù)月時(shí)間。

無(wú)獨(dú)有偶,據(jù)外媒報(bào)道,李飛飛等斯坦福大學(xué)和華盛頓大學(xué)的研究人員以不到50美元的費(fèi)用,使用了16張英偉達(dá)H100 GPU,耗時(shí)26分鐘就完成了訓(xùn)練,成功“打造”出了一個(gè)名為s1-32B的人工智能推理模型。

有業(yè)內(nèi)觀點(diǎn)認(rèn)為,DeepSeek模型低成本并不客觀。

武漢大學(xué)計(jì)算機(jī)學(xué)院教授、中國(guó)人工智能學(xué)會(huì)心智計(jì)算專(zhuān)委會(huì)副主任蔡恒進(jìn)對(duì)TechWeb表示,DeepSeek在生成模型的成本在報(bào)告中已經(jīng)寫(xiě)的很清晰了,過(guò)于糾結(jié)前期的投入,有多少實(shí)際成本是不重要的,特別是對(duì)于國(guó)內(nèi)產(chǎn)業(yè)成本很低的情況下,前期做研究的成本也會(huì)比美國(guó)低很多。

蒸餾業(yè)內(nèi)通行做法,是非公婆各有理

除了上述的成本外,業(yè)內(nèi)對(duì)于DeepSeek爭(zhēng)議最大的還有就是其是否使用了蒸餾技術(shù),如果使用,究竟使用了誰(shuí)家的?

最先提出質(zhì)疑的是,是在DeepSeek R1發(fā)布之初,OpenAI和微軟均向媒體證實(shí),已掌握疑似DeepSeek通過(guò)“蒸餾”(distillation)技術(shù),利用OpenAI專(zhuān)有模型來(lái)訓(xùn)練其AI大模型。這使得DeepSeek能夠以較低的成本在特定任務(wù)上達(dá)到類(lèi)似的效果。OpenAI雖未進(jìn)一步提供證據(jù)的細(xì)節(jié),但根據(jù)其服務(wù)條款,用戶(hù)不得“復(fù)制”任何OpenAI的服務(wù),或“利用輸出結(jié)果開(kāi)發(fā)與OpenAI競(jìng)爭(zhēng)的模型”。

對(duì)于DeepSeek爆火之下,馬斯克一直罕見(jiàn)地并未發(fā)表評(píng)論,卻在最近點(diǎn)贊了一則推文。推文中提到了DeepSeek大量依賴(lài)模型蒸餾技術(shù),需要借助ChatGPT-4o和o1才能完成訓(xùn)練。盡管模型蒸餾是一項(xiàng)常見(jiàn)的技術(shù)手段,能夠?qū)penAI中的大量數(shù)據(jù)迅速提煉重點(diǎn)并快速理解和應(yīng)用,但這種模式只能讓DeepSeek接近OpenAI,而難以真正超越OpenAI。

除了國(guó)外,國(guó)內(nèi)關(guān)于DeepSeek V3曾在測(cè)試中出現(xiàn)過(guò)異常:該模型自稱(chēng)是OpenAI的ChatGPT,并能提供OpenAI的API使用說(shuō)明。專(zhuān)家認(rèn)為,這很可能是由于訓(xùn)練數(shù)據(jù)中混入了大量由ChatGPT生成的內(nèi)容(即“蒸餾”數(shù)據(jù)),導(dǎo)致模型發(fā)生了“身份混淆”。

此外,由中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院、北京大學(xué)、01.AI、南方科技大學(xué)、Leibowitz AI等多個(gè)知名機(jī)構(gòu)的研究團(tuán)隊(duì)聯(lián)合發(fā)表的《Distillation Quantification for Large Language Models(大語(yǔ)言模型的蒸餾量化)》論文則顯示DeepSeek V3的蒸餾過(guò)程可能主要來(lái)自GPT4o,且蒸餾程度較高。

該論文提出了一個(gè)系統(tǒng)化的框架,量化并評(píng)估大模型蒸餾的過(guò)程及其影響,采用了“響應(yīng)相似性評(píng)估(RSE)”和“身份一致性評(píng)估(ICE)”兩個(gè)量化指標(biāo)。RSE實(shí)驗(yàn)結(jié)果顯示,DeepSeek V3的蒸餾程度與GPT4o接近,評(píng)分為4.102,遠(yuǎn)高于其他模型(如Llama 3.1-70B和Doubao-Pro-32k)。在ICE實(shí)驗(yàn)中,DeepSeek V3也顯示出較高的蒸餾程度,屬于可疑響應(yīng)數(shù)量最多的模型之一。

對(duì)于蒸餾技術(shù)的爭(zhēng)議,蔡恒進(jìn)對(duì)TechWeb表示,DeepSeek完全蒸餾GPT的說(shuō)法是錯(cuò)誤的,ChatGPT的模型是閉源的,而DeepSeek展示了思考過(guò)程,這是抄不出來(lái)的?!癉eepSeek技術(shù)上是有創(chuàng)新的,過(guò)于糾結(jié)蒸餾這方面完全沒(méi)有意義?!辈毯氵M(jìn)說(shuō)道。

蔡恒進(jìn)認(rèn)為DeepSeek有著獨(dú)特的技術(shù)路徑優(yōu)勢(shì),它可以從底層優(yōu)化,可以繞開(kāi)英偉達(dá)CUDA生態(tài),可以大幅提升國(guó)產(chǎn)芯片做預(yù)訓(xùn)練的性能。

打破算力魔咒,未來(lái)算力還重要嗎?

基于我們前述成本的優(yōu)勢(shì),有業(yè)內(nèi)觀點(diǎn)認(rèn)為,DeepSeek的出現(xiàn),打破了英偉達(dá)等科技巨頭“堆積算力”的路徑,也就是說(shuō),美國(guó)AI巨頭們認(rèn)定的那個(gè)靠錢(qián)、靠更高算力芯片才能堆出來(lái)的更好的模型,不需要那么高昂的門(mén)檻了。

蔡恒進(jìn)對(duì)TechWeb表示,原來(lái)我們一直認(rèn)為不斷“堆積算力”才能提高AI模型能力,但Deepseek的出現(xiàn)走出了另一條路,即不一定要提升很高的參數(shù)規(guī)模就能實(shí)現(xiàn)很高的性能,可能對(duì)算力需求至少降到10倍以上?!岸阉懔Α北旧頉](méi)有錯(cuò),但隨著Deepseek的出現(xiàn)我們會(huì)發(fā)現(xiàn)這條路的性?xún)r(jià)比不高。

DeepSeek-V3極低的訓(xùn)練成本預(yù)示著AI大模型對(duì)算力投入的需求將大幅下降,但也有觀點(diǎn)認(rèn)為,DeepSeek表現(xiàn)固然優(yōu)秀,但其統(tǒng)計(jì)口徑只計(jì)算了預(yù)訓(xùn)練,數(shù)據(jù)的配比需要做大量的預(yù)實(shí)驗(yàn),合成數(shù)據(jù)的生成和清洗也需要消耗算力。

此外,在訓(xùn)練上做降本增效不代表算力需求會(huì)下降,只代表大廠(chǎng)可以用性?xún)r(jià)比更高的方式去做模型極限能力的探索。

業(yè)內(nèi)在討論算力時(shí),常引用蒸汽時(shí)代的杰文斯悖論來(lái)類(lèi)比。這一悖論由經(jīng)濟(jì)學(xué)家威廉?斯坦利?杰文斯提出,核心觀點(diǎn)是:當(dāng)某種資源的使用效率提高、獲取變得更容易時(shí),其總體使用量往往不減反增。以蒸汽機(jī)為例,燃油效率的提升降低了單位工作量所需的煤炭成本,反而刺激了更多的工業(yè)活動(dòng),導(dǎo)致煤炭的總體消耗量上升。蒸汽機(jī)效率的提升,不僅沒(méi)有減少對(duì)蒸汽機(jī)的需求,反而因?yàn)榧夹g(shù)的推廣和應(yīng)用場(chǎng)景的擴(kuò)大,進(jìn)一步增加了市場(chǎng)對(duì)蒸汽機(jī)的需求。DeepSeek 的發(fā)展也呈現(xiàn)出類(lèi)似的趨勢(shì):算力效率的提升并未減少對(duì)算力的需求,反而推動(dòng)了更多高算力應(yīng)用的落地,使得行業(yè)對(duì)算力的需求持續(xù)增長(zhǎng)。

對(duì)此,中信證券研報(bào)也指出,近日,DeepSeek-V3的正式發(fā)版引起AI業(yè)內(nèi)廣泛高度關(guān)注,其在保證了模型能力的前提下,訓(xùn)練效率和推理速度大幅提升。DeepSeek新一代模型的發(fā)布意味著AI大模型的應(yīng)用將逐步走向普惠,助力AI應(yīng)用廣泛落地;同時(shí)訓(xùn)練效率大幅提升,亦將助力推理算力需求高增。

而B(niǎo)loomberg Intelligence最近的一篇報(bào)告顯示,企業(yè)客戶(hù)可能會(huì)在2025年進(jìn)行更大規(guī)模的AI投資,而AI支出增長(zhǎng)將更側(cè)重于推理側(cè),以實(shí)現(xiàn)投資變現(xiàn)或提升生產(chǎn)力。

那么上述存有爭(zhēng)議的事實(shí)究竟如何?俗話(huà)說(shuō):讓子彈再飛一會(huì)吧!

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2025-02-10
爆火的DeepSeek引發(fā)成本、技術(shù)質(zhì)疑,未來(lái)算力還重要嗎?
近期,DeepSeek在AI大模型領(lǐng)域引發(fā)熱議,憑借其驚人的性能表現(xiàn)和低成本訓(xùn)練模式,迅速吸引了全球關(guān)注,且熱度一直不減。

長(zhǎng)按掃碼 閱讀全文