標(biāo)題:DeepSeek引發(fā)熱議:技術(shù)成本挑戰(zhàn)與算力未來的辯論
DeepSeek的出現(xiàn)無疑在AI大模型領(lǐng)域引發(fā)了一場熱議。憑借其驚人的性能表現(xiàn)和低成本訓(xùn)練模式,DeepSeek迅速吸引了全球關(guān)注,熱度一直不減。然而,隨之而來的,是其成本、技術(shù)以及為未來作為大模型基礎(chǔ)設(shè)施的算力引發(fā)了爭議。
首先,我們來看DeepSeek的成本問題。DeepSeek在原始報告中詳細(xì)解釋了這筆成本的計(jì)算:在預(yù)訓(xùn)練階段,每兆個token上訓(xùn)練DeepSeek-V3僅需要180K H800 GPU小時,也就是說,在擁有2048個H800 GPU的集群上需要3.7天。因此,我們的預(yù)訓(xùn)練階段在不到兩個月的時間內(nèi)完成,耗費(fèi)2664K GPU小時。加上上下文長度擴(kuò)充所需的119K GPU小時和后制訓(xùn)練所需的5K GPU小時,DeepSeek-V3的完整訓(xùn)練僅需2.788M GPU小時。假設(shè)H800 GPU的租賃價格為每GPU小時2美元,我們的總訓(xùn)練成本僅為557.6萬美元。然而,知名的SemiAnalysis發(fā)布的《DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts》的報告中指出,DeepSeek論文中提到的600萬美元成本僅指預(yù)訓(xùn)練運(yùn)行的GPU成本,這只是模型總成本的一小部分。他們在硬件上的花費(fèi)遠(yuǎn)高于這個數(shù)字。例如,為了開發(fā)新的架構(gòu)創(chuàng)新,在模型開發(fā)過程中,需要投入大量資金來測試新想法、新架構(gòu)思路,并進(jìn)行消融實(shí)驗(yàn)。開發(fā)和實(shí)現(xiàn)這些想法需要整個團(tuán)隊(duì)投入大量人力和GPU計(jì)算時間。例如DeepSeek的關(guān)鍵創(chuàng)新—多頭潛在注意力機(jī)制(Multi-Head Latent Attention),就耗費(fèi)了數(shù)月時間。這一點(diǎn)也得到了外媒的報道,李飛飛等斯坦福大學(xué)和華盛頓大學(xué)的研究人員以不到50美元的費(fèi)用,使用了16張英偉達(dá)H100 GPU,耗時26分鐘就完成了訓(xùn)練,成功“打造”出了一個名為s1-32B的人工智能推理模型。由此可見,DeepSeek的成本并非如一些觀點(diǎn)所認(rèn)為的那樣低廉。
接下來是技術(shù)問題。關(guān)于DeepSeek是否使用了蒸餾技術(shù),這是目前爭議的另一個焦點(diǎn)。最先提出質(zhì)疑的是OpenAI和微軟,他們向媒體證實(shí),已掌握疑似DeepSeek通過“蒸餾”(distillation)技術(shù),利用OpenAI專有模型來訓(xùn)練其AI大模型。盡管蒸餾是一項(xiàng)常見的技術(shù)手段,能夠?qū)penAI中的大量數(shù)據(jù)迅速提煉重點(diǎn)并快速理解和應(yīng)用,但這種模式只能讓DeepSeek接近OpenAI,而難以真正超越OpenAI。這一點(diǎn)也得到了蔡恒進(jìn)教授的觀點(diǎn)支持。他認(rèn)為DeepSeek在生成模型的成本在報告中已經(jīng)寫的很清晰了,過于糾結(jié)前期的投入,有多少實(shí)際成本是不重要的,特別是對于國內(nèi)產(chǎn)業(yè)成本很低的情況下,前期做研究的成本也會比美國低很多。此外,蒸餾業(yè)內(nèi)通行做法,是非公婆各有理。
最后是算力問題。基于我們前述成本的優(yōu)勢,有業(yè)內(nèi)觀點(diǎn)認(rèn)為DeepSeek的出現(xiàn)打破了英偉達(dá)等科技巨頭“堆積算力”的路徑。也就是說,美國AI巨頭們認(rèn)定的那個靠錢、靠更高算力芯片才能堆出來的更好的模型,不需要那么高昂的門檻了。然而蔡恒進(jìn)教授對此持有不同觀點(diǎn)。他認(rèn)為DeepSeek的發(fā)展走出了另一條路,即不一定要提升很高的參數(shù)規(guī)模就能實(shí)現(xiàn)很高的性能,可能對算力需求至少降到10倍以上。“堆算力”本身沒有錯,但隨著Deepseek的出現(xiàn)我們會發(fā)現(xiàn)這條路的性價比不高。DeepSeek-V3極低的訓(xùn)練成本預(yù)示著AI大模型對算力投入的需求將大幅下降。然而也有觀點(diǎn)認(rèn)為DeepSeek表現(xiàn)固然優(yōu)秀,但其統(tǒng)計(jì)口徑只計(jì)算了預(yù)訓(xùn)練,數(shù)據(jù)的配比需要做大量的預(yù)實(shí)驗(yàn),合成數(shù)據(jù)的生成和清洗也需要消耗算力。
回顧這場熱議,我們不禁要問:DeepSeek引發(fā)熱議究竟是技術(shù)的勝利還是成本的挑戰(zhàn)?是算力的未來還是技術(shù)的瓶頸?這一切都取決于我們?nèi)绾慰创屠斫釪eepSeek。我們不能忽視的是DeepSeek在技術(shù)上的創(chuàng)新和突破,也不能低估其對于未來AI發(fā)展的影響。與此同時,我們也應(yīng)看到其面臨的成本和技術(shù)挑戰(zhàn),以及對于算力需求的潛在變化。這些變化將如何影響未來的AI發(fā)展?讓我們拭目以待。畢竟,“讓子彈再飛一會”吧!
- 知乎搜索升級:DeepSeek-R1模型助陣,AI推理能力再提升
- 微信里的秘密世界:那些只有微信才能完成的任務(wù)
- 深挖財富秘籍的江湖亂象:真假李逵李鬼,別被忽悠了
- 百度文小言APP優(yōu)化拍照解題功能,一試成高手,輕松解決學(xué)習(xí)難題
- 現(xiàn)代汽車全固態(tài)電池邁向商業(yè)化,年底新車搭載首車亮相,顛覆傳統(tǒng)動力認(rèn)知
- 蘋果iOS 18.3.1緊急更新:別再忽視重大漏洞,你的隱私安全就靠它了!
- OpenAI自研芯片設(shè)計(jì)揭秘:臺積電代工,科技巨頭邁向自主研發(fā)新篇章
- 60家企業(yè)共同倡議:呼吁歐盟擺脫過度AI法規(guī),釋放創(chuàng)新活力
- 微軟為避免罰款漲價,Office Team版將成漲價重災(zāi)區(qū),反壟斷壓力山大
- 沙特投資巨擘押注AI芯片創(chuàng)新企業(yè)Groq:15億美元打造沙特AI新紀(jì)元
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。