3月1日消息,AI公司DeepSeek為期五天的 “代碼開(kāi)源周” 告一段落。
本周一至周五,DeepSeek以每日不定時(shí)一更的頻率,開(kāi)源多個(gè)代碼庫(kù),涵蓋FlashMLA、DeepEP通信庫(kù)、DeepGEMM、并行優(yōu)化策略、并行文件系統(tǒng)3FS。
DeepSeek認(rèn)為:通用人工智能(AGI)不存在“高高在上的象牙塔”,而是秉持車庫(kù)創(chuàng)業(yè)精神,與社區(qū)共同構(gòu)建創(chuàng)新力量。
五天的代碼開(kāi)源,展示了DeepSeek在優(yōu)化大模型訓(xùn)練、推理、通信以及文件系統(tǒng)方面的技術(shù)創(chuàng)新與突破。這些開(kāi)源項(xiàng)目不僅提升了AI模型的性能和效率,也為AI領(lǐng)域的研究者和開(kāi)發(fā)者提供了寶貴的資源和工具。
從模型開(kāi)源,到代碼開(kāi)源,DeepSeek憑一己之力,重塑了大模型世界。
英偉達(dá)跌落神壇
在這一周里,AI大模型火起來(lái)至今的最大贏家(賺錢最多)英偉達(dá)發(fā)布了最新財(cái)報(bào)。但是股價(jià)已經(jīng)連跌多日,從130多美元跌到120美元左右。
英偉達(dá)2025財(cái)年第四季度營(yíng)收同比增長(zhǎng)78%,較此前連續(xù)五個(gè)季度三位數(shù)增長(zhǎng)的態(tài)勢(shì)顯著放緩,且同比增速為近兩年來(lái)最低水平。2024財(cái)年第四季度曾達(dá)到265%的峰值?。
分析師們?cè)诜治鲇ミ_(dá)營(yíng)收增速放緩的原因時(shí)認(rèn)為一方面是微軟、Meta等核心客戶同步研發(fā)自研芯片以減少對(duì)英偉達(dá)的依賴;一方面是?DeepSeek-R1低成本AI模型降低算力需求,部分削弱市場(chǎng)對(duì)英偉達(dá)高端芯片的依賴?。
當(dāng)日,英偉達(dá)股價(jià)大跌8.5%,市值蒸發(fā)2740億美元。
一個(gè)月前,DeepSeek發(fā)布的低成本、高性能開(kāi)源推理模型R1引發(fā)市場(chǎng)震動(dòng),英偉達(dá)股價(jià)一度暴跌近17%。
盡管英偉達(dá)CEO黃仁勛強(qiáng)調(diào),DeepSeek的開(kāi)源工具和低成本模型雖然對(duì)行業(yè)產(chǎn)生了沖擊,但英偉達(dá)通過(guò)軟硬件協(xié)同優(yōu)化,依然保持了在AI芯片領(lǐng)域的領(lǐng)先地位。
但是也未能阻止投資者對(duì)其業(yè)績(jī)?cè)鏊俜啪彙⒚氏陆导爸袊?guó)AI公司DeepSeek的影響的擔(dān)憂。
被改變的還有同行。
OpenAI最新大模型GPT-4.5被槽太貴
閉源大模型no1的OpenAI在周五發(fā)布了最新的最強(qiáng)大模型GPT-4.5,當(dāng)然也是最貴的。
GPT-4.5是OpenAI史上參數(shù)規(guī)模最大的模型,其計(jì)算量是上一代的10倍。GPT-4.5的API價(jià)格為每百萬(wàn)Tokens 75美元,相較上一代GPT-4o的2.5美元上漲30倍。
GPT-4.5不是一個(gè)專注于推理的模型,GPT-4.5并不能完全替代GPT-4o,在基準(zhǔn)測(cè)試中它的某些能力低于o1、o3-mini。
這款被網(wǎng)友吐槽“貴得要死”的大模型,并沒(méi)能如OpenAI此前的歷屆旗艦大模型發(fā)布時(shí)一樣引發(fā)好評(píng)熱議如潮?,F(xiàn)在,更多人會(huì)用DeepSeek來(lái)酸它:有免費(fèi)好用的DeepSeek開(kāi)源可用,給我一個(gè)花這么多錢用你的理由?
附上DeepSeek代碼開(kāi)源周內(nèi)容:
2月24日:Flash MLA開(kāi)源
(詳情: https://www.techweb.com.cn/it/2025-02-24/2957370.shtml)
?開(kāi)源內(nèi)容?:DeepSeek開(kāi)源了Flash MLA,這是一個(gè)針對(duì)英偉達(dá)Hopper GPU優(yōu)化的高效MLA(Multi-head Latent Attention,多頭潛注意力)解碼內(nèi)核。
?核心特性?:特別針對(duì)可變長(zhǎng)度序列進(jìn)行優(yōu)化,使用基準(zhǔn)為Hopper GPU、CUDA 12.3及以上版本、PyTorch 2.0及以上版本。在H800 SXM5平臺(tái)上,內(nèi)存受限配置下可達(dá)最高3000GB/s,計(jì)算受限配置下可達(dá)峰值580 TFLOPS。
?技術(shù)亮點(diǎn)?:FlashMLA的設(shè)計(jì)參考了FlashAttention 2&3以及CUTLASS的技術(shù)實(shí)現(xiàn),通過(guò)KV壓縮與潛在變量、低秩降維技術(shù)、動(dòng)態(tài)序列處理等優(yōu)化,顯著減少了大模型訓(xùn)練和推理過(guò)程中的內(nèi)存占用。
2月25日:DeepEP通信庫(kù)開(kāi)源
(詳情:https://www.techweb.com.cn/it/2025-02-25/2957421.shtml)
?開(kāi)源內(nèi)容?:DeepSeek開(kāi)源了DeepEP,這是一個(gè)用于MoE(混合專家)模型訓(xùn)練和推理的EP(Expert Parallelism)通信庫(kù)。
?核心特性?:為所有GPU內(nèi)核提供高吞吐量和低延遲,支持低精度操作(包括FP8)。針對(duì)NVLink到RDMA的非對(duì)稱帶寬轉(zhuǎn)發(fā)場(chǎng)景進(jìn)行深度優(yōu)化,提供高吞吐量,并支持SM數(shù)量控制。
?技術(shù)亮點(diǎn)?:對(duì)于對(duì)延遲敏感的推理解碼,DeepEP包含一組低延遲內(nèi)核和純RDMA,以最大限度地減少延遲。同時(shí),引入了一種基于鉤子的通信計(jì)算重疊方法,不占用任何SM資源。
2月26日:DeepGEMM代碼庫(kù)開(kāi)源
?(詳情:https://www.techweb.com.cn/it/2025-02-26/2957487.shtml)
開(kāi)源內(nèi)容?:DeepSeek開(kāi)源了DeepGEMM代碼庫(kù),專為簡(jiǎn)潔高效的FP8通用矩陣乘法(GEMMs)而設(shè)計(jì)。
?核心特性?:同時(shí)支持普通的和專家混合(MoE)分組的GEMM運(yùn)算,為V3/R1訓(xùn)練和推理提供動(dòng)力支持。使用CUDA編寫(xiě),無(wú)需編譯,通過(guò)輕量級(jí)即時(shí)編譯模塊在運(yùn)行時(shí)編譯所有內(nèi)核。
?技術(shù)亮點(diǎn)?:DeepGEMM設(shè)計(jì)簡(jiǎn)潔,代碼量約為300行,但性能在各種矩陣形狀上與專家調(diào)優(yōu)的庫(kù)相匹配或超越。在H800上測(cè)試,計(jì)算性能最高可達(dá)1358 TFLOPS,內(nèi)存寬帶最高可達(dá)2668 GB/s。
2月27日:并行優(yōu)化策略開(kāi)源
(詳情:https://www.techweb.com.cn/internet/2025-02-27/2957552.shtml)
開(kāi)源內(nèi)容?:DeepSeek開(kāi)源了三項(xiàng)并行優(yōu)化策略,包括DualPipe、EPLB和Profile-data。
DualPipe?:一種用于V3/R1模型訓(xùn)練中實(shí)現(xiàn)計(jì)算與通信重疊的雙向流水線并行算法,顯著減少管道氣泡(空閑時(shí)間)。
EPLB?:一個(gè)針對(duì)V3/R1的專家并行負(fù)載均衡工具,根據(jù)估計(jì)的專家負(fù)載計(jì)算平衡的專家復(fù)制和放置計(jì)劃。
Profile-data?:DeepSeek基礎(chǔ)設(shè)施中的數(shù)據(jù)分析,包括來(lái)自訓(xùn)練和推理框架的性能剖析數(shù)據(jù),旨在幫助社區(qū)更深入地理解通信與計(jì)算重疊策略及相關(guān)底層實(shí)現(xiàn)細(xì)節(jié)。
2月28日:3FS文件系統(tǒng)開(kāi)源
?(詳情:https://www.techweb.com.cn/internet/2025-02-28/2957580.shtml)
開(kāi)源內(nèi)容?:DeepSeek開(kāi)源了Fire-Flyer文件系統(tǒng)(3FS),一個(gè)高性能并行文件系統(tǒng)。
?核心特性?:應(yīng)對(duì)AI訓(xùn)練和推理工作負(fù)載的挑戰(zhàn),利用現(xiàn)代SSD和RDMA網(wǎng)絡(luò)提供共享存儲(chǔ)層,簡(jiǎn)化分布式應(yīng)用程序的開(kāi)發(fā)。在由180個(gè)存儲(chǔ)節(jié)點(diǎn)組成的大型測(cè)試集群上,總讀取吞吐量達(dá)到約6.6個(gè)TIB/S。
?技術(shù)亮點(diǎn)?:3FS的主要功能和優(yōu)勢(shì)包括性能和可用性、強(qiáng)一致性、文件接口開(kāi)發(fā)、多樣化的工作負(fù)載(如數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)加載器、檢查點(diǎn)、用于推理的KVCache)等。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )