DeepSeek R1通過創(chuàng)新的多階段強化學習(RL)訓練方法,采用組相關策略優(yōu)化 (GRPO),在復雜推理任務中表現(xiàn)不俗,甚至有望超越OpenAI的o1模型。
DeepSeek AI發(fā)布了其最新的模型DeepSeek-R1,這是一款在復雜推理任務中與OpenAI的o1模型相媲美的開源模型。它采用了一種名為組相關策略優(yōu)化(GRPO)的強化學習算法,并通過多階段訓練方法不斷優(yōu)化。這一新算法旨在提升大型語言模型(LLM)的推理能力,尤其在數(shù)學推理等領域表現(xiàn)尤為突出。
GRPO的核心概念是通過取消對價值函數(shù)模型的依賴來簡化訓練過程。這一創(chuàng)新不僅減少了內存消耗和計算開銷,還能通過組內得分來估算基準,從而優(yōu)化模型性能。與傳統(tǒng)的Proximal Policy Optimization(PPO)不同,GRPO不依賴單獨的價值函數(shù),而是使用多個輸出的平均獎勵作為基準進行優(yōu)化。通過這種方式,模型可以更自然地處理多輸出的情況,如同在處理單一輸入時一樣。
DeepSeek團隊在構建DeepSeek R1的過程中,首先基于DeepSeek V3進行強化學習實驗,嘗試應用GRPO對無監(jiān)督推理文本進行補全。使用規(guī)則獎勵模型,重點評估格式、數(shù)學和編程等領域的表現(xiàn)。比如,通過獎勵準確性來評估是否得出了正確的答案,或者是否解決了LeetCode問題;通過獎勵格式來確保模型在思考過程中,能將其思維過程清晰地表達出來。
這些措施顯著提升了DeepSeek R1在AIME 2024的表現(xiàn),Pass@1得分從15.6%躍升至71.0%,接近OpenAI o1-0912的水平。隨著問題的解答中token的數(shù)量增加,模型表現(xiàn)出自然地學會了在更長時間內思考并生成更多tokens來完成任務。
然而,這種進步并非沒有代價。早期的模型輸出可讀性較差,語言混雜,但通過多階段的訓練方法,這一問題得到了解決。
在訓練過程中,DeepSeek R1經歷了四個關鍵階段,以確保模型的穩(wěn)定性和有效性。首先,團隊進行了監(jiān)督微調(SFT),以解決強化學習冷啟動階段的不穩(wěn)定問題,并使用了包含大量鏈式思維(CoT)的數(shù)據(jù)集。接下來,模型在代碼和數(shù)學等推理任務中應用GRPO,加入了“語言一致性”的獎勵,以確保模型語言風格的一致性。第三階段,通過拒絕采樣(RS)生成大量合成數(shù)據(jù)集,重點提高模型在寫作和角色扮演等通用任務中的能力。最后,在第四階段,GRPO再次被應用,以結合規(guī)則和結果獎勵模型,進一步優(yōu)化模型的有用性和無害性,從而最終形成了DeepSeek R1。
其中,DeepSeek團隊有幾項驚人的選擇和發(fā)現(xiàn)。與許多模型不同,DeepSeek并沒有使用蒙特卡洛樹搜索(MCTS)或過程獎勵模型(PRM)。而且,通過在應用GRPO之前進行微調,訓練過程變得更快、更穩(wěn)定。特別是,基于準確性和格式的規(guī)則獎勵,往往比復雜的獎勵模型更加有效。
通過這一系列創(chuàng)新的訓練步驟,DeepSeek R1不僅在推理能力上取得了顯著進展,還能在各種任務中展現(xiàn)出更高的實用性和一致性。
本文譯自 philschmid,由 BALI 編輯發(fā)布。
(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )