以低成本模型挑戰(zhàn)巨頭:僅50美元,研究人員打造出媲美OpenAI o1推理神器
隨著人工智能技術(shù)的飛速發(fā)展,越來(lái)越多的研究者致力于開(kāi)發(fā)更強(qiáng)大、更靈活的模型。近期,一份研究報(bào)告顯示,斯坦福大學(xué)和華盛頓大學(xué)的人工智能研究人員僅花費(fèi)不到50美元的云計(jì)算費(fèi)用,就成功訓(xùn)練出一個(gè)具備“推理”能力的人工智能模型。這一成果引發(fā)了業(yè)界的廣泛關(guān)注,讓我們對(duì)未來(lái)的技術(shù)發(fā)展充滿(mǎn)了期待。
這個(gè)模型名為s1,其在數(shù)學(xué)和編程能力測(cè)試中的表現(xiàn)與OpenAI的o1和DeepSeek的r1等頂尖推理模型相似。值得一提的是,s1模型及其訓(xùn)練所用的數(shù)據(jù)和代碼已在GitHub上開(kāi)源,這一舉措充分展現(xiàn)了研究人員對(duì)公開(kāi)、共享的追求。
s1模型的訓(xùn)練過(guò)程并不復(fù)雜,研究人員使用了名為“蒸餾”的技術(shù)。該技術(shù)旨在通過(guò)訓(xùn)練模型來(lái)學(xué)習(xí)另一個(gè)人工智能模型的答案,從而提取其“推理”能力。研究人員透露,s1模型是通過(guò)對(duì)谷歌的推理模型Gemini 2.0 Flash Thinking Experimental進(jìn)行蒸餾得到的。上個(gè)月,加州大學(xué)伯克利分校的研究人員也使用了相同的蒸餾方法,以約450美元的成本創(chuàng)建了一個(gè)人工智能推理模型。
類(lèi)似s1模型的誕生,也引發(fā)了關(guān)于人工智能模型商品化的問(wèn)題。如果有人可以用相對(duì)較低的成本就能復(fù)制一個(gè)價(jià)值數(shù)百萬(wàn)美元的模型,那么大型科技公司的“護(hù)城河”在哪里呢?這一問(wèn)題值得深思。
然而,s1的研究團(tuán)隊(duì)表示,他們希望找到實(shí)現(xiàn)強(qiáng)大推理性能和“測(cè)試時(shí)擴(kuò)展”的最簡(jiǎn)單方法,這些是OpenAI的o1中的一些突破。他們強(qiáng)調(diào),使用一種名為監(jiān)督微調(diào)(SFT)的方法,可以使用相對(duì)較小的數(shù)據(jù)集來(lái)蒸餾推理模型。在SFT中,人工智能模型會(huì)被明確指示在數(shù)據(jù)集中模仿某些行為。這種方法相較于DeepSeek用于訓(xùn)練其R1模型的大規(guī)模強(qiáng)化學(xué)習(xí)方法更具成本效益。
盡管s1模型的成功令人矚目,但其背后的研究人員并未滿(mǎn)足于現(xiàn)狀。他們選擇了一種免費(fèi)的、小型、現(xiàn)成的免費(fèi)人工智能模型作為基礎(chǔ),并對(duì)其進(jìn)行了一定程度的修改和優(yōu)化。為了訓(xùn)練s1,研究人員創(chuàng)建了一個(gè)僅包含1000個(gè)精心策劃的問(wèn)題的數(shù)據(jù)集,以及這些問(wèn)題的答案,以及谷歌Gemini 2.0 Flash Thinking Experimental給出的每個(gè)答案背后的“思考”過(guò)程。這一過(guò)程充分展示了研究人員對(duì)數(shù)據(jù)集的精心策劃和細(xì)致入微的處理。
在訓(xùn)練完成后,s1在某些人工智能基準(zhǔn)測(cè)試中取得了良好的表現(xiàn)。參與該項(xiàng)目的斯坦福大學(xué)研究員Niklas Muennighoff告訴TechCrunch,目前租用這些計(jì)算資源的成本約為20美元。這一成本遠(yuǎn)低于市場(chǎng)平均水平,使得更多的人能夠接觸和使用這些高級(jí)技術(shù)。
為了進(jìn)一步優(yōu)化s1的性能,研究人員還使用了一個(gè)巧妙的技巧:他們讓s1“等待”。在s1的推理過(guò)程中添加“等待”一詞,有助于模型獲得稍微更準(zhǔn)確的答案。這一技巧的實(shí)施,無(wú)疑為人工智能領(lǐng)域帶來(lái)了新的思考方向。
總的來(lái)說(shuō),s1模型的誕生無(wú)疑為人工智能領(lǐng)域帶來(lái)了新的可能性。它以低成本實(shí)現(xiàn)了強(qiáng)大的推理能力,展示了人工智能技術(shù)的無(wú)限潛力。這一成果不僅對(duì)研究者具有重要意義,也為未來(lái)的技術(shù)發(fā)展指明了方向。我們期待著s1模型在未來(lái)能夠取得更多的突破性成果,為人類(lèi)社會(huì)帶來(lái)更多的便利和進(jìn)步。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )