模型“越大越好”理念已過?AI大佬:要找到新突破口

11月12日消息,像OpenAI這樣的人工智能公司正致力于開發(fā)新型訓(xùn)練技術(shù),以便克服在構(gòu)建更大規(guī)模語言模型時遇到的意外延遲和挑戰(zhàn)。這些技術(shù)旨在使算法以更類似于人類的方式“思考”。

多位人工智能領(lǐng)域的科學(xué)家、研究人員和投資者認為,OpenAI最新發(fā)布的o1模型,其背后的技術(shù)可能會重塑人工智能領(lǐng)域的競爭格局,并影響人工智能公司對資源(如能源和芯片類型)的持續(xù)需求。

OpenAI對此未予置評。自聊天機器人ChatGPT發(fā)布以來,眾多科技公司從人工智能熱潮中受益,估值大幅上升。這些公司公開宣稱,通過增加數(shù)據(jù)和計算能力來“擴大”模型規(guī)模,可以持續(xù)改進人工智能技術(shù)。

然而,一些頂尖科學(xué)家現(xiàn)在公開指出,模型“越大越好”的理念存在局限性。OpenAI前首席科學(xué)家、Safe Superintelligence(SSI)創(chuàng)始人伊利亞·蘇茨克維(Ilya Sutskever)表示,擴大預(yù)訓(xùn)練方式已進入瓶頸期。預(yù)訓(xùn)練是指訓(xùn)練人工智能模型的階段,模型使用大量未標記的數(shù)據(jù)來理解語言模式和結(jié)構(gòu)。

蘇茨克維曾倡導(dǎo)通過增加數(shù)據(jù)和計算能力來推動生成式人工智能的進步,并因此創(chuàng)造了ChatGPT。今年早些時候,蘇茨克維離開OpenAI,并成立了SSI。他指出:“2010年代是模型規(guī)模擴張的時代,而現(xiàn)在我們又回到了奇跡和發(fā)現(xiàn)的時代。每個人都在尋找下一個突破點,現(xiàn)在選擇正確的擴展方式比以往任何時候都更為重要?!?/p>

蘇茨克維未透露SSI團隊在探索的新方法的具體細節(jié),僅表示團隊正在研究擴大預(yù)訓(xùn)練規(guī)模的替代途徑。

據(jù)三位知情人士透露,主要人工智能實驗室的研究人員在試圖發(fā)布超越OpenAI GPT-4模型性能的大語言模型時,遇到了延遲和一些不盡如人意的結(jié)果,而GPT-4模型至今已推出近兩年。

這些大模型的“訓(xùn)練運行”不僅成本高昂,可能達到數(shù)千萬美元,而且需要同時運行數(shù)百個芯片,系統(tǒng)復(fù)雜,硬件故障風(fēng)險也較高。此外,研究人員通常要等上數(shù)月才能評估模型的最終性能,這增加了開發(fā)過程中的不確定性。

更為棘手的是,大語言模型對數(shù)據(jù)的需求量極大,當(dāng)前人工智能模型已幾乎耗盡全球所有易獲取的數(shù)據(jù)資源。同時,電力短缺也成為限制訓(xùn)練運行的另一大難題,因為這一過程需要巨大的能源支持。

為應(yīng)對這些挑戰(zhàn),研究人員正積極探索“測試時間計算”技術(shù),該技術(shù)在模型的“推理”階段增強其性能。例如,模型能夠?qū)崟r生成并評估多種可能性,最終選擇最佳路徑,而非立即給出答案。

這種方法允許模型將更多的處理能力用于具有挑戰(zhàn)性的任務(wù),如數(shù)學(xué)或編碼問題,或是需要類似人類推理和決策的復(fù)雜操作。

OpenAI研究員諾姆·布朗(Noam Brown)上個月在舊金山舉行的TED人工智能大會上表示:“事實證明,讓機器人在撲克牌游戲中思考20秒,與將模型擴大訓(xùn)練10萬倍的效果相當(dāng)?!?/p>

OpenAI在其新發(fā)布的o1模型中采用了“測試時間計算”技術(shù),該模型原名Q*和“草莓”,能以多步驟方式“思考”問題,類似于人類的推理方式。同時,o1模型還結(jié)合了博士和行業(yè)專家的數(shù)據(jù)與反饋。其核心是在GPT-4等“基礎(chǔ)”模型之上進行了額外的訓(xùn)練。OpenAI表示,計劃將此技術(shù)應(yīng)用于更多、更大的基礎(chǔ)模型。

與此同時,據(jù)五名知情人士透露,Anthropic、xAI及谷歌DeepMind等其他頂尖人工智能實驗室的研究人員也在積極研發(fā)各自的“測試時間計算”技術(shù)。

OpenAI首席產(chǎn)品官凱文·威爾(Kevin Weil)在10月的一次科技會議上表示:“當(dāng)前有很多成果觸手可及,我們可以迅速采納,進一步提升模型性能。當(dāng)競爭對手追趕時,我們將力求保持領(lǐng)先三步?!?/p>

谷歌和xAI未回應(yīng)置評請求,Anthropic也暫未發(fā)表評論。

這一趨勢或?qū)⒅厮苋斯ぶ悄苡布母偁幐窬帧F駷橹?,對英偉達人工智能芯片的需求一直占據(jù)市場主導(dǎo)地位。知名風(fēng)險投資機構(gòu)如紅杉資本和安德森·霍洛維茨(Andreessen Horowitz)等已敏銳捕捉到這一轉(zhuǎn)變,并正在評估其高額投資的影響。這些機構(gòu)已向OpenAI、xAI等多家人工智能實驗室的人工智能模型開發(fā)投入巨資。

紅杉資本合伙人索尼婭·黃(Sonya Huang)表示:“這一轉(zhuǎn)變將引領(lǐng)我們從大規(guī)模預(yù)訓(xùn)練集群邁向基于云的分布式推理服務(wù)器——推理云。”

英偉達最先進的人工智能芯片需求激增,推動該公司市值在10月份超越蘋果,成為全球市值最高的公司。然而,與英偉達在訓(xùn)練芯片市場的主導(dǎo)地位不同,這家芯片巨頭在推理市場可能會面臨更多競爭。

針對其產(chǎn)品需求可能受到的影響,英偉達回應(yīng)稱,在最近的演示中已強調(diào)o1模型背后技術(shù)的重要性。英偉達首席執(zhí)行官黃仁勛指出,使用其芯片進行推理的需求正在不斷上升。

他在印度的一次會議上表示:“我們現(xiàn)已發(fā)現(xiàn)第二個縮放定律,即推理時的縮放定律……所有這些因素共同推動了Blackwell(該公司最新的人工智能芯片)需求的激增?!保ㄐ⌒。?/p>

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2024-11-13
模型“越大越好”理念已過?AI大佬:要找到新突破口
開發(fā)新型訓(xùn)練技術(shù)

長按掃碼 閱讀全文