12月21日消息,據(jù)外媒報(bào)道,在發(fā)布o(jì)1滿血版、視頻生成模型Sora等之后,OpenAI連續(xù)12天的直播活動(dòng)在當(dāng)?shù)貢r(shí)間周五進(jìn)入了最后1天,他們?cè)诋?dāng)天的發(fā)布會(huì)上宣布了更強(qiáng)的o3系列人工智能模型。
同第1天、第3天和第5天的直播一樣,OpenAI CEO 薩姆·奧爾特曼(Sam Altman)也參與了他們第12天的直播,o3系列大模型也是由他在直播中宣布的。
OpenAI在9月份推出了o1系列大模型,他們周五推出o3系列,在命名上就越過(guò)了o2,沒(méi)有遵循數(shù)字一樣的連續(xù)命名方式。對(duì)于越過(guò)o2,有外媒在報(bào)道中稱可能是為了避免和英國(guó)電信運(yùn)營(yíng)商O2在命名上產(chǎn)生紛爭(zhēng)。而在當(dāng)天的直播中,薩姆·奧爾特曼承認(rèn)了他們?cè)诿系牟蛔?,他表示基于OpenAI不太擅長(zhǎng)命名的傳統(tǒng),新的大模型被命名為o3。
同9月份推出的o1系列大模型一樣,OpenAI新宣布的o3系列大模型也有o3和o3 mini兩款,不過(guò)尚未正式發(fā)布,o3 mini是預(yù)計(jì)會(huì)在明年年初發(fā)布。
在OpenAI此前推出的大模型中,能力在持續(xù)提升,新宣布的o3系列也不例外。
從OpenAI方面公布的消息來(lái)看,o3大模型在測(cè)試中的表現(xiàn)明顯強(qiáng)于他們之前推出的大模型,在部分測(cè)試中的表現(xiàn)已經(jīng)達(dá)到了人類的水平。
在ARC-AGI測(cè)試中,o3在低推理能力設(shè)置下的得分達(dá)到了75.7%,是o1的3倍,在高推理能力設(shè)置下則是高達(dá)87.5%,超過(guò)了85%的人類門檻。
在數(shù)學(xué)推理及解決問(wèn)題的能力方面,o3也表現(xiàn)不俗,在2024年AIME測(cè)試中,o3的準(zhǔn)確率達(dá)到了96.7%。
在編碼和軟件工程方面,o3的能力較o1也有大幅提升,在SWE-Bench認(rèn)證中,o3的得分為71.7%,較o1提升了22.8個(gè)百分點(diǎn)。
值得注意的是,有外媒在報(bào)道中提到,在Codeforces的測(cè)試中,o3的得分為2727,比OpenAI首席科學(xué)家的得分還高。
雖然OpenAI的o3系列大模型要在明年才會(huì)正式發(fā)布,但他們?cè)诠倬W(wǎng)已表示,安全研究人員可以申請(qǐng)用于測(cè)試,從當(dāng)?shù)貢r(shí)間周五開(kāi)始接受申請(qǐng),截止時(shí)間為明年1月10日。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )