人們注意到,ChatGPT開(kāi)始變“笨”了

一項(xiàng)由斯坦福大學(xué)和加州大學(xué)伯克利分校的研究人員進(jìn)行的研究表明,ChatGPT的準(zhǔn)確性已經(jīng)變差。

研究人員發(fā)現(xiàn),ChatGPT的行為在一定時(shí)間內(nèi)發(fā)生了明顯變化,而且沒(méi)有好轉(zhuǎn)。更令人不安的是,沒(méi)有人能對(duì)這種令人不安的惡化給出一個(gè)好的解釋。

為了檢查ChatGPT的GPT-3.5和GPT-4程序的一致性,研究小組測(cè)試了AI的“漂移”傾向,即提供不同水平的質(zhì)量和準(zhǔn)確性的答案,以及它是否能夠正確地遵循給定的命令。研究人員要求ChatGPT-3.5和GPT-4解決數(shù)學(xué)問(wèn)題、回答敏感和危險(xiǎn)的問(wèn)題、從提示中進(jìn)行視覺(jué)推理并生成代碼。

在他們的回顧中,該團(tuán)隊(duì)發(fā)現(xiàn)“總體而言……‘相同’LLM(大語(yǔ)言模型)服務(wù)的行為可以在相對(duì)較短的時(shí)間內(nèi)發(fā)生重大變化,這凸顯了需要對(duì)LLM質(zhì)量進(jìn)行持續(xù)監(jiān)控。”例如,GPT-4在2023年3月識(shí)別質(zhì)數(shù)的準(zhǔn)確率幾乎為98%。然而,到2023年6月,GPT-4在同一任務(wù)上的準(zhǔn)確率戲劇性地下降到不到3%。與此同時(shí),2023年6月的GPT-3.5在質(zhì)數(shù)識(shí)別方面比其2023年3月版本有所提高。在生成計(jì)算機(jī)代碼方面,兩個(gè)版本在3月和6月之間生成計(jì)算機(jī)代碼的能力都變差了。

這些差異可能會(huì)對(duì)現(xiàn)實(shí)世界產(chǎn)生影響,并很快見(jiàn)效。本月早些時(shí)候,紐約大學(xué)的一個(gè)研究小組在《JMIR醫(yī)學(xué)教育》雜志上發(fā)表的一篇論文表明,ChatGPT對(duì)與保健相關(guān)的查詢的回答在語(yǔ)氣和措辭上似乎與人類醫(yī)療專業(yè)人員無(wú)異。研究人員向392人展示了10個(gè)病人的問(wèn)題及答案,其中一半來(lái)自人類保健提供者,另一半來(lái)自O(shè)penAI的LLM。參與者“難以”區(qū)分人類和聊天機(jī)器人筆下的回答。與此同時(shí),人們?cè)絹?lái)越擔(dān)心AI處理醫(yī)療數(shù)據(jù)隱私的能力,以及它“幻想”不準(zhǔn)確信息的傾向。

不僅學(xué)術(shù)界注意到了ChatGPT的收益遞減。OpenAI的開(kāi)發(fā)者論壇一直在就LLM的進(jìn)步(或缺乏進(jìn)步)進(jìn)行持續(xù)辯論?!笆欠裼腥苏浇鉀Q這個(gè)問(wèn)題?作為付費(fèi)客戶,它從偉大的副廚師變成了洗碗工。真的希望得到一個(gè)正式的回復(fù),”一個(gè)用戶本月早些時(shí)候?qū)懙馈?/p>

OpenAI的LLM研發(fā)一直被嚴(yán)格封閉,不對(duì)外審查,這一策略引發(fā)了行業(yè)專家和用戶的強(qiáng)烈反彈和批評(píng)?!昂茈y說(shuō)清楚為什么會(huì)發(fā)生這種情況,”加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)副教授、Databricks首席技術(shù)官,也是ChatGPT質(zhì)量審查論文的合著者之一Matei Zaharia周三在推特上寫道。Zaharia繼續(xù)推測(cè),強(qiáng)化學(xué)習(xí)人類反饋(RLHF)可能與微調(diào)“遇到了瓶頸”,但也承認(rèn)可能僅僅是系統(tǒng)中的錯(cuò)誤。

因此,雖然ChatGPT可能通過(guò)了基本的圖靈測(cè)試基準(zhǔn),但其不均衡的質(zhì)量仍對(duì)公眾構(gòu)成了重大挑戰(zhàn)和擔(dān)憂,與此同時(shí),幾乎沒(méi)有什么能阻止它們繼續(xù)擴(kuò)散和融入日常生活。

本文譯自 Popular Science,由 BALI 編輯發(fā)布。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

贊助商
2023-07-20
人們注意到,ChatGPT開(kāi)始變“笨”了
一項(xiàng)由斯坦福大學(xué)和加州大學(xué)伯克利分校的研究人員進(jìn)行的研究表明,ChatGPT的準(zhǔn)確性已經(jīng)變差。研究人員發(fā)現(xiàn),ChatGPT的行為在一定時(shí)間內(nèi)發(fā)生了明顯變化,而且沒(méi)有好轉(zhuǎn)。

長(zhǎng)按掃碼 閱讀全文