摘要
虛擬環(huán)境在復雜規(guī)劃和決策任務(wù)中至關(guān)重要,但手動構(gòu)建代價高昂且復雜。本文探討當前語言模型能否作為世界模擬器,準確預(yù)測行動對不同世界狀態(tài)的改變,從而省去大量手動編碼。我們提出了一個名為ByteSized32-State-Prediction的新基準,包含文本游戲狀態(tài)轉(zhuǎn)換數(shù)據(jù)集及相關(guān)任務(wù),用以量化語言模型作為文本世界模擬器的能力。測試結(jié)果顯示,盡管GPT-4表現(xiàn)優(yōu)異,但在沒有進一步創(chuàng)新的情況下,仍難以成為可靠的世界模擬器。本文不僅提供了對當前語言模型能力和弱點的新見解,還提出了一個追蹤未來進展的新基準。
結(jié)果
預(yù)測由動作驅(qū)動的狀態(tài)轉(zhuǎn)換比環(huán)境驅(qū)動的狀態(tài)轉(zhuǎn)換更容易:
GPT-4能正確模擬77.1%的動態(tài)動作驅(qū)動的轉(zhuǎn)換,而對動態(tài)環(huán)境驅(qū)動的轉(zhuǎn)換則最多能正確模擬49.7%。這表明模擬底層環(huán)境動態(tài)可能是LLM-Sim任務(wù)中最具挑戰(zhàn)的部分。
預(yù)測靜態(tài)轉(zhuǎn)換比動態(tài)轉(zhuǎn)換更容易:
在大多數(shù)情況下,模擬靜態(tài)轉(zhuǎn)換比動態(tài)轉(zhuǎn)換容易得多。雖然LLM需要確定給定初始狀態(tài)和動作是否會導致狀態(tài)變化,但動態(tài)轉(zhuǎn)換還需利用上下文信息模擬與底層游戲引擎完全相同的動態(tài)。
預(yù)測完整游戲狀態(tài)對動態(tài)狀態(tài)更容易,而預(yù)測狀態(tài)差異對靜態(tài)狀態(tài)更容易:
對動態(tài)狀態(tài)的狀態(tài)差異預(yù)測顯著提高了模擬靜態(tài)轉(zhuǎn)換的性能(>10%),但在模擬動態(tài)轉(zhuǎn)換時則會降低性能。這可能是因為狀態(tài)差異預(yù)測旨在減少潛在的格式錯誤。然而,GPT-4在大多數(shù)情況下能夠正確輸出響應(yīng)格式,而引入狀態(tài)差異增加了任務(wù)輸出格式的復雜性。
游戲規(guī)則重要,LLMs能夠生成足夠好的游戲規(guī)則:
在上下文信息中沒有提供游戲規(guī)則時,GPT-4在所有三種模擬任務(wù)中的表現(xiàn)都會下降。然而,我們未發(fā)現(xiàn)人類專家生成的游戲規(guī)則與LLMs生成的游戲規(guī)則之間有明顯的性能差異。
GPT-4能夠在大多數(shù)情況下預(yù)測游戲進展:
在上下文信息中有游戲規(guī)則時,GPT-4能在92.1%的測試用例中正確預(yù)測游戲進展。這表明規(guī)則的存在至關(guān)重要:沒有它們,GPT-4的預(yù)測準確率降至61.5%。
人類在LLM-Sim任務(wù)上的表現(xiàn)優(yōu)于GPT-4:
我們對LLM-Sim任務(wù)進行了初步的人類研究。在GPT-4表現(xiàn)最差的5個ByteSized32-SP數(shù)據(jù)集游戲中,每個游戲隨機抽取20個游戲以平衡動態(tài)和靜態(tài)轉(zhuǎn)換的比例。4位作者作為人類注釋者使用人類生成的規(guī)則進行完整游戲狀態(tài)預(yù)測,結(jié)果顯示人類準確率為80%,而GPT-4的準確率為50%。這表明盡管該任務(wù)對人類來說相對簡單,但LLMs仍有很大改進空間。
需要算術(shù)、常識或科學知識時,GPT-4更容易出錯:
大多數(shù)錯誤發(fā)生在模擬動態(tài)轉(zhuǎn)換時,我們進一步分析了GPT-4在這一設(shè)置下的錯誤模式。結(jié)果顯示,GPT-4能處理大多數(shù)簡單的布爾值屬性,但在需要算術(shù)(如溫度)、常識(如光圈)或科學知識(如焦點)時錯誤較多。當同時預(yù)測動作驅(qū)動和環(huán)境驅(qū)動的轉(zhuǎn)換時,GPT-4更傾向于動作驅(qū)動的轉(zhuǎn)換,導致在僅模擬環(huán)境驅(qū)動的轉(zhuǎn)換時,未更改的值錯誤更多。
結(jié)論
我們提出了ByteSized32-State-Prediction基準,用于測試LLMs作為模擬器的能力。我們在這一任務(wù)上評估了GPT-4,結(jié)果表明,在涉及非平凡變化的狀態(tài)轉(zhuǎn)換中,最佳表現(xiàn)為59.9%。模擬錯誤會在多個步驟中累積,因此單步準確率有限的模擬器在實際應(yīng)用中的效用有限。我們的結(jié)果表明,LLMs尚不能可靠地充當文本世界模擬器。進一步的錯誤分析顯示,雖然LLMs在模擬用戶操作結(jié)果方面更好,但處理環(huán)境驅(qū)動的轉(zhuǎn)換以及需要算術(shù)、常識或科學知識的轉(zhuǎn)換仍然困難。
限制與倫理問題
限制
我們只考慮了GPT-3.5和GPT-4兩種強大的上下文學習語言模型,盡管它們在多種基準測試中表現(xiàn)優(yōu)異,但我們未全面評估所有大型語言模型,其他模型可能表現(xiàn)更好。我們提出這一基準用于評估現(xiàn)有和未來模型在準確模擬狀態(tài)空間轉(zhuǎn)換任務(wù)上的表現(xiàn)。
我們提出了兩種狀態(tài)空間表示形式,一種包括完整狀態(tài)空間,另一種關(guān)注狀態(tài)差異,均使用JSON對象表示。這些表示形式基于其流行性和與大多數(shù)LLM預(yù)訓練數(shù)據(jù)輸入輸出格式的兼容性,盡管其他表示格式在模擬任務(wù)上可能表現(xiàn)更好。
最終,我們的狀態(tài)空間集中在常識和早期(小學)科學推理領(lǐng)域,如打開容器或激活設(shè)備。雖然本文涉及了一些較不常見的動作和屬性,但未討論LLMs在高度專業(yè)領(lǐng)域(如物理或醫(yī)學模擬)中的應(yīng)用。我們希望這一工作能推動語言模型在高影響力領(lǐng)域中的應(yīng)用,并視其為開發(fā)更強大語言模型模擬器的基石。
倫理問題
我們不預(yù)見我們的工作會立即產(chǎn)生倫理或社會影響。然而,作為LLM應(yīng)用,所提出的LLM-Sim任務(wù)可能會受到所選LLM引入的錯誤信息和幻覺的影響。我們的工作強調(diào)了使用LLMs作為基于文本的世界模擬器的問題。在下游任務(wù)(如游戲模擬)中,LLMs可能生成誤導或不真實的信息。例如,如果模擬器建議用燒房子的方式來燒水,我們的工作并未阻止此類情況,也未評估此類潛在危險建議的倫理影響。因此,我們認為這些應(yīng)用不適合也不安全在與人類,特別是兒童,直接互動的環(huán)境中使用。我們呼吁研究人員和從業(yè)者在使用我們提出的任務(wù)和數(shù)據(jù)集時保持謹慎。
本文譯自 arxiv.org,由 BALI 編輯發(fā)布。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )