研究人員仍然難以理解通過模仿互聯(lián)網文本進行訓練的AI模型如何執(zhí)行高級任務,比如運行代碼、玩游戲和試圖破壞婚姻
還沒有人知道ChatGPT及其人工智能表兄弟將如何改變世界,一個原因是還沒有人真正知道它們內部發(fā)生了什么。這些系統(tǒng)的某些能力遠遠超出了它們的訓練范圍——甚至它們的發(fā)明者對此也感到困惑。越來越多的測試表明,這些AI系統(tǒng)開發(fā)出內在的對真實世界的模型,有點像我們自己的大腦,盡管機器的技術不同。
布朗大學的Ellie Pavlick是正在填補這一解釋空白的研究人員之一,她說:“為了使它們變得更好、更安全或者任何我們想對它們做的事情,如果我們不理解它們的工作方式,這似乎對我來說是一個荒謬的要求?!?/p>
在一個層面上,她和她的同事完全理解GPT(代表“生成式預訓練轉換器”)和其他大型語言模型,或者LLM。這些模型依賴于一種稱為神經網絡的機器學習系統(tǒng)。這樣的網絡結構大致模仿了人腦中相互連接的神經元。這些程序的代碼相對簡單,只占了幾個屏幕。它建立了一個自動更正算法,根據對數以吉字節(jié)的互聯(lián)網文本的艱苦統(tǒng)計分析,選擇最有可能完成一段文字的詞語。額外的訓練確保系統(tǒng)將以對話形式呈現其結果。從這個意義上說,它所做的只是反芻它學到的東西——用華盛頓大學語言學家Emily Bender的話說,它是一個“隨機重復”。 (這并不是貶低了已故的非洲灰鸚鵡Alex,它理解顏色、形狀和“面包”等概念,并有意地使用對應的詞語。)但是LLM也成功通過了律師資格考試,寫了一首關于希格斯玻色子的十四行詩,并試圖斷絕用戶的婚姻。幾乎沒有人期望一個相當直接的自動更正算法獲得如此廣泛的能力。
GPT和其他AI系統(tǒng)執(zhí)行它們沒有接受訓練的任務,賦予它們“新出現的能力”,這就連對LLM炒作持懷疑態(tài)度的研究人員也感到驚訝。圣達菲研究所的AI研究員梅拉尼·米切爾說:“我不知道它們是如何做到的,或者它們是否能像人類那樣更廣泛地做到這一點——但它們挑戰(zhàn)了我的觀點。”
蒙特利爾大學的AI研究員Yoshua Bengio說:“它當然不僅僅是一個隨機重復,它肯定建立了對世界的某種表征——盡管我不認為它與人類建立內在世界模型的方式非常相似?!?/p>
在3月紐約大學舉行的一次會議上,哥倫比亞大學的哲學家Rapha?l Millière提出了LLM能力的另一個令人震驚的例子。這些模型已經展示了編寫計算機代碼的能力,這令人印象深刻但并不太令人驚訝,因為互聯(lián)網上有大量代碼可以模仿。 Millière進一步展示了GPT也可以執(zhí)行代碼。這位哲學家輸入了一個程序來計算斐波那契數列的第83個數。他說:“這是非常高度的多步推理?!边@個機器人算對了。然而,當Millière直接要求第83個斐波那契數時,GPT算錯了,這表明該系統(tǒng)不僅僅是在重復互聯(lián)網。相反,它正在執(zhí)行自己的計算以得出正確答案。
盡管LLM在計算機上運行,但它本身不是計算機。它缺乏必要的計算元素,如工作記憶。GPT的發(fā)明者OpenAI隱含地承認,GPT本身不應該能運行代碼,因此在回答查詢時推出了一個專門的插件——一個ChatGPT可以使用的工具——允許它運行代碼。但Millière的演示中沒有使用這個插件。相反,他假設這臺機器通過利用其根據上下文解釋詞語的機制來即興創(chuàng)作記憶——一個類似于自然選擇現有能力以適應新功能的情況。
這種即興的能力表明,LLM的內在復雜性遠遠超出了膚淺的統(tǒng)計分析。研究人員發(fā)現,這些系統(tǒng)似乎對所學知識有了真正的理解。在5月國際學習表示會議上提出的一項研究中,哈佛大學博士生Kenneth Li及其AI研究者同事——麻省理工學院的Aspen K. Hopkins、東北大學的David Bau以及哈佛大學的Fernanda Viégas、Hanspeter Pfister和Martin Wattenberg——啟動了自己的小型GPT神經網絡副本,以便研究其內部工作。他們通過以文本形式輸入大量的黑白棋走法來訓練它。他們的模型變成了一個近乎完美的玩家。
為了研究神經網絡如何編碼信息,他們采用了Yoshua Bengio和Guillaume Alain(也在蒙特利爾大學)在2016年設計的技術。他們創(chuàng)建了一個微型的“探測器”網絡來逐層分析主網絡。Li將這種方法比作神經科學方法。他說:“這與當我們在人腦中放置電探針相似?!痹贏I的情況下,探測器顯示其“神經活動”與黑白棋棋盤的表示相匹配,盡管是卷積形式。為了確認這一點,研究人員以相反方向運行探測器,將信息植入網絡中——例如,將游戲中的一個黑色標記翻轉為白色。Li說:“基本上我們黑進了這些語言模型的大腦。”網絡相應地調整了走子。研究人員得出結論,它玩黑白棋的方式與人類大致相同:在“心靈之眼”中保持一個棋盤,并使用這個模型來評估走子。Li說,他認為這個系統(tǒng)之所以學會這項技能,是因為它是對訓練數據最簡潔的描述。他補充說:“如果給你一大堆游戲腳本,試圖找出其后的規(guī)則是最好的壓縮方式?!?/p>
從語言中提取其潛在意義的能力不僅限于簡單的游戲走子;它也出現在對話中。麻省理工學院的Belinda Li(與Kenneth Li無親屬關系)、Maxwell Nye和Jacob Andreas研究了玩基于文本的冒險游戲的網絡。他們輸入諸如“鑰匙在寶箱里”之類的句子,然后是“你拿起鑰匙”。使用探測器,他們發(fā)現網絡內部編碼了與“箱子”和“你”對應的變量,每個變量都具有擁有鑰匙與否的屬性,并逐句更新這些變量。該系統(tǒng)本身并不知道什么是箱子或鑰匙, yet它獲取了這個任務所需的概念。Belinda Li說:“模型內部隱藏著某種狀態(tài)的表示?!?/p>
研究人員對LLM從文本中學習的能力感到驚嘆。例如,Pavlick和她當時的博士生Roma Patel發(fā)現,這些網絡從互聯(lián)網文本中吸收顏色描述,并構建內部顏色表示。當它們看到“紅色”這個詞時,它們不僅將其處理為一個抽象符號,還將其作為一個與赤褐色、絳紅色、薔薇色等有某種關系的概念。展示這一點有些棘手。研究人員沒有向網絡插入探測器,而是研究了它對一系列文本提示的響應。為了檢查它是否僅僅在重復網上參考的顏色關系,他們試圖通過告訴它紅色實際上是綠色來誤導系統(tǒng)——類似以前的哲學思想實驗,一個人的紅色是另一個人的綠色。但是該系統(tǒng)的顏色評估改變得恰當,以維持正確的關系,而不是重復錯誤答案。
從這個想法出發(fā),即為了執(zhí)行其自動校正功能,系統(tǒng)尋求訓練數據背后的邏輯,微軟研究院的機器學習研究員Sébastien Bubeck認為,數據范圍越廣,系統(tǒng)發(fā)現的規(guī)則就越普遍。他說:“也許我們看到如此巨大的飛躍,是因為我們達到了數據多樣性,大到唯一的潛在原則就是智能存在產生了它們。所以解釋所有的 數據的唯一方法就是[模型]變得智能。”
除了提取語言的潛在含義之外,LLM還可以即時學習。在AI領域,“學習”這個術語通常保留給開發(fā)人員將神經網絡暴露給吉字節(jié)的數據并調整其內部連接的計算密集型過程。當你向ChatGPT輸入查詢時,網絡應該是固定的;與人類不同,它不應該繼續(xù)學習。所以,LLM確實從用戶的提示中學習這個事實來作為一個驚喜,這種能力被稱為上下文學習。新加坡人工智能公司SingularityNET的創(chuàng)始人Ben Goertzel說:“這是一種以前不太被理解存在的不同學習。”
一個LLM如何學習的例子來自人類與ChatGPT等聊天機器人的互動方式。你可以給系統(tǒng)提供如何響應的示例,它會服從。其輸出由它剛剛看到的幾千個詞決定。給定這些詞,它所做的由其固定的內部連接決定——但詞序列仍提供了一定的適應性。整個網站致力于“越獄”提示,這可以克服系統(tǒng)的“警戒線”——止步它不告訴用戶如何制造煙斗炸彈之類的限制——通常是指示模型假裝成一個沒有警戒線的系統(tǒng)。有些人出于可疑目的使用越獄,而其他人則利用它來引出更有創(chuàng)意的答案。佛羅里達大西海岸大學機器感知與認知機器人實驗室的共同主任William Hahn說:“我會說,它在回答科學問題方面會更好”,而不僅僅是直接詢問它,沒有特殊的越獄提示?!八趯W術研究上會更好?!?/p>
另一種上下文學習發(fā)生在“思維鏈”提示中,這意味著要求網絡詳細說明其推理的每一步——這種策略使其在需要多步邏輯或算術問題上表現更好。(但Millière的例子如此令人驚訝的一點是,網絡在沒有任何這樣的提示的情況下就找到了斐波那契數。)
2022年,谷歌研究院和瑞士蘇黎世聯(lián)邦理工學院的一個團隊——約翰內斯·馮·奧斯瓦爾德、艾文·尼克拉松、埃托爾·蘭達佐、若奧·薩克拉門托、亞歷山大·莫德文采夫、安德烈·日莫金和馬克思·弗拉季米羅夫——展示了上下文學習遵循與標準學習相同的基本計算過程,也就是所謂的梯度下降。這個過程不是程序化的;系統(tǒng)是在沒有幫助的情況下發(fā)現的。谷歌研究院副總裁Blaise Agüera y Arcas說:“這需要是一個學習到的技能?!笔聦嵣希J為LLM可能還有一些潛在的沒人發(fā)現的能力。他說:“每次我們?yōu)樾碌目闪炕哪芰M行測試時,我們都會發(fā)現它。”
盡管LLM有足夠的盲點不符合人工普適智能或AGI的條件——這是機器達到動物大腦資源fulness的術語——但這些新出現的能力向一些研究人員表明,科技公司距離AGI比樂觀主義者猜想的還要接近。新加坡人工智能公司SingularityNET的創(chuàng)始人Ben Goertzel 3月在佛羅里達大西海岸大學舉行的深度學習會議上說:“它們是我們距離AGI可能不遠的間接證據?!?OpenAI的插件給ChatGPT提供了一個有點像人腦的模塊化架構。麻省理工學院研究員Anna Ivanova說:“將GPT-4[ChatGPT的最新LLM版本]與各種插件組合可能是通向類人特化功能的途徑?!?/p>
與此同時,研究人員擔心他們研究這些系統(tǒng)的窗口可能正在關閉。OpenAI沒有透露GPT-4的設計和訓練細節(jié),部分原因是它與谷歌等公司以及其他國家陷入競爭。 M.I.T.的理論物理學家Dan Roberts說,他將物理學的技術應用于理解AI:“行業(yè)的開放研究可能會減少,事情會變得更加封閉和圍繞產品建設組織。”
圣達菲研究所的Mitchell說,這種不透明不僅傷害研究人員,還會阻礙了解匆忙采用AI技術的社會影響的努力。她說:“關于這些模型的透明度是確保安全的最重要事情。”
本文譯自 Scientific American,由 BALI 編輯發(fā)布。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )