大語言模型為什么有智能,仍然是個謎

大型語言模型的功能令人驚嘆,但其運作原理卻未知。亟待解開這一謎團,才能掌控更強大的未來模型,并減輕潛在風險。

大型語言模型能夠完成令人瞠目結舌的任務,但沒人確切知道原因。這成了亟待解決的難題,也是掌控未來更強大模型的關鍵一步。

兩年前,舊金山 OpenAI 的研究人員 Yuri Burda 和 Harri Edwards 正在嘗試讓語言模型進行基本的算術運算。他們想知道模型需要看多少個加法運算的例子才能學會計算任意兩個數(shù)字的和。一開始進展并不順利,模型只會記住看過的運算結果,無法解決新的問題。

意外的是,Burda 和 Edwards 的一次實驗運行時間比預想的長了很多 - 不是幾個小時,而是好幾天。模型一遍遍地被展示著相同的例子,遠超研究人員原本打算放棄的時長。然而,當他們回來查看時,卻驚訝地發(fā)現(xiàn)實驗成功了。他們訓練出了一個可以計算兩個數(shù)字之和的語言模型 - 只是耗時比想象的要長得多。

為了解個中奧妙,Burda 和 Edwards 與同事們一起研究了這一現(xiàn)象。他們發(fā)現(xiàn),在某些情況下,模型似乎在學習一項任務時停滯不前,然后突然茅塞頓開,就像燈泡亮起一樣理解了。這與深度學習的既定認知并不相符。他們將這種現(xiàn)象稱為「頓悟 (grokking)」 。

“這真的很耐人尋味,” 蒙特利爾大學和蘋果機器學習研究實驗室的 AI 研究員 Hattie Zhou 說道,她沒有參與這項研究,“我們能確定模型已經(jīng)停止學習了嗎?也許只是訓練的時間還不夠長。”

這種奇怪的行為引起了整個研究界的濃厚興趣?!霸S多人都有自己的看法,” 英國劍橋大學的 Lauro Langosco 說,“但我認為對于其本質(zhì),還沒有達成共識。”

「grokking」 只是讓 AI 研究人員撓頭的眾多奇怪現(xiàn)象之一。大型模型,尤其是大型語言模型,似乎表現(xiàn)出與教科書數(shù)學相悖的特性。這凸顯了深度學習 - 當今 AI 蓬勃發(fā)展背后的核心技術 - 的一個顯著事實:盡管取得了巨大成功,沒有人確切知道它如何 - 或為何 - 起作用。

“顯然,我們并不是完全無知,” 加州大學圣地亞哥分校的計算機科學家 Mikhail Belkin 說,“但我們的理論分析遠遠落后于這些模型的實際能力。比如,它們?yōu)槭裁茨軌驅(qū)W習語言?我認為這非常神秘?!?/p>

當今最龐大的模型已經(jīng)復雜到讓研究人員不得不像研究自然現(xiàn)象一樣去研究它們 - 進行實驗并嘗試解釋結果。這些觀察結果往往與經(jīng)典統(tǒng)計學背道而馳,而經(jīng)典統(tǒng)計學曾是我們解釋預測模型行為的最佳工具包。

您可能會問,那又怎樣呢?最近幾周,谷歌 DeepMind 將其生成模型應用到了大部分消費者應用中。OpenAI 以其令人驚嘆的全新文本轉(zhuǎn)視頻模型 Sora 驚艷了世人。世界各地的企業(yè)也都在爭相將 AI 納入麾下。這項技術既然有效,不就夠了嗎?

然而,弄清楚深度學習為何如此有效不僅僅是一個有趣的科學謎題。它也可能是開啟下一代技術 - 以及控制其巨大風險 - 的關鍵所在。

“這是一個激動人心的時代,” 哈佛大學計算機科學家,現(xiàn)為 OpenAI 超級協(xié)調(diào)團隊臨時團隊成員的 Barak 說,“該領域很多人常常將其比作 20 世紀初的物理學。我們擁有大量實驗結果,卻無法完全理解,而且實驗往往會帶來驚喜。”

大多數(shù)令人驚訝之處在于模型能夠?qū)W習如何完成它們從未被教導過的事情。這被稱為泛化 (generalization),是機器學習中最基本的概念之一,也是其最大的謎團。模型通過訓練特定示例來學習執(zhí)行任務 - 識別面孔、翻譯句子、避開行人。然而,它們能夠泛化,學習用從未見過的示例來執(zhí)行該任務。不知何故,模型不僅會記住它們見過的模式,還會總結出規(guī)則,讓它們能夠?qū)⑦@些模式應用于新的案例。有時,就像在「grokking」 中一樣,泛化會在我們意料之外發(fā)生。

大型語言模型,例如 OpenAI 的 GPT-4 和 Google DeepMind 的 Gemini,尤其具有驚人的泛化能力。“神奇之處不在于模型能夠用英語學習數(shù)學問題,然后泛化到新的英語數(shù)學問題,” Barak說,“而在于模型能夠用英語學習數(shù)學問題,然后閱讀一些法語文學,并由此泛化到用法語解決數(shù)學問題。這是統(tǒng)計學無法解釋的?!?/p>

幾年前,周開始學習 AI 時,她對老師只關注如何卻不關注為什么的做法感到驚訝?!八麄儠嬖V你如何訓練這些模型,然后告訴你結果,” 她說,“但沒有解釋為什么這個過程會導致模型能夠完成這些驚人的事情?!?她想了解更多,但得到的回答卻是沒有好的答案:“我的假設是,科學家們知道自己在做什么。他們會先建立理論,然后再構建模型。但事實并非如此?!?/p>

過去 10 多年里,深度學習的快速發(fā)展更多來自試錯,而不是來自理解。研究人員模仿他人的成功經(jīng)驗,并添加自己的創(chuàng)新?,F(xiàn)在,可以添加到模型中的成分有很多,而且越來越多的食譜可以指導如何使用它們?!叭藗儑L試這個、那個,各種技巧,”Belkin 說,“有些重要,有些可能不重要。”

“它有效,這令人驚嘆。我們對這些東西的強大功能感到震驚,” 他說。然而,盡管取得了巨大成功,這些食譜更像是煉金術而不是化學:“我們午夜時分混合了一些成分,然后找到了一些咒語,” 他說。

過擬合

問題在于,大型語言模型時代的 AI 似乎與教科書統(tǒng)計學相悖。當今最強大的模型非常龐大,擁有多達一萬億個參數(shù)(模型在訓練過程中調(diào)整的值)。但統(tǒng)計學表明,隨著模型的增大,它們的表現(xiàn)應該先提高,然后下降。這是因為過擬合 (overfitting)。

當模型在數(shù)據(jù)集上進行訓練時,它會嘗試將數(shù)據(jù)擬合到模式。想像一下圖表上繪制的一堆數(shù)據(jù)點。符合數(shù)據(jù)的模式可以在圖表上表示為一條穿過這些點的線。訓練模型的過程可以被認為是讓它找到一條既符合訓練數(shù)據(jù)(圖上已有的點),又符合新數(shù)據(jù)(新的點)的線。

直線是一種模式,但它可能不太準確,會遺漏一些點。連接所有點的曲線將獲得訓練數(shù)據(jù)的滿分,但無法泛化。當這種情況發(fā)生時,模型就被認為對其數(shù)據(jù)過擬合。

根據(jù)經(jīng)典統(tǒng)計學,模型越大,就越容易過擬合。這是因為參數(shù)越多,模型就越容易找到連接所有點的曲線。這表明,如果模型要泛化,就必須找到欠擬合和過擬合之間的平衡點。然而,這并不是我們在大模型中看到的現(xiàn)象。最著名的例子是雙下降 (double descent) 現(xiàn)象。

模型的性能通常用它產(chǎn)生的錯誤數(shù)量來表示:隨著性能的提高,錯誤率會下降(或下降)。幾十年來,人們一直認為錯誤率會隨著模型的增大而下降,然后上升:想像一條 U 形曲線,泛化的最佳點位于最低點。但 2018 年, Belkin 和他的同事發(fā)現(xiàn),當某些模型變得更大時,它們的錯誤率會下降,然后上升 - 然后再下降 (雙下降,或 W 形曲線)。換句話說,大型模型會以某種方式超越那個最佳點,并克服過擬合問題,隨著模型的增大,它們會變得更好。

一年后,Barak與他人合著了一篇論文,表明雙下降現(xiàn)象比許多人想象的更為普遍。它不僅發(fā)生在模型變大時,也發(fā)生在訓練數(shù)據(jù)量大或訓練時間長的模型中。這種被稱為良性過擬合 (benign overfitting) 的行為仍然沒有完全被理解。它提出了一些基本問題,例如如何訓練模型才能充分發(fā)揮其作用。

研究人員已經(jīng)勾勒出了他們認為正在發(fā)生的事情的版本。 Belkin 認為,有一種奧卡姆剃刀 (Occam's razor) 效應在起作用:最符合數(shù)據(jù)的簡單模式 - 點之間的最平滑曲線 - 往往是泛化最好的模式。更大的模型保持改進的時間比看起來更長的原因可能是,更大的模型比更小的模型更有可能擊中那個曲線:更多的參數(shù)意味著在拋棄最搖擺的曲線后,有更多的可能曲線可以嘗試。

Belkin 說:“我們的理論似乎解釋了它為什么有效的基本原理。”“然后人們制作了可以說100種語言的模型,就像,好吧,我們什么都不懂?!彼χf:“事實證明,我們甚至沒有觸及表面?!?/p>

對于Belkin來說,大型語言模型是一個全新的謎團。這些模型基于transformers,這是一種擅長處理數(shù)據(jù)序列的神經(jīng)網(wǎng)絡,比如句子中的單詞。

Belkin 說,Transformer內(nèi)部非常復雜。但他認為,從本質(zhì)上講,它們與一種更易于理解的統(tǒng)計結構——馬爾科夫鏈(Markov chain)——做著差不多的事情。馬爾科夫鏈根據(jù)之前出現(xiàn)的元素預測序列中的下一個元素。但這不足以解釋大型語言模型所能做的一切。“直到最近,我們還認為這是不可能的,”Belkin 說,“這意味著我們的認知中存在根本性的缺失。它指出了我們對世界的理解存在差距?!?/p>

Belkin 更進一步認為,語言中可能存在隱藏的數(shù)學模式,而大型語言模型以某種方式利用了這種模式:“純屬猜測,但為什么不呢?”

“這些東西能夠建模語言,可能是歷史上最偉大的發(fā)現(xiàn)之一,” 他說,“僅通過馬爾科夫鏈預測下一個詞,你就能學習語言 - 這對我來說簡直是震驚。”

從小處著手

研究人員正試圖一點一點地解開謎團。由于大型模型過于復雜,無法直接研究, Belkin 、Barak、周和其他研究人員轉(zhuǎn)而對更小(和更老)的統(tǒng)計模型進行實驗,這些模型更容易理解。在不同條件下、使用不同類型的數(shù)據(jù)對這些代理進行訓練,并觀察結果,可以洞察正在發(fā)生的事情。這有助于建立新的理論,但這些理論是否適用于更大的模型還不總是清楚的。畢竟,許多奇怪的行為都存在于大型模型的復雜性之中。

深度學習理論會到來嗎?哥倫比亞大學計算機科學家、 Belkin 在雙下降論文的合著者之一 David Hsu 并不指望很快找到所有答案?!拔覀儸F(xiàn)在有更好的直覺,” 他說,“但要真正解釋清楚為什么神經(jīng)網(wǎng)絡會有這種意想不到的行為?我們還遠遠沒有做到這一點?!?/p>

2016 年,麻省理工學院的 Chiyuan Zhang 和谷歌大腦的同事們發(fā)表了一篇具有影響力的論文,題為“理解深度學習需要重新思考泛化”。2021 年,五年后,他們再次發(fā)表了這篇論文,將其命名為“理解深度學習(仍然)需要重新思考泛化”。2024 年呢?“有點是,有點不是,” Zhang 說,“最近取得了許多進展,但也許提出的問題比解決的問題還多?!?/p>

與此同時,研究人員仍在努力解決一些基本觀察問題。去年 12 月,Langosco 和他的同事在頂級 AI 會議 NeurIPS 上發(fā)表了一篇論文,聲稱「grokking」 和雙下降實際上是同一現(xiàn)象的兩個方面?!澳阕屑氂^察它們,它們看起來很相似,” 朗戈斯科說。他認為,對正在發(fā)生的事情的解釋應該解釋兩者。

在同一場會議上,劍橋大學統(tǒng)計學研究員 Alicia Curth 和她的同事們認為,雙下降實際上是一種錯覺?!拔覠o法接受現(xiàn)代機器學習是一種超越我們迄今為止所建立的所有規(guī)律的魔法,” Curth說。她的團隊認為,雙下降現(xiàn)象 - 模型在變大時表現(xiàn)似乎先變好,然后變差,然后再變好 - 是由于模型復雜性的測量方式造成的。

Belkin 和他的同事們使用模型大小 - 參數(shù)數(shù)量 - 作為復雜性的衡量標準。但 Curth 和她的同事們發(fā)現(xiàn),參數(shù)數(shù)量可能不是復雜性的好指標,因為添加參數(shù)有時會使模型更復雜,有時會使模型更簡單。這取決于參數(shù)的值、它們在訓練過程中的使用方式以及它們與其他參數(shù)的相互作用 - 其中大部分隱藏在模型內(nèi)部?!拔覀兊慕Y論是,并非所有模型參數(shù)都是平等的,” Curth 說。

簡而言之,如果你使用不同的復雜性度量,大型模型可能會很好地符合經(jīng)典統(tǒng)計。Curth說,這并不是說當模型變大時,我們對會發(fā)生什么沒有太多的不理解。但我們已經(jīng)有了解釋它所需的所有數(shù)學知識。

我們這個時代的一個大謎團

大型語言模型能力驚人,但其運作原理卻困擾著研究界。有人認為,缺乏理論基礎會阻礙未來 AI 的發(fā)展,也有人擔心強大 AI 的潛在風險。

加州大學圣地亞哥分校的計算機科學家 Belkin 認為,理論基礎的薄弱讓研究人員難以預測大型語言模型的潛力?!叭绻麤]有堅實的基礎理論,我們就無法預料這些模型的未來。”

哈佛大學計算機科學家 Barak 贊同這一觀點。即使擁有強大的模型,也很難解釋其能力的來源?!凹词故潞笾T葛亮,也很難確切地說出某些能力為何會在某個時間點出現(xiàn)?!?/p>

理論研究不僅是為了推動進步,也是為了規(guī)避風險。劍橋大學的 Langosco 提到安全問題,“只有訓練和測試,我們才知道 GPT-5 會擁有哪些能力?,F(xiàn)在可能是個小問題,但隨著模型越來越強大,它將變成大麻煩?!?/p>

Barak目前在 OpenAI 的超對齊團隊工作,該團隊旨在避免超級智能失控?!拔曳浅?释@得某種保證。如果擁有強大能力卻無法控制,那它就不是那么神奇了。一輛時速可以開到 300 英里的車,如果方向盤搖搖晃晃,那又有何用?”

然而,更深層次的驅(qū)動力源于科學探索的渴望?!?a href="http://m.ygpos.cn/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD_1.html" target="_blank" class="keylink">人工智能絕對是當代最偉大的謎團之一,” Barak說,“我們還是一個非常稚嫩的科學領域。本月讓我興奮的問題,也許下個月就變了。我們?nèi)栽诓粩喟l(fā)現(xiàn)新事物,需要不斷試驗并迎接驚喜?!?/p>

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )

贊助商
2024-03-10
大語言模型為什么有智能,仍然是個謎
大型語言模型的功能令人驚嘆,但其運作原理卻未知。亟待解開這一謎團,才能掌控更強大的未來模型,并減輕潛在風險。大型語言模型能夠完成令人瞠目結舌的任務,但沒人確切知道原因。

長按掃碼 閱讀全文