123,123,123

這項研究的結果很重要，因為它揭開了大型語言模型(LLM)具有的一些神奇能力的神秘面紗，并且還對“規(guī)模是創(chuàng)造更好的大型語言模型唯一途徑”這一觀點提出了質疑。

大型語言模型(LLM)的涌現能力

一些研究已經檢驗了大型語言模型(LLM)顯示出的涌現能力。一項研究將涌現能力定義為“在較小的模型中不存在，但在較大的模型中存在的能力”?；旧?，這意味著機器學習模型在某些任務上具有隨機性能，直到其大小達到一定的閾值。在達到閾值之后，隨著其規(guī)模的增長，大型語言模型(LLM)的能力將開始提升?？梢栽趫D1中看到LLM表現出的涌現能力，其性能在一定范圍內突然躍升。

大型語言模型(LLM)顯示出大規(guī)模的涌現能力.jpg

大型語言模型(LLM)顯示出大規(guī)模的涌現能力，在模型大小達到一定閾值之前，其完成任務的性能保持在隨機水平。之后，隨著模型規(guī)模的變大，其性能將會躍升并開始提高。

研究人員對LaMDA、GPT-3、Gopher、Chinchilla和PaLM等具有1000多億個參數的大型語言模型(LLM)的涌現能力進行了研究。這些研究包括從BIG-Bench中選擇的任務，BIG-Bench是一個眾包基準，包括語言學、常識推理和數學等許多領域。他們還使用了TruthfulQA、大規(guī)模多任務語言理解（MMLU）和場景中的單詞（WiC）進行了測試，這些測試都是為了了解大型語言模型(LLM)在處理復雜語言任務方面的局限性。

有幾個原因使大型語言模型(LLM)的涌現能力變得非常重要。首先，這些研究表明，在開展進一步創(chuàng)新的情況下擴展大型語言模型(LLM)規(guī)模可以繼續(xù)在更通用的AI能力方面取得進展。其次，隨著大型語言模型(LLM)的發(fā)展，人們無法預測它們會帶來什么。當然，這些研究結果將會進一步強化大型語言模型(LLM)的神秘光環(huán)。

為什么大型語言模型(LLM)的涌現能力會被炒作

斯坦福大學的這項新研究對大型語言模型(LLM)所謂的涌現能力提出了不同的看法。根據他們的研究，對大型語言模型(LLM)的涌現能力的觀察通常是由于指標的選擇引起的，而不是規(guī)模。斯坦福大學的研究人員認為，“現在關于涌現能力的說法是研究人員分析的結果，而不是特定任務中模型行為隨著規(guī)模的增加而發(fā)生變化。”他們指出，強有力的支持證據表明，涌現能力可能不是擴展AI模型的基本屬性。

具體來說，他們認為涌現能力似乎只出現在非線性或不連續(xù)地縮放任何模型的每個令牌錯誤率的指標下。這意味著在衡量任務性能時，一些指標可能顯示出大規(guī)模的涌現能力，而另一些則顯示出持續(xù)的改進。

例如，有些測試只測量大型語言模型(LLM)輸出正確令牌的數量。這種情況尤其發(fā)生在與分類和數學相關的任務中，只有當所有生成的令牌都是正確的時候，其輸出才是正確的。

實際上，LLM模型輸出的令牌逐漸接近正確的令牌。但由于最終答案與基本事實不同，它們都被歸類為不正確，直到它們達到所有標記都是正確的閾值。

研究人員表示，在他們的研究中，如果對相同的輸出使用不同的指標，涌現能力就會消失，LLM模型的性能也會平衡提高。這些指標衡量的是到達正確答案的線性距離，而不僅僅是計算正確答案。

當用非線性指標進行評估時，LLM出現涌現能力；當用線性指標進行評估時，性能會平穩(wěn)提高.jpg

當用非線性指標進行評估時，LLM出現涌現能力；當用線性指標進行評估時，性能會平穩(wěn)提高

研究人員還發(fā)現，在某些情況下，出現涌現能力是由于沒有足夠的測試數據。通過創(chuàng)建更大的測試數據集，其性能改進就會變得穩(wěn)步提高。

為了進一步證明這一點，研究人員試圖了解是否能在其他類型的深度神經網絡中重現涌現能力的情況。他們對視覺任務和卷積神經網絡(CNN)進行了測試。測試結果表明，如果他們使用非線性指標來評估LLM模型的性能，那么就會觀察到在大型語言模型(LLM)中會出現相同的情況。

為什么這個結論至關重要？

研究人員在發(fā)表的論文總結出一個重要的結論：“對于一個固定的任務和一個固定的模型家族，研究人員可以選擇一個指標來創(chuàng)建涌現能力，也可以選擇一個指標來消除涌現能力。因此，涌現能力可能是研究人員選擇的產物，而不是模型家族在特定任務上的基本屬性。”

研究人員表示，并不是說大型語言模型(LLM)不能顯示出涌現能力，但他們強調，之前聲稱的LLM中的涌現能力可能是研究人員在分析時引發(fā)的幻象。

這一研究的一個重要收獲是對于認識大型語言模型(LLM)性能提供了一個更關鍵的視角。鑒于LLM的驚人能力和成果，如今已經有了一種將它們擬人化的趨勢，或將它們與其不具備的特性聯(lián)系起來。

這項研究得出的結論很重要，因為它們將有助于為大型語言模型(LLM)領域帶來更清醒的認識，并更好地理解擴大LLM模型規(guī)模的影響。Sam Bowman最近發(fā)布的一篇論文指出:“當實驗室投資訓練一個新的大型語言模型(LLM)并逐步擴大規(guī)模時，他們有理由相信將會獲得具有經濟價值的各種新能力，但他們幾乎無法對這些能力做出自信的預測，或者他們需要做些什么準備才能負責任地部署這些能力。”而有了更好的技術來衡量和預測改進，研究人員將能夠更好地評估更大的LLM模型的效益和風險。

這種方法也有助于鼓勵研究人員探索創(chuàng)建更大的大型語言模型(LLM)的替代方案。雖然只有大型科技公司才能負擔得起訓練和測試大型LLM的成本，但規(guī)模較小的公司也可以對較小的模型進行研究。有了這些指標，他們將能夠更好地探索這些較小的LLM的功能，并找到新的研究方向來改進它們。

（免責聲明：本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網站出現的信息，均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時，應及時向本網站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內容或斷開相關鏈接。）