国产成人女人在线观看视频,女明星黄网站色视频免费国产

Lamini公司提出一種記憶調(diào)優(yōu)方法，有效減少大語言模型95%的幻覺問題。

到目前為止，我希望大多數(shù)讀者都已經(jīng)體驗(yàn)過公開可用的大語言模型，無論是自己運(yùn)行軟件，還是訂閱眾多在線服務(wù)之一，或者使用當(dāng)前的免費(fèi)和測試解決方案。在大多數(shù)情況下，這些大語言模型之所以被稱為“大”，是因?yàn)樗鼈儼瑪?shù)十億個參數(shù)，通常在大量非結(jié)構(gòu)化語言數(shù)據(jù)上進(jìn)行訓(xùn)練。對于大多數(shù)行業(yè)來說，參數(shù)的數(shù)量通常與這些模型的準(zhǔn)確性相關(guān)聯(lián)——訓(xùn)練的數(shù)據(jù)越多，設(shè)計中的參數(shù)越多，這些通用模型可以持有和回憶或生成的信息范圍越廣。然而，情況并非總是如此，目前這個市場存在一個大問題：幻覺。

本周，初創(chuàng)公司Lamini發(fā)表了一篇論文，展示了一種新方法，能夠保守地減少大語言模型95%的幻覺問題。Lamini由首席執(zhí)行官Sharon Zhou(PhD，Andrew Ng團(tuán)隊的生成式AI教授，MIT獲獎生成式AI研究，最大規(guī)模的生成式AI Coursera課程)和首席技術(shù)官Greg Diamos(NVIDIA/CUDA架構(gòu)師，超過14000次引用，AI擴(kuò)展法則，ML Perf聯(lián)合創(chuàng)始人)共同創(chuàng)立，是最早提供大語言模型微調(diào)服務(wù)的公司之一。與其他公司不同的是，盡管聯(lián)合創(chuàng)始人之一是NVIDIA Tensor Core架構(gòu)師，他們更傾向于使用AMD Instinct MI200/MI300 GPU。公司在2024年初完成了A輪融資，獲得2500萬美元的資金，主要投資者包括Amplify Partners和First Round Capital。其他投資者包括Lip-Bu Tan、Andrej Karpathy和Andrew Ng。Lamini已經(jīng)擁有《財富》500強(qiáng)企業(yè)客戶，并提供基于每GPU授權(quán)的中間層軟件以及云推理服務(wù)。

幻覺問題

目前的大語言模型屬于“生成式AI”類別——你給它一個提示詞/單詞，它會生成一些返回的詞語。然而，生成的內(nèi)容是基于輸入的，并且由于設(shè)計中的概率函數(shù)，輸出是“生成”的，可能會提供原始數(shù)據(jù)集中存在但抽象到模型內(nèi)嵌空間中的話題的詳細(xì)信息。例如，“parent”這一概念可以嵌入為son和father之間的向量，而類似的向量也可以用來描述一個更改名稱的國家。

然而，模型會出現(xiàn)幻覺。這不僅僅限于大模型，但生成式AI天生就考慮到了幻覺問題。這最終導(dǎo)致模型給出錯誤信息，或者在嵌入空間中創(chuàng)建了不應(yīng)存在的關(guān)系，導(dǎo)致錯誤的輸出。

幻覺問題來源于多個方面，但我將在這里挑兩個方面。首先是事實(shí)——大多數(shù)通用模型對事實(shí)的掌握較差。它們擅長解釋概念，但問一個通用模型某人的生日往往是不靠譜的。原因是即使數(shù)據(jù)集中有正確答案，也會有很多相似的信息可能被模型選擇作為響應(yīng)的一部分。一個很好的例子是我問一個通用Llama2-7B模型AMD首席執(zhí)行官Lisa Su的生日——它正確地識別了年份，但日期實(shí)際上是歸因于晶體管的發(fā)現(xiàn)日期。因?yàn)長isa Su與芯片和晶體管密切相關(guān)，所以在嵌入空間中被選擇為可能符合答案的候選者。模型出現(xiàn)了幻覺。

其次是這些通用模型的訓(xùn)練方式。數(shù)據(jù)集可能是公共信息，正確或錯誤(例如reddit, Wikipedia)，甚至是矛盾的信息，但這些模型被設(shè)計成要給出一個答案，無論對錯。除非問題在“不要回答此類問題”的保護(hù)機(jī)制中被捕捉到，否則幾乎所有的語言模型都傾向于給出答案，無論是否正確。這不僅適用于事實(shí)，還適用于數(shù)據(jù)集中沒有直接存在但可能從數(shù)據(jù)集中推導(dǎo)出的概念。對于一個特定模型來說，LiDAR和RADAR可能相似，或者1000萬這個數(shù)字可能與300萬有相同的權(quán)重——如果你在使用一個模型來處理就業(yè)合同，這就會產(chǎn)生很大的差異。

問題在于通用訓(xùn)練數(shù)據(jù)就是通用的。一個形成良好的數(shù)據(jù)集(大多數(shù)不是)將在許多主題上提供類似水平的輸出。在各種測試中，損失函數(shù)(準(zhǔn)確性水平，數(shù)字越低越好)通常會在測試主題之間表現(xiàn)得相似。因此，幻覺可能發(fā)生在模型中的許多不同概念上，而不管模型的參數(shù)大小。通常從頭開始訓(xùn)練一個大模型的數(shù)據(jù)集是一次性事件，因?yàn)閿?shù)據(jù)集龐大，訓(xùn)練成本巨大——我們已經(jīng)快要達(dá)到數(shù)十億美元的訓(xùn)練成本了，這還不包括GPU的成本。

已經(jīng)有一些方法可以幫助應(yīng)對幻覺問題并付諸實(shí)踐。

第一個選擇是擁有一個特定領(lǐng)域的模型，僅在需要的數(shù)據(jù)上進(jìn)行訓(xùn)練。這有一些邊緣情況的問題，不能很好地在其領(lǐng)域之外進(jìn)行泛化，但也存在不知道哪些事實(shí)可能在上下文中相關(guān)的問題。數(shù)據(jù)集中多個日期嵌入到一個主題中的嵌入函數(shù)很容易讓人迷惑。

處理幻覺問題的初步方法是參與協(xié)同提示。例如，將用戶的提示與背景中相關(guān)的準(zhǔn)確材料配對。比如，一個設(shè)計為幫助支持特定產(chǎn)品的助手可以與所有相關(guān)的PDF或數(shù)據(jù)庫信息協(xié)同提示，處理用戶的提問。模型可以設(shè)計成將協(xié)同提示作為比通用信息更高的準(zhǔn)確性標(biāo)準(zhǔn)，然而它仍然依賴于模型選擇協(xié)同提示作為正確答案。此外，這需要模型輸入接受成千上萬，甚至數(shù)百萬個令牌，這大大增加了任何推理設(shè)計的計算需求，從長遠(yuǎn)來看使其成本不具成本效益，特別是如果協(xié)同提示是多模態(tài)的(圖像、音頻或視頻而不是文本)。結(jié)果比原始模型更好，但仍然缺乏精確性。

接下來是微調(diào)。這類似于從頭開始訓(xùn)練特定領(lǐng)域的模型，但我們從通用模型開始，并在已知的、經(jīng)過篩選的數(shù)據(jù)上微調(diào)一些嵌入表。微調(diào)模型達(dá)到了某種程度的效果——畢竟這就是我們?nèi)绾螐腉PT-3得到ChatGPT的。微調(diào)中對正確數(shù)據(jù)有偏好，并且可以泛化到多個主題，因?yàn)樗鼇碜杂谕ㄓ媚Ｐ?，然而在某些市場中，?shù)據(jù)的微調(diào)并不夠準(zhǔn)確。微調(diào)也可能是計算密集型的。

今天行業(yè)中常提到的一個策略是RAG，即檢索增強(qiáng)生成。這與協(xié)同提示類似，但改變了模型訪問數(shù)據(jù)的方式。它不是附加到用戶提示上，而是作為一個驗(yàn)證的數(shù)據(jù)庫，模型可以用來輔助生成輸出。例如，法律模型可以手頭有案例數(shù)據(jù)庫，其中特定的案例可以被檢索以提供答案和背景。RAG的表現(xiàn)有時會有所不同，因?yàn)樗匀灰蕾囉谀Ｐ颓度胫獾臄?shù)據(jù)。它可能和協(xié)同提示一樣糟糕，也可能和最好的微調(diào)一樣好。

我們還應(yīng)提到語言模型中的專家概念。專家混合(MoE)模型依賴于多個優(yōu)化的小模型，每個模型都有一個更精細(xì)和特定的數(shù)據(jù)集，然后通過一個分層決策向量(或樹)將信息路由到特定專家以獲得相關(guān)答案。大多數(shù)在線超級大語言模型使用MoE結(jié)構(gòu)來幫助提高準(zhǔn)確性，額外的好處是性能和成本——Mixtral 7x7B名義上是一個490億參數(shù)的MoE，但在多個地方我看到一個平均輸入只會激活大約300億參數(shù)，從而減少計算和內(nèi)存需求，但最終比490億參數(shù)模型提供更好和更準(zhǔn)確的輸出。

所有這些技術(shù)都基于這樣的原則，即當(dāng)通用知識以足夠的數(shù)據(jù)或正確的方式進(jìn)行訓(xùn)練時，提高準(zhǔn)確性，減少幻覺，并提供最低的損失函數(shù)(如上所述)。在通用訓(xùn)練之后，損失函數(shù)通過微調(diào)、RAG、MoE進(jìn)一步減少。然而，它們都面臨著這樣一個事實(shí)，即即使有MoE，最終的目標(biāo)是通過經(jīng)過驗(yàn)證的數(shù)據(jù)減少整個知識陣列的平均損失函數(shù)。

現(xiàn)代大語言模型不僅要具備通用性，還需要在許多商業(yè)應(yīng)用中持有特定知識。這就是Lamini的用武之地，他們聲稱能夠幾乎完全消除特定話題上的幻覺。該方法本身很有趣，但也提出了一個好問題，可能定義未來的機(jī)器學(xué)習(xí)計算模式可能會發(fā)生的變化——類似于Transformer相比以前的卷積神經(jīng)網(wǎng)絡(luò)的變化。

Lamini-1解決方案：記憶調(diào)優(yōu)

在2024年6月13日發(fā)表的一篇論文中，Lamini介紹了一種名為“記憶調(diào)優(yōu)”的方法——一種以非常具體的方式嵌入特定數(shù)據(jù)到即使只有30億參數(shù)的小模型中的激進(jìn)方法。問題在于(CTO Greg Diamos對我解釋)這不僅是方法上的問題，還需要違背一些歷史上的機(jī)器學(xué)習(xí)優(yōu)化思維。

Lamini的記憶調(diào)優(yōu)將MoE的概念以非常具體的方式大幅提升。每個專家被引導(dǎo)到一個調(diào)節(jié)器中，該調(diào)節(jié)器以100倍于微調(diào)的速度進(jìn)行數(shù)據(jù)調(diào)優(yōu)。調(diào)優(yōu)比微調(diào)更容易，因?yàn)檫@些是調(diào)節(jié)器(如LoRA)，而不是優(yōu)化整個嵌入表的權(quán)重。結(jié)果是，每個調(diào)節(jié)器可以將隨機(jī)字符串樣式的信息作為其數(shù)據(jù)集的一部分進(jìn)行持有，并以100倍的速度進(jìn)行訓(xùn)練，使其保留在那兒。整個模型中，這就創(chuàng)造了一個“百萬專家混合體”，Lamini將其稱為“記憶專家混合體”(MoME)。

簡單來說，這就像把硬性事實(shí)放入模型中。

在機(jī)器學(xué)習(xí)中，有一個爭論是大型模型實(shí)際上能以接近確定性的方式知道多少硬性事實(shí)。這個話題遠(yuǎn)超本文范圍，但卻是一個有趣的深思。

如果回到前面提到的損失函數(shù)概念，這看起來非常類似于將特定領(lǐng)域知識過擬合到模型中。對于該概念的損失函數(shù)變得大大降低，幾乎對模型的通用知識沒有任何影響?，F(xiàn)在，模型可以準(zhǔn)確回憶數(shù)據(jù)——在實(shí)踐中，這可能是公司產(chǎn)品組合的信息，或者幫助臺處理支持文檔，甚至是處理代碼的語言模型。實(shí)際上，這對低億參數(shù)模型的有效性將有助于將MoME引入邊緣用例。

正如我之前提到的，為了實(shí)現(xiàn)這一點(diǎn)，某些模型訓(xùn)練的傳統(tǒng)思維必須拋棄。在機(jī)器學(xué)習(xí)世界中，通常對“過擬合”數(shù)據(jù)持有一種不情愿的態(tài)度，因?yàn)槿藗冋J(rèn)為這會破壞模型其余部分的通用推理。最終的看法是，一個模型只能持有“有限”的數(shù)據(jù)(類似于互聯(lián)網(wǎng)是一系列管道)，通過過擬合數(shù)據(jù)會導(dǎo)致其他方面的性能下降。在與Greg的討論中，Lamini的方法對模型其余部分幾乎沒有影響。這很重要，因?yàn)榇笳Z言模型必須具備通用推理能力，但對于特定領(lǐng)域的MoME來說，這并不是問題。

Lamini在其網(wǎng)站上對MoME的解釋是一個非常好的閱讀材料，它還談到了這比常規(guī)微調(diào)所需的計算要求低得多。這是因?yàn)闉榱讼糜X而優(yōu)化的知識領(lǐng)域本身定義狹窄——你不是重新調(diào)優(yōu)整個嵌入表，而是對一個非常小的部分進(jìn)行幾十次的超級調(diào)優(yōu)。但未提及的是，我問團(tuán)隊是否考慮過這對推理中的計算變化有什么影響。

在機(jī)器學(xué)習(xí)中，我們看到計算需求從卷積神經(jīng)網(wǎng)絡(luò)(CNN)和計算機(jī)視覺轉(zhuǎn)向Transformer時發(fā)生了重大變化。Transformer是一大突破，但它改變了這些模型的計算和內(nèi)存需求。任何專門為優(yōu)化CNN而構(gòu)建的計算硬件在面對Transformer時往往被拋在后面，因?yàn)樗狈λ璧念~外計算功能，或者沒有足夠的計算到內(nèi)存到內(nèi)存帶寬以實(shí)現(xiàn)管道全利用。在推理方面，特別是考慮到從長遠(yuǎn)來看推理的收入預(yù)計將超過訓(xùn)練成本很多個數(shù)量級，這一點(diǎn)非常重要。

問題在于，與標(biāo)準(zhǔn)模型(例如Llama3-8B)相比，一個新的Llama3-8B+1MxMoME(即1百萬MoME的Llama3-8B)是否有顯著不同的計算配置來推動計算架構(gòu)的轉(zhuǎn)變？答案是需要進(jìn)行研究。如果在AI領(lǐng)域有一件事可能引發(fā)硅片制造商的劇變，那就是市場的又一次Transformer式進(jìn)化，如果任何硬件制造商看到這一點(diǎn)并且/或者能夠迅速調(diào)整以支持它的速度和規(guī)模。

Lamini表示，其記憶調(diào)優(yōu)/MoME功能已經(jīng)在多個客戶中實(shí)施，包括一家財富500強(qiáng)公司，目前其文本到SQL代碼生成的幻覺減少了10倍。

本文譯自 morethanmoore，由 BALI 編輯發(fā)布。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）