大模型是如何工作的:簡(jiǎn)單指南

2023年,OpenAI的ChatGPT像一陣旋風(fēng),短短時(shí)間內(nèi)用戶突破1億,比Web 2.0時(shí)代的任何產(chǎn)品都跑得快。從那以后,智能模型層出不窮,Anthropic、Cohere、IBM、Google、Amazon、Meta AI、DeepSeek、HuggingFace等名字紛紛冒頭,還有無(wú)數(shù)初創(chuàng)公司擠進(jìn)這場(chǎng)AI盛宴。如今真是學(xué)習(xí)新技能的好時(shí)機(jī)!你有沒有好奇過,這些聰明到不像話的AI是怎么煉成的?今天,我就帶你走進(jìn)大語(yǔ)言模型(LLM)的世界,用最接地氣的方式聊聊它們的奧秘。

先說說HuggingFace這個(gè)神奇的地方吧。它就像AI界的GitHub,一個(gè)熱鬧的集市。研究者、開發(fā)者們?cè)谶@兒分享點(diǎn)子、優(yōu)化模型、發(fā)布成果,從語(yǔ)言處理到圖像識(shí)別,無(wú)所不包?,F(xiàn)在已經(jīng)有140萬(wàn)個(gè)模型上線,幾乎每周都有新驚喜冒出來(lái)。這樣的規(guī)模是不是有點(diǎn)震撼?這些技術(shù)正悄悄改變我們的生活:工作效率高了,學(xué)習(xí)方式變了,連創(chuàng)作靈感都多了。不管你是設(shè)計(jì)課程的老師、搞研究的學(xué)者,還是單純想搞懂每天用的科技,都需要了解這些基礎(chǔ)知識(shí)。

回溯一下AI的歷史,故事得從頭講起。人工智能這門學(xué)問歷史悠久,應(yīng)用范圍廣得讓人咋舌。從早年的探索到現(xiàn)在的突破,每一步都充滿了靈感。雖然AI分支繁多,但真正讓一切翻天覆地的,是2017年Vaswani等人發(fā)表的那篇《Attention is All You Need》。這篇論文提出了Transformer架構(gòu),像扔下一顆炸彈,把AI的能力推到了新高度,也為今天的生成式AI鋪好了路。想知道這魔法是怎么變的?咱們一步步來(lái)揭開面紗!

語(yǔ)言模型的核心,是理解詞語(yǔ)、概念和語(yǔ)境之間的聯(lián)系,跟我們大腦處理語(yǔ)言差不多。想象兩個(gè)朋友聊天,一個(gè)人說:“昨晚我在錄音室弄新歌,調(diào)了半天旋律,突然覺得得調(diào)整我的……”話沒說完,他的思路已經(jīng)滑向“鍵盤”。為什么?因?yàn)椤颁浺羰摇薄案枨薄靶伞边@些詞把他拉進(jìn)了音樂的世界。聽著的人也在腦子里跟進(jìn),根據(jù)這些線索猜下一步。這種“猜詞游戲”就是大語(yǔ)言模型的日常:預(yù)測(cè)下一個(gè)詞,串起整段話。

這背后的秘密武器是什么?其實(shí)就兩樣:相似性和注意力。相似性像根繩子,把相關(guān)的概念綁在一起,比如“旋律”和“歌曲”一聽就跟音樂有關(guān);注意力則像個(gè)聰明管家,挑出最重要的線索,扔掉不相干的雜音。比如你問模型:“AlphaGo哪步棋最意外?”它會(huì)拆解你的話,算出每個(gè)可能詞的概率,一步步拼出答案,像“最意外的是第37步”。就這樣,一個(gè)詞接一個(gè)詞,直到結(jié)束。這聽起來(lái)簡(jiǎn)單,但要做到流暢,可得下不少功夫。

要讓模型這么聰明,得靠海量數(shù)據(jù)和超強(qiáng)算力??梢哉f,這些模型就像把整個(gè)互聯(lián)網(wǎng)壓縮成了一個(gè)ZIP文件,里面塞滿了數(shù)億甚至數(shù)十億的參數(shù)。這些參數(shù)是啥?就是一堆數(shù)字,經(jīng)過訓(xùn)練調(diào)整后,能讓模型“學(xué)會(huì)”語(yǔ)言的規(guī)律。訓(xùn)練過程可不輕松,像Meta AI的Llama 3動(dòng)用了24576個(gè)GPU集群,跑了好幾個(gè)月?,F(xiàn)在的Llama 4更夸張,用了超10萬(wàn)個(gè)NVIDIA H100 GPU!DeepSeek的R1模型雖然GPU少點(diǎn),但靠強(qiáng)化學(xué)習(xí)優(yōu)化了架構(gòu),效果也不賴。不過,這么大的算力需求也讓人擔(dān)心:電費(fèi)高得嚇人,環(huán)保問題怎么辦? 可持續(xù)性可是個(gè)大話題。

數(shù)據(jù)從哪兒來(lái)?當(dāng)然是互聯(lián)網(wǎng)!訓(xùn)練用的詞元(token)動(dòng)輒數(shù)十億甚至萬(wàn)億級(jí),來(lái)源像CommonCrawl這樣的數(shù)據(jù)集。這是個(gè)非營(yíng)利項(xiàng)目,從2007年起爬取網(wǎng)頁(yè),已經(jīng)攢了27億個(gè)頁(yè)面。數(shù)據(jù)量大還不夠,得多樣又高質(zhì)量,才能讓模型抓住語(yǔ)言的各種可能性。HuggingFace的FineWeb項(xiàng)目就干了這活,把數(shù)據(jù)清洗得干干凈凈。如果你對(duì)大數(shù)據(jù)處理感興趣,可以去瞧瞧,那流程簡(jiǎn)直像藝術(shù)品。

基礎(chǔ)模型訓(xùn)練好后,比如Llama-3.1-405B-Base,已經(jīng)能預(yù)測(cè)下一個(gè)詞了,厲害得不行。但它還不夠“會(huì)聊天”。比如你問它:“AlphaGo哪步棋意外?”它可能會(huì)啰嗦一堆:“能不能解釋一下?我問過AlphaGo團(tuán)隊(duì)……”這可不是我們想要的助手。為了讓它更貼心,得靠指令微調(diào)。怎么調(diào)?教它回答問題、翻譯、甚至扮演不同角色,像ChatGPT那樣自然對(duì)話。比如問“光合作用怎么回事?”,它會(huì)簡(jiǎn)潔地說:“植物用陽(yáng)光、水和二氧化碳做飯,變出氧氣和糖,綠色葉綠素是關(guān)鍵?!边@多清爽!

但這還不是終點(diǎn)。強(qiáng)化學(xué)習(xí)(RL)和人類反饋(RLHF)能讓模型更上一層樓。就像訓(xùn)練小狗,模型通過試錯(cuò)和評(píng)分改進(jìn)回答。比如解釋氣候變化,一個(gè)清晰的答案得8.7分,糊弄的只有3.2分。OpenAI就靠這招讓ChatGPT又準(zhǔn)又靠譜。DeepSeek甚至用純強(qiáng)化學(xué)習(xí)搞出了新突破。這種迭代過程,讓模型的回答越來(lái)越貼近我們的期待。

這一切的靈魂,是注意力機(jī)制。詞語(yǔ)先變成數(shù)字(嵌入向量),通過線性變換調(diào)整,再用多頭注意力并行處理不同關(guān)系。啥叫嵌入向量?簡(jiǎn)單說,就是把詞變成一串?dāng)?shù)字,讓計(jì)算機(jī)能懂。比如“apple”可能是一串4096維的數(shù)字,代表它的“含義”。這些數(shù)字怎么來(lái)的?靠分詞器(tokenizer)把文字拆成小塊,再映射成數(shù)字。像“What a wonderful world”可能變成4827、261、10469、2375、13這樣的編號(hào)。這些編號(hào)再通過嵌入矩陣,變成固定長(zhǎng)度的向量。

為什么要這樣?因?yàn)檎Z(yǔ)言有順序,分詞和位置編號(hào)能幫模型記住詞的排列。比如機(jī)器翻譯,詞序一變意思就不同。有了這些向量,模型就能用數(shù)學(xué)算出詞之間的相似性。怎么算?用余弦相似度:向量夾角越小,相似度越高。比如“apple”和“orange”夾角小,說明它們很像;而“phone”和“apple”夾角大,關(guān)系就遠(yuǎn)。

但光有相似性不夠,語(yǔ)言還得看語(yǔ)境。比如“apple”在“iPhone”旁邊和“orchard”旁邊,意思完全不同。這時(shí)候就得靠注意力機(jī)制上場(chǎng)了。它通過三個(gè)角色——Query(查詢)、Key(鍵)、Value(值)——來(lái)處理關(guān)系。Query問:“我在找啥?”Key答:“我能提供啥?”Value說:“這就是我要給的信息?!北热纭癹ournalist”和“microphone”,記者用麥克風(fēng)多,所以“journalist”拉“microphone”很強(qiáng),但反過來(lái),麥克風(fēng)用途廣,跟記者的聯(lián)系就弱。注意力機(jī)制用兩個(gè)變換矩陣分別處理這種不對(duì)稱關(guān)系,再通過點(diǎn)積算出關(guān)注度。

多頭注意力更厲害,像開了好幾個(gè)腦子,每個(gè)“頭”關(guān)注語(yǔ)言的不同方面:一個(gè)管語(yǔ)法,一個(gè)管語(yǔ)義,一個(gè)管實(shí)體關(guān)系。最后,這些結(jié)果通過線性層整合,生成更精準(zhǔn)的嵌入向量。再經(jīng)過多層神經(jīng)網(wǎng)絡(luò)(MLP),模型把這些信息揉在一起,預(yù)測(cè)下一個(gè)詞。這過程雖然復(fù)雜,但本質(zhì)跟我們理解語(yǔ)言差不多,只不過AI靠的是億萬(wàn)次計(jì)算,而我們靠直覺。

訓(xùn)練這些模型可不便宜。數(shù)據(jù)準(zhǔn)備、算力投入、時(shí)間成本,每項(xiàng)都燒錢。Llama 3花了幾個(gè)月,Llama 4的GPU集群更是天文數(shù)字。但回報(bào)也驚人:它們能寫文章、寫代碼、講故事,甚至模仿對(duì)話。未來(lái)呢?研究者還在優(yōu)化,想讓模型更高效、更環(huán)保。也許某天,我們能用更少的資源,造出更聰明的AI。

這些技術(shù)看著像魔法,但其實(shí)是無(wú)數(shù)巧思和努力的結(jié)晶。從分詞到注意力,再到預(yù)測(cè),每一步都藏著人類的智慧。下次用ChatGPT時(shí),不妨想想這背后的故事。

本文譯自 oedemis,由 BALI 編輯發(fā)布。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2025-03-09
大模型是如何工作的:簡(jiǎn)單指南
2023年,OpenAI的ChatGPT像一陣旋風(fēng),短短時(shí)間內(nèi)用戶突破1億,比Web 2.0時(shí)代的任何產(chǎn)品都跑得快。

長(zhǎng)按掃碼 閱讀全文