大模型行業(yè)越來越熱鬧。國外,馬斯克為Twitter搶購1萬塊GPU籌備大模型項目、亞馬遜大力投資大型語言模型和生成式 AI、OpenAI推出了ChatGPT iOS版本;國內(nèi),百度發(fā)布文心一言、阿里發(fā)布通義千問,王小川、王慧文、閆俊杰等“有背景”的創(chuàng)業(yè)者跑步進場。
相較于深度學習而言,大模型讓AI的認知能力更上一層樓,進而實現(xiàn)所謂的“智能涌現(xiàn)”,催生出ChatGPT、AutoGPT、AIGC等新型應用,讓AI全面進入工業(yè)化大生產(chǎn)階段。英偉達創(chuàng)始人、CEO黃仁勛說:AI的“iPhone時刻”來臨。在激動人心的“iPhone時刻”,行業(yè)缺什么?
百模大戰(zhàn),AI的門檻一下變高了
跟當年的AI創(chuàng)業(yè)以及互聯(lián)網(wǎng)創(chuàng)業(yè)生態(tài)不同,大模型成為“頭號玩家”的游戲,活躍的玩家要么是大廠,要么是有資金加持的“有背景”創(chuàng)業(yè)者,“草根創(chuàng)業(yè)者”尚未出現(xiàn)。
大模型具有“巨量數(shù)據(jù)、巨量算法、巨量算力”三大“巨量”特征,對任何企業(yè)包括巨頭來說,打造一個大模型都不是一件容易的事情,需要收集海量數(shù)據(jù)、需要采買海量算力、需要進行大量研發(fā),金錢、時間、人力投入同樣“巨量”。ChatGPT是創(chuàng)業(yè)公司OpenAI做的,這家公司在2015年成立后低調(diào)耕耘8年,且有微軟等巨頭/大佬支持,底層硬件投入高達10億美元以上,每次訓練消耗的電力足夠3000輛特斯拉汽車每輛跑20萬英里。
“巨量”特征讓大模型研發(fā)門檻極高,但任何技術生態(tài)要走向繁榮都離不開社會化創(chuàng)新。移動互聯(lián)網(wǎng)的崛起源自于iOS和安卓的出現(xiàn),但也離不開應用市場數(shù)百萬開發(fā)者的創(chuàng)新。同理,大模型上“長出”的應用也都得靠開發(fā)者來定義,讓AI大模型為所有開發(fā)者(技術服務商、企業(yè)、組織、個體開發(fā)者等)所用,是加速大模型產(chǎn)業(yè)發(fā)展的關鍵。
截至目前,大模型還處在“只聽其聲不聞其人”的階段,大廠的大模型已在開放,但需要使用者有較高的人才、算力等資源配置,當下市面上急缺一款讓開發(fā)者乃至大學生等群體“人人可用”的大模型。
62億參數(shù)規(guī)格,大模型也能“小而美”
最近我在朋友圈看到有人分享了一個輕量級開源大模型:中英雙語對話模型 ChatGLM-6B,它的最大特點是輕量化,支持在單張消費級顯卡上進行部署推理使用,這讓它具備人人可用的基礎——千億規(guī)格的大模型往往需要成百上千張顯卡才能部署。
ChatGLM-6B來自智譜AI這家公司,它由清華技術成果轉化而來。2022年8月,智譜AI旗下的千億級參數(shù)模型GLM-130B中英雙語稠密模型正式向研究界和工業(yè)界開放——“130B”是130 billion的縮寫,即1300億參數(shù)。據(jù)官網(wǎng)介紹稱,GLM-130B與BERT、GPT-3和T5有著不同的架構,是一個包含多目標函數(shù)的自回歸預訓練模型,具有雙語支持、高精度和快速推理等特性。
2022年11月,斯坦福大學大模型中心對全球30個主流大模型進行了全方位的評測,GLM-130B 是亞洲唯一入選的大模型。在與 OpenAI、谷歌大腦、微軟、英偉達、臉書的各大模型對比中,評測報告顯示 GLM-130B 在準確性和惡意性指標上與 GPT-3 175B (davinci) 接近或持平,魯棒性和校準誤差在所有千億規(guī)模的基座大模型(作為公平對比,只對比無指令提示微調(diào)模型)中表現(xiàn)不錯。
2023年3月14日,智譜AI基于GLM-130B推出的千億對話模型 ChatGLM 開始內(nèi)測,ChatGLM對標ChatGPT,具備問答和對話功能且針對中文進行了優(yōu)化,第三方評測顯示其具備ChatGPT3.5至少70%的能力水平。同一天,智譜AI還開源了62億參數(shù) 的ChatGLM-6B 模型。根據(jù)官方Blog顯示,ChatGLM-6B 采取跟GLM-130B一樣的架構與技術,其將參數(shù)規(guī)格從千億精簡到62億,具有如下特征:
第一,輕量級。結合模型量化技術,ChatGLM-6B參數(shù)大幅精簡,INT4 量化級別下最低只需 6GB 顯存,支持在單張消費級顯卡上進行本地部署,部署門檻與推理成本大幅降低。
第二,中英雙語對話。進行了充分的中英雙語預訓練,經(jīng)過約 1T 標識符的中英雙語訓練,輔以監(jiān)督微調(diào)、 反饋自助、人類反饋強化學習等訓練方式,它更能對齊人類意圖,進而擁有不錯的智能表現(xiàn)。
第三,國產(chǎn)自主。GLM-130B對國產(chǎn)信控生態(tài)有較好的支持,可在國產(chǎn)的海光 DCU、華為昇騰 910 和申威處理器及美國的英偉達芯片上進行訓練與推理。ChatGLM-6B作為國產(chǎn)自主的輕量級大模型也支持信控平臺,可助力我國AI技術特別是大模型自主化。
截至目前ChatGPT、文心一言、通義千問的體驗門檻都很高,而ChatGLM-6B支持公眾體驗(http://open.bigmodel.ai/trialcenter),簡單注冊后,我體驗了一下它的能力。對近期AI型圈沸沸揚揚的口水戰(zhàn),它回答得很得體:
我打算做一個華為最新折疊屏手機Mate X3的評測,讓ChatGLM-6B幫忙寫一個提綱,結果中規(guī)中矩,思路沒問題:
寫詩這樣的常規(guī)任務不在話下:
商業(yè)文案創(chuàng)作比如取名、想廣告詞都可以做,“喝蜜雪,不舔蓋”,很有創(chuàng)意了:
體驗中大部分時候ChatGLM-6B的表現(xiàn)相比ChatGPT、文心一言、通義千問并不遜色,考慮到它是一個只有62億參數(shù)的“輕量版”大模型,哪怕“遜色”也都可以原諒了。特別值得一提的是,智譜AI針對取標題、寫文章等不同場景進行了調(diào)優(yōu),讓它在滿足對應AIGC需求時有更出色的表現(xiàn):
ChatGLM-6B的參數(shù)規(guī)格只有62億,因此也存在一些不容回避的問題,比如在面對許多事實性知識任務時可能會生成不正確的信息,不擅長邏輯類問題(如數(shù)學、編程)的解答,對多輪對話的支持很一般。
要真正擁有人的智商,AI大模型依然任重道遠。AI大模型的完整稱呼是“AI預訓練大模型”,“預訓練”的字面意思很容易理解:預先訓練好,這樣應用開發(fā)者可得到相對現(xiàn)成的訓練結果,基于此直接開發(fā)AI應用,不再需要從0到1訓練數(shù)據(jù)、建立模型。它通過堆疊數(shù)據(jù)集“貪婪式”地訓練模式,擁有較強的通用性,理論上可泛化到多種應用場景,而小樣本或零樣本的技術實現(xiàn),則可讓應用開發(fā)者快速基于其構建工程應用。
顯而易見,ChatGLM-6B的出現(xiàn)體現(xiàn)出了大模型預訓練與泛化通用的精髓,它的理念是“有舍才有得”,弱化一些能力,但降低了部署門檻,讓開發(fā)者、研究者在本地計算機上進行大模型的微調(diào)、部署、訓練成了可能,進而可更好地支持大模型落地到海量場景。
在前幾天的一次公開活動上,智譜AI CEO張鵬曾表達一個觀點,“AIGC產(chǎn)業(yè)基座是預訓練大模型,原因在于兩個方面:第一、通用泛化能力,為AI研發(fā)降本增效,這是非常關鍵的特性;第二,融入更多知識,讓大模型能更好模擬人的智能。但與此同時也面臨著一些挑戰(zhàn),比如成本高昂、訓練數(shù)據(jù)巨大,周期長等。”ChatGLM-6B 的開源正是智譜AI實現(xiàn)通用泛化、降低AI研發(fā)門檻與成本的實踐。
開源一個月后,ChatGLM-6B 的Huggingface 全球下載量已超過75萬,持續(xù)兩周位列Huggingface 全球模型趨勢榜榜首,GitHub 星標數(shù)達到1.7萬。“小而美”的ChatGLM-6B 在開源社區(qū)走熱是大模型熱的縮影。
ChatGLM-6B讓大模型技術“人人可用”
ChatGLM-6B 通過輕量化的模式實現(xiàn)大模型的通用泛化,解決了大模型“高不可攀”這一開發(fā)者的痛點。在日益蓬勃的大模型產(chǎn)業(yè)中,有著獨特占位的ChatGLM-6B將在AI技術普惠中扮演重要角色。具體來說,它將給大模型產(chǎn)業(yè)帶來如下好處:
1、降低大模型使用門檻。更多開發(fā)者可輕松部署大模型,一方面, ChatGLM-6B是開源的,開發(fā)者可深入大模型底層一探究竟,只有搞清楚大模型的運轉機制才能更好地利用好大模型技術。另一方面,開發(fā)者可基于 ChatGLM-6B進行上層應用創(chuàng)新,開發(fā)出我們今天想都想不到的創(chuàng)新AI應用,在工業(yè)化階段再切換到GLM-130B這樣的千億級大模型上。
2、降低大模型的訓練成本。大模型訓練成本高昂且耗能,基于開源的ChatGLM-6B,開發(fā)者不再需要搭建龐大的算力體系,在訓練推理時也不需要耗費驚人的電力資源、所需時間周期將大幅縮短,進而更高效、低碳、經(jīng)濟地應用大模型技術,加速AI工業(yè)化大生產(chǎn)。
3、有利于大模型的教育普及。喬布斯當年曾說人人都要會編程,未來人人則要學會使用AI工具。在教育場景,計算機相關專業(yè)的大學生以及對編程有興趣的青少年,只要有一臺搭載顯卡的計算機就能輕松地部署ChatGLM-6B,可以盡早了解并學會應用大模型這一基礎技術。
個人覺得,“ChatGLM-6B+GLM-130B”的組合模式給AI大模型產(chǎn)業(yè)落地提供了一個新的范式:輕量級大模型扮演普惠的角色,讓更多人輕松“入門”,學習、理解、熟悉大模型技術,進行創(chuàng)新應用的開發(fā)、驗證、測試等。到了應用階段,如有必要再使用GLM-130B這樣的千億級工業(yè)化大模型部署產(chǎn)品,面向客戶與用戶提供商業(yè)化服務。
寫在最后:
AI大模型技術掀起新一輪產(chǎn)業(yè)革命,人類社會的生產(chǎn)力、生產(chǎn)資料與生產(chǎn)關系都將被重新定義,人們的生活與工作方式、企業(yè)的經(jīng)營模式以及社會的治理方式都在被重構。在這樣的大變局下,AI大模型已成為“國之重器”。
在技術浪潮涌來時,國際形勢正波詭云譎,大國競爭日益激烈,科技是核心角力場,不論是十四五規(guī)劃綱要還是二十大均明確要增強科技創(chuàng)新引領作用,實現(xiàn)高水平科技自立自強。在這樣的時代背景下,大模型成了跟芯片一樣的制高點,我國必須要有自己的底層大模型技術,更需要有自己的完整的大模型應用與產(chǎn)業(yè)生態(tài)。
這幾天,王小川與百度的口水戰(zhàn)在大模型行業(yè)引發(fā)熱議,其實爭論“我國大模型距離ChatGPT的差距究竟是2個月還是2年”沒什么意義,我國大模型技術距離GPT還有客觀的差距,推動大模型技術精進和產(chǎn)業(yè)落地,是大模型玩家們的責任,行業(yè)更需要ChatGLM-6B這樣的可落地的解決方案,它大幅降低了AI開發(fā)門檻,未來還可結合低代碼等技術實現(xiàn)“人人都會大模型開發(fā)”,這才是AI大模型技術普惠的必經(jīng)之路,也是我國AI大模型實現(xiàn)趕超的關鍵。
在官方博客上,ChatGLM團隊有一段樸素的文字:
“我們一直在探索、嘗試和努力,GLM 系列模型取得了一絲進展,但我們離國際頂尖大模型研究和產(chǎn)品(比如 OpenAI 的 ChatGPT 及下一代 GPT 模型)都還有明顯差距。中國大模型研究在原創(chuàng)算法、AI 芯片和產(chǎn)業(yè)上的追趕與突破需要大家的一起努力,更需要我們對下一代 AI 人才的培養(yǎng)與鍛煉。很幸運的是,GLM 團隊在過去幾年探索的過程中,有一群有情懷、有能力、有格局的年輕人加入我們并肩作戰(zhàn),快樂開卷,大家一起焦慮,一起熬夜,一起成長,一起創(chuàng)造。通用人工智能探索,我們一直在路上,努力前行?!?/p>
我覺得還是很扎心的。大模型熱潮中,渾水摸魚、蹭熱點、搞炒作的玩家不少,但也有一些腳踏實地的團隊正在研發(fā)大模型技術,想方設法在推動大模型落地,只爭朝夕地追趕先行者,他們,值得被尊敬。
免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 騰訊隱身,令人生畏
- 迪卡儂的價格、lululemon的品質,平替正成為年輕消費者的心頭好
- 三場與AI有關的死亡
- 100億美元史上最大融資的背后,國內(nèi)外巨頭齊瞄準Data+AI
- 有一種羨慕叫“別人家的年終獎”:京東采銷平均23薪,全網(wǎng)熱議“人的價值”
- 行業(yè)首個“人機大戰(zhàn)”對壘!AI翻譯已媲美人工
- 蘋果開啟年終大促,降價1200元,被國產(chǎn)手機嚇怕了?
- 1999 元起,OPPO A5 Pro 超防水、超抗摔、超耐用
- 長三角,如何把數(shù)據(jù)要素變成新長江?
- 大模型,在內(nèi)卷中尋找出口
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。