5月17日消息,由搜狐主辦的2023搜狐科技峰會17日上午在北京開幕。峰會下午,智譜AI COO張帆發(fā)表了《大模型的探索和實踐》的演講。他認為,ChatGPT背后是大模型技術(shù),只有做到千億模型,才是AIGC的船票。
張帆認為,做大模型需要面臨算法、算力的挑戰(zhàn),還需要數(shù)據(jù)經(jīng)驗。所謂名師出高徒,越好的數(shù)據(jù),喂出來的模型越好。如果數(shù)據(jù)有問題,或者數(shù)據(jù)的價值觀有問題,傳導到模型后,將很難修復。
同時他表示,大模型有很多應用場景,比如文本生成、信息抽取等。大模型可以進一步讓AI普惠,可以更加低成本、快速地把AI應用到各種業(yè)務場景中。
以下為張帆演講全文:
首先大家能夠看到今年被震撼的事件,就是ChatGPT用了兩個月的時間,全球破億用戶的神話,特別是對比傳統(tǒng)的技術(shù),這個速度變得非??臁T?a href="http://m.ygpos.cn/ChatGPT_1.html" target="_blank" class="keylink">ChatGPT背后的技術(shù)是什么呢?是一個大模型的技術(shù),我簡單羅列了一下大模型發(fā)展趨勢。
大模型從2017年Transformer這篇論文出現(xiàn),開始有了這個賽道,18年發(fā)布GPT-1開始,橫軸是時間線,縱軸是參數(shù)量,越來越多的模型和越來越大的參數(shù)出現(xiàn)。智譜是比較早就關(guān)注到這個方向。
從19年公司成立就在關(guān)注大模型,那個時候沒有那么火熱,一直投入資源在做。一直到21年下半年,我們開始訓練我們第一個希望能夠普惠的千億稠密的大模型,大概訓練了8、9個月之后,到22年8月份發(fā)布第一個版本,并且開源出來,在國際社會上有很多正向的反饋。
到了今年3月份,我們對標ChatGPT,出臺了ChatGLM對話式模型反饋非常好。今年3月份,發(fā)布了6B小號的大模型更加普惠,甚至在單張游戲卡上就可以跑出來,一個多月的時間,全球有200萬的用戶,熱度非常高的。
從最開始OpenAI有GPT-1、GPT-2,到GPT-3,有代碼、網(wǎng)頁指令等,到后面的GPT-4。我們?nèi)ツ?也許發(fā)布了千億模型之后,也在跟進每個環(huán)節(jié),我們有對應的對標,比如說代碼模型、指令微調(diào),讓大模型遵循指令,Web及時獲取真實信息,Chat更像是跟人聊天,按照這樣的節(jié)奏,在今年3、4月份,基本上補齊3.5對標的邏輯,我們正在追趕GPT-4的邏輯。
為什么我們叫千億大模型?它的模型參數(shù)從一開始1億、10億、百億、千億這樣的流程,縱向是由機器生成一篇文章,讓人判別,有多大概率是機器寫的,判別這個事兒,最低線是隨機猜,下面是50%的底線。隨著參數(shù)量從1億到千億,每次增長人類越來越發(fā)現(xiàn)不了,這篇文章是不是機器寫的,等到達千億的時候,幾乎人類已經(jīng)很難分辨是機器寫的還是人類寫的,只有做到千億模型,才是AIGC的船票。
為什么會產(chǎn)生這樣的智能?其實很多研究中,很多的任務中,我們可以看到,隨著參數(shù)量的變化,從百億到接近千億,甚至到大幾百億的時候,突然智能有快速的突增,這就是所謂的涌現(xiàn),包括思考的能力、遵循指令的能力,推理的能力,都在很大規(guī)模才開始產(chǎn)生的。但是這個背后的原因雖然有各種各樣的猜測和說法,也沒有很明確的定論。
但是我們認為這個邏輯還是講得通的。其實,人類的智能不是隨著神經(jīng)元做的線性增長,我們1歲的時候,有一些基礎的智力,談不上很聰明,到了2歲、3歲,結(jié)果到了3歲以后,開始快速具備智能,這些能力也不是線性的。所以我們覺得機器跟人很像,而且人有多少神經(jīng)元,人類大概有800億神經(jīng)元,今天到了千億參數(shù)量,開始接近人類了,至少接近一個數(shù)量級的情況下了,這是我們從大模型里看到的變化。
但是做大模型本身也是很難的,這個好比我們蓋樓房一樣,咱們蓋五層樓和蓋50層樓,不是一個線性關(guān)系,用的基礎技術(shù)都不一樣,5層樓用木頭就可以了,50層樓要用到鋼筋。
我們總結(jié)幾個挑戰(zhàn)。
第一個挑戰(zhàn)是算法挑戰(zhàn)。大模型精度非常高,它在非常復雜的計算的時候,我們本身是希望會逐步收斂起來,變成穩(wěn)定的模型,現(xiàn)實當中,復雜精度訓練當中,經(jīng)常出現(xiàn)由于精度不夠,代替梯度爆炸,模型突然訓壞了,沒有收斂了,而且爆炸了,這種情況非常常見。
另外一個是算力挑戰(zhàn)。我們整個千億130B模型的訓練,純的算力費用超過一個億,這是去年的,今年所有的算力都翻倍,甚至更高,關(guān)鍵是買不到了。
另外就是數(shù)據(jù)上的經(jīng)驗。這通常就是大家所理解的名師出高徒,也就是越好的數(shù)據(jù),喂出來的模型越好,如果數(shù)據(jù)有問題,或者數(shù)據(jù)的質(zhì)量價值觀有問題,直接傳導到模型上,后面很難去修復。
下面簡單介紹一下我們整體大模型矩陣,智譜有完整的大模型矩陣,我們?nèi)婧w了文本、代碼、圖像、視頻,基本上對標OpenAI,我們有一個大號的大模型130B,到小號的大模型到6B,從基座模型到對話模型,以及應用端的代碼模型,有文生圖模型,還有CogVideo文生圖視頻,整個矩陣比較完整。
更關(guān)鍵的是大模型生產(chǎn)過程中,我們大多數(shù)人用的是GPT,而我們用的是GLM,百分之百自主知識產(chǎn)權(quán)的算法自研的,這個相當于一方面有把GPT單向模型的能力,只會單向預測出現(xiàn)的概率,到雙向的,從文本中間摳掉字,通過兩種特殊能力的結(jié)合,產(chǎn)生GLM的算法。我們明顯超過GPT-3的水平,得益于算法本身從訓練當中挖掘更多的知識信息。
講一下我們具體模型特點,130B模型,1300億大語言模型在去年8月份發(fā)布的,今年持續(xù)迭代,這個模型有幾個特點,在去年8月份,我們率先把它做了開源,一個雙語的模型,尤其在中文的數(shù)據(jù)集上有領(lǐng)先優(yōu)勢。
另外兩個特色,第一個是無損量化,我們是極其少有的,我們能夠用int4無損壓縮大模型,每個參數(shù)用全精度32個位,現(xiàn)在變成4個位還不影響精度,它占據(jù)的空間非常小。另外我們?nèi)嬷С謬a(chǎn)信創(chuàng),我們甚至有一些模型完全在華為的昇騰上面完成訓練,我們對于國產(chǎn)的芯片都是有較好的支持。
另外分享一下,我們還有一個CodeGeeX,全球領(lǐng)先的多語言代碼,我們在多語言模型上僅次于OpenAI,像Meta的,其他的開放平臺,Salesforce都是勝出的,我們包裝成中國的插件,也是對標GitHub,中國每天產(chǎn)生400萬行的代碼為我們的用戶。另外在評測當中,有84%的用戶都覺得它的效果是比較好的。
我們在過去一段時間,大概溝通有將近100家客戶,在這個過程當中,我們不斷的產(chǎn)生新的idea,讓我們了解大模型如何應用到應用當中。每一次交互的變化,都可能對某一類需求產(chǎn)生洗牌的機會,我們更了解大模型,大模型應用場景非常值得關(guān)注。
我們選了幾個常見的點,跟大家做簡單的分享。
第一個文本生成。沒有大模型之前,我們的文本生成基本上都是規(guī)則作為基礎,都是以規(guī)則的拼接方式來做的,基本上很容易發(fā)現(xiàn)是人還是機器做的,而且它的影響面和應用場景非常小。
現(xiàn)在模型大文本生成能力非常強,比如廣告文案生成,工作當中周報的生成,新聞的生成,標書的生成,招聘的話,職位的生成,旅游的話,游記的生成,它的生成能力放在無數(shù)的地方,可能對市場的生態(tài)帶來新的可能性,或者新的機會。這是一個非常好的場景。
第二個信息抽取。我們以前做信息抽取,基本上都靠NLP的方法,來打標,各種規(guī)則等等方法,其實它的泛化能力非常差,生產(chǎn)成本特別高,我們在一些客戶需求抽取樂得長江,有一些銷售戴著智能工牌,跟客戶聊天有一萬字的生成,我們提取用戶畫像,用戶需求,甚至做客服的質(zhì)檢,有沒有該說的話,不該說的話也說了來打分。
如用傳統(tǒng)的NLP的方法,則需要用兩三個月的時間不斷調(diào)整,而在今天大模型時代,它的生產(chǎn)成本,一個人搞半天就可以搞好了,在這種情況下,大模型進一步讓AI普惠,在每個地方更加低成本、大家快速的把AI應用到自己的業(yè)務場景里面去。
再比如說信息檢索,微軟的New Bing,帶來一種全新的模式。我們原來的搜索引擎,搜索完了之后,把10條結(jié)果全部要讀一遍,看完要一個小時,大模型可以幫你完全看完,基于你的問題,針對性做回答,甚至還可以進一步做追問,這個體驗會帶來完全顛覆。
這僅僅是網(wǎng)頁,它本身內(nèi)容密度比較高的。我們今天搜一個視頻,往往只能得到封面或者是一個標題,你完全不知道自己查的內(nèi)容在哪,如果把整個視頻看了,半天就沒了,大語言能不能把字幕里的內(nèi)容提取出來,閱讀完之后,轉(zhuǎn)成對應的方式給我們,不再受制于展現(xiàn)形式。
比如說我們簡歷的檢索,原來簡歷檢索到這個人的職位和公司,它對于每一場項目經(jīng)驗的描述,我們沒辦法轉(zhuǎn)化成語義,在今天有可能完全改變垂直領(lǐng)域,用戶搜索的習慣和場景,這也是一個非常大的機會。在原來的方式里面做不到的。
比如說對話系統(tǒng),原來對話系統(tǒng),基本上以QA為基礎,我們寫好的問題,不夠的話,我們不停擴展擴寫,用各種各樣的方法,非常生硬,稍微長一點的上下文理解不了,在大模型領(lǐng)域里面,有無數(shù)的場景,更好把對話能力植入進去,不斷有更豐富的對話,即使QA里面沒有,放一個用戶手冊,可以隨便提問題,它了門檻、效果、上下文能力,泛化能力,遠遠超過之前的傳統(tǒng)方法,包括我們在會議場景上做會議紀要,會議紀要直接變成排期,都是有機會。
我們會看到僅僅在過去兩個月時間,就見到無數(shù)這樣的場景,一次一次被我們大模型能力驚艷到,它在各個場景里會出現(xiàn)越來越多的應用,這將是一個值得大家關(guān)注的方向。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 特斯拉CEO馬斯克身家暴漲,穩(wěn)居全球首富寶座
- 阿里巴巴擬發(fā)行 26.5 億美元和 170 億人民幣債券
- 騰訊音樂Q3持續(xù)穩(wěn)健增長:總收入70.2億元,付費用戶數(shù)1.19億
- 蘋果Q4營收949億美元同比增6%,在華營收微降
- 三星電子Q3營收79萬億韓元,營業(yè)利潤受一次性成本影響下滑
- 賽力斯已向華為支付23億,購買引望10%股權(quán)
- 格力電器三季度營收同比降超15%,凈利潤逆勢增長
- 合合信息2024年前三季度業(yè)績穩(wěn)?。籂I收增長超21%,凈利潤增長超11%
- 臺積電四季度營收有望再攀高峰,預計超260億美元刷新紀錄
- 韓國三星電子決定退出LED業(yè)務,市值蒸發(fā)超4600億元
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。