一口氣讀完一本三體,Moonshot AI首個(gè)大模型產(chǎn)品支持20萬(wàn)字上下文

2023年10月9日,成立僅半年的大模型初創(chuàng)公司 —— Moonshot AI宣布在“長(zhǎng)文本”領(lǐng)域?qū)崿F(xiàn)了突破,推出了首個(gè)支持輸入20萬(wàn)漢字的智能助手產(chǎn)品Kimi Chat。這是目前全球市場(chǎng)上能夠產(chǎn)品化使用的大模型服務(wù)中所能支持的最長(zhǎng)上下文輸入長(zhǎng)度,標(biāo)志著Moonshot AI在這一重要技術(shù)上取得了世界領(lǐng)先水平。

從技術(shù)上看,參數(shù)量決定了大模型支持多復(fù)雜的“計(jì)算”,而能夠接收多少文本輸入(即長(zhǎng)文本技術(shù))則決定了大模型有多大的“內(nèi)存”,兩者共同決定模型的應(yīng)用效果。支持更長(zhǎng)的上下文意味著大模型擁有更大的“內(nèi)存”,從而使得大模型的應(yīng)用更加深入和廣泛:比如通過(guò)多篇財(cái)報(bào)進(jìn)行市場(chǎng)分析、處理超長(zhǎng)的法務(wù)合同、快速梳理多篇文章或多個(gè)網(wǎng)頁(yè)的關(guān)鍵信息、基于長(zhǎng)篇小說(shuō)設(shè)定進(jìn)行角色扮演等等,都可以在超長(zhǎng)文本技術(shù)的加持下,成為我們工作和生活的一部分。

相比當(dāng)前市面上以英文為基礎(chǔ)訓(xùn)練的大模型服務(wù),Kimi Chat具備較強(qiáng)的多語(yǔ)言能力。例如,Kimi Chat在中文上具備顯著優(yōu)勢(shì),實(shí)際使用效果能夠支持約20萬(wàn)漢字的上下文,2.5倍于Anthropic公司的Claude-100k(實(shí)測(cè)約8萬(wàn)字),8倍于OpenAI公司的GPT-4-32k(實(shí)測(cè)約2.5萬(wàn)字)。同時(shí),Kimi Chat通過(guò)創(chuàng)新的網(wǎng)絡(luò)結(jié)構(gòu)和工程優(yōu)化,在千億參數(shù)下實(shí)現(xiàn)了無(wú)損的長(zhǎng)程注意力機(jī)制,不依賴(lài)于滑動(dòng)窗口、降采樣、小模型等對(duì)性能損害較大的“捷徑”方案。

目前,Moonshot AI 的智能助手產(chǎn)品Kimi Chat已開(kāi)放了內(nèi)測(cè)。

大模型輸入長(zhǎng)度受限帶來(lái)的應(yīng)用困境

當(dāng)前大模型輸入長(zhǎng)度普遍較低的現(xiàn)狀對(duì)其技術(shù)落地產(chǎn)生了極大制約,例如:

目前大火的虛擬角色場(chǎng)景中,由于長(zhǎng)文本能力不足,虛擬角色會(huì)輕易忘記重要信息,例如在Character AI的社區(qū)中用戶(hù)經(jīng)常抱怨“因?yàn)榻巧诙噍唽?duì)話(huà)后忘記了自己的身份,所以不得不重新開(kāi)啟新的對(duì)話(huà)”。

對(duì)于大模型開(kāi)發(fā)者來(lái)說(shuō),輸入prompt長(zhǎng)度的限制約束了大模型應(yīng)用的場(chǎng)景和能力的發(fā)揮,比如基于大模型開(kāi)發(fā)劇本殺類(lèi)游戲時(shí),往往需要將數(shù)萬(wàn)字甚至超過(guò)十萬(wàn)字的劇情設(shè)定以及游戲規(guī)則作為prompt加入應(yīng)用,如果模型輸入長(zhǎng)度不夠,則只能削減規(guī)則和設(shè)定,從而無(wú)法達(dá)到預(yù)期游戲效果。

在另一個(gè)大模型應(yīng)用的主要方向——Agent中,由于Agent運(yùn)行需要自動(dòng)進(jìn)行多輪規(guī)劃和決策,且每次行動(dòng)都需要參考?xì)v史記憶信息才能完成,這會(huì)帶來(lái)了模型輸入的快速增加,同時(shí)也意味著不能處理更長(zhǎng)上下文的模型將因?yàn)闊o(wú)法全面準(zhǔn)確的基于歷史信息進(jìn)行新的規(guī)劃和決策從而降低Agent運(yùn)行成功的概率。

在使用大模型作為工作助理完成任務(wù)的過(guò)程中,幾乎每個(gè)深度用戶(hù)都遇到過(guò)輸入長(zhǎng)度超出限制的情況。尤其是律師、分析師、咨詢(xún)師等職業(yè)的用戶(hù),由于常常需要分析處理較長(zhǎng)的文本內(nèi)容,使用大模型時(shí)受挫的情況發(fā)生頻率極高。

而上述所有的問(wèn)題在大模型擁有足夠長(zhǎng)的上下文輸入后都將會(huì)迎刃而解。

長(zhǎng)文本打開(kāi)大模型應(yīng)用的新世界

那么擁有超長(zhǎng)上下文輸入后的大模型會(huì)有怎樣的表現(xiàn)?下面是一些Kimi Chat實(shí)際使用的例子:

公眾號(hào)的長(zhǎng)文直接交給Kimi Chat ,讓它幫你快速總結(jié)分析

新鮮出爐的英偉達(dá)財(cái)報(bào),交給Kimi Chat,快速完成關(guān)鍵信息分析:

出差發(fā)票太多?全部拖進(jìn)Kimi Chat,快速整理成需要的信息:

發(fā)現(xiàn)了新的算法論文時(shí),Kimi Chat能夠直接幫你根據(jù)論文復(fù)現(xiàn)代碼:

只需要一個(gè)網(wǎng)址,就可以在Kimi Chat中和自己喜歡的原神角色聊天:

輸入整本《月亮與六便士》,讓Kimi Chat和你一起閱讀,幫助你更好的理解和運(yùn)用書(shū)本中的知識(shí):

通過(guò)上述例子,我們可以看到,當(dāng)模型可以處理的上下文變得更長(zhǎng)后,大模型的能力能夠覆蓋到更多使用場(chǎng)景,真正在人們的工作、生活、學(xué)習(xí)中發(fā)揮作用,而且由于可以直接基于全文理解進(jìn)行問(wèn)答和信息處理,大模型生成的“幻覺(jué)”問(wèn)題也可以得到很大程度的解決。

不走捷徑,解決算法和工程的雙重挑戰(zhàn)

長(zhǎng)文本技術(shù)的開(kāi)發(fā),存在一些對(duì)效果損害很大的“捷徑”,主要包含以下幾個(gè)方面:

“金魚(yú)”模型,特點(diǎn)是容易“健忘”。通過(guò)滑動(dòng)窗口等方式主動(dòng)拋棄上文,只保留對(duì)最新輸入的注意力機(jī)制。模型無(wú)法對(duì)全文進(jìn)行完整理解,無(wú)法處理跨文檔的比較和長(zhǎng)文本的綜合理解(例如,無(wú)法從一篇10萬(wàn)字的用戶(hù)訪(fǎng)談錄音轉(zhuǎn)寫(xiě)中提取最有價(jià)值的10個(gè)觀(guān)點(diǎn))。

“蜜蜂”模型,特點(diǎn)是只關(guān)注局部,忽略整體。通過(guò)對(duì)上下文的降采樣或者RAG(檢索增強(qiáng)的生成),只保留對(duì)部分輸入的注意力機(jī)制。模型同樣無(wú)法對(duì)全文進(jìn)行完整理解(例如,無(wú)法從50個(gè)簡(jiǎn)歷中對(duì)候選人的畫(huà)像進(jìn)行歸納和總結(jié))。

“蝌蚪”模型,特點(diǎn)是模型能力尚未發(fā)育完整。通過(guò)減少參數(shù)量(例如減少到百億參數(shù))來(lái)提升上下文長(zhǎng)度,這種方法會(huì)降低模型本身的能力,雖然能支持更長(zhǎng)上下文,但是大量任務(wù)無(wú)法勝任。

簡(jiǎn)單的捷徑無(wú)法達(dá)到理想的產(chǎn)品化效果。為了真正做出可用、好用的產(chǎn)品,就不能走虛假的捷徑,而應(yīng)直面挑戰(zhàn)。

訓(xùn)練層面,想訓(xùn)練得到一個(gè)支持足夠長(zhǎng)上下文能力的模型,不可避免地要面對(duì)如下困難:

如何讓模型能在幾十萬(wàn)的上下文窗口中,準(zhǔn)確的 Attend 到所需要的內(nèi)容,不降低其原有的基礎(chǔ)能力?已有的類(lèi)似滑動(dòng)窗口和長(zhǎng)度外推等技術(shù)對(duì)模型性能的損害比較大,在很多場(chǎng)景下無(wú)法實(shí)現(xiàn)真正的上下文。

在千億參數(shù)級(jí)別訓(xùn)練長(zhǎng)上下文模型,帶來(lái)了更高的算力需求和極嚴(yán)重的顯存壓力,傳統(tǒng)的 3D 并行方案已經(jīng)難以無(wú)法滿(mǎn)足訓(xùn)練需求。

缺乏充足的高質(zhì)量長(zhǎng)序列數(shù)據(jù),如何提供更多的有效數(shù)據(jù)給模型訓(xùn)練?

推理層面,在獲得了支持超長(zhǎng)上下文的模型后,如何讓模型能服務(wù)眾多用戶(hù),同樣要面臨艱巨挑戰(zhàn):

Transformer模型中自注意力機(jī)制(Self Attention)的計(jì)算量會(huì)隨著上下文長(zhǎng)度的增加呈平方級(jí)增長(zhǎng),比如上下文增加32倍時(shí),計(jì)算量實(shí)際會(huì)增長(zhǎng)1000倍,這意味著如果只是用樸素的方式實(shí)現(xiàn),用戶(hù)需要等待極其長(zhǎng)的時(shí)間才能獲得反饋。

超長(zhǎng)上下文導(dǎo)致顯存需求進(jìn)一步增長(zhǎng):以 1750 億參數(shù)的 GPT-3為例,目前最高單機(jī)配置( 80 GiB * 8 )最多只能支持 64k 上下文長(zhǎng)度的推理,超長(zhǎng)文本對(duì)顯存的要求可見(jiàn)一斑。

極大的顯存帶寬壓力:英偉達(dá)A800 或 H800的顯存帶寬高達(dá) 2-3 TiB/s,但面對(duì)如此長(zhǎng)的上下文,樸素方法的生成速度只能達(dá)到 2~5 tokens/s,使用的體驗(yàn)極其卡頓。

Moonshot AI的技術(shù)團(tuán)隊(duì)進(jìn)行了極致的算法和工程優(yōu)化,克服上述困難完成了大內(nèi)存模型的產(chǎn)品化,發(fā)布了支持20萬(wàn)字輸入的千億參數(shù)LLM產(chǎn)品。

“登月計(jì)劃”第一步:歡迎來(lái)到Long LLM時(shí)代

Moonshot AI創(chuàng)始人楊植麟此前在接受采訪(fǎng)時(shí)曾表示,無(wú)論是文字、語(yǔ)音還是視頻,對(duì)海量數(shù)據(jù)的無(wú)損壓縮可以實(shí)現(xiàn)高程度的智能。

無(wú)損壓縮的進(jìn)展曾極度依賴(lài)「參數(shù)為王」模式,該模式下壓縮比直接與參數(shù)量相關(guān),這極大增加了模型的訓(xùn)練成本和應(yīng)用門(mén)檻,而Moonshot AI認(rèn)為:大模型的能力上限(即無(wú)損壓縮比)是由單步能力和執(zhí)行的步驟數(shù)共同決定的。單步能力與參數(shù)量正相關(guān),而執(zhí)行步驟數(shù)即上下文長(zhǎng)度。

Moonshot AI相信,更長(zhǎng)的上下文長(zhǎng)度可以為大模型應(yīng)用帶來(lái)全新的篇章,促使大模型從 LLM時(shí)代進(jìn)入Long LLM (LLLM)時(shí)代:

每個(gè)人都可以擁有一個(gè)具備終身記憶的虛擬伴侶,它可以在生命的長(zhǎng)河中記住與你交互的所有細(xì)節(jié),建立長(zhǎng)期的情感連接。

每個(gè)人都可以擁有一個(gè)在工作環(huán)境與你共生(co-inhabit)的助手,它知曉公域( 互聯(lián)網(wǎng))和私域(企業(yè)內(nèi)部文檔)的所有知識(shí),并基于此幫助你完成OKR。

每個(gè)人都可以擁有一個(gè)無(wú)所不知的學(xué)習(xí)向?qū)?,不僅能夠準(zhǔn)確的給你提供知識(shí),更能夠引導(dǎo)你跨越學(xué)科間的壁壘,更加自由的探索與創(chuàng)新。

當(dāng)然,更長(zhǎng)的上下文長(zhǎng)度只是Moonshot AI在下一代大模型技術(shù)上邁出的第一步。Moonshot AI計(jì)劃憑借該領(lǐng)域的領(lǐng)先技術(shù),加速大模型技術(shù)的創(chuàng)新和應(yīng)用落地。

登月計(jì)劃的伙伴說(shuō):

Monolith礪思資本專(zhuān)注于新一代數(shù)字產(chǎn)業(yè)和科技智造領(lǐng)域的投資,是Moonshot AI第一輪融資的3家投資機(jī)構(gòu)之一,并一直以實(shí)際行動(dòng)支持著公司發(fā)展。礪思資本創(chuàng)始合伙人曹曦表示,楊植麟是全球大模型領(lǐng)域里最被認(rèn)可的華人技術(shù)專(zhuān)家,其團(tuán)隊(duì)在人工智能技術(shù),特別是大語(yǔ)言模型LLM領(lǐng)域擁有深厚的技術(shù)積累,并已在國(guó)際上獲得了廣泛認(rèn)可。眼下,美國(guó)硅谷的OpenAI和Anthropic等公司獲得了多方關(guān)注,實(shí)際上在國(guó)內(nèi),擁有足夠多技術(shù)儲(chǔ)備的Moonshot AI也正成長(zhǎng)為全球領(lǐng)先的AGI初創(chuàng)公司。多模態(tài)大模型是各家AI廠(chǎng)商競(jìng)爭(zhēng)的關(guān)鍵領(lǐng)域,其中長(zhǎng)文本輸入技術(shù)更是其核心技術(shù)之一,Moonshot AI團(tuán)隊(duì)最新發(fā)布的大模型和Kimi Chat在這方面實(shí)現(xiàn)了重要突破,并已成功應(yīng)用于多個(gè)實(shí)際場(chǎng)景。礪思將繼續(xù)加碼并支持Moonshot AI團(tuán)隊(duì)在AGI領(lǐng)域大膽創(chuàng)新和技術(shù)突破,引領(lǐng)中國(guó)人工智能技術(shù)的未來(lái)發(fā)展。

真格基金合伙人戴雨森對(duì)公司的發(fā)展表達(dá)了肯定和期許:“我們認(rèn)為近期AI應(yīng)用的爆火只是一場(chǎng)革命的序幕,AI技術(shù)要想真正改變世界創(chuàng)造巨大價(jià)值,在智能程度上還需要大的突破,這需要具備頂級(jí)技術(shù)能力的團(tuán)隊(duì),以堅(jiān)持追尋Moonshot的勇氣,持續(xù)挑戰(zhàn)智能提升的邊界。楊植麟作為XLNet等多項(xiàng)知名科研工作的第一作者,具備非常豐富的科研和實(shí)踐經(jīng)驗(yàn),多年來(lái)他一直堅(jiān)信通過(guò)大模型實(shí)現(xiàn)對(duì)高維數(shù)據(jù)的壓縮是人工智能發(fā)展的必經(jīng)之路,也團(tuán)結(jié)了一支人才密度超高,配合默契,又充滿(mǎn)挑戰(zhàn)巨頭搖滾精神的創(chuàng)業(yè)團(tuán)隊(duì)。真格基金非常榮幸能夠再次從天使輪開(kāi)始支持楊植麟的新征程。”

關(guān)于Moonshot AI

Moonshot AI 創(chuàng)立于 2023 年 3 月,致力于尋求將能源轉(zhuǎn)化為智能的最優(yōu)解,通過(guò)產(chǎn)品與用戶(hù)共創(chuàng)智能。創(chuàng)始團(tuán)隊(duì)核心成員參與了 Google Gemini、Google Bard、盤(pán)古NLP、悟道等多個(gè)大模型的研發(fā),多項(xiàng)核心技術(shù)被Google PaLM、Meta LLaMa、Stable Diffusion等主流產(chǎn)品采用。Moonshot AI 融資超2億美元。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )