123,123

2023年10月9日，成立僅半年的大模型初創(chuàng)公司 —— Moonshot AI宣布在“長(zhǎng)文本”領(lǐng)域?qū)崿F(xiàn)了突破，推出了首個(gè)支持輸入20萬(wàn)漢字的智能助手產(chǎn)品Kimi Chat。這是目前全球市場(chǎng)上能夠產(chǎn)品化使用的大模型服務(wù)中所能支持的最長(zhǎng)上下文輸入長(zhǎng)度，標(biāo)志著Moonshot AI在這一重要技術(shù)上取得了世界領(lǐng)先水平。

從技術(shù)上看，參數(shù)量決定了大模型支持多復(fù)雜的“計(jì)算”，而能夠接收多少文本輸入(即長(zhǎng)文本技術(shù))則決定了大模型有多大的“內(nèi)存”，兩者共同決定模型的應(yīng)用效果。支持更長(zhǎng)的上下文意味著大模型擁有更大的“內(nèi)存”，從而使得大模型的應(yīng)用更加深入和廣泛：比如通過(guò)多篇財(cái)報(bào)進(jìn)行市場(chǎng)分析、處理超長(zhǎng)的法務(wù)合同、快速梳理多篇文章或多個(gè)網(wǎng)頁(yè)的關(guān)鍵信息、基于長(zhǎng)篇小說(shuō)設(shè)定進(jìn)行角色扮演等等，都可以在超長(zhǎng)文本技術(shù)的加持下，成為我們工作和生活的一部分。

相比當(dāng)前市面上以英文為基礎(chǔ)訓(xùn)練的大模型服務(wù)，Kimi Chat具備較強(qiáng)的多語(yǔ)言能力。例如，Kimi Chat在中文上具備顯著優(yōu)勢(shì)，實(shí)際使用效果能夠支持約20萬(wàn)漢字的上下文，2.5倍于Anthropic公司的Claude-100k(實(shí)測(cè)約8萬(wàn)字)，8倍于OpenAI公司的GPT-4-32k(實(shí)測(cè)約2.5萬(wàn)字)。同時(shí)，Kimi Chat通過(guò)創(chuàng)新的網(wǎng)絡(luò)結(jié)構(gòu)和工程優(yōu)化，在千億參數(shù)下實(shí)現(xiàn)了無(wú)損的長(zhǎng)程注意力機(jī)制，不依賴于滑動(dòng)窗口、降采樣、小模型等對(duì)性能損害較大的“捷徑”方案。

目前，Moonshot AI 的智能助手產(chǎn)品Kimi Chat已開(kāi)放了內(nèi)測(cè)。

大模型輸入長(zhǎng)度受限帶來(lái)的應(yīng)用困境

當(dāng)前大模型輸入長(zhǎng)度普遍較低的現(xiàn)狀對(duì)其技術(shù)落地產(chǎn)生了極大制約，例如：

目前大火的虛擬角色場(chǎng)景中，由于長(zhǎng)文本能力不足，虛擬角色會(huì)輕易忘記重要信息，例如在Character AI的社區(qū)中用戶經(jīng)常抱怨“因?yàn)榻巧诙噍唽?duì)話后忘記了自己的身份，所以不得不重新開(kāi)啟新的對(duì)話”。

對(duì)于大模型開(kāi)發(fā)者來(lái)說(shuō)，輸入prompt長(zhǎng)度的限制約束了大模型應(yīng)用的場(chǎng)景和能力的發(fā)揮，比如基于大模型開(kāi)發(fā)劇本殺類游戲時(shí)，往往需要將數(shù)萬(wàn)字甚至超過(guò)十萬(wàn)字的劇情設(shè)定以及游戲規(guī)則作為prompt加入應(yīng)用，如果模型輸入長(zhǎng)度不夠，則只能削減規(guī)則和設(shè)定，從而無(wú)法達(dá)到預(yù)期游戲效果。

在另一個(gè)大模型應(yīng)用的主要方向——Agent中，由于Agent運(yùn)行需要自動(dòng)進(jìn)行多輪規(guī)劃和決策，且每次行動(dòng)都需要參考?xì)v史記憶信息才能完成，這會(huì)帶來(lái)了模型輸入的快速增加，同時(shí)也意味著不能處理更長(zhǎng)上下文的模型將因?yàn)闊o(wú)法全面準(zhǔn)確的基于歷史信息進(jìn)行新的規(guī)劃和決策從而降低Agent運(yùn)行成功的概率。

在使用大模型作為工作助理完成任務(wù)的過(guò)程中，幾乎每個(gè)深度用戶都遇到過(guò)輸入長(zhǎng)度超出限制的情況。尤其是律師、分析師、咨詢師等職業(yè)的用戶，由于常常需要分析處理較長(zhǎng)的文本內(nèi)容，使用大模型時(shí)受挫的情況發(fā)生頻率極高。

而上述所有的問(wèn)題在大模型擁有足夠長(zhǎng)的上下文輸入后都將會(huì)迎刃而解。

長(zhǎng)文本打開(kāi)大模型應(yīng)用的新世界

那么擁有超長(zhǎng)上下文輸入后的大模型會(huì)有怎樣的表現(xiàn)?下面是一些Kimi Chat實(shí)際使用的例子：

公眾號(hào)的長(zhǎng)文直接交給Kimi Chat ，讓它幫你快速總結(jié)分析

新鮮出爐的英偉達(dá)財(cái)報(bào)，交給Kimi Chat，快速完成關(guān)鍵信息分析：

出差發(fā)票太多?全部拖進(jìn)Kimi Chat，快速整理成需要的信息：

發(fā)現(xiàn)了新的算法論文時(shí)，Kimi Chat能夠直接幫你根據(jù)論文復(fù)現(xiàn)代碼：

只需要一個(gè)網(wǎng)址，就可以在Kimi Chat中和自己喜歡的原神角色聊天：

輸入整本《月亮與六便士》，讓Kimi Chat和你一起閱讀，幫助你更好的理解和運(yùn)用書(shū)本中的知識(shí)：

通過(guò)上述例子，我們可以看到，當(dāng)模型可以處理的上下文變得更長(zhǎng)后，大模型的能力能夠覆蓋到更多使用場(chǎng)景，真正在人們的工作、生活、學(xué)習(xí)中發(fā)揮作用，而且由于可以直接基于全文理解進(jìn)行問(wèn)答和信息處理，大模型生成的“幻覺(jué)”問(wèn)題也可以得到很大程度的解決。

不走捷徑，解決算法和工程的雙重挑戰(zhàn)

長(zhǎng)文本技術(shù)的開(kāi)發(fā)，存在一些對(duì)效果損害很大的“捷徑”，主要包含以下幾個(gè)方面：

“金魚(yú)”模型，特點(diǎn)是容易“健忘”。通過(guò)滑動(dòng)窗口等方式主動(dòng)拋棄上文，只保留對(duì)最新輸入的注意力機(jī)制。模型無(wú)法對(duì)全文進(jìn)行完整理解，無(wú)法處理跨文檔的比較和長(zhǎng)文本的綜合理解(例如，無(wú)法從一篇10萬(wàn)字的用戶訪談錄音轉(zhuǎn)寫(xiě)中提取最有價(jià)值的10個(gè)觀點(diǎn))。

“蜜蜂”模型，特點(diǎn)是只關(guān)注局部，忽略整體。通過(guò)對(duì)上下文的降采樣或者RAG(檢索增強(qiáng)的生成)，只保留對(duì)部分輸入的注意力機(jī)制。模型同樣無(wú)法對(duì)全文進(jìn)行完整理解(例如，無(wú)法從50個(gè)簡(jiǎn)歷中對(duì)候選人的畫(huà)像進(jìn)行歸納和總結(jié))。

“蝌蚪”模型，特點(diǎn)是模型能力尚未發(fā)育完整。通過(guò)減少參數(shù)量(例如減少到百億參數(shù))來(lái)提升上下文長(zhǎng)度，這種方法會(huì)降低模型本身的能力，雖然能支持更長(zhǎng)上下文，但是大量任務(wù)無(wú)法勝任。

簡(jiǎn)單的捷徑無(wú)法達(dá)到理想的產(chǎn)品化效果。為了真正做出可用、好用的產(chǎn)品，就不能走虛假的捷徑，而應(yīng)直面挑戰(zhàn)。

訓(xùn)練層面，想訓(xùn)練得到一個(gè)支持足夠長(zhǎng)上下文能力的模型，不可避免地要面對(duì)如下困難：

如何讓模型能在幾十萬(wàn)的上下文窗口中，準(zhǔn)確的 Attend 到所需要的內(nèi)容，不降低其原有的基礎(chǔ)能力?已有的類似滑動(dòng)窗口和長(zhǎng)度外推等技術(shù)對(duì)模型性能的損害比較大，在很多場(chǎng)景下無(wú)法實(shí)現(xiàn)真正的上下文。

在千億參數(shù)級(jí)別訓(xùn)練長(zhǎng)上下文模型，帶來(lái)了更高的算力需求和極嚴(yán)重的顯存壓力，傳統(tǒng)的 3D 并行方案已經(jīng)難以無(wú)法滿足訓(xùn)練需求。

缺乏充足的高質(zhì)量長(zhǎng)序列數(shù)據(jù)，如何提供更多的有效數(shù)據(jù)給模型訓(xùn)練?

推理層面，在獲得了支持超長(zhǎng)上下文的模型后，如何讓模型能服務(wù)眾多用戶，同樣要面臨艱巨挑戰(zhàn)：

Transformer模型中自注意力機(jī)制(Self Attention)的計(jì)算量會(huì)隨著上下文長(zhǎng)度的增加呈平方級(jí)增長(zhǎng)，比如上下文增加32倍時(shí)，計(jì)算量實(shí)際會(huì)增長(zhǎng)1000倍，這意味著如果只是用樸素的方式實(shí)現(xiàn)，用戶需要等待極其長(zhǎng)的時(shí)間才能獲得反饋。

超長(zhǎng)上下文導(dǎo)致顯存需求進(jìn)一步增長(zhǎng)：以 1750 億參數(shù)的 GPT-3為例，目前最高單機(jī)配置( 80 GiB * 8 )最多只能支持 64k 上下文長(zhǎng)度的推理，超長(zhǎng)文本對(duì)顯存的要求可見(jiàn)一斑。

極大的顯存帶寬壓力：英偉達(dá)A800 或 H800的顯存帶寬高達(dá) 2-3 TiB/s，但面對(duì)如此長(zhǎng)的上下文，樸素方法的生成速度只能達(dá)到 2~5 tokens/s，使用的體驗(yàn)極其卡頓。

Moonshot AI的技術(shù)團(tuán)隊(duì)進(jìn)行了極致的算法和工程優(yōu)化，克服上述困難完成了大內(nèi)存模型的產(chǎn)品化，發(fā)布了支持20萬(wàn)字輸入的千億參數(shù)LLM產(chǎn)品。

“登月計(jì)劃”第一步：歡迎來(lái)到Long LLM時(shí)代

Moonshot AI創(chuàng)始人楊植麟此前在接受采訪時(shí)曾表示，無(wú)論是文字、語(yǔ)音還是視頻，對(duì)海量數(shù)據(jù)的無(wú)損壓縮可以實(shí)現(xiàn)高程度的智能。

無(wú)損壓縮的進(jìn)展曾極度依賴「參數(shù)為王」模式，該模式下壓縮比直接與參數(shù)量相關(guān)，這極大增加了模型的訓(xùn)練成本和應(yīng)用門(mén)檻，而Moonshot AI認(rèn)為：大模型的能力上限(即無(wú)損壓縮比)是由單步能力和執(zhí)行的步驟數(shù)共同決定的。單步能力與參數(shù)量正相關(guān)，而執(zhí)行步驟數(shù)即上下文長(zhǎng)度。

Moonshot AI相信，更長(zhǎng)的上下文長(zhǎng)度可以為大模型應(yīng)用帶來(lái)全新的篇章，促使大模型從 LLM時(shí)代進(jìn)入Long LLM (LLLM)時(shí)代：

每個(gè)人都可以擁有一個(gè)具備終身記憶的虛擬伴侶，它可以在生命的長(zhǎng)河中記住與你交互的所有細(xì)節(jié)，建立長(zhǎng)期的情感連接。

每個(gè)人都可以擁有一個(gè)在工作環(huán)境與你共生(co-inhabit)的助手，它知曉公域( 互聯(lián)網(wǎng))和私域(企業(yè)內(nèi)部文檔)的所有知識(shí)，并基于此幫助你完成OKR。

每個(gè)人都可以擁有一個(gè)無(wú)所不知的學(xué)習(xí)向?qū)В粌H能夠準(zhǔn)確的給你提供知識(shí)，更能夠引導(dǎo)你跨越學(xué)科間的壁壘，更加自由的探索與創(chuàng)新。

當(dāng)然，更長(zhǎng)的上下文長(zhǎng)度只是Moonshot AI在下一代大模型技術(shù)上邁出的第一步。Moonshot AI計(jì)劃憑借該領(lǐng)域的領(lǐng)先技術(shù)，加速大模型技術(shù)的創(chuàng)新和應(yīng)用落地。

登月計(jì)劃的伙伴說(shuō)：

Monolith礪思資本專注于新一代數(shù)字產(chǎn)業(yè)和科技智造領(lǐng)域的投資，是Moonshot AI第一輪融資的3家投資機(jī)構(gòu)之一，并一直以實(shí)際行動(dòng)支持著公司發(fā)展。礪思資本創(chuàng)始合伙人曹曦表示，楊植麟是全球大模型領(lǐng)域里最被認(rèn)可的華人技術(shù)專家，其團(tuán)隊(duì)在人工智能技術(shù)，特別是大語(yǔ)言模型LLM領(lǐng)域擁有深厚的技術(shù)積累，并已在國(guó)際上獲得了廣泛認(rèn)可。眼下，美國(guó)硅谷的OpenAI和Anthropic等公司獲得了多方關(guān)注，實(shí)際上在國(guó)內(nèi)，擁有足夠多技術(shù)儲(chǔ)備的Moonshot AI也正成長(zhǎng)為全球領(lǐng)先的AGI初創(chuàng)公司。多模態(tài)大模型是各家AI廠商競(jìng)爭(zhēng)的關(guān)鍵領(lǐng)域，其中長(zhǎng)文本輸入技術(shù)更是其核心技術(shù)之一，Moonshot AI團(tuán)隊(duì)最新發(fā)布的大模型和Kimi Chat在這方面實(shí)現(xiàn)了重要突破，并已成功應(yīng)用于多個(gè)實(shí)際場(chǎng)景。礪思將繼續(xù)加碼并支持Moonshot AI團(tuán)隊(duì)在AGI領(lǐng)域大膽創(chuàng)新和技術(shù)突破，引領(lǐng)中國(guó)人工智能技術(shù)的未來(lái)發(fā)展。

真格基金合伙人戴雨森對(duì)公司的發(fā)展表達(dá)了肯定和期許：“我們認(rèn)為近期AI應(yīng)用的爆火只是一場(chǎng)革命的序幕，AI技術(shù)要想真正改變世界創(chuàng)造巨大價(jià)值，在智能程度上還需要大的突破，這需要具備頂級(jí)技術(shù)能力的團(tuán)隊(duì)，以堅(jiān)持追尋Moonshot的勇氣，持續(xù)挑戰(zhàn)智能提升的邊界。楊植麟作為XLNet等多項(xiàng)知名科研工作的第一作者，具備非常豐富的科研和實(shí)踐經(jīng)驗(yàn)，多年來(lái)他一直堅(jiān)信通過(guò)大模型實(shí)現(xiàn)對(duì)高維數(shù)據(jù)的壓縮是人工智能發(fā)展的必經(jīng)之路，也團(tuán)結(jié)了一支人才密度超高，配合默契，又充滿挑戰(zhàn)巨頭搖滾精神的創(chuàng)業(yè)團(tuán)隊(duì)。真格基金非常榮幸能夠再次從天使輪開(kāi)始支持楊植麟的新征程。”

關(guān)于Moonshot AI

Moonshot AI 創(chuàng)立于 2023 年 3 月，致力于尋求將能源轉(zhuǎn)化為智能的最優(yōu)解，通過(guò)產(chǎn)品與用戶共創(chuàng)智能。創(chuàng)始團(tuán)隊(duì)核心成員參與了 Google Gemini、Google Bard、盤(pán)古NLP、悟道等多個(gè)大模型的研發(fā)，多項(xiàng)核心技術(shù)被Google PaLM、Meta LLaMa、Stable Diffusion等主流產(chǎn)品采用。Moonshot AI 融資超2億美元。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。）

一口氣讀完一本三體，Moonshot AI首個(gè)大模型產(chǎn)品支持20萬(wàn)字上下文