AGI 時(shí)代到來(lái),為什么向量數(shù)據(jù)庫(kù)成關(guān)鍵?

近日,由極客公園主辦的 AGI Playground 2023 活動(dòng)在北京圓滿結(jié)束,活動(dòng)匯聚了當(dāng)下 AGI 領(lǐng)域最具公信力、話語(yǔ)權(quán)、前瞻性的行業(yè)領(lǐng)袖與公司,起底潮流下的大模型技術(shù)底層邏輯和新范式變革的底層思維。向量數(shù)據(jù)庫(kù)公司Zilliz、360 集團(tuán)、阿里云、百度、百川智能等行業(yè)頭部公司參會(huì),Zilliz 創(chuàng)始人兼 CEO 星爵、百川智能創(chuàng)始人王小川、360 集團(tuán)創(chuàng)始人周鴻祎等明星創(chuàng)業(yè)者分別在不同的主題下進(jìn)行了分享。

其中,Zilliz 創(chuàng)始人兼 CEO 星爵的演講讓人印象深刻。

星爵的演講主題為《AGI 時(shí)代到來(lái),為什么向量數(shù)據(jù)庫(kù)成關(guān)鍵?》,在他看來(lái):

●當(dāng)下 CVP Stack 已經(jīng)成為 AGI 時(shí)代重要的數(shù)據(jù)應(yīng)用開(kāi)發(fā)范式,代表 “V” 的向量數(shù)據(jù)庫(kù)扮演著重要角色,Milvus 和 Zilliz Cloud 作為向量數(shù)據(jù)庫(kù)中的佼佼者,無(wú)論是性能還是成本方面,都能很好地滿足開(kāi)發(fā)者的需求。

●向量數(shù)據(jù)庫(kù)作為大模型的記憶體,能夠?yàn)?LLMs 提供向量檢索和存儲(chǔ)的功能,是大模型開(kāi)發(fā)和訓(xùn)練中不可缺少的重要組成部分。

●AGI 時(shí)代的下一個(gè) Killer App 是智能體,向量數(shù)據(jù)庫(kù)可以為其提供長(zhǎng)期的記憶存儲(chǔ)。

向量數(shù)據(jù)庫(kù)成為新型開(kāi)發(fā)范式 CVP Stack 的重要一環(huán)

向量數(shù)據(jù)庫(kù)是一種為了高效存儲(chǔ)和索引 AI 模型產(chǎn)生的向量嵌入(embedding)數(shù)據(jù)而專(zhuān)門(mén)設(shè)計(jì)的數(shù)據(jù)庫(kù)。在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)中,數(shù)據(jù)通常以表格的形式存儲(chǔ),而在向量數(shù)據(jù)庫(kù)中,數(shù)據(jù)以向量的形式存儲(chǔ)。向量(embedding)是一組數(shù)值,可以表示一個(gè)點(diǎn)在多維空間中的位置。向量數(shù)據(jù)庫(kù)非常擅長(zhǎng)處理大量的高維 embedding數(shù)據(jù),這種數(shù)據(jù)在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)應(yīng)用中很常見(jiàn)。

LLM 時(shí)代之下,工具棧變得更加簡(jiǎn)化,開(kāi)發(fā)者甚至可以實(shí)現(xiàn)用周末兩天時(shí)間做出一個(gè)不錯(cuò) demo 的設(shè)想,其背后的終極奧義便是 CVP Stack。其中,C 的意思是以 ChatGPT 為代表的大模型,它在 AI 程序中充當(dāng)中央處理器的角色;V 代表 Vector Database,即以 Milvus 為代表的向量數(shù)據(jù)庫(kù),充當(dāng) embedding storage 的角色;最終會(huì)通過(guò) prompt 的方式進(jìn)行交互。

總結(jié)來(lái)看,在大模型時(shí)代下,無(wú)論是誰(shuí),只要擁有一個(gè) ChatGPT 賬號(hào)、會(huì)寫(xiě) prompt、找到一個(gè) embedding 的數(shù)據(jù)庫(kù)為模型提供相關(guān)領(lǐng)域的知識(shí),甚至為其提供一個(gè)緩存層,便可以輕而易舉地成為一個(gè)很好的工程師。OSSChat(https://osschat.io)就是典型的應(yīng)用,用于解決開(kāi)源項(xiàng)目文檔冗長(zhǎng)、不易查找等問(wèn)題,目前已經(jīng)支持幾十個(gè)主流的開(kāi)源項(xiàng)目。

|Zilliz 創(chuàng)始人兼 CEO 星爵

向量數(shù)據(jù)庫(kù)之于大模型的關(guān)鍵作用

向量數(shù)據(jù)庫(kù)可以看作大模型的外置記憶快,能夠長(zhǎng)期存儲(chǔ)大模型的數(shù)據(jù),供模型隨時(shí)調(diào)用。向量數(shù)據(jù)庫(kù)在LLM領(lǐng)域的應(yīng)用主要可以分為以下 6 類(lèi):管理私有數(shù)據(jù)和知識(shí)庫(kù)、為大模型提供實(shí)時(shí)數(shù)據(jù)更新、實(shí)現(xiàn)大模型的個(gè)性化和增強(qiáng)、提供智能體的記憶、保存大模型的處理結(jié)果、構(gòu)建更復(fù)雜的AI系統(tǒng)。

對(duì)于大模型應(yīng)用開(kāi)發(fā)者來(lái)說(shuō),向量數(shù)據(jù)庫(kù)是一個(gè)非常重要的基礎(chǔ)設(shè)施,可以在最大限度發(fā)揮大模型威力的同時(shí)保護(hù)數(shù)據(jù)隱私,實(shí)現(xiàn)更豐富的功能。LLMs 和向量數(shù)據(jù)庫(kù)共同推動(dòng) AGI 的發(fā)展,二者缺一不可。

向量數(shù)據(jù)庫(kù)為下一個(gè) Killer App 提供長(zhǎng)期的記憶存儲(chǔ)

智能體是大模型的一個(gè)新興應(yīng)用場(chǎng)景,用于構(gòu)建具有獨(dú)立智能的虛擬人物、虛擬代理甚至人形機(jī)器人。向量數(shù)據(jù)庫(kù)不僅可以幫助智能體記憶其感知的歷史數(shù)據(jù)和上下文,幫其做出智能決策,還能使其根據(jù)長(zhǎng)期記憶來(lái)實(shí)現(xiàn)自我演進(jìn),被認(rèn)為是下一代 Killer App。

智能體需要記憶。人類(lèi)的大腦有一個(gè)區(qū)域叫做海馬體,負(fù)責(zé)長(zhǎng)期記憶,記憶是人類(lèi)智能很重要的部分,不可能今天把昨天的事情忘記還說(shuō)自己很聰明。行業(yè)里面的正在嘗試用向量數(shù)據(jù)庫(kù)為智能體存儲(chǔ)長(zhǎng)期記憶,因?yàn)橄蛄繑?shù)據(jù)庫(kù)的成本是很可控的。未來(lái)如果每個(gè)人都能夠有幾十個(gè)智能體幫助人類(lèi)生產(chǎn)生活,像向量數(shù)據(jù)庫(kù)這樣具有語(yǔ)義檢索的存儲(chǔ)市場(chǎng)會(huì)迎來(lái)很大的增長(zhǎng)。

向量數(shù)據(jù)庫(kù)作為一款數(shù)據(jù)庫(kù)產(chǎn)品,“更大更快更便宜”是未來(lái)發(fā)展的核心趨勢(shì)。更大是指能處理更大的數(shù)據(jù)量,這意味著支持百億條數(shù)據(jù)甚至更高的可擴(kuò)展性;更快是指更高的性能,包括毫秒級(jí)的響應(yīng)時(shí)間和高達(dá)數(shù)萬(wàn)的QPS;更便宜是指更少的資源消耗更高的性價(jià)比,在相同資源消耗的情況下提供更強(qiáng)大的性能。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )