大模型時代下的數(shù)據(jù)存儲與分析該如何處理?有沒有已經(jīng)落地的應(yīng)用實踐?
為探討這些問題,近日,阿里云聯(lián)合 Zilliz 和 Doris 舉辦了一場以《大模型時代下的數(shù)據(jù)存儲與分析》為主題的技術(shù)沙龍,其中,阿里云對象存儲 OSS 上擁有海量的非結(jié)構(gòu)化數(shù)據(jù),Milvus(Zilliz)作為全球最有影響力的開源向量數(shù)據(jù)庫項目 、Doris(飛輪科技)作為熱門的數(shù)據(jù)分析項目,都積累了豐富的非結(jié)構(gòu)化數(shù)據(jù)處理和分析的最佳實踐。
沙龍現(xiàn)場,Zilliz 運(yùn)營與生態(tài)負(fù)責(zé)人李晨進(jìn)行了名為《向量數(shù)據(jù)庫:大模型的記憶體》的主題分享。
受大模型催化,向量數(shù)據(jù)庫方興未艾。與傳統(tǒng)數(shù)據(jù)庫相比,向量數(shù)據(jù)庫面向高維度向量,可以更好地處理圖像、音頻和視頻等非結(jié)構(gòu)化數(shù)據(jù)。李晨主要介紹了向量數(shù)據(jù)庫的基本原理、應(yīng)用場景和演進(jìn)方向,以及 Zilliz 在此方向中的積累和心得。
他表示,向量數(shù)據(jù)庫是 AIGC 大模型的重要補(bǔ)充,是提供準(zhǔn)確可靠、高度可擴(kuò)展的長短期“記憶”的關(guān)鍵載體,其在 LLM領(lǐng)域的應(yīng)用主要可以分為以下 6 類:管理私有數(shù)據(jù)和知識庫、為大模型提供實時數(shù)據(jù)更新、實現(xiàn)大模型的個性化和增強(qiáng)、提供智能體的記憶、保存大模型的處理結(jié)果、構(gòu)建更復(fù)雜的AI系統(tǒng)。當(dāng)然,這其中離不開一個新的程序開發(fā)應(yīng)用范式—— CVP Stack。
在 CVP Stack 中,C是以 ChatGPT 為代表的大模型,它在 AI 程序中充當(dāng)中央處理器的角色;V 代表 Vector Database,即以 Zilliz Cloud 和 Milvus 為代表的向量數(shù)據(jù)庫,為大模型提供知識存儲;P 代表 Prompt Engineering,各環(huán)節(jié)通過 Prompt 的方式進(jìn)行交互。
相比單模型架構(gòu),CVP 架構(gòu)在靈活性、可擴(kuò)展性、實時性、成本四個維度都有明顯優(yōu)勢。最關(guān)鍵的原因是,在 CVP 架構(gòu)中,領(lǐng)域知識可以用數(shù)據(jù)入庫的形式進(jìn)行更新,而非重新訓(xùn)練或微調(diào)模型,向量數(shù)據(jù)庫是該架構(gòu)的重要組成部分。這其中一個典型的應(yīng)用實踐就是 OSSChat(https://osschat.io/chat),它用于解決開源項目文檔冗長、不易查找等問題,目前已經(jīng)支持幾十個主流的開源項目。
此外,為了進(jìn)一步降低應(yīng)用構(gòu)建成本,提供標(biāo)準(zhǔn)化組件,Zilliz 已與全球頭部大模型生態(tài)完成了 C-V 間對接。2023 年 3 月,Zilliz 作為 OpenAI 首批向量數(shù)據(jù)庫合作伙伴,完成了 Milvus 與 Zilliz Cloud 插件化集成,作為官方推薦的向量數(shù)據(jù)庫插件提供給廣大應(yīng)用開發(fā)者。同時,Zilliz 還與 LangChain、Cohere、LlamaIndex、Auto-GPT、BabyAGI 等熱門項目進(jìn)行了深度集成。值得一提的是,Zilliz Cloud 已經(jīng)正式在國內(nèi)提供云服務(wù),也在今年7月份官宣了和阿里云的合作,相信在雙方的努力配合下,一定可以讓用戶享受到更好的產(chǎn)品和服務(wù)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )