DATA·AI CON收官!向量數(shù)據(jù)庫龍頭Zilliz引領(lǐng)AI Infra新趨勢

大數(shù)據(jù)和人工智能技術(shù)熱度依舊!從概念驗(yàn)證到可持續(xù)的商業(yè)模式落地,數(shù)據(jù)價(jià)值的輸出,仍需要大量的基礎(chǔ)工程研究和開發(fā)。近期,DATA · AI CON 2023 在上海拉開帷幕,包括 Zilliz 在內(nèi)的數(shù)據(jù)庫龍頭廠商受邀參加,共話行業(yè)新趨勢。

據(jù)悉,本次會議由上海白玉蘭開源開放研究院和人工智能開源軟件發(fā)展聯(lián)盟聯(lián)合主辦,并獲得了 Milvus、Ampere Computing、火山引擎、Cloudera、Apache Software Foundation、LF AI & Data Foundation 等企業(yè)和社區(qū)的強(qiáng)力支持,旨在共同推動數(shù)據(jù)與人工智能技術(shù)的進(jìn)步與應(yīng)用領(lǐng)域的拓展。

本次會議論壇涵蓋現(xiàn)代數(shù)據(jù)架構(gòu)、數(shù)據(jù)工程與大模型落地、AI 存儲基礎(chǔ)設(shè)施、生成式 AI、超大規(guī)模計(jì)算、云原生等主題技術(shù)論壇。Zilliz 資深開發(fā)者關(guān)系布道師李成龍?jiān)?【AI 存儲基礎(chǔ)設(shè)施】論壇進(jìn)行了主題分享。

李成龍?jiān)诂F(xiàn)場分享

李成龍表示,當(dāng)前對于非結(jié)構(gòu)化數(shù)據(jù)的處理主要面臨四大挑戰(zhàn):

數(shù)據(jù)體量巨大,未來超過80%的數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),AIGC 時(shí)代多模態(tài)數(shù)據(jù)的生成速度遠(yuǎn)遠(yuǎn)超過結(jié)構(gòu)化數(shù)據(jù),系統(tǒng)擴(kuò)展性性能至關(guān)重要

非結(jié)構(gòu)化數(shù)據(jù)理解困難,雖然 LLM 已經(jīng)大幅降低了非結(jié)構(gòu)化數(shù)據(jù)理解的成本,但由于數(shù)據(jù)質(zhì)量、多模態(tài),成本性能等問題,單一大模型并不能完全解決

非結(jié)構(gòu)化數(shù)據(jù)理解的問題,很多場景下依然需要多模型組合,搜索與生成結(jié)合等方法

對算力的要求巨大,推理、向量數(shù)據(jù)庫存儲檢索等都是算力密集型應(yīng)用。算力的需求和成本往往成為挖掘非結(jié)構(gòu)化數(shù)據(jù)的一大阻礙。 而處理非結(jié)構(gòu)化的工具卻極其短缺,雖然傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)處理并不簡單,但由于 ETL、數(shù)據(jù)庫、數(shù)據(jù)倉庫等工具在過去30年的發(fā)展,已經(jīng)變得相對成熟。然而,非結(jié)構(gòu)化數(shù)據(jù)處理的工具鏈剛剛開始構(gòu)建,這就使得非結(jié)構(gòu)化數(shù)據(jù)的處理相比結(jié)構(gòu)化數(shù)據(jù)更具挑戰(zhàn)性。

在此背景下,向量數(shù)據(jù)庫應(yīng)運(yùn)而生。向量數(shù)據(jù)庫具有快速計(jì)算向量相似度的優(yōu)勢,能在 N 個(gè)向量中找出與目標(biāo)向量在高維空間中最相似的前 K 個(gè)向量。目前,向量數(shù)據(jù)庫主要分為四個(gè)類別:

基于 PostgreSQL、ClickHouse 等進(jìn)行魔改或者插件化實(shí)現(xiàn)的向量數(shù)據(jù)庫。這類解決方案以現(xiàn)有的關(guān)系型數(shù)據(jù)庫或列存數(shù)據(jù)庫作為基礎(chǔ),通過修改或插件擴(kuò)展的方式添加向量搜索功能,PG Vector是這類解決方案的代表產(chǎn)品。

基于傳統(tǒng)倒排搜索添加稠密向量索引支持的向量數(shù)據(jù)庫。這類解決方案以倒排索引搜索引擎作為基礎(chǔ),通過擴(kuò)展索引機(jī)制以支持向量搜索,ElasticSearch是這類解決方案的代表產(chǎn)品。

基于向量檢索庫實(shí)現(xiàn)的輕量級向量數(shù)據(jù)庫。這類解決方案以向量搜索庫(如 Faiss)為核心,圍繞其構(gòu)建數(shù)據(jù)庫功能。這些產(chǎn)品通常具有較小的體積和較高的運(yùn)行效率,Chroma 是這類解決方案的代表產(chǎn)品。

基于原生向量設(shè)計(jì)的云原生分布式向量數(shù)據(jù)庫。這類解決方案從零開始設(shè)計(jì)和實(shí)現(xiàn)向量數(shù)據(jù)庫,整個(gè)系統(tǒng)從底層到頂層都針對向量搜索進(jìn)行了優(yōu)化,通常提供了更完整和高級的功能,包括分布式計(jì)算、容災(zāi)備份、數(shù)據(jù)持久化等,Zilliz Cloud/Milvus 是這類解決方案的代表產(chǎn)品。

向量數(shù)據(jù)庫適用的業(yè)務(wù)場景

李成龍強(qiáng)調(diào),Milvus 經(jīng)歷了從 1.0 架構(gòu)到 2.0 架構(gòu)的升級,無論在性能、成本、功能還是易用性等方面都處于行業(yè)領(lǐng)先位置,被全球超過 1000家 企業(yè)用戶所信賴,擁有超過 700 萬次下載和安裝,最大庫規(guī)模超過20億條向量。Milvus 是為云而生的向量數(shù)據(jù)庫,具備以下特性:

分布式云原生,基于 K8s 進(jìn)行微服務(wù)化設(shè)計(jì);

存儲計(jì)算分離,彈性擴(kuò)縮容;

高可用,故障分鐘級恢復(fù);

百億級向量的擴(kuò)展能力;

基于消息隊(duì)列實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)增刪;

集成 OpenAI、LangChain、Huggingface、Pytorch 等 AI 生態(tài);

強(qiáng)大的生態(tài)工具 - GUI、CLI、監(jiān)控,備份。

值得一提的是 Zilliz Cloud,它是 Zilliz 公司基于開源向量數(shù)據(jù)庫打造的全托管企業(yè)級向量檢索服務(wù),分為 SaaS 和 PaaS 兩個(gè)版本,面向不同需求和不同部署環(huán)境。李成龍?zhí)岬?,Zilliz Cloud 基于 Zilliz 自研的向量檢索引擎 Cardinal,性能成本相比于開源提升3 倍。此外,Zilliz Cloud 提供大量企業(yè)級功能,助力用戶聚焦業(yè)務(wù)邏輯,Zilliz Cloud目前已經(jīng)登陸 AWS、GCP、Azure 和阿里云,即將登陸金山云。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )