零一萬物向量數據庫新突破!笛卡爾(Descartes)獲六項第一

3月11日消息,在國際權威評測平臺ANN-Benchmarks離線測試中,零一萬物笛卡爾(Descartes)向量數據庫登頂 6份數據集評測第一名。

“笛卡爾(Descartes)”是零一萬物研發(fā)出的基于全導航圖的新型向量數據庫,是能影響大模型性能表現的基礎設施;ANN-Benchmarks是當下業(yè)界最權威的向量數據庫性能測試工具,它可以展示不同算法在不同真實數據集下的表現。

笛卡爾(Descartes)首次亮相ANN-Benchmarks評測榜單即包攬了六項第一,最高領先原榜單第一名286%。

零一萬物表示,笛卡爾向量數據庫目前聚焦于高性能向量數據庫。笛卡爾向量數據庫將用在近期即將正式亮相的AI產品中,未來也將結合工具提供給開發(fā)者。

六項第一

ANN-Benchmarks公布的6份評測數據集涵蓋glove-25-angular、glove-100-angular、sift-128-euclidean、nytimes-256-angular、fashion-mnist-784-euclidean、gist-960-euclidean六大數據集。

如下圖,橫坐標代表召回、縱坐標代表QPS(每秒內處理的請求數),曲線位置越偏右上角意味著算法性能越好,零一萬物笛卡爾向量數據庫在6項數據集評測中都處于最高位。


圖注:截至3月10日,ANN-Benchmarks6項評測中,零一萬物笛卡爾(Descartes)向量數據庫均居第一

“吞吐量 QPS” 是衡量信息檢索系統(例如搜索引擎或數據庫)查詢處理能力的重要指標。在原榜單TOP1基礎上,零一萬物笛卡爾向量數據庫實現了顯著性能提升,部分數據集上的性能提升超過2倍以上,在gist-960-euclidean數據集維度更大幅領先榜單原TOP1 286%。

笛卡爾(Descartes)背后技術

向量數據庫,又被稱為AI時代的信息檢索技術,是檢索增強生成(Retrieval-Augmented Generation, RAG)內核技術之一。

大模型時代,圖片、視頻、自然語言等多模態(tài)的非結構化數據量陡增,區(qū)別于用來處理結構化數據的傳統數據庫,向量數據庫專門用來存儲、管理、查詢和檢索向量化的非結構化數據。

因此,對大模型應用開發(fā)者來說,向量數據庫是非常重要的基礎設施,在一定程度上影響著大模型的性能表現。

未來各家大模型優(yōu)化到一定程度后,向量數據庫的能力可能決定各家大模型的天花板。

此次零一萬物笛卡爾向量數據庫展示出優(yōu)異表現,其背后又做了哪些方面的技術創(chuàng)新呢?

和傳統檢索方法類似,從本質上講,RAG向量檢索主要解決兩大問題:

1. 通過建立某種索引結構,減少檢索考察的候選集;

2. 降低單個向量計算的復雜度。

據介紹,針對第1個問題,零一萬物團隊有兩大殺手锏:

? 全導航圖技術。目前業(yè)內現狀主要通過哈希、KD-Tree、VP-Tree等方式,導航效果不夠精確,裁剪力度不夠,零一萬物研發(fā)的全局多層縮略圖導航技術,圖上坐標系導航,既能保證精度,又能裁剪大量無關向量。

? 首創(chuàng)自適應鄰居選擇策略,填補業(yè)界空白。零一萬物自研的自適應鄰居選擇策略,突破了以往僅依賴真實topk或固定邊選擇策略的局限,新策略使每個節(jié)點可以根據自身及鄰居的分布特征動態(tài)地選取最佳鄰居邊,更快收斂接近目標向量,從而讓RAG向量檢索性能提高15%-30%。

針對第2個問題,零一萬物采用了兩級量化方案增強RAG。

零一萬物用兩級量化降低計算復雜度,同時列式存儲充分利用SIMD的并發(fā)能力,進一步發(fā)揮硬件能力,相比傳統PQ查表,性能得到大幅提升到2-3倍。
除此之外,零一萬物還有索引結構優(yōu)化、連通性保障等全棧向量技術方案提高笛卡爾向量數據庫的性能。

作為高性能向量數據庫,笛卡爾向量數據庫可以輕松應對百分之八九十的日常場景,比如幫助企業(yè)客戶構建私域知識庫、智能客服系統;在自動駕駛領域,使用高性能向量數據庫可來加速自動駕駛模型訓練等。

零一萬物表示,笛卡爾向量數據庫是團隊基于RAG的初步嘗試,將在近期發(fā)布的AI生產力產品中得到有效應用。零一萬物后續(xù)會持續(xù)專注研發(fā)和分享,為用戶帶來更好的技術和體驗。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2024-03-11
零一萬物向量數據庫新突破!笛卡爾(Descartes)獲六項第一
3月11日消息,在國際權威評測平臺ANN-Benchmarks離線測試中,零一萬物笛卡爾(Descartes)向量數據庫登頂 6份數據集評測第一名?!暗芽枺―escartes)”是零一萬物研發(fā)出的基于全導航圖的新型向量數

長按掃碼 閱讀全文