融合內(nèi)存計(jì)算和分布式計(jì)算 柏睿數(shù)據(jù)打造更快、更簡(jiǎn)單、性價(jià)比更高的數(shù)據(jù)智能分析處理平臺(tái)

近年來,新一代硬件產(chǎn)品不斷蓬勃發(fā)展,如多核CPU、GPU、FPGA,以及XPU,如TPU(Tensor Processing Unit,張量處理單元)等。以TPU為例,它可以在硬件層面上處理人工智能和機(jī)器學(xué)習(xí)經(jīng)常涉及的張量數(shù)據(jù)結(jié)構(gòu)和張量相關(guān)的計(jì)算,這大大提高了數(shù)據(jù)處理和計(jì)算的效率。

此外,新一代硬件的革新也在推動(dòng)數(shù)據(jù)庫系統(tǒng)和架構(gòu)發(fā)生變化,數(shù)據(jù)庫系統(tǒng)作為硬件和企業(yè)需求之間的紐帶,需要通過巧妙精細(xì)的架構(gòu)把硬件的能力和特性充分發(fā)揮出來,更好地滿足企業(yè)存儲(chǔ)和分析數(shù)據(jù)的需求。

因此,在新一代硬件的基礎(chǔ)上,柏睿數(shù)據(jù)從數(shù)據(jù)庫系統(tǒng)層面優(yōu)化,囊括新一代計(jì)算平臺(tái)和引擎,如內(nèi)存計(jì)算、分布式計(jì)算、人工智能和機(jī)器學(xué)習(xí)計(jì)算、流計(jì)算等,構(gòu)建業(yè)界領(lǐng)先的數(shù)據(jù)智能分析處理平臺(tái)——RapidsDB,以完全自研的分布式全內(nèi)存數(shù)據(jù)庫、實(shí)時(shí)流數(shù)據(jù)庫、數(shù)據(jù)庫人工智能、跨源異構(gòu)查詢連接器、數(shù)據(jù)庫安全&加速卡等為核心,針對(duì)海量、高吞吐、高并發(fā)、多源異構(gòu)數(shù)據(jù)進(jìn)行實(shí)時(shí)分析處理,充分利用和發(fā)揮新一代硬件的性能,落地?cái)?shù)據(jù)治理、數(shù)據(jù)模型分析、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)追溯等場(chǎng)景應(yīng)用,攜手政府部門和千行百業(yè)的企業(yè)開展數(shù)智化轉(zhuǎn)型。

柏睿數(shù)據(jù)是如何將內(nèi)存計(jì)算和分布式計(jì)算珠聯(lián)璧合,構(gòu)建出一個(gè)更快、更簡(jiǎn)單、性價(jià)比更高的數(shù)據(jù)智能分析處理平臺(tái)?柏睿數(shù)據(jù)聯(lián)合創(chuàng)始人、全球副總裁、首席技術(shù)官馬珺表示,柏睿數(shù)據(jù)專家團(tuán)隊(duì)擁有國(guó)際領(lǐng)先的智能數(shù)據(jù)算力技術(shù),完成了從解析層、優(yōu)化層、執(zhí)行層到存儲(chǔ)層等全面自主可控的數(shù)據(jù)庫產(chǎn)品體系。柏睿數(shù)據(jù)完全自主研發(fā)的數(shù)據(jù)智能分析處理平臺(tái)RapidsDB,從內(nèi)存計(jì)算出發(fā),革新存儲(chǔ)介質(zhì);通過分布式計(jì)算,對(duì)架構(gòu)進(jìn)行橫向擴(kuò)展,為數(shù)據(jù)平臺(tái)帶來數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)處理方面的革新。

內(nèi)存VS磁盤,從儲(chǔ)存到計(jì)算、實(shí)時(shí)分析的巔峰對(duì)決

柏睿數(shù)據(jù)RapidsDB是基于分布式架構(gòu)的內(nèi)存數(shù)據(jù)庫。相較于傳統(tǒng)數(shù)據(jù)庫用磁盤存儲(chǔ)數(shù)據(jù),內(nèi)存數(shù)據(jù)庫直接在內(nèi)存上進(jìn)行數(shù)據(jù)存儲(chǔ)和計(jì)算。

一、內(nèi)存數(shù)據(jù)庫避開了數(shù)據(jù)訪問時(shí)磁盤的I/O瓶頸,存取速度更快。將內(nèi)存與磁盤的訪問速度對(duì)比可知,內(nèi)存訪問速度是納秒級(jí),而磁盤訪問速度是毫秒級(jí),數(shù)據(jù)處理速度差異高達(dá)百萬倍。

二、內(nèi)存數(shù)據(jù)庫能夠用壓縮和優(yōu)化的格式來存儲(chǔ)數(shù)據(jù),從而更好地發(fā)揮CPU、GPU等現(xiàn)代硬件,而傳統(tǒng)的磁盤數(shù)據(jù)存儲(chǔ)則無法實(shí)現(xiàn)。

三、內(nèi)存數(shù)據(jù)庫中從內(nèi)存訪問數(shù)據(jù)所使用的內(nèi)存更少。這是因?yàn)閺拇疟P上讀取數(shù)據(jù)時(shí)會(huì)涉及諸多復(fù)雜操作和過程,而從內(nèi)存訪問數(shù)據(jù)的過程指令集較少,所使用的內(nèi)存也較少。

四、除了性能優(yōu)勢(shì)外,內(nèi)存數(shù)據(jù)庫還在一些有趣的領(lǐng)域具有磁盤存儲(chǔ)和索引難以實(shí)現(xiàn)的優(yōu)勢(shì)。例如,列式存儲(chǔ)和行式存儲(chǔ),內(nèi)存數(shù)據(jù)庫能夠很容易地在兩者之間靈活切換,且可以很容易地實(shí)現(xiàn)分層數(shù)據(jù)模型,甚至矩陣張量數(shù)據(jù)模型。而對(duì)于基于磁盤的存儲(chǔ)來說,實(shí)現(xiàn)這樣復(fù)雜的模型是難以想象的。

正因如此,柏睿數(shù)據(jù)RapidsDB選擇基于內(nèi)存存儲(chǔ)架構(gòu)進(jìn)行設(shè)計(jì)和優(yōu)化,具有無磁盤IO、高可擴(kuò)展、高吞吐、高并發(fā)、低時(shí)延、節(jié)省內(nèi)存等特性,比傳統(tǒng)數(shù)據(jù)庫性能提高近百倍,分布式架構(gòu)支持按需動(dòng)態(tài)在線擴(kuò)展,支持日增20TB數(shù)據(jù)量實(shí)時(shí)采集與分析,滿足100TB全內(nèi)存數(shù)據(jù)量分析500/秒并發(fā),TB級(jí)數(shù)據(jù)毫秒級(jí)響,且數(shù)據(jù)與內(nèi)存空間的占用比例少于1:2,相較于傳統(tǒng)數(shù)據(jù)庫節(jié)省內(nèi)存采購成本60%以上,充分滿足企業(yè)對(duì)海量高并發(fā)大數(shù)據(jù)進(jìn)行快速、精準(zhǔn)智能分析和決策支持的需求。

相較于基于磁盤架構(gòu)的傳統(tǒng)數(shù)據(jù)庫,RapidsDB在內(nèi)存優(yōu)化方面有四大顯著特性:一、RapidsDB是一個(gè)分布式橫向擴(kuò)展系統(tǒng),可以在普通硬件上擴(kuò)展到數(shù)千臺(tái)機(jī)器;二、沒有緩沖池,不易造成資源爭(zhēng)用;三、無鎖數(shù)據(jù)結(jié)構(gòu),使用內(nèi)存優(yōu)化的無鎖跳過列表作為其索引,允許高吞吐量的高度并發(fā)讀寫,且讀取永遠(yuǎn)不會(huì)被阻止;四、代碼生成,無鎖的數(shù)據(jù)結(jié)構(gòu)很快導(dǎo)致動(dòng)態(tài)SQL解釋成為限制查詢執(zhí)行的瓶頸, RapidsDB可將SQL向下編譯為本機(jī)代碼,以獲得最高性能。

此外,RapidsDB雖然使用內(nèi)存作為數(shù)據(jù)的主要存儲(chǔ)模塊,但會(huì)通過事務(wù)日志和定期快照不斷地將數(shù)據(jù)備份到磁盤,這些特性可以從同步持久性(每個(gè)事務(wù)在完成之前都記錄在磁盤上)一直調(diào)整到純內(nèi)存持久性(最大持續(xù)吞吐量)。同時(shí),RapidsDB提供選項(xiàng)來控制性能和持久性之間的權(quán)衡,在其最持久的狀態(tài)下,RapidsDB不會(huì)丟失任何一個(gè)已確認(rèn)的事務(wù)。

重塑JOIN,實(shí)現(xiàn)更強(qiáng)大的分布式數(shù)據(jù)庫

現(xiàn)代社會(huì)日新月異,萬事萬物數(shù)據(jù)化生成海量大數(shù)據(jù),并在多維時(shí)空高速傳播。為高效存儲(chǔ)、處理、利用好海量大數(shù)據(jù),分布式計(jì)算逐漸成為眾多大數(shù)據(jù)平臺(tái)采用的計(jì)算方式。原因在于,分布式數(shù)據(jù)庫解決了傳統(tǒng)集中式單機(jī)數(shù)據(jù)庫面臨的存儲(chǔ)、處理等性能瓶頸。首先,分布式數(shù)據(jù)庫能夠簡(jiǎn)便的實(shí)現(xiàn)橫向擴(kuò)展集群,即通過增加更多的節(jié)點(diǎn)綜合提升數(shù)據(jù)處理能力;其次,它能實(shí)現(xiàn)成本優(yōu)化,部署的節(jié)點(diǎn)可以根據(jù)應(yīng)用場(chǎng)景需求進(jìn)行靈活設(shè)計(jì);再次,具備高容錯(cuò)率,保證不會(huì)因?yàn)閱吸c(diǎn)故障而影響整體的可用性。

但是,由于現(xiàn)實(shí)世界中數(shù)據(jù)處理繁雜多樣,分布式數(shù)據(jù)庫不能只是簡(jiǎn)單劃分并分配計(jì)算任務(wù)給每個(gè)節(jié)點(diǎn);尤其是作為數(shù)據(jù)庫中最基本、最廣泛使用的算子之一的JOIN(表連接),在分布式計(jì)算中實(shí)現(xiàn)系統(tǒng)節(jié)點(diǎn)間的數(shù)據(jù)交互,而隨著分布式集群規(guī)模增大,網(wǎng)絡(luò)數(shù)據(jù)傳輸量大增,節(jié)點(diǎn)之間的數(shù)據(jù)交互效率降低,從而導(dǎo)致分布式數(shù)據(jù)庫擴(kuò)容帶來的性價(jià)比愈發(fā)降低,此時(shí)分布式數(shù)據(jù)庫往往需要重新設(shè)計(jì)JOIN,以實(shí)現(xiàn)更優(yōu)性能,降低部署成本。

面對(duì)這一問題,柏睿數(shù)據(jù)RapidsDB基于BLOOM JOIN(布隆連接)和BLOOM FILTER(布隆過濾器)提出了解決方案。BLOOM JOIN通過在節(jié)點(diǎn)集群中連接BLOOM FILTER,能夠完成數(shù)據(jù)篩選、處理、連接工作;借助BLOOM JOIN,分布式數(shù)據(jù)庫能夠排除不使用、不必要的大量數(shù)據(jù),保留具有查詢意義的數(shù)據(jù),以達(dá)到高效數(shù)據(jù)交互的目的。

由BLOOM JOIN連接的BLOOM FILTER也被稱為概率數(shù)據(jù)結(jié)構(gòu),它能夠?qū)⒋笮蛿?shù)據(jù)壓縮進(jìn)一個(gè)非常復(fù)雜的數(shù)據(jù)結(jié)構(gòu),例如將原本幾百個(gè)二進(jìn)制位數(shù)據(jù),變成只有一個(gè)或幾個(gè)二進(jìn)制位數(shù)據(jù)。因此,BLOOM FILTER比其他數(shù)據(jù)結(jié)構(gòu)更節(jié)省空間,盡管它存在一定的誤判,但這并不影響其性能優(yōu)化目標(biāo)的實(shí)現(xiàn)。

事實(shí)上,RapidsDB很早就已經(jīng)開始部署B(yǎng)LOOM JOIN,然而當(dāng)前許多數(shù)據(jù)庫系統(tǒng)都還沒有部署;即使已經(jīng)部署了BLOOM JOIN的數(shù)據(jù)庫,其使用方式也比較復(fù)雜,會(huì)對(duì)工作效率造成一定影響。不僅如此,柏睿數(shù)據(jù)的數(shù)據(jù)庫產(chǎn)品還會(huì)智能地使用BLOOM JOIN,即數(shù)據(jù)庫系統(tǒng)會(huì)動(dòng)態(tài)探測(cè)和優(yōu)化連接,根據(jù)不同的數(shù)據(jù)需求,自主選擇BLOCK JOIN或 HASH JOIN,這也是RapidsDB的智能之處。

知之愈明,則行之愈篤。柏睿數(shù)據(jù)專家團(tuán)隊(duì)厚植數(shù)據(jù)庫“卡脖子”技術(shù),以“做中國(guó)的國(guó)際智能數(shù)據(jù)算力公司”為己任,堅(jiān)持自主創(chuàng)新,以“DATA+AI”技術(shù)為核心,致力于打造更快、更簡(jiǎn)單、更低成本的領(lǐng)先數(shù)據(jù)智能分析處理平臺(tái),助力政企全面釋放數(shù)據(jù)生產(chǎn)力,在數(shù)字化轉(zhuǎn)型的道路上行穩(wěn)致遠(yuǎn),加快數(shù)字經(jīng)濟(jì)時(shí)代的到來。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )