對(duì)于一家自身組織運(yùn)行歷史數(shù)十年的公司來(lái)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)會(huì)是一種有效幫助其報(bào)告和理解相關(guān)操作的方式。在數(shù)據(jù)倉(cāng)庫(kù)出現(xiàn)之前,對(duì)來(lái)自不同系統(tǒng)的數(shù)據(jù)進(jìn)行報(bào)告與收集是一項(xiàng)昂貴、耗時(shí)而且常常徒勞無(wú)功的嘗試,而數(shù)據(jù)倉(cāng)庫(kù)保證了來(lái)自單個(gè)存儲(chǔ)庫(kù)數(shù)據(jù)的干凈與集成性。
將多種報(bào)表工具連接到單個(gè)數(shù)據(jù)模型的能力催生了一個(gè)我們目前很數(shù)據(jù)的行業(yè): 商業(yè)智能(BI)。然而,由于復(fù)雜的方法和設(shè)計(jì)、不適當(dāng)?shù)墓ぞ咭约案叩拈_(kāi)發(fā)、維護(hù)和基礎(chǔ)設(shè)施成本所拖累,傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)和方法的原始概念應(yīng)用在今天也變得不再那么易于接受。
可以說(shuō),不久前,計(jì)算依然是一個(gè)非常昂貴的資源,數(shù)據(jù)倉(cāng)庫(kù)還受到“稀缺性管理(managing from scarcity)”觀念的限制。相反,各類(lèi)方案數(shù)據(jù)設(shè)計(jì)也在盡量減少數(shù)據(jù)庫(kù)的規(guī)模,比如通過(guò)聚合數(shù)據(jù)、創(chuàng)建復(fù)雜的子數(shù)據(jù)庫(kù)設(shè)計(jì)和密切監(jiān)測(cè)資源的使用等。
但是在今天,似乎數(shù)據(jù)倉(cāng)庫(kù)不再那么受到媒體們的重視。
數(shù)據(jù)倉(cāng)庫(kù),已涼?
隨著大數(shù)據(jù),尤其是Hadoop的崛起,我們經(jīng)常會(huì)聽(tīng)到供應(yīng)商、分析師和大咖們說(shuō)數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)死了。畢竟,它們昂貴、僵硬、緩慢。
人們常說(shuō),大數(shù)據(jù)是游戲規(guī)則改變者和數(shù)據(jù)倉(cāng)庫(kù)的繼承者。但它其實(shí)不是,如果說(shuō)有什么區(qū)別的話,那就是大數(shù)據(jù)為數(shù)據(jù)倉(cāng)庫(kù)提供了一個(gè)實(shí)現(xiàn)自我價(jià)值(或者至少是將其延伸到更接近其原始目地的地方)的機(jī)會(huì):成為有用的、可操作的分析數(shù)據(jù)來(lái)源。
但數(shù)據(jù)倉(cāng)庫(kù)的思考者必須放棄對(duì)物理結(jié)構(gòu)的執(zhí)著才能做到這一點(diǎn)。相反,未來(lái)的數(shù)據(jù)倉(cāng)庫(kù)將不得不與許多不同的數(shù)據(jù)源合作。它將充當(dāng)一種虛擬結(jié)構(gòu),運(yùn)行一種“安靜的”歷史數(shù)據(jù)倉(cāng)庫(kù),并進(jìn)行極致化、不受約束的分析數(shù)據(jù)庫(kù)以提供實(shí)時(shí)更新和實(shí)時(shí)響應(yīng),此外它還將運(yùn)行其他非關(guān)系型大數(shù)據(jù)集群(如Hadoop)的包圍策略。這樣,大數(shù)據(jù)會(huì)迫使組織擴(kuò)大其分析業(yè)務(wù)的規(guī)模,無(wú)論是在數(shù)量上還是在投入的種類(lèi)上。而同樣重要的是,企業(yè)還要擴(kuò)展其關(guān)于如何在組織內(nèi)外擴(kuò)展和加強(qiáng)技術(shù)使用的愿景。
本地部署?云?混合?
以下是目前部分(但不完整)的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)列表:
傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)“幸存者”,他們最初是本地部署支持者,現(xiàn)在是混合玩家:
?
IBM
?
Microsoft
?
Teradata
?
Pivotal/Greeenplum
?
Oracle
純?cè)疲?/p>
?
Redshift
?
Snowflake
?
Incorta
?
一般來(lái)說(shuō),關(guān)系型數(shù)據(jù)庫(kù)(RDB)的數(shù)據(jù)倉(cāng)庫(kù)繼承了上述這些模式的所有優(yōu)點(diǎn)和缺點(diǎn),特別是對(duì)于那些專(zhuān)為事務(wù)處理而設(shè)計(jì)的RDB而言,但是后者的設(shè)計(jì)初衷其實(shí)是為了數(shù)據(jù)倉(cāng)庫(kù)和它們用以支持分析的特別處理需求。
微軟,IBM和Oracle便是其中的代表。在數(shù)據(jù)倉(cāng)庫(kù)的早期階段,這三家產(chǎn)品的性能非常差,這促使客戶尋求了那些專(zhuān)為數(shù)據(jù)倉(cāng)庫(kù)運(yùn)營(yíng)而設(shè)計(jì)的產(chǎn)品,例如Teradata,Red Brick,Pivotal / Greemplum,Vertica以及Paraccel,后者的來(lái)源代碼由亞馬遜授權(quán)并重新命名為Redshift。
后來(lái),廠商們?cè)诟倪M(jìn)他們數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品方面取得了一定的進(jìn)展。如微軟授權(quán)Sybase為SQLServer提供代碼,IBM和Oracle也不斷改進(jìn)和改進(jìn)他們的產(chǎn)品。
就目前而言,所有五個(gè)“幸存者”都擁有完整的云,本地部署和混合云解決方案。問(wèn)題是,“純?cè)朴?jì)算”產(chǎn)品和“幸存者”的云產(chǎn)品真的有什么不同嗎?
每個(gè)產(chǎn)品都有一系列重疊的功能,但核心問(wèn)題是:
基于云的數(shù)據(jù)倉(cāng)庫(kù)有哪些優(yōu)勢(shì)?
與純?cè)飘a(chǎn)品相比,“幸存者”是否提供了足夠的優(yōu)勢(shì)?
大數(shù)據(jù)服務(wù)公司Alooma 指出:
“每個(gè)云倉(cāng)庫(kù)都有自己的結(jié)構(gòu),而不是遵循特定的結(jié)構(gòu)。例如,Amazon Redshift模仿傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu),而谷歌BigQuery根本不使用服務(wù)器,它允許用戶查詢(xún)和共享數(shù)據(jù),而無(wú)需設(shè)置和支付存儲(chǔ)費(fèi)用?!?/p>
那么,云數(shù)據(jù)倉(cāng)庫(kù)會(huì)帶來(lái)些什么?
規(guī)模/擴(kuò)展性: 通常,計(jì)算資源是數(shù)據(jù)倉(cāng)庫(kù)中比數(shù)據(jù)存儲(chǔ)更昂貴的組件。通過(guò)將計(jì)算資源從存儲(chǔ)中分離出來(lái),數(shù)據(jù)倉(cāng)庫(kù)可以存儲(chǔ)大量數(shù)據(jù),并按要求處理信息。在本地方案中,所有這些數(shù)據(jù)都需要以高得多的成本進(jìn)行本地存儲(chǔ)。
靈活性:通過(guò)將數(shù)據(jù)從計(jì)算流程中分離出來(lái),用戶可以創(chuàng)建所需的任意數(shù)量的虛擬數(shù)據(jù)倉(cāng)庫(kù)。
性能: 這仍然是一個(gè)一目了然的事情,在數(shù)據(jù)倉(cāng)庫(kù)/分析查詢(xún)中,僅僅多運(yùn)行幾個(gè)服務(wù)器并不意味著性能的提升。讓Teradata這樣專(zhuān)門(mén)的廠商如此成功的原因是,幾十年的工程設(shè)計(jì),大規(guī)模的并行處理優(yōu)化和工作負(fù)載的管理技術(shù),或許最重要的是,Teradata提供軟件引擎與用戶所運(yùn)行的專(zhuān)有硬件之間的鏈接,并且性能還在不斷改善。
成本: 每個(gè)人都在說(shuō)云改變了定價(jià)模式,但是沒(méi)人確定實(shí)施的成本是多少。廉價(jià)存儲(chǔ)的誘惑可能會(huì)導(dǎo)致事情失控,因?yàn)樗赡苁窍鄬?duì)便宜的,但終歸不是免費(fèi)的。所有的傳統(tǒng)廠商都轉(zhuǎn)向了訂閱定價(jià)方案,但每個(gè)合同都非常復(fù)雜。這里建議是聘請(qǐng)一位合同和定價(jià)細(xì)節(jié)方面的專(zhuān)家(我們?cè)贓RP領(lǐng)域中經(jīng)常看到這一點(diǎn))。
安全性:這是一個(gè)棘手的問(wèn)題,因?yàn)橛刑嗟慕尤朦c(diǎn),尤其是在混合解決方案中。大多數(shù)數(shù)據(jù)庫(kù)產(chǎn)品會(huì)實(shí)施針對(duì)內(nèi)部威脅的安全性,但是近些年來(lái)自外部威脅的激增。
一個(gè)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)具有哪些能力?
?支持任何數(shù)據(jù)局部性(本地磁盤(pán)、Hadoop、私有和公有云數(shù)據(jù))。
?數(shù)據(jù)庫(kù)內(nèi)高級(jí)分析。
?能夠處理本地各類(lèi)型數(shù)據(jù),如空間、時(shí)間序列和/或文本。
?能夠運(yùn)行新的分析工作負(fù)載,包括機(jī)器學(xué)習(xí)、地理空間、圖形和文本分析。
?靈活部署,包括在本地、私有和公有云上。
?大數(shù)據(jù)查詢(xún)優(yōu)化。
?復(fù)雜的查詢(xún)形式。
?基于模型的大規(guī)模并行處理,而不僅僅是分片處理。
?工作負(fù)載管理。
?負(fù)載平衡。
?可擴(kuò)展到數(shù)千個(gè)并發(fā)查詢(xún)。
?完整的ANSI SQL及更多。
寫(xiě)在最后
原生云數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)可能提供以前的“幸存者”數(shù)據(jù)庫(kù)所沒(méi)有的功能和優(yōu)勢(shì),但是它們有多健壯呢? 我們目前不好妄下評(píng)論,但是,一些純?cè)飘a(chǎn)品在滿足用戶的許多需求方面都相對(duì)較差。它們是數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品,還是現(xiàn)有模塊的集合,并將其綁定在PowerPoint幻燈片上?例如,Cloudera的數(shù)據(jù)倉(cāng)庫(kù)中沒(méi)有增加任何在他們開(kāi)始稱(chēng)之為數(shù)據(jù)倉(cāng)庫(kù)之前不存在的東西。這就像把不同物種的不同細(xì)胞系扔進(jìn)培養(yǎng)皿里,就稱(chēng)其為有機(jī)體一樣。
這里,或許還是那句老話“不管黑貓白貓,抓到老鼠就是好貓”。大數(shù)據(jù)吹們總是試圖拋棄掉傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù),只是強(qiáng)調(diào)它實(shí)施和技術(shù)問(wèn)題,而沒(méi)有理會(huì)它對(duì)于組織的價(jià)值。所謂的“數(shù)據(jù)湖”可能并不是一個(gè)好方案。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 昆侖萬(wàn)維發(fā)布天工AI高級(jí)搜索功能,最懂金融投資科研學(xué)術(shù)的AI搜索
- 昆侖萬(wàn)維重磅發(fā)布天工AI高級(jí)搜索功能,做最懂金融投資、科研學(xué)術(shù)的AI搜索
- 真我GT7 Pro發(fā)布,3599起堪稱(chēng)驍龍8至尊版質(zhì)價(jià)比之王
- MLPerf AI存儲(chǔ)基準(zhǔn)測(cè)試,中國(guó)速度領(lǐng)跑
- 假開(kāi)源真噱頭?開(kāi)源大模型和你想的不一樣
- FaceTime成詐騙“幫兇”,蘋(píng)果是怎么一步步丟掉“安全”光環(huán)的?
- 收入首超特斯拉,比亞迪市值為何只有六分之一?
- 誰(shuí)才是折疊屏界的扛把子?華為、榮耀、vivo卷出新高度
- 姜萍也是受害者,阿里數(shù)學(xué)競(jìng)賽存在漏洞
- 消費(fèi)者買(mǎi)不起國(guó)產(chǎn)手機(jī)了,卻還說(shuō)不賺錢(qián),錢(qián)被誰(shuí)賺走了?
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。