“開(kāi)源+云”將重塑未來(lái)20年的數(shù)據(jù)庫(kù)產(chǎn)業(yè)

進(jìn)入2021年中,全球數(shù)據(jù)領(lǐng)域發(fā)生了幾件影響未來(lái)走向的大事件,無(wú)論是經(jīng)典數(shù)據(jù)庫(kù)領(lǐng)域,還是新興的大數(shù)據(jù)市場(chǎng),幾個(gè)“關(guān)口事件”似乎都指向一個(gè)未來(lái)的趨勢(shì):“開(kāi)源+云”將成為主導(dǎo)未來(lái)的融合力量。

在美國(guó),大數(shù)據(jù)平臺(tái)Hadoop最重要的發(fā)行商 Cloudera被私募基金收購(gòu)并將被私有化,這也成為了Hadoop時(shí)代的轉(zhuǎn)折點(diǎn);云端數(shù)據(jù)平臺(tái)Snowflake則給出了驚人的173%的年?duì)I收增長(zhǎng)(2019-2020財(cái)年),并預(yù)計(jì)將保持每年至少30%的營(yíng)收增長(zhǎng)直到2028-2029財(cái)年。

在中國(guó),阿里系的PolarDB和OceanBase數(shù)據(jù)庫(kù)宣布開(kāi)源;騰訊云發(fā)布首款全自研分布式分析型數(shù)據(jù)庫(kù)TDSQL-A;新銳數(shù)據(jù)庫(kù)廠商PingCAP則發(fā)布了擁有完整HTAP能力的TiDB 5.0版本,為企業(yè)數(shù)字化轉(zhuǎn)型提供一棧式數(shù)據(jù)服務(wù)平臺(tái)……

數(shù)據(jù)技術(shù)領(lǐng)域,已經(jīng)多年未有這種“山雨欲來(lái)風(fēng)滿(mǎn)樓”的感覺(jué)了。或許,包含數(shù)據(jù)庫(kù)技術(shù)的大數(shù)據(jù)產(chǎn)業(yè)正在面臨“二十年未有之大變局”;而驅(qū)動(dòng)這場(chǎng)大變局的關(guān)鍵因素,來(lái)自數(shù)據(jù)技術(shù)供需兩側(cè)的雙向巨變:在需求側(cè),數(shù)字化在全行業(yè)的加速帶來(lái)了持續(xù)的動(dòng)力;在供給側(cè),“開(kāi)源+云”的力量成為改變數(shù)據(jù)技術(shù)的內(nèi)聚力量,將過(guò)去20年分散多元的數(shù)據(jù)技術(shù)棧融合起來(lái)。

數(shù)字化加速成為全球趨勢(shì)

如果說(shuō)疫情給世界帶來(lái)的最大變化,那就是我們已經(jīng)永久性地進(jìn)入了“數(shù)字化加速”時(shí)代。進(jìn)入新周期的互聯(lián)網(wǎng)服務(wù)走向“B2C、長(zhǎng)連接、秒級(jí)反饋”的沉浸時(shí)代;傳統(tǒng)企業(yè)加速數(shù)字化轉(zhuǎn)型,以實(shí)現(xiàn)線(xiàn)上線(xiàn)下融合、DTC( Direct to Customer) 、數(shù)字化運(yùn)營(yíng)以及對(duì)企業(yè)員工的數(shù)字化賦能。

未來(lái)不存在所謂的傳統(tǒng)企業(yè),只有數(shù)字化企業(yè);而且所有的企業(yè),都必須對(duì)員工進(jìn)行數(shù)字化賦能。我們知道,貝因美是一家知名的嬰幼兒奶粉生產(chǎn)商,其線(xiàn)下門(mén)店有1.5萬(wàn)導(dǎo)購(gòu),如何利用數(shù)量眾多的導(dǎo)購(gòu)發(fā)展、維系會(huì)員客戶(hù),不斷提升服務(wù)質(zhì)量,一直是貝因美思考的重點(diǎn)問(wèn)題。為此,貝因美在企業(yè)微信中做了個(gè)應(yīng)用“會(huì)員購(gòu)買(mǎi)”。當(dāng)貝因美的會(huì)員購(gòu)買(mǎi)奶粉的時(shí)候,會(huì)掃描綁定奶粉罐上唯一的二維碼,綁定會(huì)員信息,并存到內(nèi)部的系統(tǒng),以便統(tǒng)計(jì)客戶(hù)購(gòu)買(mǎi)數(shù)據(jù)。系統(tǒng)也會(huì)評(píng)估這個(gè)顧客的食用周期,預(yù)測(cè)下次購(gòu)買(mǎi)會(huì)在什么時(shí)候,再把信息推送到導(dǎo)購(gòu)員,進(jìn)而全面提升顧客滿(mǎn)意度和回購(gòu)率。

正如貝因美所揭示的那樣,企業(yè)的業(yè)務(wù)需求正在走向“海量,實(shí)時(shí)、在線(xiàn)”的基本形態(tài),企業(yè)組織的核心能力變成“敏捷創(chuàng)新,實(shí)時(shí)反饋”的能力,數(shù)據(jù)成為企業(yè)經(jīng)營(yíng)的新血液,這也對(duì)企業(yè)的IT架構(gòu)提出了新的要求,必須做到“三個(gè)實(shí)時(shí)”:實(shí)時(shí)反饋、實(shí)時(shí)處理、實(shí)時(shí)分析。

為了應(yīng)對(duì)這種要求,無(wú)論是互聯(lián)網(wǎng)公司還是傳統(tǒng)企業(yè),都在搭建更適合的IT架構(gòu),公有云服務(wù)、SaaS應(yīng)用、低代碼開(kāi)發(fā)、Serverless等新技術(shù)和新模式得到了廣泛應(yīng)用。

不過(guò),要讓這些新技術(shù)和新模式真正發(fā)揮作用,企業(yè)還需要與時(shí)俱進(jìn)的數(shù)據(jù)技術(shù)解決方案,原因很簡(jiǎn)單:真正的數(shù)字化企業(yè)必然是建立在大數(shù)據(jù)基礎(chǔ)上的企業(yè),它所做的任何經(jīng)營(yíng)活動(dòng),都必然涉及到數(shù)據(jù)的收集、提取、整理、分析等活動(dòng)。如果沒(méi)有適合自己的數(shù)據(jù)解決方案,企業(yè)的IT架構(gòu)要做到“三個(gè)實(shí)時(shí)”,只能是空談。

雙劍合璧的組合利器

那么,如何才能構(gòu)建與時(shí)俱進(jìn)的大數(shù)據(jù)解決方案?關(guān)鍵還是用好“開(kāi)源+云”這個(gè)組合利器。通過(guò)開(kāi)源,吸引全球最有實(shí)力的開(kāi)發(fā)者,獲取全球最活躍用戶(hù)的真實(shí)需求,打造全球最具競(jìng)爭(zhēng)力的大數(shù)據(jù)產(chǎn)品。然后通過(guò)“云”這種最有效率、最為直接的服務(wù)模式,將產(chǎn)品交付給企業(yè)客戶(hù)。

我們看到在過(guò)去20年里,開(kāi)源催生了Hadoop、MySQL、MangoDB等多款大數(shù)據(jù)產(chǎn)品,并與AWS、Google Cloud等云服務(wù)結(jié)合起來(lái),成功應(yīng)用于全球TOP20互聯(lián)網(wǎng)大公司。如今,擁有了強(qiáng)大數(shù)據(jù)能力的GAFA(Google、Amazon、Facebook、Apple)和AT(阿里巴巴、騰訊)等互聯(lián)網(wǎng)大公司,已經(jīng)成為全球最有競(jìng)爭(zhēng)力、也最有價(jià)值的公司。

Google之所以能夠成為全球最有價(jià)值的公司之一,關(guān)鍵就在于其“整合全球信息”的能力。過(guò)去這些年里,Google基于開(kāi)源技術(shù)打造了一個(gè)大數(shù)據(jù)平臺(tái),包括 3 個(gè)相互獨(dú)立又緊密結(jié)合在一起的系統(tǒng):Google 文件系統(tǒng)(GFS)、MapReduce 編程模式、大規(guī)模分布式數(shù)據(jù)庫(kù) BigTable。通過(guò)這個(gè)大數(shù)據(jù)平臺(tái),Google能夠?qū)崿F(xiàn)對(duì)海量數(shù)據(jù)的存儲(chǔ)和處理。當(dāng)然,這些也都是通過(guò)“云”才能實(shí)現(xiàn)。此外,Google還通過(guò)搜索引擎這種典型的云服務(wù),為全球用戶(hù)提供整合之后的信息,使人人都能訪問(wèn)并從中受益。由此可見(jiàn),“開(kāi)源+云”,幫助Google實(shí)現(xiàn)了“數(shù)字強(qiáng)權(quán)”。

與互聯(lián)網(wǎng)巨頭一樣,傳統(tǒng)企業(yè)也在通過(guò)“開(kāi)源+云”構(gòu)建屬于自己的數(shù)字化能力。作為新興的智能終端公司,小米不僅發(fā)布智能手機(jī)、平板電腦、智能手環(huán)等產(chǎn)品,還在與眾多第三方企業(yè)一起構(gòu)建小米生態(tài)鏈,并基于眾多智能硬件產(chǎn)品產(chǎn)生的大數(shù)據(jù),提供“小愛(ài)同學(xué)”等互聯(lián)網(wǎng)服務(wù)。小米一直都是開(kāi)源技術(shù)的擁躉和熱情參與者,不僅為開(kāi)源社區(qū)做出了不小的貢獻(xiàn),還在各項(xiàng)業(yè)務(wù)中廣泛使用HBase、Kylin、Kafka、MapReduce、Spark、Strom,Hive等開(kāi)源技術(shù)和工具,對(duì)沉淀在海量智能硬件中的大數(shù)據(jù)加以利用,并通過(guò)Xiaomi Cloud承載旗下的各項(xiàng)移動(dòng)互聯(lián)網(wǎng)服務(wù)。

實(shí)際上,如今“開(kāi)源+云”已經(jīng)成為數(shù)據(jù)領(lǐng)域最熱門(mén)的組合。根據(jù)中國(guó)信息通信研究院所做的調(diào)查,2019年中國(guó)開(kāi)源服務(wù)企業(yè)所做的二次開(kāi)發(fā)中,51.9%來(lái)自于云計(jì)算領(lǐng)域,排在第一位;而數(shù)據(jù)庫(kù)和大數(shù)據(jù)則分別排在第二位和第三位。

遭遇瓶頸

不過(guò),這種“演進(jìn)+疊加”的模式產(chǎn)生了大量不斷迭代的架構(gòu)和產(chǎn)品,雖然幫助TOP 20互聯(lián)網(wǎng)大公司實(shí)現(xiàn)了“數(shù)據(jù)強(qiáng)權(quán)”,卻也讓大多數(shù)企業(yè)都跟不上,主要原因有三點(diǎn):

1. 互不相容的多家公有云,導(dǎo)致割裂的服務(wù);

2. 碎片化的數(shù)據(jù)技術(shù)棧,導(dǎo)致集成的困難;

3. 交易和分析平臺(tái)分離,無(wú)法集中使用。

由于企業(yè)所在地的政策限制以及便利性的要求,如今很多企業(yè)往往同時(shí)選擇多家公有云平臺(tái)提供服務(wù),例如在中國(guó)選擇阿里云,在海外選擇AWS,相關(guān)數(shù)據(jù)也會(huì)分布在不同的公有云上面,它們對(duì)于數(shù)據(jù)的存儲(chǔ)、處理、交流方式各有不同。對(duì)于企業(yè)來(lái)說(shuō),將自己所有的數(shù)據(jù)統(tǒng)一管理本來(lái)是天經(jīng)地義的事情,而在這種情況下卻遇到了空前的阻礙,降低了企業(yè)的經(jīng)營(yíng)效率。

由于歷史原因,很多企業(yè)在各種數(shù)據(jù)工具上疊床架屋,最后卻發(fā)現(xiàn)造不出一棟適合居住的房子。以國(guó)內(nèi)某銀行為例,要對(duì)海量數(shù)據(jù)進(jìn)行分析,必須首先在交易核心數(shù)據(jù)庫(kù)中跑批處理,再ODS抽取ETL分析到數(shù)據(jù)倉(cāng)庫(kù),再進(jìn)一步訓(xùn)練流式計(jì)算,最后再放入數(shù)據(jù)湖,整個(gè)數(shù)據(jù)手動(dòng)的過(guò)程至少需要一天。而且Hadoop和數(shù)據(jù)湖的開(kāi)源生態(tài)中很多組件并不兼容,日常運(yùn)維已捉襟見(jiàn)肘,想提速也無(wú)從下手。IT部門(mén)如此不給力,而業(yè)務(wù)部門(mén)對(duì)于轉(zhuǎn)瞬即逝的營(yíng)銷(xiāo)機(jī)會(huì)卻又是如此渴求,T+1分鐘可能都會(huì)嫌慢,導(dǎo)致了雙方永遠(yuǎn)都在爭(zhēng)吵不休。

也正是因?yàn)槿绱耍^(guò)去十年間,除了TOP 20互聯(lián)網(wǎng)大公司之外,80%的Hadoop大數(shù)據(jù)項(xiàng)目都失敗了。在《The Forrester Tech Tide?: 數(shù)據(jù)管理》2020年一季度報(bào)告當(dāng)中,已經(jīng)把Hadoop平臺(tái)列為需要“剝離”(Divest)的數(shù)據(jù)管理平臺(tái)之一。而前不久知名Hadoop發(fā)行商Cloudera之所以被私募基金收購(gòu)并私有化,也是因?yàn)镠adoop大數(shù)據(jù)平臺(tái)的廣泛應(yīng)用不盡如人意。

破解之道在融合

可是,企業(yè)的數(shù)字化轉(zhuǎn)型不能等,“數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)”這條路必須走通。要破解如今的大數(shù)據(jù)瓶頸,同樣需要用到“開(kāi)源+云”這個(gè)組合利器,只不過(guò)模式發(fā)生了根本性的變化。

正所謂“分久必合”,未來(lái)大數(shù)據(jù)的技術(shù)路線(xiàn)將走向“合”——融合和簡(jiǎn)化。簡(jiǎn)化就是通過(guò)屏蔽復(fù)雜性,通過(guò)自動(dòng)伸縮,自動(dòng)運(yùn)維,HTAP等路線(xiàn)來(lái)解決;融合要是讓大多數(shù)企業(yè)的數(shù)據(jù)庫(kù)和大數(shù)據(jù)技術(shù)棧融為一體,形成一個(gè)一體化的數(shù)據(jù)底座(Data Foundation)。Gartner在評(píng)價(jià)2021年技術(shù)趨勢(shì)的時(shí)候提出:一個(gè)一體化的數(shù)據(jù)平臺(tái)可以加速數(shù)字化轉(zhuǎn)型,這也是大多數(shù)企業(yè)一直夢(mèng)寐以求的方向。

讓我們看看一家典型的中國(guó)互聯(lián)網(wǎng)創(chuàng)業(yè)公司,如何利用“合”的力量。作為中國(guó)知名的知識(shí)分享平臺(tái),知乎沉淀了海量的問(wèn)答數(shù)據(jù)。過(guò)去,知乎用的是 MySQL,并采用分庫(kù)分表+MHA 機(jī)制來(lái)提升系統(tǒng)的性能并保障系統(tǒng)的高可用,當(dāng)每月新增一千億數(shù)據(jù)的情況下,已經(jīng)出現(xiàn)了瓶頸。知乎后來(lái)決定遷移到PingCAP的TiDB產(chǎn)品,遷移到TiDB之后,整個(gè)系統(tǒng)最弱的“擴(kuò)展性”短板就被補(bǔ)齊了,現(xiàn)在整個(gè)系統(tǒng)都是高可用的,隨時(shí)可以擴(kuò)展,而且性能變得更好。之后,知乎還希望對(duì)一萬(wàn)多億條已讀數(shù)據(jù)進(jìn)行分析,挖掘其中的價(jià)值。而在以往,這種高吞吐的寫(xiě)入和龐大的全量數(shù)據(jù)規(guī)模,用傳統(tǒng)的 ETL 方式是難以在可行的成本下將數(shù)據(jù)每日同步到 Hadoop 上進(jìn)行分析的。當(dāng)知乎有了TiDB的分析引擎TiFlash的支持之后,一切就變得有可能了。知乎目前采用TiDB一個(gè)入口,覆蓋了數(shù)據(jù)庫(kù),數(shù)據(jù)分析,流式計(jì)算,數(shù)據(jù)倉(cāng)庫(kù)等等一系列需求,只用3個(gè)DBA支撐數(shù)千臺(tái)的集群,充分享受到了簡(jiǎn)化,融合的好處。還基于同一個(gè)架構(gòu)自行開(kāi)發(fā)了替代Hbase的Zetta產(chǎn)品,并貢獻(xiàn)給社區(qū)用戶(hù)采用,形成了一個(gè)技術(shù)供給的良性循環(huán)。

如今,以PingCAP為代表的開(kāi)源分布式數(shù)據(jù)庫(kù),跨越了數(shù)據(jù)庫(kù)與大數(shù)據(jù)的邊界,催生了新的數(shù)據(jù)服務(wù)模式,讓知乎借助一棧式數(shù)據(jù)平臺(tái)獲得數(shù)據(jù)處理的綜合能力,進(jìn)而適應(yīng)這個(gè)“數(shù)字化加速”時(shí)代企業(yè)的需求。

重塑數(shù)據(jù)產(chǎn)業(yè)

由此可見(jiàn),“數(shù)字化加速”時(shí)代的企業(yè)需求在變,作為供給方的數(shù)據(jù)產(chǎn)業(yè)也必須要變。如果說(shuō)此前二十年,通過(guò)“開(kāi)源+云”讓TOP 20互聯(lián)網(wǎng)大公司構(gòu)建了自己的數(shù)據(jù)平臺(tái)、實(shí)現(xiàn)了數(shù)據(jù)強(qiáng)權(quán)的話(huà),未來(lái)二十年,還是借助“開(kāi)源+云”的力量,將會(huì)涌現(xiàn)出一批真正能夠解決企業(yè)數(shù)據(jù)瓶頸的服務(wù)企業(yè),并徹底重塑全球數(shù)據(jù)產(chǎn)業(yè)。

實(shí)際上,巨變正在發(fā)生。在美國(guó),初創(chuàng)公司Snowflake走上了云原生數(shù)據(jù)倉(cāng)庫(kù)的道路,并提出了DaaS(Data warehouse-as-a-Service)數(shù)據(jù)倉(cāng)庫(kù)即服務(wù)的概念,使得客戶(hù)能夠在一個(gè)易于使用的平臺(tái)上管理和分析跨公有云(如Amazon的AWS、Google Cloud和Microsoft Azure等)的大量數(shù)據(jù)和各種類(lèi)型的數(shù)據(jù)。由此,Snowflake的服務(wù)大受客戶(hù)歡迎,上市后也得到資本市場(chǎng)認(rèn)可,目前市值高達(dá)700億美元。

在中國(guó),同樣出現(xiàn)了PingCAP這樣的數(shù)據(jù)“新物種”,其核心產(chǎn)品充分汲取開(kāi)源社區(qū)的養(yǎng)分,TiDB數(shù)據(jù)庫(kù)歷經(jīng)了六年五大版本的迭代,邁向企業(yè)級(jí)核心場(chǎng)景應(yīng)用,最終形成“場(chǎng)景-社區(qū)-產(chǎn)品”飛輪,打造出一棧式的解決方案。之后,PingCAP還推出了TiDB Cloud(多云部署)服務(wù),通過(guò)全新的云端服務(wù)模式,將數(shù)據(jù)處理做成了“消費(fèi)化”的SaaS。

由此,我們?cè)倏?021年中數(shù)據(jù)產(chǎn)業(yè)發(fā)生的諸多大事件,就會(huì)恍然大悟:原來(lái),全球數(shù)據(jù)庫(kù)和大數(shù)據(jù)產(chǎn)業(yè)正在發(fā)生一場(chǎng)深刻的技術(shù)變革,它將徹底改變未來(lái)20年企業(yè)數(shù)字化的發(fā)展方向。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2021-06-22
“開(kāi)源+云”將重塑未來(lái)20年的數(shù)據(jù)庫(kù)產(chǎn)業(yè)
進(jìn)入2021年中,全球數(shù)據(jù)領(lǐng)域發(fā)生了幾件影響未來(lái)走向的大事件,無(wú)論是經(jīng)典數(shù)據(jù)庫(kù)領(lǐng)域,還是新興的大數(shù)據(jù)市場(chǎng),幾個(gè)“關(guān)口事件”似乎都指向一個(gè)未來(lái)的趨勢(shì):“開(kāi)源+云”將成為主導(dǎo)未來(lái)的融合力量。

長(zhǎng)按掃碼 閱讀全文