原標題:“開源+云”將重塑未來20年的數(shù)據(jù)庫產業(yè)
進入2021年中,全球數(shù)據(jù)領域發(fā)生了幾件影響未來走向的大事件,無論是經典數(shù)據(jù)庫領域,還是新興的大數(shù)據(jù)市場,幾個“關口事件”似乎都指向一個未來的趨勢:“開源+云”將成為主導未來的融合力量。
在美國,大數(shù)據(jù)平臺Hadoop最重要的發(fā)行商 Cloudera被私募基金收購并將被私有化,這也成為了Hadoop時代的轉折點;云端數(shù)據(jù)平臺Snowflake則給出了驚人的173%的年營收增長(2019-2020財年),并預計將保持每年至少30%的營收增長直到2028-2029財年。
在中國,阿里系的PolarDB和OceanBase數(shù)據(jù)庫宣布開源;騰訊云發(fā)布首款全自研分布式分析型數(shù)據(jù)庫TDSQL-A;新銳數(shù)據(jù)庫廠商PingCAP則發(fā)布了擁有完整HTAP能力的TiDB 5.0版本,為企業(yè)數(shù)字化轉型提供一棧式數(shù)據(jù)服務平臺……
數(shù)據(jù)技術領域,已經多年未有這種“山雨欲來風滿樓”的感覺了。或許,包含數(shù)據(jù)庫技術的大數(shù)據(jù)產業(yè)正在面臨“二十年未有之大變局”;而驅動這場大變局的關鍵因素,來自數(shù)據(jù)技術供需兩側的雙向巨變:在需求側,數(shù)字化在全行業(yè)的加速帶來了持續(xù)的動力;在供給側,“開源+云”的力量成為改變數(shù)據(jù)技術的內聚力量,將過去20年分散多元的數(shù)據(jù)技術棧融合起來。
數(shù)字化加速成為全球趨勢
如果說疫情給世界帶來的最大變化,那就是我們已經永久性地進入了“數(shù)字化加速”時代。進入新周期的互聯(lián)網服務走向“B2C、長連接、秒級反饋”的沉浸時代;傳統(tǒng)企業(yè)加速數(shù)字化轉型,以實現(xiàn)線上線下融合、DTC( Direct to Customer) 、數(shù)字化運營以及對企業(yè)員工的數(shù)字化賦能。
未來不存在所謂的傳統(tǒng)企業(yè),只有數(shù)字化企業(yè);而且所有的企業(yè),都必須對員工進行數(shù)字化賦能。我們知道,貝因美是一家知名的嬰幼兒奶粉生產商,其線下門店有1.5萬導購,如何利用數(shù)量眾多的導購發(fā)展、維系會員客戶,不斷提升服務質量,一直是貝因美思考的重點問題。為此,貝因美在企業(yè)微信中做了個應用“會員購買”。當貝因美的會員購買奶粉的時候,會掃描綁定奶粉罐上唯一的二維碼,綁定會員信息,并存到內部的系統(tǒng),以便統(tǒng)計客戶購買數(shù)據(jù)。系統(tǒng)也會評估這個顧客的食用周期,預測下次購買會在什么時候,再把信息推送到導購員,進而全面提升顧客滿意度和回購率。
正如貝因美所揭示的那樣,企業(yè)的業(yè)務需求正在走向“海量,實時、在線”的基本形態(tài),企業(yè)組織的核心能力變成“敏捷創(chuàng)新,實時反饋”的能力,數(shù)據(jù)成為企業(yè)經營的新血液,這也對企業(yè)的IT架構提出了新的要求,必須做到“三個實時”:實時反饋、實時處理、實時分析。
為了應對這種要求,無論是互聯(lián)網公司還是傳統(tǒng)企業(yè),都在搭建更適合的IT架構,公有云服務、SaaS應用、低代碼開發(fā)、Serverless等新技術和新模式得到了廣泛應用。
不過,要讓這些新技術和新模式真正發(fā)揮作用,企業(yè)還需要與時俱進的數(shù)據(jù)技術解決方案,原因很簡單:真正的數(shù)字化企業(yè)必然是建立在大數(shù)據(jù)基礎上的企業(yè),它所做的任何經營活動,都必然涉及到數(shù)據(jù)的收集、提取、整理、分析等活動。如果沒有適合自己的數(shù)據(jù)解決方案,企業(yè)的IT架構要做到“三個實時”,只能是空談。
雙劍合璧的組合利器
那么,如何才能構建與時俱進的大數(shù)據(jù)解決方案?關鍵還是用好“開源+云”這個組合利器。通過開源,吸引全球最有實力的開發(fā)者,獲取全球最活躍用戶的真實需求,打造全球最具競爭力的大數(shù)據(jù)產品。然后通過“云”這種最有效率、最為直接的服務模式,將產品交付給企業(yè)客戶。
我們看到在過去20年里,開源催生了Hadoop、MySQL、MangoDB等多款大數(shù)據(jù)產品,并與AWS、Google Cloud等云服務結合起來,成功應用于全球TOP20互聯(lián)網大公司。如今,擁有了強大數(shù)據(jù)能力的GAFA(Google、Amazon、Facebook、Apple)和AT(阿里巴巴、騰訊)等互聯(lián)網大公司,已經成為全球最有競爭力、也最有價值的公司。
Google之所以能夠成為全球最有價值的公司之一,關鍵就在于其“整合全球信息”的能力。過去這些年里,Google基于開源技術打造了一個大數(shù)據(jù)平臺,包括 3 個相互獨立又緊密結合在一起的系統(tǒng):Google 文件系統(tǒng)(GFS)、MapReduce 編程模式、大規(guī)模分布式數(shù)據(jù)庫 BigTable。通過這個大數(shù)據(jù)平臺,Google能夠實現(xiàn)對海量數(shù)據(jù)的存儲和處理。當然,這些也都是通過“云”才能實現(xiàn)。此外,Google還通過搜索引擎這種典型的云服務,為全球用戶提供整合之后的信息,使人人都能訪問并從中受益。由此可見,“開源+云”,幫助Google實現(xiàn)了“數(shù)字強權”。
與互聯(lián)網巨頭一樣,傳統(tǒng)企業(yè)也在通過“開源+云”構建屬于自己的數(shù)字化能力。作為新興的智能終端公司,小米不僅發(fā)布智能手機、平板電腦、智能手環(huán)等產品,還在與眾多第三方企業(yè)一起構建小米生態(tài)鏈,并基于眾多智能硬件產品產生的大數(shù)據(jù),提供“小愛同學”等互聯(lián)網服務。小米一直都是開源技術的擁躉和熱情參與者,不僅為開源社區(qū)做出了不小的貢獻,還在各項業(yè)務中廣泛使用HBase、Kylin、Kafka、MapReduce、Spark、Strom,Hive等開源技術和工具,對沉淀在海量智能硬件中的大數(shù)據(jù)加以利用,并通過Xiaomi Cloud承載旗下的各項移動互聯(lián)網服務。
實際上,如今“開源+云”已經成為數(shù)據(jù)領域最熱門的組合。根據(jù)中國信息通信研究院所做的調查,2019年中國開源服務企業(yè)所做的二次開發(fā)中,51.9%來自于云計算領域,排在第一位;而數(shù)據(jù)庫和大數(shù)據(jù)則分別排在第二位和第三位。
遭遇瓶頸
不過,這種“演進+疊加”的模式產生了大量不斷迭代的架構和產品,雖然幫助TOP 20互聯(lián)網大公司實現(xiàn)了“數(shù)據(jù)強權”,卻也讓大多數(shù)企業(yè)都跟不上,主要原因有三點:
1. 互不相容的多家公有云,導致割裂的服務;
2. 碎片化的數(shù)據(jù)技術棧,導致集成的困難;
3. 交易和分析平臺分離,無法集中使用。
由于企業(yè)所在地的政策限制以及便利性的要求,如今很多企業(yè)往往同時選擇多家公有云平臺提供服務,例如在中國選擇阿里云,在海外選擇AWS,相關數(shù)據(jù)也會分布在不同的公有云上面,它們對于數(shù)據(jù)的存儲、處理、交流方式各有不同。對于企業(yè)來說,將自己所有的數(shù)據(jù)統(tǒng)一管理本來是天經地義的事情,而在這種情況下卻遇到了空前的阻礙,降低了企業(yè)的經營效率。
由于歷史原因,很多企業(yè)在各種數(shù)據(jù)工具上疊床架屋,最后卻發(fā)現(xiàn)造不出一棟適合居住的房子。以國內某銀行為例,要對海量數(shù)據(jù)進行分析,必須首先在交易核心數(shù)據(jù)庫中跑批處理,再ODS抽取ETL分析到數(shù)據(jù)倉庫,再進一步訓練流式計算,最后再放入數(shù)據(jù)湖,整個數(shù)據(jù)手動的過程至少需要一天。而且Hadoop和數(shù)據(jù)湖的開源生態(tài)中很多組件并不兼容,日常運維已捉襟見肘,想提速也無從下手。IT部門如此不給力,而業(yè)務部門對于轉瞬即逝的營銷機會卻又是如此渴求,T+1分鐘可能都會嫌慢,導致了雙方永遠都在爭吵不休。
也正是因為如此,過去十年間,除了TOP 20互聯(lián)網大公司之外,80%的Hadoop大數(shù)據(jù)項目都失敗了。在《The Forrester Tech Tide?: 數(shù)據(jù)管理》2020年一季度報告當中,已經把Hadoop平臺列為需要“剝離”(Divest)的數(shù)據(jù)管理平臺之一。而前不久知名Hadoop發(fā)行商Cloudera之所以被私募基金收購并私有化,也是因為Hadoop大數(shù)據(jù)平臺的廣泛應用不盡如人意。
The Forrester Tech Tide?: 數(shù)據(jù)管理,2020年一季度
破解之道在融合
可是,企業(yè)的數(shù)字化轉型不能等,“數(shù)據(jù)驅動業(yè)務”這條路必須走通。要破解如今的大數(shù)據(jù)瓶頸,同樣需要用到“開源+云”這個組合利器,只不過模式發(fā)生了根本性的變化。
正所謂“分久必合”,未來大數(shù)據(jù)的技術路線將走向“合”——融合和簡化。簡化就是通過屏蔽復雜性,通過自動伸縮,自動運維,HTAP等路線來解決;融合要是讓大多數(shù)企業(yè)的數(shù)據(jù)庫和大數(shù)據(jù)技術棧融為一體,形成一個一體化的數(shù)據(jù)底座(Data Foundation)。Gartner在評價2021年技術趨勢的時候提出:一個一體化的數(shù)據(jù)平臺可以加速數(shù)字化轉型,這也是大多數(shù)企業(yè)一直夢寐以求的方向。
讓我們看看一家典型的中國互聯(lián)網創(chuàng)業(yè)公司,如何利用“合”的力量。作為中國知名的知識分享平臺,知乎沉淀了海量的問答數(shù)據(jù)。過去,知乎用的是 MySQL,并采用分庫分表+MHA 機制來提升系統(tǒng)的性能并保障系統(tǒng)的高可用,當每月新增一千億數(shù)據(jù)的情況下,已經出現(xiàn)了瓶頸。知乎后來決定遷移到PingCAP的TiDB產品,遷移到TiDB之后,整個系統(tǒng)最弱的“擴展性”短板就被補齊了,現(xiàn)在整個系統(tǒng)都是高可用的,隨時可以擴展,而且性能變得更好。之后,知乎還希望對一萬多億條已讀數(shù)據(jù)進行分析,挖掘其中的價值。而在以往,這種高吞吐的寫入和龐大的全量數(shù)據(jù)規(guī)模,用傳統(tǒng)的 ETL 方式是難以在可行的成本下將數(shù)據(jù)每日同步到 Hadoop 上進行分析的。當知乎有了TiDB的分析引擎TiFlash的支持之后,一切就變得有可能了。知乎目前采用TiDB一個入口,覆蓋了數(shù)據(jù)庫,數(shù)據(jù)分析,流式計算,數(shù)據(jù)倉庫等等一系列需求,只用3個DBA支撐數(shù)千臺的集群,充分享受到了簡化,融合的好處。還基于同一個架構自行開發(fā)了替代Hbase的Zetta產品,并貢獻給社區(qū)用戶采用,形成了一個技術供給的良性循環(huán)。
如今,以PingCAP為代表的開源分布式數(shù)據(jù)庫,跨越了數(shù)據(jù)庫與大數(shù)據(jù)的邊界,催生了新的數(shù)據(jù)服務模式,讓知乎借助一棧式數(shù)據(jù)平臺獲得數(shù)據(jù)處理的綜合能力,進而適應這個“數(shù)字化加速”時代企業(yè)的需求。
重塑數(shù)據(jù)產業(yè)
由此可見,“數(shù)字化加速”時代的企業(yè)需求在變,作為供給方的數(shù)據(jù)產業(yè)也必須要變。如果說此前二十年,通過“開源+云”讓TOP 20互聯(lián)網大公司構建了自己的數(shù)據(jù)平臺、實現(xiàn)了數(shù)據(jù)強權的話,未來二十年,還是借助“開源+云”的力量,將會涌現(xiàn)出一批真正能夠解決企業(yè)數(shù)據(jù)瓶頸的服務企業(yè),并徹底重塑全球數(shù)據(jù)產業(yè)。
實際上,巨變正在發(fā)生。在美國,初創(chuàng)公司Snowflake走上了云原生數(shù)據(jù)倉庫的道路,并提出了DaaS(Data warehouse-as-a-Service)數(shù)據(jù)倉庫即服務的概念,使得客戶能夠在一個易于使用的平臺上管理和分析跨公有云(如Amazon的AWS、Google Cloud和Microsoft Azure等)的大量數(shù)據(jù)和各種類型的數(shù)據(jù)。由此,Snowflake的服務大受客戶歡迎,上市后也得到資本市場認可,目前市值高達700億美元。
在中國,同樣出現(xiàn)了PingCAP這樣的數(shù)據(jù)“新物種”,其核心產品充分汲取開源社區(qū)的養(yǎng)分,TiDB數(shù)據(jù)庫歷經了六年五大版本的迭代,邁向企業(yè)級核心場景應用,最終形成“場景-社區(qū)-產品”飛輪,打造出一棧式的解決方案。之后,PingCAP還推出了TiDB Cloud(多云部署)服務,通過全新的云端服務模式,將數(shù)據(jù)處理做成了“消費化”的SaaS。
由此,我們再看2021年中數(shù)據(jù)產業(yè)發(fā)生的諸多大事件,就會恍然大悟:原來,全球數(shù)據(jù)庫和大數(shù)據(jù)產業(yè)正在發(fā)生一場深刻的技術變革,它將徹底改變未來20年企業(yè)數(shù)字化的發(fā)展方向。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領先技術與深度整合是關鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。