過去一個月里,堪稱國產(chǎn)數(shù)據(jù)庫又一高光時刻。
這邊廂PingCAP剛剛發(fā)布面向企業(yè)級核心場景、具備完整 HTAP 能力的分布式數(shù)據(jù)庫TiDB 5.0 版本;那邊廂OceanBase也緊跟著推出3.0版本,主攻方向亦是HTAP分布式數(shù)據(jù)庫,在GitHub Oceanbase標注自己為“ The leading Scalable HTAP Database” , 并且又玩了一把TPC-H打榜第一的套路(后續(xù):其成績很快被超過)。
可能有人會質(zhì)疑TPC-C和TPC-H的測試價值,畢竟這是兩個歷史悠久的測試標準,參考價值成疑。OceanBase如果能在TPC-DS上取得好成績會更有說服力。不過OceanBase自帶阿里&螞蟻光環(huán),屬于招黑體質(zhì),一舉一動都容易引來爭議,但敢于在國際舞臺亮劍,何嘗不是國產(chǎn)數(shù)據(jù)庫的榮耀,所以也無須過于苛刻。
閑言少敘,PingCAP和OceanBase把HTAP這個詞徹底帶火了。5月28日宣布開源計劃的阿里云PolarDB也談及HTAP,連Oracle上周都發(fā)了一篇HTAP的文章。PingCAP近年來一直都是HTAP信徒,大力宣傳無可厚非;而OceanBase從傳統(tǒng)意義上講,大家普遍認為它聚焦在OLTP數(shù)據(jù)庫領域,為何這次也大張旗鼓的喊出HTAP口號?
個中玄機,還得從HTAP的歷史說起。
HTAP:魚和熊掌可兼得
HTAP(Hybrid Transaction and Analytical Processing,混合事務和分析處理)就是能夠?qū)⒃诰€事務處理(On-Line Transactional Processing,簡稱OLTP) 和在線數(shù)據(jù)分析 (On-Line Analytical Processing,簡稱OLAP) 請求在同一個數(shù)據(jù)庫系統(tǒng)中完成。
正所謂天下大勢,分久必合合久必分。此話放在數(shù)據(jù)庫領域一樣適用。HTAP的確不是一個很新的概念,縱觀數(shù)據(jù)庫五十余年的發(fā)展歷程,OLTP和OLAP兩種需求在其中經(jīng)歷了漫長的融合-分離-再融合的過程。
2005年,Gartner正式提出了HTAP這一概念,并且迅速引起了一些企業(yè)的關注,被視為是未來數(shù)據(jù)發(fā)展的重要趨勢之一。轉(zhuǎn)眼到了2014年,Gartner又對HTAP數(shù)據(jù)庫給出了明確的定義:即需要同時支持OLTP和OLAP場景,基于創(chuàng)新的計算存儲框架,在同一份數(shù)據(jù)上保證事務的同時支持實時分析,省去費時的ETL過程。
彼時,正是大數(shù)據(jù)興起之際,人們對于數(shù)據(jù)及其價值有著重新的認識與認知;另一方面,多核處理器、閃存等硬件技術(shù)的高速發(fā)展,也讓人們逐漸意識到數(shù)據(jù)庫設計是時候重新設計了,在同一數(shù)據(jù)庫處理OLTP和OLAP請求的可行性大幅提升。
所以,作為國產(chǎn)數(shù)據(jù)庫的兩大代表,PingCAP和OceanBase齊刷刷瞄準HTAP,的確是摸準了時代的脈搏。但今天的HTAP已經(jīng)與過去大不相同,數(shù)據(jù)資源、數(shù)據(jù)消費習慣以及數(shù)據(jù)架構(gòu)的顛覆性變化,既賦予了HTAP新時代的內(nèi)涵,也讓HTAP承擔起更重大的責任。
HTAP因數(shù)而變
為什么HTAP會變得如此炎手可熱?
原因始終繞不開一個“數(shù)”字。如果仔細研究Gartner關于HTAP的定義,我們會發(fā)現(xiàn)“同時支持OLTP和OLAP、創(chuàng)新計算存儲框架、去掉ETL”這幾大關鍵詞都跟“數(shù)據(jù)”密切相關,其背后是數(shù)據(jù)資源、數(shù)據(jù)消費習慣以及數(shù)據(jù)架構(gòu)顛覆性的改變。
首先,數(shù)據(jù)產(chǎn)生方式、規(guī)模、速度與過去大不同。以行為和機器產(chǎn)生的非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)正在成為數(shù)據(jù)增長的主力軍,這些數(shù)據(jù)無論是數(shù)據(jù)規(guī)模、密集度、產(chǎn)生速度都遠超交易型的結(jié)構(gòu)化數(shù)據(jù);這也直接驅(qū)動著HTAP場景在未來會更加豐富化。
其次,實時性的數(shù)據(jù)消費正在成為新常態(tài),數(shù)據(jù)消費的人群規(guī)模、場景豐富程度迅速增加,無論是最終消費者,還是企業(yè)員工都有數(shù)據(jù)消費需求,驅(qū)動著OLTP場景與OLAP場景互相滲透,彼此之間的界限變得模糊。
例如,一個快消品的調(diào)研員,會通過手持終端設備隨時隨地了解產(chǎn)品銷售情況和預測銷售趨勢,進而根據(jù)數(shù)據(jù)做出相應決策;一個基金經(jīng)理往往需要隨時根據(jù)客戶資產(chǎn)凈值、交易頻次變化、金融產(chǎn)品銷售情況等一系列數(shù)據(jù)服務,來有針對性進行營銷決策……而這些決定常常需要幾分鐘甚至幾秒鐘內(nèi)完成,實時性需求成為新一代HTAP的剛需。
過去,OLTP場景僅僅負責產(chǎn)生數(shù)據(jù),數(shù)據(jù)往往需要搬運到數(shù)據(jù)倉庫或者機器學習平臺進行數(shù)據(jù)消費,數(shù)據(jù)消費人群也僅僅是數(shù)據(jù)倉庫管理員、決策層等少數(shù)人群;現(xiàn)在,在數(shù)據(jù)驅(qū)動型場景大幅增加的加持下,人人都是隨時隨地的數(shù)據(jù)消費者,極大推動OLTP場景與OLAP場景的融合。
第三,數(shù)據(jù)驅(qū)動型場景的井噴式出現(xiàn),讓計算與數(shù)據(jù)兩個角色出現(xiàn)變化,過去一直都是以計算為核心,而數(shù)據(jù)驅(qū)動型場景則是以數(shù)據(jù)為核心,核心角色的轉(zhuǎn)變意味著數(shù)據(jù)架構(gòu)將發(fā)生徹底改變。
所以這就涉及到一個核心問題:即在OLTP場景和OLAP場景加速融合的趨勢下,在架構(gòu)層到底是Move Data還是Move Code。過去,OLTP場景產(chǎn)生數(shù)據(jù)之后,往往需要通過ETL將數(shù)據(jù)導入到數(shù)據(jù)倉庫,然后在數(shù)據(jù)倉庫中建模、ODS、建立報表,如果涉及到需要應用到機器學習,還需要將數(shù)據(jù)導入到機器學習平臺,數(shù)據(jù)移動次數(shù)已經(jīng)足夠頻繁。現(xiàn)在,OLTP場景和OLAP場景加速融合,BI呈現(xiàn)和AI操作服務實時化,數(shù)據(jù)互相移動將更加頻繁,這無疑對于數(shù)據(jù)架構(gòu)帶來極大挑戰(zhàn)。
關于數(shù)據(jù)移動,AWS有一個經(jīng)典的描述:AWS認為隨著數(shù)據(jù)量的不斷增加,數(shù)據(jù)的往來移動操作變得越來越困難,稱之為“數(shù)據(jù)重力”現(xiàn)象。要想解決“數(shù)據(jù)重力”現(xiàn)象,AWS的做法類似Move Data,針對每個場景有專用數(shù)據(jù)庫,并且集成Athena、Glue等工具集,讓ETL等移動操作更加集成化、自動化和高效化。這種模式比較適合大型互聯(lián)網(wǎng)企業(yè),擁有比較強大的技術(shù)團隊。
另一種則是Move Code,通過HTAP這種融合的數(shù)據(jù)平臺,在一份數(shù)據(jù)上同時支撐業(yè)務系統(tǒng)運行并實現(xiàn)OLAP 場景,縮短數(shù)據(jù)移動路徑,讓數(shù)據(jù)不再搬家,就地實現(xiàn)OLTP場景和OLAP場景的融合。這個更符合大多數(shù)企業(yè),尤其是企業(yè)數(shù)字化轉(zhuǎn)型的需求。
本質(zhì)上,HTAP的做法更具變革性,打破了OLTP場景和OLAP場景之間過去傳統(tǒng)的分界線,大幅提升大數(shù)據(jù)體系下數(shù)據(jù)實時處理和分析計算能力;另一方面,通過分布式架構(gòu),也徹底解決了過去困擾傳統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)倉庫多年的性能、擴展性,實時性等難題。
但HTAP雖好,但實現(xiàn)起來卻沒有那么簡單。這里不能不提PingCAP,其在HTAP上的戰(zhàn)略布局顯然更快人一步,隨著TiDB 5.0的發(fā)布,也標志著國產(chǎn)數(shù)據(jù)庫廠商在HTAP領域占領先機。
都是HTAP,哪些趨勢不能忽視
事實上,不光是PingCAP和OceanBase在搞HTAP,Oracle、GreenPlum這些傳統(tǒng)數(shù)據(jù)庫時代的大咖也在聚焦HTAP。
都是HTAP,哪些才是真正代表著HTAP的趨勢呢?
其一,產(chǎn)品架構(gòu)上需要對未來做好準備,HTAP本質(zhì)上已經(jīng)開始逐漸演變成一體化數(shù)據(jù)服務平臺,其多元化場景決定了絕非是OLTP和OLAP簡單疊加,如果通過OLTP架構(gòu)外擴實現(xiàn)OLAP,顯然只能算權(quán)宜之計,不能代表面向未來的架構(gòu)。用戶在分布式數(shù)據(jù)庫和大數(shù)據(jù)技術(shù)的融合也產(chǎn)生了廣泛意義的HTAP的需求,長遠來看,HTAP會成為數(shù)字化時代一種普遍性的需求。
以PingCAP為例,其TiDB 4.0就是一款為HTAP而設計的分布式數(shù)據(jù)庫,到了5.0版本,在TiFlash引入MPP模式與多項企業(yè)級特性的增加,使得TiDB 5.0發(fā)展為“一棧式數(shù)據(jù)服務平臺”。
其二,開源生態(tài)決定基礎,數(shù)據(jù)庫作為重要的基礎軟件,HTAP數(shù)據(jù)庫未來需要在成百上千的場景中打磨,過去那種封閉模式不管是技術(shù)迭代還是用戶增長都是舉步維艱,走向開放開源的生態(tài)之路已經(jīng)是大勢所趨。比如,TiDB5.0發(fā)布會“TiDB+FIink”的混合架構(gòu)突破了狹義HTAP的范圍,開啟了“分布式數(shù)據(jù)+大數(shù)據(jù)技術(shù)棧”的HTAP生態(tài)模式。
未來,將開源戰(zhàn)略作為核心戰(zhàn)略、構(gòu)建高度活躍的開源社區(qū)將會是HTAP數(shù)據(jù)庫的長遠目標。
其三,擁抱云是未來,需要支持云原生架構(gòu),充分利用云原生技術(shù)輕量化、松耦合、靈活度高等優(yōu)勢,另外還實現(xiàn)跨云與多云部署。
同樣,TiDB 5.0在這方面也做出了榜樣,基于云原生架構(gòu)的TiDB 5.0能夠充分發(fā)揮云資源的能力,PingCAP在海外市場推出了TiDB Cloud服務,堅定擁抱云路線。國內(nèi)也有很多客戶在云原生架構(gòu)中采用TiDB構(gòu)建云原生技術(shù)棧。
HTAP將是新藍海
既然HTAP如此火熱,那么它會取代以Oracle為代表的關系型數(shù)據(jù)庫或者傳統(tǒng)數(shù)據(jù)倉庫么?
在筆者看來,HTAP雖然不是一個很新的概念,卻是一個新的藍海市場,它代表著數(shù)據(jù)驅(qū)動型場景井噴之后,用戶在數(shù)據(jù)處理、消費整個需求的迭代升級,HTAP的興起意味著一個新的數(shù)據(jù)庫藍海市場正在逐步形成。
因此,單純的談論HTAP點對點的取代關系型數(shù)據(jù)庫或者傳統(tǒng)數(shù)據(jù)倉庫其實并無太大意義,HTAP也不應該成為國產(chǎn)化替代的一個“借口”,它更像一條新的數(shù)據(jù)庫賽道,給予了像PingCAP、OceanBase這些后起之秀更多市場機會,讓它們看到了抓住新需求的機遇,以及打破數(shù)據(jù)庫市場壟斷局面的希望。
從更大的范圍來看,新一代HTAP,正在成為分布式數(shù)據(jù)庫與大數(shù)據(jù)棧融合的明珠,我們甚至可以預見,未來的HTAP不再是數(shù)據(jù)庫的一個技術(shù)術(shù)語,而是成為一種以融合簡化方式構(gòu)建數(shù)據(jù)棧的一種方式。
總體來看,HTAP現(xiàn)在很火,市場既有像PingCAP這樣具有前瞻性的新銳數(shù)據(jù)庫創(chuàng)新企業(yè),也有OceanBase這種自帶光環(huán)的明星數(shù)據(jù)庫公司,還有Oracle這樣的大鱷,未來競爭必然會愈發(fā)激烈。對于中國數(shù)據(jù)庫廠商而言,路很長、未來很遠,砥礪前行,且行且珍惜。
免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美國無人機禁令升級?當?shù)乜茖W家率先“喊疼”:我們離不開大疆
- iQOO Neo10 Pro:性能特長之外,亦有全能實力
- 自動駕駛第一股的轉(zhuǎn)型迷途:圖森未來賭上了AIGC
- 明星熱劇、品牌種草、平臺資源,京東讓芬騰雙11的熱度“沸騰”了
- 一加 Ace 5 Pro明牌:游戲手機看它就夠了!
- 游戲體驗天花板,一加 Ace 5 系列售價 2299 元起
- 16個月沒工資不敢離職,這些打工人“自費上班”
- 怎樣利用微信小店“送禮”功能賺錢?
- 鴻蒙智行問界M9,中國豪華車的龍門一躍
- 科技云報道:人工智能時代“三大件”:生成式AI、數(shù)據(jù)、云服務
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。