火山引擎正式發(fā)布企業(yè)版ClickHouse——ByteHouse

ClickHouse 的發(fā)展

近十年以來,交互式分析領(lǐng)域百花齊放,大量解決方案隨著大數(shù)據(jù)技術(shù)升級而涌現(xiàn),但尚未有產(chǎn)品達(dá)到類似 Oracle 和 MySQL 一樣在 OLTP(Online Transaction Processing)領(lǐng)域中領(lǐng)先的地位。其中,ClickHouse 作為一款 PB 量級的交互式分析數(shù)據(jù)庫,最早是由號稱“俄羅斯 Google ”的 Yandex 公司開發(fā),并很快作為世界第二大網(wǎng)絡(luò)引擎的流量分析平臺 Yandex.Metrica(同類產(chǎn)品包括 Google Analytics、友盟統(tǒng)計(jì))的核心查詢引擎。

綜合來說,ClickHouse 作為交互式分析數(shù)據(jù)庫,有幾大明顯優(yōu)勢:

多:大規(guī)模并行計(jì)算框架,超高吞吐的實(shí)時寫入能力;

快:極致的查詢性能,尤其是在大寬表為主體的數(shù)據(jù)模型中;

好:無侵入式架構(gòu),輕松集成到現(xiàn)有系統(tǒng),可復(fù)用上下游數(shù)據(jù)開發(fā)工具;

?。撼浞掷糜布Y源,以極低的成本分析海量數(shù)據(jù);

火山引擎正式發(fā)布企業(yè)版ClickHouse——ByteHouse  ClickHouse 的發(fā)展

DB-Engine 上 ClickHouse 的排名趨勢圖

自 2016 年開源以來,ClickHouse 憑借其數(shù)倍于其他頂尖交互式分析數(shù)據(jù)庫的極致性能,成為該領(lǐng)域的后起之秀,發(fā)展速度非常迅猛。截止 2021 年 8 月份,ClickHouse 已在 Github 上獲得 18.2K Star,DB-Engines 排名近一年上升 16 位,并在國內(nèi)獲得字節(jié)跳動、快手、京東等互聯(lián)網(wǎng)企業(yè)的生產(chǎn)級使用。

ClickHouse與字節(jié)跳動的故事

近年來,字節(jié)跳動旗下抖音、今日頭條等產(chǎn)品的成長速度之快引人注目。事實(shí)上,承載著這些產(chǎn)品持續(xù)高速增長的關(guān)鍵所在,是背后的中臺化技術(shù)底座。無論是在算法、AI 還是數(shù)據(jù)分析等核心技術(shù)上,字節(jié)跳動在相關(guān)領(lǐng)域中一直保持著領(lǐng)先水平。

火山引擎正式發(fā)布企業(yè)版ClickHouse——ByteHouse  ClickHouse 的發(fā)展

字節(jié)跳動:中臺化的技術(shù)底座

其中字節(jié)跳動對 ClickHouse 的選型和使用也是如此,從 2017 年最早的用戶行為分析場景開始,逐漸開始支持廣告業(yè)務(wù)、用戶增長、A/B測試、算法模型優(yōu)化等大量內(nèi)部場景,并演化成國內(nèi)最大規(guī)模的ClickHouse使用者。

目前字節(jié)內(nèi)部的 ClickHouse 節(jié)點(diǎn)總數(shù)超過1萬5千個,管理總數(shù)據(jù)量超過600PB,最大的集群規(guī)模在 2400 余個節(jié)點(diǎn)。字節(jié)跳動內(nèi)部廣泛的業(yè)務(wù)增長分析很多都建立在ClickHouse為基礎(chǔ)的查詢引擎上。

在從 0 到 15000 節(jié)點(diǎn)的過程中,字節(jié)跳動的技術(shù)團(tuán)隊(duì)也遇到了很多開源 ClickHouse 的運(yùn)維痛點(diǎn)和技術(shù)挑戰(zhàn)。如多表關(guān)聯(lián)查詢、復(fù)雜嵌套子查詢等復(fù)雜場景下,仍有性能不足、無法支持?jǐn)?shù)據(jù)按條更新、實(shí)時數(shù)據(jù)寫入的性能有限、集群擴(kuò)展難度較高、運(yùn)維復(fù)雜度高等問題。

對此,隨著業(yè)務(wù)場景持續(xù)增多,字節(jié) ClickHouse 技術(shù)團(tuán)隊(duì)通過自研的方式極大地豐富了 ClickHouse 可使用的場景,提高運(yùn)維的人效,不僅解決了開源技術(shù)上手難和試錯成本高的痛點(diǎn),同時已經(jīng)有足夠能力來提供商業(yè)產(chǎn)品和企業(yè)級技術(shù)支持服務(wù)。

火山引擎正式發(fā)布ByteHouse

過去,與開源社區(qū)用戶的交流中,經(jīng)常聽到的反饋是 ClickHouse “上手容易,用好很難”,或由于沒有經(jīng)驗(yàn)而“想用不敢用”,這對于性能如此出眾的存儲引擎來說,不免遺憾。

現(xiàn)在,字節(jié)跳動旗下企業(yè)級技術(shù)服務(wù)平臺火山引擎正式對外發(fā)布「ByteHouse」,為大家提供企業(yè)級技術(shù)支持服務(wù)。作為 ClickHouse企業(yè)版,ByteHouse經(jīng)過了字節(jié)跳動內(nèi)部海量數(shù)據(jù)場景的打磨和極限的業(yè)務(wù)要求,更加符合企業(yè)高速增長訴求,其主要亮點(diǎn)如下:

分布式查詢增強(qiáng):支持星型模型等復(fù)雜的多表關(guān)聯(lián)場景,進(jìn)一步去除數(shù)據(jù)冗余和數(shù)據(jù)準(zhǔn)備成本;

支持Upsert 語義:既保留了ClickHouse高效的數(shù)據(jù)寫入性能、又支持 Upsert(update or insert) 寫入方式,幫助業(yè)務(wù)更簡單地開發(fā)實(shí)時分析應(yīng)用;

實(shí)時數(shù)據(jù)引擎:支持實(shí)時數(shù)據(jù)高效寫入,支持 exactly once 語義,寫入性能遠(yuǎn)超原生架構(gòu);

數(shù)據(jù)分級存儲:冷熱數(shù)據(jù)分級存儲在HDFS和本地存儲,自動化管理數(shù)據(jù)熱度,自動轉(zhuǎn)存不同存儲,有效緩解業(yè)務(wù)存儲空間持續(xù)增長的問題;

企業(yè)級運(yùn)維工具:自助運(yùn)維能力,包括配置下發(fā)、指標(biāo)告警、集群健康度監(jiān)控、查詢?nèi)蝿?wù)診斷、集群負(fù)載管理等功能,極大提高了運(yùn)維人效。

作為國內(nèi) ClickHouse 技術(shù)的多年深度實(shí)踐者,ByteHouse 現(xiàn)基于自研技術(shù)能力和超大規(guī)模使用經(jīng)驗(yàn),為更多的企業(yè)大數(shù)據(jù)團(tuán)隊(duì)帶來新的選擇和支持,以應(yīng)對復(fù)雜多變的業(yè)務(wù)需求,高速增長的數(shù)據(jù)場景。未來,ByteHouse 將不斷以字節(jié)跳動和外部最佳實(shí)踐輸出給行業(yè)用戶,幫助企業(yè)更好地構(gòu)建交互式大數(shù)據(jù)分析平臺,并更廣泛的與 ClickHouse 研發(fā)者社群共享經(jīng)驗(yàn),共同推動 ClickHouse 社區(qū)的發(fā)展。

ByteHouse中文產(chǎn)品官網(wǎng):https://bytehouse.cn/product/enterprise-clickhouse

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )