123,123

隨著5G、AI、IoT等技術(shù)越來越普及，企業(yè)數(shù)據(jù)量增大，新的數(shù)據(jù)業(yè)務(wù)層出不窮，企業(yè)對數(shù)據(jù)分析的靈活性、性能、成本要求越來越高，基于傳統(tǒng)大數(shù)據(jù)Hadoop系統(tǒng)搭建的數(shù)據(jù)分析平臺已無法滿足企業(yè)多方面的要求。

近年來隨著云計(jì)算技術(shù)發(fā)展，越來越多企業(yè)選擇了以數(shù)據(jù)湖為中心構(gòu)建大數(shù)據(jù)處理平臺，數(shù)據(jù)湖最明顯的特征就是存儲和計(jì)算分離，一方面可以使成本下降;另一方面，可以獲得更好的系統(tǒng)可擴(kuò)展性。

采用數(shù)據(jù)湖架構(gòu)，隨著企業(yè)業(yè)務(wù)增長，可以在一份數(shù)據(jù)上不斷增加新業(yè)務(wù)，而不是像傳統(tǒng)數(shù)據(jù)平臺那樣，每拓展一個(gè)新業(yè)務(wù)就要做一次數(shù)據(jù)拷貝。

每個(gè)硬幣都有兩面，數(shù)據(jù)湖方案除了低成本、易擴(kuò)展的優(yōu)點(diǎn)外，同時(shí)也有一些缺點(diǎn)：

1、無事務(wù)能力，數(shù)據(jù)入庫難！

傳統(tǒng)數(shù)據(jù)湖依賴云存儲，但云存儲一般都沒有ACID(Atomicity， Consistency， Isolation， Durability)事務(wù)能力，導(dǎo)致在此之上構(gòu)建的Hive表格、Spark表格等不支持基于事務(wù)的數(shù)據(jù)入庫，更不用說數(shù)據(jù)更新了。

這個(gè)弊端極大制約了數(shù)據(jù)湖的使用場景，企業(yè)無法將不斷變化的數(shù)據(jù)快速注入到數(shù)據(jù)湖內(nèi)。常常需要在業(yè)務(wù)層做大量預(yù)處理后，才能進(jìn)入數(shù)據(jù)湖做分析，處理時(shí)延往往在一天以上。

2、分析性能依賴于暴力掃描，即費(fèi)資源又太慢！

傳統(tǒng)數(shù)據(jù)湖存儲依賴云存儲，極大降低成本，但做數(shù)據(jù)分析時(shí)屬于暴力掃描方式，完全依靠云存儲自身的吞吐能力，這種方式只適用于ETL、批量計(jì)算等對時(shí)延不敏感的應(yīng)用，無法支撐如秒級數(shù)據(jù)檢索、時(shí)序數(shù)據(jù)分析等低時(shí)延分析場景。

+ CarbonData，讓華為云智能數(shù)據(jù)湖真正成為企業(yè)數(shù)據(jù)架構(gòu)的底座

為了解決這些問題，華為云基于云存儲+CarbonData構(gòu)建的新一代數(shù)據(jù)湖，實(shí)現(xiàn)了 “實(shí)時(shí)數(shù)據(jù)接入”、“DB數(shù)據(jù)同步”、“高性能查詢和分析”等能力，填補(bǔ)了業(yè)界能力空白，使云化數(shù)據(jù)湖可以真正成為企業(yè)數(shù)據(jù)架構(gòu)的底座。

+CarbonData，華為云智能數(shù)據(jù)湖讓數(shù)據(jù)處理飛起來！

基于CarbonData的華為云數(shù)據(jù)湖方案如上圖描述，Kafka完成數(shù)據(jù)收集，由Flink、Spark Streaming等流計(jì)算引擎完成數(shù)據(jù)清洗、預(yù)處理等業(yè)務(wù)邏輯，將處理后的數(shù)據(jù)注入到CarbonData表格中;

繼而，用戶可使用Spark、Hive、Presto等大數(shù)據(jù)引擎對CarbonData表格進(jìn)行交互分析、詳單查詢和ETL等業(yè)務(wù);也可以使用TensorFlow、PyTorch等AI引擎進(jìn)行AI模型訓(xùn)練、推理等。

下面進(jìn)一步闡述，加持CarbonData后，華為云智能數(shù)據(jù)湖的三大特點(diǎn)：

1、實(shí)時(shí)數(shù)據(jù)入庫

CarbonData增加了對 Flink 的支持，50行代碼輕松實(shí)現(xiàn)對接 Flink 以CarbonData的格式實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)入庫。同時(shí)，CarbonData支持ACID事務(wù)能力，確保入庫操作的原子性和一致性。這使得CarbonData成為唯一一款兼具速度、靈活性和支持 ACID 事務(wù)特性的全場景數(shù)據(jù)湖。

2、DB數(shù)據(jù)同步

CarbonData支持Delta增量同步，相比Hive使用的數(shù)據(jù)重寫策略，數(shù)據(jù)同步性能提升10倍?；贑arbonData的數(shù)據(jù)快速同步能力，企業(yè)可以輕松實(shí)現(xiàn)關(guān)系型數(shù)據(jù)庫到數(shù)據(jù)湖的數(shù)據(jù)實(shí)時(shí)同步，縮短數(shù)據(jù)入湖可見周期，將數(shù)據(jù)可見時(shí)間從T+1優(yōu)化為T+0，消除數(shù)據(jù)入湖壁壘。

3、高性能查詢和分析

CarbonData支持對云存儲的數(shù)據(jù)構(gòu)建索引和物化視圖，實(shí)現(xiàn)10倍以上的查詢性能提升。根據(jù)業(yè)務(wù)需求，用戶可選擇多種索引和物化視圖加速能力，包括主索引、二級索引、時(shí)空索引、多值列索引、時(shí)間序列Rollup、多表Join預(yù)聚合等。

CarbonData在構(gòu)建這些索引的時(shí)候，同樣遵循ACID事務(wù)性，確保索引構(gòu)建過程中不會(huì)對業(yè)務(wù)查詢造成影響。并可以利用云計(jì)算的按需擴(kuò)展能力，加速索引和物化視圖的構(gòu)建性能。

基于CarbonData最新版本的異步索引構(gòu)建能力，在數(shù)據(jù)入庫實(shí)時(shí)性要求較高的業(yè)務(wù)場景，用戶可通過“先入庫再建索引”的方式，平衡數(shù)據(jù)入庫延遲和查詢性能。實(shí)現(xiàn)數(shù)據(jù)入庫后即可被查詢，并使用周期任務(wù)或等到業(yè)務(wù)閑時(shí)再對數(shù)據(jù)建立索引，大幅提升查詢性能。

典型場景分析

某互聯(lián)網(wǎng)行業(yè)用戶使用CarbonData構(gòu)建全場景數(shù)據(jù)湖，借助“DB數(shù)據(jù)同步”、“實(shí)時(shí)數(shù)據(jù)入庫”和“高性能查詢和分析”功能輕松構(gòu)建PB級別、甚至EB級別大數(shù)據(jù)處理平臺。

對于一個(gè)日活千萬級別的APP應(yīng)用來說，平均每天約產(chǎn)生500億條用戶行為數(shù)據(jù)，一年的數(shù)據(jù)存儲量約10PB。在使用CarbonData之前，該用戶曾做過如下性能和成本分析：

1、傳統(tǒng)Nosql數(shù)據(jù)庫雖然具有較好的數(shù)據(jù)索引機(jī)制，但是“太貴”：

因?yàn)橐樵兛欤脩敉ǔ?huì)首先考慮HBase， ElasticSearch等自帶索引的NoSQL數(shù)據(jù)庫。

以HBase為例，每PB存儲的云硬盤成本為70萬/月;單臺RegionServer可維護(hù)不超過10TB的數(shù)據(jù)，每PB的數(shù)據(jù)存儲需100臺計(jì)算節(jié)點(diǎn)來部署RegionServer，每臺計(jì)算節(jié)點(diǎn)500元/月，部署的硬件成本為500*100=5萬/月，每PB總成本=75萬/月。

2、基于云存儲+文件雖然具有較好的成本優(yōu)勢，但是“太慢”：

使用Parquet， ORC等列存，可以將數(shù)據(jù)存儲在對象存儲中，成本大大降低，每PB存儲的對象存儲成本約為8萬/月;100臺計(jì)算節(jié)點(diǎn)假設(shè)每天開機(jī)8小時(shí)，計(jì)算成本5/3=1.67萬/月，每PB總成本約9.67萬/月，成本大幅下降。

但是由于無索引，只能通過暴力掃描的方式進(jìn)行查詢和計(jì)算，在暴力計(jì)算時(shí)系統(tǒng)往往受限于對象存儲帶寬，假設(shè)對象存儲帶寬為20GB/s，對10PB全量數(shù)據(jù)查詢一次通常需要4~5個(gè)小時(shí)(視業(yè)務(wù)查詢條件而定)。

3、云存儲+CarbonData，實(shí)現(xiàn)“又快又便宜”的任性：

CarbonData兼具NoSQL的索引性能優(yōu)勢，和Parquet、ORC等文件存儲的成本優(yōu)勢，又快又便宜：

1)利用CarbonData的索引、物化視圖、緩存等查詢優(yōu)化技術(shù)，查詢時(shí)間從4個(gè)小時(shí)下降到30秒內(nèi)，查詢性能提升480倍;

2)支持ACID事務(wù)和DB數(shù)據(jù)同步能力，縮短數(shù)據(jù)入湖可見周期從T+1到T+0;

3)基于存算分離架構(gòu)，使用云存儲+100計(jì)算節(jié)點(diǎn)按需啟停，每PB總成本約9.67萬/月，成本降低近10倍。

展望

Apache CarbonData是一個(gè)高性能EB級別原生Hadoop分析型數(shù)據(jù)倉庫，提供面向?qū)ο蟠鎯ι螮B級數(shù)據(jù)的高性能明細(xì)查詢能力、交互式查詢能力，提供流數(shù)據(jù)接入、DB數(shù)據(jù)實(shí)時(shí)同步和更新能力，提供對主要ETL業(yè)務(wù)的支持和加速，以及機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等AI引擎的對接和優(yōu)化，生態(tài)發(fā)展越來越完善。

+CarbonData，華為云智能數(shù)據(jù)湖讓數(shù)據(jù)處理飛起來！

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

+CarbonData，華為云智能數(shù)據(jù)湖讓數(shù)據(jù)處理飛起來！

+CarbonData，華為云智能數(shù)據(jù)湖讓數(shù)據(jù)處理飛起來！