5月26日,信服云大數(shù)據(jù)研發(fā)技術專家Kevin 在信服云《Tech Talk · 云技術有話聊》系列直播課上分享了《基于多場景計算分析的融合數(shù)倉基礎架構》,詳細介紹了信服云數(shù)倉Dipper如何在復雜場景下提升查詢效率,信服云數(shù)倉Dipper在明細查詢、聚合查詢等多種查詢場景下的加速技術,以及信服云數(shù)倉Dipper在多種業(yè)務場景下的開發(fā)經驗。以下是他分享的內容摘要,想要了解更多可以關注“深信服科技”公眾號觀看直播回放。
一、數(shù)據(jù)倉庫當前面臨的挑戰(zhàn)
數(shù)據(jù)倉庫是用來存放各個業(yè)務系統(tǒng)數(shù)據(jù)的地方,包括網站的訪問日志、業(yè)務數(shù)據(jù)等。基于收集上來的散亂的海量的數(shù)據(jù),以數(shù)據(jù)集成的方式進入到了數(shù)據(jù)倉庫的系統(tǒng),再進行數(shù)據(jù)清洗、數(shù)據(jù)匯聚、數(shù)據(jù)加工等步驟,進而用于進行大數(shù)據(jù)分析操作。這些操作都是在數(shù)據(jù)倉庫里面來完成,最后形成集成數(shù)據(jù)集合,用于支撐各個部門的決策過程。
數(shù)據(jù)倉庫是企業(yè)數(shù)字化轉型里面不可或缺的一部分,這體現(xiàn)在商業(yè)智能數(shù)據(jù)挖掘、數(shù)據(jù)儀表盤和數(shù)據(jù)探索這些方面。無論是企業(yè)的數(shù)據(jù)分析師,還是企業(yè)的經營決策者,都需要用它來發(fā)現(xiàn)商業(yè)中可能忽略的問題,實現(xiàn)決策的科學制定。
當前數(shù)據(jù)倉庫的一些需求,其實基本上處理的數(shù)據(jù)是 PB 級的數(shù)據(jù),不僅要負責 PB 級的數(shù)據(jù)的存儲,還要負責 PB 級數(shù)據(jù)的計算。因為這里計算資源和存儲資源比較多,如何通過性價比更高方式來保證數(shù)據(jù)的存儲,保證數(shù)據(jù)的計算能夠是高效的,也是很多企業(yè)關心的問題。
要支持這種高性能的這樣的查詢,對于用戶來講,數(shù)據(jù)倉庫對外的輸出的窗口提供這樣的功能。所以在高并發(fā)聚合分析、億級別的并發(fā)秒級檢索、高性能的 AD hoc查詢這三方面都要給用戶提供一種高性能的體驗。
二、數(shù)據(jù)倉庫難點與解決方案
總結起來,用戶的痛點分為三方面:多系統(tǒng)帶來的運維復雜;查詢性能不足;人工建倉成本高。
針對多系統(tǒng)部署、成本高的痛點,信服云提供了一套的一體化智能運維系統(tǒng)。在這個系統(tǒng)里有很多的組件,例如分布式計算引擎,統(tǒng)一的元數(shù)據(jù)管理引擎,這些引擎在系統(tǒng)中是統(tǒng)一部署的。
根據(jù)機器的實際的情況進行參數(shù)的調優(yōu)和配置,實現(xiàn)一鍵安裝。運行過程中出現(xiàn)了問題,也可以及時地發(fā)出告警,提醒人員說當前系統(tǒng)可能存在問題。
在這里面,如果是說每套系統(tǒng)發(fā)生掛掉的情況,通過高可用機制也能夠盡快恢復線上業(yè)務的生產,來降低因為系統(tǒng)故障導致的業(yè)務中斷。
業(yè)務系統(tǒng)運行在這樣的數(shù)據(jù)倉庫上,就能夠保證用戶的系統(tǒng)是高可用的,實現(xiàn)智能運維,來降低運維的成本。
針對性能不足的問題,信服云提供了一套化繁為簡的Dipper數(shù)據(jù)分析引擎,分成統(tǒng)一接口層和融合引擎層。可以將用戶的查詢分類,在系統(tǒng)中分別針對各類查詢進行優(yōu)化,以獲得更優(yōu)的查詢性能。
當查詢涉及到大批量數(shù)據(jù)計算或者大批量數(shù)據(jù)分析時,可以提供Hive 或者是 Spark 這樣的分析引擎,限制內存和計算資源的使用情況,保證計算過程的穩(wěn)定執(zhí)行。
當涉及聚合查詢或者明細查詢時,提供提供索引機制,在減小計算數(shù)據(jù)量的情況下,采用類似于Presto這種引擎,實現(xiàn)低延遲快速的計算。
如果秒級甚至說毫幾百毫秒依舊不能滿足需求,信服云會給用戶開一個高速緩存,并采用內存計算引擎,為用戶提供更高并發(fā)、更低延遲的查詢體驗。
融合數(shù)倉的背后有三種關鍵技術。第一,提供一套 ANSI SQL 接口,無需對接多種分析引擎。盡管下面用到了三個不同的組件,但是對于用戶來講,只要寫一套 ANSI SQL 的語法,就能夠獲得特定的轉換,無需用戶考慮組件的切換。
第二,提供一套智能路由引擎,對于用戶來說,需要人工區(qū)分查詢的類型,增加了工作量。而信服云提供這套智能路由,它可以通過這種 SQL 語的分析來判斷是大批量數(shù)據(jù)的查詢、還是高性能的檢索,這個時候可以自動地選擇合適的引擎,來達到更優(yōu)的性能情況。
第三,所有的索引不需要用戶來指明說要構建什么索引,在這過程中可以通過 SQL 語句的分析來自適應地為用戶建立各種各樣的索引。
三、數(shù)據(jù)倉庫技術實踐成果
以電子制造業(yè)場景為例,使用了信服云的數(shù)據(jù)倉庫,1萬塊圓晶芯片能夠達到秒級響應,相較于原來的幾十分鐘的分析速度,提升了用戶的檢驗效率。
在醫(yī)療場景下,對于同一套數(shù)據(jù)存儲的明細查詢性能,清理緩存之前,可以達到并發(fā)500,即使是清理緩存以后,也能達到 200 的并發(fā),超過用戶給百級并發(fā)秒級響應的預期。
以IT部門構建的數(shù)據(jù)中臺TiDB 查詢引擎場景為例,采用信服云數(shù)據(jù)倉庫后,可以實現(xiàn)大部分的語句的智能聚合索引,從而完成這種自動化建模,這對他們而言起到了加速效果,獲得了良好的查詢體驗。
還有能源、水務、教育、日志分析等場景,信服云的數(shù)倉架構都提供了很好的查詢體驗,高性能的數(shù)倉組件大幅度降低了查詢的時延,能夠在千萬級事實數(shù)據(jù)下達到秒級響應的效果。
以上就是本次直播的主要內容。對于技術內容感興趣的IT朋友可以關注“深信服科技”公眾號回顧本期直播,了解更多技術內容。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )