StarRocks上新,“One Data、All Analytics”還有多遠(yuǎn)?

K.K在《未來(lái)十二大趨勢(shì)》中認(rèn)為,我們正處于一個(gè)數(shù)據(jù)流動(dòng)的時(shí)代。商業(yè)乃數(shù)據(jù)之商業(yè)。歸根結(jié)底,你在處理的都是數(shù)據(jù)。

的確,當(dāng)數(shù)據(jù)成為新的核心生產(chǎn)要素之際,數(shù)據(jù)分析就猶如最重要的生產(chǎn)工具之一,決定著企業(yè)在數(shù)字化時(shí)代生產(chǎn)力水平。近年來(lái),無(wú)論國(guó)外的Snowflake、Databricks,還是國(guó)內(nèi)StarRocks、PingCAP,大批數(shù)據(jù)分析型公司涌現(xiàn),都旨在滿足越來(lái)越多的數(shù)據(jù)分析需求,幫助各種企業(yè)充分釋放數(shù)據(jù)生產(chǎn)力。

這其中,StarRocks就是數(shù)據(jù)分析領(lǐng)域一顆冉冉升起的新星。在短短幾年時(shí)間里,StarRocks在Github獲得star 6300+,成為同類開(kāi)源數(shù)據(jù)庫(kù)項(xiàng)目里增長(zhǎng)最快的,并且在2022年底正式捐贈(zèng)給 Linux Foundation,吸引到全球開(kāi)發(fā)者和用戶參與未來(lái)社區(qū)的建設(shè)。

正如StarRocks TSC Member、鏡舟科技 CTO 張友東所言,StarRocks希望通過(guò)技術(shù)創(chuàng)新來(lái)簡(jiǎn)化數(shù)據(jù)技術(shù)棧,通過(guò)一個(gè)引擎實(shí)現(xiàn)全場(chǎng)景的“One Data、All Analytics”愿景。

為何需要“One Data,All Analytics”

當(dāng)前,人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)等數(shù)字化技術(shù)在不斷提升企業(yè)生產(chǎn)力的同時(shí),隨之而來(lái)就是復(fù)雜性的持續(xù)提升。這種復(fù)雜性在數(shù)據(jù)領(lǐng)域體現(xiàn)的尤為明顯,尤其是數(shù)據(jù)技術(shù)與業(yè)務(wù)場(chǎng)景的不斷融合,復(fù)雜性困擾著諸多身處數(shù)字化轉(zhuǎn)型的企業(yè)。

復(fù)雜性首先體現(xiàn)在數(shù)據(jù)本身,數(shù)據(jù)正加速走向海量化和多樣化。過(guò)去,一家企業(yè)往往以結(jié)構(gòu)化數(shù)據(jù)為主,數(shù)據(jù)規(guī)模通常是TB級(jí)別;現(xiàn)在,文本數(shù)據(jù)、軌跡數(shù)據(jù)、日志數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)大幅增加,PB級(jí)數(shù)據(jù)量正成為越來(lái)越多企業(yè)的常態(tài)。

其次,企業(yè)如今的業(yè)務(wù)場(chǎng)景日趨復(fù)雜,隨之而來(lái)的就是數(shù)據(jù)棧相關(guān)技術(shù)、工具、產(chǎn)品大量增加。從過(guò)去單一的數(shù)據(jù)倉(cāng)庫(kù),到現(xiàn)在指標(biāo)平臺(tái)、交互式分析、實(shí)時(shí)分析、流計(jì)算等等,企業(yè)面臨的數(shù)據(jù)棧環(huán)境復(fù)雜程度遠(yuǎn)勝以往,并且隨著AI相關(guān)技術(shù)融入,這種復(fù)雜性還在持續(xù)增加。

第三,數(shù)據(jù)消費(fèi)需求的復(fù)雜性大幅提升。過(guò)去,數(shù)據(jù)消費(fèi)僅僅是管理層少數(shù)人的“權(quán)力”;現(xiàn)在,“人人用數(shù)”已經(jīng)成為眾多企業(yè)追求的目標(biāo)。例如,有些走在前沿的互聯(lián)網(wǎng)、金融等企業(yè),甚至一名普通業(yè)務(wù)員工都是數(shù)據(jù)消費(fèi)者,并且在日常業(yè)務(wù)中隨時(shí)會(huì)進(jìn)行數(shù)據(jù)分析。

因此,在海量數(shù)據(jù)環(huán)境成為既定事實(shí)的情況下,企業(yè)在數(shù)據(jù)領(lǐng)域所面臨的復(fù)雜性挑戰(zhàn)將是數(shù)字化轉(zhuǎn)型中一道必須面臨的難題。在張友東看來(lái),“One Data,All Analytics”是化解數(shù)據(jù)分析復(fù)雜性的關(guān)鍵,而StarRocks3.0版本的推出,為實(shí)現(xiàn)“One Data,All Analytics”目標(biāo)前進(jìn)了一大步。

StarRocks 3.0,產(chǎn)品大進(jìn)階

眾所周知,數(shù)據(jù)分析類產(chǎn)品擁有多年歷史。在大數(shù)據(jù)興起之前,Teradata、Greenplum等傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)一直占據(jù)著主流市場(chǎng)位置;隨著大數(shù)據(jù)興起,以Hadoop 為代表的大數(shù)據(jù)平臺(tái)迅速成為數(shù)據(jù)分析的基礎(chǔ)平臺(tái);如今,云原生、湖倉(cāng)一體等技術(shù)的興起,加速推動(dòng)著數(shù)據(jù)分析產(chǎn)品的創(chuàng)新。

當(dāng)前,數(shù)據(jù)分析類相關(guān)的公司眾多。不過(guò),StarRocks用出色表現(xiàn)吸引了業(yè)界的大量關(guān)注。自從2021年9月份正式開(kāi)源以來(lái),StarRocks已成長(zhǎng)為開(kāi)源領(lǐng)域的明星項(xiàng)目,獲得了全球開(kāi)發(fā)者的認(rèn)可。在筆者看來(lái),StarRocks之所以在短時(shí)間即獲得階段性的成功,關(guān)鍵在于產(chǎn)品的迭代速度和創(chuàng)新能力。

從開(kāi)源至今,StarRocks已經(jīng)歷了三個(gè)大版本的迭代,從1.0版本主打性能,到2.0版本圍繞融合統(tǒng)一,再到現(xiàn)在3.0版本圍繞湖倉(cāng)一體的創(chuàng)新,StarRocks成為當(dāng)下數(shù)據(jù)分析領(lǐng)域現(xiàn)象級(jí)的產(chǎn)品。

以數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)為例,存算分離是大勢(shì)所趨。隨著云原生等技術(shù)的高速發(fā)展,通過(guò)存算分離架構(gòu),計(jì)算、存儲(chǔ)等資源可以更好地彈性化,以應(yīng)對(duì)業(yè)務(wù)對(duì)于資源的使用,從而實(shí)現(xiàn)成本、效率的最優(yōu)化。StarRocks 3.0同樣采用了存算分離架構(gòu),架構(gòu)設(shè)計(jì)高度抽象且極簡(jiǎn),無(wú)需依賴復(fù)雜組件,具有極強(qiáng)的擴(kuò)展性和彈性;并且支持Multi-Warehouse,多個(gè)Warehouse共享一份數(shù)據(jù),不同 Warehouse 應(yīng)用在不同工作負(fù)載,計(jì)算資源可以進(jìn)行物理隔離,內(nèi)部按需獨(dú)立彈性伸縮。

“存算分離架構(gòu)真正帶來(lái)兩大價(jià)值:降本增效和彈性伸縮。像在存儲(chǔ)層面,采用存算分離架構(gòu)后的StarRocks 3.0整體存儲(chǔ)成本可以下降80%,而計(jì)算節(jié)點(diǎn)則因?yàn)闊o(wú)狀態(tài),可以通過(guò)快速?gòu)椥?、跨可用區(qū)部署等方式來(lái)提高計(jì)算的可用性,并且計(jì)算資源能夠進(jìn)行物理隔離,按需獨(dú)立彈性伸縮?!睆堄褨|介紹道。

另外,湖倉(cāng)走向一體化也是數(shù)據(jù)分析產(chǎn)品的一大重要趨勢(shì)。通常,企業(yè)在經(jīng)歷了多年的數(shù)字化轉(zhuǎn)型之后,都會(huì)存在著數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖兩種數(shù)據(jù)分析技術(shù)棧,它們各具特點(diǎn)與優(yōu)勢(shì),數(shù)據(jù)倉(cāng)庫(kù)往往具備數(shù)據(jù)質(zhì)量高、性能出色、實(shí)時(shí)分析強(qiáng)等優(yōu)勢(shì),而數(shù)據(jù)湖則可以存儲(chǔ)各種不同類型的數(shù)據(jù),擴(kuò)展性和開(kāi)放性強(qiáng)。因此,融合數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)湖的各自優(yōu)勢(shì)就成為業(yè)界努力的方向。

當(dāng)前,業(yè)界并不缺少湖倉(cāng)相關(guān)的解決方案。比如在湖上性能不滿足,采用湖上建倉(cāng)的方案加速查詢;再如數(shù)據(jù)倉(cāng)庫(kù)擴(kuò)展查詢外部數(shù)據(jù)湖能力等。

張友東直言,這些方案更像是一種組合式方案,并沒(méi)有真正做到湖倉(cāng)一體,“湖倉(cāng)一體意味著一套架構(gòu)滿足所有數(shù)據(jù)分析的需求,也即One Data,All Analytics?!?/p>

以StarRocks 3.0的湖倉(cāng)一體化架構(gòu)為例,實(shí)現(xiàn)了數(shù)據(jù)統(tǒng)一存儲(chǔ)管理,一份數(shù)據(jù)作為 Single source of truth;另外,強(qiáng)大的分析引擎可以基于一份數(shù)據(jù),滿足包括BI 報(bào)表、交互式分析、實(shí)時(shí)分析、ETL 數(shù)據(jù)加工等場(chǎng)景的查詢?cè)V求;更加關(guān)鍵的是,具備按需數(shù)據(jù)加工/查詢加速的能力。

“未來(lái)數(shù)據(jù)分析演進(jìn)的趨勢(shì)肯定是湖倉(cāng)一體,用戶無(wú)需關(guān)注建湖還是建倉(cāng),核心目標(biāo)是低成本、高效的解決數(shù)據(jù)分析問(wèn)題。”張友東補(bǔ)充道。

此外,隨著數(shù)據(jù)量和業(yè)務(wù)復(fù)雜性的大幅提升,使得ETL成為一件極為辛苦的工作,通常需要耗費(fèi)大量人力、精力在ETL相關(guān)工作上。對(duì)此,StarRocks 3.0也在瞄準(zhǔn)No ETL的方向,在整個(gè)數(shù)據(jù)管理中減少ETL的工作量,并且通過(guò)物化視圖讓用戶盡量不感知ETL,從全鏈路層面致力于簡(jiǎn)化ETL的pipeline。

毫無(wú)疑問(wèn),StarRocks 3.0版本的推出是StarRocks項(xiàng)目發(fā)展的一個(gè)關(guān)鍵節(jié)點(diǎn)。這意味著StarRocks 產(chǎn)品力已經(jīng)實(shí)現(xiàn)重要的突破,可以助力用戶實(shí)現(xiàn)全場(chǎng)景的數(shù)據(jù)分析架構(gòu)統(tǒng)一,也為自身帶來(lái)了更加廣闊的市場(chǎng)空間。

多個(gè)頭部客戶青睞,StarRocks未來(lái)值得期待

隨著數(shù)據(jù)驅(qū)動(dòng)型應(yīng)用大量涌現(xiàn),數(shù)據(jù)分析、數(shù)據(jù)消費(fèi)需求也隨之產(chǎn)生。Gartner認(rèn)為,數(shù)據(jù)分析已成為企業(yè)數(shù)字化轉(zhuǎn)型中致力于建設(shè)的核心能力。因此,數(shù)據(jù)分析賽道未來(lái)具有極為光明的前景。

毫無(wú)疑問(wèn),從StarRocks的社區(qū)發(fā)展、用戶群、商業(yè)生態(tài)建設(shè)等情況拉看,StarRocks正處于一個(gè)高速發(fā)展的極端,未來(lái)值得更多的期待。

其一,得益于對(duì)于開(kāi)源理念的堅(jiān)持,StarRocks 開(kāi)源社區(qū)一直處于非?;钴S的狀態(tài),為后續(xù)的發(fā)展帶來(lái)了十足的生命力。目前,社區(qū)開(kāi)發(fā)工作由鏡舟科技主導(dǎo)推進(jìn),并且貢獻(xiàn)了70%以上的核心代碼;此外,阿里云、騰訊、火山引擎、滴滴出行等頭部企業(yè)已經(jīng)積極參與到社區(qū)之中,并且持續(xù)給社區(qū)貢獻(xiàn)了物化視圖、CN 彈性節(jié)點(diǎn)等諸多重要特性。

其二,得益于行業(yè)頭部客戶的積極參與和產(chǎn)品創(chuàng)新力的提升,StarRocks產(chǎn)品在金融、零售、物流、制造和互聯(lián)網(wǎng)等多個(gè)行業(yè)頭部用戶的復(fù)雜業(yè)務(wù)場(chǎng)景中得到錘煉。據(jù)悉,目前有超過(guò) 300家市值10億美金以上的大型用戶在生產(chǎn)環(huán)境使用 StarRocks,場(chǎng)景覆蓋 BI 報(bào)表、交互式探尋分析、實(shí)時(shí)分析、湖倉(cāng)分析等一系列場(chǎng)景,未來(lái)有望在場(chǎng)景應(yīng)用中持續(xù)推動(dòng)產(chǎn)品創(chuàng)新與快速迭代。

其三,StarRocks 重視商業(yè)生態(tài)的建設(shè)。除了頭部行業(yè)用戶使用之外,StarRocks目前與國(guó)內(nèi)各大云服務(wù)商均有合作,致力于借助云計(jì)算這個(gè)大生態(tài)來(lái)推動(dòng)開(kāi)源項(xiàng)目的商業(yè)化,讓產(chǎn)品走向更加廣泛的市場(chǎng)群體,在市場(chǎng)競(jìng)爭(zhēng)中獲得成長(zhǎng)。

“相比于北美等發(fā)達(dá)市場(chǎng),中國(guó)市場(chǎng)的數(shù)據(jù)分析還有巨大的潛力空間,StarRocks希望通過(guò)技術(shù)創(chuàng)新幫助更多用戶實(shí)現(xiàn)One Data,All Analytics?!睆堄褨|最后表示道。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2023-12-05
StarRocks上新,“One Data、All Analytics”還有多遠(yuǎn)?
StarRocks上新,“OneData、AllAnalytics”還有多遠(yuǎn)?

長(zhǎng)按掃碼 閱讀全文