多模數(shù)據(jù)處理破繭成蝶 大數(shù)據(jù)“卡脖子”成為過(guò)去!

在這場(chǎng)出人意料的新冠疫情之下,中國(guó)的大數(shù)據(jù)技術(shù)展現(xiàn)了驚人的威力:

追蹤流動(dòng)人口,極速公布各地疫情報(bào)告,覆蓋所有人群的健康碼大數(shù)據(jù)服務(wù),電商數(shù)據(jù)調(diào)動(dòng)醫(yī)療資源,AI+大數(shù)據(jù)助力醫(yī)藥研發(fā)······

不管是傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),如人員信息、醫(yī)院等醫(yī)療資源信息等,還是復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù),如地理位置數(shù)據(jù)、圖像數(shù)據(jù)、文本數(shù)據(jù)、語(yǔ)音數(shù)據(jù)等,各個(gè)層面的海量數(shù)據(jù)在客觀、透明的基礎(chǔ)上,以不同的技術(shù)進(jìn)行處理、分析,助力全民戰(zhàn)疫。

這些應(yīng)用的背后是中國(guó)大數(shù)據(jù)技術(shù)與應(yīng)用的進(jìn)步,大數(shù)據(jù)基礎(chǔ)軟件自主研發(fā)成果不斷,大數(shù)據(jù)軟件國(guó)產(chǎn)化替代加速,大數(shù)據(jù)上云向用戶提供按需服務(wù),金融、航空航天、新零售等行業(yè)大數(shù)據(jù)應(yīng)用卓有成效。

而在數(shù)字化商業(yè)世界中,新的時(shí)代會(huì)產(chǎn)生新的機(jī)會(huì),新的技術(shù)會(huì)創(chuàng)造更廣闊的空間。

隨著數(shù)據(jù)量和數(shù)據(jù)種類的不斷增多,由單一一個(gè)數(shù)據(jù)平臺(tái)處理一類數(shù)據(jù)的應(yīng)用雖然能力不斷完善,但是還是難以滿足用戶用一個(gè)平臺(tái)處理不同類型數(shù)據(jù)模型的需求。

人們也期望用一個(gè)統(tǒng)一的平臺(tái),處理不同類型的數(shù)據(jù),提高數(shù)據(jù)處理和分析的效率,降低成本。

01

用戶呼喚多模型數(shù)據(jù)處理平臺(tái)

大數(shù)據(jù)平臺(tái)是囊括大數(shù)據(jù)存儲(chǔ)、處理和數(shù)據(jù)應(yīng)用分析的集成化數(shù)據(jù)開(kāi)發(fā)平臺(tái)。建設(shè)這樣一個(gè)大數(shù)據(jù)平臺(tái)必然會(huì)面臨很多問(wèn)題:如何管理一個(gè)單體大集群;多源數(shù)據(jù)如何錄入;當(dāng)數(shù)據(jù)接入之后,如何高效的存儲(chǔ)和查詢這些數(shù)據(jù),如何管理這些數(shù)據(jù),避免形成數(shù)據(jù)沼澤;如何保障數(shù)據(jù)安全,如何將數(shù)據(jù)展現(xiàn)給用戶等。這些基本上就是一個(gè)企業(yè)級(jí)大數(shù)據(jù)平臺(tái)需要具備的能力。

多模數(shù)據(jù)處理破繭成蝶 大數(shù)據(jù)“卡脖子”成為過(guò)去!

IDC公布的2016~2020年生產(chǎn)的數(shù)據(jù)量與增長(zhǎng)率

從2008年誕生起,大數(shù)據(jù)平臺(tái)從落地上看就是一組技術(shù)或者工具的組合,是以海量數(shù)據(jù)存儲(chǔ)、計(jì)算及不間斷流數(shù)據(jù)實(shí)時(shí)計(jì)算等場(chǎng)景為主的基礎(chǔ)設(shè)施。

而開(kāi)源社區(qū)其實(shí)已經(jīng)發(fā)展出了多種組件,可以供市場(chǎng)組合一套大數(shù)據(jù)平臺(tái).但是由于涉及到公司內(nèi)部的業(yè)務(wù)場(chǎng)景以及模式,以及很難有非常全面掌握這些工具的人才,所以這些工具組合可能不完全適用。

多模數(shù)據(jù)處理破繭成蝶 大數(shù)據(jù)“卡脖子”成為過(guò)去!

開(kāi)源的大數(shù)據(jù)平臺(tái)工具

到目前為止,對(duì)于一些單一的典型場(chǎng)景,市場(chǎng)上出現(xiàn)不同的產(chǎn)品,有了知名的解決方案,解決數(shù)據(jù)的多樣性。

例如,結(jié)構(gòu)化數(shù)據(jù)使用Hive,動(dòng)態(tài)列模型使用Bigtable、Hbase,應(yīng)用于數(shù)據(jù)存儲(chǔ)的文檔數(shù)據(jù)庫(kù)MongDB,專注于滿足各類復(fù)雜搜索需求的ElasticSearch,常被應(yīng)用于會(huì)話緩存的高速NoSQL數(shù)據(jù)庫(kù)Redis,圖數(shù)據(jù)庫(kù)Neo4J,以及由實(shí)時(shí)計(jì)算引擎正成為通用大數(shù)據(jù)引擎的Flink等。

但是這些產(chǎn)品都是孤立的,每一個(gè)或者類只能解決一類問(wèn)題。當(dāng)用戶的數(shù)據(jù)有很多類型,就不得不采用不同種類的數(shù)據(jù)庫(kù),并把它混在一起使用。

接受記者采訪的一位不愿署名的專家認(rèn)為,新的數(shù)據(jù)類型,傳統(tǒng)關(guān)系結(jié)構(gòu)數(shù)據(jù)、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),以及新的業(yè)態(tài)(如IOT)、新的數(shù)據(jù)來(lái)源(外部爬蟲(chóng)數(shù)據(jù))、新的數(shù)據(jù)格式(如社交、游戲、地理)等多元化的數(shù)據(jù)出現(xiàn),都對(duì)多模異構(gòu)數(shù)據(jù)處理產(chǎn)生訴求。

接受記者采訪的星環(huán)研發(fā)總監(jiān)呂程認(rèn)為,由于各個(gè)數(shù)據(jù)庫(kù)各自為政,應(yīng)用開(kāi)發(fā)商或客戶不得不自己架設(shè)一層,來(lái)解決數(shù)據(jù)在不同庫(kù)間的導(dǎo)入導(dǎo)出、數(shù)據(jù)在不同庫(kù)中的一致性、綜合集群整體運(yùn)維等一系列問(wèn)題。因此,混合使用的方式操作不便、運(yùn)維復(fù)雜的問(wèn)題會(huì)日益凸顯。

今天,客戶對(duì)這種架構(gòu)越來(lái)越難容忍,希望能用一套大數(shù)據(jù)平臺(tái),解決各種復(fù)雜的數(shù)據(jù)結(jié)構(gòu)問(wèn)題。

星環(huán)科技創(chuàng)始人、CEO孫元浩接受中國(guó)軟件網(wǎng)記者采訪時(shí)認(rèn)為,目前,大數(shù)據(jù)行業(yè)一個(gè)明顯的發(fā)展趨勢(shì)就是推出一個(gè)統(tǒng)一的大數(shù)據(jù)平臺(tái),能夠處理多種數(shù)據(jù)模型,能夠提供統(tǒng)一的編程語(yǔ)言、統(tǒng)一的計(jì)算引擎,使用統(tǒng)一的存儲(chǔ)管理系統(tǒng)、統(tǒng)一的資源調(diào)度系統(tǒng),能夠支持多種不同的數(shù)據(jù)模型。

孫元浩說(shuō):“星環(huán)科技把這個(gè)統(tǒng)一的大數(shù)據(jù)平臺(tái),稱為多模型異構(gòu)的數(shù)據(jù)處理平臺(tái)。”

02

兩條發(fā)展路徑,兩種不同結(jié)果

在大數(shù)據(jù)軟件發(fā)展中,技術(shù)路線發(fā)展演繹精彩紛呈,令人目不暇接。畢竟這是一個(gè)巨大的市場(chǎng)機(jī)會(huì),創(chuàng)造天量的市場(chǎng)機(jī)會(huì),也會(huì)誕生像微軟、谷歌、AWS一樣的行業(yè)巨人。

雖然專家們將大數(shù)據(jù)的技術(shù)路線大體上分為Hadoop路線、Spark路線、自主研發(fā)路線、以及上一代MPP架構(gòu)沿用路線等,但是記者認(rèn)為,在發(fā)展多模型大數(shù)據(jù)平臺(tái)方面,幾本上可以分為兩大技術(shù)路線,一是開(kāi)源路線,另一個(gè)是自主研發(fā)路線。

不管是那種技術(shù)路線,一些數(shù)據(jù)庫(kù)或大數(shù)據(jù)廠商在多模型數(shù)據(jù)處理上都提出自己的“行業(yè)解決方案”,一些則推出自己的“數(shù)據(jù)云平臺(tái)”等。雖然各種描述五花八門,但其解決的核心問(wèn)題和其核心架構(gòu),還是解決異構(gòu)數(shù)據(jù)庫(kù)間的數(shù)據(jù)同步等底層問(wèn)題,使客戶從這些底層問(wèn)題中解放出來(lái),像使用單一數(shù)據(jù)平臺(tái)一樣簡(jiǎn)便易用,從而為客戶創(chuàng)造價(jià)值。

開(kāi)源路線的代表就是Hadoop和Spark。

提起大數(shù)據(jù),依然不能不提Hadoop。因?yàn)镠adoop讓海量的數(shù)據(jù)能分布存儲(chǔ),并能分布的存取與處理。過(guò)去Hadoop幾乎成了大數(shù)據(jù)的代名詞。

專家認(rèn)為,作為大數(shù)據(jù)基礎(chǔ)軟件的一大技術(shù)路線,基于開(kāi)源Hadoop發(fā)展的最大優(yōu)勢(shì)就是可處理的數(shù)據(jù)量龐大且運(yùn)行穩(wěn)定。在節(jié)點(diǎn)資源不增加的情況下,運(yùn)行速度雖然不占優(yōu)勢(shì),但卻十分穩(wěn)定。既是優(yōu)勢(shì)也是劣勢(shì),Hadoop在批處理方面的強(qiáng)大無(wú)法掩蓋其在交互式分析和流處理方面的缺憾。

在大數(shù)據(jù)發(fā)展中,開(kāi)源大數(shù)據(jù)平臺(tái)Hadoop占據(jù)至關(guān)重要的地位。Cloudera、Hortonworks、MapR是Hadoop的三駕馬車。

2018年,Cloudera和Hortonworks因?yàn)檫B連虧損,兩大巨頭公司宣布平等合并,Cloudera以股票方式收購(gòu)Hortonworks。但合并后公司股價(jià)繼續(xù)下跌。

2019年6月,MapR就預(yù)告公司營(yíng)收遇到困難,正在尋求解困的措施。隨后的8月6日,惠普企業(yè)HPE宣布收購(gòu)MapR的資產(chǎn),包括MapR的技術(shù)、知識(shí)產(chǎn)權(quán)、人工智能以及數(shù)據(jù)管理方面的專業(yè)經(jīng)驗(yàn)。

Spark技術(shù)的代表企業(yè)是Databricks。Databricks公司是由加州大學(xué)伯克利分校負(fù)責(zé)開(kāi)發(fā)流行的開(kāi)源Apache Spark數(shù)據(jù)處理框架的團(tuán)隊(duì)創(chuàng)建的。該公司幫助大企業(yè)快速處理、整合和分析大量數(shù)據(jù)。它的統(tǒng)一分析平臺(tái)旨在孤立的數(shù)據(jù)存儲(chǔ)系統(tǒng)之間建立數(shù)字管道,并幫助工程師和數(shù)據(jù)科學(xué)家更好地溝通。

Databricks公司業(yè)務(wù)方向已經(jīng)轉(zhuǎn)移到“大數(shù)據(jù)分析和人工智能解決方案”?,F(xiàn)在行業(yè)內(nèi)更多的將其看成一家AI公司。

針對(duì)多模型數(shù)據(jù)處理,開(kāi)源路線方面的舉措是推出多模型數(shù)據(jù)庫(kù),當(dāng)然這些數(shù)據(jù)庫(kù)也是開(kāi)源的。

ArangoDB是一個(gè)開(kāi)源的、原生的多模型NoSQL數(shù)據(jù)庫(kù),同時(shí)支持Doc、Graph、K/V三種存儲(chǔ),它有適用于全部三種數(shù)據(jù)模型的統(tǒng)一內(nèi)核和統(tǒng)一數(shù)據(jù)庫(kù)查詢語(yǔ)言—AQL (ArangoDB Query Language),非常適用于搭建高性能的應(yīng)用和服務(wù)。

ArangoDB還允許在單個(gè)查詢中混合使用三種數(shù)據(jù)模型。因此,用戶可以在單次查詢過(guò)程中混合使用多種數(shù)據(jù)模型,而無(wú)需在不同數(shù)據(jù)模型間相互“切換”,也不需要執(zhí)行數(shù)據(jù)傳輸過(guò)程,并且這三種數(shù)據(jù)模型均支持水平擴(kuò)展。

2018年初,ArangoDB完成1156萬(wàn)美元融資,深受投資人追捧。2020年初,ArangoDB 3.6 發(fā)布。

多模數(shù)據(jù)處理破繭成蝶 大數(shù)據(jù)“卡脖子”成為過(guò)去!

多模數(shù)據(jù)庫(kù)ArangoDB的優(yōu)勢(shì)

不過(guò)ArangoDB的優(yōu)勢(shì)是一個(gè)內(nèi)核、一個(gè)查詢語(yǔ)言、支持三種數(shù)據(jù)模型。其缺點(diǎn)也是僅支持三種數(shù)據(jù)模型,應(yīng)用受到了限制。

對(duì)于一些單一的典型場(chǎng)景,市場(chǎng)上出現(xiàn)的不同產(chǎn)品和知名的解決方案大都是開(kāi)源系統(tǒng),所以對(duì)多模型數(shù)據(jù)支持的產(chǎn)品很難放棄自身優(yōu)勢(shì)的開(kāi)源項(xiàng)目,而是在原數(shù)據(jù)模型支持基礎(chǔ)上的擴(kuò)充,而更多的是新的開(kāi)源項(xiàng)目。

另一條技術(shù)路線就是以星環(huán)科技為代表的自主開(kāi)發(fā)。

中國(guó)用戶需要處理的數(shù)據(jù)量遠(yuǎn)超過(guò)之前在其他國(guó)家的需求。同時(shí)中國(guó)用戶在應(yīng)用場(chǎng)景方面有著非常強(qiáng)的創(chuàng)新意識(shí),需要處理的場(chǎng)景復(fù)雜度也超過(guò)了其他國(guó)家用戶。

星環(huán)科技就是專注解決用戶的這些難點(diǎn),走出了一條獨(dú)特的自主研發(fā)技術(shù)創(chuàng)新之路。星環(huán)的產(chǎn)品體系已經(jīng)從最早的分析型數(shù)據(jù)庫(kù)擴(kuò)展至閃存加速分析型數(shù)據(jù)庫(kù)、實(shí)時(shí)計(jì)算、全文檢索數(shù)據(jù)庫(kù)、圖數(shù)據(jù)庫(kù)、Bigtable數(shù)據(jù)庫(kù)、交易數(shù)據(jù)庫(kù)、基于容器技術(shù)的數(shù)據(jù)云等,從底層資源調(diào)度到上面的計(jì)算引擎,形成了一條有別于Hadoop或Spark、而具有星環(huán)特色的技術(shù)路線,實(shí)現(xiàn)了多個(gè)領(lǐng)域的技術(shù)突破。

Transwarp Data Hub(TDH)是星環(huán)科技推出的企業(yè)級(jí)大數(shù)據(jù)平臺(tái),經(jīng)過(guò)7年的快速演進(jìn),不斷發(fā)展成熟,在郵政、交通、金融、政府等行業(yè)獲得了大量的部署實(shí)施經(jīng)驗(yàn),同時(shí)向新生的大數(shù)據(jù)技術(shù)領(lǐng)域進(jìn)行的拓展和探索。

5月15日,星環(huán)科技推出一站式大數(shù)據(jù)平臺(tái)TDH 7.0版本,主打一站式多模異構(gòu)數(shù)據(jù)處理,打破了行業(yè)內(nèi)普遍存在的不同數(shù)據(jù)庫(kù)產(chǎn)品切換的不便利,通過(guò)一個(gè)平臺(tái)處理多種數(shù)據(jù)模型,讓用戶無(wú)需維護(hù)多種數(shù)據(jù)庫(kù)成為現(xiàn)實(shí)。

呂程告訴中國(guó)軟件網(wǎng)記者,作為一個(gè)多模型的數(shù)據(jù)處理平臺(tái),TDH 7.0可以提供統(tǒng)一的數(shù)據(jù)操作/查詢語(yǔ)言SQL、統(tǒng)一的數(shù)據(jù)計(jì)算引擎、統(tǒng)一的分布式存儲(chǔ)管理系統(tǒng)、統(tǒng)一的資源管理框架,滿足利用一個(gè)多模異構(gòu)平臺(tái),處理多種數(shù)據(jù)的需求。

多模數(shù)據(jù)處理破繭成蝶 大數(shù)據(jù)“卡脖子”成為過(guò)去!

星環(huán)的一站式多模處理平臺(tái)示意

同時(shí),TDH 7.0版本一站式多模異構(gòu)數(shù)據(jù)處理性能亮眼,徹底解決大數(shù)據(jù)發(fā)展的一大瓶頸。據(jù)介紹,TDH從上而下劃分為五個(gè)層次:

最上層是SQL層,開(kāi)發(fā)了統(tǒng)一的SQL引擎,兼容各種不同的SQL“方言”;

計(jì)算層,開(kāi)發(fā)了統(tǒng)一的計(jì)算引擎,進(jìn)行統(tǒng)一的計(jì)算任務(wù)優(yōu)化和分發(fā);

其下的存儲(chǔ)模型層,TDH一個(gè)平臺(tái)支持七種不同的存儲(chǔ)模型,適用于不同的應(yīng)用場(chǎng)景,包括圖存儲(chǔ)Graph Storage、文檔存儲(chǔ)Document Storage、全文檢索 Full-text Search、鍵值存儲(chǔ) Key-Value Storage、行列混合存儲(chǔ) Row-Columnar Storage、時(shí)空地理存儲(chǔ) Sequential Geospatial Storage、非結(jié)構(gòu)化對(duì)象存儲(chǔ) Unstructured Object Storage。

存儲(chǔ)管理層,開(kāi)發(fā)了統(tǒng)一的存儲(chǔ)管理引擎,提供數(shù)據(jù)塊分布管理、數(shù)據(jù)多副本一致性管理、文件服務(wù)管理等功能。

最底層資源調(diào)度層,開(kāi)發(fā)了統(tǒng)一的資源調(diào)度框架,通過(guò)容器化編排,統(tǒng)一調(diào)度計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源。

統(tǒng)一的數(shù)據(jù)處理平臺(tái)幾大的優(yōu)勢(shì):

多模型的數(shù)據(jù)處理平臺(tái)的核心是對(duì)外提供統(tǒng)一的SQL編程接口、統(tǒng)一的計(jì)算引擎,以及統(tǒng)一的綜合式的存儲(chǔ)管理系統(tǒng)和統(tǒng)一的銷售框架。因此,星環(huán)TDH 7.0的優(yōu)勢(shì)體現(xiàn)在這幾大特性的統(tǒng)一和融合上。

TDH 7.0統(tǒng)一的數(shù)據(jù)處理平臺(tái)支持超過(guò)7種不同的數(shù)據(jù)模型,支持結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),支持KeyValue介質(zhì)存儲(chǔ)、全行搜索、排索引、圖存儲(chǔ)、圖數(shù)據(jù)庫(kù)、存儲(chǔ)文檔,也能夠存儲(chǔ)時(shí)空數(shù)據(jù)。這是TDH 7.0的第一大優(yōu)勢(shì)。

星環(huán)科技第一家提供了一個(gè)能夠橫跨多種數(shù)據(jù)模型的統(tǒng)一的計(jì)算引擎。雖然有不少公司也在嘗試提供一個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)接口,但是由于底層是不同的數(shù)據(jù)庫(kù),沒(méi)用統(tǒng)一的計(jì)算引擎,雖然有統(tǒng)一的SQL接口,但是很難把不同的接口靜態(tài)的路由到功能數(shù)據(jù)庫(kù)上。因此,需要一個(gè)動(dòng)態(tài)的計(jì)算引擎來(lái)動(dòng)態(tài)地進(jìn)行接口的調(diào)度,進(jìn)行執(zhí)行計(jì)劃的統(tǒng)一的管理。

同時(shí)在星環(huán)科技的TDH 7.0也提出了一個(gè)統(tǒng)一的分布式管理系統(tǒng),是實(shí)現(xiàn)數(shù)據(jù)分布管理以及數(shù)據(jù)一致性的數(shù)據(jù)管理系統(tǒng),比過(guò)往使用HTVS效率更高、一致性更強(qiáng)。

在同一個(gè)平臺(tái)上可以將一份數(shù)據(jù)存儲(chǔ)成多種模型,用戶在應(yīng)用發(fā)生變化時(shí)能夠自行地采用最佳的倉(cāng)儲(chǔ)模型來(lái)響應(yīng)查詢需求,運(yùn)行效率會(huì)更高。同時(shí)因?yàn)?strong>一個(gè)平臺(tái)處理多種數(shù)據(jù)模型,整運(yùn)維成本、管理成本都會(huì)降低。

孫元浩說(shuō),未來(lái)的數(shù)據(jù)平臺(tái)都應(yīng)該是多模型的,但是用戶使用起來(lái)更應(yīng)該是像使用一個(gè)數(shù)據(jù)庫(kù)一樣使用。

匿名的受訪專家認(rèn)為,星環(huán)的方案,不再沿用傳統(tǒng)的數(shù)據(jù)匯聚方式,而是使用更為輕量化的模式,利用分布式的存儲(chǔ)管理系統(tǒng),達(dá)到邏輯上的統(tǒng)一存儲(chǔ),再其上構(gòu)建統(tǒng)一的計(jì)算能力。這一變革,無(wú)疑對(duì)多模異構(gòu)數(shù)據(jù)的使用帶來(lái)更大的便捷性。

采用TDH 7.0 多模型數(shù)據(jù)處理平臺(tái)的某個(gè)用戶表示,應(yīng)用常常需要對(duì)一份數(shù)據(jù)進(jìn)行多種不同模型分析,如分析查詢、模糊匹配查詢、關(guān)系推理查詢等。TDH可以針對(duì)不同需求采用多種最優(yōu)存儲(chǔ)模型,如分析查詢采用行列混合存儲(chǔ),模糊匹配查詢采用全文檢索,關(guān)系推理查詢采用圖數(shù)據(jù)存儲(chǔ)。多種模式的存儲(chǔ),可以使各場(chǎng)景下的查詢分析性能都得到極大優(yōu)化。

在傳統(tǒng)混合模型中,不同模型數(shù)據(jù)間做關(guān)聯(lián)分析,需要進(jìn)行跨數(shù)據(jù)庫(kù)的數(shù)據(jù)導(dǎo)入導(dǎo)出,十分復(fù)雜。而采用了統(tǒng)一的數(shù)據(jù)管理,一個(gè)簡(jiǎn)單的SQL語(yǔ)句就可以直接進(jìn)行關(guān)聯(lián)查詢,如同操作同一個(gè)數(shù)據(jù)庫(kù)一般,使應(yīng)用開(kāi)發(fā)變得十分便捷。

在傳統(tǒng)混合模型中,不同模型需要運(yùn)維不同數(shù)據(jù)庫(kù)。特別當(dāng)同一份數(shù)據(jù)存儲(chǔ)于多數(shù)據(jù)庫(kù)時(shí),數(shù)據(jù)一致性成為極大挑戰(zhàn)。此外,數(shù)據(jù)總體情況的運(yùn)維,需要各個(gè)運(yùn)維子系統(tǒng)匯總并二次開(kāi)發(fā),運(yùn)維成本巨大。而采用了統(tǒng)一的數(shù)據(jù)管理,在產(chǎn)品底層服務(wù)中直接保障數(shù)據(jù)一致性,同時(shí)對(duì)多模型的數(shù)據(jù)進(jìn)行整體運(yùn)維,是天然的一體化系統(tǒng)。

03

大數(shù)據(jù)替代即將來(lái)臨

“卡脖子”會(huì)成為過(guò)去?

多模型數(shù)據(jù)處理平臺(tái)的進(jìn)步只是大數(shù)據(jù)技術(shù)發(fā)展的一個(gè)縮影。

呂程認(rèn)為,多模異構(gòu)數(shù)據(jù)平臺(tái)未來(lái)的發(fā)展方向之一是積極推動(dòng)主要服務(wù)、組件、模塊的標(biāo)準(zhǔn)化。由于數(shù)據(jù)相關(guān)技術(shù)異常復(fù)雜,技術(shù)日新月異,各類基礎(chǔ)服務(wù)、組件、模塊要做到面面俱到,是異常困難的。而通過(guò)建設(shè)一定的標(biāo)準(zhǔn),設(shè)立一定的規(guī)范,讓更多的企業(yè)參與其中,無(wú)論是開(kāi)源社區(qū),還是閉源廠商,都能貢獻(xiàn)自己的力量,創(chuàng)造自己的價(jià)值。

第二,構(gòu)建一個(gè)良性的生態(tài)。除了最基本的作用以外,平臺(tái)還應(yīng)當(dāng)能支撐更多的上層應(yīng)用,在不同行業(yè)、不同企業(yè)、不同業(yè)務(wù)中創(chuàng)造更高價(jià)值。這就對(duì)基礎(chǔ)數(shù)據(jù)平臺(tái)的生態(tài)提出了巨大的挑戰(zhàn),越來(lái)越多的應(yīng)用,越來(lái)越多的廠商適配的接入,就會(huì)創(chuàng)造一個(gè)更加良性循環(huán)的生態(tài),從而促進(jìn)整個(gè)產(chǎn)品和平臺(tái)的繁榮。

第三,堅(jiān)持新技術(shù)探索。面對(duì)現(xiàn)在日益復(fù)雜場(chǎng)景,不能停留在解決的單點(diǎn)問(wèn)題。在日益凸顯的復(fù)雜場(chǎng)景面前,不同技術(shù)的組合是否能創(chuàng)造出新價(jià)值呢?是否需要新技術(shù)來(lái)解決復(fù)雜場(chǎng)景呢?這些地方是很值得深入研究和發(fā)展探索的,如現(xiàn)在討論比較多的批流一體,又如檢索和分析同時(shí)使用等。

多模數(shù)據(jù)處理破繭成蝶 大數(shù)據(jù)“卡脖子”成為過(guò)去!

開(kāi)源路線與自主研發(fā)路線正在演繹另一場(chǎng)大數(shù)據(jù)領(lǐng)域的國(guó)產(chǎn)化技術(shù)替代。

近年來(lái),大數(shù)據(jù)產(chǎn)業(yè)飛速發(fā)展,應(yīng)用層和基礎(chǔ)層軟件不斷進(jìn)步,但是實(shí)施復(fù)雜、技術(shù)進(jìn)步步伐遲滯的Hadoop卻不斷遭遇挑戰(zhàn),各種替代技術(shù)不斷涌現(xiàn)。

因此,大數(shù)據(jù)領(lǐng)域因?yàn)殚_(kāi)源技術(shù)的復(fù)雜性日益增加,用戶采用商用系統(tǒng)或者云服務(wù)商的技術(shù)方案成為一大方向。

Hadoop技術(shù)上碰到了難以逾越的挑戰(zhàn)。Hadoop是基于15年前的技術(shù)環(huán)境設(shè)計(jì)的,如今的硬件技術(shù)環(huán)境發(fā)生根本性變化,網(wǎng)絡(luò)普及萬(wàn)兆,存儲(chǔ)每秒鐘能夠做上百萬(wàn)次操作,當(dāng)時(shí)的架構(gòu)已經(jīng)完全跟不上現(xiàn)在硬件的發(fā)展。

另一個(gè)原因,Hadoop軟件是仿造谷歌的系統(tǒng)來(lái)構(gòu)建的,最初的目標(biāo)是用于互聯(lián)網(wǎng)公司的日志處理和營(yíng)銷推廣等場(chǎng)景。當(dāng)這個(gè)技術(shù)應(yīng)用到各行各業(yè)時(shí),就發(fā)現(xiàn)它在功能缺失、一致性和可靠性、高性能并發(fā)等問(wèn)題上的局限性,無(wú)法突破,甚至有分析機(jī)構(gòu)說(shuō)Hadoop已死。

以前因?yàn)橛虚_(kāi)源軟件,大家常常有一種感覺(jué),既然有免費(fèi)的,就用免費(fèi)的就好了。但是后面慢慢逐漸認(rèn)識(shí)到這種模式的問(wèn)題,想使用開(kāi)源Hadoop,就需要大量專業(yè)技術(shù)人員,要知道Hadoop是個(gè)軟件棧,里面有上百款的組件,如何建成大數(shù)據(jù)平臺(tái),并維護(hù)平臺(tái)成為一大挑戰(zhàn)。

很多云服務(wù)商會(huì)推出自己研發(fā)的產(chǎn)品。目前,大數(shù)據(jù)上云,很多云服務(wù)商會(huì)基于開(kāi)源軟件和自己研發(fā)的系統(tǒng),為用戶建立大數(shù)據(jù)平臺(tái),支持用戶大數(shù)據(jù)應(yīng)用開(kāi)發(fā)與維護(hù)。目前,它正成為一大方向。

很多大數(shù)據(jù)專業(yè)企業(yè)堅(jiān)持自主研發(fā)路線。星環(huán)科技CEO孫元浩表示,星環(huán)科技堅(jiān)持大數(shù)據(jù)基礎(chǔ)軟件的完全自主研發(fā),原創(chuàng)了一條完全自研的技術(shù)路線。

大數(shù)據(jù)領(lǐng)域另一個(gè)替換則是國(guó)產(chǎn)大數(shù)據(jù)基礎(chǔ)軟件產(chǎn)品在不同領(lǐng)域開(kāi)始替換甲骨文、IBM等國(guó)外軟件。國(guó)內(nèi)眾多大數(shù)據(jù)平臺(tái)已經(jīng)在眾多行業(yè)開(kāi)始替代包括甲骨文、IBM,甚至一些國(guó)外Hadoop供應(yīng)商的產(chǎn)品。

記者獲悉,近日中興通訊簽約國(guó)內(nèi)大數(shù)據(jù)企業(yè)永洪科技,利用后者提供的擁有自主知識(shí)產(chǎn)權(quán)的一站式大數(shù)據(jù)平臺(tái)與可視化分析方案,實(shí)現(xiàn)從企業(yè)管理到客戶經(jīng)營(yíng)的精細(xì)化運(yùn)營(yíng),提升企業(yè)運(yùn)營(yíng)效率,打造合作共贏的產(chǎn)業(yè)生態(tài)環(huán)境。

接受記者采訪的永洪科技市場(chǎng)總監(jiān)劉東旭說(shuō),國(guó)產(chǎn)化替代已經(jīng)從軟硬件國(guó)產(chǎn)化的“去IOE”(IBM、Oracle、EMC)延伸到頂層設(shè)計(jì)咨詢國(guó)產(chǎn)化的“去SOA”(SAP、Oracle、Accenture),保證全方位的信息安全。大數(shù)據(jù)領(lǐng)域的國(guó)產(chǎn)化替代會(huì)快得多。

孫元浩表示,替代國(guó)外產(chǎn)品主要還是技術(shù)革命造成的,不光在中國(guó)發(fā)生,在美國(guó)創(chuàng)新型的大數(shù)據(jù)基礎(chǔ)軟件也開(kāi)始替代傳統(tǒng)企業(yè)的數(shù)據(jù)庫(kù)等產(chǎn)品,面對(duì)日益增加的數(shù)據(jù)量,傳統(tǒng)軟件的處理性能已經(jīng)無(wú)法滿足用戶需求,分布式技術(shù)帶來(lái)的性能飛躍是客戶進(jìn)行替換的一個(gè)重要?jiǎng)恿?。在新的技術(shù)領(lǐng)域,星環(huán)科技走得會(huì)更快一點(diǎn),替代成功的項(xiàng)目更多一點(diǎn)。

另外,國(guó)外的大數(shù)據(jù)軟件在中國(guó)“水土不服”。因?yàn)閲?guó)內(nèi)的數(shù)據(jù)體量通常比國(guó)外大一到兩個(gè)數(shù)量級(jí),數(shù)據(jù)應(yīng)用也更為復(fù)雜。1TB和100TB在數(shù)據(jù)分析是完全不同的兩件事,而由于國(guó)外并沒(méi)有這樣的應(yīng)用場(chǎng)景,所以國(guó)外的大數(shù)據(jù)軟件在處理這類的問(wèn)題時(shí)天生不足。國(guó)產(chǎn)軟件在設(shè)計(jì)時(shí)就會(huì)充分的考慮這些情況。

帆軟市場(chǎng)經(jīng)理丁明浩告訴記者,大數(shù)據(jù)國(guó)產(chǎn)化替代最直接的效果是降低采購(gòu)成本和運(yùn)營(yíng)維護(hù)成本,同時(shí)國(guó)內(nèi)公司能定制化地為企業(yè)解決運(yùn)營(yíng)管理線上化進(jìn)程中遇到的各種問(wèn)題。

工業(yè)和信息化部新聞發(fā)言人、信息技術(shù)發(fā)展司司長(zhǎng)謝少鋒介紹,基礎(chǔ)軟硬件方面,將實(shí)施國(guó)家軟件重大工程,集中力量解決關(guān)鍵軟件的“卡脖子”問(wèn)題,著力推動(dòng)工業(yè)技術(shù)的軟件化,加快推廣軟件定義網(wǎng)絡(luò)的應(yīng)用。

而大數(shù)據(jù)領(lǐng)域的替代,正在從軟件、應(yīng)用等不同領(lǐng)域開(kāi)展,大數(shù)據(jù)領(lǐng)域的“卡脖子”就成為過(guò)去。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )