破解數(shù)據(jù)囤積,華為云智能數(shù)據(jù)湖技術(shù)解密

如果有人問(wèn)數(shù)據(jù)湖是什么,我會(huì)告訴他們,是“桶裝水”的集合。

隨著企業(yè)業(yè)務(wù)的發(fā)展,數(shù)據(jù)出現(xiàn)井噴,數(shù)據(jù)量呈幾何增長(zhǎng),數(shù)據(jù)來(lái)源和類(lèi)型更加多元化。傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)就如同“桶裝水商店”,已經(jīng)承載不了全部水體,因此需要一個(gè)可以滿(mǎn)足存儲(chǔ)需求的,新的架構(gòu)作為大數(shù)據(jù)的支撐。

這就是數(shù)據(jù)湖。它匯聚不同數(shù)據(jù)源的溪流,包括大量無(wú)序的非結(jié)構(gòu)化數(shù)據(jù)(文本、圖像、聲音、網(wǎng)頁(yè)等)。我們把它倒入數(shù)據(jù)湖,然后開(kāi)始探索該數(shù)據(jù)。我們希望這是一個(gè)包含所有數(shù)據(jù)的,一個(gè)超快、易于訪(fǎng)問(wèn)的存儲(chǔ)庫(kù),能解決集成難題的終極方法。

但實(shí)際上,存儲(chǔ)庫(kù)反而變成了一個(gè)緩慢、僵化的數(shù)據(jù)沼澤。大數(shù)據(jù)需要特殊的專(zhuān)長(zhǎng)來(lái)分析數(shù)據(jù)。使用原始數(shù)據(jù)得出分析結(jié)論,將持續(xù)在數(shù)據(jù)質(zhì)量和治理方面發(fā)出危險(xiǎn)信號(hào)。業(yè)內(nèi)給這種問(wèn)題起了個(gè)名字,叫數(shù)據(jù)囤積障礙。

爆炸式增長(zhǎng)的數(shù)據(jù)及數(shù)據(jù)孤島

你應(yīng)該明白了。只為了保存數(shù)據(jù)而存儲(chǔ)數(shù)據(jù),不是一個(gè)好主意。我們應(yīng)該有一個(gè)明確的使用目的,然后只向數(shù)據(jù)供應(yīng)鏈中導(dǎo)入相關(guān)的數(shù)據(jù)。當(dāng)數(shù)據(jù)水庫(kù)中的數(shù)據(jù)不再有用時(shí),就直接丟棄它。沒(méi)有必要把某個(gè)特別的應(yīng)用程序生成的所有數(shù)據(jù)都存儲(chǔ)下來(lái)。以物聯(lián)網(wǎng)為例,傳感器會(huì)產(chǎn)生奇大無(wú)比的數(shù)據(jù)量,但大多數(shù)時(shí)候其實(shí)我們只是在意一些極端值而已,比如溫度超出了某個(gè)閾值范圍。下圖為某物聯(lián)網(wǎng)公司的業(yè)務(wù)示意圖。

破解數(shù)據(jù)囤積,華為云智能數(shù)據(jù)湖技術(shù)解密

首當(dāng)其沖的挑戰(zhàn)便是,數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、AI組件眾多。處理難度極大。

破解數(shù)據(jù)囤積,華為云智能數(shù)據(jù)湖技術(shù)解密

緊接著,數(shù)據(jù)孤島問(wèn)題接踵而至。

破解數(shù)據(jù)囤積,華為云智能數(shù)據(jù)湖技術(shù)解密

多種數(shù)據(jù)源,每種數(shù)據(jù)單獨(dú)在一個(gè)庫(kù)中,業(yè)務(wù)人員需要在應(yīng)用層做數(shù)據(jù)集成/數(shù)據(jù)搬移,技能要求高,工程耗時(shí)長(zhǎng)。

數(shù)據(jù)量日益增大,數(shù)據(jù)源日益增多,單個(gè)庫(kù)擴(kuò)容困難,性能下降,成本高,難以做跨市跨省等全量數(shù)據(jù)分析。

缺乏高級(jí)分析工具,前沿技術(shù),如機(jī)器學(xué)習(xí)、圖計(jì)算、深度學(xué)習(xí)等,未能充分利用多種數(shù)據(jù)深入挖掘價(jià)值。

用智能解決非智能

鑒于數(shù)據(jù)湖現(xiàn)狀,我們?nèi)绾卫盟鼈優(yōu)槠髽I(yè)帶來(lái)優(yōu)勢(shì)?這里是智能數(shù)據(jù)湖整體解決方案,包含四個(gè)關(guān)鍵的實(shí)踐:融合,高效,易用,智能

融合——云化的hadoop

破解數(shù)據(jù)囤積,華為云智能數(shù)據(jù)湖技術(shù)解密

統(tǒng)一數(shù)據(jù)存儲(chǔ),再無(wú)數(shù)據(jù)孤島;開(kāi)放格式,豐富的數(shù)據(jù)類(lèi)型:JSON, CSV, AVRO,圖片,視頻等;開(kāi)放接口,兼容原生社區(qū)應(yīng)用:100%兼容OBS和HDFS接口,總而言之,我們?cè)跀?shù)據(jù)湖中處理數(shù)據(jù),試圖找到新的洞察力。我們不會(huì),任由數(shù)據(jù)處于最原始的格式,我們將優(yōu)化數(shù)據(jù)。確保數(shù)據(jù)得到治理,確保數(shù)據(jù)在語(yǔ)義上一致,并滿(mǎn)足業(yè)務(wù)的要求。

高效

破解數(shù)據(jù)囤積,華為云智能數(shù)據(jù)湖技術(shù)解密

一個(gè)字:快。實(shí)時(shí)數(shù)據(jù)實(shí)時(shí)分析, Apache CarbonData加速,萬(wàn)億數(shù)據(jù)秒級(jí)響應(yīng)

易用

做一個(gè)一站式、端到端開(kāi)發(fā)工具,支持大數(shù)據(jù)+AI敏捷開(kāi)發(fā)。可視化,代表豐富的可視化組件,圖形化編輯界面,同時(shí)支持定制;而數(shù)據(jù)湖一站式開(kāi)發(fā)工具,可管理多種大數(shù)據(jù)服務(wù),實(shí)現(xiàn)跨服務(wù)作業(yè)編排調(diào)度;支持拖拉拽,預(yù)設(shè)10多種任務(wù)類(lèi)型。

最后,對(duì)于數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)質(zhì)量,數(shù)據(jù)安全的治理不可或缺。

破解數(shù)據(jù)囤積,華為云智能數(shù)據(jù)湖技術(shù)解密

數(shù)據(jù)湖治理:一站式治理平臺(tái)(數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)質(zhì)量,數(shù)據(jù)安全)

智能

重點(diǎn)絕不僅僅是數(shù)據(jù),而是始終關(guān)于你要做什么工作。使用場(chǎng)合是什么,你可以運(yùn)用什么應(yīng)用程序來(lái)處理該數(shù)據(jù)以便從中受益——用智能實(shí)現(xiàn)高效。

智能元數(shù)據(jù)采集,統(tǒng)一數(shù)據(jù)視圖

智能數(shù)據(jù)管理,無(wú)需人工拷貝

智能優(yōu)化建議,免DBA

破解數(shù)據(jù)囤積,華為云智能數(shù)據(jù)湖技術(shù)解密

對(duì)數(shù)據(jù)進(jìn)行“聯(lián)系”,而不是“收集”。相比將數(shù)據(jù)轉(zhuǎn)移到越來(lái)越大的集群或數(shù)據(jù)倉(cāng)庫(kù),讓數(shù)據(jù)待在數(shù)據(jù)湖進(jìn)行智能化處理,來(lái)得更省錢(qián)、更容易也更高效。

如果想先試試效果,無(wú)論是企業(yè)用戶(hù),還是個(gè)人用戶(hù),華為云均提供了一組免費(fèi)套餐,最高可免費(fèi)試用60天,與此同時(shí),華為云數(shù)據(jù)湖工廠(chǎng)(Data Lake Factory)2018年12月31日前提供免費(fèi)試用,名額有限。

更多詳細(xì)內(nèi)容,歡迎訪(fǎng)問(wèn):華為云官網(wǎng) EI企業(yè)智能 EI大數(shù)據(jù) 數(shù)據(jù)湖工廠(chǎng)DLF

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2018-11-08
破解數(shù)據(jù)囤積,華為云智能數(shù)據(jù)湖技術(shù)解密
如果有人問(wèn)數(shù)據(jù)湖是什么,我會(huì)告訴他們,是“桶裝水”的集合。隨著企業(yè)業(yè)務(wù)的發(fā)展,數(shù)據(jù)出現(xiàn)井噴,數(shù)據(jù)量呈幾何增長(zhǎng),數(shù)據(jù)來(lái)源和類(lèi)型更加多元化。

長(zhǎng)按掃碼 閱讀全文