AWS張俠深度解析“數(shù)據(jù)湖”的數(shù)據(jù)洞察能力

3月30日,數(shù)字時代,企業(yè)海量數(shù)據(jù)隱藏的價值被空前重視,企業(yè)的信息和數(shù)據(jù)流被認為是“企業(yè)的血液流”。與此同時,“把企業(yè)的數(shù)據(jù)化資產(chǎn)使用好”、“如何從大量數(shù)據(jù)中獲得信息洞察未來”,這些成為企業(yè)和業(yè)內(nèi)專家不懈追求的能力。

近日AWS首席云計算企業(yè)戰(zhàn)略顧問張俠向媒體介紹了“AWS數(shù)據(jù)湖”在實現(xiàn)“企業(yè)數(shù)據(jù)洞察”中的最新技術成果和應用表現(xiàn)。

張俠表示,數(shù)據(jù)本身的價值在于從里面提取出真正有用的“信息”,把這些信息歸類樹立成“知識”,然后用這些知識來指導企業(yè)的“行動”, 幫企業(yè)來運營業(yè)務、幫客戶實現(xiàn)業(yè)務需求、提高客戶滿意度等等,最終為企業(yè)創(chuàng)造更多的價值。

“數(shù)據(jù)湖”老概念煥發(fā)新活力

“數(shù)據(jù)湖”這個概念早在2011年就被提出,發(fā)展至今已經(jīng)走過9個年頭。“我把數(shù)據(jù)湖的發(fā)展分為兩個階段”,張俠表示,“前期數(shù)據(jù)湖只是一個初級的概念,有一些開源的應用;得益于云計算提供的海量存儲、高性能計算的能力,大概從四年前開始,數(shù)據(jù)湖進入第二階段,隨著各項元素的逐一到位,AWS數(shù)據(jù)湖基本上成熟。”

那么,數(shù)據(jù)湖究竟是什么?

在張俠看來,數(shù)據(jù)湖是一個中心數(shù)據(jù)存儲的容器,這個容器可以存儲格式化、非格式化的各種各樣的數(shù)據(jù);這些數(shù)據(jù)非常容易被快速縮放、有各種方法和工具對這些數(shù)據(jù)進行查詢、可以做各種各樣的分析。

通俗的講,本來數(shù)據(jù)很多是結構型數(shù)據(jù)、交易型數(shù)據(jù),比如什么東西多少價格、什么人多大年齡,這些都是很規(guī)矩的放在一個一個數(shù)據(jù)庫和數(shù)據(jù)倉庫的小格子里的,但是現(xiàn)在有一套方法,這套方法把任何類型的數(shù)據(jù)庫,結構型的、非結構型的,非結構型的包括電子郵件、視頻的、音頻的、圖形的、一些文章、一些照片等等,都可以直接把它存下來,我們利用現(xiàn)在云計算時代海量存儲的能力和各種新的查詢的能力,還有各種數(shù)據(jù)分析和處理的能力,直接對這些原始的數(shù)據(jù)來做查詢,這就是數(shù)據(jù)湖的時代。

張俠也強調(diào),數(shù)據(jù)湖特別適用做一些數(shù)據(jù)科學家、數(shù)據(jù)研究人員要用的探索性質的數(shù)據(jù)查詢和分析。原來有一類數(shù)據(jù)科學家是做那種數(shù)據(jù)挖掘的,這一類數(shù)據(jù)科學家要做的工作,數(shù)據(jù)湖尤其適用,因為數(shù)據(jù)湖對所有數(shù)據(jù)都能兼容、保持靈活性特別適合做探索性、預測性、研究性、前瞻性的服務。

AWS數(shù)據(jù)湖三大元素

在幫助企業(yè)構建數(shù)據(jù)湖上,AWS推出了一系列關鍵服務。張俠介紹,數(shù)據(jù)湖的操作步驟通常包括:把數(shù)據(jù)設置、存儲;再把數(shù)據(jù)按需要移動、加載到不同地方;然后把數(shù)據(jù)清理好,建成數(shù)據(jù)目錄。這些數(shù)據(jù)要安全的、合規(guī)的存好、管好,需要的時候使用工具把這些數(shù)據(jù)拿出來做各種分析。

基于此,目前AWS數(shù)據(jù)湖主要包含三大元素:一是Amazon S3/Glacier;二是AWS Glue;三是AWS Lake Formation。

張俠介紹:“Amazon S3,可以存所有各類的數(shù)據(jù),它有11個9的數(shù)據(jù)持久性,它是在云上面三個可用區(qū)存了六份,互為備份。它后端還有一個冷存儲叫Amazon Glacier (glacier的意思是冰河) 。如果這個數(shù)據(jù)不常用,我們可以轉到那里面,費用可以降低很多,只是多需要三四個小時把它拿出來。冷存儲還有一個深度的冷存儲Deep Archive。除了這個以外,在我開始講之前,還有一個叫Amazon DynamoDB,是一個非關系型數(shù)據(jù)庫,存鍵值這類的數(shù)據(jù)。在游戲里面比如每個玩家是第幾級、有多少血、用什么樣的武器,這樣的數(shù)都是鍵值配對的數(shù)。全球有大量這樣的數(shù)據(jù)都存儲在Amazon DynamoDB這樣的非關系型數(shù)據(jù)庫。“

AWS Glue則是一種全托管的數(shù)據(jù)提取、轉換和加載(ETL)服務及元數(shù)據(jù)目錄。它讓客戶更容易準備數(shù)據(jù),加載數(shù)據(jù)到數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)湖,用于數(shù)據(jù)分析。使用AWSGlue,在幾分鐘之內(nèi)便可以準備好數(shù)據(jù)用于分析。AWSGlue消除了ETL作業(yè)基礎設施方面的所有重復勞動,讓AmazonS3數(shù)據(jù)湖中的數(shù)據(jù)集可以被發(fā)現(xiàn)、可用于查詢和分析,極大地縮短分析項目中做ETL和數(shù)據(jù)編目階段的時間,讓ETL變得很容易。

AWS Lake Formation則能把建立數(shù)據(jù)湖的這套工作自動化,幫助企業(yè)客戶來操作,可以使很多企業(yè)在短短的幾天時間內(nèi)就完成數(shù)據(jù)湖的建設工作。

目前AWS Lake Formation尚未在中國正式推出。

AWS數(shù)據(jù)湖的應用

據(jù)張俠介紹,AWS數(shù)據(jù)湖已經(jīng)在全球范圍內(nèi)得到廣泛應用。

以亞馬遜自己為例,亞馬遜曾經(jīng)是Oracle全球數(shù)據(jù)庫最大的用戶,它使用了75PB的數(shù)據(jù)庫,用了7500多個數(shù)據(jù)庫的例子,整個亞馬遜里面1000多個不同的團隊,從運營、電商、市場營銷、庫存,幾乎業(yè)務的很多方面原來都是基于Oracle的數(shù)據(jù)庫。亞馬遜在過去一年半到兩年的時間做了一件事情,就是全方位的遷出了Oracle的數(shù)據(jù)庫,去年11月份亞馬遜全部遷移了Oracle的數(shù)據(jù)庫,遷移到亞馬遜自己相對應的產(chǎn)品。

“這個遷移解決了原來擴展困難、費用昂貴等等一系列的問題,減少了數(shù)據(jù)庫費用成本60%,減少了管理費用70%,增加的性能高達40%。”張俠介紹道。

此外,金融行業(yè)領域,美國納斯達克交易所也是用了AWS數(shù)據(jù)湖產(chǎn)品。通過使用數(shù)據(jù)湖每天處理500億條的付款,使用數(shù)據(jù)湖把產(chǎn)品上市時間縮短了1/3,有很好的服務能力。

張俠表示:“AWS數(shù)據(jù)湖一個很大的優(yōu)勢是把所有這些服務整合在一起,統(tǒng)一的接口、統(tǒng)一的標準,包括像無服務器計算,用了AWS Glue以后,這邊接了AWS Lambda,再接了AWS Step Functions,亞馬遜那些其他的服務早都做好了這種無服務器的接口,所以一下子全部都打通了,這是數(shù)據(jù)湖得以廣泛有效應用的其中一個原因。”

張俠強調(diào):“所以我個人認為,數(shù)據(jù)湖到了一個真的要好好研究、使用的階段了。數(shù)據(jù)湖在中國處于一個發(fā)展相對早期的階段,這個時機非常重要,在經(jīng)濟數(shù)字化轉型時代,數(shù)據(jù)湖的應用、作用性越來越強,下一代互聯(lián)網(wǎng)、電商、5G、邊緣計算等都發(fā)展起來以后,與之相對應的我們更要走數(shù)據(jù)湖對數(shù)據(jù)的存儲、分析的道路,所以我們覺得如果利用這個時機把這些知識很好的提供給我們公眾和行業(yè)的有關人員,中國的使用甚至是這些相關的服務都能更好的發(fā)展起來,那是我們非常喜聞樂見的。”

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2020-03-30
AWS張俠深度解析“數(shù)據(jù)湖”的數(shù)據(jù)洞察能力
【TechWeb】3月30日,數(shù)字時代,企業(yè)海量數(shù)據(jù)隱藏的價值被空前重視,企業(yè)的信息和數(shù)據(jù)流被認為是“企業(yè)的血液流&r

長按掃碼 閱讀全文