美女视频色,国产服装店女老板熟女

說到大數(shù)據(jù)，很多人都會提及Hadoop 與 Apache Spark。Hadoop解決了大數(shù)據(jù)的可靠存儲和處理問題。但因?yàn)槠浔旧淼墓ぷ髁鞒桃话逡谎郏簧瞄L靜態(tài)存儲對象的批式處理，有自身的局限和不足。Spark應(yīng)運(yùn)而生，受到追捧，甚至被認(rèn)為是大數(shù)據(jù)的未來，將會替代Hadoop。

所以在這里簡要總結(jié)下各自的優(yōu)劣勢，并從五個(gè)方面比較二者的區(qū)別?？纯碨park是否能宣布Hadoop的“死刑”？

Hadoop和ApacheSpark雖然都是大數(shù)據(jù)框架，但他們并不真正服務(wù)于同樣的目的。 Hadoop是一個(gè)分布式數(shù)據(jù)基礎(chǔ)設(shè)施：可以支持一個(gè)或多個(gè)服務(wù)器，在集群內(nèi)跨多個(gè)節(jié)點(diǎn)，分配大量數(shù)據(jù)集合。這意味著如果你要處理大數(shù)據(jù)，有了它就足以解決大數(shù)據(jù)的存儲和處理問題，不需要購買昂貴的定制化硬件及維護(hù)服務(wù)了。它還也可以索引和跟蹤數(shù)據(jù)，使大數(shù)據(jù)處理和分析更有效。另一方面，Spark是一個(gè)數(shù)據(jù)處理工具，可以做分布式數(shù)據(jù)收集，但不能做分布式存儲。

Hadoop不僅是個(gè)存儲組件，還包括Hadoop分布式文件系統(tǒng)和被稱作MapReduce的處理組件。所以，人家自身功能很多，你不一定非要用Spark配合。相反地，不搭建在Hadoop上，也可以單獨(dú)使用Spark。但是，由于Spark不自帶文件管理系統(tǒng)，還得結(jié)合HDFS或者基于云的數(shù)據(jù)平臺。其實(shí)，Spark是專為完善Hadoop而生，因此有人認(rèn)為在未來會替代Hadoop。但是，大部分人目前通常是采用二者配合來做的方式搭建，更希望二者可以協(xié)作起來，更好地發(fā)揮各自的效用。

Spark通常比MapReduce快得多，因?yàn)樘幚頂?shù)據(jù)的方式不一樣。在MapReduce按部就班的處理時(shí)，Spark可以對整個(gè)數(shù)據(jù)集中處理。有數(shù)據(jù)科學(xué)家這樣形容MapReduce的工作流程：從集群讀取數(shù)據(jù)——執(zhí)行一個(gè)操作——將結(jié)果寫入集群——從集群中讀取更新的數(shù)據(jù)——執(zhí)行下一步操作——寫未來結(jié)果到集群……” 另一方面，Spark是基于內(nèi)存計(jì)算，在完成完整的數(shù)據(jù)分析操作上，也是接近實(shí)時(shí)處理的。它的工作流程可以這樣形容：從集群中讀取數(shù)據(jù)——執(zhí)行所有必要的分析操作——將結(jié)果寫入集群，完成。Spark比MapReduce在批處理上速度快得高達(dá)10倍，基于內(nèi)存計(jì)算分析上快100倍。

如果數(shù)據(jù)操作和報(bào)告需求大多是靜態(tài)的， MapReduce的處理風(fēng)格完全可以勝任了，你只需耐心等待它的批處理模式來做就行。但是，如果你需要對流數(shù)據(jù)做分析，比如工廠里的傳感器數(shù)據(jù)，或要處理多個(gè)操作的應(yīng)用程序，這種情況選擇Spark更合適。例如，大多數(shù)機(jī)器學(xué)習(xí)算法需要多個(gè)操作。 Spark常見的應(yīng)用場景還有：實(shí)時(shí)營銷活動、在線產(chǎn)品推薦、網(wǎng)絡(luò)安全分析和機(jī)器的日志監(jiān)控等。

Hadoop對系統(tǒng)故障具備天然抵抗力，因?yàn)樯衔乃f的，它的工作流程非常穩(wěn)扎穩(wěn)打：在執(zhí)行每個(gè)操作后都會把數(shù)據(jù)寫入磁盤，自然便于恢復(fù)。而Spark，采用類似的方式，具有內(nèi)置彈性。具體來說，其數(shù)據(jù)對象存儲在集群數(shù)據(jù)里的，彈性分布式數(shù)據(jù)集上（即RDD，Spark的核心。它具備像MapReduce等數(shù)據(jù)流模型的容錯(cuò)特性，并且允許開發(fā)人員在大型集群上執(zhí)行基于內(nèi)存的計(jì)算）。這些數(shù)據(jù)對象可以存儲在內(nèi)存或磁盤上，當(dāng)系統(tǒng)報(bào)錯(cuò)時(shí)候，RDD可以幫助全面恢復(fù)。

綜上所說，可以看出，二者各有千秋，場景不同所選方案就會不同。不過，大多數(shù)人更愿意看到1+1>2的效果。

注：文章翻譯自cio網(wǎng)站，作者Katherine Noyes。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

大數(shù)據(jù)未來是什么？Spark會宣布Hadoop“死刑”？

下一篇

大數(shù)據(jù)未來是什么？Spark會宣布Hadoop“死刑”？

下一篇

大數(shù)據(jù)未來是什么？Spark會宣布Hadoop“死刑”？