123,123,123

大數(shù)據(jù)

大數(shù)據(jù)是什么

我從08年開(kāi)始實(shí)際接觸hadoop的，這得益于當(dāng)年IBM和我在的學(xué)校的一次合作，做一個(gè)研究項(xiàng)目：怎么樣用蒙特卡洛的辦法來(lái)解決數(shù)據(jù)中的不確定性問(wèn)題。這個(gè)解決方案有兩個(gè)特點(diǎn)，第一是計(jì)算量非常非常的大，第二是計(jì)算和計(jì)算之間相對(duì)獨(dú)立。這就使得基于Hadoop的并行計(jì)算成為一個(gè)很好的選擇。

大數(shù)據(jù)作為一個(gè)名詞其實(shí)是晚于Hadoop的，更是晚于MapReduce。曾經(jīng)有那么一段時(shí)間，流行的詞語(yǔ)是MapReduce而不是大數(shù)據(jù)。當(dāng)然再后來(lái)，大數(shù)據(jù)這個(gè)詞就流行開(kāi)了。但是大數(shù)據(jù)到底是什么，到今天應(yīng)該還是稀里糊涂的一筆賬。

話(huà)說(shuō)我做所謂的大數(shù)據(jù)都不知道多少年了，今天我還是搞不清楚大數(shù)據(jù)到底是什么。于是我就請(qǐng)教權(quán)威吧，查了一下百度百科。

百度百科是這樣定義的：

大數(shù)據(jù)(big data)，指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合，是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。在維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶編寫(xiě)的《大數(shù)據(jù)時(shí)代》中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣捷徑，而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)的5V特點(diǎn)(IBM提出)：Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價(jià)值密度)、Veracity(真實(shí)性)。

我不知道大家是不是讀懂了，反正我做大數(shù)據(jù)這么多年，這段定義我是讀不懂。

這個(gè)定義最大的特點(diǎn)，和很多紅皮書(shū)白皮書(shū)黑皮書(shū)之類(lèi)的差不多，就是裝逼。說(shuō)白了，不說(shuō)人話(huà)。反正我是沒(méi)聽(tīng)明白大數(shù)據(jù)和小數(shù)據(jù)有什么本質(zhì)的區(qū)別。無(wú)非是數(shù)據(jù)和處理數(shù)據(jù)的工具以及從數(shù)據(jù)里面提取有用信息變成錢(qián)的過(guò)程。曾經(jīng)我們?cè)谧鲞@些事情，現(xiàn)在我們?cè)谧鲞@些事情，將來(lái)我們也會(huì)繼續(xù)做這些事情。

所以呢，我在我的文章里面共享過(guò)行為學(xué)家Dan Ariely關(guān)于大數(shù)據(jù)的名言，今天的講座我們繼續(xù)共享一下這段名言：

Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.

簡(jiǎn)單翻譯一下：

大數(shù)據(jù)就像青少年性行為：大家都談?wù)摚瑳](méi)有人真正知道怎么做，每個(gè)人都認(rèn)為其他人都在做，所以每個(gè)人都聲稱(chēng)自己在做。

以前幾年國(guó)內(nèi)大數(shù)據(jù)概念炒上天的情況來(lái)看，其實(shí)真的誰(shuí)也不知道大數(shù)據(jù)是什么，誰(shuí)也不清楚大數(shù)據(jù)怎么玩，但是各行各業(yè)忽如一夜春風(fēng)來(lái)，冒出無(wú)數(shù)個(gè)大數(shù)據(jù)公司大數(shù)據(jù)專(zhuān)家。

說(shuō)的俗一點(diǎn)，大數(shù)據(jù)是造出來(lái)的概念。我們?nèi)祟?lèi)其實(shí)非常擅長(zhǎng)造概念，炒概念，然后炒完一個(gè)以后再起一個(gè)新的。所以大數(shù)據(jù)作為一個(gè)人造的概念飛起來(lái)也不奇怪。就像現(xiàn)在的人工智能一樣也是炒概念。早年還有納米洗衣機(jī)呢。

現(xiàn)在我們可以看到各行各業(yè)都在談?wù)摯髷?shù)據(jù)。從政府到企業(yè)，從互聯(lián)網(wǎng)行業(yè)到傳統(tǒng)行業(yè)，隨便寫(xiě)個(gè)App背后沒(méi)有大數(shù)據(jù)都不能叫好App。現(xiàn)在大數(shù)據(jù)都上升到國(guó)家高度了。比如說(shuō)政府辦公要上大數(shù)據(jù)，一個(gè)三線(xiàn)城市，放兩三臺(tái)機(jī)器搞定的，這數(shù)據(jù)真的非常的大。

如果我們撇開(kāi)大數(shù)據(jù)這個(gè)概念不談，自從有了數(shù)據(jù)以來(lái)，人類(lèi)一直做的事情是什么?這個(gè)其實(shí)也是今天大數(shù)據(jù)的背景下大家都在做的事情，概括起來(lái)講：分析數(shù)據(jù)，產(chǎn)生有價(jià)值的信息。

這個(gè)事情20年前在做10年前也在做，今天還是在做，其實(shí)沒(méi)什么變化。那么什么東西發(fā)生了變化呢?最大的一個(gè)是工具的能力發(fā)生了變化。現(xiàn)在我們可以幾千幾萬(wàn)臺(tái)機(jī)器一起協(xié)同做計(jì)算了。其次是性?xún)r(jià)比的變化。以前買(mǎi)Oracle的數(shù)據(jù)庫(kù)IBM大型機(jī)Teradata的解決方案，賊貴?，F(xiàn)在開(kāi)源軟件一搭，弄些PC機(jī)就好。糙一點(diǎn)無(wú)所謂，所謂便宜才能普及。

然而本質(zhì)來(lái)講，大家做的事情并無(wú)改變。所以我們不需要去糾結(jié)于大數(shù)據(jù)到底是什么，而是要看清楚具體業(yè)務(wù)問(wèn)題是什么，有什么合適的工具去解決。這些工具可能是新的也可能是舊的。我想大數(shù)據(jù)的所謂發(fā)展無(wú)非就是工具的進(jìn)步使得大家能夠更有能力去在限定的時(shí)間內(nèi)處理更多的數(shù)據(jù)，獲得更有效的信息。

Google的大數(shù)據(jù)發(fā)展

大凡我們開(kāi)始提到大數(shù)據(jù)的時(shí)候，都會(huì)提到Google。就像學(xué)哲學(xué)的言必稱(chēng)希臘一樣。講到大數(shù)據(jù)不提Google，就有點(diǎn)感覺(jué)不是正宗做大數(shù)據(jù)的。我以前認(rèn)識(shí)一個(gè)學(xué)哲學(xué)的中國(guó)人，天天都掛著蘇格拉底，柏拉圖，亞里士多德，希臘三賢人。我們聊大數(shù)據(jù)，其實(shí)也差不多。掛嘴邊的就是Google三駕馬車(chē)。

這三駕馬車(chē)是Google File System， MapReduce和BigTable.這些東西在開(kāi)源的世界里面的代表分別是Hadoop File System， Hadoop MapReduce, 以及HBase。Google File System出來(lái)的最早，MapReduce最有名，BigTable出來(lái)的最晚。

Google之所以成為大數(shù)據(jù)的鼻祖，在我個(gè)人看來(lái)，最主要的原因不是它的技術(shù)有多牛，而是它的商業(yè)模式向我們展示的東西和前人非常的不同。

在Google之前很多互聯(lián)網(wǎng)服務(wù)是收費(fèi)的，比如說(shuō)郵箱。Google搞起了免費(fèi)的Gmail，然后越是免費(fèi)就越是賺錢(qián)。因?yàn)镚oogle有一個(gè)有針對(duì)性投放廣告的系統(tǒng)。而投放廣告則給Google帶來(lái)了規(guī)模效應(yīng)，越多的人用，收入也就越多。Google之所有能夠讓這個(gè)廣告系統(tǒng)有效，重要的就是對(duì)用戶(hù)的數(shù)據(jù)做了分析，并且從分析以后的海量數(shù)據(jù)里面變成了真金白銀。雪花花的銀子擺在大家面前，所謂財(cái)帛動(dòng)人心。因?yàn)橛绣X(qián)賺，別人才會(huì)在乎它家的技術(shù)。任何的技術(shù)都沒(méi)有Google每次財(cái)務(wù)報(bào)告里面不斷滾動(dòng)增長(zhǎng)的錢(qián)來(lái)得有說(shuō)服力。

Google三架馬車(chē)分別的意思是：

Google File System：文件系統(tǒng)

MapReduce：編程模式和運(yùn)行環(huán)境

BigTable：一個(gè)SortMap

其實(shí)我們需要先了解一下Google發(fā)明這些技術(shù)最初是為了什么。

文件系統(tǒng)很簡(jiǎn)單，當(dāng)然是存文件的。Google之所以需要一個(gè)新的文件系統(tǒng)是因?yàn)镚oogle需要存儲(chǔ)的數(shù)據(jù)是整個(gè)互聯(lián)網(wǎng)加上各種索引等等。這樣的數(shù)據(jù)規(guī)模顯然無(wú)法通過(guò)現(xiàn)存的技術(shù)來(lái)支持，所以Google就發(fā)明了自己的文件系統(tǒng)。

能夠廉價(jià)的海量存儲(chǔ)數(shù)據(jù)是一切后續(xù)的基石。這個(gè)文件系統(tǒng)其實(shí)是整個(gè)構(gòu)架里面最為基礎(chǔ)和核心的東西。所以如果我們以此類(lèi)比去看，在Hadoop的世界里, Hadoop File System才是最牢固的基石，其他東西能變這個(gè)也不能變。

正是因?yàn)橛辛薍DFS，才成就了Hadoop的生態(tài)圈;而不是因?yàn)橛辛薍adoop的MapReduce。要不今天為什么Spark滿(mǎn)天飛呢?

MapReduce在2006到2012年的期間被炒翻天了。我們先不看為什么MapReduce被吵翻天。本質(zhì)上來(lái)講，Google發(fā)明這個(gè)技術(shù)最重要的目的是為了它的網(wǎng)頁(yè)搜索建立inverted index。搜索本質(zhì)上是搜索關(guān)鍵詞到網(wǎng)頁(yè)的一個(gè)對(duì)應(yīng)過(guò)程。網(wǎng)絡(luò)爬蟲(chóng)爬下來(lái)的網(wǎng)頁(yè)會(huì)被建立起從網(wǎng)頁(yè)里面的單詞到這個(gè)網(wǎng)頁(yè)的逆向索引。而這種索引的建立在整個(gè)互聯(lián)網(wǎng)的規(guī)模下是一個(gè)非常有挑戰(zhàn)的問(wèn)題。Google在MapReduce做出來(lái)之后最大的目的就是為了建立這個(gè)索引。而我們看到的論文里面的word count的例子也可以看做是這種逆序索引的一個(gè)簡(jiǎn)化的例子。

MapReduce后來(lái)就被神話(huà)了。MapReduce的論文，我其實(shí)很難區(qū)分是Google故意攪渾水還是Google自己也被自己的虛假成就給迷惑了。有一段時(shí)間，MapReduce在Google和數(shù)據(jù)庫(kù)元老、圖靈獎(jiǎng)獲得者M(jìn)ichael Stonebraker之間展開(kāi)了一場(chǎng)大撕逼?；旧系脑瓌t來(lái)說(shuō)，圖靈獎(jiǎng)獲得者覺(jué)得這個(gè)東西沒(méi)什么，很傻逼。而Google則認(rèn)為這是救市良藥。唯一的作用是在那些年里，MapReduce催生了無(wú)數(shù)的論文。大家把成年的各種問(wèn)題用MapReduce重新實(shí)現(xiàn)了一遍。應(yīng)該說(shuō)給廣大科研工作者創(chuàng)造了很多的研究機(jī)會(huì)。而對(duì)于實(shí)際上這個(gè)業(yè)界的毒害是很明顯的。Hadoop長(zhǎng)期以來(lái)就只提供了MapReduce的實(shí)現(xiàn)，笨，慢，資源浪費(fèi)等等。

至于BigTable，和其他兩個(gè)東西比其實(shí)是一個(gè)很突兀的東西。當(dāng)然BigTable并不是自己稱(chēng)呼自己是Map而是說(shuō)叫做Key-Value Store，又改一個(gè)名字叫做NoSQL。這些東西也是炒作概念了。 BigTable的最大的目的依然是建立 inverted index。只是不同的是，這個(gè)工具提供了incremental build的功能。這就是Google新一代的索引引擎Caffeine的基礎(chǔ)。

所以我們?nèi)绻莻€(gè)皮來(lái)看的話(huà)，這三駕馬車(chē)本質(zhì)上來(lái)說(shuō)首先是為了Google的互聯(lián)網(wǎng)搜索服務(wù)的。這樣的工具是否具有普適性。其實(shí)很難說(shuō)。文件系統(tǒng)當(dāng)然是好東西。但是Hadoop的文件系統(tǒng)其實(shí)被很多人罵。所以有人直接重新寫(xiě)了文件系統(tǒng)保留了接口。MapReduce這個(gè)東西，連做join都非要把兩個(gè)數(shù)據(jù)源硬合并成一個(gè)數(shù)據(jù)源，怎么樣來(lái)看都是模型本身太過(guò)于狹隘。做不得是一個(gè)很通用的計(jì)算模型。至于BigTable嗎，連Google自己的廣告部門(mén)都寧愿用MySQL也不肯用BigTable，這個(gè)沒(méi)有實(shí)現(xiàn)transaction支持的系統(tǒng)其對(duì)用戶(hù)寫(xiě)應(yīng)用有很多的負(fù)擔(dān)和要求。在Facebook里面一度有傳出來(lái)要用HBase取代MySQL的做法。但是不知道是HBase本身不成熟還是BigTable的概念的問(wèn)題，這個(gè)一直沒(méi)做成，而MySQL則一直活下去了。

Google的大數(shù)據(jù)技術(shù)的發(fā)展還可以展開(kāi)說(shuō)很多。但是我只是想強(qiáng)調(diào)我個(gè)人的一個(gè)觀點(diǎn)，Google的技術(shù)是為了Google內(nèi)部的使用而發(fā)展起來(lái)的，而它帶著明顯的為互聯(lián)網(wǎng)搜索服務(wù)的特征。所以它們本質(zhì)上來(lái)說(shuō)也是為了解決Google的問(wèn)題和需要，這些東西適合不適合外面其他的人，就是兩說(shuō)的了。

而我們必須說(shuō)，實(shí)際上，這些工具的確被開(kāi)源拷貝。但是我們同樣看到，開(kāi)源社區(qū)很快就走向其他的途徑了。比如SQL-ON Hadoop像HIVE就出來(lái)了。

HIVE這個(gè)東西，雖然下面還是用了MapReduce，它對(duì)用戶(hù)的編程模型就變了，變得不是那么的搜索相關(guān)了。下面的引擎現(xiàn)在也給換成更通用的TEZ了。

因此我這里最主要的觀點(diǎn)是Google本身發(fā)展出來(lái)的技術(shù)的目的性其實(shí)明確，沒(méi)有那么多的普適性。到開(kāi)源生態(tài)圈里面，慢慢就會(huì)有變化，而這種變化作為技術(shù)的最初發(fā)明者的Google其實(shí)并沒(méi)有迅速的接受并且改變。

Google為什么錯(cuò)失了大數(shù)據(jù)市場(chǎng)

我們繼續(xù)聊第三個(gè)問(wèn)題，為什么Google作為大數(shù)據(jù)的鼻祖一般的公司，有三駕馬車(chē)的奠基性工作，但是其實(shí)在這場(chǎng)大數(shù)據(jù)概念和由概念引起的賺錢(qián)風(fēng)潮里面沒(méi)有賺到錢(qián)，也沒(méi)有實(shí)際的話(huà)語(yǔ)權(quán)。很多人會(huì)說(shuō)很簡(jiǎn)單啊，不就是有Hadoop嗎?但是Hadoop是怎么來(lái)的?又是怎么就成了這個(gè)龐然大物?Google就任由Hadoop成長(zhǎng)嗎?

這個(gè)問(wèn)題我們先說(shuō)第一點(diǎn)，Google是個(gè)很奇葩的不會(huì)做生意的公司。(我先聲明，下面都代表我個(gè)人觀點(diǎn)。大家可以不同意，聽(tīng)聽(tīng)就好。)

Google做生意最大的特點(diǎn)在于，把自己當(dāng)聰明人把其他人都當(dāng)傻子。對(duì)傻子么, 騙一個(gè)是一個(gè)。先舉個(gè)例子，Google推出一個(gè)東西叫做Chromebook，一臺(tái)電腦打開(kāi)來(lái)，里面只有一個(gè)Chrome瀏覽器。然后Google的想法其實(shí)是，你上了瀏覽器的賊船以后你的所有數(shù)據(jù)都必須存在我這里了。我有了你的數(shù)據(jù)就可以這樣那樣的利用你的隱私給我更好的賺錢(qián)。你想吧，花錢(qián)買(mǎi)個(gè)硬件，里面只有瀏覽器，你愿意嗎?這是典型的廣告廠(chǎng)商的大數(shù)據(jù)思維。但是宣傳不是這樣的，宣傳是這樣多好多好。未來(lái)的趨勢(shì)就是什么都在“我Google”的Cloud上。

Chromebook曾經(jīng)很長(zhǎng)時(shí)間都賣(mài)得不好。等到Google開(kāi)放了本地硬盤(pán)存儲(chǔ)作為cache以后，這個(gè)局面才得到改善。我并不否認(rèn)有一部分的人一部分的場(chǎng)景需要Chromebook這樣的東西。但是如果把這個(gè)吹成了所有的人未來(lái)都是這樣的，那么到底是Google傻還是消費(fèi)者傻呢?

Google想給大家提供大數(shù)據(jù)的服務(wù)的念頭和實(shí)踐其實(shí)非常早。在2008年的時(shí)候，就主推一個(gè)叫做AppEngine的東西。如果有機(jī)會(huì)去聽(tīng)那個(gè)年代的Google的講話(huà)和宣傳，大概的說(shuō)法就是你看我們多牛逼，發(fā)表了三架馬車(chē)的論文。我們現(xiàn)在開(kāi)放了這些牛逼的技術(shù)的API，你只要把數(shù)據(jù)放到我們這里來(lái)，我們就替你搞定了。

問(wèn)題呢?很多時(shí)候用戶(hù)并不想把數(shù)據(jù)存到你的那個(gè)BigTable里面去。一方面是自己的數(shù)據(jù)進(jìn)到別人肚子里了，另外一方面BigTable的API實(shí)在難用，不如SQL寫(xiě)的痛快。

用戶(hù)，哪怕是用云的用戶(hù)，很多時(shí)候也是希望用一些看得見(jiàn)摸的著的東西。這種把用戶(hù)變成純粹寫(xiě)APP而所有的基礎(chǔ)架構(gòu)都要用Google的想法，在今天可能還是有些機(jī)會(huì)的。

但是在2008年的時(shí)候，不由得各大彎曲創(chuàng)業(yè)公司擔(dān)心Google是不是會(huì)把所有的創(chuàng)業(yè)公司都變成它龐大的基礎(chǔ)架構(gòu)上面寫(xiě)APP的人。所以AppEngine出來(lái)一直都不死不活的。沒(méi)人敢用啊，免費(fèi)都不敢。Google大概4年以后不得不學(xué)亞馬遜開(kāi)始賣(mài)虛擬機(jī)，叫做compute engine。但是那個(gè)時(shí)候已經(jīng)太晚了。當(dāng)然也不是沒(méi)傻子被騙，有個(gè)前幾天剛上市的SnapChat，就上了google的賊船?，F(xiàn)在每年要給Google交租很貴。

而且沒(méi)法換，數(shù)據(jù)都在人家那個(gè)奇葩的東西里，想倒出來(lái)還不是太容易。業(yè)務(wù)邏輯也和其他的云計(jì)算提供商不一樣，改用亞馬遜，程序都要重寫(xiě)。

換句話(huà)說(shuō)如果Google發(fā)表了論文，然后發(fā)起一個(gè)開(kāi)源項(xiàng)目，主推的話(huà)，今天的世界早就不一樣了。有影響力有技術(shù)，開(kāi)源都是Google的，妥妥的。用了AppEngine這個(gè)方式去，是Google一個(gè)比較大的戰(zhàn)略錯(cuò)誤。

為什么在08年推AppEngine，目的就是和當(dāng)年推Chromebook異曲同工。想要?jiǎng)e人把數(shù)據(jù)都放到它那里。才能更好地做廣告。

第二個(gè)原因其實(shí)在于Google的優(yōu)越感和對(duì)其他公司的低估。Google的技術(shù)領(lǐng)先業(yè)界很多年。但是其他公司比如Facebook，Linkedin有點(diǎn)規(guī)模的顯然不會(huì)選擇通過(guò)重寫(xiě)自己的應(yīng)用，綁到AppEngine的API上去來(lái)用Google的系統(tǒng)。所以很大程度上來(lái)說(shuō)，Hadoop是業(yè)界自然而然對(duì)于這些技術(shù)的一個(gè)回應(yīng)。Google不做肯定是有人做的。

在Hadoop出來(lái)的早年，那個(gè)難用：性能差，功能差。Google很開(kāi)心的和IBM買(mǎi)下了一個(gè)破舊的datacenter裝上Hadoop，以便可以讓學(xué)術(shù)界的人領(lǐng)會(huì)一下MapReduce的偉大，然后可以投奔Google。

這當(dāng)然沒(méi)有成功。相反的，正是因?yàn)榇蠹叶贾篮虶oogle的差距，這么多公司才會(huì)在Hadoop項(xiàng)目的早期就一路開(kāi)源互相合作來(lái)打造一個(gè)生態(tài)系統(tǒng)。我想Google的科技肯定是領(lǐng)先的，人才也是濟(jì)濟(jì)的。但是雙拳難敵四腿。一個(gè)從一開(kāi)始就試圖把大家綁到自己戰(zhàn)車(chē)上，又對(duì)周?chē)腥丝床黄鸬墓?，最后是?huì)被亂拳打死的。永遠(yuǎn)不要小看了整個(gè)世界。

在2008年的時(shí)候Hadoop和Google差距是巨大的，到2016年呢?這個(gè)差距就沒(méi)有那么大了，技術(shù)的先進(jìn)性只有這么多。一個(gè)人永遠(yuǎn)不要小看整個(gè)世界的力量。

第三個(gè)原因在于Google不是一個(gè)實(shí)誠(chéng)的公司。大家對(duì)Google都有信任危機(jī)。Google常常會(huì)通過(guò)發(fā)表不實(shí)的論文來(lái)誤導(dǎo)整個(gè)業(yè)界造成戰(zhàn)略欺騙，或者故意隱瞞重要的信息。比如說(shuō)，我對(duì)Google披露的信息是不信任的。

早年的時(shí)候，Google有過(guò)關(guān)于數(shù)據(jù)中心怎么建設(shè)的研究，內(nèi)部研究表明不是越大越好，差不多是最有效的。然而對(duì)外的宣傳卻一直是越大越好，大的才能省能耗。關(guān)于這個(gè)誤導(dǎo)了業(yè)界一段時(shí)間。

后來(lái)比較大的一件事情是Google的MapReduce數(shù)據(jù)跑起來(lái)非常的牛逼。但是Hadoop死活就是做不到那么好，無(wú)論穩(wěn)定性還是資源的精確控制。這個(gè)原因今天大家知道了，Google很早就開(kāi)始使用容器了。cgroup這個(gè)關(guān)鍵的補(bǔ)丁就是Google提交給linux的，但是Google從來(lái)沒(méi)有宣傳過(guò)它是用容器的。這個(gè)秘密是后來(lái)隨著Google人才流失而慢慢被大家知道的。這才有了twitter做Mesos的故事。

從某種程度上來(lái)說(shuō)，這種利用自己影響力來(lái)做戰(zhàn)略欺騙的做法可以一時(shí)得逞，若干年得逞。但是到最后當(dāng)然就是大家都不信任了。也可以這樣說(shuō)，今天Google有很多大殺器，但是沒(méi)有人愿意把自己的未來(lái)綁定到大殺器上。其他的云服務(wù)商，比如亞馬遜比如微軟，客戶(hù)所選擇的是通用的Hadoop體系，所以到最后這成了標(biāo)準(zhǔn)。Google也就沒(méi)有了話(huà)語(yǔ)權(quán)。一時(shí)的得利，換來(lái)整個(gè)行業(yè)對(duì)這個(gè)公司的警惕和不信任。值得不值得呢?

Google顯然意識(shí)到了信任危機(jī)，所以最近這兩年開(kāi)源的開(kāi)源，然后繼續(xù)開(kāi)源。但是，我想這種壞印象的形成，不容易改變了。

最后一個(gè)原因吧，Google始終都沒(méi)有明白一件事，就是解決一個(gè)或者幾個(gè)規(guī)模非常巨大的問(wèn)題的體系架構(gòu)，不一定就適用于解決無(wú)數(shù)多個(gè)問(wèn)題，但是每個(gè)問(wèn)題規(guī)模都不大的場(chǎng)景。

亞馬遜賣(mài)云服務(wù)，基本上來(lái)說(shuō)大客戶(hù)少，有的是龐大的小客戶(hù)，所以要支持無(wú)數(shù)多個(gè)小客戶(hù)。而Google解決互聯(lián)網(wǎng)搜索和跨大洲做事務(wù)處理的這些黑科技，這世界上絕大部分小客戶(hù)都用不上。

Hadoop這個(gè)東西好啊，20臺(tái)node就能工作了，worker很多，浪費(fèi)的機(jī)器很少。代價(jià)當(dāng)然是各種不穩(wěn)定各種沒(méi)辦法scale。Namenode出了名的爛。

但是在Google這種體系里面，系統(tǒng)的基本目標(biāo)是要支持幾千幾萬(wàn)臺(tái)機(jī)器的。那就必須有一些機(jī)器去做無(wú)用功。比如要watchdog啊，要記錄寫(xiě)log啊，這些機(jī)器的比例在大數(shù)據(jù)中心的前提條件下不高，但是哪怕只有20臺(tái)機(jī)器，這些服務(wù)每個(gè)起碼一臺(tái)機(jī)器也得占上。所以如果我要20臺(tái)的話(huà)，跑個(gè)Google版本的MapReduce，能不能跑起來(lái)先不說(shuō)，跑起來(lái)了估計(jì)18臺(tái)機(jī)器都在干雜活，兩臺(tái)機(jī)器能用。

Google雖然號(hào)稱(chēng)做大數(shù)據(jù)，它也確實(shí)解決了大數(shù)據(jù)運(yùn)算的問(wèn)題，比如說(shuō)互聯(lián)網(wǎng)搜索，比如說(shuō)圍棋，但是這套體系是不是和為大量的中小型用戶(hù)去服務(wù)的體系很好的切合，我認(rèn)為不是的。所以Google并沒(méi)有具備競(jìng)爭(zhēng)優(yōu)勢(shì)。它提供的大數(shù)據(jù)服務(wù)也就是看看好看而已了。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

大數(shù)據(jù)的起源和錯(cuò)失大數(shù)據(jù)市場(chǎng)鼻祖的Google

下一篇