国产免费人成在线观看视频,亚洲国产精品一,精品国产亚洲日韩欧洲一区

大數(shù)據(jù)

作者：麥克周?

寫在前面

做過分布式系統(tǒng)的人都知道，想要在大規(guī)模集群下處理高并發(fā)事務時同時滿足CAP（一致性、可用性、分區(qū)容錯），從理論上來說不可能，當然聽說最近谷歌已經(jīng)實現(xiàn)了這樣的分布式系統(tǒng)，但是總的來說確實非常難。對于社交媒體的海量日志文件，如果我們也提出了需要確保高可用、持續(xù)寫入數(shù)據(jù)、按照記錄順序返回數(shù)據(jù)等三條要求，你覺得是否可以實現(xiàn)？FaceBook的LogDevice實現(xiàn)了。

什么是日志

日志是記錄一系列序列化的系統(tǒng)行為的信息，我們需要確保它們能夠被保存在可靠的地方。對于應用程序來說，日志的作用一般有兩個，即Troubleshooting和顯示程序運行狀態(tài)。好的日志記錄方式可以提供我們足夠多定位問題的依據(jù)。對于一些復雜系統(tǒng)，例如數(shù)據(jù)庫，日志可以承擔數(shù)據(jù)備份、同步作用，很多分布式數(shù)據(jù)庫都采用“write-ahead”方案，在節(jié)點數(shù)據(jù)同步時通過日志文件恢復數(shù)據(jù)。

日志一般具有三個特性：

面向記錄：寫入日志的一定是孤立的行，而不是一個字節(jié)。日志實質(zhì)上是問題的最小單元，用戶也一定是讀取整行日志。日志的存儲原則上按照順序，即按照LSN（日志順序數(shù)字）存放，但是也不完全這么要求，所以日志系統(tǒng)可以優(yōu)先高寫入需求，對寫入失敗容錯。日志天生就是遞增的：也就是說，日志是不會修改的，那么也就意味著，日志系統(tǒng)的設計應該是以高寫入、高讀取為目標，不需要擔心更新操作的數(shù)據(jù)一致性問題。日志存儲周期長：可能是一天，也可能是一個月，甚至于一年。這也就意味著，日志的刪除規(guī)則一般都是按照時間或者空間進行設定的，具有固定的規(guī)則。

來個假如

假如我們要設計一個分布式日志存儲系統(tǒng)，你會怎么設計？

日志信息需要傳輸、存儲，為了實現(xiàn)穩(wěn)定的數(shù)據(jù)交換，我們可以采用Kafka作為消息中間件。

Kafka實際上是一個消息發(fā)布訂閱系統(tǒng)。Producer向某個Topic發(fā)布消息，而Consumer訂閱某個Topic的消息，進而一旦有新的關于某個Topic的消息，Broker會傳遞給訂閱它的所有Consumer。在Kafka中，消息是按Topic組織的，而每個Topic又會分為多個Partition，這樣便于管理數(shù)據(jù)和進行負載均衡。同時，它也使用了Zookeeper進行負載均衡。

Kafka在磁盤上的存取代價為O(1)，即便是普通服務器，每秒也能處理幾十萬條消息，并且它本身就是分布式架構(gòu)，也支持將數(shù)據(jù)并行加載到Hadoop。

大數(shù)據(jù)

上面這張圖是一個典型的采用消息中間件進行日志數(shù)據(jù)交換的系統(tǒng)設計架構(gòu)，但是沒有實現(xiàn)數(shù)據(jù)存儲，也沒有描述數(shù)據(jù)是如何被抽取并發(fā)送到Kafka的。

如果想要實現(xiàn)數(shù)據(jù)存儲，并描述清楚內(nèi)部處理流程，我們可以采用怎么樣的日志處理系統(tǒng)架構(gòu)呢？這里推薦你FaceBook的Scribe，它是一款開源的日志收集系統(tǒng)，在Facebook內(nèi)部已經(jīng)得到大量的應用。它能夠從各種日志源上收集日志，存儲到一個中央存儲系統(tǒng) （可以是NFS，分布式文件系統(tǒng)等）上，以便于進行集中統(tǒng)計分析處理。

Scribe最重要的特點是容錯性好。當后端的存儲系統(tǒng)奔潰時，Scribe會將數(shù)據(jù)寫到本地磁盤上，當存儲系統(tǒng)恢復正常后，Scribe將日志重新加載到存儲系統(tǒng)中。

大數(shù)據(jù)

Scribe的架構(gòu)比較簡單，主要包括三部分，分別為Scribe Agent， Scribe和存儲系統(tǒng)。Scribe Agent實際上是一個Thrift Client。Scribe接收到Thrift Client發(fā)送過來的數(shù)據(jù)，根據(jù)配置文件，將不同topic的數(shù)據(jù)發(fā)送給不同的對象。存儲系統(tǒng)實際上就是Scribe中的Store，當前Scribe支持非常多的Store。

貌似市面上已經(jīng)有很多分布式日志收集系統(tǒng)了，為什么FaceBook還需要推出LogDevice呢？而且FaceBook自己已經(jīng)有了Scribe，為什么還要繼續(xù)設計LogDevice?因為Scribe更多實現(xiàn)了日志數(shù)據(jù)的收集，它不是一個完整的日志處理、存儲、讀取服務，系統(tǒng)設計也較為死板，存儲更多依賴HDFS，使用過程中一定出現(xiàn)了不能滿足自身需求的情況。而對于開源的哪些分布式日志收集系統(tǒng)，更多的是集成各個開源組件，共同完成日志存儲系統(tǒng)設計需求。對于FaceBook的工程師來說，他們一貫秉承著用于創(chuàng)新的精神，想想Apache Cassandra，其實當時已經(jīng)有HBase等成熟的NoSQL數(shù)據(jù)庫，但是由于存在中心節(jié)點等諸多設計上的限制，F(xiàn)aceBook自己搞了一個全新的無中心化設計的架構(gòu)，即便在初期飽受質(zhì)疑，后續(xù)也在不斷地改進，到目前為止，Cassandra真正進入到了它的黃金時代。

LogDevice

設計背景

FaceBook擁有大量的分布式服務用于保存和處理數(shù)據(jù)，如果想要構(gòu)建高可用的數(shù)據(jù)密集型分布式服務，F(xiàn)aceBook認為，一定需要保存日志。為了處理FaceBook內(nèi)部日志的高強度負載、性能需求，F(xiàn)aceBook把LogDevice設計成了可以調(diào)節(jié)的系統(tǒng)，而不是一套方案應對所有需求。

需求整理

對于日志服務的需求，也就是對于LogDevice的需求，第一條就是服務必須永遠在線，不允許出現(xiàn)離線狀態(tài)，因為FaceBook內(nèi)部各個系統(tǒng)都需要保存日志，也就是說高可用。第二條是持久性，也就是說不允許丟數(shù)據(jù)，特別是返回客戶端寫入成功之后，絕對不能丟失數(shù)據(jù)。第三條是存在一定程度的數(shù)據(jù)讀取，并且通常是讀取最近寫入的日志數(shù)據(jù)，這一條實質(zhì)上是要求寫入響應快。

設計思路

對于整個日志系統(tǒng)來說，整個設計應該更加關注數(shù)據(jù)的寫入速度，怎么樣設計才能具有更快的寫入速度，并能支撐一定的讀取速度，所以需要看看數(shù)據(jù)是如何被寫入到LogDevice的。

如果需要提升日志文件的寫入速率，或者更高一點要求，希望沒有寫入速率限制，你該怎么實現(xiàn)？我們可以模仿分布式文件系統(tǒng)或者分布式數(shù)據(jù)庫的設計方式，采用多處副本方式，即一個文件有多個副本，那么每次日志寫入請求就有了幾處寫入地址選擇，而不是單一一個節(jié)點，或者幾個特定的節(jié)點。這樣做的好處是，當集群中的一部分節(jié)點宕機或者失去聯(lián)系時，日志寫入請求不會受到大規(guī)模的干擾，并且寫入負載能夠做到相對均衡。

大數(shù)據(jù)

數(shù)據(jù)副本設計，有沒有其他系統(tǒng)實現(xiàn)？

有，非常多，例如HDFS、Cassandra。我們這里還是以FaceBook自己出品的Cassandra為例。

Cassandra在多個節(jié)點上存儲副本以確?？捎眯院蛿?shù)據(jù)容錯。副本策略決定了副本的放置方法。集群中的副本數(shù)量被稱為復制因子，復制因子為1表示每行只有一個副本，復制因子為2表示每行有兩個副本，每個副本不在同一個節(jié)點。所有副本同等重要，沒有主次之分。作為一般規(guī)則，副本因子不應超過在集群中的節(jié)點的樹木。當副本因子超過節(jié)點數(shù)時，寫入不會成功，但讀取只要提供所期望的一致性級別即可滿足。目前Cassandra中實現(xiàn)了不同的副本策略，包括：

SimpleStrategy：復制數(shù)據(jù)副本到協(xié)調(diào)者節(jié)點的N-1個后繼節(jié)點上；NetworkTopologyStrategy：用于多數(shù)據(jù)中心部署。這種策略可以指定每個數(shù)據(jù)中心的副本數(shù)。在同數(shù)據(jù)中心中，它按順時針方向直到另一個機架放置副本。它嘗試著將副本放置在不同的機架上，因為同一機架經(jīng)常因為電源、制冷和網(wǎng)絡問題導致不可用。

多數(shù)據(jù)中心集群最常見的兩種配置方式是：

每個數(shù)據(jù)中心2個副本：此配置容忍每個副本組單節(jié)點的失敗，并且仍滿足一致性級別為ONE的讀操作。每個數(shù)據(jù)中心3個副本：此配置可以容忍在強一致性級別LOCAL_QUORUM基礎上的每個副本組1個節(jié)點的失敗，或者容忍一致性級別ONE的每個數(shù)據(jù)中心多個節(jié)點的失敗。

LogDevice將日志里的記錄順序和實際存儲的順序區(qū)分開來，通過序列器產(chǎn)生一個學號，對每一行存儲的日志進行重新序列標定。一旦一行記錄被標定了這個序列號，接下來該條記錄（數(shù)據(jù)）就會被保存在集群中任一位置。注意，這里提到的序列號不是一個數(shù)字，而是一對數(shù)字，第一個數(shù)字叫做“ epoch number”，第二個是相對于第一個的偏移量。序列號生成器本身也是需要做好容災的，也就是說，一旦一個序列號生成器服務不在線，另一個一定要被立即啟用，而它生成的序列號要比當前已經(jīng)存在的序列號大。FaceBook使用ZooKeeper保存序列號（Epoch Number）。

這里為什么要選擇ZooKeeper存儲序列號？

ZooKeeper作為Hadoop
項目中的一個子項目，是Hadoop集群管理的一個必不可少的模塊，它主要用來控制集群中的數(shù)據(jù)，如它管理Hadoop集群中的NameNode，還有HBase中Master節(jié)點的選舉機制、服務器之間的狀態(tài)同步等。除此之外，ZooKeeper還可以被用在構(gòu)建高可用性集群、統(tǒng)一命名服務管理、分布式緩存機制設計、配置文件管理、集群管理、分布式鎖機制設計、隊列管理等等。

存儲序列號的思路配置文件管理類似。

配置文件的管理在分布式應用環(huán)境中很常見，例如同一個應用系統(tǒng)需要多臺PC Server運行，但是它們運行的應用系統(tǒng)的某些配置項是相同的，如果要修改這些相同的配置項，那么就必須同時修改每臺運行這個應用系統(tǒng)的PC Server，這樣非常麻煩而且容易出錯。諸如這樣的配置信息完全可以交給ZooKeeper來管理，將配置信息保存在ZooKeeper的某個目錄節(jié)點中，然后將所有需要修改的應用機器監(jiān)控配置信息的狀態(tài)，一旦配置信息發(fā)生變化，每臺應用機器就會收到ZooKeeper的通知，然后從ZooKeeper獲取新的配置信息應用到系統(tǒng)中。

大數(shù)據(jù)

如上圖所示，實際應用時我們可以通過自動監(jiān)測Master節(jié)點內(nèi)是否形成了新的配置文件，并在檢測到形成了新的配置文件后主動上傳到ZooKeeper，并下發(fā)到各Slave節(jié)點加載到內(nèi)存中用于搜索任務的處理，無需管理人員在發(fā)現(xiàn)Master節(jié)點形成了新的配置文件之后，重啟Master節(jié)點才將新的配置文件上傳，顯然降低了Master節(jié)點與Slave節(jié)點間配置文件同步的繁瑣性，提高了設備的智能性，降低了同步成本。

根據(jù)FaceBook的設計思路，由于日志文件本身是可以隨機讀的，并且很多節(jié)點上都存在數(shù)據(jù)，這有點像小文件存儲方式，每個節(jié)點上的數(shù)據(jù)都可以被讀取，因此不會造成IO和網(wǎng)絡資源的浪費。

數(shù)據(jù)是怎么做到負載均衡的？

FaceBook沒有在文章中描述實現(xiàn)原理。我們可以看看HDFS是怎么實現(xiàn)的。
數(shù)據(jù)平衡過程由于平衡算法的原因造成它是一個迭代的、周而復始的過程。每一次迭代的最終目的是讓高負載的機器能夠降低數(shù)據(jù)負載，所以數(shù)據(jù)平衡會最大程度上地使用網(wǎng)絡帶寬。下圖1數(shù)據(jù)平衡流程交互圖顯示了數(shù)據(jù)平衡服務內(nèi)部的交互情況，
包括NameNode和DataNode。

步驟分析如下：

數(shù)據(jù)平衡服務首先要求NameNode生成DataNode數(shù)據(jù)分布分析報告。選擇所有的DataNode機器后，要求NameNode匯總數(shù)據(jù)分布的具體情況。確定具體數(shù)據(jù)塊遷移路線圖，保證網(wǎng)絡內(nèi)最短路徑，并且確保原始數(shù)據(jù)塊被刪除。實際開始數(shù)據(jù)塊遷移任務。數(shù)據(jù)遷移任務完成后，通過NameNode可以刪除原始數(shù)據(jù)塊。NameNode在確保滿足數(shù)據(jù)塊最低副本條件下選擇一塊數(shù)據(jù)塊刪除。NameNode通知數(shù)據(jù)平衡服務任務全部完成。

HDFS數(shù)據(jù)在各個數(shù)據(jù)節(jié)點間可能保存的格式不一致。當存放新的數(shù)據(jù)塊(一個文件包含多個數(shù)據(jù)塊)時,NameNode在選擇數(shù)據(jù)節(jié)點作為其存儲地點前需要考慮以下幾點因素：

當數(shù)據(jù)節(jié)點正在寫入一個數(shù)據(jù)塊時，會自動在本節(jié)點內(nèi)保存一個副本。跨節(jié)點備份數(shù)據(jù)塊。相同節(jié)點內(nèi)的備份數(shù)據(jù)塊可以節(jié)約網(wǎng)絡消耗。HDFS數(shù)據(jù)均勻分布在整個集群的數(shù)據(jù)節(jié)點上。

FaceBook采用內(nèi)存+磁盤的方式存儲日志，HDD硬盤可以達到100-200MBps每秒的順序讀寫速度，隨機讀寫速度頂峰可以達到100-140MBps每秒。用來存儲日志的服務被稱為LogsDB，它是針對寫入性能進行特殊優(yōu)化過的。LogsDB本身又是構(gòu)建于RocksDB之上的，RocksDB是基于LSM樹的有序Key-Value存儲層。RocksDB的每一個實例對應LogsDB的分區(qū)，當寫入日志文件時，會寫入到最新的分區(qū)，也就是最近訪問過的RocksDB實例（以log id、LSN排序），然后以順序方式保存到磁盤（稱為SST文件）。這種方式確保了寫入的方式是順序方式，但是需要合并文件（當達到LogsDB分區(qū)的最大文件數(shù)量時）。

總結(jié)

就在我寫文章的時候，微博因為“鹿晗介紹女朋友”事件奔潰了，系統(tǒng)啟動之后的數(shù)據(jù)同步、驗證過程，日志的作用非常重要。目前LogDevice還沒有開源，但是從它的介紹來看，它應該是結(jié)合了FaceBook內(nèi)部的多個開源項目的精髓，例如Cassandra，它的無中心化存儲、碎片化存儲（SSTable）、SSTable文件合并等等優(yōu)秀的特性，為確保日志文件的高速寫入、快速讀取提供技術(shù)支撐。FaceBook已經(jīng)明確今年年底會開源LogDevice，喜歡分布式實時處理、存儲系統(tǒng)的同學們，就等著它了。

免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內(nèi)容或斷開相關鏈接。

LogDevice：來自Facebook的分布式日志數(shù)據(jù)存儲系統(tǒng)

下一篇