數(shù)據(jù)收集工具的設(shè)計(jì)與最佳實(shí)踐

大數(shù)據(jù)

作者:孫健波

數(shù)據(jù)收集工具對(duì)比

目前社區(qū)已經(jīng)不乏大量優(yōu)秀的數(shù)據(jù)收集工具,如有名的 Elastic Stack(Elasticsearch、Logstash、Kibana)中的 Logstash;CNCF 基金會(huì)里面有名的 Fluentd;InfluxData 公司 TICK Stack 中的 Telegraf;Google 出品為 Kubernetes 定制的 cAdvisor;Apache 基金會(huì)中的頂級(jí)項(xiàng)目 Flume。除了早期誕生的諸如 Fluentd、Flume 等項(xiàng)目,其他項(xiàng)目都是為特定的平臺(tái)業(yè)務(wù)定制而成,然后在隨后的開源中不斷進(jìn)化,變得更為通用。所以針對(duì)特定業(yè)務(wù)量身定制一款數(shù)據(jù)收集工具,是一個(gè)較為普遍的需求,也是出現(xiàn)如此多“輪子”的主要原因。

讓我們先來看看這幾種知名開源數(shù)據(jù)收集工具有哪些特點(diǎn)。

Flume: 毋庸置疑,在流式數(shù)據(jù)處理的場景中,F(xiàn)lume 絕對(duì)是開源產(chǎn)品中的不二選擇。其架構(gòu)分為 Source、Channel、Sink 三部分,分別負(fù)責(zé)從上游服務(wù)端獲取數(shù)據(jù)、暫存數(shù)據(jù)以及解析并發(fā)送到下游。Flume 尤以靈活的擴(kuò)展性和強(qiáng)大的容錯(cuò)處理能力著稱,非常適合在大數(shù)據(jù)量的情況下做數(shù)據(jù)解析、中轉(zhuǎn)以及上下游適配的工作。另一方面,F(xiàn)lume 也有一些缺陷,如解析與發(fā)送都耦合在 Sink 模塊,用戶在編寫 Sink 插件時(shí)不得不編寫解析的邏輯,無法復(fù)用一些常規(guī)的解析方式;依賴 JVM 運(yùn)行環(huán)境,作為服務(wù)端程序可以接受,但是部署和運(yùn)行一個(gè)數(shù)據(jù)收集客戶端程序則變得相對(duì)笨重;Flume 的配置融合了 Channel 部分,基本配置并不簡單,用戶想用起來需要的前置知識(shí)較多。Logstash: 隨著 Elastic Stack 廣受熱捧,Logstash 自然也成為了技術(shù)圈家喻戶曉的工具,而 Logstash 本身的強(qiáng)大功能也確實(shí)名副其實(shí),其架構(gòu)分為 Inputs、Filters 以及 Outputs 三部分。Inputs 作為所有輸入端的集合,包含了各類數(shù)據(jù)輸入插件;Filters 包括解析與數(shù)據(jù)轉(zhuǎn)換兩部分的插件集合,其中就包含了大名鼎鼎的 Grok 解析方式,幾乎可以解析所有類型的數(shù)據(jù);Outputs 則是輸出端的集合。毫無疑問,Logstash 幾乎是使用 Elastic Stack 方案時(shí)作為數(shù)據(jù)收集的唯一選擇。但是同樣的,Logstash 也是基于 JVM 運(yùn)行的,作為一個(gè)客戶端程序相對(duì)較重;當(dāng)你希望把它作為一個(gè) agent 收集一些機(jī)器的基本信息時(shí),它也無能為力。于是除了 Logstash 之外 Elastic Stack 家族中又增加了 beats 這個(gè)成員,但是如果僅僅選擇 beats,其功能又太過單薄。Fluentd: Fluentd 也是數(shù)據(jù)收集界的老牌重量級(jí)選手,如果你玩容器、玩 Kubernetes,那么就一定聽說過 CNCF(Cloud Native Computing Foundation),而 Fluentd 就是其中的一員,成為了容器圈里多數(shù)人日志收集處理的首選。Fluentd 的架構(gòu)與 Logstash 相似,也大致分為輸入、輸出以及中間的處理層,但與之不同的是,其中間的處理層除了包括常規(guī)的 filter(解析) 以及 buffer(數(shù)據(jù)暫存) 以外,還包含了一個(gè) routing(路由) 功能,這是 Fluentd 的一大特色。routing 功能使得 Fluentd 能夠?qū)⒆约悍Q為一個(gè)統(tǒng)一的日志管理中間層,將所有的數(shù)據(jù)輸入和輸出管理起來,按照需求將輸入的數(shù)據(jù)路由到一個(gè)或多個(gè)輸出端。這是一個(gè)非常先進(jìn)的設(shè)計(jì),其他類似的開源軟件往往要寫多份配置文件才能達(dá)到這個(gè)效果。Fluentd 由 CRuby 實(shí)現(xiàn),性能表現(xiàn)優(yōu)良但依賴 Ruby 環(huán)境;相較于前面兩者,F(xiàn)luentd 插件支持相對(duì)較少;其配置也過于復(fù)雜,使用門檻較高。Telegraf/cAdvisor: 這兩款均是 Go 語言編寫的針對(duì)系統(tǒng)信息數(shù)據(jù)收集的開源工具,其側(cè)重點(diǎn)在 metric 收集,相較于通用的日志收集和處理,其功能面較窄,但是性能方面均表現(xiàn)優(yōu)異。Telegraf 配合 influxdb,可以讓你對(duì)機(jī)器各個(gè)維度的信息了如指掌;而 cAdvisor 更是 Kubernetes 的親兒子,處理容器資源信息幾無敵手。但是這兩款工具并無意于發(fā)力通用數(shù)據(jù)收集的功能,功能上可能無法滿足一些日志收集的場景。

了解了以上這些開源軟件的特點(diǎn)后,下面我們開始深入介紹構(gòu)建一款數(shù)據(jù)收集工具會(huì)遇到哪些設(shè)計(jì)與挑戰(zhàn),以此為你的業(yè)務(wù)量身定制。

數(shù)據(jù)收集工具設(shè)計(jì)

架構(gòu)設(shè)計(jì)

主流數(shù)據(jù)收集工具的主架構(gòu)基本分為 reader、parser,以及 sender 三部分,如圖 1 所示。除了這三個(gè)日志收集常規(guī)組成部分,還應(yīng)該包含可選模塊,如基于解析過后的數(shù)據(jù)轉(zhuǎn)換 (filter/transformer) 以及數(shù)據(jù)暫存管道 (Channel/Buffer)。為了盡可能復(fù)用,每個(gè)組成部分都應(yīng)該是插件式的,可以編寫不同類型插件并且靈活地組裝。Channel/Buffer 部分也應(yīng)該提供基于內(nèi)存或者基于磁盤的選擇。

大數(shù)據(jù)

圖 1 數(shù)據(jù)收集架構(gòu)設(shè)計(jì)

對(duì)于 Reader、Parser、Sender 等插件共同組裝的業(yè)務(wù)數(shù)據(jù)收集單元,我們稱之為一個(gè)運(yùn)行單元 (Runner),數(shù)據(jù)收集工具必須可以同時(shí)運(yùn)行多個(gè) Runner,且每個(gè) Runner 可以支持更新。

更新可以通過多種方式實(shí)現(xiàn),最常規(guī)的是手動(dòng)更新配置然后重啟;更好的設(shè)計(jì)是支持熱更新,不需要重啟,自動(dòng)識(shí)別配置文件的變化;還可以設(shè)計(jì)一個(gè)漂亮的 web 界面做配置的變更,以此引導(dǎo)用戶使用并解決數(shù)據(jù)收集配置復(fù)雜、用戶使用門檻高的難題。所以在整體架構(gòu)之上還應(yīng)該構(gòu)建一個(gè)簡單的 API 層,支持 web 界面的功能。

語言選擇

數(shù)據(jù)收集屬于輕量級(jí)的 agent 服務(wù),一般選擇的語言為 C/C++ 或者近年來特別火熱的 Go,而 Go 語言已經(jīng)成為這類數(shù)據(jù)收集工具編寫的大眾選擇,如 Logstash 新開發(fā)的 beats 工具、Telegraf、cAdvisor 等等,均使用 Go 語言開發(fā)。

社區(qū)已經(jīng)有很多文章描述使用 Go 語言的好處,在此就不再贅述。總體而言用 Go 語言開發(fā)門檻較低,性能優(yōu)良,支持跨多種操作系統(tǒng)平臺(tái),部署也極為簡便。

分模塊設(shè)計(jì)

數(shù)據(jù)讀取模塊(Reader)

顧名思義,數(shù)據(jù)讀取模塊負(fù)責(zé)從不同數(shù)據(jù)源中讀取數(shù)據(jù),設(shè)計(jì) Reader 模塊的時(shí)候,需要支持插件式數(shù)據(jù)源接入,且將接口設(shè)計(jì)得足夠簡單,方便大家一同貢獻(xiàn)更多的讀取數(shù)據(jù)源驅(qū)動(dòng)。

自定義數(shù)據(jù)源,最基本的只需要實(shí)現(xiàn)如下兩個(gè)方法即可。

ReadLine() stringSyncMeta() error

從數(shù)據(jù)來源上分類,數(shù)據(jù)讀取大致可分為從文件讀取、從數(shù)據(jù)存儲(chǔ)服務(wù)端讀取以及從消息隊(duì)列中讀取三類。

每一類 Reader 均在發(fā)送成功后通過 SyncMeta() 函數(shù)記錄讀取的位置,保證數(shù)據(jù)不會(huì)因?yàn)?runner 意外中斷而丟失。

從文件讀取數(shù)據(jù)?最為常見,針對(duì)文件的不同 rotate 方式,有不同的讀取模式,主要分為三類:

file 模式:使用 file 模式的經(jīng)典日志存儲(chǔ)方式類似于 nginx 的日志 rotate 方式,日志名稱是固定的,如access.log,rotate 時(shí)直接 move 成新的文件如access.log.1,新的數(shù)據(jù)仍然寫入到access.log。即我們永遠(yuǎn)只針對(duì)access.log這一個(gè)固定名稱的文件進(jìn)行收集。而檢測(cè)文件是否 rotate 的標(biāo)志是文件的 inode 號(hào),在 windows 下則是 fd 的屬性編號(hào)。當(dāng)文件 rotate 后,則從文件頭開始讀取。dir 模式:使用 dir 模式的經(jīng)典日志存儲(chǔ)方式為整個(gè)文件夾下存儲(chǔ)單個(gè)服務(wù)的業(yè)務(wù)日志,文件夾下的日志通常有統(tǒng)一前綴,后綴為時(shí)間戳,根據(jù)日志的大小 rotate 到新的文件。如配置的文件夾為 logdir,下面的文件為?logdir/a.log.20170621,?logdir/a.log.20170622,?logdir/a.log.20170623, …。每次分割后新命名文件并以時(shí)間戳為后綴,并且該文件夾下只有這一個(gè)服務(wù)。dir 模式首先會(huì)對(duì)文件夾下文件整體排序,依次讀取各個(gè)文件,讀完最后一個(gè)文件后會(huì)查找時(shí)間 (文件 ctime) 更新文件并重新排序,依次循環(huán)。dir 模式應(yīng)該將多個(gè)文件數(shù)據(jù)串聯(lián)起來,即數(shù)據(jù)讀取過程中 a.log.20170621 中最后一行的下一行就是 a.log.20170622 的第一行。該模式下自然還包括諸如文件前綴匹配、特定后綴忽略等功能。tailx 模式:以通配的路徑模式讀取,讀取所有被通配符匹配上的日志文件,對(duì)于單個(gè)日志文件使用 file 模式不斷追蹤日志更新,例如匹配路徑的模式串為?/home/*/path/*/logdir/*.log*, 此時(shí)會(huì)展開并匹配所有符合該表達(dá)式的文件,并持續(xù)讀取所有有數(shù)據(jù)追加的文件。每隔一定時(shí)間,重新獲取一遍模式串,添加新增的文件。

除此之外,還應(yīng)支持包括多文件編碼格式支持、讀取限速等多種功能。

從數(shù)據(jù)存儲(chǔ)服務(wù)中讀取數(shù)據(jù),可以采用時(shí)間戳策略,在諸如 MongoDB、MySQL 中記錄的數(shù)據(jù),包含一個(gè)時(shí)間戳字段,每次讀取數(shù)據(jù)均按這個(gè)時(shí)間戳字段排序,以此獲得新增的數(shù)據(jù)或者數(shù)據(jù)更新。另一方面,需要為用戶設(shè)計(jì)類似定時(shí)器等策略,方便用戶多次運(yùn)行,不斷同步收集服務(wù)器中的數(shù)據(jù)。

從消息隊(duì)列中讀取數(shù)據(jù),這個(gè)最為簡單,直接從消息隊(duì)列中消費(fèi)數(shù)據(jù)即可。注意記錄讀取的 Offset,防止數(shù)據(jù)丟失。

解析模塊 (Parser)

解析模塊負(fù)責(zé)將數(shù)據(jù)源中讀取的數(shù)據(jù)解析到對(duì)應(yīng)的字段及類型,目前常見的解析器包括:

csv parser: 按照分隔符解析成對(duì)應(yīng)字段和類型,分隔符可以自定義,如常見的制表符 (\t)、空格 (?)、逗號(hào) (,) 等等。json parser: 解析 json 格式的數(shù)據(jù),json 是一種自帶字段名稱及類型的序列化協(xié)議,解析 json 格式僅需反序列化即可?;谡齽t表達(dá)式 (grok) parser: Logstash grok 解析非常強(qiáng)大,但是它并不指定類型,而 Telegraf 做了一個(gè)增強(qiáng)版的 grok 解析器,除了基本的正則表達(dá)式和字段名稱,還能標(biāo)志數(shù)據(jù)類型,基本上能標(biāo)志數(shù)據(jù)類型的 grok 解析器已經(jīng)是一個(gè)完備的數(shù)據(jù)解析器了,可以解析幾乎所有數(shù)據(jù)。當(dāng)然,類型解析是相對(duì)復(fù)雜的功能,可能涉及到具體業(yè)務(wù),如時(shí)間類型等。raw parser: 將讀取到的一行數(shù)據(jù)作為一個(gè)字段返回,簡單實(shí)用。nginx/apache parser: 讀取 nginx/apache 等常見配置文件,自動(dòng)生成解析的正則表達(dá)式,解析 nginx/apache 日志。

除了以上幾種內(nèi)置的解析器,同 Reader 一樣,你也需要實(shí)現(xiàn)自定義解析器的插件功能,而 Parser 極為簡單,只需要實(shí)現(xiàn)最基本的 Parse 方法即可。

Parse(lines []string) (datas []sender.Data, err error)

每一種 Parser 都是插件式結(jié)構(gòu),可以復(fù)用并任意選擇。在不考慮解析性能的情況下,上述幾種解析器基本可以滿足所有數(shù)據(jù)解析的需求,將一行行數(shù)據(jù)解析為帶有 Schema(具備字段名稱及類型)的數(shù)據(jù)。但是當(dāng)你希望對(duì)某個(gè)字段做操作時(shí),純粹的解析器可能不夠用。于是作為補(bǔ)充,數(shù)據(jù)收集工具還需要提供 Transformer/Filter 的功能。

Transformer

Transformer 是 Parser 的補(bǔ)充,針對(duì)字段進(jìn)行數(shù)據(jù)變化。

舉例來說,如果你有個(gè)字段想做字符串替換,比如將所有字段名稱為”name”的數(shù)據(jù)中,值為”Tom”的數(shù)據(jù)改為”Tim”,那么可以添加一個(gè)字符串替換的 Transformer,針對(duì)”name”這個(gè)字段做替換。

又比如說,你的字段中有個(gè)”IP”,你希望將這個(gè) IP 解析成運(yùn)營商、城市等信息,那么你就可以添加一個(gè) Transformer 做這個(gè) IP 信息的轉(zhuǎn)換。

當(dāng)然,Transformer 應(yīng)該可以多個(gè)連接到一起連動(dòng)合作。

設(shè)計(jì) Transformer 模塊是一件有趣而富有挑戰(zhàn)的事情,這涉及到 Tranformer 功能多樣性帶來的 3 個(gè)問題:

多樣的功能必然涉及到多樣的配置,如何將不同的配置以優(yōu)雅而統(tǒng)一的方式傳達(dá)到插件中?多樣的功能也涉及到不同功能的描述,如何將功能描述以統(tǒng)一的形式表達(dá)給用戶,讓用戶選擇相應(yīng)的配置?如何將上述兩個(gè)問題盡可能簡單地解決,讓用戶編寫 Transformer 插件時(shí)關(guān)注盡可能少的問題?

這里我們留個(gè)懸念,感興趣的朋友可以閱讀 logkit Transformer 相關(guān) (https://github.com/qiniu/logkit/tree/develop/transforms) 的源碼尋求答案,筆者后續(xù)也會(huì)在 logkit 的 wiki 頁面中描述。

Channel

經(jīng)過解析和變換后的數(shù)據(jù)可以認(rèn)為已經(jīng)處理好了,此時(shí)數(shù)據(jù)會(huì)進(jìn)入待發(fā)送隊(duì)列,即 Channel 部分。Channel 的好壞決定了一個(gè)數(shù)據(jù)收集發(fā)送工具的性能及可靠程度,是數(shù)據(jù)收集工具中最具技術(shù)含量的一環(huán)。

數(shù)據(jù)收集工具,顧名思義,就是將數(shù)據(jù)收集起來,再發(fā)送到指定位置,而為了將性能最優(yōu)化,我們必須把收集和發(fā)送解耦,中間提供一個(gè)緩沖帶,而 Channel 就是負(fù)責(zé)數(shù)據(jù)暫存的地方。有了 Channel,讀取和發(fā)送就解耦了,可以利用多核優(yōu)勢(shì),多線程發(fā)送數(shù)據(jù),提高數(shù)據(jù)吞吐量。

大數(shù)據(jù)

圖 2 ft sender

一種設(shè)計(jì)思路是把整個(gè) Channel,包括多線程發(fā)送做成一個(gè)框架,封裝成一個(gè)特殊的 sender,我們稱這個(gè)特殊的 sender 為”ft sender”。其架構(gòu)如圖 2 所示,ft sender 與其他 sender 一樣也提供了 Send() 方法,解析完畢后的數(shù)據(jù)調(diào)用 Send 方法實(shí)際上就是將數(shù)據(jù)傳入到 Channel 中,然后再由 ft sender 處理多線程發(fā)送邏輯,將從隊(duì)列中取出的數(shù)據(jù)交由實(shí)際的 sender 多線程發(fā)送。

同時(shí)需要為用戶提供磁盤和內(nèi)存兩大隊(duì)列方式選擇。

如果追求最高的可靠性,就使用磁盤隊(duì)列,數(shù)據(jù)會(huì)暫存到本地磁盤中,發(fā)送后自動(dòng)刪除,即使突然宕機(jī)也不怕丟失數(shù)據(jù)。

如果追求更高的性能,可以使用內(nèi)存隊(duì)列,其實(shí)現(xiàn)方式就是 Go 語言的 Channel 機(jī)制,穩(wěn)定而簡單,在關(guān)停過程中也需要將 Channel 中的數(shù)據(jù)落地到磁盤,在隨后重新啟動(dòng)時(shí)載入,正常使用過程中也沒有數(shù)據(jù)丟失的風(fēng)險(xiǎn)。得益于 Go 語言的同步 Channel 機(jī)制,甚至可以把內(nèi)存隊(duì)列的大小設(shè)置為 0,以此實(shí)現(xiàn)多線程發(fā)送,這樣使用內(nèi)存隊(duì)列即使宕機(jī),也沒有了數(shù)據(jù)丟失的風(fēng)險(xiǎn)。

除了正常地作為待發(fā)送數(shù)據(jù)的等待隊(duì)列以外,Channel 還可以具有如下一些非常有趣而實(shí)用的功能:

錯(cuò)誤數(shù)據(jù)篩選

并不是所有解析完畢的數(shù)據(jù)發(fā)送到服務(wù)端就一定是正確的,有時(shí)服務(wù)端指定的數(shù)據(jù)格式和解析完畢的格式存在出入,或者數(shù)據(jù)中含有一些非法字符等情況,則數(shù)據(jù)不能發(fā)送成功。此時(shí),如果一批數(shù)據(jù)中只有一條這樣錯(cuò)誤的數(shù)據(jù),就很容易導(dǎo)致這一整批都失敗。

錯(cuò)誤數(shù)據(jù)篩選的作用就在于,把這一整批數(shù)據(jù)中對(duì)的數(shù)據(jù)篩選出來,留下錯(cuò)誤的數(shù)據(jù),將正確的發(fā)送出去。

做法很簡單,當(dāng)發(fā)送時(shí)遇到服務(wù)端返回存在格式錯(cuò)誤的數(shù)據(jù)時(shí),將這一批數(shù)據(jù)平均拆分為兩批(二分),再放入隊(duì)列,等待下次發(fā)送。再遇到錯(cuò)誤時(shí)則再拆分,這樣不斷二分,直到一個(gè)批次中只有一條數(shù)據(jù),且發(fā)送失敗,那我們就找到了這個(gè)錯(cuò)誤數(shù)據(jù),可以選擇丟棄或記錄。

借助隊(duì)列,我們很容易就能將錯(cuò)誤數(shù)據(jù)篩選出來。

包拆分(大包拆小包)

包拆分的由來是服務(wù)端不可能無限制開放每個(gè)批次數(shù)據(jù)傳輸?shù)拇笮?,出于服?wù)器性能、傳輸性能等原因,總有會(huì)有一些限制。

當(dāng)一個(gè)批次的數(shù)據(jù)過大時(shí),就會(huì)導(dǎo)致傳輸失敗。此時(shí)的做法與錯(cuò)誤篩選的方法相似,只要將包二分即可,如果還是太大就再次二分,以此類推。

限速

限速的功能最容易理解,數(shù)據(jù)統(tǒng)統(tǒng)經(jīng)過 Channel,那么只要限制這個(gè) Channel 傳輸介質(zhì)的速度即可。例如磁盤隊(duì)列,只需要限制磁盤的 IO 讀寫速度;內(nèi)存隊(duì)列則限制隊(duì)列大小以此達(dá)到限速的目的。

常見的流量控制的算法有漏桶算法(Leaky bucket)(https://en.wikipedia.org/wiki/Leaky_bucket)和令牌桶算法(Token bucket)(https://en.wikipedia.org/wiki/Token_bucket) 兩種,比較推薦采用令牌桶算法實(shí)現(xiàn)該功能,感興趣的朋友可以閱讀一下 logkit 的 rateio 包 (https://github.com/qiniu/logkit/tree/develop/rateio)。

Sender

Sender 的主要作用是將隊(duì)列中的數(shù)據(jù)發(fā)送至 Sender 支持的各類服務(wù),一個(gè)最基本的實(shí)現(xiàn)同樣應(yīng)該設(shè)計(jì)得盡可能簡單,理論上僅需實(shí)現(xiàn)一個(gè) Send 接口即可。

Send([]Data) error

那么實(shí)現(xiàn)一個(gè)發(fā)送端有哪些注意事項(xiàng)呢?

多線程發(fā)送:多線程發(fā)送可以充分利用 CPU 的多核能力,提升發(fā)送效率,這一點(diǎn)我們?cè)诩軜?gòu)設(shè)計(jì)中通過設(shè)計(jì) ft sender 作為框架解決了該問題。錯(cuò)誤處理與等待:服務(wù)端偶爾出現(xiàn)一些異常是很正常的事情,此時(shí)就要做好不同錯(cuò)誤情況的處理,不會(huì)因?yàn)槟硞€(gè)錯(cuò)誤而導(dǎo)致程序出錯(cuò),另外一方面,一旦發(fā)現(xiàn)出錯(cuò)應(yīng)該讓 sender 等待一定時(shí)間再發(fā)送,設(shè)定一個(gè)對(duì)后端友好的變長錯(cuò)誤等待機(jī)制也非常重要。一般情況下,可以采用隨著連續(xù)錯(cuò)誤出現(xiàn)遞增等待時(shí)間的方法,直到一個(gè)最頂峰(如10s),就不再增加,當(dāng)服務(wù)端恢復(fù)后再取消等待。數(shù)據(jù)壓縮發(fā)送:帶寬是非常珍貴的資源,通常服務(wù)端都會(huì)提供 gzip 壓縮的數(shù)據(jù)接收接口,而 sender 利用這些接口,將數(shù)據(jù)壓縮后發(fā)送,能節(jié)省大量帶寬成本。帶寬限流:通常情況下數(shù)據(jù)收集工具只是機(jī)器上的一個(gè)附屬程序,主要資源如帶寬還是要預(yù)留給主服務(wù),所以限制 sender 的帶寬用量也是非常重要的功能,限流的方法可以采用前面 Channel 一節(jié)提到的令牌桶算法。字段填充 (UUID/timestamp):通常情況下收集的數(shù)據(jù)信息可能不是完備的,需要填充一些信息進(jìn)去,如全局唯一的 UUID、代表收集時(shí)間的 timestamp 等字段,提供這些字段自動(dòng)填充的功能,有利于用戶對(duì)其數(shù)據(jù)做唯一性、時(shí)效性等方面的判斷。字段別名:解析后的字段名稱中經(jīng)常會(huì)出現(xiàn)一些特殊字符,如”$”、”@”等符號(hào),如果發(fā)送的服務(wù)端不支持這些特殊字符,就需要提供重命名功能,將這些字段映射到一個(gè)別的名稱。字段篩選:解析后的字段數(shù)據(jù)未必都需要發(fā)送,這時(shí)如果能提供一個(gè)字段篩選的功能,就可以方便用戶選擇去掉一些無用字段,并節(jié)省傳輸?shù)某杀?。也可以?Transformer 中提供類似?discard transformer?的功能,將某個(gè)字段去掉。類型轉(zhuǎn)換:類型轉(zhuǎn)換是一個(gè)說來簡單但是做起來非常繁瑣的事情,不只是純粹的整型轉(zhuǎn)換成浮點(diǎn)型,或者字符串轉(zhuǎn)成整型這么簡單,還涉及發(fā)送到的服務(wù)端支持的一些特殊類型,如date時(shí)間類型等,更多的類型轉(zhuǎn)換實(shí)際上相當(dāng)于最佳實(shí)踐,能夠做好這些類型轉(zhuǎn)換,就會(huì)讓用戶體驗(yàn)得到極大提升。簡單、簡單、簡單:除了上述這些,剩下的就是盡可能的讓用戶使用簡單。假設(shè)我們要寫一個(gè) mysql sender,mysql 的數(shù)據(jù)庫和表如果不存在,可能數(shù)據(jù)會(huì)發(fā)送失敗,那就可以考慮提前創(chuàng)建;又比如數(shù)據(jù)如果有更新,那么就需要將針對(duì)這些更新的字段去更新服務(wù)的 Schema 等等。

Metrics

除了基本的自定義的數(shù)據(jù)收集,數(shù)據(jù)收集工具作為一個(gè)機(jī)器的 agent,還可以采集機(jī)器的基本數(shù)據(jù),例如 CPU、內(nèi)存、網(wǎng)絡(luò)等信息,通過這些信息,可以全面掌控機(jī)器的狀態(tài)。

具體的內(nèi)容可以參考 logkit 文檔:Runner 之系統(tǒng)信息采集配置。

至此,一個(gè)完整的數(shù)據(jù)收集工具的設(shè)計(jì)要點(diǎn)已經(jīng)介紹完畢。

我們已經(jīng)開源的 logkit 正是按照這樣的設(shè)計(jì)實(shí)現(xiàn)的,logkit 集合了多種開源數(shù)據(jù)收集工具的優(yōu)點(diǎn),聚焦易用性,致力于打造產(chǎn)品級(jí)別的開源軟件。

數(shù)據(jù)收集工具 logkit

logkit(https://github.com/qiniu/logkit) 是七牛大數(shù)據(jù)團(tuán)隊(duì)開源的一個(gè)通用的日志收集工具,可以從多種不同的數(shù)據(jù)源中采集數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行一系列的解析、變換、裁減,最終發(fā)送到多種不同的數(shù)據(jù)下游,其中就包括了 七牛的大數(shù)據(jù)平臺(tái) Pandora。除了基本的數(shù)據(jù)收集、解析以及發(fā)送功能之外,logkit 集合了多種同類開源軟件的優(yōu)勢(shì),涵蓋了容錯(cuò)、并發(fā)、熱加載、斷點(diǎn)續(xù)傳等高級(jí)功能,更提供了頁面方便用戶配置、監(jiān)控以及管理自己的數(shù)據(jù)收集業(yè)務(wù),是一款產(chǎn)品級(jí)別的開源軟件。

目前支持的數(shù)據(jù)源包括:

File Reader: 讀取文件中的日志數(shù)據(jù),如 nginx/apache 服務(wù)日志文件、業(yè)務(wù)日志等。Elasticsearch Reader: 全量導(dǎo)出 Elasticsearch 中的數(shù)據(jù)。MongoDB Reader: 同步 MongoDB 中的數(shù)據(jù)。MySQL Reader: 同步 MySQL 中的數(shù)據(jù)。MicroSoft SQL Server Reader: 同步 Microsoft SQL Server 中的數(shù)據(jù)。Kafka Reader: 導(dǎo)出 Kafka 中的數(shù)據(jù)。Redis Reader: 導(dǎo)出 Redis 中的數(shù)據(jù)。

目前支持發(fā)送到的服務(wù)包括 Pandora、ElasticSearch、InfluxDB、MongoDB 以及本地文件五種,近期還會(huì)支持發(fā)送到 Kafka 以及發(fā)送到某個(gè) HTTP 地址。

Pandora Sender: 發(fā)送到 Pandora(七牛大數(shù)據(jù)處理平臺(tái)) 服務(wù)端。Elasticsearch Sender: 發(fā)送到 Elasticsearch 服務(wù)端。File Sender: 發(fā)送到本地文件。InfluxDB Sender: 發(fā)送到 InfluxDB 服務(wù)端。MongoDB Sender: 后發(fā)送到 MongoDB 服務(wù)端。

而在這已經(jīng)實(shí)現(xiàn)的有限的幾個(gè)發(fā)送端中,我們是這么設(shè)計(jì)的使用場景:

如果收集數(shù)據(jù)是為了監(jiān)控,那么可以使用 InfluxDB Sender,發(fā)送到開源的 InfluxDB 服務(wù)端,實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)監(jiān)控。如果收集數(shù)據(jù)是為了搜索查看,那么可以使用 Elasticsearch Sender,發(fā)送到開源的 Elasticsearch 服務(wù)端,進(jìn)行日志查詢。如果收集數(shù)據(jù)是為了計(jì)量統(tǒng)計(jì)或者其他一些涵蓋復(fù)雜的增刪改查需求的場景,那么就可以使用 MongoDB Sender,在本地對(duì)數(shù)據(jù)進(jìn)行聚合,再發(fā)送到開源的 MongoDB 服務(wù)中。

而發(fā)送到 七牛的 Pandora 服務(wù) 中,不僅能涵蓋上述全部場景,還提供了大量可以快速發(fā)掘數(shù)據(jù)價(jià)值的實(shí)際應(yīng)用場景的使用模板,同時(shí)還可以利用七牛成本較低的云存儲(chǔ)服務(wù)對(duì)數(shù)據(jù)進(jìn)行持久備份。

目前 logkit 支持的收集端和發(fā)送端并不多,非常歡迎大家來貢獻(xiàn)更多的收集 / 發(fā)送端。

量身定制

再回過頭來聊聊量身定制的話題,本文描述了一個(gè)數(shù)據(jù)收集工具打造的完整過程,我們深知量身定制一個(gè)數(shù)據(jù)收集工具有多么重要,而量身定制也是 logkit 的一大特點(diǎn)。logkit 架構(gòu)中的每個(gè)組成部分(Reader、Parser、Sender、Transformer、Channel 等)都是一個(gè) GO 語言的 package,你完全可以用 logkit 中的包,自己寫主函數(shù),從而定制一個(gè)專屬的收集工具。我們提供了代碼案例 (https://github.com/qiniu/logkit/tree/develop/samples) ,方便你親自實(shí)踐。

優(yōu)勢(shì)

總體而言,logkit 有如下優(yōu)勢(shì):

GO 語言編寫,性能優(yōu)良,資源消耗低,跨平臺(tái)支持。Web 支持,提供?頁面?對(duì)數(shù)據(jù)收集、解析、發(fā)送過程可視化插件式架構(gòu),擴(kuò)展性強(qiáng),使用靈活,易于復(fù)用。定制化能力強(qiáng),可以僅使用部分 logkit 包,以此定制專屬收集工具。配置簡單,易于上手,可通過?頁面?進(jìn)行操作管理原生中文支持,沒有漢化煩惱功能全面,涵蓋了包括 grok 解析、metric 收集、字段變化 (transform) 在內(nèi)的多種開源軟件特點(diǎn)生態(tài)全面,數(shù)據(jù)發(fā)送到七牛的 Pandora 大數(shù)據(jù)平臺(tái)支持包括時(shí)序數(shù)據(jù)庫、日志檢索以及壓縮永久存儲(chǔ)等多種數(shù)據(jù)落地方案。

下面讓我們來實(shí)踐一下,看看 logkit 在實(shí)戰(zhàn)中是什么樣子。

logkit 實(shí)戰(zhàn)

下載

編譯完后的 logkit 是一個(gè) Go 的二進(jìn)制包,你可以在 logkit 的 Download 頁面 (https://github.com/qiniu/logkit/wiki/Download) 找到對(duì)應(yīng)操作系統(tǒng)的 Release 版本。

也可以參照 logkit 源碼編譯指南,從代碼層面定制自己的專屬 logkit。

啟動(dòng)

logkit 部署非常簡單,將這個(gè) binary 放在系統(tǒng) PATH 路徑中就算部署完成了,推薦使用諸如 supervisor 等進(jìn)程管理工具進(jìn)行管理。

啟動(dòng) logkit 工具,可以使用默認(rèn)的配置文件,執(zhí)行如下命令即可。

logkit -f logkit.conf

配置文件中默認(rèn)開啟了 3000 端口,初次使用可以通過瀏覽器打開 logkit 配置頁面,配置 runner 并調(diào)試讀取、解析和發(fā)送方式,瀏覽器訪問的地址是 http://127.0.0.1:3000 。

配置

大數(shù)據(jù)

圖 3 logkit 首頁

打開網(wǎng)址后看到如圖 3 所示的 logkit 配置助手首頁,這個(gè)頁面會(huì)清晰地展示目前所有的 logkit Runner 運(yùn)行狀態(tài),包括讀取速率、發(fā)送速率、成功 / 失敗數(shù)據(jù)條數(shù),以及一些錯(cuò)誤日志。還可以在這里修改和刪除 Runner。

點(diǎn)擊左上角【增加 Runner】按鈕,可以添加新的 logkit Runner。

大數(shù)據(jù)

圖 4 數(shù)據(jù)源 Reader 配置

如圖 4 所示,新增 Runner 的第一步就是配置數(shù)據(jù)源,為了盡可能方便用戶,logkit 將絕大多數(shù)選項(xiàng)都預(yù)設(shè)了默認(rèn)值,用戶只需要根據(jù)頁面提示填寫黃色的必填項(xiàng)即可。

按頁面步驟依次配置數(shù)據(jù)源、解析方式、以及發(fā)送方式。

大數(shù)據(jù)

圖 5 解析數(shù)據(jù)

如圖 5 所示,在配置解析方式的頁面還可以根據(jù)配置嘗試解析樣例數(shù)據(jù),這個(gè)頁面可以根據(jù)你的實(shí)際數(shù)據(jù)非常方便地調(diào)試解析方式。

大數(shù)據(jù)

圖 6 字段變化 Transformer

如圖 6 所示,除了解析以外,還可以針對(duì)解析出來的某個(gè)字段內(nèi)容做數(shù)據(jù)變換(Transform),即上一章中描述的 Transformer??梢韵窆艿酪粯悠唇佣鄠€(gè) Transformer,做多重字段變化。

最后配置完發(fā)送方式,可以在如圖 7 所示的頁面做二次確認(rèn)。

大數(shù)據(jù)

圖 7 確認(rèn)并添加頁

在二次確認(rèn)的頁面中,可以直接修改表達(dá)內(nèi)容也可以返回上一步修改,最終點(diǎn)擊添加 Runner 即可生效。

到這里,一個(gè)復(fù)雜的數(shù)據(jù)收集工作就完成了,怎么樣,就是這么簡單,快來實(shí)際體驗(yàn)一下吧!

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-10-18
數(shù)據(jù)收集工具的設(shè)計(jì)與最佳實(shí)踐
作者:孫健波 數(shù)據(jù)收集工具對(duì)比 目前社區(qū)已經(jīng)不乏大量優(yōu)秀的數(shù)據(jù)收集工具,如有名的 Elastic Stack(Elasticsearch、Logstash、Ki

長按掃碼 閱讀全文