原標題:大數(shù)據(jù),背后離不開這個核心技術
大數(shù)據(jù)正在成為我們生活的重要元素之一,它能驅(qū)動生活變得更加美好。疫情期間的健康碼背后,就離不開大數(shù)據(jù)的支持。如何讓大數(shù)據(jù)的速度更快、更穩(wěn)定?這涉及到的核心技術之一便是內(nèi)存。本文將為大家解惑:內(nèi)存如何支持大數(shù)據(jù)。
我們從未發(fā)現(xiàn)距離大數(shù)據(jù)竟如此之近。
雖然在日常的新聞報道中,我們常能聽到大數(shù)據(jù)這個名詞,但更多只是一個概念。直到伴隨新冠疫情防控的展開,掃碼已經(jīng)成為大家出行的“常規(guī)操作”的時候,我們才發(fā)現(xiàn)無論是進入商場、小區(qū)還是乘坐公共交通,手機和口罩已成為大眾“必需品”,而根據(jù)掃碼信息追蹤個人活動軌跡的大數(shù)據(jù)技術居然就在身邊。
特別是伴隨著近日北京疫情的爆發(fā),醒目直觀的“新冠病例活動地圖” 刷爆了朋友圈,這種公開、透明的方式也大大降低了民眾的恐懼感,提升了對于疫情防控的信心。顯然,這些軌跡的追蹤都是基于大數(shù)據(jù)實現(xiàn)的,而借助于數(shù)據(jù)分析,我們甚至可以對某些尚不自知的“密切接觸者”在第一時間進行觀察與隔離。
其實這種技術在疫情之初就已經(jīng)應用于防控一線,早在今年2月,百度地圖就在北京、上海、深圳、鄭州等全國49個城市上線了“新冠病例曾活動場所” 專題地圖,幫助公眾準確掌握官方發(fā)布的相關信息,減少不必要的恐慌情緒,并協(xié)助社區(qū)有針對性地開展疫情防控,遏制疫情的進一步擴散。
不僅如此,百度的大數(shù)據(jù)搜索平臺在提供疫情熱搜、熱搜謠言辟謠等服務,并借助多維度的搜索大數(shù)據(jù)報告的同時,還能夠根據(jù)搜索結果對于未來人流遷移進行預測。比如在剛剛過去的端午小長假中,“12306”相關內(nèi)容的搜索熱度同比下降59%,各旅游OTA平臺的搜索熱度同比下降57%。
由此看來,大數(shù)據(jù)已經(jīng)影響到我們生活的方方面面,無論是數(shù)據(jù)分析還是數(shù)據(jù)查詢,我們都希望能夠在第一時間盡快完成,而這除了需要優(yōu)化的軟件與算法支持之外,更需要強大性能的硬件,特別是能夠?qū)?shù)據(jù)庫進行加速的硬件產(chǎn)品。這也就是我們今天要介紹的主角——英特爾傲騰持久內(nèi)存。
回顧大數(shù)據(jù)發(fā)展,我們發(fā)現(xiàn)這個概念大概在2012年以后就進入了快速上升的通道,特別是Hadoop分布式架構的出現(xiàn)讓大數(shù)據(jù)更容易被整個行業(yè)所接受。之后隨著時間的演變,Hadoop被一種名為Spark的技術所取代,后者的特點就是通過拓展內(nèi)存計算可在海量數(shù)據(jù)的迭代式計算和交互式計算中提供遠快于Hadoop的運算速度。同時,Spark支持SQL請求、流數(shù)據(jù)處理、機器學習和圖表處理,提高開發(fā)者效率。
百度自主研發(fā)的BIG SQL數(shù)據(jù)處理平臺正是以Spark SQL為基礎,并引入了眾多新功能和性能拓展。當然對于百度這樣的互聯(lián)網(wǎng)巨頭來說,每日產(chǎn)生的數(shù)據(jù)將以千百萬計,僅就大家最熟悉也最常用的搜索業(yè)務來說就已經(jīng)是一個龐大的數(shù)字,也對后臺系統(tǒng)造成了壓力。
我們在網(wǎng)上進行查詢的時候總希望后臺能夠“秒級響應”,最好是點擊鼠標立刻就出現(xiàn)結果,這種查詢就被稱為交互式查詢。雖然同樣要訪問大型數(shù)據(jù)庫,但是交互式查詢卻具有非常特定且具體的篩選條件,僅以查詢相對少量的數(shù)據(jù)為目的,因此就需要能在幾秒內(nèi)甚至幾毫秒內(nèi)返回。
但問題在于,這種需求對于百度已有的Spark SQL造成了巨大挑戰(zhàn),事實上Spark SQL無法實現(xiàn)交互式查詢所要求的性能。為解決這一難題,百度與英特爾合作實施了Spark平臺優(yōu)化分析包(OAP)項目合作,使用索引和緩存技術來加速交互式查詢響應,推動百度BigSQL實現(xiàn)令人滿意的交互式查詢性能。
當查詢具有非常特定的篩選條件時,OAP可以在符合條件的列上創(chuàng)建索引。通過索引,OAP能夠識別目標行,同時跳過后端存儲上不必要的數(shù)據(jù)掃描。由于索引文件與原始數(shù)據(jù)文件保持分離,在創(chuàng)建或刪除索引時均無需重寫原始數(shù)據(jù)文件。
OAP的實現(xiàn)方式是通過與列數(shù)據(jù)文件并排創(chuàng)建與存儲完整的B+Tree索引,從而實現(xiàn)快速的跨越搜索。這有點像我們?nèi)ド虉鲑I東西——比如想買一件襯衫,我們可以直接在商場平面圖中查詢男裝在幾層,再根據(jù)長褲、襯衫、外套等信息進行篩選,這樣就能快速的找到目標,而不需要逐層逐店去尋找。
另外一種加快查詢速度的有效方式就是緩存熱點數(shù)據(jù),通過把影響性能的關鍵數(shù)據(jù)或熱點數(shù)據(jù)緩存到高速的存儲設備中,比如內(nèi)存中,可以在建立索引的基礎上進一步提高查詢性能?;凇白罱钌偈褂茫↙RU)策略”,當緩存達到最大容量時,那些最近最少使用的數(shù)據(jù)項將被淘汰,為緩存最新數(shù)據(jù)釋放空間。另外,百度 BigSQL 還啟用了一個高級緩存管理器,可以主動填充熱點列,并清除緩存中不再需要的列。
當然這種清除并非是無限制的。特別是對于百度這樣規(guī)模的平臺來說,隨著業(yè)務的不斷發(fā)展,后臺的數(shù)據(jù)集規(guī)模日趨龐大,熱點數(shù)據(jù)量勢必會超過緩存空間容量,最終導致性能下降。這也就勢必要求系統(tǒng)緩存足夠大,客戶自然需要采購更大容量的內(nèi)存。
但這并非是每個客戶都能實現(xiàn)的。首先,內(nèi)存的價格非常昂貴,即便是在如今芯片價格走低的情況下,大容量內(nèi)存的價格依然如同“天文數(shù)字”。其次,在Spark 環(huán)境中,因為每個節(jié)點上可配置的總內(nèi)存容量有上限,并不能無限擴展;第三,內(nèi)存的優(yōu)勢在于較高的隨機訪問帶寬和較低的延遲,而將其用于大量數(shù)據(jù)緩存和順序數(shù)據(jù)的讀取無疑是“大材小用”。正是考慮到上述三大原因,百度將目光轉(zhuǎn)向了英特爾的主打產(chǎn)品——傲騰持久內(nèi)存。
相對于傳統(tǒng)內(nèi)存來說,傲騰持久內(nèi)存是一種特殊的存在。雖然在名字中有“內(nèi)存”的字樣,但是它本質(zhì)上還是一種介于內(nèi)存與傳統(tǒng)存儲之間的產(chǎn)品。更值得一提的是,傲騰持久內(nèi)存具備了“內(nèi)存模式”和“應用直接訪問模式”兩種運行狀態(tài)。當處于“內(nèi)存模式”下,傲騰持久內(nèi)存無需重新編寫軟件就可以當作內(nèi)存使用,并且在性能上也與內(nèi)存非常接近。
在“應用直接訪問模式”下,經(jīng)過專門改進的應用程序可從產(chǎn)品固有的持久性中充分獲取價值并獲得更大的容量。針對百度需求的特性,這里的傲騰持久內(nèi)存采用了這一模式,以確保應用程序能完全決策如何使用設備空間。
同時,英特爾還對OAP進行了擴展,加入了內(nèi)存管理器插件,并采用了基于傲騰持久內(nèi)存的內(nèi)存管理器分配緩存空間。這樣一來,用戶就可以在傳統(tǒng)內(nèi)存和傲騰持久內(nèi)存之間自由切換,甚至是將兩者共同使用——比如用內(nèi)存緩存索引,而使用傲騰持久內(nèi)存緩存數(shù)據(jù)。
實踐也證明了傲騰持久內(nèi)存的有效性。在百度進行的、數(shù)據(jù)集大小為1TB的測試中,相同容量的內(nèi)存與傲騰持久內(nèi)存時,后者的性能與前者非常接近,可以達到內(nèi)存性能的88.3%。而伴隨著數(shù)據(jù)集容量的提升,當數(shù)據(jù)集達到3T的時候,內(nèi)存已經(jīng)不足以緩存所有數(shù)據(jù),但是傲騰持久內(nèi)存依然游刃有余,性能反超內(nèi)存高達6倍之多。
隨后進行的百度線上實際業(yè)務的測試更證明了傲騰持久內(nèi)存的超高性價比。當內(nèi)存與傲騰持久內(nèi)存都被設置為50%的常用數(shù)據(jù)列時,傲騰持久內(nèi)存的緩存速度僅比內(nèi)存低約12%。而如果考慮到相同成本的情況下,只有傲騰持久內(nèi)存擁有足夠容量來緩存所有熱點數(shù)據(jù),且性能較內(nèi)存高出 22%,同時避免了30% 的底層系統(tǒng)I/O請求。
“我們使用來自英特爾的傲騰持久內(nèi)存,在緩存質(zhì)量得到保證的同時,極大地提升了集群的處理能力,獲得明顯的 TCO 收益”,百度資深系統(tǒng)工程師黎世勇如是說。事實上,借助于英特爾傲騰持久內(nèi)存的加持,百度圖靈集群的工作負載降低了30%,平均查詢延時降低了20%,每個傲騰持久內(nèi)存服務器實例Spark/OAP性能提高了50%,而成本僅增加了20%。
毫無疑問,英特爾傲騰持久內(nèi)存無論是在性價比還是在緩存容量表現(xiàn)上,都比傳統(tǒng)內(nèi)存更加出色。雖然在低數(shù)據(jù)集容量的時候性能略有落后,但是傲騰持久內(nèi)存的性價比依舊突出,尤其是高數(shù)據(jù)集下的大緩存優(yōu)勢更是無可爭議的行業(yè)領先。
一直以來,如何實現(xiàn)數(shù)據(jù)庫應用加速是行業(yè)中的難題,特別對于百度這樣以搜索為核心業(yè)務的公司來說,更側重于提升數(shù)據(jù)檢索的應用體驗。這一次,英特爾借助傲騰持久內(nèi)存提供了更優(yōu)化的查詢方式,將檢索時間從秒級降低到了次秒級,在提升用戶體驗的同時也提供了超高的性價比。
如今,大數(shù)據(jù)分析已經(jīng)成為了行業(yè)應用的主流,特別是國家所倡導的”新基建“更是將大數(shù)據(jù)中心作為核心應用之一。伴隨著近年來全球數(shù)據(jù)規(guī)模呈指數(shù)級增長,誰能解決企業(yè)的數(shù)據(jù)應用需求問題,誰就能把握未來的數(shù)據(jù)時代。
按下搜索按鈕的那一刻,你希望多久看到結果?
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領先技術與深度整合是關鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。