數(shù)據(jù)時代
在數(shù)據(jù)時代,數(shù)據(jù)和業(yè)務的保護、數(shù)據(jù)的管理成為企業(yè)發(fā)展所必需的基礎條件。據(jù)有效統(tǒng)計,當前,數(shù)據(jù)量增長、重要性呈指數(shù)級激增。據(jù)國外媒體報道,來自國際數(shù)據(jù)公司和數(shù)據(jù)存儲公司希捷的一份新報告顯示,隨著云計算、大數(shù)據(jù)、物聯(lián)網等技術產業(yè)的快速發(fā)展,數(shù)據(jù)流量增長速率正在不斷加快,到2025年,預計新增數(shù)據(jù)總量將從2018年的33ZB增加到175ZB。在過去幾年,全球的數(shù)據(jù)量以每年40%以上的速度增長,在未來這個速度會更快。龐大的數(shù)據(jù)量中非結構化數(shù)據(jù)占80%左右。通常我們認為大小在1MB以內的文件稱為小文件,百萬級數(shù)量及以上稱為海量小文件,由此量化定義海量小文件。
海量小文件的應用在生活中已越來越常見,社會化網絡、移動通信、網絡視頻音頻、電子商務、傳感器網絡、科學實驗等各種應用產生的數(shù)據(jù),不僅存儲容量巨大,而且數(shù)據(jù)類型繁多、數(shù)據(jù)大小變化幅度大、流動快等顯著特點,往往能夠產生千萬級、億級甚至十億、百億級的海量小文件。
技術挑戰(zhàn)
數(shù)據(jù)即資產,龐大的數(shù)據(jù)資產對各企業(yè)的重要性不言而喻,需要對這些海量小文件提供保護方案來保證數(shù)據(jù)資產的安全性。但是傳統(tǒng)的文件備份是通過基于二叉樹遍歷的文件系統(tǒng)的遍歷后進行單通道的數(shù)據(jù)傳輸實現(xiàn)的。如果全部是幾K的文件,磁盤的遍歷時間遠遠大于實際的數(shù)據(jù)讀取時間。這給高效的實現(xiàn)海量小文件備份帶來了挑戰(zhàn)。
用戶故事
三甲醫(yī)院A每天有上萬的病人,每個病人每天產生的病例文件(包括病例、影像等文件)平均為1M,醫(yī)院平均每天的病人有1萬人,那一年的文件的大小是3.4TB、365萬數(shù)據(jù)左右。按醫(yī)院門診病例保存要求15年,那就有51TB、5475萬個數(shù)據(jù)。
該三甲醫(yī)院還要十幾個分院,而當前的數(shù)據(jù)中臺和大數(shù)據(jù)建設需要該醫(yī)院的總部將所有分院的數(shù)據(jù)進行匯聚和融合,初步評估數(shù)據(jù)中臺和大數(shù)據(jù)的底層數(shù)據(jù)是PB級別(1PB=1024TB)。
法院B有一個電子文件的項目,該法院有100TB左右的數(shù)據(jù),想要建設該市所有法院的電子文件的統(tǒng)一管理平臺,粗略評估后總數(shù)據(jù)有3.6PB,并且有很多幾kb的小文件,如果按平均文件大小100KB來算,總共有396億左右的數(shù)據(jù)量。
我們再看一下網速,千兆網下網絡的峰值基本只有100+M/S,按照平均速度100M/s來進行數(shù)據(jù)傳輸,100TB的數(shù)據(jù)在千兆網下,需要12天才能傳完數(shù)據(jù)。
但是使用傳統(tǒng)的文件備份方式在文件數(shù)量達到千萬級時對業(yè)務系統(tǒng)的影響會很大,如果業(yè)務系統(tǒng)是運行很久的服務器,資源不充足的情況下甚至會導致業(yè)務系統(tǒng)卡頓;而文件大小低于100KB的海量小文件,在用傳統(tǒng)的文件備份方式進行備份時速度會迅速降低,之前測試1kb的千萬個小文件的備份速度只能以kb/s進行傳輸。
所以如何能夠面對海量小文件、海量小文件的時候能夠快速、低影響的進行備份就成了當前急需解決的技術問題。
浪擎解決方案
浪擎DAYS災備系統(tǒng)全面破解海量小文件備份難題,高效守護企業(yè)數(shù)據(jù)資產安全。
磁盤級備份
磁盤級備份是指采用磁盤塊的方式進行數(shù)據(jù)的備份,備份文件所在的磁盤或者分區(qū),并且恢復的時候可以自定義所需的文件進行恢復。通過磁盤級備份能夠解決海量小文件備份過程中頻繁的IO訪問對業(yè)務系統(tǒng)帶來的影響,是海量備份方案中對業(yè)務系統(tǒng)影響最小的方案之一。并且由于采用磁盤級的備份,無論文件數(shù)量有千萬還是百億,大小是1M還是1KB,對整體的備份速度都沒有影響,即千兆網下,磁盤級備份速度可以一直保持峰值(平均100M/S)進行傳輸。
并行多通道備份
當文件數(shù)量達到千萬級別時,以傳統(tǒng)的單通道式文件備份的形式來進行海量小文件備份,備份速度會越來越慢。針對這種情況,浪擎自主研發(fā)了并行多通道的方式進行備份,通過初始化遍歷所有的文件,然后將文件平均分配給多個通道進行數(shù)據(jù)傳輸,數(shù)據(jù)傳輸完后進行數(shù)據(jù)落盤的操作來實現(xiàn)并行多通道備份。并且即使采用最普通的8核CPU服務器進行海量小文件備份也能同時用16個通道進行海量小文件的數(shù)據(jù)傳輸。10萬以上的文件采用并行多通道的方式進行備份,備份時間是單通道的一半,并且文件數(shù)量越多,備份效率越高。
分布式多通道備份
當文件數(shù)量達到千萬級別并且文件的大小差異很大,從幾KB到幾十MB都有,這種大小差異很大的海量小文件備份時的難度更大,即使采用并行多通道的方式也會由于文件數(shù)據(jù)大小差異過大,導致不同通道傳輸?shù)臄?shù)據(jù)總量不同,部分通道會有閑置的情況,最終導致數(shù)據(jù)傳輸時間相對較長。
針對這種情況,浪擎在并行多通道備份的基礎上做了深度的優(yōu)化,提出分布式多通道備份方案,實現(xiàn)多通道備份的負載均衡,讓每個通道都能夠滿負荷進行數(shù)據(jù)傳輸,并行合并數(shù)據(jù)再結合實時的數(shù)據(jù)交互減少初始化的時間,達到整體的性能提高和最優(yōu)化的海量小文件備份方案。
多節(jié)點、多任務、多網卡傳輸
除了采用多種備份方式進行海量小文件的備份外,為了充分利用現(xiàn)有資源和提供備份的速率,浪擎還采用了多節(jié)點、多任務、多網卡的方式進行數(shù)據(jù)傳輸。多節(jié)點是通過將多個服務節(jié)點進行數(shù)據(jù)存儲,減少單節(jié)點的性能的局限性對備份數(shù)據(jù)傳輸?shù)挠绊?多任務是并行多個任務來實現(xiàn)數(shù)據(jù)傳輸,充分利用時間資源;多網卡是充分利用單節(jié)點上的多個網卡資源采用多個網卡進行數(shù)據(jù)傳輸,讓并行任務整體的備份效率提高。
關于浪擎
浪擎科技以“最大化數(shù)據(jù)價值”為使命,致力于數(shù)據(jù)安全與智能領域的產品研發(fā)和技術服務,從而推動數(shù)字化轉型發(fā)展的大變革。2011年投身災備產品研發(fā),2015年進軍全國市場,浪擎科技現(xiàn)已在上海與成都建立了兩大研發(fā)中心,在北京、浙江、江蘇、江西、四川等20余省市部署了事業(yè)辦事處
數(shù)據(jù)安全產品線為重要業(yè)務和數(shù)據(jù)提供全生態(tài)、全棧式的備份保護,實現(xiàn)云上云下云間的數(shù)據(jù)安全與管理;數(shù)據(jù)智能產品線為用戶構建數(shù)據(jù)中臺提供全環(huán)境的、敏捷智能的數(shù)據(jù)匯聚融合與共享管理,助力數(shù)據(jù)驅動業(yè)務。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )