在海量基因數(shù)據(jù)中進行全基因數(shù)據(jù)分析,了解各種疾病與DNA之間的隱秘聯(lián)系;對海洋氣候進行預測,利用強大的數(shù)據(jù)分析性能,實現(xiàn)分鐘級的數(shù)據(jù)刷新、精準預測海洋氣候;利用高速相機模擬人腦上億個神經(jīng)元之間聯(lián)接與工作,對產(chǎn)生的海量數(shù)據(jù)進行實時分析,探索人腦工作機制……
如今,數(shù)據(jù)正在迅速改變科研領域,推動傳統(tǒng)科研模式加速向基于“數(shù)據(jù)密集型科學”的科研新范式轉(zhuǎn)變。隨著數(shù)據(jù)成為生產(chǎn)要素,數(shù)據(jù)采集、數(shù)據(jù)存儲等相關技術與方案不斷創(chuàng)新,越來越多科研人員感受到科研新范式所帶來的巨大價值。
因此,近年來,無論是政府超算,還是科研高校均在加速構建面向多元算力和海量數(shù)據(jù)的新型HPDA(High Performance Data Analytics,高性能數(shù)據(jù)分析)平臺,為不同學科提供面向HPDA應用負載的數(shù)據(jù)基礎設施成為當務之急。
在今年第十八屆全國高性能計算學術年會(CCF HPC China 2022)上,面向HPDA場景的數(shù)據(jù)存儲相關話題再次引燃會場。其中,華為DataRobot HPDA存儲集群解決方案更是獲得廣泛關注。華為DataRobot HPDA存儲集群解決方案不僅獲得官方最佳解決方案獎,更憑借應用加速、數(shù)據(jù)跨域管理和全棧敏捷等方面的出色創(chuàng)新為HPDA場景下的數(shù)據(jù)存儲解決方案打開了新思路與新局面。
HPDA與HPC大不同
在傳統(tǒng)HPC時代,基于計算科學的科研范式往往是先提出可行理論,再搜集數(shù)據(jù),之后通過計算仿真進行驗證,大多以數(shù)值計算為主;而如今基于“數(shù)據(jù)密集型科學”的科研新范式,則更多與大數(shù)據(jù)知識挖掘及AI訓練推理技術結(jié)合,通過計算與分析獲得新知識和新發(fā)現(xiàn)??蒲蓄I域正式進入到HPDA高性能數(shù)據(jù)分析時代。
科研范式的轉(zhuǎn)變,意味著對于底層數(shù)據(jù)基礎設施的需求將發(fā)生根本性改變。數(shù)據(jù)密集型的科研應用負載,其數(shù)據(jù)往往具有不可重復性、高度不確定性、高維、計算高度復雜等特征。加上當前科研領域?qū)τ跀?shù)據(jù)流動的需求愈發(fā)強烈,使得科研領域的HPDA面臨著諸多挑戰(zhàn):
其一、混合計算需要更加牢固且強大的、支持HPDA場景的可靠存儲底座。眾所周知,無論是高??蒲袡C構的智算中心,還是輻射區(qū)域的政府超算中心,均需要同時跑不同類型的科研應用負載。這些工作負載對于數(shù)據(jù)存儲的容量、性能、帶寬、管理、訪問協(xié)議方面的要求各不相同,因此就需要強大的HPDA數(shù)據(jù)存儲同時支撐起這些混合工作負載,并減少數(shù)據(jù)量膨脹以及數(shù)據(jù)遷移;
其二、很多HPDA工作負載對于數(shù)據(jù)實時處理性能要求很高,例如在高能物理分析、天氣預測、藥物研究以及電信欺詐等場景中,往往會面對大規(guī)模網(wǎng)絡并發(fā)數(shù)據(jù)處理需求,需要短時間內(nèi)對海量數(shù)據(jù)進行快速分析與處理,這對于HPDA場景下存儲系統(tǒng)的全棧協(xié)同、高效處理能力提出了極高要求;
其三、數(shù)據(jù)流動與共享是整個社會經(jīng)濟發(fā)展的大勢所趨,在科研領域也不例外。尤其是在東數(shù)西算、東數(shù)西存等戰(zhàn)略的大背景下,跨地域、跨集群的數(shù)據(jù)共享與流動勢在必行,為了面對海量數(shù)據(jù)處理、數(shù)據(jù)分散、數(shù)據(jù)多元化、安全可信等難題,企業(yè)急需全新的HPDA數(shù)據(jù)存儲解決方案來支撐。
因此,業(yè)界普遍意識到,需要打造支持混合負載、多協(xié)議互通且具備超高密設計、面向HPDA場景的存儲集群解決方案,來應對HPDA工作負載愈發(fā)嚴苛的挑戰(zhàn)。其中,華為率先推出了業(yè)界首個數(shù)據(jù)加速引擎加持的HPDA全棧方案—華為DataRobot HPDA存儲集群解決方案,真正為HPDA存儲打開了全新的創(chuàng)新思路和應用階段。
華為DataRobot存儲集群解決方案帶來了什么
事實上,HPDA工作負載改變的,不僅僅是存儲系統(tǒng)本身,更是對于數(shù)據(jù)存儲的設計、使用模式和創(chuàng)新能力的一次重塑。
與其他傳統(tǒng)存儲方案不同,華為DataRobot HPDA存儲集群解決方案是業(yè)界首個數(shù)據(jù)加速引擎加持的HPDA全棧方案,其真正在數(shù)據(jù)應用加速、數(shù)據(jù)跨域管理、綠色節(jié)能和全棧敏捷設計四大方面開創(chuàng)了先河,引領HPDA存儲創(chuàng)新。
首先是出色的數(shù)據(jù)應用加速:華為的DataTurbo應用加速引擎,真正讓華為DataRobot HPDA存儲集群解決方案滿足各種科研工作負載的極致性能需求。
具體來看,DataTurbo是華為DataRobot HPDA存儲集群解決方案中聯(lián)接應用與存儲的數(shù)據(jù)加速引擎組件,由應用加速引擎和全局數(shù)據(jù)管理組件組成。
其中,應用加速引擎內(nèi)置了自研網(wǎng)卡芯片和HPC、大數(shù)據(jù)加速套件,具備I/O聚合算法、統(tǒng)一元數(shù)據(jù)網(wǎng)關、芯片I/O卸載等黑科技,可實現(xiàn)應用處理效率數(shù)倍提升,同時結(jié)合OceanStor存儲的全局共享存儲能力,在面向E級超算場景下,可實現(xiàn)萬級計算客戶端并發(fā)訪問,且單集群達到50TB/s帶寬,10億IOPS能力,性能領先業(yè)界30%。
除了應用加速引擎之外,DataTurbo的全局數(shù)據(jù)管理組件則讓HPDA的跨域數(shù)據(jù)管理更加簡單與高效,真正有效推動了數(shù)據(jù)的流動與共享,為科研領域的數(shù)據(jù)分析與價值實現(xiàn)帶來了更多可能。
全局數(shù)據(jù)管理組件可以基于統(tǒng)一元數(shù)據(jù),構建全局命名空間,實現(xiàn)跨數(shù)據(jù)統(tǒng)一訪問;支持智能的全文檢索,打破地域限制,讓數(shù)據(jù)看得見;并可通過智能調(diào)度策略,根據(jù)數(shù)據(jù)溫熱冷分級,可實現(xiàn)3倍數(shù)據(jù)調(diào)度效率提升。
其次,科研機構的超算中心/智算中心通常規(guī)模龐大、設備眾多、能耗成本高昂,隨著國家碳達峰/中和戰(zhàn)略目標的推出,超算中心/智算中心走向綠色節(jié)能的發(fā)展之路是大勢所趨。
為此,華為DataRobot HPDA存儲集群解決方案在存儲系統(tǒng)設計上,通過熱溫冷數(shù)據(jù)智能分級設計,實現(xiàn)三個層級的數(shù)據(jù)自動流動:本地集群內(nèi)實現(xiàn)SSD、HDD主存儲、藍光存儲間的數(shù)據(jù)分級;跨集群數(shù)據(jù)遠程自動分級到其他數(shù)據(jù)中心;本地數(shù)據(jù)中心到公有云的數(shù)據(jù)分級流動。通過將數(shù)據(jù)放置在最合適的位置,實現(xiàn)跨數(shù)據(jù)中心層面的整體節(jié)能。
值得一提的是,基于華為DataRobot HPDA存儲集群的自研多模型數(shù)據(jù)合并壓縮技術,可以將數(shù)據(jù)在本地壓縮后再傳輸,極大的節(jié)省傳輸帶寬和存儲空間,最終實現(xiàn)十年整體TCO降低70%。
面對傳統(tǒng)風冷機房的能耗問題與高密度支持問題,華為采用的風液冷機柜,創(chuàng)新的硬件設計讓整柜功率密度達到20KW+,PUE≤1.25,功率密度提升1.5倍。DataRobot HPDA存儲集群所提供系列高密分布式存儲配置中,OceanStor高密大容量產(chǎn)品,在5U高的標準設備空間內(nèi)可以容納120塊HDD,單位空間密度比其他同類產(chǎn)品高出20%。
第四,如今大數(shù)據(jù)、AI等技術的融入,使得很多科研機構的數(shù)據(jù)中心平臺都面臨著多元異構算力的環(huán)境,這對于HPDA存儲產(chǎn)品的設計與交付提出了極大挑戰(zhàn)。為此,華為DataRobot HPDA存儲集群方案采取全棧敏捷設計,提供了包含基礎柜、計算柜和存儲柜在內(nèi)的三類模塊化硬件組合,基于最佳實踐的典配機柜設計,用戶可以根據(jù)不同規(guī)模業(yè)務場景可按需選擇部署、靈活擴展。同時具備一站式交付能力,可幫助用戶業(yè)務上線時間縮短50%。
此外,華為DataRobot HPDA存儲集群解決方案還提供全棧統(tǒng)一運維平臺,可以對多個數(shù)據(jù)中心的存儲、計算、網(wǎng)絡、容器等資源統(tǒng)一管理,包括從資源規(guī)劃、端到端資源發(fā)放、設備運維、到資源優(yōu)化全生命周期管理,同時提供AI智能運維,實現(xiàn)5倍的管理效率提升和分鐘級問題定界,極大降低運維問題,讓科研機構可以將更多精力投入到科學研究之中。
生態(tài)加持,華為DataRobot行穩(wěn)致遠
如今,基于“數(shù)據(jù)密集型科學”的科研新范式正在深刻影響著各大科研機構。在高性能數(shù)據(jù)分析時代,僅憑借數(shù)據(jù)基礎設施的創(chuàng)新將不再滿足要求,需要從底層數(shù)據(jù)存儲、上層應用,到整體方案設計進行全方面的創(chuàng)新。
顯然,華為數(shù)據(jù)存儲率先意識到HPDA領域的這種需求變革,并且在確保產(chǎn)品優(yōu)秀的基礎上,大力推動生態(tài)的力量,聯(lián)合科研領域的聯(lián)科/賽樂/人和未來等多家合作伙伴,在DataRobot HPDA存儲集群解決方案中進行應用調(diào)優(yōu)和預集成,真正讓客戶開箱即用。
總體來看,基于“數(shù)據(jù)密集型科學”的科研新范式已是大勢所趨。隨著大數(shù)據(jù)、人工智能等技術進一步融合到科學研究的日常工作之中, HPDA存儲集群解決方案必將被進一步普及。毫無疑問,華為DataRobot HPDA存儲集群解決方案的出現(xiàn),為市場樹立了新標桿,有望持續(xù)幫助更多用戶構建起領先的數(shù)據(jù)基礎設施,推動科研新范式步入發(fā)展的快車道。
免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內(nèi)容。投訴郵箱:editor@fromgeek.com。
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。