高性能數(shù)據(jù)分析時(shí)代,HPDA平臺(tái)需要什么樣的數(shù)據(jù)存儲(chǔ)?

在海量基因數(shù)據(jù)中進(jìn)行全基因數(shù)據(jù)分析,了解各種疾病與DNA之間的隱秘聯(lián)系;對(duì)海洋氣候進(jìn)行預(yù)測(cè),利用強(qiáng)大的數(shù)據(jù)分析性能,實(shí)現(xiàn)分鐘級(jí)的數(shù)據(jù)刷新、精準(zhǔn)預(yù)測(cè)海洋氣候;利用高速相機(jī)模擬人腦上億個(gè)神經(jīng)元之間聯(lián)接與工作,對(duì)產(chǎn)生的海量數(shù)據(jù)進(jìn)行實(shí)時(shí)分析,探索人腦工作機(jī)制……

如今,數(shù)據(jù)正在迅速改變科研領(lǐng)域,推動(dòng)傳統(tǒng)科研模式加速向基于“數(shù)據(jù)密集型科學(xué)”的科研新范式轉(zhuǎn)變。隨著數(shù)據(jù)成為生產(chǎn)要素,數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)等相關(guān)技術(shù)與方案不斷創(chuàng)新,越來越多科研人員感受到科研新范式所帶來的巨大價(jià)值。

因此,近年來,無論是政府超算,還是科研高校均在加速構(gòu)建面向多元算力和海量數(shù)據(jù)的新型HPDA(High Performance Data Analytics,高性能數(shù)據(jù)分析)平臺(tái),為不同學(xué)科提供面向HPDA應(yīng)用負(fù)載的數(shù)據(jù)基礎(chǔ)設(shè)施成為當(dāng)務(wù)之急。

在今年第十八屆全國高性能計(jì)算學(xué)術(shù)年會(huì)(CCF HPC China 2022)上,面向HPDA場(chǎng)景的數(shù)據(jù)存儲(chǔ)相關(guān)話題再次引燃會(huì)場(chǎng)。其中,華為DataRobot HPDA存儲(chǔ)集群解決方案更是獲得廣泛關(guān)注。華為DataRobot HPDA存儲(chǔ)集群解決方案不僅獲得官方最佳解決方案獎(jiǎng),更憑借應(yīng)用加速、數(shù)據(jù)跨域管理和全棧敏捷等方面的出色創(chuàng)新為HPDA場(chǎng)景下的數(shù)據(jù)存儲(chǔ)解決方案打開了新思路與新局面。

HPDA與HPC大不同

在傳統(tǒng)HPC時(shí)代,基于計(jì)算科學(xué)的科研范式往往是先提出可行理論,再搜集數(shù)據(jù),之后通過計(jì)算仿真進(jìn)行驗(yàn)證,大多以數(shù)值計(jì)算為主;而如今基于“數(shù)據(jù)密集型科學(xué)”的科研新范式,則更多與大數(shù)據(jù)知識(shí)挖掘及AI訓(xùn)練推理技術(shù)結(jié)合,通過計(jì)算與分析獲得新知識(shí)和新發(fā)現(xiàn)??蒲蓄I(lǐng)域正式進(jìn)入到HPDA高性能數(shù)據(jù)分析時(shí)代。

科研范式的轉(zhuǎn)變,意味著對(duì)于底層數(shù)據(jù)基礎(chǔ)設(shè)施的需求將發(fā)生根本性改變。數(shù)據(jù)密集型的科研應(yīng)用負(fù)載,其數(shù)據(jù)往往具有不可重復(fù)性、高度不確定性、高維、計(jì)算高度復(fù)雜等特征。加上當(dāng)前科研領(lǐng)域?qū)τ跀?shù)據(jù)流動(dòng)的需求愈發(fā)強(qiáng)烈,使得科研領(lǐng)域的HPDA面臨著諸多挑戰(zhàn):

其一、混合計(jì)算需要更加牢固且強(qiáng)大的、支持HPDA場(chǎng)景的可靠存儲(chǔ)底座。眾所周知,無論是高校科研機(jī)構(gòu)的智算中心,還是輻射區(qū)域的政府超算中心,均需要同時(shí)跑不同類型的科研應(yīng)用負(fù)載。這些工作負(fù)載對(duì)于數(shù)據(jù)存儲(chǔ)的容量、性能、帶寬、管理、訪問協(xié)議方面的要求各不相同,因此就需要強(qiáng)大的HPDA數(shù)據(jù)存儲(chǔ)同時(shí)支撐起這些混合工作負(fù)載,并減少數(shù)據(jù)量膨脹以及數(shù)據(jù)遷移;

其二、很多HPDA工作負(fù)載對(duì)于數(shù)據(jù)實(shí)時(shí)處理性能要求很高,例如在高能物理分析、天氣預(yù)測(cè)、藥物研究以及電信欺詐等場(chǎng)景中,往往會(huì)面對(duì)大規(guī)模網(wǎng)絡(luò)并發(fā)數(shù)據(jù)處理需求,需要短時(shí)間內(nèi)對(duì)海量數(shù)據(jù)進(jìn)行快速分析與處理,這對(duì)于HPDA場(chǎng)景下存儲(chǔ)系統(tǒng)的全棧協(xié)同、高效處理能力提出了極高要求;

其三、數(shù)據(jù)流動(dòng)與共享是整個(gè)社會(huì)經(jīng)濟(jì)發(fā)展的大勢(shì)所趨,在科研領(lǐng)域也不例外。尤其是在東數(shù)西算、東數(shù)西存等戰(zhàn)略的大背景下,跨地域、跨集群的數(shù)據(jù)共享與流動(dòng)勢(shì)在必行,為了面對(duì)海量數(shù)據(jù)處理、數(shù)據(jù)分散、數(shù)據(jù)多元化、安全可信等難題,企業(yè)急需全新的HPDA數(shù)據(jù)存儲(chǔ)解決方案來支撐。

因此,業(yè)界普遍意識(shí)到,需要打造支持混合負(fù)載、多協(xié)議互通且具備超高密設(shè)計(jì)、面向HPDA場(chǎng)景的存儲(chǔ)集群解決方案,來應(yīng)對(duì)HPDA工作負(fù)載愈發(fā)嚴(yán)苛的挑戰(zhàn)。其中,華為率先推出了業(yè)界首個(gè)數(shù)據(jù)加速引擎加持的HPDA全棧方案—華為DataRobot HPDA存儲(chǔ)集群解決方案,真正為HPDA存儲(chǔ)打開了全新的創(chuàng)新思路和應(yīng)用階段。

華為DataRobot存儲(chǔ)集群解決方案帶來了什么

事實(shí)上,HPDA工作負(fù)載改變的,不僅僅是存儲(chǔ)系統(tǒng)本身,更是對(duì)于數(shù)據(jù)存儲(chǔ)的設(shè)計(jì)、使用模式和創(chuàng)新能力的一次重塑。

與其他傳統(tǒng)存儲(chǔ)方案不同,華為DataRobot HPDA存儲(chǔ)集群解決方案是業(yè)界首個(gè)數(shù)據(jù)加速引擎加持的HPDA全棧方案,其真正在數(shù)據(jù)應(yīng)用加速、數(shù)據(jù)跨域管理、綠色節(jié)能和全棧敏捷設(shè)計(jì)四大方面開創(chuàng)了先河,引領(lǐng)HPDA存儲(chǔ)創(chuàng)新。

首先是出色的數(shù)據(jù)應(yīng)用加速:華為的DataTurbo應(yīng)用加速引擎,真正讓華為DataRobot HPDA存儲(chǔ)集群解決方案滿足各種科研工作負(fù)載的極致性能需求。

具體來看,DataTurbo是華為DataRobot HPDA存儲(chǔ)集群解決方案中聯(lián)接應(yīng)用與存儲(chǔ)的數(shù)據(jù)加速引擎組件,由應(yīng)用加速引擎和全局?jǐn)?shù)據(jù)管理組件組成。

其中,應(yīng)用加速引擎內(nèi)置了自研網(wǎng)卡芯片和HPC、大數(shù)據(jù)加速套件,具備I/O聚合算法、統(tǒng)一元數(shù)據(jù)網(wǎng)關(guān)、芯片I/O卸載等黑科技,可實(shí)現(xiàn)應(yīng)用處理效率數(shù)倍提升,同時(shí)結(jié)合OceanStor存儲(chǔ)的全局共享存儲(chǔ)能力,在面向E級(jí)超算場(chǎng)景下,可實(shí)現(xiàn)萬級(jí)計(jì)算客戶端并發(fā)訪問,且單集群達(dá)到50TB/s帶寬,10億IOPS能力,性能領(lǐng)先業(yè)界30%。

除了應(yīng)用加速引擎之外,DataTurbo的全局?jǐn)?shù)據(jù)管理組件則讓HPDA的跨域數(shù)據(jù)管理更加簡(jiǎn)單與高效,真正有效推動(dòng)了數(shù)據(jù)的流動(dòng)與共享,為科研領(lǐng)域的數(shù)據(jù)分析與價(jià)值實(shí)現(xiàn)帶來了更多可能。

全局?jǐn)?shù)據(jù)管理組件可以基于統(tǒng)一元數(shù)據(jù),構(gòu)建全局命名空間,實(shí)現(xiàn)跨數(shù)據(jù)統(tǒng)一訪問;支持智能的全文檢索,打破地域限制,讓數(shù)據(jù)看得見;并可通過智能調(diào)度策略,根據(jù)數(shù)據(jù)溫?zé)崂浞旨?jí),可實(shí)現(xiàn)3倍數(shù)據(jù)調(diào)度效率提升。

其次,科研機(jī)構(gòu)的超算中心/智算中心通常規(guī)模龐大、設(shè)備眾多、能耗成本高昂,隨著國家碳達(dá)峰/中和戰(zhàn)略目標(biāo)的推出,超算中心/智算中心走向綠色節(jié)能的發(fā)展之路是大勢(shì)所趨。

為此,華為DataRobot HPDA存儲(chǔ)集群解決方案在存儲(chǔ)系統(tǒng)設(shè)計(jì)上,通過熱溫冷數(shù)據(jù)智能分級(jí)設(shè)計(jì),實(shí)現(xiàn)三個(gè)層級(jí)的數(shù)據(jù)自動(dòng)流動(dòng):本地集群內(nèi)實(shí)現(xiàn)SSD、HDD主存儲(chǔ)、藍(lán)光存儲(chǔ)間的數(shù)據(jù)分級(jí);跨集群數(shù)據(jù)遠(yuǎn)程自動(dòng)分級(jí)到其他數(shù)據(jù)中心;本地?cái)?shù)據(jù)中心到公有云的數(shù)據(jù)分級(jí)流動(dòng)。通過將數(shù)據(jù)放置在最合適的位置,實(shí)現(xiàn)跨數(shù)據(jù)中心層面的整體節(jié)能。

值得一提的是,基于華為DataRobot HPDA存儲(chǔ)集群的自研多模型數(shù)據(jù)合并壓縮技術(shù),可以將數(shù)據(jù)在本地壓縮后再傳輸,極大的節(jié)省傳輸帶寬和存儲(chǔ)空間,最終實(shí)現(xiàn)十年整體TCO降低70%。

面對(duì)傳統(tǒng)風(fēng)冷機(jī)房的能耗問題與高密度支持問題,華為采用的風(fēng)液冷機(jī)柜,創(chuàng)新的硬件設(shè)計(jì)讓整柜功率密度達(dá)到20KW+,PUE≤1.25,功率密度提升1.5倍。DataRobot HPDA存儲(chǔ)集群所提供系列高密分布式存儲(chǔ)配置中,OceanStor高密大容量產(chǎn)品,在5U高的標(biāo)準(zhǔn)設(shè)備空間內(nèi)可以容納120塊HDD,單位空間密度比其他同類產(chǎn)品高出20%。

第四,如今大數(shù)據(jù)、AI等技術(shù)的融入,使得很多科研機(jī)構(gòu)的數(shù)據(jù)中心平臺(tái)都面臨著多元異構(gòu)算力的環(huán)境,這對(duì)于HPDA存儲(chǔ)產(chǎn)品的設(shè)計(jì)與交付提出了極大挑戰(zhàn)。為此,華為DataRobot HPDA存儲(chǔ)集群方案采取全棧敏捷設(shè)計(jì),提供了包含基礎(chǔ)柜、計(jì)算柜和存儲(chǔ)柜在內(nèi)的三類模塊化硬件組合,基于最佳實(shí)踐的典配機(jī)柜設(shè)計(jì),用戶可以根據(jù)不同規(guī)模業(yè)務(wù)場(chǎng)景可按需選擇部署、靈活擴(kuò)展。同時(shí)具備一站式交付能力,可幫助用戶業(yè)務(wù)上線時(shí)間縮短50%。

此外,華為DataRobot HPDA存儲(chǔ)集群解決方案還提供全棧統(tǒng)一運(yùn)維平臺(tái),可以對(duì)多個(gè)數(shù)據(jù)中心的存儲(chǔ)、計(jì)算、網(wǎng)絡(luò)、容器等資源統(tǒng)一管理,包括從資源規(guī)劃、端到端資源發(fā)放、設(shè)備運(yùn)維、到資源優(yōu)化全生命周期管理,同時(shí)提供AI智能運(yùn)維,實(shí)現(xiàn)5倍的管理效率提升和分鐘級(jí)問題定界,極大降低運(yùn)維問題,讓科研機(jī)構(gòu)可以將更多精力投入到科學(xué)研究之中。

生態(tài)加持,華為DataRobot行穩(wěn)致遠(yuǎn)

如今,基于“數(shù)據(jù)密集型科學(xué)”的科研新范式正在深刻影響著各大科研機(jī)構(gòu)。在高性能數(shù)據(jù)分析時(shí)代,僅憑借數(shù)據(jù)基礎(chǔ)設(shè)施的創(chuàng)新將不再滿足要求,需要從底層數(shù)據(jù)存儲(chǔ)、上層應(yīng)用,到整體方案設(shè)計(jì)進(jìn)行全方面的創(chuàng)新。

顯然,華為數(shù)據(jù)存儲(chǔ)率先意識(shí)到HPDA領(lǐng)域的這種需求變革,并且在確保產(chǎn)品優(yōu)秀的基礎(chǔ)上,大力推動(dòng)生態(tài)的力量,聯(lián)合科研領(lǐng)域的聯(lián)科/賽樂/人和未來等多家合作伙伴,在DataRobot HPDA存儲(chǔ)集群解決方案中進(jìn)行應(yīng)用調(diào)優(yōu)和預(yù)集成,真正讓客戶開箱即用。

總體來看,基于“數(shù)據(jù)密集型科學(xué)”的科研新范式已是大勢(shì)所趨。隨著大數(shù)據(jù)、人工智能等技術(shù)進(jìn)一步融合到科學(xué)研究的日常工作之中, HPDA存儲(chǔ)集群解決方案必將被進(jìn)一步普及。毫無疑問,華為DataRobot HPDA存儲(chǔ)集群解決方案的出現(xiàn),為市場(chǎng)樹立了新標(biāo)桿,有望持續(xù)幫助更多用戶構(gòu)建起領(lǐng)先的數(shù)據(jù)基礎(chǔ)設(shè)施,推動(dòng)科研新范式步入發(fā)展的快車道。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2022-12-23
高性能數(shù)據(jù)分析時(shí)代,HPDA平臺(tái)需要什么樣的數(shù)據(jù)存儲(chǔ)?
在海量基因數(shù)據(jù)中進(jìn)行全基因數(shù)據(jù)分析,了解各種疾病與DNA之間的隱秘聯(lián)系;對(duì)海洋氣候進(jìn)行預(yù)測(cè),利用強(qiáng)大的數(shù)據(jù)分析性能,實(shí)現(xiàn)分鐘級(jí)的數(shù)據(jù)...

長(zhǎng)按掃碼 閱讀全文