近日,存儲(chǔ)圈又有炸裂新消息。
高性能計(jì)算(HPC)領(lǐng)域最具影響力的IO500最新一期榜單公布,以華為OceanStor Pacific分布式存儲(chǔ)為核心底座的Cheeloo-1系統(tǒng)表現(xiàn)一騎絕塵,在最重要的10節(jié)點(diǎn)榜單中以創(chuàng)紀(jì)錄的13萬(wàn)總得分位列第一,性能是上屆冠軍的15倍之多。
無(wú)疑,這份超高的存儲(chǔ)性能成績(jī)具有里程碑意義:不僅體現(xiàn)出華為OceanStor Pacific分布式存儲(chǔ)強(qiáng)大的產(chǎn)品力,更標(biāo)志著分布式存儲(chǔ)在高性能計(jì)算領(lǐng)域的重要性愈發(fā)突出,甚至加速拉開(kāi)了高性能計(jì)算向HPDA(High Performance Data Analytics,高性能數(shù)據(jù)分析)演進(jìn)的序幕。
HPDA是HPC新的制高點(diǎn)
數(shù)據(jù)正在深刻影響高性能計(jì)算領(lǐng)域。
眾所周知,隨著數(shù)字經(jīng)濟(jì)高速發(fā)展,數(shù)據(jù)已是最重要的生產(chǎn)要素之一,其對(duì)于各行各業(yè)的影響日漸凸顯,高性能計(jì)算領(lǐng)域也不例外。過(guò)去,能源勘探、基因測(cè)序、氣象預(yù)測(cè)、類腦研究、災(zāi)害模擬等是典型的HPC場(chǎng)景,側(cè)重?cái)?shù)值計(jì)算,計(jì)算是絕對(duì)主角;如今,HPC場(chǎng)景則走向HPC+AI+大數(shù)據(jù)融合,“數(shù)據(jù)要素”扮演的角色愈發(fā)引人矚目,成為科學(xué)研究、自動(dòng)駕駛等諸多HPC場(chǎng)景的新型驅(qū)動(dòng)力。
例如,華西醫(yī)院的精準(zhǔn)醫(yī)療研究,其一臺(tái)基因測(cè)序儀一年產(chǎn)生的原始數(shù)據(jù)和膨脹數(shù)據(jù)高達(dá)8.5PB,研究人員在海量基因數(shù)據(jù)中進(jìn)行多組學(xué)數(shù)據(jù)分析,首次將人類全基因組分析推進(jìn)到了分鐘級(jí)時(shí)代,對(duì)精準(zhǔn)醫(yī)療發(fā)展意義重大;在氣象預(yù)測(cè)方面,預(yù)測(cè)模型加入更多維度的海量數(shù)據(jù),意味著氣象預(yù)測(cè)可以更加快速和精準(zhǔn),對(duì)于防災(zāi)、生產(chǎn)等有著明顯指導(dǎo)作用;在如火如荼的自動(dòng)駕駛場(chǎng)景,模擬和驗(yàn)證階段的數(shù)據(jù)量高達(dá)數(shù)百PB,汽車廠商們利用海量數(shù)據(jù)來(lái)訓(xùn)練更高級(jí)的自動(dòng)駕駛方案……
人們依靠數(shù)據(jù)密集型應(yīng)用,進(jìn)行海量數(shù)據(jù)實(shí)時(shí)分析,并尋找相關(guān)性,從而獲得新發(fā)現(xiàn)。HPDA的發(fā)展對(duì)于國(guó)民經(jīng)濟(jì)有著重要的價(jià)值與意義,同時(shí)也給時(shí)代提出了更為嚴(yán)苛的訴求,數(shù)據(jù)密集型應(yīng)用具有不可重復(fù)性、高度不確定性、高維、計(jì)算高度復(fù)雜等特性,且眾多HPC系統(tǒng)與應(yīng)用從“數(shù)值計(jì)算型”向“數(shù)據(jù)密集型”演進(jìn),這對(duì)互聯(lián)帶寬和存儲(chǔ)IO響應(yīng)有著極高的要求。
對(duì)于HPC而言,應(yīng)用類型的轉(zhuǎn)變標(biāo)志著過(guò)去重計(jì)算、輕存儲(chǔ)的“偏科生”建設(shè)模式,其瓶頸日益突出,加速向HPDA(High Performance Data Analytics,高性能數(shù)據(jù)分析)平臺(tái)演進(jìn)是必然趨勢(shì)。這也意味著,注重?cái)?shù)據(jù)存儲(chǔ)建設(shè)、關(guān)注數(shù)據(jù)價(jià)值釋放將成為HPC的長(zhǎng)期任務(wù)。
毫無(wú)疑問(wèn),業(yè)界早已意識(shí)到數(shù)據(jù)存儲(chǔ)對(duì)于HPC發(fā)展的重要性。去年,CCF高性能計(jì)算專家委員會(huì)、信通院等單位聯(lián)合推出的《高性能計(jì)算系統(tǒng)性能評(píng)價(jià)白皮書(shū)》首次提出的綜合評(píng)價(jià)體系中,就將數(shù)據(jù)存儲(chǔ)多個(gè)指標(biāo)納入其中,提倡算力、存力平衡設(shè)計(jì)與建設(shè)的模式。
此外,從2017年11月開(kāi)始,全球頂級(jí)高性能計(jì)算會(huì)議都會(huì)發(fā)布IO500榜單,與TOP500榜單并列,將數(shù)據(jù)存儲(chǔ)與計(jì)算并列為HPC重要的評(píng)估指標(biāo)。事實(shí)上,從近年來(lái)IO500榜單的變化,我們明顯感受到HPDA對(duì)于分布式存儲(chǔ)帶來(lái)的變革性影響。
從IO500讀懂分布式存儲(chǔ)趨勢(shì)
毫無(wú)疑問(wèn),高性能計(jì)算是分布式存儲(chǔ)的高價(jià)值應(yīng)用場(chǎng)景。在傳統(tǒng)HPC向HPDA演進(jìn)的過(guò)程中,分布式存儲(chǔ)扮演著關(guān)鍵角色,支撐起海量數(shù)據(jù)高性能并行訪問(wèn)與計(jì)算的高吞吐、高IOPS、混合負(fù)載等需求。
如何評(píng)價(jià)分布式存儲(chǔ)的性能優(yōu)劣?IO500榜單在2017年11月橫空出世,憑借其全面、嚴(yán)格和科學(xué)的標(biāo)準(zhǔn)化性能測(cè)試套件,以及貼近用戶實(shí)際環(huán)境和使用狀況的測(cè)試配置與方法,IO500已經(jīng)成為HPC領(lǐng)域針對(duì)存儲(chǔ)性能的國(guó)際權(quán)威排行榜,更是分布式存儲(chǔ)發(fā)展趨勢(shì)的風(fēng)向標(biāo)。
IO500每半年發(fā)布一次,包括 “總榜單”和“10節(jié)點(diǎn)榜單”兩類,其中“10節(jié)點(diǎn)榜單”非常貼近用戶真實(shí)的使用情況,其測(cè)試結(jié)果也非常便于用戶做橫向?qū)Ρ?,?duì)用戶的參考價(jià)值極高。
經(jīng)過(guò)將近6年的持續(xù)發(fā)展與完善,IO500更像是分布式存儲(chǔ)產(chǎn)品先進(jìn)技術(shù)的“試驗(yàn)場(chǎng)”和產(chǎn)品力的“比武擂臺(tái)”。在HPC場(chǎng)景下,對(duì)于架構(gòu)、性能、帶寬、容量、延遲等持續(xù)增加的需求,各大用戶和廠商們不斷摸索、構(gòu)建出新的分布式存儲(chǔ)產(chǎn)品方案,在你追我趕中提升了分布式存儲(chǔ)的特性,切實(shí)推動(dòng)了分布式存儲(chǔ)的發(fā)展。
例如,HPC從側(cè)重?cái)?shù)值計(jì)算向HPC+AI+大數(shù)據(jù)融合,帶來(lái)的是應(yīng)用負(fù)載類型的多樣化和復(fù)雜化,直接推動(dòng)著分布式存儲(chǔ)多協(xié)議和混合負(fù)載特性的發(fā)展。像自動(dòng)駕駛場(chǎng)景,數(shù)據(jù)處理流程復(fù)雜,從數(shù)據(jù)導(dǎo)入、預(yù)處理到訓(xùn)練、仿真、結(jié)果分析,不同的數(shù)據(jù)處理環(huán)節(jié),使用到的協(xié)議類型不盡相同,如果每個(gè)環(huán)節(jié)都采用一套存儲(chǔ),則會(huì)大幅提升數(shù)據(jù)存儲(chǔ)成本和數(shù)據(jù)管理的復(fù)雜度,而支持多協(xié)議互通的分布式存儲(chǔ),無(wú)疑成為了解決這一難題的關(guān)鍵。
再如,在IO500榜單中,用戶與數(shù)據(jù)存儲(chǔ)廠商攜手打造的分布式存儲(chǔ)方案,在穩(wěn)定性、可靠性等方面比開(kāi)源方案更勝一籌,逐漸成為了HPC的主流建設(shè)模式。眾所周知,隨著應(yīng)用類型的轉(zhuǎn)變,HPC應(yīng)用的長(zhǎng)期穩(wěn)定運(yùn)行極為關(guān)鍵,對(duì)于可靠性和可用性也愈發(fā)重視。比如,氣象預(yù)測(cè)和災(zāi)難模擬等典型場(chǎng)景,對(duì)數(shù)據(jù)的時(shí)效性和業(yè)務(wù)連續(xù)性要求極高,一旦發(fā)生中斷,將帶來(lái)一系列連鎖反應(yīng),而分布式存儲(chǔ)日漸發(fā)展出的高穩(wěn)定和高可靠的特點(diǎn),則滿足了這些典型場(chǎng)景的需求。
綜合來(lái)看,HPC已經(jīng)成為推動(dòng)分布式存儲(chǔ)技術(shù)、產(chǎn)品和方案發(fā)展的重要抓手,像分布式存儲(chǔ)的支持混合負(fù)載、多協(xié)議互通、數(shù)據(jù)高可用、全閃化等特性,均在HPC場(chǎng)景中得到實(shí)踐和應(yīng)用。
事實(shí)上,華為OceanStor Pacific分布式存儲(chǔ)在HPC領(lǐng)域的成功就是最好的例子。作為常年霸榜IO500的分布式存儲(chǔ)產(chǎn)品,華為OceanStor Pacific憑借多年的深耕細(xì)作,在HPC場(chǎng)景中不斷積累與創(chuàng)新,取得多項(xiàng)關(guān)鍵技術(shù)的突破,實(shí)現(xiàn)產(chǎn)品與用戶的雙贏。
華為分布式存儲(chǔ):五邊形戰(zhàn)士一騎絕塵
在本次IO500榜單中,以華為OceanStor Pacific分布式存儲(chǔ)為核心底座的Cheeloo-1系統(tǒng),搭載了全新研制的OceanFS2新一代并行文件系統(tǒng),真正打破了HPC在存儲(chǔ)層的關(guān)鍵性能瓶頸,在總體得分、帶寬性能、元數(shù)據(jù)性能等五個(gè)維度上的得分均遙遙領(lǐng)先,堪稱全能型的五邊形戰(zhàn)士。
在滿足HPC各項(xiàng)存儲(chǔ)需求的基礎(chǔ)上,華為OceanStor Pacific分布式存儲(chǔ)如何做到在綜合性能上比其他廠商快得多?這得益于華為在分布式存儲(chǔ)領(lǐng)域始終如一的研發(fā)創(chuàng)新,逐步在應(yīng)用、算法、網(wǎng)存和架構(gòu)四個(gè)層面,形成綜合優(yōu)勢(shì)。
出處:IO500官網(wǎng)
首先,在應(yīng)用層面,華為OceanStor Pacific分布式存儲(chǔ)打造了應(yīng)用感知的DataTurbo數(shù)據(jù)加速引擎,利用融合數(shù)據(jù)格式、近數(shù)據(jù)處理和特征處理算子卸載加速等創(chuàng)新技術(shù),實(shí)現(xiàn)了對(duì)各種HPDA 應(yīng)用的性能加強(qiáng)。
比如,針對(duì)HPDA中愈發(fā)密集、愈發(fā)不可或缺的大數(shù)據(jù)環(huán)節(jié),數(shù)據(jù)處理流程的各類ETL嚴(yán)重影響了數(shù)據(jù)處理效率,而OceanStor Pacific分布式存儲(chǔ)靈活對(duì)接各種大數(shù)據(jù)引擎的“基操”,實(shí)現(xiàn)了數(shù)據(jù)湖和數(shù)倉(cāng)之間的數(shù)據(jù)共享,大幅減少了ETL的需求。
再例如,DataTurbo數(shù)據(jù)加速引擎在存儲(chǔ)側(cè)為計(jì)算引擎開(kāi)啟緩存能力,通過(guò)自動(dòng)緩存熱點(diǎn)數(shù)據(jù)進(jìn)行預(yù)處理,并在多個(gè)計(jì)算集群之間共享緩存數(shù)據(jù),以削除計(jì)算側(cè)加載時(shí)的資源消耗和時(shí)延,實(shí)現(xiàn)效率60倍提升,讓數(shù)百PB數(shù)據(jù)查詢縮減至10秒。
其次,在算法層面,華為OceanStor Pacific分布式存儲(chǔ)采用業(yè)內(nèi)獨(dú)創(chuàng)的SmartBalance全均衡設(shè)計(jì),實(shí)現(xiàn)數(shù)據(jù)類型和I/O流的智能感知,解決CPU算力不足或調(diào)用堆棧深度等軟件問(wèn)題引起的IOPS瓶頸、HPC多流程跨系統(tǒng)的數(shù)據(jù)遷移、數(shù)據(jù)膨脹等難題。
比如,華為OceanStor Pacific的大小IO分流處理技術(shù),實(shí)現(xiàn)了在一套存儲(chǔ)中帶寬、IOPS和OPS性能全優(yōu),單節(jié)點(diǎn)性能達(dá)到了20GB/s的帶寬和20萬(wàn)IOPS,是業(yè)界的最高水準(zhǔn)。
此外,獨(dú)創(chuàng)的融合非結(jié)構(gòu)化元數(shù)據(jù)索引,實(shí)現(xiàn)文件、對(duì)象和大數(shù)據(jù)等原生多協(xié)議無(wú)損互通,一份數(shù)據(jù)多端調(diào)用。并且,針對(duì)數(shù)字化病理、衛(wèi)星遙感、基因測(cè)序等,華為采用智能感知語(yǔ)義格式、多模態(tài)聚合、智能分區(qū)編碼等技術(shù),進(jìn)行場(chǎng)景化二次壓縮算法,將壓縮比例提高了30~80%。
華為的算法創(chuàng)新在真實(shí)HPC場(chǎng)景中有何價(jià)值?以其獨(dú)創(chuàng)的融合非結(jié)構(gòu)化元數(shù)據(jù)索引為例,在科學(xué)計(jì)算等典型的HPC場(chǎng)景中,創(chuàng)建數(shù)據(jù)集一直都是老大難的問(wèn)題,動(dòng)輒又?jǐn)?shù)十TB的數(shù)據(jù)集,過(guò)去如果需要?jiǎng)?chuàng)建多個(gè)數(shù)據(jù)集,以滿足不同研發(fā)團(tuán)隊(duì)的需求,往往需要通過(guò)數(shù)據(jù)復(fù)制的方式,效率極其低下;如今,利用融合非結(jié)構(gòu)化元數(shù)據(jù)索引,則不需要通過(guò)數(shù)據(jù)復(fù)制的方式,一份數(shù)據(jù)集能夠輕松被多端靈活調(diào)用。
第三,在網(wǎng)存層面,華為OceanStor Pacific通過(guò)自研的網(wǎng)絡(luò)芯片支持RoCE,以及RDMA和IP的訪問(wèn)能力。在同時(shí)支持帶寬、IOPS等不同類型的業(yè)務(wù)時(shí),可以智能調(diào)整網(wǎng)絡(luò)的相關(guān)參數(shù),提供更好的擁塞控制,從而大幅降低不同存儲(chǔ)節(jié)點(diǎn)間的數(shù)據(jù)交換時(shí)延。
最后,在架構(gòu)層面,華為OceanStor Pacific采用全對(duì)稱架構(gòu),實(shí)現(xiàn)了智能IO路徑與磁盤管理,以及極高的數(shù)據(jù)可靠性保護(hù),大幅領(lǐng)先開(kāi)源方案。眾所周知,Lustre等開(kāi)源分布式存儲(chǔ)在HPC領(lǐng)域被多年應(yīng)用,但Lustre的非對(duì)稱架構(gòu)、IO路徑漫長(zhǎng)、磁盤碎片化嚴(yán)重、無(wú)冗余保護(hù)等劣勢(shì),在如今的HPC場(chǎng)景中逐漸凸顯,越來(lái)越多用戶開(kāi)始轉(zhuǎn)向以華為OceanStor Pacific為代表的商用方案,從而在架構(gòu)、性能和可靠性方面獲得更好的保障。
寫(xiě)在最后
根據(jù)Gartner 2022年存儲(chǔ)和數(shù)據(jù)保護(hù)技術(shù)成熟度曲線(Hype Cycle for Storage and Data Protection Technologies, 2022),分布式文件系統(tǒng)、對(duì)象存儲(chǔ)、容器原生存儲(chǔ)等分布式存儲(chǔ)熱門技術(shù),在未來(lái)2-5年里將進(jìn)入高優(yōu)先級(jí)。這也預(yù)示著,分布式存儲(chǔ)會(huì)存儲(chǔ)市場(chǎng)中呈現(xiàn)勢(shì)不可擋的爆發(fā)。
憑借多年來(lái)在分布式存儲(chǔ)領(lǐng)域的關(guān)鍵技術(shù)積累與突破,華為分布式存儲(chǔ)已成為該領(lǐng)域的翹楚,在市場(chǎng)份額、行業(yè)覆蓋、產(chǎn)品競(jìng)爭(zhēng)力等多方面遙遙領(lǐng)先。
以市場(chǎng)為例,華為分布式存儲(chǔ)作為連續(xù)多年沖入Gartner文件與對(duì)象存儲(chǔ)魔力象限的唯一中國(guó)廠商,在全球份額上也令人驚喜。
國(guó)內(nèi)市場(chǎng)上,華為分布式存儲(chǔ)連續(xù)六年高居市場(chǎng)第一,早已執(zhí)掌半壁江山。放眼全球,2022年全球二級(jí)存儲(chǔ)收入排名第二,達(dá)到總份額的25%,以18%的增速遠(yuǎn)超其他對(duì)手。
在行業(yè)覆蓋方面,華為分布式存儲(chǔ)在歐洲、中東、拉美和亞太等地區(qū)的關(guān)鍵業(yè)務(wù)場(chǎng)景,均實(shí)現(xiàn)了大規(guī)模突破,除了高性能計(jì)算之外,還包括教育科研、金融、醫(yī)療保健、媒體娛樂(lè)、交通安平、大數(shù)據(jù)分析等行業(yè)。
據(jù)IDC預(yù)測(cè),到2025年,中國(guó)的數(shù)據(jù)量將增長(zhǎng)到48.6ZB,成為全球最大的數(shù)據(jù)圈,其中80%是非結(jié)構(gòu)化數(shù)據(jù),這無(wú)疑對(duì)擅長(zhǎng)存儲(chǔ)和處理非結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)有著長(zhǎng)期需求。隨著中國(guó)數(shù)字經(jīng)濟(jì)持續(xù)高速增長(zhǎng),數(shù)據(jù)要素、東數(shù)西算、產(chǎn)業(yè)數(shù)字化等戰(zhàn)略的出臺(tái),存儲(chǔ)成為了最重要的數(shù)字底座,而華為分布式存儲(chǔ)憑借過(guò)硬的產(chǎn)品力、強(qiáng)大的方案以及聯(lián)合創(chuàng)新的模式,能夠?yàn)閿?shù)字底座筑造最為牢固的數(shù)字基石。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 雷軍說(shuō)破了3999元的心魔,然而蘋(píng)果就如一座大山在頭上壓著
- 中國(guó)不買了,三大光刻機(jī)企業(yè)都降低預(yù)期,后悔莫及
- 東軟解決方案論壇2024在武漢開(kāi)幕 東軟發(fā)布多款創(chuàng)新型解決方案
- 收入首超特斯拉,比亞迪市值為何只有六分之一?
- 永洪科技:點(diǎn)亮數(shù)據(jù)分析之光,成就數(shù)據(jù)價(jià)值之夢(mèng)
- 明星為何爭(zhēng)做探店頂流?
- 小米80多萬(wàn)元的車值嗎?為誰(shuí)造?
- 江湖老劉:胖東來(lái)為何備受追捧
- 臺(tái)積電更強(qiáng)了,漲價(jià)一成收割美國(guó)芯片
- 雙十一期間大連海參為何受歡迎
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。