未來(lái)10年的存儲(chǔ)創(chuàng)新,就被這個(gè)技術(shù)承包了

2019年,隨著在NVMe技術(shù)方面的突破和演進(jìn),超大規(guī)模數(shù)據(jù)中心和高性能計(jì)算用戶很快將從中受益。在后摩爾定律時(shí)期,在CPU性能增長(zhǎng)放緩的背景下,NVMe技術(shù)以及NVMe over fabric技術(shù)的發(fā)展,將成為推動(dòng)IT技術(shù)創(chuàng)新的新動(dòng)力。當(dāng)然,所有這一切背后都是有實(shí)際需求在推動(dòng)。

?

翻開歷史來(lái)看,NVMe的發(fā)展可謂是非常迅速。2014年,第一批NVMe技術(shù)方案還只是服務(wù)器上的一個(gè)驅(qū)動(dòng)而已,這個(gè)驅(qū)動(dòng)負(fù)責(zé)處理存儲(chǔ)訪問操作。

如今,許多超大規(guī)模數(shù)據(jù)中心,做高性能計(jì)算解決方案的廠商都在節(jié)點(diǎn)上測(cè)試NVMe。由于NVMe的方案是針對(duì)節(jié)點(diǎn)規(guī)模擴(kuò)展的,這就帶來(lái)很高的靈活性,同時(shí)還有非常高的性能提升優(yōu)化空間。

雖然NVMe對(duì)于那些需要用到非易失性存儲(chǔ)的應(yīng)用帶來(lái)了很大幫助,但是,下一階段NVMe over fabric的帶來(lái)的影響將更為深遠(yuǎn)。

以太網(wǎng)的帶寬爆炸式增長(zhǎng),100GB/s還有400GB/s之類的似乎也都不遠(yuǎn)了。存儲(chǔ)如果能用上這樣的能力,在服務(wù)器看來(lái),就像是在本地一樣了。

市場(chǎng)上Mellanox,Pure Storage,Excelero都有類似的創(chuàng)新,以太網(wǎng)的方案整體來(lái)說都比較簡(jiǎn)單,這些創(chuàng)新方案的思路就是用簡(jiǎn)潔的方式來(lái)匯集存儲(chǔ)資源,雖然是遠(yuǎn)程訪問,但是看起來(lái)就像是訪問本地存儲(chǔ)一樣。

降低存儲(chǔ)網(wǎng)絡(luò)復(fù)雜度帶來(lái)的好處非常明顯,它有助于打造更大規(guī)模存儲(chǔ)集群,用更少的資源做更多的事兒。

未來(lái),隨著NVMe over fabrics成本大幅降低,NVMe將在技術(shù)方案和市場(chǎng)上釋放更大的能量。

成本下降,這意味著就可以投入大規(guī)模使用了。超大規(guī)模數(shù)據(jù)中心由于采購(gòu)量大,可以用和SATA相同的價(jià)格用上NVMe,對(duì)于一般用戶來(lái)說,多花點(diǎn)錢用3GB/s帶寬替代500MB/s的SATA也非常合適。

雖說NVMe的成本會(huì)降低,前景一片大好,不過真正想把一個(gè)新技術(shù)推向市場(chǎng),起碼市場(chǎng)上得有好幾個(gè)同類方案。大家一起來(lái)教育市場(chǎng),然后才有向傳統(tǒng)存儲(chǔ)體系架構(gòu)發(fā)起挑戰(zhàn)的資格。

?

NVMe化解傳統(tǒng)存儲(chǔ)架構(gòu)的新挑戰(zhàn)

在市場(chǎng)上可以看到,Excelero在研究NVMe over fabric方面的技術(shù),Mellanox,Pure Storage還有NetApp也在研究,具體的做法都不太一樣。不過,面對(duì)實(shí)際用戶需求,要解決的問題會(huì)有許多相似之處。

比如,Excelero有一家歐洲的大型銀行客戶,這家銀行需要跑SAS分析負(fù)載,依靠傳統(tǒng)方案做一些日常分析的話大概需要四十個(gè)小時(shí),由于速度太慢,日常性的報(bào)告不能及時(shí)提供,以至于影響了歐盟的有關(guān)規(guī)定。

在這一場(chǎng)景下,單單說不怕浪費(fèi),多掛點(diǎn)NVMe盤已經(jīng)解決不了問題了。

這家銀行的方案是,在GPFS上構(gòu)建SAS網(wǎng)絡(luò)集群,同一時(shí)間可能有八個(gè)節(jié)點(diǎn)在同一個(gè)數(shù)據(jù)集上工作,數(shù)據(jù)集是不能分割的,由于這是延遲和帶寬敏感型應(yīng)用,當(dāng)對(duì)一天的數(shù)據(jù)進(jìn)行檢索的時(shí)候,對(duì)存儲(chǔ)帶寬,隨機(jī)IO性能都提出了很高要求。

Excelero的方案提供的共享資源池正好解決了這一問題,降低了小IO讀寫的延遲,讀寫帶寬的主要瓶頸也就是網(wǎng)絡(luò)了。不過,生成分析報(bào)告的時(shí)間縮短到了6個(gè)小時(shí)。

Excelero的方案非常有代表性,值得借鑒,足以說明NVMe over fabric的價(jià)值點(diǎn),使得用NVMe over fabric構(gòu)建的遠(yuǎn)程存儲(chǔ)提供的共享資源池,能利用上像GPFS這樣的大規(guī)模并行系統(tǒng)。

集群存儲(chǔ)的另一種做法是,在每一個(gè)主機(jī)上都復(fù)制一份數(shù)據(jù)集。這種做法,首先資源開銷非常巨大,為了讓每份數(shù)據(jù)都保持一致,所以主機(jī)互聯(lián)的技術(shù)經(jīng)常需要傳輸大量的指令,效率非常低下,集中共享的存儲(chǔ)非常有必要。

?

類似的,一家名為CMA的公司正在研究用NVMe技術(shù)支持Oracle Exadata的集群方案。

NVIDIA的DGX系統(tǒng)能讓多個(gè)GDX-1同時(shí)工作,也是一個(gè)集群系統(tǒng),也有人在思考如何讓GDX更好地用上NVMe的能力。

比如,金融領(lǐng)域有時(shí)候需要將一個(gè)工作負(fù)載分散到多臺(tái)DGX-1上,有的朋友可能會(huì)馬上想到DGX-1農(nóng)場(chǎng),DGX-1農(nóng)場(chǎng)的問題是只能用SATA盤,如果換成NVMe的話,帶寬和延遲將發(fā)生非常大的變化。

雖然DGX-2開始支持NVMe了,但是數(shù)量非常有限,只能使用機(jī)箱里提供的那有限的幾塊NVMe SSD。

能不能讓所有的DGX-2都用到NVMe資源池,讓所有的機(jī)器都自由訪問共享內(nèi)存呢?這也是個(gè)有趣的問題??赡懿痪煤螅琋VIDIA也會(huì)推出類似的方案。

人工智能場(chǎng)景將成為推動(dòng)

NVMe存儲(chǔ)創(chuàng)新的一大動(dòng)力

人工智能將是推動(dòng)NVMe over fabric發(fā)展的又一大因素。人工智能技術(shù)的發(fā)展,對(duì)于那些做算法回溯測(cè)試,還有做醫(yī)學(xué)成像、地理信息系統(tǒng)(GIS)的行業(yè)帶來(lái)了很大幫助。

但是由于訓(xùn)練時(shí)候需要處理大量圖像,這對(duì)于存儲(chǔ)帶來(lái)很大挑戰(zhàn),人工智能的能力受到了限制。

雖然有ResNet這樣的基準(zhǔn)測(cè)試會(huì)使用許多小的圖片來(lái)做測(cè)試,讓人看到一些性能表現(xiàn),但在很多時(shí)候,真正用的其實(shí)有很多大圖像。

比如,MRI還有衛(wèi)星圖像的分辨率非常大,圖像大小可能是好幾兆甚至幾十兆,拿這些數(shù)據(jù)來(lái)做訓(xùn)練的話,對(duì)存儲(chǔ)系統(tǒng)的延遲和帶寬要求是非常高的。

在銀行的賬戶交易系統(tǒng)中,也需要擴(kuò)展集群來(lái)處理實(shí)時(shí)的請(qǐng)求,構(gòu)建一個(gè)集中的資源池來(lái)應(yīng)對(duì)隨機(jī)訪問需求。如果是一個(gè)幾十TB的數(shù)據(jù)集,不可能在每個(gè)主機(jī)上復(fù)制一份數(shù)據(jù)并且及時(shí)同步數(shù)據(jù),唯一合理的做法是搭建一個(gè)獨(dú)立的存儲(chǔ)資源池。

?

簡(jiǎn)單來(lái)說,NVMe之所以將獲得飛速發(fā)展,核心原因還是需求推動(dòng)的,那些特定工作負(fù)載,還有業(yè)務(wù)量巨大的公司都必須重新構(gòu)建基礎(chǔ)架構(gòu)。

如今的IT領(lǐng)域,主流的創(chuàng)新主要來(lái)自云和超大規(guī)模數(shù)據(jù)中心領(lǐng)域,新技術(shù)很多時(shí)候都會(huì)在這一領(lǐng)域出現(xiàn)或者發(fā)揚(yáng)光大,NVMe的發(fā)展也將隨之爆發(fā)。

但因?yàn)楝F(xiàn)有IT架構(gòu)的影響以及新的解決方案的成熟度,想真正在市場(chǎng)上看到NVMe的能力還得再等等。

可以肯定的是,NVMe將帶來(lái)許多新的突破,這個(gè)突破將對(duì)IT領(lǐng)域影響深遠(yuǎn),是否是影響未來(lái)十年的技術(shù)也未可知。

【科技云報(bào)道原創(chuàng)】

微信公眾賬號(hào):科技云報(bào)道

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-07-24
未來(lái)10年的存儲(chǔ)創(chuàng)新,就被這個(gè)技術(shù)承包了
科技云報(bào)道原創(chuàng)。 2019年,隨著在NVMe技術(shù)方面的突破和演進(jìn),超大規(guī)模數(shù)據(jù)中心和高性能計(jì)算用戶很快將從中受益。在后摩爾定律時(shí)期,在CPU性能增長(zhǎng)放緩的背景下,NVMe技術(shù)以及NVMe over f

長(zhǎng)按掃碼 閱讀全文