SSD價(jià)格不斷下降,PCIe+NVMe如何顛覆傳統(tǒng)存儲(chǔ)?

大數(shù)網(wǎng)的作者群有一個(gè)叫“大王”的,專門(mén)研究存儲(chǔ)。近期寫(xiě)了一系列的科普文章,知識(shí)點(diǎn)很多。這里把他說(shuō)的資料全部整理了一下,來(lái)一起研究存儲(chǔ)的未來(lái)。

存儲(chǔ)有什么未來(lái)?可以預(yù)見(jiàn)的是,由于SSD的價(jià)格的不斷下降,以及PCIe接口的不斷完善,加上NVMe協(xié)議的逐漸成熟,正在為整個(gè)存儲(chǔ)系統(tǒng)帶來(lái)顛覆性的改變,這種趨勢(shì)明顯。

如果再加上明年新材料TLC、3D-NAND、3D-Xpoint等面世和大規(guī)模商業(yè)化,PCIe+NVMe完全可能進(jìn)入數(shù)據(jù)中心充當(dāng)主存儲(chǔ)系統(tǒng),而不是只當(dāng)緩存。

一直以來(lái),緩存都是二房丫頭的命,幫主子(數(shù)據(jù))救急,過(guò)度一下IO;可二房丫頭雖然顏值高,可價(jià)格貴,身子?jì)少F,主子可不敢把金銀財(cái)寶(數(shù)據(jù))完全交給她?,F(xiàn)在二房丫頭可以成為正房了。

我們看看這一切如何發(fā)生的。

壹 存儲(chǔ)當(dāng)前的瓶頸在哪里?

一定程度上,閃存將磁盤(pán)換掉之后,引發(fā)的連鎖效應(yīng)非常廣泛,從接口到協(xié)議,從存儲(chǔ)系統(tǒng)到網(wǎng)絡(luò)架構(gòu),整個(gè)系統(tǒng)性的改變;但改變是緩慢的,就那NVMe來(lái)說(shuō),也是經(jīng)過(guò)幾年在互聯(lián)網(wǎng)行業(yè)的成熟,才慢慢被接受。

現(xiàn)在,服務(wù)器、網(wǎng)絡(luò)甚至于各種板卡和芯片廠商都著實(shí)為SSD方方面面騷動(dòng)了一番。

具體有這么幾個(gè)方面:

接口來(lái)說(shuō),磁盤(pán)時(shí)代6Gb/s的SATA和12Gb/s 的SAS,已經(jīng)是帶寬非常高的接口了,但SSD的出現(xiàn)立即把這些踢到了垃圾桶。

數(shù)據(jù)保護(hù)來(lái)說(shuō),之前PCIe SSD一般在Tie0層,主要的充當(dāng)角色是緩存,主要作用是頂IO壓力,而不是對(duì)應(yīng)用數(shù)據(jù)的長(zhǎng)時(shí)間儲(chǔ)存。但是現(xiàn)在,PCIe SSD要做主存儲(chǔ),首先要解決的就是如何將多個(gè)PCIe SSD組合成為一個(gè)存儲(chǔ)池了。

再用硬盤(pán)時(shí)代的RAID技術(shù)?NONO。比如RAID6效率非常低,而且寫(xiě)入次數(shù)太多,閃存使用壽命會(huì)縮短。當(dāng)下針對(duì)PCIe SSD的數(shù)據(jù)保護(hù)技術(shù)可以說(shuō)還處于初級(jí)階段,閃存廠商可能會(huì)自己做一個(gè)數(shù)據(jù)保護(hù)軟件。但是由于閃存廠商多有硬件的基因,所以這類軟件未來(lái)必然走向閃存陣列。另一方面,針對(duì)固態(tài)存儲(chǔ)的數(shù)據(jù)保護(hù)軟件也將是軟件廠商必爭(zhēng)的一個(gè)領(lǐng)域。

可以預(yù)料的是,PCIe SSD有望成為主流,雖然會(huì)有新的固態(tài)介質(zhì)和新的硬件接口,但是這需要時(shí)間也需要大量的投入,同時(shí)磁盤(pán)走向沒(méi)落已經(jīng)是沒(méi)跑的事了。

其次,雖然PCIe SSD很熱,特別是NVMe成熟之后,但是現(xiàn)在PCIe SSD仍在一個(gè)發(fā)展的前期,很多系統(tǒng)和網(wǎng)絡(luò)層面的事還沒(méi)有做。

貳 NVMe over Fabric統(tǒng)一網(wǎng)絡(luò)結(jié)構(gòu)?

說(shuō)SSD正在改變所有,數(shù)據(jù)中心的網(wǎng)絡(luò)協(xié)議就可能徹底改變。為什么?

因?yàn)槲磥?lái)數(shù)據(jù)中心有可能是上千片PCIe SSD充當(dāng)存儲(chǔ)主系統(tǒng),用的就是NVMe over Fabric搭建。NVMe over Fabric的作用是,如何解決網(wǎng)絡(luò)互聯(lián)的問(wèn)題。

NVMe over Fabric就是要將NVMe嫁接在各種網(wǎng)絡(luò)上面,這里的網(wǎng)絡(luò)可以是以太網(wǎng)(iWARP或者是RoCE)、InfiniBand等等,當(dāng)然為了進(jìn)一步縮減延遲,RDMA(Remote Direct Memory Access,遠(yuǎn)程直接數(shù)據(jù)存取)在NVMe over Fabric中也是非常重要的角色。

這個(gè)架構(gòu)有三點(diǎn)需要說(shuō)明。

首先,前端和后端都是基于NVMe的,并且與iSCSI和TCP/IP共用一個(gè)網(wǎng)絡(luò);

其次,對(duì)于RDMA的支持可以使得數(shù)據(jù)傳輸跳過(guò)操作系統(tǒng)進(jìn)行,所以延遲可以得到進(jìn)一步降低;

最后,隨著網(wǎng)絡(luò)技術(shù)的不斷演進(jìn),iWARP RDMA不是唯一的選擇,基于Omni和FC的方案應(yīng)該也會(huì)有。

NVMe聯(lián)盟早在去年9月就已經(jīng)發(fā)布一個(gè)新聞稿,說(shuō)是在舊金山的IDF上會(huì)有NVMe over Fabric的解決方案demo展出,而最早成型的解決方案有望在2016年出現(xiàn)。

既然說(shuō)是網(wǎng)絡(luò)中的問(wèn)題,很多網(wǎng)絡(luò)廠商也有相關(guān)的動(dòng)向,比如InfiniBand領(lǐng)域的高手Mellanox有一個(gè)NBDx架構(gòu),兩塊PCIe SSD可以實(shí)現(xiàn)百萬(wàn)級(jí)的IOPS性能。還有EMC的DSSD,也是大規(guī)模的基于NVMe SSD的存儲(chǔ)系統(tǒng),資料太少,就不說(shuō)了。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2015-12-16
SSD價(jià)格不斷下降,PCIe+NVMe如何顛覆傳統(tǒng)存儲(chǔ)?
大數(shù)網(wǎng)的作者群有一個(gè)叫“大王”的,專門(mén)研究存儲(chǔ)。近期寫(xiě)了一系列的科普文章,知識(shí)點(diǎn)很多。這里把他說(shuō)的資料全部整理了一下,來(lái)一起研究存

長(zhǎng)按掃碼 閱讀全文