123,123

原標(biāo)題：英特爾Frank T.Hady博士：重新尋找?guī)捙c時(shí)延間的平衡

隨著數(shù)據(jù)集規(guī)模的不斷增長，數(shù)據(jù)中心負(fù)載對(duì)內(nèi)存、存儲(chǔ)的性能和容量的要求也在不斷提高。與此同時(shí)，每單位時(shí)間需要處理更多數(shù)據(jù)，組成計(jì)算系統(tǒng)的組件性能也在不斷提高。所謂性能，是一個(gè)涉及多方面的話題，其中一些指標(biāo)（例如帶寬）的增長速度就會(huì)比其它指標(biāo)（例如時(shí)延）的增長速度更快。

計(jì)算機(jī)架構(gòu)師必須在這些不斷增長的數(shù)據(jù)集和可用技術(shù)的相對(duì)性能提升之間尋找交集，從而創(chuàng)建一個(gè)能夠快速完成任務(wù)的計(jì)算系統(tǒng)。本文將簡要介紹相關(guān)技術(shù)的發(fā)展歷史，以及最新推出的英特爾傲騰技術(shù)。這種新技術(shù)提供了縮短時(shí)延和提高帶寬所需的新資源，填補(bǔ)了計(jì)算系統(tǒng)中的傳統(tǒng)關(guān)鍵點(diǎn)，從而加快了應(yīng)用速度。

內(nèi)存和存儲(chǔ)簡史

DRAM是一個(gè)高帶寬、低延時(shí)的數(shù)據(jù)存儲(chǔ)器，但是每比特成本相對(duì)昂貴。通過在系統(tǒng)中增加DRAM的數(shù)量可以應(yīng)對(duì)數(shù)據(jù)集規(guī)模增加的問題，但這樣做成本會(huì)非常高。十年前，當(dāng)速度較慢的機(jī)械硬盤（HDD）是許多系統(tǒng)中唯一可用的數(shù)據(jù)存儲(chǔ)器，大家沒有更多可選擇空間。然而，訪問高延時(shí)的機(jī)械硬盤會(huì)因?yàn)榈却龜?shù)據(jù)浪費(fèi)太多的處理器周期。

NAND固態(tài)盤（SSD）的出現(xiàn)不僅為存儲(chǔ)數(shù)據(jù)提供了一個(gè)新空間，還能夠加快對(duì)更多數(shù)據(jù)集的訪問速度。因此，基于NAND的固態(tài)盤在市場(chǎng)上得到了廣泛的應(yīng)用。然而現(xiàn)在，即使是速度很快的NAND固態(tài)盤也對(duì)當(dāng)今需要實(shí)時(shí)或近乎實(shí)時(shí)訪問和處理數(shù)據(jù)的數(shù)據(jù)驅(qū)動(dòng)應(yīng)用有些力不從心。因?yàn)榫拖?0年前的硬盤一樣，這些固態(tài)盤會(huì)導(dǎo)致處理器花過長時(shí)間等待數(shù)據(jù)，這會(huì)增加時(shí)延，從而阻礙系統(tǒng)獲得現(xiàn)代CPU能夠提供的性能。隨著時(shí)間的發(fā)展，CPU性能提升然而存儲(chǔ)時(shí)延卻沒能同步，這會(huì)拖累整個(gè)系統(tǒng)的性能提升。

圖1：內(nèi)存、處理器、硬盤和固態(tài)盤隨時(shí)間推移的相對(duì)帶寬改進(jìn)vs相對(duì)時(shí)延改進(jìn)

時(shí)延與帶寬平衡很重要

為證明技術(shù)的發(fā)展，有必要比較以下不同存儲(chǔ)介質(zhì)隨時(shí)間推移的相對(duì)帶寬性能改善和時(shí)延改進(jìn)。基于David Patterson的一項(xiàng)關(guān)鍵研究，圖1將固態(tài)盤數(shù)據(jù)點(diǎn)添加到Patterson的“時(shí)延滯后帶寬”圖表中。Patterson指出，從歷史上看，帶寬改進(jìn)的速度通常要比時(shí)延快得多。根據(jù)摩爾定律，晶體管的數(shù)量在穩(wěn)步增加，同時(shí)多核架構(gòu)在不斷演進(jìn)。

這些改進(jìn)使得處理器可以處理更多指令，同時(shí)與上一代處理器相比，可以在相同或更短的時(shí)間內(nèi)處理更多數(shù)據(jù)。但隨著CPU處理時(shí)間的縮短，從硬盤獲取數(shù)據(jù)的時(shí)延并沒有相應(yīng)地縮短。這導(dǎo)致存儲(chǔ)技術(shù)成為整體性能的瓶頸。對(duì)于內(nèi)存和存儲(chǔ)技術(shù)來說，可以通過并行性來增加帶寬，但訪問該技術(shù)的時(shí)間相對(duì)恒定。因此，只有引入新技術(shù)才能實(shí)現(xiàn)更低時(shí)延。

要理解為什么這很重要，就要考慮當(dāng)時(shí)延減少、帶寬增加時(shí)會(huì)發(fā)生什么。通常，對(duì)于內(nèi)存和存儲(chǔ)資源來說，訪問一個(gè)單元的數(shù)據(jù)不足以填充從內(nèi)存到處理器的路徑，即帶寬乘以時(shí)延（帶寬時(shí)延乘積）大于訪問尺寸。在可能的情況下，為了充分利用資源的帶寬，會(huì)明確把軟件編寫為“并行請(qǐng)求更大或更多的數(shù)據(jù)塊”。隨著帶寬時(shí)延產(chǎn)品的增長，越來越少的算法能夠在請(qǐng)求足夠數(shù)據(jù)的同時(shí)來滿足時(shí)延要求。然而在無法支持的情況下，則會(huì)影響系統(tǒng)帶寬和性能。從最簡單的層面來說，這就是為什么擁有一個(gè)平衡的帶寬/時(shí)延比很重要。

回顧圖1，基于NAND的固態(tài)盤的引入在一段時(shí)間內(nèi)提供了一個(gè)平衡的帶寬/時(shí)延解決方案，它們的時(shí)延比硬盤低得多。基礎(chǔ)訪問時(shí)間從硬盤的幾毫秒縮短到NAND 固態(tài)盤的不到100微秒，這意味著等待數(shù)據(jù)所花費(fèi)的CPU周期更少。由于許多應(yīng)用能夠經(jīng)常訪問NAND 固態(tài)盤的全部帶寬，因此處理速度以肉眼可見的速度提高了。隨著時(shí)間的推移，帶寬不斷增加，而時(shí)延則保持相對(duì)恒定，帶寬的加倍使得系統(tǒng)再次失衡。

以下示例演示了如何使用英特爾傲騰技術(shù)部署低時(shí)延英特爾傲騰數(shù)據(jù)中心級(jí)固態(tài)硬盤，從而提高VMwarevSAN等超融合基礎(chǔ)架構(gòu)解決方案的性能和容量。

傲騰助vSAN再上新高度

企業(yè)業(yè)務(wù)和云服務(wù)提供商可利用英特爾傲騰技術(shù)，以非常經(jīng)濟(jì)的方式來提高虛擬服務(wù)器上運(yùn)行的應(yīng)用的性能。EvaluatorGroup的分析報(bào)告指出，英特爾至強(qiáng)可擴(kuò)展處理器與英特爾傲騰技術(shù)和含NVM Express（NVMe）的英特爾3DNAND固態(tài)盤相結(jié)合，可以為各種運(yùn)行在使用VMwarevSAN的超融合系統(tǒng)上的常見負(fù)載提供更好的性能。

如圖2所示，與運(yùn)行NAND固態(tài)盤存儲(chǔ)介質(zhì)的系統(tǒng)相比，運(yùn)行VMware vSAN 6.7的系統(tǒng)（采用英特爾至強(qiáng)可擴(kuò)展處理器和英特爾傲騰數(shù)據(jù)中心級(jí)固態(tài)盤）可顯著提升性能。采用英特爾傲騰技術(shù)和英特爾3D NAND固態(tài)盤構(gòu)建的系統(tǒng)能夠支持最多1.6倍的虛擬機(jī)，同時(shí)仍可以為每個(gè)虛擬機(jī)保持相同的服務(wù)水平協(xié)議。

這相當(dāng)于每個(gè)系統(tǒng)可多支持60%以上的用戶，這對(duì)于盈利和業(yè)務(wù)增長非常重要。由于英特爾至強(qiáng)可擴(kuò)展處理器、VMware vSAN 6.7以及結(jié)合使用的高效英特爾3D NAND固態(tài)盤與英特爾傲騰數(shù)據(jù)中心級(jí)固態(tài)硬盤提高了虛擬機(jī)密度、降低了基礎(chǔ)設(shè)施成本，從而帶來了明顯的成本效益。

研究得出的結(jié)論是，由于舊的存儲(chǔ)技術(shù)無法滿足虛擬機(jī)的輸入/輸出（I/O）需求，所以舊系統(tǒng)的性能較低。本質(zhì)上，由多個(gè)活躍虛擬機(jī)驅(qū)動(dòng)的高I/O負(fù)載導(dǎo)致NAND 固態(tài)盤備份大量工作，從而增加了數(shù)據(jù)時(shí)延，直到無法再維持虛擬機(jī)所需的服務(wù)水平協(xié)議。

VMware vSAN的例子展示了一種“通過部署英特爾傲騰數(shù)據(jù)中心級(jí)固態(tài)盤來彌合數(shù)據(jù)中心內(nèi)存與存儲(chǔ)層級(jí)之間差距”的方法。歡迎經(jīng)常訪問英特爾傲騰技術(shù)網(wǎng)站，了解企業(yè)如何使用英特爾技術(shù)，更好地滿足現(xiàn)代數(shù)據(jù)中心的需求。

圖2：采用英特爾至強(qiáng)可擴(kuò)展處理器，英特爾3D NAND固態(tài)盤和英特爾傲騰數(shù)據(jù)中心級(jí)固態(tài)盤構(gòu)建的較新VMware vSAN系統(tǒng)，性能比僅基于英特爾3D NAND固態(tài)盤的系統(tǒng)最多高出1.6倍

新架構(gòu)構(gòu)建新平衡

英特爾傲騰技術(shù)可以在系統(tǒng)中扮演多種角色。如前所示，英特爾傲騰數(shù)據(jù)中心級(jí)固態(tài)盤可以利用標(biāo)準(zhǔn)PCIe NVMe接口連接到系統(tǒng)，通過平衡的帶寬/時(shí)延來加速重要的數(shù)據(jù)中心應(yīng)用。在這種形式下，空閑平均時(shí)延大約為10微秒，而NAND 固態(tài)盤則超過80微秒。圖3顯示了系統(tǒng)硬件和軟件時(shí)延。英特爾傲騰數(shù)據(jù)中心級(jí)固態(tài)盤的硬件時(shí)延與系統(tǒng)堆棧軟件時(shí)延大致相同，為系統(tǒng)帶來了另一種平衡。即使在高負(fù)載下，始終如一的低時(shí)延以及高耐用性使這些固態(tài)盤成為快速緩存或分層熱數(shù)據(jù)的理想選擇。

英特爾傲騰技術(shù)現(xiàn)在也可作為直接插入DIMM插槽的英特爾傲騰數(shù)據(jù)中心級(jí)持久性內(nèi)存模塊使用。與DRAM DIMM不同，英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存具有持久性和更大的容量（每個(gè)模塊最高可達(dá)512 GB）。如圖3所示，使用英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存進(jìn)行數(shù)據(jù)訪問的時(shí)延要比使用英特爾傲騰數(shù)據(jù)中心級(jí)固態(tài)盤小得多。

英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存可以直接從應(yīng)用訪問，而不涉及操作系統(tǒng)存儲(chǔ)堆棧，因此不再需要軟件開銷。對(duì)于持久內(nèi)存，空閑平均讀取時(shí)延下降到100到340納秒。相較之前提到的帶寬時(shí)延產(chǎn)品的低時(shí)延，由于時(shí)延較低，因此可以使用較小的單元尺寸、一條高速緩存線訪問該內(nèi)存，同時(shí)仍然提供其全部帶寬。因此，英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存是一種高速緩存線路可訪問、高性能、持久的存儲(chǔ)——是一種真正獨(dú)特的新資源。

鑒于其高性能和持久性，英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存構(gòu)成了另一個(gè)新的數(shù)據(jù)存儲(chǔ)層，可以用各種方式來彌合容量與性能之間的系統(tǒng)差距。這種靈活性使企業(yè)可以構(gòu)建能更好滿足現(xiàn)代工作負(fù)載的處理和內(nèi)存需求的數(shù)據(jù)中心，例如，英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存可顯著提高內(nèi)存數(shù)據(jù)庫的容量。而且，由于持久性內(nèi)存是非易失性的，因此不需要在數(shù)據(jù)庫重新啟動(dòng)后將數(shù)據(jù)重新加載到內(nèi)存中，從而提高了可服務(wù)性和系統(tǒng)正常運(yùn)行時(shí)間，并改進(jìn)了業(yè)務(wù)連續(xù)性。

圖3：NAND固態(tài)盤、英特爾傲騰數(shù)據(jù)中心級(jí)固態(tài)盤和英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存的時(shí)延比較

結(jié)論

在計(jì)算系統(tǒng)中，內(nèi)存和存儲(chǔ)層級(jí)結(jié)構(gòu)把更頻繁訪問的數(shù)據(jù)放在更靠近處理器的位置，同時(shí)把占多數(shù)的數(shù)據(jù)移動(dòng)到遠(yuǎn)離處理器、更便宜的內(nèi)存中（時(shí)延更高）。內(nèi)存和存儲(chǔ)技術(shù)的固有時(shí)延往往會(huì)隨著時(shí)間的推移而緩慢下降，而處理器的性能會(huì)以更快的速度提升。隨著內(nèi)存離處理器距離的不斷增加，處理器需要花費(fèi)更多指令周期等待數(shù)據(jù)。只有引入新的低時(shí)延內(nèi)存技術(shù)以及新的、更緊密集成的系統(tǒng)集成點(diǎn)，才能使系統(tǒng)恢復(fù)平衡。

隨著英特爾傲騰技術(shù)的引入，英特爾為系統(tǒng)提供了一個(gè)新的內(nèi)存來彌合DRAM與NAND固態(tài)盤之間的差距。作為固態(tài)盤和持久內(nèi)存，全新英特爾傲騰技術(shù)使計(jì)算機(jī)架構(gòu)師能夠?qū)⒋笮统志脭?shù)據(jù)結(jié)構(gòu)離處理器更近，從而盡量縮短等待數(shù)據(jù)的時(shí)間并加快應(yīng)用執(zhí)行。當(dāng)系統(tǒng)架構(gòu)師平衡好帶寬需求和低延時(shí)，就釋放了CPU的強(qiáng)大功能。通過英特爾傲騰技術(shù)恢復(fù)帶寬與時(shí)延之間的平衡，CPU現(xiàn)在可以快速處理數(shù)據(jù)，從而達(dá)到最佳系統(tǒng)性能。

作者簡介：

Frank Hady博士是英特爾院士兼英特爾非易失性內(nèi)存解決方案事業(yè)部（NSG）傲騰系統(tǒng)首席架構(gòu)師。Frank負(fù)責(zé)研究和定義英特爾傲騰技術(shù)產(chǎn)品及其與計(jì)算系統(tǒng)的集成。Frank曾擔(dān)任英特爾領(lǐng)先的平臺(tái)I/O架構(gòu)師，為英特爾QuickAssist技術(shù)（英特爾QAT）提供研究基礎(chǔ)，并推動(dòng)了平臺(tái)性能顯著提升。他撰寫或聯(lián)合撰寫了30多篇關(guān)于網(wǎng)絡(luò)、存儲(chǔ)和I/O創(chuàng)新主題的論文，并經(jīng)常發(fā)表關(guān)于內(nèi)存和存儲(chǔ)的文章。他擁有30多項(xiàng)美國專利。Frank獲得弗吉尼亞大學(xué)的電子工程學(xué)士和碩士學(xué)位，并擁有馬里蘭大學(xué)電子工程博士學(xué)位。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

英特爾Frank T.Hady博士：重新尋找?guī)捙c時(shí)延間的平衡

下一篇