回望過(guò)去一年,科技處于所有人如何溝通、工作、娛樂(lè)和應(yīng)對(duì)新冠肺炎疫情的核心。事實(shí)證明,強(qiáng)大的計(jì)算能力至關(guān)重要。展望未來(lái),我們面臨龐大的算力需求。
在2021年英特爾架構(gòu)日活動(dòng)上,英特爾重磅介紹其全新引領(lǐng)行業(yè)標(biāo)準(zhǔn)的數(shù)據(jù)中心架構(gòu)Sapphire Rapids,搭載了全新的性能核以及多種加速器引擎。同時(shí)詳細(xì)介紹了英特爾全新的基礎(chǔ)設(shè)施處理器(IPU)以及超凡的數(shù)據(jù)中心GPU架構(gòu)Ponte Vecchio,其具備英特爾迄今為止最高的計(jì)算密度。這些新架構(gòu)將為即將推出的高性能產(chǎn)品注入動(dòng)力,并為英特爾的下一個(gè)創(chuàng)新時(shí)代奠定基礎(chǔ),以滿足世界對(duì)高計(jì)算能力日益增長(zhǎng)的需求。
下一代英特爾至強(qiáng)可擴(kuò)展處理器(代號(hào)為“Sapphire Rapids”)
Sapphire Rapids代表了業(yè)界在數(shù)據(jù)中心平臺(tái)上的一大進(jìn)步。該處理器可在不斷變化且要求日益增高的數(shù)據(jù)中心使用中提供可觀的計(jì)算性能,并對(duì)工作負(fù)載進(jìn)行優(yōu)化,以在云、微服務(wù)和AI等彈性計(jì)算模型上提供高性能。
Sapphire Rapids的核心是一個(gè)分區(qū)塊、模塊化的SoC架構(gòu),采用英特爾的嵌入式多芯片互連橋接(EMIB)封裝技術(shù),在保持單晶片CPU接口優(yōu)勢(shì)的同時(shí),具有顯著的可擴(kuò)展性。Sapphire Rapids提供了一個(gè)單一、平衡的統(tǒng)一內(nèi)存訪問(wèn)架構(gòu),每個(gè)線程均可完全訪問(wèn)緩存、內(nèi)存和I/O等所有單元上的全部資源,由此實(shí)現(xiàn)整個(gè)SoC具有一致的低時(shí)延和高橫向帶寬。
Sapphire Rapids基于Intel 7制程工藝技術(shù),采用英特爾全新的性能核微架構(gòu),該架構(gòu)旨在提高速度,突破低時(shí)延和單線程應(yīng)用性能的極限。
Sapphire Rapids提供業(yè)界廣泛的數(shù)據(jù)中心相關(guān)加速器,包括新的指令集架構(gòu)和集成IP,以在各種客戶工作負(fù)載和使用中提升性能。新的內(nèi)置加速器引擎包括:
·英特爾®加速器接口架構(gòu)指令集(AIA)——支持對(duì)加速器和設(shè)備的有效調(diào)度、同步和信號(hào)傳遞
·英特爾®高級(jí)矩陣擴(kuò)展(AMX)——Sapphire Rapids中引入的新加速引擎,可為深度學(xué)習(xí)算法核心的Tensor處理提供大幅加速。其可以在每個(gè)周期內(nèi)進(jìn)行2000次INT8運(yùn)算和1000次BFP16運(yùn)算,實(shí)現(xiàn)計(jì)算能力的大幅提升。使用早期的Sapphire Rapids 芯片,與使用英特爾AVX-512 VNNI 指令的相同微基準(zhǔn)測(cè)試版本相比,使用新的英特爾AMX 指令集擴(kuò)展優(yōu)化的內(nèi)部矩陣乘法微基準(zhǔn)測(cè)試的運(yùn)行速度提高了7 倍以上,為AI 工作負(fù)載中的訓(xùn)練和推理上提供了顯著的性能提升
·英特爾®數(shù)據(jù)流加速器(DSA)——旨在卸載最常見(jiàn)的數(shù)據(jù)移動(dòng)任務(wù),這些任務(wù)會(huì)導(dǎo)致數(shù)據(jù)中心規(guī)模部署中的開(kāi)銷。英特爾DSA改進(jìn)了對(duì)這些開(kāi)銷任務(wù)的處理,以提供更高的整體工作負(fù)載性能,并可以在CPU、內(nèi)存和緩存以及所有附加的內(nèi)存、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備之間移動(dòng)數(shù)據(jù)
這些架構(gòu)上的改進(jìn)使Sapphire Rapids能夠?yàn)樵?、?shù)據(jù)中心、網(wǎng)絡(luò)和智能邊緣中廣泛的工作負(fù)載和部署模式提供開(kāi)箱即用的性能。該處理器旨在通過(guò)先進(jìn)的內(nèi)存和下一代I/O,包括PCIe 5.0、CXL 1.1、DDR5和HBM技術(shù),來(lái)推動(dòng)行業(yè)技術(shù)轉(zhuǎn)型。
基礎(chǔ)設(shè)施處理器(IPU)
IPU是一種可編程的網(wǎng)絡(luò)設(shè)備,旨在使云和通信服務(wù)提供商減少在中央處理器(CPU)方面的開(kāi)銷,并充分釋放性能價(jià)值。
英特爾基于IPU的架構(gòu)有以下主要優(yōu)勢(shì):
·基礎(chǔ)設(shè)施功能和客戶工作負(fù)載的強(qiáng)分離使客戶能夠完全控制CPU
·云運(yùn)營(yíng)商可以將基礎(chǔ)設(shè)施任務(wù)卸載到IPU上,更大化實(shí)現(xiàn)CPU利用率和收益
·IPU可以管理存儲(chǔ)流量,減少時(shí)延,同時(shí)通過(guò)無(wú)磁盤服務(wù)器架構(gòu)有效利用存儲(chǔ)容量。借助IPU,客戶可以通過(guò)一個(gè)安全、可編程、穩(wěn)定的解決方案更好地利用資源,使其能夠平衡處理與存儲(chǔ)
英特爾認(rèn)識(shí)到“單一產(chǎn)品無(wú)法滿足所有需求”,因此對(duì)其IPU架構(gòu)進(jìn)行了更深入的研究,并推出了以下IPU家族的新成員——均為應(yīng)對(duì)多樣化數(shù)據(jù)中心的復(fù)雜性而設(shè)計(jì)。
Mount Evans是英特爾的首個(gè)ASIC IPU。Mount Evans是與一家一流的云服務(wù)提供商共同設(shè)計(jì)和開(kāi)發(fā)的,它融合了多代FPGASmartNIC的經(jīng)驗(yàn)。
·超大規(guī)模就緒,提供高性能網(wǎng)絡(luò)和存儲(chǔ)虛擬化卸載,同時(shí)保持高度控制
·提供業(yè)界一流的可編程數(shù)據(jù)包處理引擎,支持防火墻和虛擬路由等用例
·使用硬件加速的NVMe存儲(chǔ)接口,該接口擴(kuò)展自英特爾傲騰技術(shù),以模擬NVMe設(shè)備
·采用英特爾®高性能Quick Assist技術(shù),部署高級(jí)加密和壓縮加速
·可使用現(xiàn)有普遍部署的DPDK、SPDK等軟件環(huán)境進(jìn)行編程,并且可以采用英特爾Barefoot Switch部門開(kāi)創(chuàng)的P4編程語(yǔ)言來(lái)配置管線
Oak Springs Canyon是一個(gè)IPU參考平臺(tái),基于英特爾®至強(qiáng)D 處理器(Intel® Xeon-D)和擁有業(yè)界領(lǐng)先的功率、效率、性能的英特爾® Agilex™FPGA構(gòu)建:
·卸載Open Virtual Switch(OVS)等網(wǎng)絡(luò)虛擬化功能以及NVMe over Fabric和RoCE v2等存儲(chǔ)功能,并提供硬化的加密模塊,提供更安全、高速的2x 100Gb以太網(wǎng)網(wǎng)絡(luò)接口
·讓英特爾的合作伙伴和客戶能夠使用英特爾®開(kāi)放式FPGA開(kāi)發(fā)堆棧(英特爾®OFS)定制其解決方案,這是一款可擴(kuò)展、開(kāi)源軟件和硬件基礎(chǔ)設(shè)施
·使用現(xiàn)有普遍部署的軟件環(huán)境進(jìn)行編程,包括已在x86上優(yōu)化的DPDK和SPDK
英特爾N6000加速開(kāi)發(fā)平臺(tái),代號(hào)為“Arrow Creek”,是專為搭載至強(qiáng)服務(wù)器設(shè)計(jì)的SmartNIC。其特性包括:
·在功耗、效率和性能方面處于行業(yè)領(lǐng)先地位的英特爾Agilex FPGA。用于高性能的100GB網(wǎng)絡(luò)加速的英特爾以太網(wǎng)800系列控制器
·支持多種基礎(chǔ)設(shè)施工作負(fù)載,使通信服務(wù)提供商(CoSP)能夠提供靈活的加速工作負(fù)載,如Juniper Contrail、OVS和SRv6,它以英特爾PAC-N3000的成功為基礎(chǔ),該產(chǎn)品已在部分業(yè)界一流的CoSP中部署。
XeHPC和Ponte Vecchio
Ponte Vecchio基于XeHPC微架構(gòu),提供業(yè)界領(lǐng)先的每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPs)和計(jì)算密度,以加速AI、HPC和高級(jí)分析工作負(fù)載。英特爾公布了XeHPC微架構(gòu)的IP模塊信息;包括每個(gè)Xe核的8個(gè)矢量和矩陣引擎(稱為XMX XeMatrix eXtensions);切片和堆棧信息;以及包括計(jì)算、基礎(chǔ)和XeLink單元的處理節(jié)點(diǎn)的單元信息。在架構(gòu)日上,英特爾表示,早期的Ponte Vecchio 芯片展示了領(lǐng)先的性能,在流行的AI 基準(zhǔn)測(cè)試中創(chuàng)造了推理和訓(xùn)練吞吐量的行業(yè)記錄。1英特爾A0芯片性能提供了高于45 TFLOPS的FP32吞吐量,高于5 TBps的內(nèi)存結(jié)構(gòu)帶寬,以及高于2 TBps的連接帶寬。同時(shí),英特爾分享了一段演示視頻,展示了ResNet推理性能超過(guò)43,000張圖像/秒和超過(guò)每秒3400張圖像/秒的ResNet訓(xùn)練,并且這兩項(xiàng)性能都有望實(shí)現(xiàn)行業(yè)領(lǐng)先。1
Ponte Vecchio由多個(gè)復(fù)雜的設(shè)計(jì)組成,這些設(shè)計(jì)以單元形式呈現(xiàn),然后通過(guò)嵌入式多芯片互連橋接(EMIB)單元進(jìn)行組裝,實(shí)現(xiàn)單元之間的低功耗、高速連接。這些設(shè)計(jì)均被集成于Foveros封裝中,為提高功率和互連密度形成有源芯片的3D堆疊。高速M(fèi)DFI互連允許1到2個(gè)堆棧的擴(kuò)展。
計(jì)算單元是一個(gè)密集的多個(gè)Xe內(nèi)核,是Ponte Vecchio的核心。
·一塊單元有8個(gè)Xe內(nèi)核,總共有4MB一級(jí)緩存,是提供高效計(jì)算的關(guān)鍵
·基于臺(tái)積電先進(jìn)的N5制程工藝技術(shù)
·英特爾已通過(guò)設(shè)計(jì)基礎(chǔ)設(shè)施設(shè)置和工具流程以及方法,為測(cè)試和驗(yàn)證該節(jié)點(diǎn)的單元鋪平了道路
·該單元具有極其緊湊的36微米凸點(diǎn)間距,可與Foveros進(jìn)行3D堆疊
基礎(chǔ)單元是Ponte Vecchio的連接組織。它是基于Intel 7制程工藝的大型芯片,針對(duì)Foveros技術(shù)進(jìn)行了優(yōu)化。
·基礎(chǔ)單元是所有復(fù)雜的I/O 和高帶寬組件與SoC 基礎(chǔ)設(shè)施——PCIe Gen5、HBM2e 內(nèi)存、連接不同單元MDFI鏈路和EMIB橋接
·采用高2D互連的超高帶寬3D連接時(shí)延很低,使其成為一臺(tái)無(wú)限連接的機(jī)器
·英特爾技術(shù)開(kāi)發(fā)團(tuán)隊(duì)致力于滿足帶寬、凸點(diǎn)間距和信號(hào)完整性方面的要求
Xe鏈路單元提供了GPU之間的連接,支持每單元8個(gè)鏈路。
·對(duì)HPC和AI計(jì)算的擴(kuò)展至關(guān)重要
·旨在實(shí)現(xiàn)支持高達(dá)90G的更高速SerDes
·該單元已被添加到“極光”(Aurora)百億億次級(jí)超級(jí)計(jì)算機(jī)的擴(kuò)展解決方案中
Ponte Vecchio已走下生產(chǎn)線進(jìn)行上電驗(yàn)證,并已開(kāi)始向客戶提供限量樣品。Ponte Vecchio預(yù)計(jì)將于2022年面向HPC和AI市場(chǎng)發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )