回望過去一年,科技處于所有人如何溝通、工作、娛樂和應(yīng)對新冠肺炎疫情的核心。事實(shí)證明,強(qiáng)大的計算能力至關(guān)重要。展望未來,我們面臨龐大的算力需求。
在2021年英特爾架構(gòu)日活動上,英特爾重磅介紹其全新引領(lǐng)行業(yè)標(biāo)準(zhǔn)的數(shù)據(jù)中心架構(gòu)Sapphire Rapids,搭載了全新的性能核以及多種加速器引擎。同時詳細(xì)介紹了英特爾全新的基礎(chǔ)設(shè)施處理器(IPU)以及超凡的數(shù)據(jù)中心GPU架構(gòu)Ponte Vecchio,其具備英特爾迄今為止最高的計算密度。這些新架構(gòu)將為即將推出的高性能產(chǎn)品注入動力,并為英特爾的下一個創(chuàng)新時代奠定基礎(chǔ),以滿足世界對高計算能力日益增長的需求。
下一代英特爾至強(qiáng)可擴(kuò)展處理器(代號為“Sapphire Rapids”)
Sapphire Rapids代表了業(yè)界在數(shù)據(jù)中心平臺上的一大進(jìn)步。該處理器可在不斷變化且要求日益增高的數(shù)據(jù)中心使用中提供可觀的計算性能,并對工作負(fù)載進(jìn)行優(yōu)化,以在云、微服務(wù)和AI等彈性計算模型上提供高性能。
Sapphire Rapids的核心是一個分區(qū)塊、模塊化的SoC架構(gòu),采用英特爾的嵌入式多芯片互連橋接(EMIB)封裝技術(shù),在保持單晶片CPU接口優(yōu)勢的同時,具有顯著的可擴(kuò)展性。Sapphire Rapids提供了一個單一、平衡的統(tǒng)一內(nèi)存訪問架構(gòu),每個線程均可完全訪問緩存、內(nèi)存和I/O等所有單元上的全部資源,由此實(shí)現(xiàn)整個SoC具有一致的低時延和高橫向帶寬。
Sapphire Rapids基于Intel 7制程工藝技術(shù),采用英特爾全新的性能核微架構(gòu),該架構(gòu)旨在提高速度,突破低時延和單線程應(yīng)用性能的極限。
Sapphire Rapids提供業(yè)界廣泛的數(shù)據(jù)中心相關(guān)加速器,包括新的指令集架構(gòu)和集成IP,以在各種客戶工作負(fù)載和使用中提升性能。新的內(nèi)置加速器引擎包括:
·英特爾®加速器接口架構(gòu)指令集(AIA)——支持對加速器和設(shè)備的有效調(diào)度、同步和信號傳遞
·英特爾®高級矩陣擴(kuò)展(AMX)——Sapphire Rapids中引入的新加速引擎,可為深度學(xué)習(xí)算法核心的Tensor處理提供大幅加速。其可以在每個周期內(nèi)進(jìn)行2000次INT8運(yùn)算和1000次BFP16運(yùn)算,實(shí)現(xiàn)計算能力的大幅提升。使用早期的Sapphire Rapids 芯片,與使用英特爾AVX-512 VNNI 指令的相同微基準(zhǔn)測試版本相比,使用新的英特爾AMX 指令集擴(kuò)展優(yōu)化的內(nèi)部矩陣乘法微基準(zhǔn)測試的運(yùn)行速度提高了7 倍以上,為AI 工作負(fù)載中的訓(xùn)練和推理上提供了顯著的性能提升
·英特爾®數(shù)據(jù)流加速器(DSA)——旨在卸載最常見的數(shù)據(jù)移動任務(wù),這些任務(wù)會導(dǎo)致數(shù)據(jù)中心規(guī)模部署中的開銷。英特爾DSA改進(jìn)了對這些開銷任務(wù)的處理,以提供更高的整體工作負(fù)載性能,并可以在CPU、內(nèi)存和緩存以及所有附加的內(nèi)存、存儲和網(wǎng)絡(luò)設(shè)備之間移動數(shù)據(jù)
這些架構(gòu)上的改進(jìn)使Sapphire Rapids能夠?yàn)樵啤?shù)據(jù)中心、網(wǎng)絡(luò)和智能邊緣中廣泛的工作負(fù)載和部署模式提供開箱即用的性能。該處理器旨在通過先進(jìn)的內(nèi)存和下一代I/O,包括PCIe 5.0、CXL 1.1、DDR5和HBM技術(shù),來推動行業(yè)技術(shù)轉(zhuǎn)型。
基礎(chǔ)設(shè)施處理器(IPU)
IPU是一種可編程的網(wǎng)絡(luò)設(shè)備,旨在使云和通信服務(wù)提供商減少在中央處理器(CPU)方面的開銷,并充分釋放性能價值。
英特爾基于IPU的架構(gòu)有以下主要優(yōu)勢:
·基礎(chǔ)設(shè)施功能和客戶工作負(fù)載的強(qiáng)分離使客戶能夠完全控制CPU
·云運(yùn)營商可以將基礎(chǔ)設(shè)施任務(wù)卸載到IPU上,更大化實(shí)現(xiàn)CPU利用率和收益
·IPU可以管理存儲流量,減少時延,同時通過無磁盤服務(wù)器架構(gòu)有效利用存儲容量。借助IPU,客戶可以通過一個安全、可編程、穩(wěn)定的解決方案更好地利用資源,使其能夠平衡處理與存儲
英特爾認(rèn)識到“單一產(chǎn)品無法滿足所有需求”,因此對其IPU架構(gòu)進(jìn)行了更深入的研究,并推出了以下IPU家族的新成員——均為應(yīng)對多樣化數(shù)據(jù)中心的復(fù)雜性而設(shè)計。
Mount Evans是英特爾的首個ASIC IPU。Mount Evans是與一家一流的云服務(wù)提供商共同設(shè)計和開發(fā)的,它融合了多代FPGASmartNIC的經(jīng)驗(yàn)。
·超大規(guī)模就緒,提供高性能網(wǎng)絡(luò)和存儲虛擬化卸載,同時保持高度控制
·提供業(yè)界一流的可編程數(shù)據(jù)包處理引擎,支持防火墻和虛擬路由等用例
·使用硬件加速的NVMe存儲接口,該接口擴(kuò)展自英特爾傲騰技術(shù),以模擬NVMe設(shè)備
·采用英特爾®高性能Quick Assist技術(shù),部署高級加密和壓縮加速
·可使用現(xiàn)有普遍部署的DPDK、SPDK等軟件環(huán)境進(jìn)行編程,并且可以采用英特爾Barefoot Switch部門開創(chuàng)的P4編程語言來配置管線
Oak Springs Canyon是一個IPU參考平臺,基于英特爾®至強(qiáng)D 處理器(Intel® Xeon-D)和擁有業(yè)界領(lǐng)先的功率、效率、性能的英特爾® Agilex™FPGA構(gòu)建:
·卸載Open Virtual Switch(OVS)等網(wǎng)絡(luò)虛擬化功能以及NVMe over Fabric和RoCE v2等存儲功能,并提供硬化的加密模塊,提供更安全、高速的2x 100Gb以太網(wǎng)網(wǎng)絡(luò)接口
·讓英特爾的合作伙伴和客戶能夠使用英特爾®開放式FPGA開發(fā)堆棧(英特爾®OFS)定制其解決方案,這是一款可擴(kuò)展、開源軟件和硬件基礎(chǔ)設(shè)施
·使用現(xiàn)有普遍部署的軟件環(huán)境進(jìn)行編程,包括已在x86上優(yōu)化的DPDK和SPDK
英特爾N6000加速開發(fā)平臺,代號為“Arrow Creek”,是專為搭載至強(qiáng)服務(wù)器設(shè)計的SmartNIC。其特性包括:
·在功耗、效率和性能方面處于行業(yè)領(lǐng)先地位的英特爾Agilex FPGA。用于高性能的100GB網(wǎng)絡(luò)加速的英特爾以太網(wǎng)800系列控制器
·支持多種基礎(chǔ)設(shè)施工作負(fù)載,使通信服務(wù)提供商(CoSP)能夠提供靈活的加速工作負(fù)載,如Juniper Contrail、OVS和SRv6,它以英特爾PAC-N3000的成功為基礎(chǔ),該產(chǎn)品已在部分業(yè)界一流的CoSP中部署。
XeHPC和Ponte Vecchio
Ponte Vecchio基于XeHPC微架構(gòu),提供業(yè)界領(lǐng)先的每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPs)和計算密度,以加速AI、HPC和高級分析工作負(fù)載。英特爾公布了XeHPC微架構(gòu)的IP模塊信息;包括每個Xe核的8個矢量和矩陣引擎(稱為XMX XeMatrix eXtensions);切片和堆棧信息;以及包括計算、基礎(chǔ)和XeLink單元的處理節(jié)點(diǎn)的單元信息。在架構(gòu)日上,英特爾表示,早期的Ponte Vecchio 芯片展示了領(lǐng)先的性能,在流行的AI 基準(zhǔn)測試中創(chuàng)造了推理和訓(xùn)練吞吐量的行業(yè)記錄。1英特爾A0芯片性能提供了高于45 TFLOPS的FP32吞吐量,高于5 TBps的內(nèi)存結(jié)構(gòu)帶寬,以及高于2 TBps的連接帶寬。同時,英特爾分享了一段演示視頻,展示了ResNet推理性能超過43,000張圖像/秒和超過每秒3400張圖像/秒的ResNet訓(xùn)練,并且這兩項性能都有望實(shí)現(xiàn)行業(yè)領(lǐng)先。1
Ponte Vecchio由多個復(fù)雜的設(shè)計組成,這些設(shè)計以單元形式呈現(xiàn),然后通過嵌入式多芯片互連橋接(EMIB)單元進(jìn)行組裝,實(shí)現(xiàn)單元之間的低功耗、高速連接。這些設(shè)計均被集成于Foveros封裝中,為提高功率和互連密度形成有源芯片的3D堆疊。高速M(fèi)DFI互連允許1到2個堆棧的擴(kuò)展。
計算單元是一個密集的多個Xe內(nèi)核,是Ponte Vecchio的核心。
·一塊單元有8個Xe內(nèi)核,總共有4MB一級緩存,是提供高效計算的關(guān)鍵
·基于臺積電先進(jìn)的N5制程工藝技術(shù)
·英特爾已通過設(shè)計基礎(chǔ)設(shè)施設(shè)置和工具流程以及方法,為測試和驗(yàn)證該節(jié)點(diǎn)的單元鋪平了道路
·該單元具有極其緊湊的36微米凸點(diǎn)間距,可與Foveros進(jìn)行3D堆疊
基礎(chǔ)單元是Ponte Vecchio的連接組織。它是基于Intel 7制程工藝的大型芯片,針對Foveros技術(shù)進(jìn)行了優(yōu)化。
·基礎(chǔ)單元是所有復(fù)雜的I/O 和高帶寬組件與SoC 基礎(chǔ)設(shè)施——PCIe Gen5、HBM2e 內(nèi)存、連接不同單元MDFI鏈路和EMIB橋接
·采用高2D互連的超高帶寬3D連接時延很低,使其成為一臺無限連接的機(jī)器
·英特爾技術(shù)開發(fā)團(tuán)隊致力于滿足帶寬、凸點(diǎn)間距和信號完整性方面的要求
Xe鏈路單元提供了GPU之間的連接,支持每單元8個鏈路。
·對HPC和AI計算的擴(kuò)展至關(guān)重要
·旨在實(shí)現(xiàn)支持高達(dá)90G的更高速SerDes
·該單元已被添加到“極光”(Aurora)百億億次級超級計算機(jī)的擴(kuò)展解決方案中
Ponte Vecchio已走下生產(chǎn)線進(jìn)行上電驗(yàn)證,并已開始向客戶提供限量樣品。Ponte Vecchio預(yù)計將于2022年面向HPC和AI市場發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )