云計算如何創(chuàng)芯:“逆向工作法”的性感之處

在整個云計算領域,能讓芯片規(guī)?;挠闷饋?,是決定造芯是否成功的天花板。在拉斯維加斯的亞馬遜云科技2023 re:Invent則是完美詮釋了這一論調(diào)。

亞馬遜云科技2023 re:Invent開幕前兩個小時,有一場小型的歡迎晚宴,《星期日泰晤士報》南非站記者Arthur Goldstuck談到:“我們可能會目睹最重要的一場re:Invent,這次亞馬遜云科技的技術發(fā)布,在未來五年都會是極具意義的。

參與者們好奇,在生成式AI幾乎席卷一切的背景下,一個處于領導者地位的云廠商,將會向外界講出怎樣的人工智能故事?

如果站在未來看當下,生成式AI可能是一場大型馬拉松,但亞馬遜云科技現(xiàn)在就已經(jīng)在勾勒出它的地圖。在亞馬遜云科技CEO Adam Selipsky長達兩個半小時的演講中,一張“生成式AI技術堆棧圖”圖貫穿了整場。

亞馬遜云科技“生成式AI技術堆棧圖”(Generative AI Stack)

從上圖可見,亞馬遜云科技搭建了三層AI堆棧:最底層是用于訓練和推理的「基礎設施層」,這里包括一些亞馬遜云科技的自研芯片;中間層是微調(diào)大模型或基礎模型需求的「工具層」;最上層是生成式AI應用層」,這里包括此次新推出的生成式AI助理Amazon Q。

概括而言,亞馬遜云科技正在構建一種范式,去盡可能匹配這個時代下的更多客戶的更多需求,正如Adam Selipsky所說——“我們在用一種跟傳統(tǒng)完全不同的方式探討生成式AI概念”。

不過,正所謂見微知著,我們決定將「芯片」,作為觀察今年亞馬遜云科技re:Invent新發(fā)布的切入點。

攝于2023 re:Invent一角

01

十年自研,逆向造芯

很多人了解亞馬遜云科技,知道它是全球領先云廠商,構建底層軟件的能力非同一般。但大家可能不那么了解的是,亞馬遜云科技還是一個在芯片及硬件層有深厚技術底蘊的公司。

早在十年前的2013年起,亞馬遜云科技就開始自研芯片,至今已形成了一個芯片全家桶,包括四個系列:

構成云服務技術底層核心的虛擬化芯片Amazon Nitro

通用處理器芯片Amazon Graviton

用于機器學習的“訓練”芯片Amazon Trainium和用于機器學習的“推理”芯片Amazon Inferentia

而且實際上,近年來亞馬遜云科技一直在年中舉辦“亞馬遜云科技硅芯片創(chuàng)新日”,與產(chǎn)業(yè)交流相關創(chuàng)新。就在今年6月的2023年芯片創(chuàng)新日,Amazon EC2副總裁Dave Brown回憶起2012年,當時亞馬遜云科技是如何進入芯片設計的故事。一晃,已是十年。

他描述了一群領導者,包括 Peter DeSantis 和 James Hamilton,如何設想“增加一個硬件設備來增強亞馬遜云科技的安全性和性能”——這個簡單的想法,開啟了一個全新的時代,帶來了多種定制的芯片產(chǎn)品。

而在此次re:Invent,就有兩款亞馬遜云科技自研芯片有了重大升級,分別是:

Amazon Graviton4

Amazon Trainium2

Amazon Graviton4 和Amazon Trainium (原型) (Business Wire提供)

Amazon Graviton系列芯片,無疑是芯片發(fā)展史上濃墨重彩的發(fā)明。提起ARM架構的云端芯片,大家似乎不陌生。但如果把時鐘撥回到6年前,雖然當時業(yè)界已經(jīng)通過iPhone,認可了ARM架構是移動端CPU的好選擇。但是,開發(fā)并規(guī)?;逃肁RM架構的服務器CPU,還是前無古人的創(chuàng)舉。

而亞馬遜云科技就是那個開創(chuàng)者,Amazon Graviton第一代誕生于2018年,“現(xiàn)在接近10%的服務器總銷售額是ARM,其中很大一部分來自亞馬遜云科技。在CPU方面,這家公司做得很好。”Bernstein Research高級分析師Stacy Rasgon在一次接受采訪中如是說。

本次大會,Amazon Graviton已經(jīng)更新到第四代,但依然沒有放慢高速增長的步伐。據(jù)悉,與前一代相比,Amazon Graviton4性能提升30%,獨立核心增加50%,對于高并發(fā)等應用所需要的內(nèi)存帶寬,更提升75%,并且,還進一步通過高速物理硬件接口的完全加密提升了安全性。

熟悉造芯的朋友們都知道,設計和成功流片一顆新架構的芯片只是造芯的基本功,而能讓芯片規(guī)?;挠闷饋恚攀菦Q定造芯是否成功的天花板。

在管理理念上,亞馬遜內(nèi)部有一招很特別的法門,叫做“working backwards逆向工作法”。亞馬遜云科技的成功造芯,或許正與此有關。

關于“逆向工作法”,曾經(jīng)貝索斯在2008年致亞馬遜公司股東的信中所做解釋大意如下:如果我們能很好了解顧客需求,并深信這種需求是有長期價值。那么,我們的一貫做法是——耐心探索,直至找到解決方案……從顧客需求出發(fā)的“逆向工作法”(Working backwards)與“技能導向法”(skills-forward)形成鮮明對比。

簡單來說,逆向工作法,就是先研究需求,再根據(jù)需求創(chuàng)造相應工具;而技能導向法,則是手里拿著一個錘子,看什么都像釘子。

亞馬遜云科技的造芯過程,某種程度就遵循了逆向工作法。以亞馬遜云科技最早的硬件系統(tǒng)Amazon Nitro為例。它的出現(xiàn),就是為了解決Xen架構的虛擬化系統(tǒng)的資源消耗問題——服務器中大概只有七成的資源能夠提供給用戶。而Amazon Nitro針對虛擬化損耗,提出定制化硬件的思路,最終提供了裸機的性能。

而在與用戶應用關系度更緊密的CPU層面,亞馬遜云科技提供了針對不同負載優(yōu)化的計算實例類型,來推動芯片的落地應用,從計算密集型、內(nèi)存密集型,再到存儲、IO敏感、吞吐敏感、網(wǎng)絡延遲敏感等,一應俱全。

針對最新的Amazon Graviton4,亞馬遜云科技就提供了Amazon EC2 R8g內(nèi)存優(yōu)化性實例,可以提升客戶運行高性能數(shù)據(jù)庫、內(nèi)存緩存、大數(shù)據(jù)分析等工作負載的效率。R8g實例相比當前一代R7g實例提供更大的實例大小,虛擬處理器(vCPU)以及內(nèi)存均提升了3倍。這讓用戶可以處理更大量的數(shù)據(jù)、更大規(guī)模的工作負載、更快的獲得運行結果,并降低總擁有成本。基于Amazon Graviton4的R8g實例現(xiàn)已提供預覽版,并將在未來幾個月推出正式可用版。

對于Amazon Graviton的設計方式,同樣是從逆向工作法開始的,Amazon Graviton自發(fā)布以來,它的設計出發(fā)點就是用戶的實際工作負載,而不是測試軟件的benchmark。通過一個“六邊形性能分析”可以看到,Amazon Graviton4相比上一代是如何在數(shù)據(jù)應用中提升性能。這些性能的提升不僅僅存在于re:Invent上,更在客戶每次用實際工作負載來測試Amazon Graviton芯片中。

Amazon Graviton4的六邊形性能分析,以及在Amazon Graviton3和Amazon Graviton4上運行的MySQL示例

據(jù)統(tǒng)計,目前由Amazon Graviton支持的Amazon EC2實例種類達150多個,已經(jīng)構建的Amazon Graviton處理器數(shù)量超過200萬個,并擁有超過5萬客戶,包括Datadog、DirecTV、Discovery、Formula 1 (F1)、NextRoll、Nielsen、Pinterest、SAP、Snowflake、Sprinklr、Stripe以及Zendesk等。例如SAP,在使用Amazon Graviton服務之后,成本降低了35%,且分析速度更快,同時減少了45%的碳排放量。

不過我猜,Arthur Goldstuck和很多人在內(nèi),在re:Invent期間更關注的一顆芯,會是Amazon Trainium系列,因為這是面向模型“訓練”的芯片,而這部分,算力的瓶頸問題眾人皆知。

此次大會發(fā)布的Amazon Trainium2,是一款專為基礎模型和大模型而生的產(chǎn)品,為擁有數(shù)千億甚至數(shù)萬億個參數(shù)的基礎模型訓練做了優(yōu)化,相比第一代Amazon Trainium(發(fā)布于2020年12月),性能提升4倍,內(nèi)存提升3倍,能效(每瓦性能)提升2倍,幾乎全線超過摩爾定律所定義的范疇。

同樣,亞馬遜云科技也有相同的實例推動新系列的落地。Amazon EC2 Trn2實例就采用了Amazon Trainium2,一個單獨實例中包含16個Amazon Trainium芯片,Trn2實例可幫助在下一代EC2 UltraCluster中擴展到10萬個Amazon Trainium2,通過搭配Amazon Elastic Fabric Adapter (EFA) 網(wǎng)絡互連,提供65 ExaFlops超算級性能。基于此,客戶只用幾周就能訓練出有3000億個參數(shù)的大模型,這約是OpenAI的大模型GPT-3大小的1.75倍。

在這場發(fā)布的間隙,在采訪中被問道“造芯對于客戶帶去什么價值”時,亞馬遜云科技全球汽車及制造行業(yè)專業(yè)服務團隊負責人Jon Allen表示:

“客戶想要更快的、更便宜的東西,這是基本原則?!?strong>無疑,這也是非常“逆向工作法”的一個回答。他以汽車業(yè)務舉例,“真正訓練一輛自動駕駛汽車,起碼得開車跑900萬英里,如果用傳統(tǒng)方式做數(shù)據(jù)訓練,很多OEMs客戶可能根本負擔不起”。

02

生成式AI大時代,有自研,但不影響聯(lián)盟

雖然亞馬遜云科技一直持續(xù)自研芯片,但是封閉并非這家公司的基因。而在生成式AI時代起決定性作用的另外一家巨頭,英偉達創(chuàng)始人兼CEO黃仁勛穿著標志性皮衣,甚至作為此次re:Invent的首位上場的合作伙伴,與Adam Selipsky進行了一場對話,在對話中黃仁勛提到

“生成式AI正改變各種云端負載,為多元內(nèi)容創(chuàng)作在底層注入加速計算動能。我們的共同目標是,為每個客戶提供具有成本效益的先進生成式AI,為此英偉達與亞馬遜云科技在整個計算堆棧展開合作,橫跨AI基礎設施、加速庫(acceleration libraries)、基礎模型、以及生成式AI服務?!?/p>

在真正的創(chuàng)新者面前,重要的不是是否有競爭,而是雙方是否有能滿足客戶需求的能力,顯然,亞馬遜云科技和英偉達都在對方身上看到了這一點。

“GPU和GPU之間用NV link連接方式讓我們的GPU可以直接存取CPU的記憶體,CPU可以直接使用GPU的記憶體,這是非??斓剡M行的。在更大的網(wǎng)絡中,通過Grace Harper鏈接在一起。Amazon Nitro可以將GH變成一顆巨大的虛擬化的GPU。這么多的實例,我們可以跟亞馬遜云科技EFA兼容起來用,這也是非??焖俚乃俣葋磉\用的,所有單元都可以變成超級的集群。”黃仁勛說道。

約13年前,亞馬遜云科技是第一家把英偉達GPU芯片帶到云上的云廠商,而接下來,雙方還將擴大合作,主要包括四個方面

亞馬遜云科技成為第一家在云端配備英偉達GH200 Grace Hopper超級芯片的云廠商。英偉達GH200 NVL32多節(jié)點平臺為運用英偉達NVLink與NVSwitch技術連接32個Grace Hopper Superchips組成的實例。此平臺將在Amazon Elastic Compute Cloud(Amazon EC2)實例上可用,與亞馬遜云科技的網(wǎng)絡相連,由虛擬化(Amazon Nitro System)及超大規(guī)模集群(Amazon EC2 UltraClusters)提供支持,讓共同客戶能擴展至數(shù)千個GH200超級芯片。

在亞馬遜云科技平臺上將推出英偉達DGX Cloud NVIDIA AI“訓練即服務(AI-training-as-a-service)”。此服務將是首個配置GH200 NVL32的DGX Cloud,為開發(fā)者提供單一實例中最多的共享內(nèi)存。在亞馬遜云科技上運行的DGX Cloud將加速訓練含有超過1兆參數(shù)的尖端生成式AI與大型語言模型。

英偉達與亞馬遜云科技合作推動Project Ceiba,構建全球最快的GPU驅動的AI超級計算機,這是一個配備GH200 NVL32與Amazon EFA互連技術的大規(guī)模系統(tǒng),該系統(tǒng)部署在亞馬遜云科技上,為英偉達研發(fā)團隊提供服務。該超級計算機將前所未有地配置16384顆英偉達H200超級芯片,能處理65 exaflops(衡量超級計算機性能的單位,每秒浮點運算可達一百億億次)速度等級的AI運算,英偉達使用該超級計算機推動其全新生成式AI的創(chuàng)新。

亞馬遜云科技將推出三款Amazon EC2實例:P5e實例配置英偉達H200 Tensor Core GPUs,針對大規(guī)模與尖端生成式AI及HPC高性能運算工作負載;分別配置英偉達L4 GPUs與英偉達L40S GPUs的G6與G6e實例,可運行包括AI微調(diào)、推理、繪圖以及影片工作負載等廣泛應用。G6e實例特別適用于開發(fā)3D工作流程、數(shù)字孿生、以及其他使用英偉達Omniverse的應用,用來連接與構建各種生成式AI的3D應用。

提到大模型,總有人認為這是巨頭的游戲。但是Jon Allen不這么看,“對中小企業(yè)和創(chuàng)業(yè)公司來說,我們的AI芯片帶給他們與寶馬等汽車巨頭相同的計算能力。十年前的硅谷,只有十幾人的小公司根本無法負擔高昂的算力(與大玩家競爭)。現(xiàn)在不一樣了,AI芯片確實創(chuàng)造了新機會?!?/strong>

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2023-12-01
云計算如何創(chuàng)芯:“逆向工作法”的性感之處
在整個云計算領域,能讓芯片規(guī)?;挠闷饋恚菦Q定造芯是否成功的天花板。在拉斯維加斯的亞馬遜云科技2023 re:Invent則是完美詮釋了這...

長按掃碼 閱讀全文