123,123

極客網(wǎng)·極客觀察2月9日 經(jīng)過多年的開發(fā)，OpenAI公司推出的DALL-E和GPT-3生成式AI系統(tǒng)風靡全球，目前凸顯了其驚人的應用潛力。然而，這種生成式AI爆發(fā)式增長存在一個問題：每當DALL-E創(chuàng)建一張圖像或GPT-3預測出現(xiàn)下一個的單詞時，就需要進行多次推斷計算，因此占用大量的資源，并耗費更多的電力。當前的GPU和CPU架構不能有效地運行以滿足迫在眉睫的計算需求，這為超大規(guī)模數(shù)據(jù)中心運營商帶來巨大的挑戰(zhàn)。

【專題：ChatGPT引爆生成式AI 人工智能產(chǎn)業(yè)如何生變？】

調(diào)研機構預測，數(shù)據(jù)中心成為了全球最大的能源消費者，占總用電量的比例將從2017年的3%上升到2025年的4.5%。以中國為例，2030年全國運營的數(shù)據(jù)中心用電量預計將超過4000億度，占全國總用電量的4%。

云計算供應商也認識到他們的數(shù)據(jù)中心使用了大量電力，并采取了提高效率的方法措施，例如在北極建設和運營數(shù)據(jù)中心，以利用可再生能源和自然冷卻條件。不過，這還不足以滿足AI應用爆炸式增長的需求。

美國勞倫斯伯克利國家實驗室在研究中發(fā)現(xiàn)，在過去20年，數(shù)據(jù)中心效率的提高一直在控制能耗的增長，但研究表明，現(xiàn)在的能效措施可能不足以滿足未來數(shù)據(jù)中心的需求，因此需要采用更好的方法。

數(shù)據(jù)傳輸是致命瓶頸

效率的根源在于GPU和CPU的工作方式，特別是在運行AI推理模型與訓練模型的時候。很多人了解“超越摩爾定律”以及在更大尺寸的芯片上封裝更多晶體管的物理限制。更先進的芯片正在幫助解決這些挑戰(zhàn)，但目前的解決方案在AI推理方面有一個關鍵弱點：在隨機訪問內(nèi)存中傳輸數(shù)據(jù)的速度顯著降低。

傳統(tǒng)上，分離處理器和存儲芯片成本更低，多年來，處理器時鐘速度一直是計算機性能的關鍵限制因素。如今，阻礙發(fā)展的是芯片之間的互連。

美國國家標準與技術研究院（NIST）研究人員的Jeff Shainline解釋說：“當內(nèi)存和處理器分離時，連接兩個域的通信鏈路就成為了系統(tǒng)的主要瓶頸?！泵绹饦鋷X國家實驗室研究人員Jack Dongarra教授簡潔地說:“當我們審視當今計算機的性能時，發(fā)現(xiàn)數(shù)據(jù)傳輸是致命的瓶頸?！?nbsp;

AI推理vs.AI訓練

與使用AI模型進行預測相比，AI系統(tǒng)在訓練AI模型時使用不同類型的計算。AI訓練在一個基于Transformer的模型中加載數(shù)以萬計的圖像或文本樣本作為參考，然后開始處理。GPU中的數(shù)千個內(nèi)核非常有效地處理大量豐富的數(shù)據(jù)集，例如圖像或視頻，如果需要更快地得到結(jié)果，可以租用更多的基于云計算的GPU。

QQ截圖20230209095413.jpg

雖然AI推理需要更少的能量來進行計算，但在數(shù)億用戶的自動補全中，需要大量的計算和預測來決定下一個單詞是什么，這比長期的訓練要耗費更多的能量。

比如，F(xiàn)acebook的AI系統(tǒng)每天在其數(shù)據(jù)中心觀察到數(shù)萬億次推斷，在過去三年，這一數(shù)字增加了一倍多。研究發(fā)現(xiàn)，在大型語言模型（LLM）上運行語言翻譯推理所消耗的能量是初始訓練的兩到三倍。

需求激增考驗計算效率

ChatGPT在去年年底風靡全球，GPT-4也更加令人印象深刻。如果能采用更節(jié)能的方法，就可以將AI推理擴展到更廣泛的設備上，并創(chuàng)造出新的計算方式。

例如，微軟的Hybrid Loop旨在構建動態(tài)利用云計算和邊緣設備的AI體驗，這允許開發(fā)人員在Azure云平臺、本地客戶端計算機或移動設備上運行AI推理時做出后期綁定決策，以最大限度提高效率。Facebook引入了AutoScale來幫助用戶在運行時有效地決定在哪里計算推斷。

為提高效率，需要克服阻礙AI發(fā)展的障礙，并找到行之有效的方法。

采樣和流水線可以通過減少處理的數(shù)據(jù)量來加快深度學習。SALIENT(用于采樣、切片和數(shù)據(jù)移動)是由麻省理工學院和IBM公司的研究人員開發(fā)的用于解決關鍵瓶頸一種新方法。這種方法可以顯著地降低在包含1億個節(jié)點和10億條邊的大型數(shù)據(jù)集上運行神經(jīng)網(wǎng)絡的需求。但它也影響了準確性和精確性——這對于選擇下一個要顯示的社交帖子來說是可以接受的，但如果試圖近實時地識別工地上的不安全條件則不符合要求。

蘋果、英偉達、英特爾和AMD等科技公司已經(jīng)宣布將專用AI引擎集成到處理器中，AWS甚至正在開發(fā)新的Inferentia 2處理器。但這些解決方案仍然使用傳統(tǒng)的馮·諾依曼處理器架構、集成SRAM和外部DRAM存儲器——這些都需要更多電力來將數(shù)據(jù)移進和移出存儲器。

內(nèi)存內(nèi)計算或成為解決之道

此外，研究人員已經(jīng)發(fā)現(xiàn)了另一種打破“內(nèi)存墻”的方法，那就是讓計算更接近內(nèi)存。

內(nèi)存墻指的是限制數(shù)據(jù)進出內(nèi)存速度的物理屏障，這是傳統(tǒng)架構的一個基本限制。內(nèi)存內(nèi)計算（IMC）通過直接在內(nèi)存模塊中運行AI矩陣計算來解決這一挑戰(zhàn)，避免了通過內(nèi)存總線發(fā)送數(shù)據(jù)的開銷。

IMC適用于AI推理，因為它涉及一個相對靜態(tài)但很大的權重數(shù)據(jù)集，可以反復訪問。雖然總是需要輸入和輸出一些數(shù)據(jù)，但是AI通過將數(shù)據(jù)保存在相同的物理單元中，可以有效地使用和重復用于多個計算，從而消除了大部分的能量傳輸費用和數(shù)據(jù)移動的延遲。

這種方法提高了可擴展性，因為它可以很好地用于芯片設計。通過采用新芯片，AI推斷技術可以在開發(fā)人員的電腦上進行測試，然后通過數(shù)據(jù)中心部署到生產(chǎn)環(huán)境。數(shù)據(jù)中心可以使用一組帶有許多芯片處理器的大型設備來有效地運行企業(yè)級AI模型。

隨著時間的推移，預計IMC將成為AI推理用例的主導架構。當用戶處理大量的數(shù)據(jù)集和數(shù)萬億次的計算時，這是非常有意義的。因為不必浪費更多資源在內(nèi)存墻之間傳輸數(shù)據(jù)，而且這種方法可以輕松擴展以滿足長期需求。

小結(jié)：

AI產(chǎn)業(yè)現(xiàn)在正處于一個令人興奮的轉(zhuǎn)折點。生成式AI、圖像識別和數(shù)據(jù)分析的技術進步揭示了機器學習獨特的聯(lián)系和用途，但首先需要建立一個能夠滿足這一需求的技術解決方案。因為根據(jù)Gartner的預測，除非目前能提供更可持續(xù)的選擇，否則到2025年，AI消耗的能源將超過人類活動所消耗的能源。在這種情況發(fā)生之前，需要想出更好的辦法！

免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內(nèi)容或斷開相關鏈接。

ChatGPT熱潮下的冷思考：2025年AI能耗或超人類，AI計算需要提質(zhì)增效

下一篇

ChatGPT熱潮下的冷思考：2025年AI能耗或超人類，AI計算需要提質(zhì)增效

下一篇

ChatGPT熱潮下的冷思考：2025年AI能耗或超人類，AI計算需要提質(zhì)增效