為什么人工智能如此需要資源?

為什么人工智能如此需要資源?

截至2023年底,任何關于生成式人工智能需要多少能源的預測都是不準確的。

頭條新聞傾向于猜測“人工智能需要5倍、10倍、30倍的電力”和“足夠運行10萬個家庭的電力”等。與此同時,數(shù)據(jù)中心新聞等專業(yè)出版物的報道稱,功率密度將上升到每機架50千瓦或100千瓦。

為什么生成式人工智能如此需要資源?正在采取哪些措施來計算其潛在的能源成本和碳足跡?或者正如一篇研究論文所寫道,“訓練這些龐然大物的巨大計算成本”是多少?如今,大部分信息都不容易獲得。

分析師已經(jīng)對特定工作負載場景進行了自己的估計,但由于模型構建最前沿的云超大規(guī)模提供商很少披露數(shù)據(jù),因此目前幾乎沒有可靠的數(shù)據(jù)。

經(jīng)過分析,人工智能模型構建從訓練到推理的碳成本產(chǎn)生了一些發(fā)人深省的數(shù)字。根據(jù)《哈佛商業(yè)評論》的一份報告,研究人員認為,訓練“單一大型語言深度學習模型”,例如OpenAI的GPT-4或Google的PaLM預計消耗約300噸二氧化碳……其他研究人員計算出,使用“神經(jīng)架構搜索”技術訓練一個中型生成式AI模型所消耗的電力和能源相當于62.6萬噸二氧化碳排放量。

那么,到底是什么讓人工智能如此耗電呢?

是數(shù)據(jù)集,即數(shù)據(jù)量嗎?使用了多少個參數(shù)?變壓器型號?編碼、解碼和微調?處理時間?答案是,以上所有內容的組合。

數(shù)據(jù)

人們常說GenAI大型語言模型(LLM)和自然語言處理(NLP)需要大量的訓練數(shù)據(jù)。然而,從傳統(tǒng)數(shù)據(jù)存儲的角度來看,實際情況并非如此。

例如,ChatGPT使用www.commoncrawl.com數(shù)據(jù)。Commoncrawl表示,它是每個LLM的主要訓練語料庫,并且提供了用于訓練GPT-3的82%的原始代幣:“我們讓研究人員可以大規(guī)模提取、轉換和分析開放網(wǎng)絡數(shù)據(jù)……超過2500億美元跨越16年的頁面。每個月都會添加3-50億個新頁面?!?/p>

據(jù)認為,ChatGPT-3是在45 TB的Commoncrawl明文上進行訓練的,過濾后為570 GB的文本數(shù)據(jù)。作為對開源AI數(shù)據(jù)的貢獻,它免費托管在AWS上。

但存儲量、從網(wǎng)絡、維基百科和其他地方抓取的數(shù)十億網(wǎng)頁或數(shù)據(jù)標記,然后進行編碼、解碼和微調,以訓練ChatGPT和其他模型,應該不會對數(shù)據(jù)中心產(chǎn)生重大影響。同樣,訓練文本到語音、文本到圖像,或文本到視頻模型,所需的TB或PB數(shù)據(jù)不會對數(shù)據(jù)中心的電源和冷卻系統(tǒng)造成太大壓力,這些數(shù)據(jù)中心是為托管存儲和處理數(shù)百或數(shù)千PB數(shù)據(jù)的IT設備而構建的。

文本到圖像模型的一個例子是LAION(大規(guī)模人工智能開放網(wǎng)絡)——一個擁有數(shù)十億圖像的德國人工智能模型。其模型之一名為LAION 400m,是一個10 TB的網(wǎng)絡數(shù)據(jù)集。另外,LAION5B擁有58.5億個剪輯過濾的文本圖像對。

訓練數(shù)據(jù)量保持在可控范圍內的原因之一是,大多數(shù)AI模型構建者普遍使用預訓練模型(PTM),而不是從頭開始訓練的搜索模型。我們所熟悉的兩個PTM示例是,是來自變壓器(BERT)的雙向編碼器表示和生成預訓練變壓器(GPT)系列,如ChatGPT。

參數(shù)

數(shù)據(jù)中心運營商感興趣的人工智能訓練的另一個衡量標準是,參數(shù)。

生成式AI模型在訓練期間使用AI參數(shù)。參數(shù)的數(shù)量越多,對預期結果的預測就越準確。ChatGPT-3是基于1750億個參數(shù)構建的。但對于AI來說,參數(shù)的數(shù)量已經(jīng)在快速上升。中國LLM第一個版本W(wǎng)U Dao使用了1.75萬億個參數(shù),還提供文本到圖像和文本到視頻的服務。因此,預計這一數(shù)字將繼續(xù)增長。

由于沒有可用的硬數(shù)據(jù),可以合理地推測,運行一個有1.7萬億參數(shù)的模型所需的計算能力將是巨大的。隨著我們進入更多的人工智能視頻生成領域,模型中使用的數(shù)據(jù)量和參數(shù)數(shù)量將會激增。

變壓器

變壓器是一種神經(jīng)網(wǎng)絡架構,旨在解決序列轉導或神經(jīng)機器翻譯問題。這意味著將輸入序列轉換為輸出序列的任何任務。變壓器層依賴于循環(huán),因此當輸入數(shù)據(jù)移動到一個變壓器層時,數(shù)據(jù)會循環(huán)回其上一層,并輸出到下一層。這些層提高了對下一步的預測輸出。其有助于提高語音識別、文本到語音轉換等。

多少電量才足夠?

S&P Global發(fā)布的一份題為《人工智能的力量:來自人工智能的電力需求的瘋狂預測》的報告引用了多個來源。Indigo Advisory Group的董事總經(jīng)理David Groarke在最近的電話采訪中表示:“就美國的電力需求而言,確實很難量化像ChatGPT這樣的東西需要多少需求。從宏觀數(shù)據(jù)來看,到2030年,人工智能將占全球電力需求的3%至4%。Google表示,目前人工智能占其用電量的10%到15%,即每年2.3 TWh?!?/p>

S&P Global繼續(xù)道:“由阿姆斯特丹自由大學商業(yè)與經(jīng)濟學院博士候選人Alex de Vries進行的學術研究,引用了SemiAnalysis的研究。在10月10日發(fā)表在《Joule》雜志上的一篇評論中,估計每次Google搜索中的使用ChatGPT生成式AI都需要超過50萬臺Nvidia A100 HGX服務器,總計410萬個圖形處理單元或GPU。如果每臺服務器的電力需求為6.5 kW,則日耗電量為80 GWh,年耗電量為29.2 TWh?!?/p>

瑞典研究所RI.SE提供了用于訓練AI模型的實際功率的計算結果。其表示:“訓練像GPT-4這樣的超大型語言模型,具有1.7萬億個參數(shù),并使用13萬億個標記(單詞片段),是一項艱巨的任務。OpenAI透露,該項目花費了1億美元,耗時100天,使用了2.5萬個NVIDIA A100 GPU。配備這些GPU的服務器每臺大約消耗6.5 kW,因此在訓練期間估計消耗50 GWh的能源?!?/p>

這一點很重要,因為人工智能使用的能源正在迅速成為公眾討論的話題。

數(shù)據(jù)中心已經(jīng)出現(xiàn)在地圖上,關注生態(tài)的組織正在注意到這一點。據(jù)80billiontrees網(wǎng)站稱,目前還沒有公布對人工智能行業(yè)總足跡的估計,而且人工智能領域的發(fā)展如此迅速,以至于幾乎不可能獲得準確的數(shù)字。查看單個人工智能模型的碳排放是目前的黃金標準……大部分能源都用于為超大規(guī)模數(shù)據(jù)中心供電和冷卻,所有的計算都在這里進行?!?/p>

總結

當我們等待機器學習和人工智能過去和現(xiàn)有的電力使用數(shù)據(jù)出現(xiàn)時,很明顯,一旦模型投入生產(chǎn)和使用,我們的計算規(guī)模將達到EB和EB級。對于數(shù)據(jù)中心的電力和冷卻而言,事情就變得有趣,也更具挑戰(zhàn)性。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2024-01-12
為什么人工智能如此需要資源?
為什么生成式人工智能如此需要資源?正在采取哪些措施來計算其潛在的能源成本和碳足跡?或者正如一篇研究論文所寫道,“訓練這些龐然大物的巨大計算成本”是多少?如今,大部分信息都不容易獲得。

長按掃碼 閱讀全文