Ai大模型能否繼續(xù)擴展?| 專家視點

當(dāng)前,人工智能正在迅速部署到商業(yè)和金融的各個方面。一些令人興奮的成功給行業(yè)帶來了接受這項新技術(shù)的壓力,因為沒有人愿意被競爭對手遠遠拋在后面。

人工智能背后的核心技術(shù)是神經(jīng)網(wǎng)絡(luò)模型、深度學(xué)習(xí)算法和用于訓(xùn)練的海量數(shù)據(jù)集。該模型是為特定目的而構(gòu)建的,例如對象識別、語音識別和對象跟蹤?!澳P汀泵枋隽松窠?jīng)網(wǎng)絡(luò)的構(gòu)建方式、網(wǎng)絡(luò)有多少參數(shù)以及有多少層。

神經(jīng)網(wǎng)絡(luò)的總體精度是訓(xùn)練數(shù)據(jù)集的質(zhì)量和大小、參數(shù)數(shù)量和訓(xùn)練過程的函數(shù)。這不是一門精確的科學(xué)。訓(xùn)練過多,模型對訓(xùn)練集的響應(yīng)良好,但對現(xiàn)實情況的響應(yīng)卻不佳。這是模型“過度擬合”。訓(xùn)練太少,模型將無法響應(yīng)所有已知情況。

沒有一個模型是完美的。總是存在誤差幅度,并且會出現(xiàn)模型沒有參數(shù)的異常情況。在過去10年中,隨著功能和準確性的提高,模型變得更加復(fù)雜。

Bard和GPT-4等大型語言模型使用的模型使用數(shù)千億個參數(shù),需要海量數(shù)據(jù)集進行訓(xùn)練。即使是最強大的個人計算機也無法處理需要大量計算能力和內(nèi)存資源的大型模型。計算是通過互聯(lián)網(wǎng)(云)在大型數(shù)據(jù)中心計算機(服務(wù)器場)上完成的。

服務(wù)器場用于自然語言處理、生成文本和圖像、視頻流分類以及物聯(lián)網(wǎng)過程控制和監(jiān)控等應(yīng)用。《連線》雜志估計,訓(xùn)練像 GPT-4 這樣的大型模型需要花費1億美元,并在11個月內(nèi)使用多達10000個配備強大A100 GPU處理器陣列的系統(tǒng)。已知最大的模型是Google GLaM,擁有超過1 萬億個參數(shù)。

如今,模型變得越來越大,但這些系統(tǒng)能否繼續(xù)擴展?

SemiAnalysis首席分析師Dylan Patel表示,每天運行ChatGPT的成本估計高達70萬美元。該成本細分為維護、計算機資源折舊以及服務(wù)器和冷卻系統(tǒng)的電力消耗。在谷歌和加州大學(xué)伯克利分校(《科學(xué)美國人》)聯(lián)合發(fā)表的一項研究中,GPT-3 的耗電量為1,287 兆瓦時。

當(dāng)考慮到全球服務(wù)器場的數(shù)量和人工智能處理的成倍增加時,這一點值得高度關(guān)注。隨著越來越多的人開始訪問在線人工智能,服務(wù)器群的功耗可能會增加。到2025年,服務(wù)器群可能消耗全球20% 以上的電力。

服務(wù)器群使用配備強大計算機和GPU的大型機架。它們包含數(shù)千個處理核心,可用作并行處理單元來計算神經(jīng)網(wǎng)絡(luò)的功能。單個GPU使用的功率可高達400瓦,服務(wù)器最多可使用32個 GPU。一個公司的大型數(shù)據(jù)中心集群可能部署多達250萬臺服務(wù)器。即使只有一半的服務(wù)器配備GPU,最壞情況下的計算也將達到16000兆瓦時。換言之,這是大量的溫室氣體排放的源泉。

有多種方法可以減少服務(wù)器群對環(huán)境的影響。解決方案的一部分是更高效的硬件以及可再生能源的使用。另一種方法是使用混合解決方案,在專用的、低功耗但高性能的神經(jīng)形態(tài)硬件中執(zhí)行分布在邊緣的大部分處理。神經(jīng)形態(tài)處理的靈感來自大腦的節(jié)能方法。

人腦包含大約860億個神經(jīng)元細胞(大約是最大的大型語言模型GLaM的80倍),估計有100萬億個連接(大約是 GLaM 的 100 倍)。每個細胞都有不同數(shù)量的電化學(xué)記憶。存儲在這種生物記憶中的信息可以被認為等同于神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)。

與人工神經(jīng)網(wǎng)絡(luò)相比,大腦模型是動態(tài)的。當(dāng)我們學(xué)習(xí)時,它會創(chuàng)造新的連接和更多的記憶,當(dāng)我們睡覺時,它會修剪多余的連接。人腦神經(jīng)網(wǎng)絡(luò)盡管比最大的人工智能模型還要大,但其消耗的能量僅相當(dāng)于20 瓦,比一個燈泡還少。盡管我們在過去幾年中取得了成功,但大腦的結(jié)構(gòu)與當(dāng)今人工智能系統(tǒng)中使用的神經(jīng)網(wǎng)絡(luò)模型有很大不同。

神經(jīng)形態(tài)處理借鑒了大腦的高效處理技術(shù),將其行為復(fù)制到數(shù)字電路中。雖然數(shù)字電路可能不如模擬電路那么節(jié)能,但穩(wěn)定性、可互換性和速度超過了輕微的功耗優(yōu)勢。由于事件驅(qū)動的卷積殼,使用神經(jīng)形態(tài)計算引擎對開發(fā)人員和用戶來說是透明的。

神經(jīng)形態(tài)處理可以運行卷積神經(jīng)網(wǎng)絡(luò) (CNN),并可以在ImageNet1000上運行圖像分類、實時視頻分類、氣味和味道識別、振動分析、語音和語音識別以及疾病和異常檢測。由于其功耗低,因此可以在便攜式和電池供電的工具中使用這些功能。

通過在快速神經(jīng)形態(tài)計算設(shè)備中使用分布式人工智能處理,可以減少數(shù)據(jù)中心過多的功耗,從而降低運營成本并提高邊緣產(chǎn)品的功能和響應(yīng)能力。神經(jīng)形態(tài)處理可以幫助補償人工智能預(yù)期的負面環(huán)境影響。

本文作者:Peter van der Made 是BrainChip Ltd的創(chuàng)始人兼首席技術(shù)官

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2023-08-03
Ai大模型能否繼續(xù)擴展?| 專家視點
Bard和GPT-4等大型語言模型使用的模型使用數(shù)千億個參數(shù),需要海量數(shù)據(jù)集進行訓(xùn)練。如今,模型變得越來越大,但這些系統(tǒng)能否繼續(xù)擴展?

長按掃碼 閱讀全文