科技云報道原創(chuàng)。
在過去一兩年里,以GPT和Diffusion model為代表的大語言模型和生成式AI,將人們對AI的期待推向了一個新高峰,并吸引了千行百業(yè)嘗試在業(yè)務中利用大模型。
國內(nèi)各家大廠在大模型領(lǐng)域展開了激烈的軍備競賽,如:文心大模型、通義千問、混元大模型、盤古大模型等等,這些超大規(guī)模的模型訓練參數(shù)都在千億以上,有的甚至超過萬億級。
即便訓練一次千億參數(shù)量模型的成本可能就高達數(shù)百萬美元,但大廠們依然拼盡全力,除此之外也有很多行業(yè)企業(yè)希望擁有自己的專屬大模型。
對于企業(yè)來說,要想在大模型的競爭中勝出,就必須充分利用算力,并且構(gòu)建高效穩(wěn)定的服務運行環(huán)境,這就對IT基礎設施能力提出了更高的要求。
而云原生正是比拼的重要一環(huán)。云原生技術(shù)的自動化部署和管理、彈性伸縮等功能,能夠有效提高大模型應用效率并降低成本。
據(jù)Gartner預測,2023年70%的AI應用會基于容器和Serverless技術(shù)開發(fā)。在實際生產(chǎn)中,越來越多的AI業(yè)務,比如自動駕駛、NLP等,也正在轉(zhuǎn)向容器化部署。
那么,云原生是如何幫助大模型降本增效,在這個過程中又遇到了哪些挑戰(zhàn)?
云原生成為大模型的標配
近年來,容器和Kubernetes已經(jīng)成為越來越多AI應用首選的運行環(huán)境和平臺。
一方面,Kubernetes幫助用戶標準化異構(gòu)資源和運行時環(huán)境、簡化運維流程;另一方面,AI這種重度依賴GPU的場景可以利用K8s的彈性優(yōu)勢節(jié)省資源成本。
隨著大模型浪潮的到來,以云原生環(huán)境運行AI應用正在變成一種事實標準。
彈性伸縮與資源管理大模型訓練往往需要大量的計算資源,而云原生環(huán)境通過容器化和編排工具可以實現(xiàn)資源的彈性調(diào)度與自動擴縮容。
這意味著在大模型訓練過程中可以迅速獲取所需資源,并在任務完成后釋放資源,降低閑置成本。
分布式計算支持云原生架構(gòu)天然支持分布式系統(tǒng),大模型訓練過程中的并行計算需求可以通過云上的分布式集群輕松實現(xiàn),從而加速模型收斂速度。
微服務架構(gòu)與模塊化設計大模型推理服務可以被分解為多個微服務,比如預處理服務、模型加載服務和后處理服務等,這些服務能夠在云原生環(huán)境中獨立部署、升級和擴展,提高系統(tǒng)的可維護性和迭代效率。
持續(xù)集成/持續(xù)部署(CI/CD)云原生理念強調(diào)快速迭代和自動化運維,借助CI/CD流程,大模型的研發(fā)團隊能夠以更高效的方式構(gòu)建、測試和部署模型版本,確保模型更新的敏捷性。
存儲與數(shù)據(jù)處理云原生提供了多種數(shù)據(jù)持久化和臨時存儲解決方案,有助于解決大模型所需的大量數(shù)據(jù)讀取和寫入問題。
同時,利用云上大數(shù)據(jù)處理和流式計算能力可以對大規(guī)模數(shù)據(jù)進行有效預處理和后處理。
可觀測性和故障恢復在云原生環(huán)境下,監(jiān)控、日志和追蹤功能完善,使得大模型服務的狀態(tài)更加透明,遇到問題時能更快地定位和修復,保證服務高可用性。
總體而言,云原生架構(gòu)的諸多優(yōu)勢契合了大模型在計算密集、數(shù)據(jù)驅(qū)動、迭代頻繁等方面的需求,能夠為大模型帶來成本、性能、效率等多方面的價值,因而成為大模型發(fā)展的標配。
大模型對云原生能力提出新挑戰(zhàn)
盡管云原生對于大模型有著天然的優(yōu)勢,但是面對LLM、AIGC這樣的新領(lǐng)域,依然對云原生能力提出了更多挑戰(zhàn)。
在訓練階段,大模型對計算、存儲、網(wǎng)絡等基礎架構(gòu)的要求都更高。
規(guī)模上,要訓練出具有廣泛知識和專業(yè)領(lǐng)域理解及推理能力的大語言模型,往往需要高達萬卡級別的GPU集群和PB級的數(shù)據(jù)存儲以及TB級的數(shù)據(jù)吞吐。
此外,高性能網(wǎng)絡也將達到單機800Gbps甚至3.2Tbps的RDMA互聯(lián)。
性能方面,隨著模型體積和參數(shù)量的增長,單張顯卡已無法承載完整的模型。因此需要使用多張顯卡進行分布式訓練,并采用各種混合并行策略進行加速。
這些策略包括數(shù)據(jù)并行、模型并行、流水線并行以及針對語言模型的序列并行等,以及各種復雜的組合策略。
在推理階段,大模型需要提供高效且穩(wěn)定的推理服務,這需要不斷優(yōu)化其性能,并確保服務質(zhì)量(QoS)得到保證。
在此基礎上,最重要的目標是提高資源效率和工程效率。一方面,持續(xù)提高資源利用效率,并通過彈性擴展資源規(guī)模,以應對突發(fā)的計算需求。
另一方面,要最優(yōu)化算法人員的工作效率,提高模型迭代速度和質(zhì)量。
由此可見,大模型對云原生技術(shù)提出了新的能力要求:
一是,統(tǒng)一管理異構(gòu)資源,提升資源利用率。
從異構(gòu)資源管理的角度,對IaaS云服務或者IDC內(nèi)的各種異構(gòu)計算(如 CPU,GPU,NPU,VPU,F(xiàn)PGA,ASIC)、存儲(OSS,NAS, CPFS,HDFS)、網(wǎng)絡(TCP, RDMA)資源進行抽象,統(tǒng)一管理、運維和分配,通過彈性和軟硬協(xié)同優(yōu)化,持續(xù)提升資源利用率。
在運維過程中,需要多維度的異構(gòu)資源可觀測性,包括監(jiān)控、健康檢查、告警、自愈等自動化運維能力。
對于寶貴的計算資源,如GPU和NPU等加速器,需要通過各種調(diào)度、隔離和共享的方法,最大限度地提高其利用率。
在此過程中,還需要持續(xù)利用云資源的彈性特征,持續(xù)提高資源的交付和使用效率。
二是,通過統(tǒng)一工作流和調(diào)度,實現(xiàn) AI、大數(shù)據(jù)等多類復雜任務的高效管理。
對于大規(guī)模分布式AI任務,需要提供豐富的任務調(diào)度策略,如Gang scheduling、Capacity scheduling、Topology aware scheduling、優(yōu)先級隊列等,并使用工作流或數(shù)據(jù)流的方式串聯(lián)起整個任務流水線。
同時,需兼容Tensorflow,Pytorch,Horovod,ONNX,Spark,F(xiàn)link等各種計算引擎和運行時,統(tǒng)一運行各類異構(gòu)工作負載流程,統(tǒng)一管理作業(yè)生命周期,統(tǒng)一調(diào)度任務工作流,保證任務規(guī)模和性能。
一方面不斷提升運行任務的性價比,另一方面持續(xù)改善開發(fā)運維體驗和工程效率。
此外,在計算框架與算法層面適配資源彈性能力,提供彈性訓練和彈性推理服務,優(yōu)化任務整體運行成本。
除了計算任務優(yōu)化,還應關(guān)注數(shù)據(jù)使用效率的優(yōu)化。為此,需要統(tǒng)一的數(shù)據(jù)集管理、模型管理和訪問性能優(yōu)化等功能,并通過標準API和開放式架構(gòu)使其易于被業(yè)務應用程序集成。
對于大模型還有一個主要能力,就是能夠在分鐘級內(nèi)準備好開發(fā)環(huán)境和集群測試環(huán)境,幫助算法工程師開始執(zhí)行深度學習任務。
把端到端的 AI 生產(chǎn)過程通過相同的編程模型、運維方式進行交付。
結(jié)語
隨著大模型等AI技術(shù)的不斷發(fā)展,云原生技術(shù)將面臨一些新的挑戰(zhàn)和需求。例如,如何快速適應新的開源大模型訓練方法,以及如何提高大模型推理性能并確保其質(zhì)量和穩(wěn)定性。
同時,也需要關(guān)注一些前沿技術(shù)和創(chuàng)新能力,通過標準化和可編程的方式來集成,不斷迭代業(yè)務應用,形成 AI+ 或 LLM+ 的新應用開發(fā)模式和編程模型。
但無論技術(shù)如何發(fā)展,為大模型提供快速、準確、穩(wěn)定且成本可控的服務,保證大模型訓練和推理的成本、性能和效率,都將成為企業(yè)為其價值買單的根本。
【關(guān)于科技云報道】
專注于原創(chuàng)的企業(yè)級內(nèi)容行家——科技云報道。成立于2015年,是前沿企業(yè)級IT領(lǐng)域Top10媒體。獲工信部權(quán)威認可,可信云、全球云計算大會官方指定傳播媒體之一。深入原創(chuàng)報道云計算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等領(lǐng)域。
免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美國無人機禁令升級?當?shù)乜茖W家率先“喊疼”:我們離不開大疆
- iQOO Neo10 Pro:性能特長之外,亦有全能實力
- 自動駕駛第一股的轉(zhuǎn)型迷途:圖森未來賭上了AIGC
- 明星熱劇、品牌種草、平臺資源,京東讓芬騰雙11的熱度“沸騰”了
- 一加 Ace 5 Pro明牌:游戲手機看它就夠了!
- 游戲體驗天花板,一加 Ace 5 系列售價 2299 元起
- 16個月沒工資不敢離職,這些打工人“自費上班”
- 怎樣利用微信小店“送禮”功能賺錢?
- 鴻蒙智行問界M9,中國豪華車的龍門一躍
- 科技云報道:人工智能時代“三大件”:生成式AI、數(shù)據(jù)、云服務
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。