Al生成與大模型,作為當(dāng)今人工智能領(lǐng)域炙手可熱的話題,為相關(guān)產(chǎn)業(yè)鏈帶來(lái)新的機(jī)遇和挑戰(zhàn)。在 2023 世界人工智能大會(huì)上,UCloud優(yōu)刻得分享了“中立安全云計(jì)算助力大模型發(fā)展”的技術(shù)產(chǎn)品、工程能力和生態(tài)建設(shè)等諸多能力,特別提到私有化是垂直大模型未來(lái)的發(fā)展方向。
面向政府、金融、教育、制造、基金等行業(yè)客戶及大模型企業(yè)的大模型私有化交付場(chǎng)景,優(yōu)UCloud刻得推出國(guó)內(nèi)第一款私有化大模型一體機(jī),內(nèi)置UCloud優(yōu)刻得自主研發(fā)的全棧私有云平臺(tái),結(jié)合行業(yè)垂直大模型一體化交付給客戶,用戶可在企業(yè)內(nèi)部一鍵部署大模型應(yīng)用,安全便捷的提供AI訓(xùn)練和推理等服務(wù)。
私有化大模型一體機(jī),構(gòu)建安全可靠的AI底座
隨著垂直行業(yè)大模型應(yīng)用場(chǎng)景的豐富,企業(yè)為用戶提供大模型應(yīng)用時(shí),需要將大模型私有化部署,以保障大模型和數(shù)據(jù)隱私及安全合規(guī)性,同時(shí)與業(yè)務(wù)對(duì)接共同提供特定的AI場(chǎng)景服務(wù)。在此模式下,如何配置適合的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)及管理資源,以滿足私有化大模型訓(xùn)練/推理任務(wù)的需求和安全要求,是私有化AI算力底座優(yōu)先要解決的問(wèn)題。
為實(shí)現(xiàn)大模型私有化交付,UCloud優(yōu)刻得大模型一體機(jī),基于一云多芯且自主可控的UCloudStack全棧私有云平臺(tái),提供虛擬化、存儲(chǔ)、網(wǎng)絡(luò)及MaaS模型的私有化一體交付方案,支持Alpaca-LoRA、ChatGLM、T5、MiniGPT-4、Stable Diffusion、LLaMA2及Milvus向量數(shù)據(jù)庫(kù)等開源模型的部署及算力調(diào)度,用戶可在本地或自有數(shù)據(jù)中心內(nèi),輕松部署針對(duì)特定場(chǎng)景的大模型服務(wù)。
UCloud AIGC私有化方案架構(gòu)
優(yōu)刻得私有化大模型一體機(jī)具備以下幾大優(yōu)勢(shì):
1. 私有化算力中心 訓(xùn)練推理專區(qū)建設(shè)
基于“東數(shù)西算”兩大自建數(shù)據(jù)中心——內(nèi)蒙古烏蘭察布和上海青浦?jǐn)?shù)據(jù)中心,UCloud優(yōu)刻得大模型一體機(jī)為大模型訓(xùn)練和應(yīng)用提供低成本、高附加值的私有化算力服務(wù)。自建數(shù)據(jù)中心內(nèi),提供多款GPU大模型一體機(jī)算力資源,分別建設(shè)靈活可擴(kuò)展的AI訓(xùn)練和推理專區(qū)。
訓(xùn)練區(qū)主要以A800/H800及未來(lái)更高性能GPU一體機(jī)進(jìn)行集群建設(shè),單集群規(guī)模最大可達(dá)2048卡規(guī)模,可將GPU卡直接透?jìng)髦劣?xùn)練算力實(shí)例,并通過(guò)高帶寬、低延遲的高性能網(wǎng)絡(luò)設(shè)計(jì)和高性能并行存儲(chǔ)系統(tǒng),打造互聯(lián)的高性能計(jì)算集群,實(shí)現(xiàn)多節(jié)點(diǎn)間無(wú)損通信,滿足用戶多節(jié)點(diǎn)并行計(jì)算,提升整體訓(xùn)練效率。
推理區(qū)主要以通用GPU卡一體機(jī)進(jìn)行建設(shè),如T4/V100/V100S/A800,結(jié)合私有云的智能調(diào)度、彈性伸縮及資源編排進(jìn)行推理業(yè)務(wù)覆蓋。同時(shí)基于運(yùn)行環(huán)境一鍵打包和算力調(diào)度技術(shù),實(shí)現(xiàn)訓(xùn)練推理無(wú)縫切換和自助管理,并通過(guò)全面多維度安全保障體系,保障大模型和數(shù)據(jù)的安全。
2. 開箱即用一鍵部署 訓(xùn)練推理無(wú)縫切換
UCloud優(yōu)刻得大模型一體機(jī),統(tǒng)一底層CPU、GPU、存儲(chǔ)及網(wǎng)絡(luò)資源,結(jié)合大模型與業(yè)務(wù)數(shù)據(jù),為上層大模型預(yù)訓(xùn)練或推理應(yīng)用,提供靈活可靠的虛擬化、GPU計(jì)算、容器調(diào)度、安全隔離網(wǎng)絡(luò)、統(tǒng)一分布式存儲(chǔ)及數(shù)據(jù)庫(kù)緩存等云基礎(chǔ)設(shè)施,實(shí)現(xiàn)快速部署、簡(jiǎn)化管理,助力AI應(yīng)用高效交付穩(wěn)定運(yùn)行。
集成通用AI和大模型的GPU標(biāo)準(zhǔn)鏡像和模板,快速打包算力基礎(chǔ)運(yùn)行環(huán)境并實(shí)現(xiàn)一鍵部署,支持運(yùn)行環(huán)境模板的一鍵拉起,結(jié)合調(diào)度管理和分布式存儲(chǔ)系統(tǒng),使得GPU算力環(huán)境,通過(guò)標(biāo)準(zhǔn)S3或NFS協(xié)議從存儲(chǔ)系統(tǒng)中拉取并加載大模型到內(nèi)存中,進(jìn)行預(yù)訓(xùn)練或推理計(jì)算任務(wù)。
同時(shí),在計(jì)算資源調(diào)度層面提供K8S容器調(diào)度服務(wù),無(wú)縫對(duì)接云原生架構(gòu)的資源調(diào)度和作業(yè)任務(wù)管理系統(tǒng),用于模型切換、訓(xùn)練任務(wù)、推理任務(wù)的作業(yè)管理?;谶\(yùn)行環(huán)境一鍵打包和算力調(diào)度技術(shù),使得一體機(jī)既可作為訓(xùn)練的算力運(yùn)行環(huán)境,又可在訓(xùn)練結(jié)束后,無(wú)縫切換至推理業(yè)務(wù)部署模式,確?;A(chǔ)設(shè)施成本可控且安全。
3. 分布式存儲(chǔ)平臺(tái) 加速AI模型訓(xùn)練
大模型訓(xùn)練時(shí),基礎(chǔ)設(shè)施需要提供高速讀寫能力、可擴(kuò)展且可兼容POSIX的共享存儲(chǔ)系統(tǒng),以滿足大規(guī)模數(shù)據(jù)集的訓(xùn)練需求。UCloud優(yōu)刻得大模型一體機(jī)基于UCloudStor統(tǒng)一分布式存儲(chǔ),統(tǒng)一對(duì)外提供文件和對(duì)象存儲(chǔ),可為訓(xùn)練框架提供POSIX和K8S-CSI接口,便于算力調(diào)度接入,并結(jié)合冷熱數(shù)據(jù)分離的存儲(chǔ)形態(tài),提升數(shù)據(jù)讀寫性能、加速AI模型訓(xùn)練,滿足千卡規(guī)模訓(xùn)練需求。
UCloud優(yōu)刻得大模型訓(xùn)練存儲(chǔ)架構(gòu)設(shè)計(jì)
大模型一體機(jī)訓(xùn)練集群底層依賴UCloudStor分布式對(duì)象存儲(chǔ),用于存儲(chǔ)最終的數(shù)據(jù)。同時(shí)每個(gè)GPU算力實(shí)例上放置本地緩存,包括元數(shù)據(jù)和數(shù)據(jù)緩存。熱數(shù)據(jù)和元數(shù)據(jù)存儲(chǔ)在GPU計(jì)算實(shí)例掛載的高性能SSD/NVME云盤內(nèi),冷數(shù)據(jù)使用分布式存儲(chǔ)的對(duì)象存儲(chǔ)。
在大模型訓(xùn)練數(shù)據(jù)訪問(wèn)時(shí),每個(gè)GPU計(jì)算實(shí)例均有多級(jí)緩存,第一級(jí)是基于內(nèi)存的緩存,第二級(jí)是基于實(shí)例內(nèi)SSD/NVME云盤,只有實(shí)例云盤緩存沒(méi)有命中時(shí),才會(huì)訪問(wèn)第三級(jí)對(duì)象存儲(chǔ)。熱數(shù)據(jù)緩存在GPU實(shí)例緩存磁盤上,通過(guò)預(yù)取可最大化發(fā)揮算力性能,達(dá)到加速數(shù)據(jù)I/O的效果。
4. 高性能計(jì)算網(wǎng)絡(luò) 高效率模型訓(xùn)練
私有化大模型訓(xùn)練場(chǎng)景下,需基礎(chǔ)設(shè)施提供高帶寬和低延遲的網(wǎng)絡(luò)連接,以支持大規(guī)模數(shù)據(jù)傳輸和分布式訓(xùn)練。UCloud優(yōu)刻得大模型一體機(jī)基于RDMA RoCE網(wǎng)絡(luò)模型,構(gòu)建單計(jì)算實(shí)例1.6T ETH RDMA網(wǎng)絡(luò),為私有化大模型訓(xùn)練和調(diào)試提供高性能計(jì)算網(wǎng)絡(luò),提升GPU利用率,降低通信時(shí)延,提高大模型訓(xùn)練效率。
UCloud優(yōu)刻得大模型訓(xùn)練高性能計(jì)算網(wǎng)絡(luò)
大模型一體機(jī)可分別搭配8張GPU卡和200G RDMA網(wǎng)卡,平臺(tái)采用直通模式將GPU和網(wǎng)卡直接透?jìng)鹘oGPU計(jì)算實(shí)例,結(jié)合高性能RDMA RoCE無(wú)損物理網(wǎng)絡(luò)架構(gòu),支持自動(dòng)化網(wǎng)絡(luò)隔離和配置,實(shí)現(xiàn)單實(shí)例1.6T帶寬計(jì)算網(wǎng)絡(luò)高性能接入,大幅提升GPU利用率并降低通信時(shí)延,為大模型訓(xùn)練跨節(jié)點(diǎn)通信提供強(qiáng)力支撐。
在高可用保障上,通過(guò)一體機(jī)智能調(diào)度和分布式存儲(chǔ)機(jī)制,為GPU計(jì)算實(shí)例、云業(yè)務(wù)網(wǎng)絡(luò)及存儲(chǔ)的可用性和可靠性提供保障,云化業(yè)務(wù)網(wǎng)絡(luò)與模型計(jì)算網(wǎng)絡(luò)自適應(yīng)通信;并通過(guò)實(shí)時(shí)的全棧監(jiān)控和一鍵巡檢監(jiān)控大模型業(yè)務(wù)系統(tǒng),實(shí)現(xiàn)性能實(shí)時(shí)監(jiān)控故障告警,保障大規(guī)模業(yè)務(wù)部署和運(yùn)行效率。
5. 大模型信創(chuàng)一體機(jī) 自主可控安全可靠
UCloud優(yōu)刻得私有化大模型一體機(jī),支持“一云多芯”,兼容x86和國(guó)產(chǎn)化信創(chuàng)服務(wù)器,從芯片到應(yīng)用全面適配信創(chuàng)體系,可支持x86、ARM及GPU 等異構(gòu)算力統(tǒng)一管理和調(diào)度,保證大模型和信息數(shù)據(jù)安全,滿足金融、政府、運(yùn)營(yíng)商及更多傳統(tǒng)企業(yè)的國(guó)產(chǎn)化需求。平臺(tái)還對(duì)信創(chuàng)生態(tài)的CPU、服務(wù)器及操作系統(tǒng)進(jìn)行全面適配,形成信創(chuàng)一體機(jī)交付模式,使大模型可以和國(guó)產(chǎn)CPU相兼容并進(jìn)行統(tǒng)一調(diào)度管理。
在GPU計(jì)算方面,平臺(tái)通過(guò)GPU直通模式將GPU資源池化,使國(guó)產(chǎn)GPU和AI加速卡無(wú)縫透?jìng)鹘o算力虛擬機(jī)實(shí)例,使得一鍵部署的大模型算力環(huán)境可兼容所有GPU和AI加速卡,搭配高性能存儲(chǔ)有效提升計(jì)算處理效率,為上層大模型的訓(xùn)練和推理應(yīng)用提供全信創(chuàng)體系的云化基礎(chǔ)設(shè)施。
此外,大模型一體機(jī)基于UCloud優(yōu)刻得公有云,歷經(jīng) 10 年大規(guī)模磨煉和驗(yàn)證,保證平臺(tái)底層的穩(wěn)定性;平臺(tái)代碼自研率達(dá)96%以上,為業(yè)界領(lǐng)先水平,自主可控、安全可靠。
6. 全面多維度的安全保障體系
一體機(jī)私有云平臺(tái)提供全面的安全保障體系,從網(wǎng)絡(luò)、賬號(hào)、資源、審計(jì)、監(jiān)控等多維度保障平臺(tái)大模型和數(shù)據(jù)安全,并可結(jié)合信息安全等級(jí)保護(hù)三級(jí)保證業(yè)務(wù)的安全性。
●一體機(jī)通過(guò)安全隔離VPC網(wǎng)絡(luò)保障大模型業(yè)務(wù)的網(wǎng)絡(luò)隔離性,VPC內(nèi)默認(rèn)內(nèi)網(wǎng)不通,租戶內(nèi)和租戶間不同VPC網(wǎng)絡(luò)默認(rèn)不通,同時(shí)結(jié)合安全組提供計(jì)算存儲(chǔ)等服務(wù)東西和南北向流量安全訪問(wèn)控制。
●通過(guò)多租戶隔離,提供資源隔離和精細(xì)化權(quán)限控制,不同租戶之間資源完全隔離,互不影響。在物理資源層面,支持對(duì)大模型運(yùn)行的計(jì)算存儲(chǔ)物理資源進(jìn)行權(quán)限控制,用于將部分物理資源獨(dú)享給一個(gè)或部分用戶使用,從物理層面保證資源隔離和安全性。
●在數(shù)據(jù)存儲(chǔ)方面,提供存儲(chǔ)加密及在線芯片加密特性,保護(hù)大模型和數(shù)據(jù)不被未經(jīng)授權(quán)的訪問(wèn)者獲取,甚至在磁盤丟失或被盜的情況下也可保證數(shù)據(jù)的機(jī)密性,實(shí)現(xiàn)私有化大模型在企業(yè)內(nèi)部的安全性。
●此外,一體機(jī)私有云平臺(tái)擁有全面的日志審計(jì)和事件管理能力,具備安全分析、資源變更追蹤及合規(guī)性審計(jì)的功能。通過(guò)統(tǒng)一監(jiān)控告警服務(wù),實(shí)現(xiàn)大模型一體機(jī)全線產(chǎn)品的運(yùn)維監(jiān)控及告警服務(wù),全方位保障業(yè)務(wù)的可靠性和安全性。
7. 開箱即用的私有MaaS服務(wù)
UCloud優(yōu)刻得基于私有化大模型一體機(jī)提供MaaS服務(wù),從大模型訓(xùn)練推理的多樣化場(chǎng)景出發(fā),為客戶推薦機(jī)型提供預(yù)裝部分工具的鏡像,支持各種開源大模型,可覆蓋知識(shí)推理、問(wèn)答、圖文生成、中文語(yǔ)義及繪畫設(shè)計(jì)等 AI 應(yīng)用領(lǐng)域,為用戶快速搭建大模型的微調(diào)或推理環(huán)境。
值得一提的是,UCloud優(yōu)刻得一體機(jī)私有云平臺(tái)還具備業(yè)務(wù)無(wú)感故障自愈的特性,算力資源將優(yōu)先選擇低負(fù)荷節(jié)點(diǎn)進(jìn)行虛擬資源部署,并提供打散部署、在線遷移、離線遷移及宕機(jī)遷移等能力,整體保證客戶私有MaaS服務(wù)的可靠性和可用性。
另一方面,UCloud優(yōu)刻得大模型一體可提供負(fù)載均衡、數(shù)據(jù)庫(kù)及緩存服務(wù),為大模型應(yīng)用的計(jì)算調(diào)度、管理服務(wù)、API接口及AI應(yīng)用提供接入負(fù)載均衡的能力,保證應(yīng)用服務(wù)的高可用和負(fù)載分發(fā);同時(shí)為模型服務(wù)應(yīng)用提供可自動(dòng)化運(yùn)維的MySQL及 Redis 服務(wù),讓用戶專注業(yè)務(wù)創(chuàng)新。
AIGC繪畫大模型,私有化實(shí)踐應(yīng)用
AIGC繪畫服務(wù)PICPIK.AI是UCloud優(yōu)刻得私有化一體機(jī)的實(shí)踐應(yīng)用。PICPIK.AI提供了一種全新的方式,允許用戶利用“AI繪畫垂直模型”的能力進(jìn)行AI藝術(shù)創(chuàng)作,提供AI WEB端和PhotoShop插件,賦予設(shè)計(jì)師無(wú)與倫比的創(chuàng)造力和精確性,創(chuàng)作出令人驚艷的視覺(jué)杰作。
UCloud優(yōu)刻得大模型一體機(jī)打包了GPU服務(wù)器、磁盤及通用網(wǎng)絡(luò)設(shè)備,為AI繪畫大模型提供IaaS層虛擬化、GPU虛擬機(jī)、服務(wù)鏡像、塊存儲(chǔ)及安全隔離網(wǎng)絡(luò),可快速部署并運(yùn)行資源調(diào)度、進(jìn)行作業(yè)任務(wù)管理、AI繪畫計(jì)算服務(wù)、AI繪畫管理及接口服務(wù)。通過(guò)負(fù)載均衡服務(wù)實(shí)現(xiàn)管理服務(wù)接口高可用、負(fù)載分發(fā),保證繪畫業(yè)務(wù)的可用性。
AIGC繪畫服務(wù)私有化架構(gòu)
平臺(tái)還提供對(duì)象存儲(chǔ)和文件存儲(chǔ)服務(wù),為AI繪畫大模型提供統(tǒng)一存儲(chǔ)平臺(tái),兼容標(biāo)準(zhǔn)S3和NFS 接口,可與傳統(tǒng)應(yīng)用和新型應(yīng)用無(wú)縫對(duì)接。同時(shí)可將AI 繪畫模型和業(yè)務(wù)服務(wù)生成的圖片進(jìn)行數(shù)據(jù)存儲(chǔ),并提供統(tǒng)一入口實(shí)現(xiàn)WEB服務(wù),可在PhotoShop直接進(jìn)行圖片下載。
在網(wǎng)絡(luò)部署和隔離方面,可通過(guò)一體機(jī)提供的VPC隔離網(wǎng)絡(luò)結(jié)合安全組進(jìn)行部署和規(guī)劃,從而保證網(wǎng)絡(luò)訪問(wèn)隔離性和安全性。
AI繪畫大模型在私有云平臺(tái)的網(wǎng)絡(luò)部署模式
●UCloud優(yōu)刻得大模型一體機(jī)均部署至客戶托管或自建的數(shù)據(jù)中心,內(nèi)置私有云平臺(tái),管理權(quán)限交付至模型提供方。
●通過(guò)云平臺(tái)虛擬機(jī)服務(wù),將繪畫GPU算力服務(wù)、模型對(duì)象存儲(chǔ)服務(wù)、管理調(diào)度服務(wù)均部署于獨(dú)立VPC隔離網(wǎng)絡(luò)內(nèi)的不同子網(wǎng)。
●算力、存儲(chǔ)及管理調(diào)度服務(wù)實(shí)例均在VPC內(nèi)網(wǎng)通信,并通過(guò)內(nèi)網(wǎng)安全組進(jìn)行網(wǎng)絡(luò)訪問(wèn)控制和隔離。
●管理調(diào)度服務(wù)中算法API服務(wù)對(duì)外通過(guò)彈性外網(wǎng)IP對(duì)客戶網(wǎng)絡(luò)開放算法服務(wù)API。
●外網(wǎng) IP網(wǎng)絡(luò)和客戶內(nèi)網(wǎng)在同一個(gè)網(wǎng)絡(luò)面,AI繪畫 WEB 客戶端和 PS 插件可直接通過(guò) 網(wǎng)絡(luò)訪問(wèn)API服務(wù),并可通過(guò)外網(wǎng)安全組進(jìn)行網(wǎng)絡(luò)訪問(wèn)控制和隔離。
●AI繪畫計(jì)算服務(wù)推理出的圖片,通過(guò)VPC網(wǎng)絡(luò)將圖片存儲(chǔ)于對(duì)象存儲(chǔ)或文件存儲(chǔ)中,客戶端可直接通過(guò)平臺(tái)提供的外網(wǎng)IP下載對(duì)象存儲(chǔ)中的圖片。
云計(jì)算是通過(guò)云端提供海量算力和安全保障,而私有云是將算力和安全保障私有化交付到客戶的數(shù)據(jù)中心,并提供資源智能調(diào)度、業(yè)務(wù)高可靠高可用等機(jī)制,結(jié)合全面統(tǒng)一的云管理服務(wù),為大模型業(yè)務(wù)私有化降本增效。
作為中立安全的云計(jì)算廠商,UCloud優(yōu)刻得也成為了大模型入口處的鋪路人。本次推出的UCloud優(yōu)刻得私有化大模型一體機(jī),可同時(shí)為多種垂直大模型業(yè)務(wù)提供業(yè)務(wù)云化部署和資源調(diào)度服務(wù),并可結(jié)合UCloudStor統(tǒng)一分布式存儲(chǔ)和USDP智能大數(shù)據(jù)平臺(tái)為大模型推理和預(yù)訓(xùn)練業(yè)務(wù),提供數(shù)據(jù)湖存儲(chǔ)及流批一體數(shù)倉(cāng)構(gòu)建解決方案,提高大模型業(yè)務(wù)私有化的交付及運(yùn)維管理效率。
未來(lái),UCloud優(yōu)刻得將全面擁抱大模型,通過(guò)自建數(shù)據(jù)中心、算力資源和工程服務(wù)能力,結(jié)合超10年云計(jì)算技術(shù)沉淀,為更多客戶及大模型公司提供算力及基礎(chǔ)設(shè)施服務(wù),賦能千行百業(yè)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )