開箱即用的UCloud優(yōu)刻得大模型一體機,助力垂直大模型私有化交付

Al生成與大模型,作為當今人工智能領(lǐng)域炙手可熱的話題,為相關(guān)產(chǎn)業(yè)鏈帶來新的機遇和挑戰(zhàn)。在 2023 世界人工智能大會上,UCloud優(yōu)刻得分享了“中立安全云計算助力大模型發(fā)展”的技術(shù)產(chǎn)品、工程能力和生態(tài)建設(shè)等諸多能力,特別提到私有化是垂直大模型未來的發(fā)展方向。

面向政府、金融、教育、制造、基金等行業(yè)客戶及大模型企業(yè)的大模型私有化交付場景,優(yōu)UCloud刻得推出國內(nèi)第一款私有化大模型一體機,內(nèi)置UCloud優(yōu)刻得自主研發(fā)的全棧私有云平臺,結(jié)合行業(yè)垂直大模型一體化交付給客戶,用戶可在企業(yè)內(nèi)部一鍵部署大模型應(yīng)用,安全便捷的提供AI訓練和推理等服務(wù)。

私有化大模型一體機,構(gòu)建安全可靠的AI底座

隨著垂直行業(yè)大模型應(yīng)用場景的豐富,企業(yè)為用戶提供大模型應(yīng)用時,需要將大模型私有化部署,以保障大模型和數(shù)據(jù)隱私及安全合規(guī)性,同時與業(yè)務(wù)對接共同提供特定的AI場景服務(wù)。在此模式下,如何配置適合的計算、存儲、網(wǎng)絡(luò)及管理資源,以滿足私有化大模型訓練/推理任務(wù)的需求和安全要求,是私有化AI算力底座優(yōu)先要解決的問題。

為實現(xiàn)大模型私有化交付,UCloud優(yōu)刻得大模型一體機,基于一云多芯且自主可控的UCloudStack全棧私有云平臺,提供虛擬化、存儲、網(wǎng)絡(luò)及MaaS模型的私有化一體交付方案,支持Alpaca-LoRA、ChatGLM、T5、MiniGPT-4、Stable Diffusion、LLaMA2及Milvus向量數(shù)據(jù)庫等開源模型的部署及算力調(diào)度,用戶可在本地或自有數(shù)據(jù)中心內(nèi),輕松部署針對特定場景的大模型服務(wù)。

UCloud AIGC私有化方案架構(gòu)

優(yōu)刻得私有化大模型一體機具備以下幾大優(yōu)勢:

1. 私有化算力中心 訓練推理專區(qū)建設(shè)

基于“東數(shù)西算”兩大自建數(shù)據(jù)中心——內(nèi)蒙古烏蘭察布和上海青浦數(shù)據(jù)中心,UCloud優(yōu)刻得大模型一體機為大模型訓練和應(yīng)用提供低成本、高附加值的私有化算力服務(wù)。自建數(shù)據(jù)中心內(nèi),提供多款GPU大模型一體機算力資源,分別建設(shè)靈活可擴展的AI訓練和推理專區(qū)。

訓練區(qū)主要以A800/H800及未來更高性能GPU一體機進行集群建設(shè),單集群規(guī)模最大可達2048卡規(guī)模,可將GPU卡直接透傳至訓練算力實例,并通過高帶寬、低延遲的高性能網(wǎng)絡(luò)設(shè)計和高性能并行存儲系統(tǒng),打造互聯(lián)的高性能計算集群,實現(xiàn)多節(jié)點間無損通信,滿足用戶多節(jié)點并行計算,提升整體訓練效率。

推理區(qū)主要以通用GPU卡一體機進行建設(shè),如T4/V100/V100S/A800,結(jié)合私有云的智能調(diào)度、彈性伸縮及資源編排進行推理業(yè)務(wù)覆蓋。同時基于運行環(huán)境一鍵打包和算力調(diào)度技術(shù),實現(xiàn)訓練推理無縫切換和自助管理,并通過全面多維度安全保障體系,保障大模型和數(shù)據(jù)的安全。

2. 開箱即用一鍵部署 訓練推理無縫切換

UCloud優(yōu)刻得大模型一體機,統(tǒng)一底層CPU、GPU、存儲及網(wǎng)絡(luò)資源,結(jié)合大模型與業(yè)務(wù)數(shù)據(jù),為上層大模型預訓練或推理應(yīng)用,提供靈活可靠的虛擬化、GPU計算、容器調(diào)度、安全隔離網(wǎng)絡(luò)、統(tǒng)一分布式存儲及數(shù)據(jù)庫緩存等云基礎(chǔ)設(shè)施,實現(xiàn)快速部署、簡化管理,助力AI應(yīng)用高效交付穩(wěn)定運行。

集成通用AI和大模型的GPU標準鏡像和模板,快速打包算力基礎(chǔ)運行環(huán)境并實現(xiàn)一鍵部署,支持運行環(huán)境模板的一鍵拉起,結(jié)合調(diào)度管理和分布式存儲系統(tǒng),使得GPU算力環(huán)境,通過標準S3或NFS協(xié)議從存儲系統(tǒng)中拉取并加載大模型到內(nèi)存中,進行預訓練或推理計算任務(wù)。

同時,在計算資源調(diào)度層面提供K8S容器調(diào)度服務(wù),無縫對接云原生架構(gòu)的資源調(diào)度和作業(yè)任務(wù)管理系統(tǒng),用于模型切換、訓練任務(wù)、推理任務(wù)的作業(yè)管理?;谶\行環(huán)境一鍵打包和算力調(diào)度技術(shù),使得一體機既可作為訓練的算力運行環(huán)境,又可在訓練結(jié)束后,無縫切換至推理業(yè)務(wù)部署模式,確?;A(chǔ)設(shè)施成本可控且安全。

3. 分布式存儲平臺 加速AI模型訓練

大模型訓練時,基礎(chǔ)設(shè)施需要提供高速讀寫能力、可擴展且可兼容POSIX的共享存儲系統(tǒng),以滿足大規(guī)模數(shù)據(jù)集的訓練需求。UCloud優(yōu)刻得大模型一體機基于UCloudStor統(tǒng)一分布式存儲,統(tǒng)一對外提供文件和對象存儲,可為訓練框架提供POSIX和K8S-CSI接口,便于算力調(diào)度接入,并結(jié)合冷熱數(shù)據(jù)分離的存儲形態(tài),提升數(shù)據(jù)讀寫性能、加速AI模型訓練,滿足千卡規(guī)模訓練需求。

UCloud優(yōu)刻得大模型訓練存儲架構(gòu)設(shè)計

大模型一體機訓練集群底層依賴UCloudStor分布式對象存儲,用于存儲最終的數(shù)據(jù)。同時每個GPU算力實例上放置本地緩存,包括元數(shù)據(jù)和數(shù)據(jù)緩存。熱數(shù)據(jù)和元數(shù)據(jù)存儲在GPU計算實例掛載的高性能SSD/NVME云盤內(nèi),冷數(shù)據(jù)使用分布式存儲的對象存儲。

在大模型訓練數(shù)據(jù)訪問時,每個GPU計算實例均有多級緩存,第一級是基于內(nèi)存的緩存,第二級是基于實例內(nèi)SSD/NVME云盤,只有實例云盤緩存沒有命中時,才會訪問第三級對象存儲。熱數(shù)據(jù)緩存在GPU實例緩存磁盤上,通過預取可最大化發(fā)揮算力性能,達到加速數(shù)據(jù)I/O的效果。

4. 高性能計算網(wǎng)絡(luò) 高效率模型訓練

私有化大模型訓練場景下,需基礎(chǔ)設(shè)施提供高帶寬和低延遲的網(wǎng)絡(luò)連接,以支持大規(guī)模數(shù)據(jù)傳輸和分布式訓練。UCloud優(yōu)刻得大模型一體機基于RDMA RoCE網(wǎng)絡(luò)模型,構(gòu)建單計算實例1.6T ETH RDMA網(wǎng)絡(luò),為私有化大模型訓練和調(diào)試提供高性能計算網(wǎng)絡(luò),提升GPU利用率,降低通信時延,提高大模型訓練效率。

UCloud優(yōu)刻得大模型訓練高性能計算網(wǎng)絡(luò)

大模型一體機可分別搭配8張GPU卡和200G RDMA網(wǎng)卡,平臺采用直通模式將GPU和網(wǎng)卡直接透傳給GPU計算實例,結(jié)合高性能RDMA RoCE無損物理網(wǎng)絡(luò)架構(gòu),支持自動化網(wǎng)絡(luò)隔離和配置,實現(xiàn)單實例1.6T帶寬計算網(wǎng)絡(luò)高性能接入,大幅提升GPU利用率并降低通信時延,為大模型訓練跨節(jié)點通信提供強力支撐。

在高可用保障上,通過一體機智能調(diào)度和分布式存儲機制,為GPU計算實例、云業(yè)務(wù)網(wǎng)絡(luò)及存儲的可用性和可靠性提供保障,云化業(yè)務(wù)網(wǎng)絡(luò)與模型計算網(wǎng)絡(luò)自適應(yīng)通信;并通過實時的全棧監(jiān)控和一鍵巡檢監(jiān)控大模型業(yè)務(wù)系統(tǒng),實現(xiàn)性能實時監(jiān)控故障告警,保障大規(guī)模業(yè)務(wù)部署和運行效率。

5. 大模型信創(chuàng)一體機 自主可控安全可靠

UCloud優(yōu)刻得私有化大模型一體機,支持“一云多芯”,兼容x86和國產(chǎn)化信創(chuàng)服務(wù)器,從芯片到應(yīng)用全面適配信創(chuàng)體系,可支持x86、ARM及GPU 等異構(gòu)算力統(tǒng)一管理和調(diào)度,保證大模型和信息數(shù)據(jù)安全,滿足金融、政府、運營商及更多傳統(tǒng)企業(yè)的國產(chǎn)化需求。平臺還對信創(chuàng)生態(tài)的CPU、服務(wù)器及操作系統(tǒng)進行全面適配,形成信創(chuàng)一體機交付模式,使大模型可以和國產(chǎn)CPU相兼容并進行統(tǒng)一調(diào)度管理。

在GPU計算方面,平臺通過GPU直通模式將GPU資源池化,使國產(chǎn)GPU和AI加速卡無縫透傳給算力虛擬機實例,使得一鍵部署的大模型算力環(huán)境可兼容所有GPU和AI加速卡,搭配高性能存儲有效提升計算處理效率,為上層大模型的訓練和推理應(yīng)用提供全信創(chuàng)體系的云化基礎(chǔ)設(shè)施。

此外,大模型一體機基于UCloud優(yōu)刻得公有云,歷經(jīng) 10 年大規(guī)模磨煉和驗證,保證平臺底層的穩(wěn)定性;平臺代碼自研率達96%以上,為業(yè)界領(lǐng)先水平,自主可控、安全可靠。

6. 全面多維度的安全保障體系

一體機私有云平臺提供全面的安全保障體系,從網(wǎng)絡(luò)、賬號、資源、審計、監(jiān)控等多維度保障平臺大模型和數(shù)據(jù)安全,并可結(jié)合信息安全等級保護三級保證業(yè)務(wù)的安全性。

●一體機通過安全隔離VPC網(wǎng)絡(luò)保障大模型業(yè)務(wù)的網(wǎng)絡(luò)隔離性,VPC內(nèi)默認內(nèi)網(wǎng)不通,租戶內(nèi)和租戶間不同VPC網(wǎng)絡(luò)默認不通,同時結(jié)合安全組提供計算存儲等服務(wù)東西和南北向流量安全訪問控制。

●通過多租戶隔離,提供資源隔離和精細化權(quán)限控制,不同租戶之間資源完全隔離,互不影響。在物理資源層面,支持對大模型運行的計算存儲物理資源進行權(quán)限控制,用于將部分物理資源獨享給一個或部分用戶使用,從物理層面保證資源隔離和安全性。

●在數(shù)據(jù)存儲方面,提供存儲加密及在線芯片加密特性,保護大模型和數(shù)據(jù)不被未經(jīng)授權(quán)的訪問者獲取,甚至在磁盤丟失或被盜的情況下也可保證數(shù)據(jù)的機密性,實現(xiàn)私有化大模型在企業(yè)內(nèi)部的安全性。

●此外,一體機私有云平臺擁有全面的日志審計和事件管理能力,具備安全分析、資源變更追蹤及合規(guī)性審計的功能。通過統(tǒng)一監(jiān)控告警服務(wù),實現(xiàn)大模型一體機全線產(chǎn)品的運維監(jiān)控及告警服務(wù),全方位保障業(yè)務(wù)的可靠性和安全性。

7. 開箱即用的私有MaaS服務(wù)

UCloud優(yōu)刻得基于私有化大模型一體機提供MaaS服務(wù),從大模型訓練推理的多樣化場景出發(fā),為客戶推薦機型提供預裝部分工具的鏡像,支持各種開源大模型,可覆蓋知識推理、問答、圖文生成、中文語義及繪畫設(shè)計等 AI 應(yīng)用領(lǐng)域,為用戶快速搭建大模型的微調(diào)或推理環(huán)境。

值得一提的是,UCloud優(yōu)刻得一體機私有云平臺還具備業(yè)務(wù)無感故障自愈的特性,算力資源將優(yōu)先選擇低負荷節(jié)點進行虛擬資源部署,并提供打散部署、在線遷移、離線遷移及宕機遷移等能力,整體保證客戶私有MaaS服務(wù)的可靠性和可用性。

另一方面,UCloud優(yōu)刻得大模型一體可提供負載均衡、數(shù)據(jù)庫及緩存服務(wù),為大模型應(yīng)用的計算調(diào)度、管理服務(wù)、API接口及AI應(yīng)用提供接入負載均衡的能力,保證應(yīng)用服務(wù)的高可用和負載分發(fā);同時為模型服務(wù)應(yīng)用提供可自動化運維的MySQL及 Redis 服務(wù),讓用戶專注業(yè)務(wù)創(chuàng)新。

AIGC繪畫大模型,私有化實踐應(yīng)用

AIGC繪畫服務(wù)PICPIK.AI是UCloud優(yōu)刻得私有化一體機的實踐應(yīng)用。PICPIK.AI提供了一種全新的方式,允許用戶利用“AI繪畫垂直模型”的能力進行AI藝術(shù)創(chuàng)作,提供AI WEB端和PhotoShop插件,賦予設(shè)計師無與倫比的創(chuàng)造力和精確性,創(chuàng)作出令人驚艷的視覺杰作。

UCloud優(yōu)刻得大模型一體機打包了GPU服務(wù)器、磁盤及通用網(wǎng)絡(luò)設(shè)備,為AI繪畫大模型提供IaaS層虛擬化、GPU虛擬機、服務(wù)鏡像、塊存儲及安全隔離網(wǎng)絡(luò),可快速部署并運行資源調(diào)度、進行作業(yè)任務(wù)管理、AI繪畫計算服務(wù)、AI繪畫管理及接口服務(wù)。通過負載均衡服務(wù)實現(xiàn)管理服務(wù)接口高可用、負載分發(fā),保證繪畫業(yè)務(wù)的可用性。

AIGC繪畫服務(wù)私有化架構(gòu)

平臺還提供對象存儲和文件存儲服務(wù),為AI繪畫大模型提供統(tǒng)一存儲平臺,兼容標準S3和NFS 接口,可與傳統(tǒng)應(yīng)用和新型應(yīng)用無縫對接。同時可將AI 繪畫模型和業(yè)務(wù)服務(wù)生成的圖片進行數(shù)據(jù)存儲,并提供統(tǒng)一入口實現(xiàn)WEB服務(wù),可在PhotoShop直接進行圖片下載。

在網(wǎng)絡(luò)部署和隔離方面,可通過一體機提供的VPC隔離網(wǎng)絡(luò)結(jié)合安全組進行部署和規(guī)劃,從而保證網(wǎng)絡(luò)訪問隔離性和安全性。

AI繪畫大模型在私有云平臺的網(wǎng)絡(luò)部署模式

●UCloud優(yōu)刻得大模型一體機均部署至客戶托管或自建的數(shù)據(jù)中心,內(nèi)置私有云平臺,管理權(quán)限交付至模型提供方。

●通過云平臺虛擬機服務(wù),將繪畫GPU算力服務(wù)、模型對象存儲服務(wù)、管理調(diào)度服務(wù)均部署于獨立VPC隔離網(wǎng)絡(luò)內(nèi)的不同子網(wǎng)。

●算力、存儲及管理調(diào)度服務(wù)實例均在VPC內(nèi)網(wǎng)通信,并通過內(nèi)網(wǎng)安全組進行網(wǎng)絡(luò)訪問控制和隔離。

●管理調(diào)度服務(wù)中算法API服務(wù)對外通過彈性外網(wǎng)IP對客戶網(wǎng)絡(luò)開放算法服務(wù)API。

●外網(wǎng) IP網(wǎng)絡(luò)和客戶內(nèi)網(wǎng)在同一個網(wǎng)絡(luò)面,AI繪畫 WEB 客戶端和 PS 插件可直接通過 網(wǎng)絡(luò)訪問API服務(wù),并可通過外網(wǎng)安全組進行網(wǎng)絡(luò)訪問控制和隔離。

●AI繪畫計算服務(wù)推理出的圖片,通過VPC網(wǎng)絡(luò)將圖片存儲于對象存儲或文件存儲中,客戶端可直接通過平臺提供的外網(wǎng)IP下載對象存儲中的圖片。

云計算是通過云端提供海量算力和安全保障,而私有云是將算力和安全保障私有化交付到客戶的數(shù)據(jù)中心,并提供資源智能調(diào)度、業(yè)務(wù)高可靠高可用等機制,結(jié)合全面統(tǒng)一的云管理服務(wù),為大模型業(yè)務(wù)私有化降本增效。

作為中立安全的云計算廠商,UCloud優(yōu)刻得也成為了大模型入口處的鋪路人。本次推出的UCloud優(yōu)刻得私有化大模型一體機,可同時為多種垂直大模型業(yè)務(wù)提供業(yè)務(wù)云化部署和資源調(diào)度服務(wù),并可結(jié)合UCloudStor統(tǒng)一分布式存儲和USDP智能大數(shù)據(jù)平臺為大模型推理和預訓練業(yè)務(wù),提供數(shù)據(jù)湖存儲及流批一體數(shù)倉構(gòu)建解決方案,提高大模型業(yè)務(wù)私有化的交付及運維管理效率。

未來,UCloud優(yōu)刻得將全面擁抱大模型,通過自建數(shù)據(jù)中心、算力資源和工程服務(wù)能力,結(jié)合超10年云計算技術(shù)沉淀,為更多客戶及大模型公司提供算力及基礎(chǔ)設(shè)施服務(wù),賦能千行百業(yè)。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )