原標(biāo)題:容器引擎CCE支持昆侖XPU,加速AI計算的落地與發(fā)展
近日,百度智能云容器引擎CCE正式上線支持構(gòu)建昆侖XPU集群,為百度自研昆侖芯片的高性能AI計算簡化運維、降本增效,快速實現(xiàn)場景落地與行業(yè)賦能。
CCE助力昆侖AI算力高速運轉(zhuǎn)
當(dāng)下,人工智能已成為各行各業(yè)的熱點和趨勢,市場對AI算力的需求也迎來了爆發(fā)式的增長。
為此,百度智能云于去年底正式推出百度昆侖云服務(wù)器,基于百度自主研發(fā)的中國首款云端全功能AI芯片“昆侖”,以及百度智能云成熟的虛擬化技術(shù),在云服務(wù)器BCC產(chǎn)品中對昆侖AI加速芯片進行深入的適配和兼容。
依托于昆侖芯片高性能、低成本、通用靈活的特點,百度昆侖云服務(wù)器在云服務(wù)器本身具有的安全可靠、高性價比、彈性靈活的優(yōu)勢上,實現(xiàn)了更快、更強、更易用、更通用。
(詳情走傳送門:百度昆侖云服務(wù)器正式上線要提供中國最好的AI算力服務(wù))
隨著容器技術(shù)的快速發(fā)展和云原生的日益普及,企業(yè)和開發(fā)者在追求更快更強的AI算力的同時,也在不斷追求各類AI計算場景下高可用、免運維、低成本、高效率的極致體驗。容器技術(shù)以其獨特的優(yōu)勢,已經(jīng)成為業(yè)界主流AI計算框架的核心引擎。
百度智能云容器引擎(Cloud Container Engine,以下簡稱CCE)就是在這樣的背景下推出的,其采用Kubernetes作為容器集群管理系統(tǒng),依托于百度智能云BCC、BLB等技術(shù)提供的穩(wěn)定基礎(chǔ)架構(gòu),借助主流的Kubernetes開源工具,能夠向客戶提供彈性、高可用、高效便捷的Container as a Services,助力系統(tǒng)架構(gòu)微服務(wù)化、DevOps高效運維、AI應(yīng)用深度學(xué)習(xí)容器化等業(yè)務(wù)場景。
隨著昆侖云服務(wù)器上線,CCE基于Kubernetes支持對昆侖XPU資源集群的管理和調(diào)度,能最大化昆侖AI加速芯片算力的使用效率,進一步提高底層計算能力。
CCE如何支持昆侖降本增效?
CCE對昆侖性能的提升毋庸置疑,具體是如何做到的呢?
Kubernetes作為新一代的AI開發(fā)基礎(chǔ),一直在不斷提高對GPU等硬件加速設(shè)備進行統(tǒng)一管理和調(diào)度的能力,主要通過Kubernetes支持的extended-resource特性和device-plugin的通用設(shè)備插件機制,以Daemonset方式部署,完成對新資源的注冊、調(diào)度和分配。
extended-resource是一種自定義擴展資源的方式。擴展資源類似于CPU和內(nèi)存資源,一個節(jié)點可具有一定數(shù)量的擴展資源,供該節(jié)點上的容器使用,開發(fā)人員可創(chuàng)建請求一定數(shù)量該資源的pod。擴展資源的名稱和總量(必須指定為整數(shù))需上報給api server,scheduler則根據(jù)該資源pod的創(chuàng)建和刪除計算資源可用量,進而在調(diào)度時刻判斷是否有滿足資源條件的節(jié)點。
device-plugin是用于提供通用設(shè)備插件機制和標(biāo)準(zhǔn)的設(shè)備API接口,設(shè)備廠商只需要實現(xiàn)相應(yīng)的API接口,即可在不更改Kubernetes主干代碼的情況下,向Kubernetes提供GPU、FPGA、高性能 NIC、InfiniBand等各種資源的統(tǒng)計信息和使用預(yù)備工作。使用該特性需要通過feature gate打開, 即配置:
--feature-gates=DevicePlugins=true
CCE支持昆侖的實現(xiàn)流程
CCE能在哪些場景下支持昆侖?
CCE作為一款成熟的容器引擎產(chǎn)品,能在包括深度學(xué)習(xí)模型訓(xùn)練、高密度高性能計算、簡化訓(xùn)練環(huán)境的搭建運維、簡化AI應(yīng)用的邊緣化部署等多場景下支持昆侖。
深度學(xué)習(xí)模型訓(xùn)練:CCE已支持在Kubernetes集群基礎(chǔ)上一鍵集成百度開源PaddlePaddle深度學(xué)習(xí)框架,客戶以百度昆侖云服務(wù)器為計算資源、以CCE服務(wù)為集群管理工具、以PaddlePaddle為深度學(xué)習(xí)框架,能夠很好地解決AI開發(fā)中的兩大核心難題:利用Kubernetes解決大規(guī)模計算資源的管理和調(diào)度難題,屏蔽底層基礎(chǔ)設(shè)施的差異性;利用PaddlePaddle框架解決復(fù)雜算法研發(fā)和訓(xùn)練的難題,打造開發(fā)、訓(xùn)練、預(yù)測全套方案。
高密度高性能計算:很多AI場景下,客戶需要快速、多次計算進行迭代。CCE通過優(yōu)化k8s容器調(diào)度引擎,能夠為容器中的AI計算任務(wù)分配更細(xì)粒度的昆侖XPU資源,實現(xiàn)多個AI計算任務(wù)共享昆侖XPU資源,大幅提升資源利用率、降低AI計算成本。同時,CCE提供秒級計費、按需付費,大大降低了客戶進行AI計算的成本。
簡化訓(xùn)練環(huán)境的搭建運維:自主搭建深度學(xué)習(xí)訓(xùn)練環(huán)境,需要準(zhǔn)備資源、安裝軟件驅(qū)動等,并需要花很大精力保證開發(fā)、測試、生產(chǎn)環(huán)境的一致性。通過CCE構(gòu)建昆侖XPU集群,在保證計算性能的同時,還能利用容器的標(biāo)準(zhǔn)化封裝能力極大降低安裝部署的復(fù)雜度,利用容器的隔離性實現(xiàn)多訓(xùn)練框架的并行和獨立升級。通過降低研發(fā)運維的難度和復(fù)雜度,客戶可以更專注于AI訓(xùn)練。
簡化AI應(yīng)用的邊緣化部署:隨著5G、IoT技術(shù)的快速發(fā)展,AI應(yīng)用部署的本地化、邊緣化也逐漸成為解決很多行業(yè)問題的關(guān)鍵。容器化是一種用于應(yīng)用程序部署的行業(yè)標(biāo)準(zhǔn)化設(shè)計模式,借助于Kubernetes提供的統(tǒng)一部署平臺,其可以跨邊緣、數(shù)據(jù)中心、云和混合環(huán)境部署。 通過CCE實現(xiàn)AI應(yīng)用的容器化,并運行于昆侖XPU集群上,可以簡化AI應(yīng)用邊緣化部署工作。
超強、極速的算力及其使用過程的高效率、低成本、易用易獲取,是AI產(chǎn)業(yè)發(fā)展的關(guān)鍵。
作為百度AI生態(tài)中的一環(huán),CCE遠(yuǎn)遠(yuǎn)不止是一個容器集群管理工具,而是致力于為客戶解決從底層架構(gòu)到AI開發(fā)中的各項難題,最大程度降低客戶使用的門檻和成本,為客戶提供一個高度自由的AI開發(fā)環(huán)境,從而將百度強大的AI能力賦予到客戶的實際應(yīng)用中,加速AI計算的落地與發(fā)展。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準(zhǔn)AI機器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。