外媒專評(píng)AIStation:AI集群運(yùn)營(yíng)與AI算法創(chuàng)新同樣重要

近日,海外權(quán)威產(chǎn)品測(cè)評(píng)機(jī)構(gòu)ServeTheHome(簡(jiǎn)稱STH)對(duì)浪潮人工智能開(kāi)發(fā)資源平臺(tái)AIStation進(jìn)行了深度體驗(yàn),并發(fā)布測(cè)評(píng)報(bào)告。STH專注于服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)和高端硬件測(cè)評(píng),是海外專業(yè)的測(cè)評(píng)機(jī)構(gòu),這也是浪潮AIStation在海外市場(chǎng)的測(cè)評(píng)首秀。

外媒專評(píng)AIStation:AI集群運(yùn)營(yíng)與AI算法創(chuàng)新同樣重要

海外專業(yè)測(cè)評(píng)機(jī)構(gòu)STH發(fā)布浪潮AIStation測(cè)評(píng)文章

AIStation是浪潮面向深度學(xué)習(xí)開(kāi)發(fā)、線上推理發(fā)布的人工智能開(kāi)發(fā)資源平臺(tái),可實(shí)現(xiàn)容器化部署、可視化開(kāi)發(fā)、集中化管理等,旨在實(shí)現(xiàn)精準(zhǔn)的資源管理和調(diào)度、敏捷的數(shù)據(jù)整合及加速、流程化的AI場(chǎng)景及業(yè)務(wù)整合。此次,STH的編輯以管理員身份和用戶身份對(duì)浪潮AIStation進(jìn)行了全面的體驗(yàn),并在測(cè)評(píng)報(bào)告中詳盡地闡釋了AIStation的功能和應(yīng)用價(jià)值。STH表示,浪潮AIStation能夠?qū)崿F(xiàn)對(duì)AI資源的精細(xì)化管理,可以有效打通開(kāi)發(fā)環(huán)境、計(jì)算資源與數(shù)據(jù)資源,提升開(kāi)發(fā)效率。

下面是STH資深編輯Patrick Kennedy的測(cè)評(píng)敘述:

我們通常將構(gòu)建和運(yùn)行AI集群,即通過(guò)訓(xùn)練和推理來(lái)管理所有計(jì)算資源、用戶、數(shù)據(jù)和模型視為一項(xiàng)挑戰(zhàn)。做好AI集群運(yùn)營(yíng)可能并不像發(fā)現(xiàn)一種解決深度學(xué)習(xí)問(wèn)題的新方法那樣備受追捧,但對(duì)于在組織內(nèi)擴(kuò)展共享資源至關(guān)重要。浪潮AIStation旨在管理該生命周期。我們花了一些時(shí)間親手操作了該解決方案,以了解其運(yùn)作方式。我也找機(jī)會(huì)向浪潮AI負(fù)責(zé)人劉軍提出了有關(guān)新產(chǎn)品的幾個(gè)問(wèn)題。

外媒專評(píng)AIStation:AI集群運(yùn)營(yíng)與AI算法創(chuàng)新同樣重要

浪潮AIStation登陸界面

一、浪潮AIStation實(shí)操背景介紹

浪潮在中國(guó)山東省擁有一個(gè)測(cè)試集群,我用Cisco VPN進(jìn)行了訪問(wèn)。雖然不知道確切位置,但我想濟(jì)南(山東省第二大城市和省會(huì))的這座浪潮大廈就是測(cè)試群集的所在地,這與2019年我們參觀的浪潮智能工廠不在同一個(gè)園區(qū)。我們的許多讀者都來(lái)自中國(guó)以外的國(guó)家,而且也沒(méi)去過(guò)山東,這么說(shuō)吧,濟(jì)南的人口與紐約差不多。

如果您聽(tīng)說(shuō)過(guò)紐約但沒(méi)聽(tīng)說(shuō)過(guò)濟(jì)南,那正是我要重點(diǎn)介紹AIStation的原因。浪潮是全球排名前三的服務(wù)器供應(yīng)商,中國(guó)市場(chǎng)上大約一半的AI服務(wù)器都來(lái)自浪潮。浪潮面向超大規(guī)模用戶,其主要能力之一是AI服務(wù)器,例如我們最近評(píng)測(cè)的浪潮系統(tǒng)NF5468M5和浪潮NF5488M5。AIStation也是浪潮產(chǎn)品,可幫助管理大量的AI訓(xùn)練和推理服務(wù)器、數(shù)據(jù)以及用戶。

從根本上說(shuō)AIStation是基于Kubernetes的集群解決方案。浪潮所做的是統(tǒng)一運(yùn)行AI集群時(shí)需要解決的許多常見(jiàn)工具和任務(wù)。例如,它可以管理用戶、組、權(quán)限和配額,可以管理與每個(gè)用戶或組關(guān)聯(lián)的數(shù)據(jù)以及該數(shù)據(jù)的權(quán)限和存儲(chǔ),還可以管理開(kāi)發(fā)工作以及在集群上調(diào)度資源。此外,我們還將介紹作業(yè)、用戶和節(jié)點(diǎn)層面上的一些監(jiān)控和警報(bào)。

二、AIStation實(shí)操:管理員視角

屏幕截圖就不在這里一一展示了,選擇一部分重點(diǎn)界面進(jìn)行介紹。在了解用戶在系統(tǒng)中看到的內(nèi)容之前,我想先談一下管理方面。該解決方案基于Kubernetes和容器,非?,F(xiàn)代化。如果將其與許多傳統(tǒng)的GPU/HPC/AI調(diào)度系統(tǒng)進(jìn)行比較,您將更能體會(huì)其現(xiàn)代架構(gòu)的理念。

外媒專評(píng)AIStation:AI集群運(yùn)營(yíng)與AI算法創(chuàng)新同樣重要

集群監(jiān)控

AIStation在后臺(tái)開(kāi)始運(yùn)行后,大部分日常管理工作都可以使用腳本或通過(guò)Web GUI完成??梢陨钊氩榭锤鱾€(gè)節(jié)點(diǎn)的負(fù)載、硬件配置,甚至可實(shí)現(xiàn)從用戶到容器再到它們?cè)趩蝹€(gè)GPU級(jí)別運(yùn)行的硬件的追蹤鏈。

外媒專評(píng)AIStation:AI集群運(yùn)營(yíng)與AI算法創(chuàng)新同樣重要

集群監(jiān)控>節(jié)點(diǎn)監(jiān)控

盡管我們的測(cè)試集群只有幾個(gè)節(jié)點(diǎn),但我們聽(tīng)說(shuō)AIStation已經(jīng)部署了數(shù)百個(gè)節(jié)點(diǎn)和上千個(gè)節(jié)點(diǎn)的集群。隨著節(jié)點(diǎn)數(shù)量的增加,創(chuàng)建資源組變得更加重要。AIStation可以創(chuàng)建多個(gè)資源組,將其指定用于開(kāi)發(fā)、訓(xùn)練或通用,也可以為該組設(shè)置一些更高級(jí)別的管理和預(yù)留權(quán)限。

外媒專評(píng)AIStation:AI集群運(yùn)營(yíng)與AI算法創(chuàng)新同樣重要

資源管理>創(chuàng)建資源組

除了創(chuàng)建資源組之外,創(chuàng)建用戶和用戶組可能更重要。AIStation可以創(chuàng)建用戶或與現(xiàn)有的用戶目錄工具集成,然后為用戶授予訪問(wèn)不同資源、存儲(chǔ)配額、GPU配額等的權(quán)限。這很重要,因?yàn)楣究赡懿粫?huì)想讓一個(gè)實(shí)習(xí)生100%使用整個(gè)集群或訪問(wèn)敏感的訓(xùn)練數(shù)據(jù)/模型,而會(huì)把優(yōu)先權(quán)給到深度學(xué)習(xí)專家組成的內(nèi)部咨詢小組。AIStation的主要價(jià)值主張是通過(guò)單個(gè)系統(tǒng)進(jìn)行全部管理。

外媒專評(píng)AIStation:AI集群運(yùn)營(yíng)與AI算法創(chuàng)新同樣重要

系統(tǒng)管理>用戶管理>用戶

管理員還可以根據(jù)權(quán)限訪問(wèn)整個(gè)集群。例如,遇到作業(yè)運(yùn)行緩慢的問(wèn)題,管理員可以使用監(jiān)控工具查找他們的作業(yè)以及有問(wèn)題的容器,甚至可以直接進(jìn)入硬件查看是否有潛在的硬件問(wèn)題。

外媒專評(píng)AIStation:AI集群運(yùn)營(yíng)與AI算法創(chuàng)新同樣重要

開(kāi)發(fā)環(huán)境>詳情

AIStation還具有相當(dāng)全面的可視化界面,用于監(jiān)控集群,界面上可以看到CPU、GPU和內(nèi)存的利用率等信息。在集群生命周期管理方面,這類數(shù)據(jù)可幫助管理員查看資源配置情況以及系統(tǒng)容量。例如,如果集群以50%的CPU、60%的GPU、95%的內(nèi)存運(yùn)行,這就充分說(shuō)明下一代節(jié)點(diǎn)需要更多的內(nèi)存容量。

外媒專評(píng)AIStation:AI集群運(yùn)營(yíng)與AI算法創(chuàng)新同樣重要

報(bào)表管理>資源統(tǒng)計(jì)

管理員用戶還可以查看已完成的任務(wù),以查看用戶先前運(yùn)行的內(nèi)容,包括作業(yè)是否成功。在某些情況下,人們會(huì)在公司GPU集群上挖掘加密貨幣。此類功能可根據(jù)已運(yùn)行的內(nèi)容進(jìn)行審核跟蹤,這項(xiàng)功能非常重要。

外媒專評(píng)AIStation:AI集群運(yùn)營(yíng)與AI算法創(chuàng)新同樣重要

訓(xùn)練管理>已完成任務(wù)

除了上述功能之外,另一個(gè)重要功能是管理用戶在系統(tǒng)中擁有的資源。接下來(lái),我們會(huì)從用戶的角度進(jìn)行詳細(xì)闡述。

三、AIStation實(shí)操:用戶視角

每個(gè)用戶都可以訪問(wèn)一組資源。登錄AIStation時(shí)可以看到儀表板。許多使用限制是通過(guò)管理板塊中顯示的用戶、組和資源組功能定義的。

外媒專評(píng)AIStation:AI集群運(yùn)營(yíng)與AI算法創(chuàng)新同樣重要

浪潮AIStation用戶界面

開(kāi)發(fā)人員如果要開(kāi)始訓(xùn)練任務(wù),可以查看可訓(xùn)練的鏡像。這些鏡像很重要,因?yàn)樵谙到y(tǒng)中創(chuàng)建任務(wù)時(shí),它們就是可能正在使用的鏡像。它可以是來(lái)自NVIDIA GPU Cloud的鏡像或更加標(biāo)準(zhǔn)的鏡像。AIStation還具有組鏡像甚至用戶鏡像的功能,讓用戶可以更輕松地選擇容器鏡像。用戶可以看到個(gè)人、組和公共鏡像。管理員可以將鏡像定義為個(gè)人鏡像或公共鏡像,將敏感鏡像的查看權(quán)限僅開(kāi)放給特定組或員工,這點(diǎn)也非常重要。

外媒專評(píng)AIStation:AI集群運(yùn)營(yíng)與AI算法創(chuàng)新同樣重要

鏡像管理

浪潮AIStation支持多種框架,用戶可以使用Tensorflow、Pytorch、Paddlepaddle或其他框架。

外媒專評(píng)AIStation:AI集群運(yùn)營(yíng)與AI算法創(chuàng)新同樣重要

訓(xùn)練管理>訓(xùn)練任務(wù)>創(chuàng)建訓(xùn)練任務(wù)

數(shù)據(jù)管理在AI集群中極為重要,AIStation能夠定義和存儲(chǔ)數(shù)據(jù)集。從用戶的角度來(lái)看,他們可以查看哪些數(shù)據(jù)集可供使用。用戶能夠?qū)⑷萜麋R像、節(jié)點(diǎn)/物理資源和訓(xùn)練數(shù)據(jù)相關(guān)聯(lián)。而管理員可以對(duì)這些數(shù)據(jù)集設(shè)置權(quán)限。這一點(diǎn)很重要,因?yàn)橛行?shù)據(jù)集只有指定用戶才能查閱、使用和下載。

在AIStation中還可以加載Jupyter筆記本,直接編輯python文件,并且可以將筆記本保存在集群的存儲(chǔ)后臺(tái),并輕松與其他用戶共享。

外媒專評(píng)AIStation:AI集群運(yùn)營(yíng)與AI算法創(chuàng)新同樣重要

開(kāi)發(fā)平臺(tái)>詳情

啟動(dòng)任務(wù)后,AIStation平臺(tái)將集成許多可視化工具。例如,您可以啟動(dòng)Tensorboard、Visdom或Netscope等工具,從下拉菜單中顯示可視化效果;用戶可以直接從Web GUI進(jìn)入容器的終端。

外媒專評(píng)AIStation:AI集群運(yùn)營(yíng)與AI算法創(chuàng)新同樣重要

用戶開(kāi)發(fā)平臺(tái)可視化Tensorboard

訓(xùn)練作業(yè)可能要花數(shù)小時(shí)或數(shù)天,用戶可隨時(shí)查看當(dāng)前作業(yè)狀態(tài)進(jìn)度、檢查結(jié)果以及待處理的作業(yè)及其歷史。

外媒專評(píng)AIStation:AI集群運(yùn)營(yíng)與AI算法創(chuàng)新同樣重要

訓(xùn)練管理>已完成作業(yè)

可以看到這種解決方案支持一家公司的諸多用戶及具有多代GPU的節(jié)點(diǎn)。這里沒(méi)有顯示其他一些功能,例如針對(duì)管理員和用戶的電子郵件警報(bào)和通知,但這種解決方案顯然是旨在運(yùn)行公司的整個(gè)AI操作。因此,我想向AIStation的業(yè)務(wù)負(fù)責(zé)人詢問(wèn)更多信息,了解其進(jìn)入市場(chǎng)的戰(zhàn)略。

四、對(duì)話浪潮劉軍

上市策略方面,我向浪潮的AI和HPC業(yè)務(wù)負(fù)責(zé)人劉軍提出了一些問(wèn)題。這個(gè)名字聽(tīng)起來(lái)可能很耳熟,那是因?yàn)樗耙苍鴰臀覀冏鲞^(guò)專訪。

外媒專評(píng)AIStation:AI集群運(yùn)營(yíng)與AI算法創(chuàng)新同樣重要

浪潮人工智能與高性能計(jì)算總經(jīng)理 劉軍

Patrick Kennedy: 浪潮如何規(guī)劃AIStation的上市?

劉軍:AIStation有直接銷售和渠道銷售兩種銷售方式,我們?cè)谌蛴袛?shù)十個(gè)渠道合作伙伴出售AIStation。

PK: AIStation可以集成其他服務(wù)器供應(yīng)商的集群節(jié)點(diǎn)嗎?

劉軍:是的,AIStation能夠集成其他供應(yīng)商的集群節(jié)點(diǎn)。

PK: AIStation的銷售是否針對(duì)特定行業(yè)?

劉軍:自2019年4月發(fā)布以來(lái),已實(shí)際應(yīng)用于金融、教育、互聯(lián)網(wǎng)和智慧城市等行業(yè)。

PK: 只面向大型組織、服務(wù)提供商嗎?初創(chuàng)企業(yè)等較小的組織是銷售目標(biāo)嗎?

劉軍:AIStation專為深度學(xué)習(xí)開(kāi)發(fā)領(lǐng)域而設(shè)計(jì),適用于金融、互聯(lián)網(wǎng)、通信、交通、醫(yī)療和教育等行業(yè)的大小型企業(yè)。

PK: 許可模式是怎樣的?

劉軍:按GPU服務(wù)器節(jié)點(diǎn)出售。

PK: 升級(jí)許可證需要購(gòu)買(mǎi)新密鑰,還是客戶憑借現(xiàn)有密鑰從浪潮注冊(cè)服務(wù)器上獲得新權(quán)限?(這里提醒讀者,Web GUI上有一個(gè)許可證密鑰頁(yè)面,上文未展示)

劉軍:用戶可享受三年內(nèi)AIStation的免費(fèi)升級(jí)服務(wù),然后需要購(gòu)買(mǎi)新密鑰進(jìn)行升級(jí)。

PK: 針對(duì)該解決方案,浪潮未來(lái)會(huì)提供其他新的服務(wù)嗎?

劉軍:未來(lái)AIStation將支持更多的AI加速器,并實(shí)現(xiàn)資源管理、調(diào)度、監(jiān)控、優(yōu)化等方面的異構(gòu)加速。我們將建立一個(gè)更全面的AI開(kāi)發(fā)生態(tài)系統(tǒng),為行業(yè)主流AI開(kāi)發(fā)工具、開(kāi)發(fā)框架和深度學(xué)習(xí)模型提供一個(gè)集成的開(kāi)發(fā)平臺(tái)。

再次感謝劉軍耐心為我們的讀者解答問(wèn)題。

最后的話

我想強(qiáng)調(diào)一下在此展示AIStation的操作視圖和上市策略的原因。AIStation發(fā)布第一年即獲得不俗的軟件銷售額。要是看到他們投資公司的AI管理軟件平臺(tái)第一年就獲得如此成績(jī),投資者們一定會(huì)激動(dòng)不已。重點(diǎn)是,盡管浪潮將其作為新產(chǎn)品發(fā)布,但實(shí)際上它已經(jīng)擁有很多付費(fèi)客戶,這些客戶已經(jīng)在使用此解決方案來(lái)管理其AI集群和開(kāi)發(fā)團(tuán)隊(duì)。

結(jié)合當(dāng)前的功能,再想想異構(gòu)加速器的概念,就能馬上明白該解決方案的前景。它與現(xiàn)有的其他一些集群管理解決方案相比,不同之處在于它甚至可以供大型組織使用,并且全部基于Kubernetes,而Kubernetes正迅速成為下一代服務(wù)的主要工具。

總而言之,如果您是一家只有2-3人的小型初創(chuàng)公司,那么可能并不需要該解決方案,但隨著組織中集群的增多,當(dāng)調(diào)度和管理成為一項(xiàng)更大的挑戰(zhàn)時(shí),浪潮AIStation的價(jià)值便更加凸顯出來(lái)。

(來(lái)源:浪潮服務(wù)器微信)

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )