從PUE到CUE:高效計(jì)算中心建設(shè)需要有效算力評(píng)測(cè)體系

極客網(wǎng)·極客觀察8月9日 2022年7月29日,首屆中國算力大會(huì)在山東濟(jì)南拉開帷幕。這是全國首個(gè)以數(shù)據(jù)中心算力賦能為主題的省部聯(lián)辦會(huì)議,會(huì)上重磅發(fā)布了我國首個(gè)算力產(chǎn)業(yè)發(fā)展指數(shù)、《算力白皮書》《算力設(shè)施產(chǎn)業(yè)圖譜》等系列成果,規(guī)格高、參與廣、內(nèi)容實(shí)、成果豐,引發(fā)了社會(huì)各界的廣泛關(guān)注。

會(huì)上,由中國電子技術(shù)標(biāo)準(zhǔn)化研究院聯(lián)合華為技術(shù)有限公司及鵬城實(shí)驗(yàn)室、北京航空航天大學(xué)、中國移動(dòng)、中國電信、中國聯(lián)通、武漢人工智能計(jì)算中心、西安未來人工智能計(jì)算中心等單位編寫的《計(jì)算中心有效算力評(píng)測(cè)體系白皮書》正式發(fā)布。白皮書首次定義了計(jì)算中心有效算力的概念和內(nèi)涵,給出了有效算力的評(píng)測(cè)指標(biāo)和評(píng)測(cè)方法,以及有效算力和有效算力評(píng)測(cè)指標(biāo)體系的應(yīng)用場(chǎng)景、標(biāo)準(zhǔn)進(jìn)展與下一步規(guī)劃等,為計(jì)算中心新基建高質(zhì)量建設(shè)指明了方向,尤其引人注目。

1280.jpg

在今天的數(shù)字世界里,相信大家對(duì)算力的魔力已經(jīng)不陌生。智能手機(jī)里的APP越來越懂你的愛好習(xí)性,電商平臺(tái)的客服機(jī)器人幾乎能夠回答你的所有問題,工廠里的智能機(jī)器人能夠從事越來越多的生產(chǎn)作業(yè),馬路上穿梭的車輛中偶爾會(huì)出現(xiàn)一輛“無人駕駛”的出租車……背后都離不開算力的支持。

那么時(shí)至今日,業(yè)界為什么要提出有效算力,并致力于構(gòu)建有效算力評(píng)測(cè)體系?它是如何評(píng)測(cè)的,相比傳統(tǒng)評(píng)測(cè)方式有何獨(dú)特價(jià)值?這一舉措對(duì)當(dāng)前我國推動(dòng)人工智能計(jì)算中心等算力基礎(chǔ)設(shè)施建設(shè)有何意義?讓我們一探究竟。


高效計(jì)算中心建設(shè)成為必答題,算力評(píng)測(cè)體系升級(jí)勢(shì)在必行

數(shù)字經(jīng)濟(jì)時(shí)代,算力已成為生產(chǎn)力,重大科研突破與產(chǎn)業(yè)發(fā)展都需要大算力的支撐,這對(duì)計(jì)算中心新基建的發(fā)展提出了更高的要求。近年來,以人工智能計(jì)算中心為代表的算力基礎(chǔ)設(shè)施成為各地建設(shè)熱點(diǎn),國家總體布局設(shè)計(jì)“東數(shù)西算”,更是要將包括人工智能計(jì)算中心、一體化大數(shù)據(jù)中心、超算中心在內(nèi)的計(jì)算中心聯(lián)接起來,組成全國一體化算力網(wǎng)絡(luò),全面支撐數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展。

與此同時(shí),計(jì)算中心的高速增長(zhǎng)也帶來了一系列能源消耗問題,使得計(jì)算中心發(fā)展站在了實(shí)現(xiàn)國家“雙碳”目標(biāo)的第一線,這要求各地在設(shè)計(jì)建設(shè)計(jì)算中心時(shí),不僅要關(guān)注市場(chǎng)所需的算力場(chǎng)景和算力總量,還得重視相應(yīng)的能耗和碳排。這對(duì)算力的效率提出了更高要求,高效計(jì)算中心建設(shè)成為必答題。只有通過節(jié)能、增效兩手抓應(yīng)對(duì)能耗,才能建設(shè)高質(zhì)量的計(jì)算中心,提升算力質(zhì)量。

質(zhì)量提升,標(biāo)準(zhǔn)先行。要建設(shè)高質(zhì)量計(jì)算中心,提升算力質(zhì)量,首當(dāng)其沖的就是需要構(gòu)建合適的算力評(píng)測(cè)體系。

這些年來,從最基本的能源使用效率PUE(Power?Usage?Effectiveness)、芯片標(biāo)稱的規(guī)格算力,到SPEC關(guān)注單機(jī)或單服務(wù)器的單臺(tái)設(shè)備性能評(píng)價(jià),IO500重點(diǎn)呈現(xiàn)的系統(tǒng)整體存儲(chǔ)方面的性能,再到通過真實(shí)應(yīng)用完整呈現(xiàn)整系統(tǒng)能力的AIbench和MLperf等,算力評(píng)價(jià)指標(biāo)正逐步從單點(diǎn)、部件能力評(píng)測(cè)過渡到場(chǎng)景化、全棧全場(chǎng)景業(yè)務(wù)生產(chǎn)力評(píng)價(jià)。《計(jì)算中心有效算力評(píng)測(cè)體系白皮書》提出的計(jì)算中心有效算力,正是要通過評(píng)測(cè)真實(shí)業(yè)務(wù)性能表現(xiàn),來衡量算力基礎(chǔ)設(shè)施對(duì)業(yè)務(wù)的支撐效果,也就是業(yè)務(wù)實(shí)際可獲得的算力水平。相比規(guī)格算力更偏向于統(tǒng)計(jì)意義上算力的數(shù)量,有效算力更強(qiáng)調(diào)算力的質(zhì)量。

相應(yīng)地,計(jì)算中心有效算力評(píng)測(cè)體系確立了一個(gè)規(guī)范有效算力如何進(jìn)行計(jì)量的指標(biāo)體系,其包含了方法、工具和數(shù)據(jù)集等。該評(píng)測(cè)體系的核心是有效算力指標(biāo)(CUE:Computing Usage Effectiveness),用以表示有效算力的量化數(shù)據(jù)。CUE公式的設(shè)立,可以有效避免多個(gè)真實(shí)業(yè)務(wù)性能測(cè)試所帶來的單位不統(tǒng)一、描述過于復(fù)雜等局面,通過幾何加權(quán)平均的方式獲得一個(gè)單一數(shù)值,有助于進(jìn)行定量、對(duì)比性分析。


有效算力評(píng)測(cè)率先落地人工智能領(lǐng)域,全棧垂直優(yōu)化價(jià)值凸顯 

從白皮書披露的情況看,計(jì)算中心有效算力評(píng)測(cè)方法與評(píng)測(cè)體系的標(biāo)準(zhǔn)化已經(jīng)率先落地人工智能領(lǐng)域。這不難理解,因?yàn)閾?jù)權(quán)威機(jī)構(gòu)預(yù)測(cè),隨著視頻、圖片等更多需要AI技術(shù)來處理的非機(jī)構(gòu)化數(shù)據(jù)的大量涌現(xiàn),未來10年通用算力將增長(zhǎng)10倍,而人工智能算力將增長(zhǎng)500倍,算力的增量將主要是AI算力。

2021年8月26日,由中國電子技術(shù)標(biāo)準(zhǔn)化研究院牽頭起草,中國科學(xué)院軟件研究所、北京航空航天大學(xué)、華為技術(shù)有限公司等共同研制的T/CESA 1169—2021《信息技術(shù)人工智能服務(wù)器系統(tǒng)性能測(cè)試規(guī)范》發(fā)布,并于同年9月1日起實(shí)施。該標(biāo)準(zhǔn)提出了有效算力指標(biāo)公式,制定了面向人工智能計(jì)算中心的有效算力測(cè)試集,并給出了人工智能領(lǐng)域的有效算力測(cè)試方法,展現(xiàn)了CUE測(cè)試的獨(dú)特價(jià)值。

在人工智能領(lǐng)域,實(shí)際吞吐率代表人工智能服務(wù)器系統(tǒng)對(duì)特定訓(xùn)練或推理作業(yè)的有效計(jì)算能力。提升有效計(jì)算能力可達(dá)到硬件系統(tǒng)擴(kuò)容的效果。有效算力的提升,軟件方面的優(yōu)化可包含如計(jì)算設(shè)備加速庫中算子的優(yōu)化、軟件棧的輕量化等技術(shù)的應(yīng)用。比如對(duì)特定訓(xùn)練作業(yè)的有效計(jì)算能力,是單位時(shí)間內(nèi)訓(xùn)練過程能消耗的樣本數(shù)量(視覺類測(cè)試是圖片數(shù)每秒、自然語言處理類測(cè)試是句數(shù)每秒)。評(píng)價(jià)人工智能服務(wù)器系統(tǒng)的綜合訓(xùn)練能力,可將多個(gè)代表性訓(xùn)練作業(yè)的有效計(jì)算能力綜合起來,形成整系統(tǒng)的有效計(jì)算能力,即根據(jù)上述公式,計(jì)算整系統(tǒng)在給定任務(wù)集合S上,實(shí)際吞吐率與每任務(wù)基線吞吐率之比的加權(quán)幾何平均。

從中可見,在一定規(guī)模規(guī)格算力集群系統(tǒng)上進(jìn)行有效算力測(cè)試,通過優(yōu)化硬件配置、基礎(chǔ)軟件版本以及應(yīng)用參數(shù)等,可以實(shí)現(xiàn)全棧優(yōu)化的效果,并根據(jù)實(shí)測(cè)工具獲得最終性能數(shù)值。這樣的數(shù)值可以作為不同技術(shù)路線集群系統(tǒng)的性能對(duì)比,以牽引技術(shù)架構(gòu)與軟硬件設(shè)計(jì)的演進(jìn)。

換句話說,有效算力評(píng)測(cè)體現(xiàn)的是全棧垂直優(yōu)化的價(jià)值,可真實(shí)反映計(jì)算中心資源使用情況,通過效能分析,指導(dǎo)計(jì)算中心面向業(yè)務(wù)場(chǎng)景,從全棧融合的角度——自機(jī)房、能源基礎(chǔ)設(shè)施、硬件基礎(chǔ)設(shè)施至軟件基礎(chǔ)設(shè)施各層的整體設(shè)計(jì)與建設(shè),提高計(jì)算中心資源使用率。


有效算力推動(dòng)算力基礎(chǔ)設(shè)施建設(shè),人工智能計(jì)算中心建設(shè)提速

很顯然,這樣的評(píng)測(cè)指標(biāo)和方法立足真實(shí)業(yè)務(wù)應(yīng)用性能,覆蓋了計(jì)算中心全生命周期,可用于評(píng)價(jià)計(jì)算中心建設(shè)的綠色性、先進(jìn)性、實(shí)用性。各地的建設(shè)主體可按照有效算力標(biāo)準(zhǔn)對(duì)計(jì)算中心進(jìn)行系統(tǒng)化設(shè)計(jì),牽引軟硬件的深度協(xié)同,從全棧優(yōu)化中獲取更優(yōu)的有效算力,實(shí)現(xiàn)從能耗比到算能比的演進(jìn),提升資源可分配的效能。

當(dāng)前,在數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展、“東數(shù)西算”、“雙碳”目標(biāo)等國策的綜合牽引下,全國各地的人工智能計(jì)算中心、一體化大數(shù)據(jù)中心、超算中心等算力基礎(chǔ)設(shè)施建設(shè)正如火如荼。在這些大并行/并發(fā)集群系統(tǒng)特征更為明顯的業(yè)務(wù)場(chǎng)景,有效算力評(píng)測(cè)體系整系統(tǒng)評(píng)測(cè)、全棧垂直優(yōu)化的理念和方法將最能夠更好地推動(dòng)算力基礎(chǔ)設(shè)施建設(shè)。

資料顯示,華為等業(yè)界伙伴也已基于該體系在計(jì)算中心的項(xiàng)目建設(shè)中取得顯著成效。早在2021年9月,面向人工智能計(jì)算中心、高性能計(jì)算中心,和一體化大數(shù)據(jù)中心等多種場(chǎng)景,華為已經(jīng)推出集群計(jì)算解決方案,通過系統(tǒng)工程與架構(gòu)創(chuàng)新,實(shí)現(xiàn)從能源效率指標(biāo)PUE最佳到有效算力指標(biāo)CUE最佳的跨越。目前,該集群計(jì)算解決方案已用于武漢、西安、中原、成都、南京、杭州等各地的人工智能計(jì)算中心項(xiàng)目。

在先行者的帶動(dòng)之下,全國20多個(gè)城市已陸續(xù)啟動(dòng)或規(guī)劃了人工智能計(jì)算中心的建設(shè)。就在本屆中國算力大會(huì)期間,華為透露今年5月開建的青島人工智能計(jì)算中心項(xiàng)目預(yù)計(jì)將于9月上線投運(yùn),同時(shí)還在積極配合濟(jì)南人工智能計(jì)算中心的建設(shè)。這些已上線或即將上線的人工智能計(jì)算中心,大部分已經(jīng)或?qū)⒁尤胫袊懔W(wǎng)絡(luò),推動(dòng)全國算力一張網(wǎng)的整體布局。

細(xì)究這些人工智能計(jì)算中心快速建設(shè)上線并高效運(yùn)行的背后,可以發(fā)現(xiàn)它們均以昇騰AI基礎(chǔ)軟硬件平臺(tái)為基礎(chǔ),并引入CUE指標(biāo)做了全棧設(shè)計(jì)與優(yōu)化,讓“計(jì)算中心作為一臺(tái)計(jì)算機(jī)”高效運(yùn)轉(zhuǎn),在支持AI、HPC、大數(shù)據(jù)等多種算力場(chǎng)景的同時(shí),實(shí)現(xiàn)了各類算力的高效利用,大幅提升了有效算力。


寫在最后:

有預(yù)測(cè)指出,算力指數(shù)每提高1%,國家的數(shù)字經(jīng)濟(jì)和GDP將分別增長(zhǎng)3.5‰和1.8‰。工信部數(shù)據(jù)顯示,2021年底我國算力核心產(chǎn)業(yè)規(guī)模達(dá)1.5萬億元,位居全球第二,近五年平均增速超過30%,帶動(dòng)關(guān)聯(lián)產(chǎn)業(yè)規(guī)模超過8萬億元。很顯然,提供算力生產(chǎn)力的計(jì)算中心,將成為現(xiàn)代科技與產(chǎn)業(yè)發(fā)展的加速器,數(shù)字化社會(huì)必備的基礎(chǔ)設(shè)施。

當(dāng)算力逐步成為經(jīng)濟(jì)社會(huì)的基礎(chǔ)設(shè)施,其價(jià)值不僅在“量”,更需要“質(zhì)”,正如《計(jì)算中心有效算力評(píng)測(cè)體系白皮書》所述——將以有效算力為衡量方式牽引計(jì)算中心新型基礎(chǔ)設(shè)施高質(zhì)量建設(shè),達(dá)到以業(yè)務(wù)應(yīng)用為牽引、以全棧優(yōu)化為手段、以節(jié)能增效為目標(biāo)的計(jì)算中心建設(shè),提升計(jì)算中心新型基礎(chǔ)設(shè)施建設(shè)的質(zhì)量,支撐數(shù)字經(jīng)濟(jì)等宏觀政策與頂層設(shè)計(jì)落地。


極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2022-08-09
從PUE到CUE:高效計(jì)算中心建設(shè)需要有效算力評(píng)測(cè)體系
白皮書首次定義了計(jì)算中心有效算力的概念和內(nèi)涵,給出了有效算力的評(píng)測(cè)指標(biāo)和評(píng)測(cè)方法,以及有效算力和有效算力評(píng)測(cè)指標(biāo)體系的應(yīng)用場(chǎng)景、標(biāo)準(zhǔn)進(jìn)展與下一步規(guī)劃等,為計(jì)算中心新基建高質(zhì)量建設(shè)指明了方向,尤其引人注目。

長(zhǎng)按掃碼 閱讀全文