移動云與浙大共同打造科研“超級計算平臺”

從過去到現(xiàn)在,人們一直在追求更?的算?。

近些年,隨著現(xiàn)代數(shù)據(jù)計算量和場景復(fù)雜度的不斷提升,普通計算?具提供的算力遠不足以支撐?物制藥、?象預(yù)報、軍事研究、基礎(chǔ)科學(xué)研究等尖端領(lǐng)域的應(yīng)用需求。

作為科技領(lǐng)域頂尖的計算力代表,?性能計算(簡稱 HPC)系統(tǒng)運行速度通常比最快的商用臺式機、筆記本電腦或服務(wù)器系統(tǒng)快一百萬倍以上,可以通過并行工作的強大處理器集群處理海量大數(shù)據(jù),以極高的速度解決一些程序規(guī)模龐大、運算時間長以及數(shù)據(jù)量大的計算任務(wù),逐漸成為企業(yè)、研究機構(gòu)科技水平的重要指標。

作為科學(xué)研究前沿陣地和人才培養(yǎng)重地的高校,科研、教學(xué)、管理對HPC資源的需求也日益攀升。風口之下,如何評估?校算?服務(wù)現(xiàn)狀?如何高質(zhì)量推動算?平臺建設(shè)?如何讓?性能算?普惠師????成為當今教育界的“時代之問”。

要找到問題的答案,不妨關(guān)注一下國內(nèi)高校算?建設(shè)的標桿性案例。

浙江大學(xué):打造算力革命“超強大腦”

2023年10月,教育部等六部門聯(lián)合發(fā)布《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》,鼓勵各類高等院校、職業(yè)院校積極運用算力平臺為學(xué)校實習實驗實訓(xùn)環(huán)境、平臺和基地建設(shè)、轉(zhuǎn)型發(fā)展及重大項目或課題的開發(fā)與創(chuàng)新提供支撐。

目前,清華大學(xué)、北京大學(xué)、上海交通大學(xué)、南京大學(xué)等高校都已建設(shè)自有的算力中心。從“基于經(jīng)驗”到“數(shù)據(jù)驅(qū)動”教學(xué)科研的數(shù)字化時代,HPC中心儼然成為眾多一流大學(xué)的標配。

作為海內(nèi)外均享有較高聲譽的綜合型、研究型高等學(xué)府,浙江大學(xué)(下稱“浙大”)這所百年名校不僅在多個學(xué)科領(lǐng)域遙遙領(lǐng)先,更著眼于科技賦能,加快算力中心建設(shè),在計算領(lǐng)域的研究和打造智慧校園的路上走在全國前列。

在今天的浙大校園里,智能教學(xué)環(huán)境、信息化校園應(yīng)用管理、用科學(xué)計算進行虛擬仿真實驗、訓(xùn)練AI模型都已司空見慣,這些應(yīng)用場景背后都少不了高性能算力的支撐。

此前,浙大HPC集群為數(shù)十個中小型集群,各學(xué)院自行采購搭建小型計算平臺,存在部分服務(wù)器裸硬件沒有集群化,算力資源分散管理、忙閑不均、共享不暢等問題。由于缺乏校級平臺統(tǒng)一管理全校計算資源,浙大在進行項目研究時,很難一次性調(diào)用大批量資源執(zhí)行計算,可能就會導(dǎo)致科研成果產(chǎn)出效率“慢別人一拍”,長此以往將不利于學(xué)校提升科研水平。

此外,許多科研項?在進??度復(fù)雜的模擬和計算時,既需要超算算?,?需要智算算?。長遠來看,推動“超算+智算”融合發(fā)展勢在必行。

為了進一步滿足科研工作和智慧校園的發(fā)展需求,浙大計劃建設(shè)一套高效、安全、可靠的智算超算專屬云平臺,進一步推進5G、云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)等新一代信息技術(shù)在教育領(lǐng)域的實際應(yīng)用。

近期,浙大與中國移動在北京簽署戰(zhàn)略合作協(xié)議,在共建校園網(wǎng)絡(luò)、共創(chuàng)5G技術(shù)、共筑開放實驗室等合作基礎(chǔ)上,雙方還聯(lián)合打造了全國首個校企合營模式算力中心——中國移動-浙江大學(xué)啟真算力中心。

配圖1.jpg

中國移動與浙江大學(xué)戰(zhàn)略合作簽約儀式

基于移動云技術(shù)底座,打造智算超算統(tǒng)一調(diào)度平臺,高效整合高性能CPU、GPU以及國產(chǎn)AI芯片等硬件資源,為浙大提供面向科學(xué)研究的AI+HPC算力服務(wù)。

同時,通過九天人工智能平臺開放,基于1600Gbps帶寬的高速網(wǎng)絡(luò),浙大管理平臺軟硬件系統(tǒng)實現(xiàn)對通用、超算、智算等算力的統(tǒng)一管理、調(diào)度,以及數(shù)據(jù)模型訓(xùn)練到模型推理、驗證的無縫銜接,滿足各學(xué)科領(lǐng)域?qū)τ诖笠?guī)模數(shù)據(jù)處理和科學(xué)計算的需求。

據(jù)統(tǒng)計,項目整體建成后,浙大人工智能算力將達711Pflops(每秒71.1億億次浮點運算能力水平),達到全國高校頭部水平。后續(xù),浙大還將接入中國移動“百川”算力并網(wǎng)平臺,實現(xiàn)全校算力資源的統(tǒng)一調(diào)度和算力服務(wù)普及、普惠,讓算力服務(wù)充分支撐教學(xué)和科研。

“智算一朵云”夯實科研創(chuàng)新數(shù)字基座

目前,高校的HPC平臺,包括軟硬件部分,基本是和國內(nèi)廠商合作共建完成的,有經(jīng)驗的云服務(wù)商,能幫助學(xué)校有效降低建設(shè)成本、減少資源浪費、提高科研效能等。

移動云作為HPC建設(shè)的早期參與者,面對國內(nèi)高校在人工智能教學(xué)、科研、實訓(xùn)等環(huán)境搭建過程中普遍面臨的硬件使用成本高、模型部署困難、訓(xùn)練數(shù)據(jù)難獲取、Deadline算力資源不足等痛點,已迭代出了系統(tǒng)完善、安全可靠的高校超算智算云解決方案——通過統(tǒng)一云管平臺、HPC集群管理調(diào)度系統(tǒng)、AI智算平臺,全方位支撐高校管理平臺軟硬件系統(tǒng),成為科研創(chuàng)新的底座。

在服務(wù)保障上,移動云為高校提供屬地化的服務(wù)模式,除了前期的規(guī)劃建設(shè)和運營,算力中心建設(shè)后,還會提供“遠程+駐場運維”的專人專職維護來保障業(yè)務(wù)系統(tǒng)的持續(xù)穩(wěn)定,讓高??蛻裟軌?qū)W⒂跇I(yè)務(wù)、專注科研。目前,這一解決方案已在諸多高校中落地應(yīng)用,為學(xué)校的高質(zhì)量發(fā)展注入新動能。

配圖2.jpg

高效易用的調(diào)度管理平臺

可以肯定的是,中國高校“卷”高性能計算平臺的熱潮還將繼續(xù),隨著教育?業(yè)數(shù)字化發(fā)展進程不斷演進,高性能算力基礎(chǔ)設(shè)施的建設(shè)、算力供給能力的提升、算力普惠力度的加大,已成必然之勢。

基于多年的經(jīng)驗沉淀,移動云已構(gòu)成全棧自主可控、行業(yè)領(lǐng)先的智算中心架構(gòu),形成了“N+X”智算資源布局體系,實現(xiàn)多種能力輸出,滿足生命科學(xué)、材料設(shè)計、氣象預(yù)測、計算物理等各類科研業(yè)務(wù)場景在云上的數(shù)據(jù)開發(fā)、存儲以及模型訓(xùn)練和推理需求。

除此之外,移動云正逐步加強智算基礎(chǔ)設(shè)施建設(shè),打造全棧智算產(chǎn)品體系。通過提供高性能智算集群、裸金屬、GPU云主機等 IaaS層基礎(chǔ)設(shè)施,移動云打造了具有特色的PaaS服務(wù)和模型即服務(wù)(MaaS)能力,同時依托九天智算平臺能力釋放澎湃智算算力,深入融合行業(yè)解決方法,探索大模型落地,實現(xiàn)已有服務(wù)規(guī)?;涞亍?/p>

面向未來,算力平臺作為“數(shù)字新基建”,在高校將發(fā)揮越來越大的作用,因此高校算力建設(shè)的持續(xù)投入很關(guān)鍵。除了學(xué)科科研之外,高校還需要更多地探索、發(fā)展計算技術(shù),推動算力建設(shè)和數(shù)字能力的持續(xù)發(fā)展,以便更好地服務(wù)于自身的數(shù)字化轉(zhuǎn)型。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )