對于現(xiàn)代科技來說,計算力的極限決定著人類對世界認(rèn)知的邊界,所以HPC(高性能計算集群)自然而然成了各國科技競爭的戰(zhàn)略制高點。如同在巔峰之上前行,每進(jìn)一步都要付出更多體能,在摩爾定律依然失效的今天,HPC在不斷提升性能的同時還要兼顧功耗,更是加大了迭代升級的技術(shù)難度。
在HPC領(lǐng)域卻發(fā)生了一件新鮮事,中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院原本計劃重建的峰值性能超過350Tflops即可,但聯(lián)想HPC在預(yù)算范圍內(nèi),最終交付計算峰值卻達(dá)到了1081Tflops,交付性能達(dá)到了用戶預(yù)期的三倍還多,這其中有什么奧秘和訣竅?帶著這些問題,《老尚看科技》采訪了聯(lián)想HPC業(yè)務(wù)部門決策者和技術(shù)專家。
聯(lián)想HPC為何能夠超出客戶性能預(yù)期3倍?
底層基礎(chǔ)研究是現(xiàn)代科學(xué)發(fā)展的根基所在,而數(shù)學(xué)被譽為自然科學(xué)之母。中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院成于1998年,作為中國數(shù)學(xué)和系統(tǒng)科學(xué)研究最頂尖的研究機(jī)構(gòu),下轄數(shù)學(xué)、應(yīng)用數(shù)學(xué)、系統(tǒng)科學(xué)、計算數(shù)學(xué)與科學(xué)工程計算四大研究所,以及9個國家重點實驗室和十余個研究中心,自成立以來成果豐碩、享譽全球。隨著科學(xué)技術(shù)高速發(fā)展,中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院對于用超算來進(jìn)行科研驗證和前沿探索,都抱有很高的期待,所以下定決心要翻新落伍的HPC系統(tǒng)。
但跟很多傳統(tǒng)院校和科研機(jī)構(gòu)一樣,中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院要更新HPC系統(tǒng),面臨著老機(jī)房面積局促、地板稱重有限、供電功率受限等現(xiàn)實因素的困擾,所以中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院向HPC供應(yīng)商提出了預(yù)期的目標(biāo):希望能夠提供的計算節(jié)點數(shù)超過350Tfopls,并且新HPC系統(tǒng)的整體功耗不超過220KW。
一般而言,HPC從立項、審批、招標(biāo),再到部署、驗收、投入使用,動輒要數(shù)個月甚至更長時間,而英特爾CPU處理器的更迭周期現(xiàn)在越來越短,這就讓很多HPC項目存在剛開始硬件建設(shè)就已經(jīng)落后的行業(yè)難題。
但聯(lián)想最終交付給中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院的HPC新系統(tǒng)卻打破了業(yè)界常規(guī),在符合預(yù)算的前提下,聯(lián)想為中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院改造的全新HPC系統(tǒng)峰值計算性能達(dá)到了1081 Tflops!
據(jù)聯(lián)想首席科學(xué)家祝明發(fā)介紹,聯(lián)想HPC之所以能實現(xiàn)客戶計算峰值預(yù)期三倍,主要是基于如下原因:
第一,聯(lián)想從項目規(guī)劃設(shè)計之初,就將英特爾處理器更新周期考慮在內(nèi),聯(lián)想與英特爾積極合作,為中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院在項目早期就提前測試了當(dāng)時未正式發(fā)布的新一代英特爾至強可擴(kuò)展處理器(Xeon SP,即開發(fā)代號為Skylake-SP的新處理器)及新一代Purley平臺,后者相比至強E5-2600 V4處理器顯著的性能提升,也為超出客戶預(yù)期3倍的計算峰值打下了堅實基礎(chǔ)。另外,在HPC系統(tǒng)中規(guī)格超前的100Gbps EDR InfiniBand網(wǎng)絡(luò),也為新HPC系統(tǒng)的性能提升提供了強力支持。
第二,因地制宜,針對老機(jī)房空間狹小、承重受限的客觀條件,聯(lián)想在拆除原有機(jī)房的HPC系統(tǒng)之后,重新設(shè)計了機(jī)房的空間布局、承重、空調(diào)和散熱制冷,同時,機(jī)柜采用專門的承重架專門加固,確保機(jī)房機(jī)柜的穩(wěn)定可靠安放——在重新設(shè)計機(jī)房之后,聯(lián)想為這一機(jī)房裝入了多出一倍的機(jī)柜數(shù)量:新機(jī)房放入了408個HPC計算節(jié)點,1個x3650 M5管理節(jié)點,1個x3650 M5數(shù)據(jù)導(dǎo)入節(jié)點,1個胖節(jié)點x3850 X6,5臺GPU節(jié)點,4個KNL計算節(jié)點,8個x3650 M5 大數(shù)據(jù)節(jié)點,15臺交換機(jī),1套360TB存儲系統(tǒng)以及LiCO管理平臺。更高的集成密度,也是性能超預(yù)期的一個重要因素。
第三,為了解決部署周期長,可能會帶來的性能落伍風(fēng)險,聯(lián)想在這個HPC項目中采用了HPC系統(tǒng)整機(jī)柜交付的方式,在工廠進(jìn)行服務(wù)器、存儲、網(wǎng)絡(luò)等設(shè)備的上架、預(yù)裝,直接將機(jī)柜推進(jìn)機(jī)房,節(jié)省了在機(jī)房內(nèi)開箱、上架服務(wù)器、存儲等設(shè)備的時間和空間。短周期也為性能領(lǐng)先提供了堅實的保證。
超算需求的多樣化,要求HPC也要與時俱進(jìn)
HPC之前被廣泛應(yīng)用于能源、氣象、醫(yī)療、航天等領(lǐng)域,但隨著人工智能、大數(shù)據(jù)時代的來臨,用戶對超算的需求也在變得越來越多樣性,很多用戶希望超算能夠在深度學(xué)習(xí)等領(lǐng)域中發(fā)揮更大的作用,以便于他們借助超算超強的計算力來做算法訓(xùn)練或者科研驗證。
面對客戶對超算越來越多樣和多變的需求,HPC廠商需要拿出切實可行的解決方案。在中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院新HPC項目中,聯(lián)想除了常規(guī)的計算節(jié)點之外,還在這套新HPC系統(tǒng)中增加了NVIDIA GPU、英特爾Xeon Phi在內(nèi)的異構(gòu)計算平臺,以及基于聯(lián)想LEAP的大數(shù)據(jù)分析測試平臺(8個x3650 M5 大數(shù)據(jù)節(jié)點)、LiCO集群調(diào)度和管理系統(tǒng)。
聯(lián)想HPC&AI資深架構(gòu)師郝常杰表示,當(dāng)有了透明機(jī)制的LiCO系統(tǒng)之后,科研用戶不需要在精通本專業(yè)之外,還要花大塊時間來研究如何使用異構(gòu)計算資源,LiCO平臺就像一個資源調(diào)配中心,你需要什么類型的計算資源,只需要向系統(tǒng)提出申請即可。以往科研用戶在用HPC做運算時,如果在預(yù)計時間內(nèi)沒能完成,科研人員時常要面臨是繼續(xù)無限期的等待,還是前功盡棄重新來過,但有了LiCO系統(tǒng)之后,科研人員能夠?qū)PC的進(jìn)程進(jìn)行更精細(xì)的監(jiān)控,哪個環(huán)節(jié)在運算時出了問題會一目了然,這大大提升了HPC的實際運行效率。
受到傳輸材料和芯片制造工藝限制,摩爾定律已經(jīng)逐步失效,所以HPC進(jìn)一步提升性能、降低功耗,需要更多的技術(shù)創(chuàng)新。在中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院新HPC項目初期,聯(lián)想提供的基于“飛虎”系統(tǒng)的HPC解決方案,可以將數(shù)據(jù)中心機(jī)房的PUE值降低至1.2左右,這遠(yuǎn)遠(yuǎn)低于當(dāng)前國內(nèi)數(shù)據(jù)中心普遍的PUE值2.0-2.2的水平。這種技術(shù)上的領(lǐng)先,是用戶之所以選擇和信任聯(lián)想HPC的根本原因之一。
中國從超算大國,正在走向超算強國
HPC要想物盡其用,硬件、軟件、應(yīng)用、生態(tài)必須形成有效的協(xié)同。中國以往在超算硬件上取得了長足進(jìn)步,銀河2A、神威天湖之光等HPC集群在全球TOP500上也先后奪冠。聯(lián)想為代表的中國超算力量,在世界HPC市場份額中也不斷攀升,聯(lián)想曾獲得過HPC廠商全球第二的殊榮。但與歐美等超算強國相比,中國在HPC應(yīng)用和生態(tài)層面還需要不斷補強,才能形成更強的綜合競爭力。
隨著大數(shù)據(jù)、人工智能等技術(shù)高速發(fā)展,人們希望超算能夠滿足更多樣和多變的計算需求,這也為中國超算彎道超車提供了寶貴的機(jī)遇。從中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院新HPC項目中,我們看到了聯(lián)想由超算硬件提供商,已經(jīng)逐步演進(jìn)為智能超算平臺提供者和智能超算生態(tài)建設(shè)者。
祝明發(fā)在采訪時表示,超算是一個基于信任的業(yè)務(wù),未來拼的是產(chǎn)品、技術(shù)和服務(wù)硬實力,靠打價格戰(zhàn)或者營銷術(shù)是無法長期在超算領(lǐng)域立足的。聯(lián)想希望能夠聯(lián)合更多中國超算力量,共建智能超算健康生態(tài),為中國各行各業(yè)的創(chuàng)新者,提供了綠色、經(jīng)濟(jì)、高效且快速發(fā)展的計算能力和超算服務(wù),讓中國從超算大國真正成為超算強國,讓超算成為中國創(chuàng)新和中國智造的技術(shù)基石。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。