聯(lián)想ISG陳振寬:萬(wàn)全異構(gòu)智算平臺(tái)具有五大技術(shù)創(chuàng)新

4月18日,第十屆聯(lián)想創(chuàng)新科技大會(huì)Tech World在上海舉行。聯(lián)想集團(tuán)副總裁、中國(guó)基礎(chǔ)設(shè)施業(yè)務(wù)群總經(jīng)理陳振寬表示,聯(lián)想基于最全面的AI基礎(chǔ)設(shè)施產(chǎn)品組合以及最豐富的AI行業(yè)解決方案,加速了全球客戶的智能化轉(zhuǎn)型,同時(shí)在這場(chǎng)非贏不可的比賽和角逐中將竭盡所能,為客戶提供縱橫智能化時(shí)代的萬(wàn)全之策。

image001.jpg

陳振寬稱,聯(lián)想是扎根于中國(guó)的高科技企業(yè),引領(lǐng)了一個(gè)又一個(gè)的中國(guó)IT技術(shù)發(fā)展浪潮。

在通用計(jì)算領(lǐng)域,聯(lián)想的X86服務(wù)器可靠性連續(xù)9年第一,實(shí)現(xiàn)463項(xiàng)性能世界記錄;在科學(xué)計(jì)算領(lǐng)域,聯(lián)想連續(xù)9年實(shí)現(xiàn)中國(guó)HPC TOP 100 NO.1,助力中國(guó)在科學(xué)計(jì)算、仿真、氣象等前沿領(lǐng)域的創(chuàng)新突破;在人工智能1.0時(shí)代,聯(lián)想基于中國(guó)特色需求設(shè)計(jì)了完整AI基礎(chǔ)設(shè)施組合,并實(shí)現(xiàn)165個(gè)行業(yè)驗(yàn)證落地的AI方案。

現(xiàn)如今,大模型的AI 2.0時(shí)代已經(jīng)邁著大步走來(lái)。隨著AI模型參數(shù)的指數(shù)級(jí)增加、邁入千億、萬(wàn)億級(jí)大關(guān),大模型具備了超強(qiáng)的泛化、生成能力,促使人工智能進(jìn)入更廣的應(yīng)用場(chǎng)景和更深的業(yè)務(wù)流程當(dāng)中,發(fā)揮更大的價(jià)值。

為解決用戶面對(duì)的挑戰(zhàn),聯(lián)想AI基礎(chǔ)設(shè)施聚焦三大領(lǐng)域。一是為用戶匹配經(jīng)過(guò)驗(yàn)證優(yōu)化的最佳算力,二是賦能用戶充分利用算力,提升計(jì)算效率。三是以先進(jìn)的液冷技術(shù)幫助用戶節(jié)能增效且突破芯片散熱的瓶頸。

同時(shí),陳振寬總結(jié)了聯(lián)想過(guò)去一年為AI應(yīng)用大潮創(chuàng)新的五大技術(shù),包括智能匹配AI算力的智算魔方,針對(duì)GPU,AI集群提效設(shè)計(jì)的先進(jìn)算法,以及跨AI和HPC集群充分共享算力的超級(jí)調(diào)度器。

算力匹配魔方:基于海量的硬件評(píng)測(cè)和AI算子算法集成工作, 聯(lián)想構(gòu)建了AI場(chǎng)景與算法與集群硬件三者匹配關(guān)系的算力魔方知識(shí)庫(kù)。立體魔方中的數(shù)千個(gè)交叉點(diǎn)中的每一個(gè),代表一種場(chǎng)景和與之最匹配的算法和集群配置。應(yīng)用算力匹配魔方,用戶可以跳過(guò)選擇驗(yàn)證數(shù)十種算法和近百種AI集群配置的復(fù)雜過(guò)程,只需輸入場(chǎng)景和數(shù)據(jù),算力魔方即可自動(dòng)加載最優(yōu)算法和調(diào)度最佳集群配置。

挖掘GPU潛力的GPU內(nèi)核態(tài)虛擬化技術(shù):在AI推理和中小訓(xùn)練中,AI子任務(wù)多以虛擬GPU承載,而在容器和調(diào)度層做GPU虛擬化和容器間數(shù)據(jù)隔離是目前業(yè)界較普遍的做法,這使得虛擬化和資源隔離的開(kāi)銷造成約20%的GPU算力損耗。聯(lián)想研究院與高校研究機(jī)構(gòu)多年合作開(kāi)發(fā)在GPU驅(qū)動(dòng)層進(jìn)行虛擬化和資源管理,新的算法可以將虛擬化造成的GPU損耗降至<5%,極致情況降至<1%,大幅提升GPU利用率。

聯(lián)想集合通信庫(kù):聯(lián)想在多年集群網(wǎng)絡(luò)設(shè)計(jì)中積累了豐富的對(duì)大規(guī)模集群網(wǎng)絡(luò)的拓?fù)鋬?yōu)化手段,同時(shí)聯(lián)想研究院與高校研究機(jī)構(gòu)合作建立了基于深層數(shù)學(xué)原理的集合通信優(yōu)化算法。在千卡規(guī)模訓(xùn)練集群,采用集成了聯(lián)想集合通信庫(kù)的聯(lián)想異構(gòu)智算平臺(tái)做管理調(diào)度,可提升網(wǎng)絡(luò)通信效率超過(guò)10%,集群規(guī)模越大,效果越顯著。

高效AI斷點(diǎn)續(xù)訓(xùn)技術(shù):AI訓(xùn)練故障頻發(fā)是常態(tài),因此有必要在訓(xùn)練前設(shè)置故障檢查點(diǎn)和備份,以備訓(xùn)練因故障中斷時(shí)能提取備份做到從斷點(diǎn)續(xù)訓(xùn)。聯(lián)想異構(gòu)智算平臺(tái)在常規(guī)以外,深化了對(duì)軟、硬件的全面監(jiān)控,優(yōu)化了多級(jí)存儲(chǔ)備份架構(gòu)和策略,更以多年積累的AI訓(xùn)練故障預(yù)測(cè)的AI模型來(lái)預(yù)測(cè)斷點(diǎn)和提前優(yōu)化備份,由此能將斷點(diǎn)續(xù)訓(xùn)恢復(fù)時(shí)間縮減到分鐘級(jí)。

聯(lián)想AI與HPC異構(gòu)集群超級(jí)調(diào)度技術(shù):HPC集群部分會(huì)用到GPU節(jié)點(diǎn),AI集群絕大部分用GPU節(jié)點(diǎn)。 同時(shí)擁有HPC集群和AI集群的用戶希望在不同集群間根據(jù)任務(wù)優(yōu)先級(jí)和資源狀況共享寶貴的GPU節(jié)點(diǎn)資源。聯(lián)想異構(gòu)智算平臺(tái)在AI和HPC調(diào)度之上架構(gòu)了超級(jí)調(diào)度器,全局自動(dòng)化管理不同類任務(wù)和調(diào)度異構(gòu)資源,實(shí)現(xiàn)了資源動(dòng)態(tài)共享。

以上這些就是聯(lián)想在AI基礎(chǔ)設(shè)施積累的三大能力和領(lǐng)先的五大技術(shù)創(chuàng)新,是聯(lián)想整合全球和本地研發(fā)智慧,潛心鉆研AI技術(shù)和應(yīng)用發(fā)展趨勢(shì),并深耕本地客戶特色需求的基礎(chǔ)上打造的。

大會(huì)上,陳振寬正式發(fā)布了“聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)”,它集合了聯(lián)想在AI 2.0時(shí)代的IT基礎(chǔ)設(shè)施技術(shù)主張。AI技術(shù)正在高速發(fā)展,聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)也將布局未來(lái),將挑戰(zhàn)分鐘內(nèi)的斷點(diǎn)續(xù)訓(xùn),持續(xù)優(yōu)化超大規(guī)模集群的通信算法,深入研究相變式液冷技術(shù),并布局模塊化液冷數(shù)據(jù)中心。這些技術(shù)將為中國(guó)用戶提供更加強(qiáng)大、穩(wěn)定、高效、綠色的智能算力。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2024-04-18
聯(lián)想ISG陳振寬:萬(wàn)全異構(gòu)智算平臺(tái)具有五大技術(shù)創(chuàng)新
4月18日,第十屆聯(lián)想創(chuàng)新科技大會(huì)Tech World在上海舉行。聯(lián)想集團(tuán)副總裁、中國(guó)基礎(chǔ)設(shè)施業(yè)務(wù)群總經(jīng)理陳振寬表示,聯(lián)想基于最全面的AI基礎(chǔ)設(shè)施產(chǎn)品組合以及最豐富的AI行業(yè)解決方案,加速了全球客戶的智能化轉(zhuǎn)型,同時(shí)在這場(chǎng)非贏不可的比賽和角逐中將竭盡所能,為客戶提供縱橫智能化時(shí)...

長(zhǎng)按掃碼 閱讀全文