12月21日消息, 近期,AI基準測試MLPerf公布了最新一期的訓(xùn)練測試榜單,成為行業(yè)內(nèi)關(guān)注的焦點。
IPU提供商Graphcore此次向MLPerf提交了IPU-POD16、IPU-POD64、IPU-POD128和IPU-POD256四種系統(tǒng)配置進行訓(xùn)練測試,并獲得最新測試結(jié)果。在ResNet-50模型、自然語言處理(NLP)模型BERT的訓(xùn)練性能方面均有大幅提升。ResNet-50模型訓(xùn)練性能甚至超越NVIDIA DGX A100。
Graphcore專注于適用AI的IPU研發(fā),旗下?lián)碛蠭PU硬件和Poplar軟件兩項主要業(yè)務(wù),通過輸出“軟硬一體解決方案”來服務(wù)機器智能需求。企查查信息顯示,Graphcore自2016年成立以來已獲得超過7.1億美元投資。
和自己比:ResNet-50模型訓(xùn)練性能提升24% BERT模型訓(xùn)練性能提升5%
Graphcore提交給MLPerf的IPU-POD16、IPU-POD64、IPU-POD128和IPU-POD256系統(tǒng)均由不同數(shù)量的IPU-M2000、雙CPU服務(wù)器構(gòu)成。
IPU-POD16就是由4個1U的IPU-M2000構(gòu)成,配有一臺雙CPU服務(wù)器,可提供4 petaFLOPS的AI算力。
其中,IPU-M2000是一款即插即用的機器智能刀片式計算單元,由Graphcore的7納米Colossus第二代GC200 IPU提供動力,并由Poplar軟件棧提供支持。
今年7月,Graphcore曾首次向MLPerf提交了IPU-POD16、IPU-POD64的訓(xùn)練測試。這次Graphcore同樣有提交IPU-POD16、IPU-POD64進行測試,這兩項在硬件方面并未有變化。
最新測試結(jié)果顯示,與首次提交的MLPerf訓(xùn)練結(jié)果相比,對于ResNet-50模型,Graphcore這次在IPU-POD16上實現(xiàn)24%的性能提升,在IPU-POD64上實現(xiàn)了41%的性能提升;對于模型BERT來說,在IPU-POD16上實現(xiàn)了5%的性能提升,在IPU-POD64上實現(xiàn)了12%的性能提升。
Graphcore大中華區(qū)總裁兼全球首席營收官盧濤表示,這些性能提升是自Graphcore首次提交以來僅通過軟件優(yōu)化就實現(xiàn)的。MLPerf測試結(jié)果表明Graphcore的IPU系統(tǒng)更加強大、高效,軟件也更成熟。
Graphcore大中華區(qū)總裁兼全球首席營收官盧濤
和同行比:ResNet-50模型訓(xùn)練 IPU-POD16性能超NVIDIA DGX A100
最新的MLPerf測試結(jié)果還對比了Graphcore與NVIDIA的產(chǎn)品性能。
通常而言,ResNet-50模型主要用于計算機視覺領(lǐng)域,NVIDIA GPU在ResNet-50模型上的測試結(jié)果長期處于領(lǐng)先地位。
不過,最新的MLPerf測試結(jié)果顯示Graphcore的IPU-POD16在ResNet-50模型訓(xùn)練方面的表現(xiàn)優(yōu)于NVIDIA的DGX A100。在DGX A100上訓(xùn)練ResNet-50需要29.1分鐘,而IPU-POD16僅耗時28.3分鐘。
DGX A100是NVIDIA去年5月發(fā)布的旗艦產(chǎn)品,DGX A100使用兩顆AMD霄龍7742處理器,主打適用于所有AI工作負載。
對于Graphcore產(chǎn)品在ResNet-50模型測試上取得的成績,盧濤表示:“ResNet是一個2016年的模型,已經(jīng)在GPU上優(yōu)化了5年。我們通過兩次的MLPerf測試,就能夠在這個GPU最主流的模型上超過GPU,這是非常自豪的一件事。而且我們后面還有進一步的提升空間。”
值得注意的是,Graphcore這一次MLPerf測試跟上一次相比最大的不同是首次提交了IPU-POD128和IPU-POD256大規(guī)模系統(tǒng)集群的測試。IPU-POD128和IPU-POD256也取得了很好的成績。
從ResNet-50模型在不同機器集群上的訓(xùn)練性能來看,在IPU-POD16上的訓(xùn)練時間是28.33分鐘,隨著系統(tǒng)的增大,訓(xùn)練時間逐次遞減。在IPU-POD64上,只需要8.5分鐘;在IPU-POD128上訓(xùn)練的時間為5.67分鐘;在IPU-POD256上,為3.79分鐘。
對于NLP模型BERT,Graphcore在開放和封閉類別分別提交了IPU-POD16、IPU-POD64和IPU-POD128的結(jié)果,在新的IPU-POD128上的訓(xùn)練時間為5.78分鐘。
談及此次Graphcore提交系統(tǒng)測試性能整體都有提升的原因,盧濤向TechWeb表示,這一次提交了大規(guī)模集群,其背后是GCL(Graphcore Communication Library)通信庫的基本完備,能夠支撐搭建集群,這是Graphcore在產(chǎn)品和技術(shù)上邁進的重要一步。同時在產(chǎn)品細節(jié)上Graphcore團隊也做了很多優(yōu)化,如編譯器優(yōu)化、框架層面優(yōu)化、算法模型優(yōu)化、還有IPU跟CPU之間的通信優(yōu)化等等。
盧濤介紹,在MLPerf原始數(shù)據(jù)中,每家制造商系統(tǒng)相關(guān)的主機CPU數(shù)量都十分驚人,而Graphcore的主機CPU與IPU的比率始終是最低的。以BERT-Large模型為例,IPU-POD64只需要一個雙CPU的主機服務(wù)器。ResNet-50需要更多的主機處理器來支持圖像預(yù)處理,Graphcore為每個IPU-POD64指定了四個雙核服務(wù)器。1比8的比例仍然低于其他所有MLPerf參與者。能實現(xiàn)主機CPU與IPU的低比率是因為Graphcore的IPU僅使用主機服務(wù)器進行數(shù)據(jù)移動,無需主機服務(wù)器在運行時分派代碼。因此,IPU系統(tǒng)需要的主機服務(wù)器更少,從而實現(xiàn)了更靈活、更高效的橫向擴展系統(tǒng)。
在GPT2、ViT、EfficientNet等新模型上表現(xiàn)如何?
如果說ResNet-50、BERT等都是到2019年為止比較主流的模型。那么,近2年陸續(xù)涌現(xiàn)的GPT2、EfficientNet、ViT等新模型也越來越受到行業(yè)關(guān)注,比如,在AI領(lǐng)域,ViT已經(jīng)成為學(xué)界和工業(yè)界用Transformer來做計算機視覺的一個比較典型的算法模型。
盡管沒有在MLPerf中測試,Graphcore中國工程總負責(zé)人、AI算法科學(xué)家金琛展示了Graphcore產(chǎn)品在GPT2、EfficientNet、ViT等新模型中表現(xiàn)。
以EfficientNet-B4為例,在IPU-POD16上的訓(xùn)練需要20.7個小時,IPU-POD256則只需要1.8個小時,性能遠優(yōu)于DGX A100官方提供的數(shù)據(jù)。
Graphcore中國工程總負責(zé)人、AI算法科學(xué)家金琛
據(jù)介紹,目前Graphcore產(chǎn)品已經(jīng)在金融、保險、天氣預(yù)測、科學(xué)計算等領(lǐng)域落地,盧濤稱,在金融領(lǐng)域案例中,IPU能夠比GPU快10倍。在保險算法模型方面的案例中,IPU的應(yīng)用比GPU快5倍。天氣預(yù)測方面,在歐洲中期天氣預(yù)報中心的模型上,IPU比CPU快50倍、比GPU快5倍。
近期,國內(nèi)百度深度學(xué)習(xí)平臺飛槳發(fā)布了在Graphcore IPU上實現(xiàn)訓(xùn)練和推理全流程支持的開源代碼庫,百度飛槳的開發(fā)者可以在IPU上進行AI模型加速。國內(nèi)的開發(fā)者小伙伴們不妨試試看IPU的加速效果。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )