人工智能(AI)的興起帶動市場對AI芯片的需求,NVIDIA的GPU真正借著這股“東風(fēng)”迅速成為AI市場的主流產(chǎn)品之一,其勢頭甚至蓋過了CPU。不過,GPU還不能算是真正的AI芯片,現(xiàn)在一大波新興的AI專用芯片正在路上,而IPU(智能處理器)在這之中相對比較成熟。目前,來自Graphcore的IPU芯片已真正量產(chǎn),應(yīng)用效果非常好,由此也被不少人看好。
專為機器智能設(shè)計
Graphcore是IPU的扛旗人。Graphcore是一家來自英國的明星初創(chuàng)公司,到目前為止,公司總共融資超過4.5億美金,其中包括一些非常知名的金融投資者、戰(zhàn)略投資者,比如,微軟、三星、博世、寶馬、戴爾等。IPU是一種專為機器智能設(shè)計的全新芯片類型,采用的是完全不同于CPU、GPU的全新處理器架構(gòu),專門適用于AI負載。
Graphcore高級副總裁兼中國區(qū)總經(jīng)理盧濤告訴記者,機器智能是一類全新的計算負載,有自己的特點。比如,AI算法通常涉及大規(guī)模的并行計算;數(shù)據(jù)結(jié)構(gòu)通常是非常稀疏的矩陣;和傳統(tǒng)的科學(xué)計算或者高性能計算(HPC)相比,智能計算普遍都是低精度計算。另外,AI應(yīng)用經(jīng)常會有數(shù)據(jù)參數(shù)復(fù)用、靜態(tài)圖結(jié)構(gòu)。由于這些特點的存在,使得傳統(tǒng)CPU、GPU在處理這類工作負載的效果并不理想,而IPU則有明顯優(yōu)勢。
Graphcore高級副總裁兼中國區(qū)總經(jīng)理盧濤
“CPU是面向應(yīng)用和網(wǎng)絡(luò)設(shè)計的處理器,是一個標(biāo)量處理器;GPU是面向圖形和高性能計算、以向量處理為核心的處理器。AI是一個全新的負載、是以計算圖作為表征,因此需要一種全新的處理器架構(gòu),而Graphcore開創(chuàng)的IPU就是針對計算圖的處理來設(shè)計的專用處理器?!北R濤說。
據(jù)盧濤介紹,Graphcore的IPU在架構(gòu)上做了大量創(chuàng)新。其中一大創(chuàng)新是,IPU內(nèi)核采用了大規(guī)模并行MIMD,有一個非常大的分布式片上SRAM,這個SRAM高達300 MB。因此,相比CPU+DDR2或者GPU+GDDR/HBM,IPU能夠?qū)崿F(xiàn)10到320倍的性能提升。
“近些年,芯片的計算能力提升很快,但內(nèi)存的性能提升卻相對緩慢。IPU的一個創(chuàng)新設(shè)計就是采用了大規(guī)模并行MIMD和龐大的分布式片上SRAM?!北R濤說。
Graphcore IPU的另一大架構(gòu)創(chuàng)新是采用了構(gòu)建大規(guī)模數(shù)據(jù)中心集群的BSP技術(shù)(Bulk Synchronous Parallel),這種技術(shù)目前在谷歌、Facebook、百度這樣的大規(guī)模數(shù)據(jù)中心都在使用。IPU也是目前世界上首款BSP處理器,通過硬件來支持BSP協(xié)議,并通過BSP協(xié)議把整個計算邏輯分為計算、同步、交換三方面。
據(jù)悉,Graphcore IPU已經(jīng)量產(chǎn)的GC2處理器擁有236億個晶體管的芯片,在120瓦的功耗下有125 TFlops的混合精度、1216個獨立的處理器核心(Tile),300 M的SRAM能夠把完整的計算模型放在片內(nèi)。另外,內(nèi)存的帶寬有45 TB/s、片上的交換是8 TB/s、片間的IPU-Links是2.5 TB/s。Graphcore IPU的這些硬件條件為其最后高性能地完成AI應(yīng)用奠定了非常強大的基礎(chǔ)。
一款全新架構(gòu)的處理器要想真正落地,配套的軟件自然必不可少,其中就包括編譯器、開發(fā)平臺以及其他相關(guān)的各種配套軟件和工具。對此,Graphcore推出了IPU配套的開發(fā)平臺——Poplar SDK。Poplar是架構(gòu)在機器學(xué)習(xí)的框架軟件(比如TensorFlow、ONNX、PyTorch和PaddlePaddle)和硬件之間的一個基于計算圖的工具和庫,目前提供750個高性能計算元素的50多種優(yōu)化功能,可以支持各種標(biāo)準(zhǔn)的機器學(xué)習(xí)框架,包括TensorFlow 1/2、ONNX和PyTorch,很快也會支持百度飛槳。在部署方面,Poplar目前可以支持容器化部署,能夠快速啟動并運行。今年5月,Graphcore還推出了一款名為PopVision Graph Analyser的分析工具。開發(fā)人員在使用IPU進行編程的時候,可以通過PopVision這個可視化的圖形展示工具來分析軟件的運行情況、調(diào)試效率。
優(yōu)勢初步展現(xiàn)
硬件架構(gòu)的創(chuàng)新加上配套軟件使得IPU在人工智能的應(yīng)用上表現(xiàn)優(yōu)異。比如,在BERT訓(xùn)練方面,采用NVLink-enabled的GPU平臺通常需要50多個小時才能達到一定精度,而IPU平臺只需36.3小時。在BERT推理方面,IPU目前在 BERT 上訓(xùn)練的時間能夠比 GPU 縮短 25%以上。
微軟的一位機器學(xué)習(xí)專家在5月27日舉行的Intelligent Health峰會上分享了如何使用IPU訓(xùn)練CXR(胸部X光射線樣片)。在微軟自己專門創(chuàng)新的SONIC CV 模型里,IPU只要30分鐘就能夠完成傳統(tǒng)的GPU需要5個小時才能完成訓(xùn)練的工作量。
盧濤介紹,目前基于IPU的應(yīng)用已經(jīng)覆蓋了機器學(xué)習(xí)的各個應(yīng)用領(lǐng)域,包括自然語言處理、圖像/視頻處理、時序分析、推薦/排名及概率模型,廣泛應(yīng)用于醫(yī)療、金融、制造以及5G等多個行業(yè),極大降低了開發(fā)者和用戶的決策與開發(fā)成本。
盧濤表示,目前中國企業(yè)使用IPU分為兩個渠道,其一是購買IPU服務(wù)器,戴爾已提供此類服務(wù)器;另一渠道是通過云服務(wù)商購買基于IPU的云服務(wù)。為了進一步配合IPU在中國的落地,Graphcore在中國已建立起兩支技術(shù)服務(wù)團隊——一支是以定制開發(fā)為主要任務(wù)的工程技術(shù)團隊,另一支是以客戶技術(shù)服務(wù)為主的現(xiàn)場應(yīng)用團隊。
“AI應(yīng)用需要專門的處理器,而IPU正是這樣的處理器。目前,AI在各行各業(yè)均得到廣泛應(yīng)用,IPU可以基于自身優(yōu)勢為世界的智能化進程增添不竭動力。”盧濤最后總結(jié)道。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )