6月23日消息,不是老套的CPU、GPU,AI應該需要一塊專屬芯片。這個想法讓全球更多創(chuàng)企看到挑戰(zhàn)巨頭的機會。
今年2月EE Times評選出“十大AI芯片創(chuàng)企”,其中來自英國的Graphcore憑借其為AI計算而生研發(fā)的IPU獲選。
英國半導體之父、Arm的聯(lián)合創(chuàng)始人Hermann更是對Graphcore給予高度評價,他曾表示:“在計算機歷史上只發(fā)生過三次革命,一次是70年代的CPU,第二次是90年代的GPU,而Graphcore就是第三次革命。”
資料顯示,Graphcore是一家英國AI芯片硬件設計初創(chuàng)公司,成立于2016年,總部位于英國布里斯托,Graphcore的主要業(yè)務是設計用于AI應用程序的處理器,為云服務等應用提供產品支持。
Graphcore的核心技術和產品是智能處理器(IPU)硬件和相應的 “Poplar” 軟件,該軟件專門針對AI應用程序所需要的密集型計算而設計,以及IPU系統(tǒng)解決方案。目前其IPU GC2處理器已經(jīng)量產。
截至目前,Graphcore已經(jīng)獲得超過4.5億美元的融資,戰(zhàn)略投資者不乏寶馬、博世、戴爾、微軟、三星等各行業(yè)巨頭。Graphcore最近的一輪融資在今年2月完成,公司估值已達19.5億美元。
去年,這家AI芯片創(chuàng)企Graphcore將業(yè)務拓展至中國,我們也得以近距離了解這家企業(yè)的產品和中國市場愿景。
IPU為AI而生16納米GC2處理器已量產
今年5月27日,在英國Intelligent Health峰會上,微軟機器學習科學家分享了使用IPU訓練CXR模型的卓越性能:IPU在運行微軟COVID-19影像分析算法模型時能夠在30分鐘內完成訓練,而在NVIDIA GPU上這項工作需花費5個小時。
Graphcore高級副總裁兼中國區(qū)總經(jīng)理盧濤
Graphcore IPU一戰(zhàn)成名。
Graphcore高級副總裁兼中國區(qū)總經(jīng)理盧濤介紹,之所以IPU能有如此優(yōu)異的表現(xiàn),是因為 “Graphcore的IPU是為機器智能專門設計的、完全不同的處理器架構,跟CPU、GPU等處理器架構非常不一樣”。
盧濤表示,CPU是針對應用和網(wǎng)絡進行設計的處理器,是標量處理器。GPU是針對圖形和高性能計算、以向量處理為核心的處理器,而Graphcore IPU是針對計算圖的處理來設計的處理器。
具體而言,“IPU應用了大規(guī)模并行MIMD的處理器核。另外進行了非常大的分布式片上SRAM,在片內IPU能做到300 MB的SRAM。相對CPU的DDR2子系統(tǒng)或GPU的GDDR、HBM來說,IPU能做到10到320倍的性能提升。從時延的角度看,與訪問外存相比,IPU時延基本為1%,可以忽略不計。” 盧濤透露。
以Graphcore已經(jīng)量產的IPU GC2處理器為例,盧濤介紹道:“這款產品采用TSMC 16納米工藝,是擁有236億個晶體管的芯片處理器。它在120瓦的功耗下能夠達到125TFlops的混合精度,內存帶寬為45TB/s、片上交換可達45TB/s、片間IPU-Links為2.5TB/s。GC2上有1216個獨立處理器核心(Tile),其300MSRAM能夠把完整的模型放在片內。”
據(jù)悉,Graphcore采用構建大規(guī)模數(shù)據(jù)中心集群的BSP(Bulk Synchronous Parallel)技術,該技術目前在谷歌、Facebook、百度這樣的大規(guī)模數(shù)據(jù)中心都已獲得應用。
盧濤強調:“IPU是目前全球第一款BSP處理器,通過硬件能支持BSP協(xié)議,并通過BSP協(xié)議把整個計算邏輯分為計算、同步、交換。對軟件工程師或開發(fā)者來說,這將非常易于編程;而用戶也無需糾結于這里面是1216個核心(Tile)還是7000多個線程、任務具體在哪個核上執(zhí)行,因此這是一項非常用戶友好型的創(chuàng)新。”
與IPU相輔助的是Poplar軟件,該軟件專門針對AI應用程序所需的密集型計算而設計。盧濤透露:“目前Poplar已提供750個高性能計算元素的50多種優(yōu)化功能,支持標準機器學習框架,如TensorFlow、ONNX和PyTorch,很快也會支持百度飛槳。在部署方面,目前Poplar可以支持容器化部署,能夠快速啟動并運行。在標準生態(tài)方面,Poplar能夠支持Docker、Kubernetes,以及Hyper-v等虛擬化技術和安全技術。在操作系統(tǒng)方面,目前Poplar SDK支持最主要的三個Linux發(fā)行版:ubuntu、RedHat Enterprise Linux、CentOS。”
IPU服務AI優(yōu)勢凸顯比GPU效率大幅提升
目前基于IPU的應用已覆蓋到包括自然語言處理、圖像/視頻處理、時序分析、推薦/排名及概率模型在內的多個機器學習應用領域。
Graphcore中國銷售總監(jiān)朱江
“在自然語言處理、計算機視覺類應用和概率類算法中,IPU的表現(xiàn)在現(xiàn)有以及下一代模型上,性能均領先于GPU。”Graphcore中國銷售總監(jiān)朱江介紹, “在自然語言處理方面,IPU速度能夠提升20%至50%;在圖像分類方面,IPU能夠達到6倍的吞吐量和更低時延;在MCMC算法方面,IPU具有26倍的性能提升;在ResNeXt這類比較新的計算機視覺類應用方面,IPU能做到6倍的吞吐量、22分之1的時延。”
朱江以BERT模型為例進行了對比。BERT訓練在NVLink-enabled的平臺上,大概50多個小時才能做到一定精度,而在基于IPU的戴爾DSS-8440服務器上,只需要36.3小時,相當于訓練時間縮短了25%。
如果做一個分組卷積內核的micro-benchmark,將組維度(group dimension)分成從1到512來比較。這里組維度512就是應用得較多的 “Dense卷積網(wǎng)絡” ,典型的應用如ResNet。此時IPU GC2性能比V100要好近一倍。
隨著稠密程度降低、稀疏化程度增加,在組維度為1或32時,針對EfficientNet或MobileNet,IPU對比GPU展現(xiàn)出巨大的優(yōu)勢,可以達到成倍的性能提升,同時時延大大降低。
據(jù)朱江介紹,Graphcore IPU現(xiàn)已廣泛應用于金融、醫(yī)療、電信、搜索引擎等諸多垂直領域,并在這些領域表現(xiàn)出顯著優(yōu)勢。
除了前面提到的IPU在運行微軟COVID-19影像分析算法模型時的優(yōu)異表現(xiàn)外,在金融領域,包括算法交易、投資管理、風險管理及詐騙識別等方面,IPU可以使MCMC采樣速度提高26倍,強化學習的訓練時間縮短至1/13。
電信領域,LSTM模型預測性能促進網(wǎng)絡規(guī)劃,基于時間序列分析,采用IPU比GPU有260倍以上的提升。
朱江總結道:“IPU是一個全新的架構設計、是一個圖形處理器,具備多指令、多數(shù)據(jù)的特點。除了稠密的數(shù)據(jù)之外,現(xiàn)在代表整個AI發(fā)展方向的大規(guī)模稀疏化數(shù)據(jù),在IPU上處理就會有非常明顯的優(yōu)勢。”
進入中國已與百度阿里合作7納米IPU新品今年發(fā)布
現(xiàn)在Graphcore攜其IPU登陸中國市場,以期在中國市場大展拳腳。
目前,如果用戶想訪問IPU系統(tǒng),可以通過購買戴爾服務器或微軟云來訪問IPU資源。在中國,Graphcore和金山云合作,即將上線針對中國開發(fā)者和創(chuàng)新者的云業(yè)務。
盧濤透露,今年5月12日,在OCP Global Summit上,阿里巴巴宣布Graphcore支持ODLA的接口標準。隨后5月20日,在百度Wave Summit 2020上,百度宣布Graphcore成為飛槳硬件生態(tài)圈的創(chuàng)始成員之一。Graphcore希望通過這樣的方式來積極融入中國的AI生態(tài)圈。
在談到中美AI市場的差異時,盧濤向TechWeb表示:“目前,美國在IPU的落地與推進速度方面比中國要更快一些,不過現(xiàn)在中國的推進速度也愈發(fā)快速。這是因為美國用戶更多來自于較為活躍的研究者社區(qū),而中國用戶非常注重產品落地。國外的AI應用更加側重研究,而中國更加看重產品化的訓練和產品化的推理,更加側重AI如何解決應用問題。”
為了適應這一市場差異,盧濤介紹:“長期來講,Graphcore會針對中國市場的需求,進行產品的定制化。從服務角度而言,Graphcore中國目前有兩支技術團隊——一支是以定制開發(fā)為主要任務的工程技術團隊,另一支是以對用戶技術服務為主的現(xiàn)場應用團隊。工程技術團隊承擔兩方面工作,一是根據(jù)中國本地的AI應用特點和需求,將AI的算法模型在IPU上實現(xiàn)落地;二是根據(jù)中國本地用戶對AI穩(wěn)定性學習框架平臺軟件的需求,進行功能性的開發(fā)加強工作?,F(xiàn)場應用團隊則是幫助客戶完成現(xiàn)場的技術支持工作。”
盧濤說:“我們對中國市場的期望非常高,期望中國市場能夠占到Graphcore全球市場的40%甚至50%。雖然Graphcore在中國市場的整體啟動比北美要晚一年左右,但從目前進展來看,我們發(fā)展得非常不錯。”
另據(jù)盧濤透露,Graphcore下一代7納米處理器將于今年下半年正式發(fā)布,相信新產品會有卓越表現(xiàn)。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 特斯拉CEO馬斯克身家暴漲,穩(wěn)居全球首富寶座
- 阿里巴巴擬發(fā)行 26.5 億美元和 170 億人民幣債券
- 騰訊音樂Q3持續(xù)穩(wěn)健增長:總收入70.2億元,付費用戶數(shù)1.19億
- 蘋果Q4營收949億美元同比增6%,在華營收微降
- 三星電子Q3營收79萬億韓元,營業(yè)利潤受一次性成本影響下滑
- 賽力斯已向華為支付23億,購買引望10%股權
- 格力電器三季度營收同比降超15%,凈利潤逆勢增長
- 合合信息2024年前三季度業(yè)績穩(wěn)?。籂I收增長超21%,凈利潤增長超11%
- 臺積電四季度營收有望再攀高峰,預計超260億美元刷新紀錄
- 韓國三星電子決定退出LED業(yè)務,市值蒸發(fā)超4600億元
免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。