Think 2018背后:IBM占據(jù)人工智能訓(xùn)練的優(yōu)勢(shì)

本文重點(diǎn)介紹IBM上周在Think 2018大會(huì)上各種公告背后的機(jī)器學(xué)習(xí)(ML)工作,這方面的工作很快將進(jìn)一步加速Watson和PowerAI的訓(xùn)練性能。這恰巧突出了IBM與NVIDIA的合作伙伴關(guān)系,以及NVIDIA針對(duì)GPU的NVLink互連技術(shù)。

blob.png

去年,IBM曾有一篇論文提到了如何在不到一小時(shí)的時(shí)間內(nèi)、高達(dá)95%的擴(kuò)展效率以及75%的準(zhǔn)確率訓(xùn)練機(jī)器學(xué)習(xí)圖像分類模型,采用了和Facebook用于訓(xùn)練一樣的數(shù)據(jù)集。2017年上半年,IBM使用面向高性能計(jì)算系統(tǒng)的基于POWER8的64位Power System S822LC運(yùn)行了這一訓(xùn)練基準(zhǔn)測(cè)試。這些系統(tǒng)中的每一個(gè)都有采用4個(gè)NVIDIA Tesla P100 SXM2連接的GPU,并使用IBM的PowerAI軟件平臺(tái)和Distributed Deep Learning (DDL)。

IBM的新論文“Snap Machine Learning”描述了一種新的IBM機(jī)器學(xué)習(xí)庫,可以更有效地利用可用的網(wǎng)絡(luò)、內(nèi)存和異構(gòu)計(jì)算資源,進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練任務(wù),也是基于基于一個(gè)新的平臺(tái)——IBM Power Systems AC922服務(wù)器。IBM AC922通過NVIDIA最新的NVLINK 2.0接口,將4個(gè)SXM2連接的NVIDIA Tesla V100 GPU連接到雙POWER9處理器。

blob.png

IBM研究員兼IBM研究院加速認(rèn)知基礎(chǔ)架構(gòu)總監(jiān)Hillery Hunter談到了IBM為Snap Snap ML提高性能所做出的貢獻(xiàn):

- 更有效地將機(jī)器學(xué)習(xí)訓(xùn)練算法映射到大規(guī)模并行的GPU微架構(gòu)

- 更有效地從單一服務(wù)器機(jī)箱擴(kuò)展到一個(gè)服務(wù)器集群

- 通過最小化異構(gòu)處理節(jié)點(diǎn)(經(jīng)典處理器和GPU)與動(dòng)態(tài)內(nèi)存調(diào)度器之間的通信,來改進(jìn)內(nèi)存管理,該調(diào)度器可將數(shù)據(jù)從處理器推測(cè)性地移動(dòng)到GPU內(nèi)存(反之亦然)

- IBM集成了NVIDIA NVLink互連技術(shù),讓IBM POWER9能夠更快地與NVIDIA Tesla V100進(jìn)行通信,目前這已經(jīng)在IBM Power Systems AC922中支持了。

最終結(jié)果是,原來需要花費(fèi)數(shù)小時(shí)的訓(xùn)練任務(wù),現(xiàn)在在幾秒鐘內(nèi)就可以完成,而且不會(huì)降低準(zhǔn)確性。這是有可能實(shí)現(xiàn)的,因?yàn)镾nap可以更有效地分配和加速這些任務(wù)。Snap將加速多種邏輯和線性回歸分析,包括深度學(xué)習(xí)任務(wù)。

blob.png

IBM聲稱使用Criteo Labs在線廣告訓(xùn)練數(shù)據(jù)集的機(jī)器學(xué)習(xí)訓(xùn)練記錄比之前發(fā)布的記錄提高了46倍,訓(xùn)練準(zhǔn)確性沒有任何損失。之前的結(jié)果是在一年前發(fā)布的,但更重要的是,Google使用純處理器的云虛擬機(jī)(VM)實(shí)例就實(shí)現(xiàn)了該結(jié)果。Google可以輕松組裝60個(gè)工作虛擬機(jī)實(shí)例和29個(gè)參數(shù)虛擬機(jī)實(shí)例(總共89個(gè)云處理器實(shí)例)進(jìn)行訓(xùn)練。

然而,即使在一年前,Google的結(jié)果也是一個(gè)暴力擴(kuò)展處理器資源的示范,還有一個(gè)問題“為什么只用處理器周期進(jìn)行訓(xùn)練?”。在Google公布使用Criteo Labs訓(xùn)練數(shù)據(jù)集結(jié)果的時(shí)候,還沒有發(fā)出最初的TensorFlow處理單元(TPU)。也許這就是Google為什么不使用TPU來生成(當(dāng)時(shí))紀(jì)錄結(jié)果的原因。

一年后,IBM僅使用4臺(tái)Power System AC922服務(wù)器,每臺(tái)服務(wù)器包含2個(gè)POWER9處理器和4個(gè)NVIDIA Tesla V100 GPU,就擊敗了Google的紀(jì)錄。這個(gè)結(jié)果是將89個(gè)云虛擬機(jī)實(shí)例與安裝在4個(gè)服務(wù)器機(jī)箱(8個(gè)處理器和16個(gè)GPU)中的總計(jì)24個(gè)計(jì)算元件進(jìn)行比較,速度提高了46倍。

在關(guān)于Snap的論文中,IBM還將C9000服務(wù)器與基于英特爾處理器的主流服務(wù)器(使用Criteo Terabyte Click Log子集——前2億個(gè)訓(xùn)練樣例,一個(gè)合理大小的子集)進(jìn)行了直接比較。測(cè)試的系統(tǒng)是:

- 雙路Power System AC922服務(wù)器,采用的POWER9處理器通過NVLink 2.0連接至4個(gè)NVIDIA Tesla V100 GPU,但僅使用其中一個(gè)GPU進(jìn)行比較

- 采用英特爾至強(qiáng)Gold 6150處理器的雙路槽服務(wù)器,通過PCIe 3.0連至1個(gè)NVIDIA Tesla V100 GPU

IBM測(cè)量了通過NVLink 2.0連接的AC922系統(tǒng)有效帶寬為68.1GB/s,通過PCIe 3.0連接、基于英特爾處理器的系統(tǒng)有效帶寬為11.8GB / s。對(duì)于使用NVLink 2.0的AC922系統(tǒng)來說,這是一個(gè)5.8x處理器與GPU互連相比的優(yōu)勢(shì)。

Snap ML可管理處理器和GPU之間的數(shù)據(jù)移動(dòng)。由于使用NVLink的數(shù)據(jù)傳輸速度幾乎快了6倍,所以Snap可以將處理器和GPU之間的數(shù)據(jù)拷貝時(shí)間隱藏在處理器和GPU的數(shù)據(jù)處理時(shí)間之后。

結(jié)果是,使用Power Systems AC922服務(wù)器的實(shí)際測(cè)量訓(xùn)練時(shí)間加速了3.5倍多,每個(gè)系統(tǒng)只使用1個(gè)GPU。

數(shù)據(jù)移動(dòng)嚴(yán)重影響了機(jī)器學(xué)習(xí)的性能;測(cè)量跨NVLink的單個(gè)GPU的性能,與跨PCIe的單個(gè)GPU的性能之間的關(guān)系,應(yīng)該擴(kuò)展到對(duì)比使用這些連接的多個(gè)GPU。但是,此測(cè)試很好地表明,使用由NVLink連接的IBM POWER9處理器,相對(duì)4個(gè)或更多NVIDIA Tesla GPU集群仍應(yīng)具有可衡量的優(yōu)勢(shì)。該測(cè)試還強(qiáng)調(diào)了對(duì)標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)基準(zhǔn)測(cè)試的需求,該基準(zhǔn)測(cè)試能夠在使用真實(shí)應(yīng)用的服務(wù)器之間進(jìn)行直接比較。

訓(xùn)練時(shí)間提速3.5倍,這與整體基準(zhǔn)測(cè)試的性能領(lǐng)先同樣重要。

目前還沒有其他處理器制造商將NVIDIA NVLink互連技術(shù)直接集成到處理器套件中,所有競爭的服務(wù)器生態(tài)系統(tǒng)都依賴于PCIe互連。直接訪問NVLink和Snap ML軟件架構(gòu)都有助于加速訓(xùn)練。

在上周的Think 2018大會(huì),IBM和蘋果公司宣布推出了IBM Watson Services for Core ML。這讓蘋果與IBM近4年的合作伙伴關(guān)系邁向了一個(gè)新的階段,讓蘋果iOS軟件開發(fā)人員能夠使用IBM領(lǐng)先的人工智能和機(jī)器學(xué)習(xí)開發(fā)環(huán)境,以及云訓(xùn)練支持。雙方將IBM Watson擴(kuò)展到在蘋果非常成功的消費(fèi)設(shè)備生態(tài)系統(tǒng)上運(yùn)行機(jī)器學(xué)習(xí)推理任務(wù)。更快速地培訓(xùn)機(jī)器學(xué)習(xí)模型,意味著可以為邊緣設(shè)備(如基于iOS的智能手機(jī))的推測(cè)任務(wù)提供更新的模型。

Snap ML將在今年晚些時(shí)候作為IBM PowerAI技術(shù)預(yù)覽組合的一部分問上市。

機(jī)器學(xué)習(xí)的訓(xùn)練時(shí)間提高3.5倍,這與整體基準(zhǔn)測(cè)試的性能領(lǐng)先同樣重要。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2018-03-28
Think 2018背后:IBM占據(jù)人工智能訓(xùn)練的優(yōu)勢(shì)
本文重點(diǎn)介紹IBM上周在Think 2018大會(huì)上各種公告背后的機(jī)器學(xué)習(xí)(ML)工作,這方面的工作很快將進(jìn)一步加速Watson和PowerAI的訓(xùn)練性能。

長按掃碼 閱讀全文