傳統(tǒng)HPC擁抱大數(shù)據(jù)與人工智能?沒那么難也沒那么貴

原標題:傳統(tǒng)HPC擁抱大數(shù)據(jù)與人工智能?沒那么難也沒那么貴

人工智能、大數(shù)據(jù)時代的到來,給企業(yè)發(fā)展帶來新機遇的同時,也帶來了新的煩惱,不菲的投入讓不少企業(yè)只能望人工智能、大數(shù)據(jù)卻步。

擁抱人工智能的苦惱

下面是一個真實的企業(yè)場景:由于業(yè)務(wù)相關(guān),這家企業(yè)很早就建設(shè)了高性能計算集群,不過利用率一直也不算高。隨著人工智能、大數(shù)據(jù)時代的到來,這家企業(yè)想著如果能把原有的存量資源用起來,豈不是兩全其美,但當(dāng)真正想把這一設(shè)想落地的時候,發(fā)現(xiàn)挑戰(zhàn)還是挺多的。

這樣的苦惱相信不少企業(yè)都有,一邊是現(xiàn)存高性能計算集群大量閑置的計算、存儲資源,一邊是上馬人工智能、大數(shù)據(jù)等前沿項目,居高不下的成本。

這樣的矛盾有辦法解決嗎?

答案當(dāng)然是有的。英特爾高性能計算融合平臺就致力于用同一通用平臺,同時支持仿真和建模等傳統(tǒng)高性能計算應(yīng)用,以及人工智能與數(shù)據(jù)分析等新型應(yīng)用。目前,該平臺已經(jīng)有了不少落地實踐。

英特爾在其中究竟做了些什么?我們不妨先看看傳統(tǒng)的高性能計算集群建設(shè)模式和現(xiàn)在有什么不一樣?參見下圖。

如圖左,過去高性能計算集群建設(shè)是跟著應(yīng)用走,每上一個新項目,計算、存儲、網(wǎng)絡(luò)、資源管理器等軟硬件就建設(shè)一次。由此帶來的問題很多,數(shù)據(jù)孤島、資源利用率低……現(xiàn)在呢?如圖右,計算、存儲、網(wǎng)絡(luò)資源池化,統(tǒng)一資源管理器承載各種不同的應(yīng)用。

簡單類比,從圖左到圖右就是從傳統(tǒng)IT到云的轉(zhuǎn)變。從左到右需要做的工作也很清晰,三層:資源池化、資源管理器統(tǒng)一化、應(yīng)用優(yōu)化。一層一層展開:

資源層,打通

計算、存儲、網(wǎng)絡(luò),毫無疑問,難點在存儲,因為人工智能、大數(shù)據(jù)分析的核心其實是數(shù)據(jù)的存儲、調(diào)用。

為此,英特爾使用Alluxio進行存儲抽象化。Alluxio 是加州大學(xué)伯克利分校開發(fā)的一款開源軟件,可為各類存儲上的多個對象和文件存儲區(qū)中的數(shù)據(jù)創(chuàng)建單點訪問。

具體而言,Alluxio可將任意完全不同的數(shù)據(jù)存儲區(qū)集合作為可通過單一標準接口訪問的單一虛擬數(shù)據(jù)源提供給應(yīng)用。這樣,用戶就能在應(yīng)用和數(shù)據(jù)之間建立“任意對任意”的聯(lián)系,且無需考慮這些資源的物理位置或格式化方式。

換句話說,對于用戶來說,通過使用Alluxio,應(yīng)用無需進行復(fù)雜且耗時的配置,即可訪問現(xiàn)有數(shù)據(jù),省時省力。另外,從軟件開發(fā)的角度來看,也省去了很多代碼開發(fā)工作。

事實上,為了保證存儲的性能和效率,Alluxio做了很多針對性改進。

比如,爭奪緩存資源是分布式應(yīng)用最常見的挑戰(zhàn)之一,這會導(dǎo)致應(yīng)用必須從磁盤而非緩存訪問數(shù)據(jù),從而降低性能。而Alluxio可提供分布式共享緩存,通過支持應(yīng)用將共享訪問層中經(jīng)常訪問的數(shù)據(jù)緩存到系統(tǒng)內(nèi)存,來幫助克服性能缺陷。

很顯然,使用 Alluxio進行存儲抽象化相當(dāng)于另一種方式的存儲資源池化,能夠在盡可能利用現(xiàn)有資源的前提下,幫助企業(yè)過渡到一組較小的、為融合平臺提供服務(wù)的通用數(shù)據(jù)存儲區(qū)。

而在計算層面和網(wǎng)絡(luò)層面,業(yè)界已經(jīng)有很多成熟的解決方案,這里不一一而足。值得一提的是,為了促進高性能計算和人工智能的融合,英特爾在硬件研發(fā)方面也做了很多調(diào)整,基于全新英特爾技術(shù)創(chuàng)新,包括英特爾至強可擴展處理器、英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存等,用戶可以有力推進二者的融合。

比如,實測數(shù)據(jù)顯示,與三年機齡的系統(tǒng)相比,搭載第二代英特爾至強可擴展處理器的平臺在高性能計算CPU基準測試中的平均性能提高多達3.7倍。此外,與競爭處理器相比,在 LINPACK CPU基準測試中可將性能提升高達5.8倍。在人工智能推測方面,與競爭處理器相比,集成了英特爾深度學(xué)習(xí)加速的第二代英特爾至強可擴展處理器可使圖像分類推理性能提升高達25倍。

資源管理器層,統(tǒng)一

由于每種工作負載的資源管理器在設(shè)計之初并沒有考慮彼此之間的互操作性,所以沒有一體適用的方案,為此英特爾正在研究多種解決方案,以對客戶現(xiàn)有環(huán)境進行改造。這里介紹兩個方案。

一個是面向高性能計算批量調(diào)度程序的Magpie,架構(gòu)圖如下

Magpie是美國勞倫斯利物莫國家實驗室的一個開源項目, 目的就是在高性能計算環(huán)境中運行TensorFlow,英特爾深度參與其中。應(yīng)該說,為了更好的支持該方案,英特爾做了很多工作來確保各種工作負載擁有出色的性能和穩(wěn)定性。

最終的成果是,保證在同一平臺獨立運行Apache Spark的同時,仿真和建模工作負載照舊,二者互不干擾。另外,使用Horovod Magpie提交人工智能或數(shù)據(jù)分析工作負載的作業(yè),幾乎沒有額外開銷,且不會造成任何明顯的性能降級。

另一個方案是Univa Grid Engine和Resource Broker,架構(gòu)圖如下。

Univa Grid Engine是一個需要商業(yè)許可的資源管理器。不久前,該公司將Univa Universal Resource Broker開源,用于管理和優(yōu)化分布式應(yīng)用、服務(wù)與大數(shù)據(jù)框架,其可以抽象化處理分布式數(shù)據(jù)中心資源,從而創(chuàng)建一個跨物理服務(wù)器、虛擬機、混合云和容器運行的單一虛擬資源池。

除了傳統(tǒng)的仿真和建模,該方案允許用戶使用Univa Grid Engine擴展集群,從而支持Apache Spark和TensorFlow等工作負載。

從本質(zhì)上說,該方案是把Universal Resource Broker作為適配器,從而將各種工作負載與Univa Grid Engine 集成在一起,而Universal ResourceBroker允許任何與Apache Mesos兼容的軟件在UnivaGrid Engine上運行。

應(yīng)用層,優(yōu)化

英特爾深度參與人工智能、大數(shù)據(jù)的整個生態(tài)系統(tǒng)中,貢獻、優(yōu)化包括TensorFlow、MXNet 和Caffe等在內(nèi)的深度學(xué)習(xí)框架。

眾所周知,人工智能在今天的應(yīng)用已經(jīng)不局限于常見的圖像識別、語言翻譯、推薦引擎、生成式設(shè)計和生成式對抗網(wǎng)絡(luò),隨著技術(shù)的不斷下沉,欺詐檢測、地震關(guān)聯(lián)、安全、安保和預(yù)測性維護等場景與人工智能的關(guān)聯(lián)也越來越緊密。

針對這種情況,英特爾開發(fā)了面向深度神經(jīng)網(wǎng)絡(luò)的英特爾數(shù)學(xué)核心函數(shù)庫(英特爾MKL-DNN) 。通過為在英特爾架構(gòu)上運行訓(xùn)練和推理相關(guān)的資源密集型操作提供高度調(diào)優(yōu)的數(shù)學(xué)函數(shù),改進人工智能框架在硬件上的橫向擴展能力,優(yōu)化框架在高性能計算平臺的適用性。

另外,英特爾與谷歌建立了長期合作關(guān)系,共同優(yōu)化TensorFlow。基于英特爾處理器部署英特爾MKL-DNN,能夠給性能帶來數(shù)量級的提升。

特別值得一提的是,用戶只需要使用英特爾MKL-DNN的設(shè)置來構(gòu)建TensorFlow即可,無需進行任何軟件或配置更改即可利用這些優(yōu)化,十分簡便。而且,這些優(yōu)化還在不斷進行中。

此外,英特爾還參與了大量開源項目的優(yōu)化建設(shè)。比如,英特爾目前正在為ApacheSpark 開發(fā)功能,以便利用通過OpenFabrics接口提供消息傳遞的高性能結(jié)構(gòu)。

總結(jié)全文,人工智能、大數(shù)據(jù)……新技術(shù)催生新時代正在到來,未來很美好,但挑戰(zhàn)也不小,有各種各樣的,本文講的主要是如何利舊。從中不難看出,英特爾絕不只是一家處理器公司,在底層,在大家看不到的地方,英特爾做了非常多的工作。有這方面訴求的企業(yè)不妨去找英特爾去深入了解一下,擁抱人工智能、大數(shù)據(jù)沒那么難、沒那么貴。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-09-12
傳統(tǒng)HPC擁抱大數(shù)據(jù)與人工智能?沒那么難也沒那么貴
英特爾高性能計算融合平臺就致力于用同一通用平臺,同時支持仿真和建模等傳統(tǒng)高性能計算應(yīng)用,以及人工智能與數(shù)據(jù)分析等新型應(yīng)用。

長按掃碼 閱讀全文