工程師們?yōu)槿斯ぶ悄芷款i提供了聰明、及時的解決方案

[TechWeb]萊斯大學的研究人員展示了設計創(chuàng)新的以數據為中心的計算硬件的方法,以及將硬件與機器學習算法共同設計的方法,這兩種算法可以將能源效率提高兩個數量級。

機器學習是自動駕駛汽車和許多其他高科技應用背后的人工智能形式,它的進步開創(chuàng)了一個新的計算時代——以數據為中心的時代,并迫使工程師們重新思考75年來幾乎沒有受到挑戰(zhàn)的計算體系結構的各個方面。

電氣與計算機工程助理教授林英彥(音)說:“問題是,對于目前機器學習最先進的大規(guī)模深層神經網絡來說,整個系統(tǒng)運行所需的90%以上的電力消耗在存儲器和處理器之間的數據移動上。”。

Lin和合作者提出了兩種互補的方法來優(yōu)化以數據為中心的處理,這兩種方法都在6月3日的國際計算機體系結構研討會(ISCA)上進行了介紹,這是有關計算機體系結構新思想和研究的主要會議之一。

數據中心架構的驅動力與一個稱為馮·諾依曼瓶頸(von Neumann瓶頸)的問題有關,這是一個效率低下的問題,源于計算架構中的內存和處理分離,自1945年數學家約翰·馮·諾依曼發(fā)明數據中心架構以來,這一問題一直占據著至高無上的地位。通過將內存與程序和數據分離,von Neumann架構允許一臺計算機具有難以置信的多功能性;根據從內存中加載的存儲程序,計算機可以用來進行視頻通話、準備電子表格或模擬火星上的天氣。

但是將內存與處理分開也意味著即使簡單的操作(如加2加2)也需要計算機處理器多次訪問內存。深度神經網絡中的大量操作使這種記憶瓶頸變得更糟,深度神經網絡是通過“研究”大量先前示例來學習做出人性化決策的系統(tǒng)。網絡越大,它可以完成的任務就越困難,并且顯示的網絡示例越多,它的執(zhí)行效果就越好。深度神經網絡訓練可能需要專門的處理器庫,這些處理器需要全天候運行一周以上。基于智能網絡在智能手機上執(zhí)行任務可以在不到一個小時的時間內耗盡電池電量。

賴斯高效智能計算(EIC)實驗室主任林說:“人們普遍認為,對于機器學習時代的以數據為中心的算法,我們需要創(chuàng)新的以數據為中心的硬件架構,但機器學習的最佳硬件架構是什么?“

她說:“沒有一個答案是萬能的,因為不同的應用程序需要的機器學習算法在算法結構和復雜度方面可能有很大的不同,同時具有不同的任務精度和資源消耗,如能源成本、延遲和吞吐量折衷要求。許多研究人員正在進行這方面的研究,英特爾、IBM和谷歌等大公司都有自己的設計。”

在ISCA 2020上,Lin的小組做了一個報告,提供了及時的結果,這是她和她的學生為“內存處理”(PIM)開發(fā)的一個創(chuàng)新架構,是一種將處理引入內存陣列的非von Neumann方法。一個有前途的PIM平臺是“電阻隨機存取存儲器”(ReRAM),一種類似flash的非易失性存儲器。盡管已經提出了其他的ReRAM-PIM加速器架構,但林說,在10多個深度神經網絡模型上運行的實驗發(fā)現,適時的ReRAM-PIM加速器的能效提高了18倍,其計算密度是最具競爭力的最先進ReRAM-PIM加速器的30倍以上。

TIMELY是“時域、內存執(zhí)行、局部性”的縮寫,它通過消除頻繁訪問主內存以處理中間輸入和輸出以及本地內存和主內存之間的接口而導致效率低下的主要因素來實現其性能。

在主存儲器中,數據以數字方式存儲,但是當將其帶入本地存儲器以進行內存中處理時,必須將其轉換為模擬量。在以前的ReRAM PIM加速器中,結果值從模擬轉換為數字,然后發(fā)送回主存儲器。如果將它們從主存儲器調用到本地ReRAM以進行后續(xù)操作,則它們將再次轉換為模擬信號,依此類推。

通過使用本地存儲器中的模擬格式緩沖區(qū),及時避免了不必要的訪問主存儲器和接口數據轉換的開銷。這樣,TIMELY幾乎可以將所需的數據保留在本地存儲陣列中,從而大大提高了效率。

該小組在ISCA 2020上提出的第二個建議是SmartExchange,該設計結合了算法和加速器硬件創(chuàng)新以節(jié)省能源。

“訪問主存儲器(DRAM)的能量要比執(zhí)行計算多花費200倍,因此SmartExchange的關鍵思想是強制執(zhí)行算法中的結構,使我們可以將成本較高的內存換成成本更低的內存,成本計算。”

她舉例說:“例如,我們的算法有1000個參數。在傳統(tǒng)方法中,我們將所有1,000個存儲在DRAM中,并根據計算需要進行訪問。使用SmartExchange,我們搜索以找到這1,000個中的某些結構。然后,我們只需要存儲10個,因為如果我們知道它們之間的關系, 10和其余的990,我們可以計算990中的任何一個,而不必從DRAM調用它們“。

她說:“我們將這10個稱為‘基礎’子集,其想法是將它們存儲在靠近處理器的本地位置,以避免或大幅度減少為訪問DRAM而支付的費用”。

研究人員使用SmartExchange算法及其自定義的硬件加速器對七個基準深度神經網絡模型和三個基準數據集進行了實驗。他們發(fā)現,與最先進的深度神經網絡加速器相比,該組合將等待時間減少了多達19倍。[TechWeb]

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )

贊助商
2020-06-12
工程師們?yōu)槿斯ぶ悄芷款i提供了聰明、及時的解決方案
萊斯大學的研究人員展示了設計創(chuàng)新的以數據為中心的計算硬件的方法,以及將硬件與機器學習算法共同設計的方法,這兩種算法可以將能源效率提高兩個數量級。

長按掃碼 閱讀全文