AI驅(qū)動計算架構向ASIC演進 嘉楠科技發(fā)布二代AI芯片勘智K510

自2016年起,AI算法的突破深刻影響了計算架構的演進。面對計算密集型場景,通用處理器的計算效率已無法跟上算法迭代速度,取而代之的則是異構計算體系。尤其在推理場景中,ASIC憑借最高的計算效率拔得頭籌,正成為邊緣AI場景中計算架構的領頭羊。

作為一家ASIC芯片設計公司,嘉楠科技已從事5年邊緣AI芯片研發(fā)。本屆世界人工智能大會,嘉楠科技首次發(fā)布勘智AI系列的新款芯片勘智K510,其中加入了自主研發(fā)的神經(jīng)網(wǎng)絡引擎GNNE,提升3倍算力,目標場景為智能家居、車載后裝、智慧零售和智能社區(qū)等。

AI驅(qū)動計算架構向ASIC演進 嘉楠科技發(fā)布二代AI芯片勘智K510

AI驅(qū)動的算力演進:從通用到專用

過去5年中,算力演進的主要方向集中于服務器端,結合傳統(tǒng)處理器與圖形計算引擎,英偉達率先發(fā)現(xiàn)了大規(guī)模并行計算的方法,使算法訓練的效率獲得數(shù)量級提升。

AI算法訓練需要進行大量矩陣乘加運算。面對這一應用場景,傳統(tǒng)的處理器CPU處理能力顯得捉襟見肘,其原因在于CPU的設計針對串行程序進行了大量優(yōu)化,用來處理預測分支、亂序執(zhí)行和多級流水等復雜的控制邏輯。因此CPU中很大一部分硅面積為存儲和控制單元,負責邏輯運算的ALU只占據(jù)很少一部分。

與之相反,GPU核心中大部分是邏輯運算單元,擁有大量并行處理數(shù)據(jù)的能力。如果在TensorFlow中分別用CPU和GPU進行矩陣乘運算,GPU的效率可以達到CPU的千倍以上,這也由此拉開了AI領域異構計算的序幕。

異構計算的另一個分支是FPGA。對終端和軟件應用公司而言,GPU的架構是固定的,其支持的硬件原生指令也是固定的,無法根據(jù)實際的場景進行調(diào)整。FPGA的可編程性能對此做了很好的彌補,多數(shù)公司都用它來做前期算法的驗證。

從GPU和FPGA這兩個例子可以看出,AI算法模型一直在驅(qū)動計算架構的演進。GPU彌補了傳統(tǒng)處理器的算力短板,而根據(jù)不同算法調(diào)整硬件資源又催生了FPGA。從長期而言,隨著AI算法趨于成熟,計算架構將從FPGA過渡到ASIC,即專用計算。谷歌的TPU已經(jīng)證明了ASIC架構的巨大潛力。在使用TPU之前,AlphaGo曾內(nèi)置1202個CPU和176個GPU,而2015年AlphaGo部署的TPU僅有48個。

算力的部署:從云端走向邊緣

ASIC芯片計算效率最高,適合于推理計算場景。區(qū)別于算法訓練,推理計算是根據(jù)成熟的模型對輸入數(shù)據(jù)給出精準的預測結果。而隨著算法模型逐漸趨同,彼此的差異局限于參數(shù)優(yōu)化,推理計算在AI場景中的地位正越來越高。與此同時,算力的部署逐漸從云端向邊緣遷移,邊緣智能迎來新的發(fā)展機遇。

AI的典型應用場景主要為訓練和推理。由于對數(shù)據(jù)的高吞吐,算法訓練通常部署在云端服務器進行,需要調(diào)用大量計算資源來實現(xiàn)參數(shù)的優(yōu)化。邊緣計算場景由于更加靠近應用現(xiàn)場,沒有數(shù)據(jù)中心的算力條件,對時延和設備的功耗都要求嚴苛。

在云邊協(xié)同的框架下,設備對原始數(shù)據(jù)的預處理,不僅能有效降低數(shù)據(jù)中心的載荷,以及數(shù)據(jù)傳輸?shù)膸挸杀?,也有利于客戶業(yè)務數(shù)據(jù)的脫敏??梢哉f,邊緣計算是一種更加敏捷和經(jīng)濟的計算方式。

隨著物聯(lián)網(wǎng)在終端市場展開,第二輪數(shù)據(jù)爆發(fā)周期已經(jīng)開始。據(jù)IoT Analytic調(diào)研,2020年全球AIoT設備連接數(shù)已經(jīng)超過非AIoT設備連接數(shù),云邊協(xié)同處理數(shù)據(jù)成為必然。另一方面,剪枝、知識蒸餾等算法的出現(xiàn),也在技術上為算法模型在設備端的部署提供可能。

物聯(lián)網(wǎng)市場尚處發(fā)展早期,雖然谷歌、英偉達等AI巨頭將其版圖延伸至邊緣計算領域,打造覆蓋云邊端的全棧布局,但尚未形成諸如云端訓練市場的壟斷態(tài)勢。在多元化的物聯(lián)網(wǎng)市場,國內(nèi)已涌現(xiàn)出一批以嘉楠科技為代表的邊緣AI芯片廠商。

嘉楠科技:專注邊緣AI芯片自主研發(fā)

嘉楠科技在過去8年中積累了大量ASIC芯片設計經(jīng)驗和知識產(chǎn)權,涵蓋算法開發(fā)和優(yōu)化,標準單元設計和優(yōu)化,低電壓和高能效操作,高性能設計系統(tǒng)和散熱等芯片設計底層共性技術領域。

AI驅(qū)動計算架構向ASIC演進 嘉楠科技發(fā)布二代AI芯片勘智K510

2016年,嘉楠科技正式成立AI芯片部門,啟動邊緣芯片研發(fā)項目——勘智AI。研發(fā)團隊在ISA選型、功耗和功能設計上都全面瞄準邊緣AI,并在一開始就確立了依托開源架構研發(fā)自主IP核的技術路線。歷經(jīng)兩年打磨,嘉楠科技研發(fā)業(yè)內(nèi)首款RISC-V架構商用邊緣AI芯片勘智K210,廣泛應用于智能抄表、智能門禁、AI STEAM等場景。

本次發(fā)布的K510則是勘智AI系列的新款AI芯片,其最大特點就在于團隊自主設計研發(fā)的IP核KPU2.0。結合動態(tài)3D PE陣列和GLB設計,KPU2.0獨創(chuàng)的計算數(shù)據(jù)流技術提升3倍算力。同時,芯片在硬件配置上大幅優(yōu)化視覺子系統(tǒng)能力,經(jīng)典算法mobilenetv1運行幀率提升12倍,多款視覺算法幀率業(yè)內(nèi)領先。

針對芯片的算力和功耗設計,K510的目標場景主要包括智能家居和高清航拍、視頻會議、機器人等領域。

嘉楠科技擁有完整的封裝、散熱和量產(chǎn)工藝團隊和豐富的大規(guī)模量產(chǎn)經(jīng)驗。截至2020年12月31日,嘉楠科技共完成了14次ASIC的流片,成功率均為 100%。同時,嘉楠科技與業(yè)內(nèi)多家巨頭晶圓廠均有合作關系,確保了穩(wěn)定的產(chǎn)能保障。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )