123,123

6月23日消息，鯤云科技今天正式發(fā)布全球首款數(shù)據(jù)流AI芯片CAISA，該芯片定位于高性能AI推理，目前已完成量產(chǎn)。

據(jù)介紹，鯤云通過自主研發(fā)的數(shù)據(jù)流技術(shù)在芯片實測算力上實現(xiàn)了技術(shù)突破，較同類產(chǎn)品在芯片利用率上提升了10倍。第三方測試數(shù)據(jù)顯示僅用1/3的峰值算力，CAISA芯片可以實現(xiàn)英偉達同類產(chǎn)品最高3.91倍的實測性能。

鯤云科技成立于2016年，聚焦于基于數(shù)據(jù)流架構(gòu)的定制AI計算引擎，其自主研發(fā)的CAISA架構(gòu)已有近三十年技術(shù)積累。鯤云科技目前已經(jīng)完成了天使輪，A輪及A+輪融資，并在深圳、山東、倫敦研發(fā)中心。

現(xiàn)在，具體來看看這款數(shù)據(jù)流AI芯片CAISA的性能表現(xiàn)。

超高芯片利用率，定制數(shù)據(jù)流芯片架構(gòu)完成3.0升級

此次發(fā)布的CAISA芯片采用鯤云自研的定制數(shù)據(jù)流芯片架構(gòu)CAISA 3.0，相較于上一代芯片架構(gòu)，CAISA3.0在架構(gòu)效率和實測性能方面有了大幅的提升，并在算子支持上更加通用，支持絕大多數(shù)神經(jīng)網(wǎng)絡(luò)模型快速實現(xiàn)檢測、分類和語義分割部署。CAISA3.0在多引擎支持上提供了4倍更高的并行度選擇，架構(gòu)的可拓展性大大提高，在AI芯片內(nèi)，每一個CAISA都可以同時處理AI工作負載，進一步提升了CAISA架構(gòu)的性能，在峰值算力提升6倍的同時保持了高達95.4%的芯片利用率，實測性能線性提升。同時新一代CAISA架構(gòu)對編譯器RainBuilder的支持更加友好，軟硬件協(xié)作進一步優(yōu)化，在系統(tǒng)級別上為用戶提供更好的端到端性能。

CAISA3.0架構(gòu)圖

CAISA3.0架構(gòu)繼續(xù)保持在數(shù)據(jù)流技術(shù)路線的全球領(lǐng)先地位，指令集架構(gòu)采用馮諾依曼計算方式，通過指令執(zhí)行次序控制計算順序，并通過分離數(shù)據(jù)搬運與數(shù)據(jù)計算提供計算通用性。CAISA架構(gòu)依托數(shù)據(jù)流流動次序控制計算次序，采用計算流和數(shù)據(jù)流重疊運行方式消除空閑計算單元，并采用動態(tài)配置方式保證對于人工智能算法的通用支持，突破指令集技術(shù)對于芯片算力的限制。此次升級，CAISA架構(gòu)解決了數(shù)據(jù)流架構(gòu)作為人工智能計算平臺的三大核心挑戰(zhàn)：

高算力性價比：在保持計算正確前提下，通過不斷壓縮每個空閑時鐘推高芯片實測性能以接近芯片物理極限，讓芯片內(nèi)的每個時鐘、每個計算單元都在執(zhí)行有效計算；高架構(gòu)通用性：在保證每個算法在CAISA上運行能夠?qū)崿F(xiàn)高芯片利用率的同時，CAISA3.0架構(gòu)通用支持所有主流CNN算法；高軟件易用性：通過專為CAISA定制的編譯工具鏈實現(xiàn)算法端到端自動部署，用戶無需底層數(shù)據(jù)流架構(gòu)背景知識，簡單兩步即可實現(xiàn)算法遷移和部署，降低使用門檻。

具體來講，鯤云CAISA3.0架構(gòu)的三大技術(shù)突破主要通過以下的技術(shù)方式實現(xiàn)：

高算力性價比：時鐘級準確的計算

CAISA3.0架構(gòu)由數(shù)據(jù)流來驅(qū)動計算過程，無指令操作，可以實現(xiàn)時鐘級準確的計算，最大限度的減少硬件計算資源的空閑時間。CAISA3.0架構(gòu)通過數(shù)據(jù)計算與數(shù)據(jù)流動的重疊，壓縮計算資源的每一個空閑時鐘；通過算力資源的動態(tài)平衡，消除流水線的性能瓶頸；通過數(shù)據(jù)流的時空映射，最大化復(fù)用芯片內(nèi)的數(shù)據(jù)流帶寬，減少對外部存儲帶寬的需求。上述設(shè)計使CNN算法的計算數(shù)據(jù)在CAISA3.0內(nèi)可以實現(xiàn)不間斷的持續(xù)運算，最高可實現(xiàn)95.4%的芯片利用率，在同等峰值算力條件下，可獲得相對于GPU 3倍以上的實測算力，從而為用戶提供更高的算力性價比。

高架構(gòu)通用性：流水線動態(tài)重組

CAISA3.0架構(gòu)可以通過流水線動態(tài)重組實現(xiàn)對不同深度學(xué)習(xí)算法的高性能支持。通過CAISA架構(gòu)層的數(shù)據(jù)流引擎、全局數(shù)據(jù)流網(wǎng)、全局數(shù)據(jù)流緩存，以及數(shù)據(jù)流引擎內(nèi)部的人工智能算子模塊、局部數(shù)據(jù)流網(wǎng)、局部數(shù)據(jù)流緩存的分層設(shè)計，在數(shù)據(jù)流配置器控制下，CAISA架構(gòu)中的數(shù)據(jù)流連接關(guān)系和運行狀態(tài)都可以被自動化動態(tài)配置，從而生成面向不同AI算法的高性能定制化流水線。在保證高性能的前提下，支持用戶使用基于CAISA3.0架構(gòu)的計算平臺實現(xiàn)如目標檢測、分類及語義分割等廣泛的人工智能算法應(yīng)用。

高軟件易用性：算法端到端自動化部署

RainBuilder編譯工具鏈

專為CAISA3.0架構(gòu)配備的RainBuilder編譯工具鏈支持從算法到芯片的端到端自動化部署，用戶和開發(fā)者無需了解架構(gòu)的底層硬件配置，簡單兩步即可實現(xiàn)算法快速遷移和部署。RainBuilder編譯器可自動提取主流AI開發(fā)框架（TensorFlow，Caffe，Pytorch，ONNX等）中開發(fā)的深度學(xué)習(xí)算法的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)信息，并面向CAISA結(jié)構(gòu)進行優(yōu)化；工具鏈中的運行時（Runtime）和驅(qū)動（Driver）模塊負責(zé)硬件管理并為用戶提供標準的API接口，運行時可以基于精確的CAISA性能模型，實現(xiàn)算法向CAISA架構(gòu)的自動化映射，同時提供可以被高級語言直接調(diào)用的API接口；最底層的驅(qū)動可以實現(xiàn)對用戶透明的硬件控制。RainBuilder工具鏈使用簡單，部署方便，通用性強，可以讓用戶快速和低成本的部署和遷移已有算法到CAISA硬件平臺上。

首款量產(chǎn)數(shù)據(jù)流AI芯片，CAISA帶來AI芯片研發(fā)新方向

CAISA-定制數(shù)據(jù)流AI芯片

作為全球首款采用數(shù)據(jù)流技術(shù)的AI芯片，CAISA搭載了四個CAISA3.0引擎，具有超過1.6萬個MAC（乘累加）單元，峰值性能可達10.9TOPs。該芯片采用28nm工藝，通過PCIe3.0×4接口與主處理器通信，同時具有雙DDR通道，可為每個CAISA引擎提供超過340Gbps的帶寬。

CAISA芯片架構(gòu)圖

作為一款面向邊緣和云端推理的人工智能芯片，CAISA可實現(xiàn)最高95.4%的芯片利用率，為客戶提供更高的算力性價比。CAISA芯片具有良好的通用性，可支持所有常用AI算子，通過數(shù)據(jù)流網(wǎng)絡(luò)中算子的不同配置和組合，CAISA芯片可支持絕大多數(shù)的CNN算法。針對CAISA芯片，鯤云提供RainBuilder3.0工具鏈，可實現(xiàn)推理模型在芯片上的端到端部署，使軟件工程師可以方便的完成CAISA芯片在AI應(yīng)用系統(tǒng)中的集成。

鯤云科技發(fā)布數(shù)據(jù)流CAISA芯片

高算力性價比的AI計算平臺星空加速卡系列產(chǎn)品發(fā)布

發(fā)布會上，鯤云科技創(chuàng)始人和CEO牛昕宇還發(fā)布了基于CAISA芯片的星空系列邊緣和數(shù)據(jù)中心計算平臺，X3加速卡和X9加速卡，并公布了由人工智能產(chǎn)業(yè)技術(shù)聯(lián)盟（AIIA）測試的包括ResNet-50, YOLO v3等在內(nèi)的主流深度學(xué)習(xí)網(wǎng)絡(luò)的實測性能。

星空X3加速卡發(fā)布

星空X3加速卡是搭載單顆CAISA 芯片的數(shù)據(jù)流架構(gòu)深度學(xué)習(xí)推斷計算平臺，為工業(yè)級半高半長單槽規(guī)格的PCIe板卡。得益于其輕量化的規(guī)格特點，X3加速卡可以與不同類型的計算機設(shè)備進行適配，包括個人電腦、工業(yè)計算機、網(wǎng)絡(luò)視頻錄像機、工作站、服務(wù)器等，滿足邊緣和高性能場景中的AI計算需求。相較于英偉達邊緣端旗艦產(chǎn)品Xavier，X3可實現(xiàn)1.48-4.12倍的實測性能提升。

*模型參考：https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt

星空X9加速卡發(fā)布

星空X9加速卡為搭載4顆CAISA 芯片的深度學(xué)習(xí)推斷板卡，峰值性能43.6TOPS，主要滿足高性能場景下的AI計算需求。同英偉達旗艦產(chǎn)品T4相對，X9在ResNet-50,YOLOv3等模型上的芯片利用率提升2.84-11.64倍。在實測性能方面，X9在ResNet50可達5240FPS，與T4性能接近，在YOLO v3、UNetIndustrial等檢測分割網(wǎng)絡(luò)，實測性能相較T4有1.83-3.91倍性能提升。在達到最優(yōu)實測性能下，X9處理延時相比于T4降低1.83-32倍。實測性能以及處理延時的大幅領(lǐng)先，讓數(shù)據(jù)流架構(gòu)為AI芯片的發(fā)展提供了提升峰值性能之外的另一條技術(shù)路線。

*模型參考：https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt

鯤云科技通過CAISA數(shù)據(jù)流架構(gòu)提高芯片利用率，同樣的實測性能，對芯片峰值算力的要求可大幅降低3-10倍，從而降低芯片的制造成本，為客戶提供更高的算力性價比。目前星空X3加速卡已經(jīng)實現(xiàn)量產(chǎn)，星空X9加速卡將于今年8月推出市場。鯤云科技成為國內(nèi)首家在發(fā)布會現(xiàn)場披露Benchmark的AI芯片公司。

商業(yè)落地先行，鯤云加速卡實現(xiàn)多領(lǐng)域規(guī)模落地

作為技術(shù)驅(qū)動的AI芯片公司，鯤云科技自成立以來一直注重商業(yè)落地，目前鯤云科技已與多家行業(yè)巨頭達成戰(zhàn)略合作，成為英特爾全球旗艦FPGA合作伙伴，在技術(shù)培訓(xùn)、營銷推廣以及應(yīng)用部署等方面進行合作；與浪潮、戴爾達成戰(zhàn)略簽約，在AI計算加速方面開展深入合作；與山東產(chǎn)業(yè)技術(shù)研究院共建山東產(chǎn)研鯤云人工智能研究院，推進人工智能芯片及應(yīng)用技術(shù)的規(guī)模化落地。明星產(chǎn)品“星空”加速卡已在電力、教育、航空航天、智能制造、智慧城市等領(lǐng)域落地。自2016年成立至今，鯤云科技已經(jīng)完成了天使輪，Pre-A輪及A輪融資，設(shè)有深圳、山東、倫敦研發(fā)中心。2018年成立人工智能創(chuàng)新應(yīng)用研究院，定位于建立人工智能產(chǎn)業(yè)化技術(shù)平臺，支持人工智能最新技術(shù)在各垂直領(lǐng)域快速實際落地，啟動鯤云高校計劃，開展人工智能課程培訓(xùn)和科研合作。除與Intel合作進行人工智能課程培訓(xùn)外，鯤云人工智能應(yīng)用創(chuàng)新研究院已同帝國理工學(xué)院、哈爾濱工業(yè)大學(xué)、北京航空航天大學(xué)、天津大學(xué)、香港城市大學(xué)等成立聯(lián)合實驗室，在定制計算、AI芯片安全、工業(yè)智能等領(lǐng)域開展前沿研究合作。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）