登陸云邊端,AI芯片產(chǎn)業(yè)打響全線戰(zhàn)爭(zhēng)

對(duì)于AI行業(yè),算法、算力和數(shù)據(jù)是三大基礎(chǔ)要素。深度學(xué)習(xí)模型的不斷優(yōu)化帶來的算法的成熟應(yīng)用,5G網(wǎng)絡(luò)以及邊緣、終端的普及讓海量數(shù)據(jù)的獲取和傳輸變得唾手可得,而將算法和數(shù)據(jù)協(xié)調(diào)統(tǒng)一處理的算力資源就成為當(dāng)前AI發(fā)展的關(guān)鍵制約因素了。

算力的提升在于芯片的性能是否得到飛躍。由于深度學(xué)習(xí)算法對(duì)芯片性能有著極為苛刻的效率要求和超高的并行計(jì)算要求,傳統(tǒng)的通用CPU在AI計(jì)算當(dāng)中性價(jià)比極低。因此,適合于深度學(xué)習(xí)要求的海量并行計(jì)算和計(jì)算加速的AI芯片就成為當(dāng)前AI巨頭們角力的賽場(chǎng)。

廣義上來說,包括像GPU、FPGA以及 ASIC(專用芯片)這些提供AI算力的芯片都可以稱之為AI芯片。按照任務(wù)劃分,AI芯片可以分為訓(xùn)練芯片和推理芯片;按部署位置劃分,可以分為云端芯片、邊緣側(cè)和終端芯片。

其中,訓(xùn)練芯片對(duì)算力、精度和通用性要求較高,一般部署在云端,多采用“CPU+加速芯片”這類異構(gòu)計(jì)算模式;推理芯片更加注重綜合性能,更考慮算力耗能、延時(shí)、成本等因素,在云端和邊終端都可以部署。

云端AI芯片部署在公有云、私有云和混合云等大型數(shù)據(jù)中心,能滿足海量數(shù)據(jù)處理和大規(guī)模計(jì)算,可通過多處理器并行完成各類AI算法的計(jì)算和傳輸,具有通用性。邊終端AI芯片要求體積小、能耗少、性能略低,主要用于攝像頭、手機(jī)、邊緣服務(wù)器等終端設(shè)備中,滿足有限的AI能力。

從2016年谷歌TPU專用芯片大放異彩之后,AI芯片快速經(jīng)歷了2017年資本涌入、巨頭紛至沓來,2018年新玩家爭(zhēng)相入局、初露崢嶸,2019年至今,AI芯片進(jìn)入全面商用落地的激烈競(jìng)爭(zhēng)格局當(dāng)中。

按照Gartner數(shù)據(jù),伴隨著全球AI產(chǎn)業(yè)的快速增長(zhǎng),未來5年,AI芯片仍然會(huì)以每年50%的速度增長(zhǎng)。在過去的一年當(dāng)中,AI芯片在云端、邊緣側(cè)以及終端領(lǐng)域都取得了明顯進(jìn)展。

我們將通過梳理AI芯片在這三大細(xì)分市場(chǎng)的最新進(jìn)展,來進(jìn)入其行業(yè)縱深,找到AI芯片行業(yè)發(fā)展的最新動(dòng)向。

新勢(shì)力入局,云端AI芯片的搶灘爭(zhēng)奪戰(zhàn)

在云端的數(shù)據(jù)中心,無論是深度學(xué)習(xí)的算法訓(xùn)練還是推理服務(wù),都繞不開英偉達(dá)的GPU產(chǎn)品。AI算法訓(xùn)練的主要芯片配置是GPU+ASIC,全球主流的云端硬件平臺(tái)都在使用英偉達(dá)的GPU 進(jìn)行加速。而在推理服務(wù)上,主要還是采用CPU+GPU的方式進(jìn)行異構(gòu)計(jì)算,這得益于GPU強(qiáng)大的并行計(jì)算能力、通用性以及成熟的開發(fā)環(huán)境,但GPU的高能耗和昂貴成本,也成為眾多云廠商的心中隱痛。

相比之下,F(xiàn)PGA的低延遲、低功耗、可編程性優(yōu)勢(shì)和ASIC的特定優(yōu)化和執(zhí)行特定模型的效能優(yōu)勢(shì)就非常突出了。因此,我們看到越來越多的云廠商和芯片廠商開始嘗試CPU+FPGA或CPU+ASIC 這樣的異構(gòu)方式,推出更符合自身云端算力要求的AI芯片。

2019年4月,高通推出了面向數(shù)據(jù)中心推理計(jì)算的云端AI芯片Cloud AI 100,峰值性能超過350TOPS,與其他商用方案相比,每瓦特性能提升10倍。

而早先云服務(wù)巨頭亞馬遜也已推出了機(jī)器學(xué)習(xí)推理芯片AWS Inferentia,最高算力可以達(dá)到128 TOPS,在AI推理實(shí)例inf1可搭載16個(gè)Inferentia芯片,提供最高2000TOPS算力。

而在國(guó)內(nèi),阿里巴巴在去年9月推出自研架構(gòu)和算法的AI推理芯片含光800,主要用于和電商業(yè)務(wù)相關(guān)的云端視覺場(chǎng)景,在RESNET50基準(zhǔn)測(cè)試中獲得單芯片性能第一的成績(jī)。

華為則推出了全球最快的AI訓(xùn)練集群Atlas900,集成了數(shù)千顆昇騰910芯片,總算力可以輸出256-1024 PFLOPS@F16,相當(dāng)于50萬(wàn)臺(tái)PC計(jì)算能力的強(qiáng)勁算力。

去年底,騰訊投資的燧原科技推出面向云端數(shù)據(jù)中心的AI訓(xùn)練加速卡云燧T10,單卡單精度算力達(dá)到20TFLOPS,可以為大中小型數(shù)據(jù)中心提供了單節(jié)點(diǎn)、單機(jī)柜、集群三種模式。此外,像寒武紀(jì)、比特大陸也在去年從細(xì)分市場(chǎng)進(jìn)入云端AI芯片市場(chǎng),試圖搶占一定的云端AI芯片的市場(chǎng)份額。

Gartner數(shù)據(jù)顯示,全球AI服務(wù)器及AI芯片市場(chǎng)規(guī)模自2016年到2020年都將保持持續(xù)的高速增長(zhǎng),而全球云端AI芯片當(dāng)中GPU的市場(chǎng)份額卻呈現(xiàn)出持續(xù)下滑的趨勢(shì),預(yù)計(jì)到2022年云端訓(xùn)練GPU占比將降至60%,云端推理GPU占比更是只有30%。

這意味著云端AI芯片的專用芯片的市場(chǎng)規(guī)模將進(jìn)一步擴(kuò)大,新入局玩家們特別是云服務(wù)廠商的巨頭玩家們都會(huì)盡可能在自家的數(shù)據(jù)中心部署結(jié)合自身算法的AI芯片。

2020年,隨著高通、英特爾等芯片巨頭、AWS、阿里、華為等云廠商以及芯片初創(chuàng)公司產(chǎn)品的落地,云端AI芯片市場(chǎng)的競(jìng)爭(zhēng)將更趨激烈,未來將進(jìn)一步削弱英偉達(dá)的話語(yǔ)權(quán)。

從云端涌入的巨頭玩家,攪動(dòng)邊緣AI芯片新戰(zhàn)場(chǎng)

隨著5G、自動(dòng)駕駛、IoT等新技術(shù)普及和配套設(shè)備的海量涌現(xiàn),接下來將為邊緣側(cè)AI芯片提供更大的發(fā)揮空間。特別是5G網(wǎng)絡(luò)的普及將帶來邊緣側(cè)數(shù)據(jù)處理方式的變革,為邊緣側(cè)AI的工作負(fù)載提供了更多需求。

邊緣計(jì)算正在被視為AI的下一個(gè)重要戰(zhàn)場(chǎng),原有的在云端、終端都有所積累的廠商,都希望通過邊緣AI芯片的布局,完善云、邊緣、終端生態(tài),打造一體化的計(jì)算格局。

早在2018年,谷歌就發(fā)布了用于邊緣推理的微型AI加速芯片——Edge TPU,專為企業(yè)在IoT設(shè)備中的機(jī)器學(xué)習(xí)任務(wù)而設(shè)計(jì)。在去年3月,谷歌還推出了千元級(jí)搭載Edge TPU芯片的開發(fā)板,可以加速硬件設(shè)備上的模型推理。

(谷歌Edge TPU開發(fā)板)

似乎為回應(yīng)谷歌的這一挑戰(zhàn),英偉達(dá)發(fā)布了面向嵌入式物聯(lián)網(wǎng)的邊緣計(jì)算設(shè)備Jetson Nano,適用于入門級(jí)網(wǎng)絡(luò)硬盤錄像機(jī)、家用機(jī)器人以及具備全面分析功能的智能網(wǎng)關(guān)等應(yīng)用。而在去年11月,英偉達(dá)又發(fā)布了邊緣AI超級(jí)計(jì)算機(jī)Jetson Xavier NX,能夠在功耗10W的模式下提供最高14TOPS,在功耗15W模式下提供最高21 TOPS的性能,為更小尺寸、更低功耗的嵌入式邊緣計(jì)算設(shè)備提供了AI推理能力。

(英偉達(dá)Jetson Xavier NX)

同樣在去年底,寒武紀(jì)發(fā)布用于深度學(xué)習(xí)的SoC邊緣加速芯片思元220,采用臺(tái)積電16nm工藝,最大算力32TOPS,功耗控制在10W,支持Tensorflow、Caffe、mxnet以及pytorch等主流編程框架。根據(jù)其公布的數(shù)據(jù),參數(shù)性能可以比肩英偉達(dá)去年發(fā)布的 Jetson 系統(tǒng)級(jí)模塊——AGX Xavier 和Jetson Xavier NX。

在去年7月的百度AI開發(fā)者大會(huì),聯(lián)合三大運(yùn)營(yíng)商、中興、愛立信、英特爾等,發(fā)起百度AI邊緣計(jì)算行動(dòng)計(jì)劃,旨在利用AI推理、函數(shù)計(jì)算、大數(shù)據(jù)處理和產(chǎn)業(yè)模型訓(xùn)練,推動(dòng)AI場(chǎng)景在邊緣計(jì)算的算力支撐和平臺(tái)支持,加速百度AI應(yīng)用生態(tài)在5G、物聯(lián)網(wǎng)等新型場(chǎng)景下快速落地。

自動(dòng)駕駛這類專用邊緣場(chǎng)景上,AI芯片也出現(xiàn)加速勢(shì)頭。目前,由于自動(dòng)駕駛算法仍在快速更迭和進(jìn)化,大多自動(dòng)駕駛芯片使用 GPU+FPGA 的解決方案。最典型的產(chǎn)品如英偉達(dá)的DRIVE PX系列及后續(xù)的Xavier、Pegasus系列等。在去年 CES上,英偉達(dá)推出了全球首款商用L2+自動(dòng)駕駛系統(tǒng)NVIDIA DRIVE AutoPilot。DRIVE AutoPilot的核心就是Xavier系統(tǒng)級(jí)芯片,其處理器算力高達(dá)每秒30萬(wàn)億次。

英特爾雖然入局自動(dòng)駕駛芯片市場(chǎng)較晚,但通過一系列大筆收購(gòu),很快推出了完整的自動(dòng)駕駛云到端的算力方案,包括英特爾凌動(dòng)/至強(qiáng)+Mobileye EyeQ + Altera FPGA,其中,英特爾收購(gòu) Mobileye推出的 EyeQ5,可以支持 L4-L5 自動(dòng)駕駛,預(yù)計(jì)在今年量產(chǎn)。

而在國(guó)內(nèi),國(guó)內(nèi)初創(chuàng)企業(yè)如地平線、眼擎科技、寒武紀(jì)也都在積極參與。地平線去年正式宣布量產(chǎn)國(guó)內(nèi)首款車規(guī)級(jí)AI芯片“征程二代”,采用臺(tái)積電28nm工藝,可提供超過4TOPS的等效算力,典型功耗僅2瓦,延遲少于100毫秒,多任務(wù)模式下可以同時(shí)運(yùn)行超過60個(gè)分類任務(wù),每秒鐘識(shí)別目標(biāo)數(shù)超過2000個(gè),面向車聯(lián)網(wǎng)對(duì)強(qiáng)實(shí)時(shí)響應(yīng)的需求。

據(jù)預(yù)測(cè),從2018年到2022年全球邊緣計(jì)算相關(guān)市場(chǎng)規(guī)模的年復(fù)合增長(zhǎng)率將超過30%,到2022年,邊緣計(jì)算市場(chǎng)規(guī)模將超萬(wàn)億,與云計(jì)算市場(chǎng)規(guī)模不相上下。正因?yàn)檫吘売?jì)算如此巨大的市場(chǎng)前景,國(guó)內(nèi)外行業(yè)巨頭紛紛開始邊緣側(cè)AI芯片的布局。

對(duì)于殺入邊緣側(cè)的AI芯片巨頭而言,實(shí)現(xiàn)云-邊-端-網(wǎng)的多方協(xié)同,其中就必須要完成從云端到邊緣的端到端解決方案的布局。這一動(dòng)作客觀上也加劇了邊緣側(cè)AI芯片的競(jìng)爭(zhēng)態(tài)勢(shì),為AI初創(chuàng)企業(yè)帶來更多的生存壓力。

性能功耗比拼:終端AI芯片的無限戰(zhàn)爭(zhēng)

移動(dòng)端AI芯片市場(chǎng)目前主要是在智能手機(jī)上。為實(shí)現(xiàn)差異化競(jìng)爭(zhēng),各手機(jī)廠商都加入了AI功能的開發(fā),通過在手機(jī)SoC芯片中加入AI引擎,調(diào)配現(xiàn)有計(jì)算單元來實(shí)現(xiàn)AI計(jì)算,或者直接加入AI協(xié)處理器來實(shí)現(xiàn)AI功能的運(yùn)行。

智能手機(jī)作為一種多傳感器融合的綜合數(shù)據(jù)處理平臺(tái),要求AI芯片具備通用性,能夠處理多類型任務(wù)能力。而智能手機(jī)又受制于電池容量大小和電池能量密度限制,AI芯片在追求算力的同時(shí)對(duì)功耗有著嚴(yán)格的限制。

目前主流廠商都開發(fā)專用的ASIC芯片或者是使用功耗較低的DSP作為AI處理單元。

根據(jù)一份最新的手機(jī)AI芯片排名,高通驍龍865、蘋果A13和華為麒麟990分列前三。

排在第一名的高通驍龍865,采用了全新的第五代AI Engine,可以實(shí)現(xiàn)高達(dá)每秒15 TOPS的運(yùn)算,相比驍龍855提升了兩倍的運(yùn)算能力。通過AI異構(gòu)多核可編程架構(gòu)的設(shè)計(jì)思路,集成了傳感器中樞,利用多種不同引擎協(xié)同完成AI任務(wù),在精度和功耗之間取得平衡。

蘋果A13處理器,采用第二代7nm工藝,專為高性能和低功耗而量身定制,擁有85億個(gè)晶體管。其GPU為四核心設(shè)計(jì),速度提升20%,功耗降低40%,也就是在性能大幅提升的前提下續(xù)航并沒有降低。

華為去年推出的麒麟990 5G的NPU,采用雙大核+微核的方式,其大核負(fù)責(zé)性能,微核擁有超低功耗,其中微核在人臉檢測(cè)的應(yīng)用場(chǎng)景下,能耗比大核工作降低24倍。

根據(jù)信通院報(bào)告統(tǒng)計(jì),2017年全球手機(jī)AI芯片市場(chǎng)規(guī)模3.7億美元,占據(jù)全球AI芯片市場(chǎng)的9.5%。預(yù)計(jì)2022年將達(dá)到38億美元,年復(fù)合增長(zhǎng)率達(dá)到59%,未來五年有接近十倍的增長(zhǎng)。而目前能夠在智能手機(jī)Soc芯片中取得領(lǐng)先位置的仍然只有高通、蘋果、華為、三星等少數(shù)玩家,雄厚的資金實(shí)力和海量的銷售規(guī)模,使得每家都愿意拿出真金白銀來投入到新一代的AI芯片研發(fā)上面,在芯片的性能和功耗平衡上面實(shí)現(xiàn)碾壓和趕超。

洗牌已至?AI芯片之戰(zhàn)才剛剛開始

有媒體分析,根據(jù)行業(yè)發(fā)展規(guī)律,AI芯片在經(jīng)歷了短暫的資本狂歡和創(chuàng)業(yè)高峰之后,會(huì)在2020年之后,出現(xiàn)第一批出局者,開始行業(yè)的大洗牌。

這一結(jié)論自然具有一定的道理。由于AI芯片產(chǎn)業(yè)是一個(gè)高投入、長(zhǎng)周期,依靠量產(chǎn)規(guī)模優(yōu)勢(shì)才能艱難取勝的產(chǎn)業(yè)。同時(shí)由于AI技術(shù)發(fā)展迅猛,芯片的設(shè)計(jì)周期可能無法趕上算法的迭代周期,這很容易造成AI芯片從設(shè)計(jì)到落地,已經(jīng)無法趕上當(dāng)前的計(jì)算需求。

此外,在對(duì)成本和能耗極為敏感的移動(dòng)終端,還需要特別關(guān)注AI芯片的計(jì)算效能,達(dá)到低功耗、小體積、開發(fā)簡(jiǎn)易,這些都需要探索架構(gòu)上的創(chuàng)新。

實(shí)際上,2019年有不少商用的AI芯片,已經(jīng)開始面臨芯片難以落地的困境,原因多種多樣,比如芯片本身帶來的性能提升不夠有吸引力,芯片不適配應(yīng)用的需求,易用性不高,選擇的行業(yè)難以突破等等。

顯然,種種限制條件和不利因素會(huì)更有利于那些入局早、實(shí)力雄厚的芯片巨頭和互聯(lián)網(wǎng)巨頭,而對(duì)那些依靠融資存活的AI芯片初創(chuàng)企業(yè)們帶來巨大壓力。

但這并不意味著AI初創(chuàng)企業(yè)都會(huì)進(jìn)入被洗的哪一陣營(yíng)。除了少數(shù)巨頭把持的云端芯片市場(chǎng)、日趨頭部化的智能手機(jī)Soc芯片市場(chǎng),未來AI芯片還將在智能家居、智能安防、自動(dòng)駕駛等邊緣、終端上面有著巨大的市場(chǎng)空間,同時(shí)在醫(yī)療、教育、零售、交通等行業(yè)有著豐富的應(yīng)用場(chǎng)景。當(dāng)AI芯片的盤子足夠大的時(shí)候,多樣化生態(tài)仍然會(huì)保持一段時(shí)間。

當(dāng)前全球AI芯片產(chǎn)業(yè)仍然處于產(chǎn)業(yè)化的早期階段,最新推出的AI芯片主要還是集中在專用芯片領(lǐng)域,AI芯片初創(chuàng)企業(yè)仍然可以在ASIC上取得獨(dú)有的優(yōu)勢(shì)。例如在AI架構(gòu)上的探索上面,國(guó)內(nèi)的一些初創(chuàng)企業(yè)也已提出一些可以適用于多種算法需求、多種場(chǎng)景需求的全新架構(gòu)。可重構(gòu)架構(gòu)以及存算一體成為未來AI芯片實(shí)現(xiàn)性能突破的主要方向。

在未來,芯片的易用性、有效算力、能效比以及落地速度,都將成為影響AI芯片產(chǎn)品失敗與否的關(guān)鍵。在各個(gè)方面都持續(xù)做好迭代創(chuàng)新,才是考驗(yàn)所有這些AI芯片玩家們能否在始終在場(chǎng)不掉隊(duì)的關(guān)鍵因素。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2020-04-29
登陸云邊端,AI芯片產(chǎn)業(yè)打響全線戰(zhàn)爭(zhēng)
其中,訓(xùn)練芯片對(duì)算力、精度和通用性要求較高,一般部署在云端,多采用“CPU+加速芯片”這類異構(gòu)計(jì)算模式;推理芯片更加注重綜合性能,更考慮算力耗能、延時(shí)、成本等因素,在云端和邊終端都可以部署。

長(zhǎng)按掃碼 閱讀全文