探析AI前沿技術(shù)加速應(yīng)用落地 展銳與行業(yè)共應(yīng)發(fā)展挑戰(zhàn)

9月16日消息 伴隨5G網(wǎng)絡(luò)在全球的大規(guī)模部署商用,人工智能(AI)等新興技術(shù)的落地開始呈現(xiàn)加速態(tài)勢。不過,從一個理論概念到真正商用實現(xiàn),AI還有許多問題需要解決。無論是數(shù)據(jù)模型計算的準(zhǔn)確性,還是配合AI應(yīng)用的硬件平臺性能發(fā)揮,仍都處于初期探索階段。

在展銳于9月16日舉辦的“UP 2021展銳線上生態(tài)峰會”——AI前沿技術(shù)與研究論壇上,包括展銳內(nèi)部技術(shù)專家、學(xué)術(shù)機(jī)構(gòu)科研專家以及產(chǎn)業(yè)領(lǐng)域的創(chuàng)新企業(yè)領(lǐng)導(dǎo)者在內(nèi)的多名嘉賓針對AI前沿技術(shù)發(fā)表和分享了其研究成果,從模型自適應(yīng)優(yōu)化到深度學(xué)習(xí),再到神經(jīng)網(wǎng)絡(luò)部署和AI訓(xùn)練平臺,精彩的內(nèi)容令我們對這些技術(shù)有了更深層次的了解和認(rèn)識。

展銳專家共話AI技術(shù) 從挑戰(zhàn)到實際應(yīng)用一個不落

在整個AI的應(yīng)用當(dāng)中,需要進(jìn)行高效的推擬,而高效的模型推理需要軟硬結(jié)合的結(jié)果。展銳瑪納斯技術(shù)實驗室主任陳靜煒在其演講中指出,如何開發(fā)出更加適合平臺的算法是當(dāng)今面臨的重要挑戰(zhàn)。

展銳瑪納斯技術(shù)實驗室主任陳靜煒

針對此,展銳提出了一種面向硬件自適應(yīng)的模型優(yōu)化模式。具體來說,就是以原始模型為基礎(chǔ),僅嘗試面向硬件的結(jié)構(gòu)微調(diào)和模型壓縮方案,復(fù)雜度相對較低;這種模式支持不同的優(yōu)化策略,可以按照選擇精度優(yōu)先和數(shù)字優(yōu)先方式進(jìn)行搜索;同時,這種模式良好的擴(kuò)展性和自由度,可以增加或減少備選的精度表示,并且也可以增加其他優(yōu)化方案;此外還可以通過知識蒸餾降低中間結(jié)果評估時間,以及通過在線Profiling評估中間結(jié)果的性能和瓶頸位置。

展銳技術(shù)專家田立

展銳技術(shù)專家田立則對神經(jīng)網(wǎng)絡(luò)部署的發(fā)展現(xiàn)狀進(jìn)行了介紹,他表示目前存在多種網(wǎng)絡(luò)模型訓(xùn)練框架,同時模型算子不斷發(fā)展更新,并且有著不同的量化方式,同時硬件平臺存在著多樣性,因為算法與硬件之間的差異,導(dǎo)致有些模型在硬件上部署的時候效率并不是很高。

在這方面,展銳提出了NNMRT的方案,利用異構(gòu)硬件加速器,通過離線工具鏈對NN網(wǎng)絡(luò)進(jìn)行編譯優(yōu)化,在線微運行時高效調(diào)度算子,提高AI算法部署到異構(gòu)平臺的性能。展銳團(tuán)隊通過集成有NPU和VDSP的T770平臺對這一模型進(jìn)行了驗證,編譯器通過把部分算子部署到NPU上,部分算子部署到VDSP上,以此提高了模型部署的效率。

具體到實際的AI應(yīng)用方面,展銳的另外三位專家分別從基于神經(jīng)網(wǎng)絡(luò)的全場景拍照技術(shù)、基于深度學(xué)習(xí)的多目標(biāo)檢測與跟蹤和基于深度學(xué)習(xí)的語音增強(qiáng)技術(shù)做了詳細(xì)介紹。

展銳多媒體技術(shù)專家劉千順指出,當(dāng)前智能手機(jī)拍照面臨的挑戰(zhàn)包括硬件配置受限、動態(tài)范圍差、環(huán)境照度低以及模糊和噪聲。為此,展銳開發(fā)了一套基于神經(jīng)網(wǎng)絡(luò)的全場景的解決方案,包括智能曝光、多幀降噪和動態(tài)范圍增強(qiáng)三大模塊。

展銳多媒體技術(shù)專家劉千順

以智能曝光模塊為例,其中包括運動模式判斷、曝光出幀策略和場景語義信息。該模塊會根據(jù)環(huán)境亮度、圖像直方圖統(tǒng)計、陀螺儀、加速度計以及人臉檢測結(jié)果,來綜合考慮,從而配置出最佳的方案。當(dāng)出幀之后,選定參考幀之后,會經(jīng)過場景語義分割模塊,生成天空、綠植、人像、建筑物等12類語義mask+膚色mask。通過三大模塊的結(jié)合,可以大大提升手機(jī)拍照成像的質(zhì)量。

同時,在已經(jīng)廣泛應(yīng)用于智能安防與監(jiān)控、無人駕駛、機(jī)器人、人機(jī)交互、以及視頻分析等領(lǐng)域的多目標(biāo)檢測與跟蹤的技術(shù)方面,展銳技術(shù)專家龐磊則介紹了展銳所采用的基于深度學(xué)習(xí)的多目標(biāo)檢測與跟蹤算法:展銳在權(quán)衡了性能與效率之間的關(guān)系后,選擇了JED框架作為其跟蹤框架,也就是說在同一個網(wǎng)絡(luò)中同時完成檢測和跟蹤。

展銳技術(shù)專家龐磊

同時,由于檢測性能對于多目標(biāo)跟蹤的性能是尤其關(guān)鍵的,展銳選擇了Anchor-based方法作為其檢測器框架,并且對網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)等做了一系列優(yōu)化來保證檢測性能。在好的檢測結(jié)果基礎(chǔ)上還需要更好地進(jìn)行數(shù)據(jù)之間的關(guān)聯(lián),在這方面展銳使用了運動信息結(jié)合外觀特征的形式,并且在外觀特征的網(wǎng)絡(luò)分支中加入了注意力模塊,從而強(qiáng)化外觀特征的學(xué)習(xí)。

此外,展銳多媒體技術(shù)專家董斐就基于深度學(xué)習(xí)的語音增強(qiáng)技術(shù)進(jìn)行了詳細(xì)介紹。董斐談到,智能終端常需要在多種使用場合進(jìn)行通話、音視頻會議、游戲語音,實際使用中大多數(shù)使用場合中都會受到噪聲、嘯叫、回聲等的干擾,導(dǎo)致語音受損,嚴(yán)重影響語音質(zhì)量。

展銳多媒體技術(shù)專家董斐

據(jù)介紹,以基于深度學(xué)習(xí)的方案為主,信號處理方案為輔,結(jié)合兩者所長,是當(dāng)前智能終端語音增強(qiáng)的最優(yōu)解決方案。紫光展銳的語音增強(qiáng)技術(shù)則包括上下行處理通路,具備回聲消除、噪音抑制、回聲抑制、EQ濾波器、自動增益、嘯叫抑制等功能。整個解決方案中最重要的是基于深度學(xué)習(xí)的算法模塊,其設(shè)計要滿足智能終端對語音增強(qiáng)算法的三項要求。除了抑制噪聲和嘯叫,深度學(xué)習(xí)在語音的其他技術(shù)方向的應(yīng)用也是未來的發(fā)展趨勢。

行業(yè)大咖解AI訓(xùn)練平臺與計算架構(gòu)難題

除了上述來自展銳自身的技術(shù)專家外,來自致力于為行業(yè)提供自動化、平臺化的AI開發(fā)服務(wù)的國內(nèi)AI領(lǐng)域初創(chuàng)企業(yè)共達(dá)地創(chuàng)新技術(shù)有限公司產(chǎn)品總監(jiān)劉榮杰,以及西安交通大學(xué)AI領(lǐng)域知名學(xué)者任鵬舉教授也分別就其所從事的研究進(jìn)行了主題分享。

共達(dá)地創(chuàng)新技術(shù)有限公司產(chǎn)品總監(jiān)劉榮杰

劉榮杰分析稱,目前AI實際落地的過程中仍存有許多障礙,核心問題包括人員不可控、成本不可控、調(diào)參不可控、精度不可控以及部署不可控。而AutoML技術(shù)可以解決這些痛點,但當(dāng)前的主流方案仍存在一些問題,首先是模型搜索效率低,難以應(yīng)用于工業(yè)規(guī)模的數(shù)據(jù)集,并且搜索過程不穩(wěn)定結(jié)果不可控,無法針對硬件芯片進(jìn)行定制。針對以上問題,共達(dá)地的核心AI團(tuán)隊做了大量工作,最終真正實現(xiàn)了可落地的AutoML自動化訓(xùn)練平臺。

據(jù)其介紹,這一AI自動化訓(xùn)練平臺的總體架構(gòu)和優(yōu)勢體現(xiàn)在:低門檻——整個AI模型開發(fā)流程自動化,從而降低了AI落地的門檻;性能高——通過可落地的前沿算法實現(xiàn)高精度模型的生成;一鍵到端——通過與主流芯片的深度支持,實現(xiàn)模型一鍵下發(fā)至終端簡化整體模型部署流程;定制無憂——每個模型都是根據(jù)場景定制化搜索生成最優(yōu)模型,不再需要人工設(shè)計高效低成本;高效低成本——一次訓(xùn)練即達(dá)最優(yōu),免去人類專家多次嘗試多次調(diào)整,效率提升80%以上,開發(fā)成本降低95%以上。

在此次論壇上,西安交通大學(xué)任鵬舉教授以《面向自主智能體的高效計算架構(gòu)思考》發(fā)表了演講。他表示,以智能邊緣,計算機(jī)視覺,自動控制等創(chuàng)新技術(shù)作為支撐的自主移動智能體,在以無人駕駛為代表的交通領(lǐng)域和以AGV為代表的物流領(lǐng)域?qū)袕V泛的應(yīng)用。不過,這些自主移動智能體在解放生產(chǎn)力的同時,對計算架構(gòu)也提出了新的設(shè)計要求。

西安交通大學(xué)任鵬舉教授

他認(rèn)為,面向自主智能體感知與協(xié)作的計算架構(gòu),應(yīng)滿足多種不同功能自主智能體及其應(yīng)用場景的信息處理需求。相比于市面上現(xiàn)有的計算架構(gòu): x86工控機(jī)、嵌入式GPU(NvidiaTX2)、ARM+FPGA等方案,具有更好的適應(yīng)能力、任務(wù)重構(gòu)能力、靈活性和升級能力。其主要特點體現(xiàn)在:LEGO式模塊級拼接融合的工作模式(即插即用);高通量的多傳感器實時信息融合處理(高通量、低延遲);數(shù)據(jù)流控制流相融合的高效處理方式(異構(gòu)計算);可擴(kuò)展的分布式智能體協(xié)同調(diào)度機(jī)制(高效協(xié)同)。

任鵬舉教授表示,其所在的課題組在今年4月份完成了一款多核AI芯片處理器——HIPU20的設(shè)計。該芯片采用28納米工藝,擁有13個計算核心,外加兩個DDR控制器和一個PCIe,構(gòu)成了4×4的2Dmesh的多核結(jié)構(gòu)。其團(tuán)隊將HIPU200芯片完成了在無人駕駛車的應(yīng)用驗證,經(jīng)過第三方權(quán)威測試機(jī)構(gòu)評測,搭載該芯片的計算卡可原位替換英偉達(dá)GPU顯卡,運行相同神經(jīng)網(wǎng)絡(luò)時,HiPU200的處理速度是RTX2080Ti GPGPU的7.7-35倍,能效比是其的15-30倍。算力優(yōu)于國際知名公司Mobileye的 EyeQ4芯片,與地平線征程5處理器相當(dāng)。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2021-09-16
探析AI前沿技術(shù)加速應(yīng)用落地 展銳與行業(yè)共應(yīng)發(fā)展挑戰(zhàn)
探析AI前沿技術(shù)加速應(yīng)用落地 展銳與行業(yè)共應(yīng)發(fā)展挑戰(zhàn),C114訊 9月16日消息 伴隨5G網(wǎng)絡(luò)在全球的大規(guī)模部署商用,人工智能(AI)等新興技術(shù)的落地開始

長按掃碼 閱讀全文