123,123,123

高通AI Research通過全棧AI優(yōu)化，在邊緣終端上部署了流行的超10億參數(shù)的基礎(chǔ)模型

作者：高通技術(shù)公司工程技術(shù)副總裁侯紀(jì)磊，高通技術(shù)公司產(chǎn)品管理高級副總裁Ziad Asghar

上圖為Stable Diffusion利用文本提示：“穿盔甲超級可愛的毛絨絨貓戰(zhàn)士、逼真、4K、超細(xì)節(jié)、V-Ray渲染、虛幻引擎” 生成的圖像

基礎(chǔ)模型正在席卷AI行業(yè)。基礎(chǔ)模型指基于海量數(shù)據(jù)進(jìn)行大規(guī)模訓(xùn)練的大型神經(jīng)網(wǎng)絡(luò)，進(jìn)而能以高性能表現(xiàn)適應(yīng)廣泛的后續(xù)任務(wù)。流行的基礎(chǔ)模型Stable Diffusion是一個非常出色的從文本到圖像的生成式AI模型，能夠基于任何文本輸入，在數(shù)十秒內(nèi)創(chuàng)作出逼真圖像。Stable Diffusion的參數(shù)超過10億，迄今為止主要限于在云端運行。接下來我將介紹高通AI Research如何利用高通AI軟件棧（Qualcomm AI Stack）執(zhí)行全棧AI優(yōu)化，首次在Android智能手機上部署Stable Diffusion。

通過全棧AI優(yōu)化，完全在終端側(cè)高效運行Stable Diffusion。

高通AI軟件棧支持的全棧AI優(yōu)化

在“AI首創(chuàng)”博客文章中，我們提到過高通AI Research不僅在開展全新AI研究工作，也率先在商用終端上展示概念驗證，為在現(xiàn)實世界中的技術(shù)規(guī)?；瘧?yīng)用鋪平道路。我們的全棧AI研究指跨應(yīng)用、神經(jīng)網(wǎng)絡(luò)模型、算法、軟件和硬件進(jìn)行優(yōu)化，并在公司內(nèi)進(jìn)行跨部門合作。針對Stable Diffusion，我們從Hugging Face的FP32 1-5版本開源模型入手，通過量化、編譯和硬件加速進(jìn)行優(yōu)化，使其能在搭載第二代驍龍8移動平臺的手機上運行。

為了把模型從FP32壓縮為INT8，我們使用了高通AI模型增效工具包(AIMET)的訓(xùn)練后量化。這是基于高通AI Research創(chuàng)造的技術(shù)所開發(fā)的工具，目前已經(jīng)集成入新發(fā)布的Qualcomm AI Studio中。通過讓模型在我們的專用AI硬件上高效運行，并降低內(nèi)存帶寬消耗，量化不僅能夠提高性能，還可以降低功耗。自適應(yīng)舍入(AdaRound)等先進(jìn)的高通AIMET量化技術(shù)能夠在更低精度水平保持模型準(zhǔn)確性，無需進(jìn)行重新訓(xùn)練。這些技術(shù)能夠應(yīng)用于構(gòu)成Stable Diffusion的所有組件模型，即基于Transformer的文本編碼器、VAE解碼器和UNet。這對于讓模型適合于在終端上運行至關(guān)重要。

高通AI軟件棧將最優(yōu)秀的AI軟件產(chǎn)品集合到一個軟件包中，幫助OEM廠商和開發(fā)者在我們的產(chǎn)品上創(chuàng)建、優(yōu)化和部署他們的AI應(yīng)用，充分利用高通AI引擎的性能。

對于編譯，我們利用高通AI引擎Direct框架將神經(jīng)網(wǎng)絡(luò)映射到能夠在目標(biāo)硬件上高效運行的程序中。高通AI引擎Direct框架基于高通Hexagon處理器的硬件架構(gòu)和內(nèi)存層級進(jìn)行序列運算，從而提升性能并最小化內(nèi)存溢出。部分上述增強特性是AI優(yōu)化研究人員與編譯器工程團(tuán)隊共同合作的成果，以此來提升AI推理時的內(nèi)存管理。高通AI引擎中所做的整體優(yōu)化能夠顯著降低runtime的時延和功耗，而這一亟需的趨勢也同樣存在于Stable Diffusion上。

憑借緊密的軟硬件協(xié)同設(shè)計，集成Hexagon處理器的高通AI引擎能夠釋放行業(yè)領(lǐng)先的邊緣側(cè)AI性能。支持微切片推理的最新第二代驍龍8移動平臺有能力高效運行像Stable Diffusion這樣的大模型，并且下一代驍龍預(yù)計還將帶來更多提升。此外，由于構(gòu)成Stable Diffusion的所有組件模型都采用了多頭注意力機制，為加速推理而面向transformer模型（如MobileBERT）所做的技術(shù)增強發(fā)揮了關(guān)鍵作用。

這一全棧優(yōu)化最終讓Stable Diffusion能夠在智能手機上運行，在15秒內(nèi)執(zhí)行20步推理，生成一張512x512像素的圖像。這是在智能手機上最快的推理速度，能媲美云端時延，且用戶文本輸入完全不受限制。

Qualcomm AI Studio 將我們目前的所有工具整合到一個全新的GUI中，同時還有可視化工具，以簡化開發(fā)者的使用體驗。

上圖為Stable Diffusion利用文本提示：“野外河谷和山脈間的日式花園，高細(xì)節(jié)，數(shù)字插圖，ArtStation，概念藝術(shù)，磨砂，銳聚焦，插圖，戲劇性的，落日，爐石，artgerm、greg rutkowski和lphonse mucha的藝術(shù)作品”生成的圖像

邊緣側(cè)AI的時代已經(jīng)到來

隨著AI云端大模型開始轉(zhuǎn)向在邊緣終端上運行，高通打造智能網(wǎng)聯(lián)邊緣的愿景正在我們眼前加速實現(xiàn)，幾年前還被認(rèn)為不可能的事情正在成為可能。這很有吸引力，因為通過邊緣AI進(jìn)行終端側(cè)處理具有諸多優(yōu)勢，包括可靠性、時延、隱私、網(wǎng)絡(luò)帶寬使用效率和整體成本。

盡管Stable Diffusion模型看起來過于龐大，但它編碼了大量語言和視覺相關(guān)知識，幾乎可以生成任何能想象到的圖片。此外，作為一款基礎(chǔ)模型，Stable Diffusion能做的遠(yuǎn)不止根據(jù)文字提示生成圖像?；赟table Diffusion的應(yīng)用正在不斷增加，例如圖像編輯、圖像修復(fù)、風(fēng)格轉(zhuǎn)換和超分辨率等，將帶來切實的影響。能夠完全在終端上運行模型而無需連接互聯(lián)網(wǎng)，將帶來無限的可能性。

擴(kuò)展邊緣側(cè)AI

在智能手機上運行Stable Diffusion只是開始。讓這一目標(biāo)得以實現(xiàn)的所有全棧研究和優(yōu)化都將融入高通AI軟件棧。憑借高通的統(tǒng)一技術(shù)路線圖，我們能夠利用單一AI軟件棧并進(jìn)行擴(kuò)展，以適用于不同的終端和不同的模型。

這意味著為了讓Stable Diffusion在手機上高效運行所做的優(yōu)化也可用于高通技術(shù)公司賦能的其他平臺，比如筆記本電腦、XR頭顯和幾乎任何其它終端。在云端運行所有AI處理工作成本高昂，因此高效的邊緣側(cè)AI處理非常重要。由于輸入文本和生成圖像始終無需離開終端，邊緣側(cè)AI處理能在運行Stable Diffusion（和其它生成式AI模型）時確保用戶隱私，這對于使用消費級和企業(yè)級應(yīng)用都有巨大的好處。全新AI軟件棧優(yōu)化還將有助于減少未來在邊緣側(cè)運行的下一代基礎(chǔ)模型產(chǎn)品的上市時間。這就是我們?nèi)绾文軌驅(qū)崿F(xiàn)跨終端和基礎(chǔ)模型進(jìn)行擴(kuò)展，讓邊緣側(cè)AI真正無處不在。

在高通，我們在基礎(chǔ)研究領(lǐng)域?qū)崿F(xiàn)突破，并跨終端和行業(yè)進(jìn)行擴(kuò)展，以賦能智能網(wǎng)聯(lián)邊緣。高通AI Research與公司所有團(tuán)隊通力合作，將最新AI發(fā)展成果和技術(shù)集成到我們的產(chǎn)品之中，讓實驗室研究所實現(xiàn)的AI進(jìn)步能夠更快交付，豐富人們的生活。

更多最新AI技術(shù)動態(tài)：

注冊以獲取未來移動計算技術(shù)更新；

利用高通AI軟件棧進(jìn)行開發(fā)

高通AI Research為高通技術(shù)公司所屬的項目規(guī)劃。

高通AI模型增效工具包（AIMET）是高通創(chuàng)新中心公司的產(chǎn)品。

高通品牌產(chǎn)品是高通技術(shù)公司和/或其子公司的產(chǎn)品。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

高通率先實現(xiàn)Android手機對Stable Diffusion的支持

下一篇