曠視印奇:“我們期望用技術(shù)改變世界,而這可能要分為兩部分,第一部分是我們要真的做出好的技術(shù),第二部分是要真的讓這些好的技術(shù)為客戶創(chuàng)造價值。”
7月15日消息,盡管AI應(yīng)用已經(jīng)深入到人們生活的諸多角落,但是AI技術(shù)本身還籠罩著神秘的面紗,吸引技術(shù)愛好者矚目。
MegTech 2022 曠視技術(shù)開放日上,曠視科技聯(lián)合創(chuàng)始人、CEO印奇聯(lián)手曠視研究院的一眾技術(shù)大拿們分享了AI視覺最新技術(shù)的鉆研創(chuàng)新成果和未來趨勢展望。
此外,技術(shù)開放日現(xiàn)場,曠視一口氣展示了20款技術(shù)AI視覺技術(shù)最新應(yīng)用,其中不乏“瞬時相機”、“VR裸手交互”、“低功耗嵌入式 L2 自動駕駛方案”等讓人眼前一亮的應(yīng)用。
視覺AI技術(shù)還將會在多大廣度和深度上改變生產(chǎn)和生活方式?作為一家深耕AI視覺技術(shù)11年的企業(yè),曠視技術(shù)開放日上這些技術(shù)分享和應(yīng)用展示或可窺見一斑。
曠視科技聯(lián)合創(chuàng)始人、CEO印奇
印奇表示,AI是曠視一直堅持的核心能力,而IoT是商業(yè)價值的核心載體。從視覺AI技術(shù)創(chuàng)新到實現(xiàn)AIoT落地應(yīng)用創(chuàng)造商業(yè)價值需要具備“三要素”,在AI端有兩個核心要素(基礎(chǔ)算法科研和規(guī)模算法量產(chǎn)),在IoT端有一個核心要素(以計算攝影學(xué)為核心的算法定義硬件)。這個“2+1”AIoT的核心技術(shù)科研是支撐曠視不斷走向新的AIoT商業(yè)成功的最重要基石。
視覺AI基礎(chǔ)模型研究新趨勢:“大”和“統(tǒng)一”
事實上,在過去的十年里,每一代基礎(chǔ)模型的突破都在很大程度上促進了視覺AI的發(fā)展。尤其是在2012年AlexNet提出之后,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)成為AI視覺發(fā)展的主要原動力之一。根據(jù)神經(jīng)網(wǎng)絡(luò)的用途以及構(gòu)建方式的不同,大體上可以分為CNN、Transformer、基于自動化神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的模型、以及輕量化模型等等,這些模型都在一定時間內(nèi)極大地推動了當(dāng)時AI發(fā)展的進程。
時間來到2022年,在視覺AI基礎(chǔ)模型研究上又呈現(xiàn)出哪些新趨勢?
曠視研究院基礎(chǔ)科研負責(zé)人張祥雨認為:“‘大’和‘統(tǒng)一’是當(dāng)今視覺AI基礎(chǔ)研究的新趨勢。‘大’是指AI大模型利用大數(shù)據(jù)、大算力和大參數(shù)量,提高模型的表達能力,使得AI模型能夠適用于多種任務(wù)、多種數(shù)據(jù)和多種應(yīng)用場景;‘統(tǒng)一’的趨勢則表示在,AI視覺研究領(lǐng)域眾多,AI視覺基礎(chǔ)模型研發(fā),如CNNs、VL Models、 Transformers等;視覺基礎(chǔ)應(yīng)用,如檢測、分割等;AI算法的演化,如優(yōu)化、自監(jiān)督、半監(jiān)督等。此前每一個研究路徑都衍生出一系列算法。但是,這兩年我們發(fā)現(xiàn)這些算法在底層正在走向統(tǒng)一。比如通過在訓(xùn)練過程中增加先驗的方式,使得CNN、ViT、MLP都取得相似的性能。這種統(tǒng)一趨勢為我們‘統(tǒng)一’AI系統(tǒng)設(shè)計奠定了基礎(chǔ)。”
不過,張祥雨也強調(diào),模型越“大”并不一定代表著越好,打造AI大模型要注意“邊際效應(yīng)遞減”現(xiàn)象,也就是隨著模型的參數(shù)量和數(shù)據(jù)量的增多,收益卻在逐漸變少的現(xiàn)象。研究不僅需要往“大”的方向努力,更重要的是如何讓“大”模型的優(yōu)勢發(fā)揮出來,這是當(dāng)今AI視覺研究主要的趨勢和挑戰(zhàn)之一。
曠視模型研究定義的“大”,是要以創(chuàng)新的算法充分發(fā)揮大數(shù)據(jù)、大算力的威力,拓展AI認知的邊界。
目前,基于“大”和“統(tǒng)一”的兩大趨勢,曠視基礎(chǔ)模型科研分為四個主要方向:
第一,通用圖像大模型。主要著眼于構(gòu)建通用的、統(tǒng)一的、高性能的圖像視覺大模型。研究創(chuàng)新的方法,讓“大”真的能為性能提升所服務(wù),讓大模型產(chǎn)生和孵化更多的應(yīng)用。
第二,視頻理解大模型。攻克在目前視頻理解和視頻建模中困擾業(yè)界已久的長序列建模問題,以及找到更為高效的視頻模型的訓(xùn)練、監(jiān)督和應(yīng)用的方法。
第三,計算攝影大模型。目前計算攝影的很多任務(wù)以及模型是通過對圖像退化的模式進行建模,來實現(xiàn)高質(zhì)量圖像生成。
第四,自動駕駛感知大模型。這項研究主要聚焦在研究簡單、高效、統(tǒng)一、易于使用的自動駕駛模型的優(yōu)化、訓(xùn)練和部署方法。
AI算法量產(chǎn)如何實現(xiàn)?
需要注意的是,傳統(tǒng)意義上,我們說某種東西量產(chǎn),一般是說批量化的生產(chǎn)出同一種商品。這里,曠視所說的“AI算法量產(chǎn)”,是可批量生產(chǎn)出很多種算法,這些算法適配于不同的應(yīng)用場景。
曠視研究院算法量產(chǎn)負責(zé)人周而進表示,要實現(xiàn)算法量產(chǎn),需要克服“數(shù)據(jù)生產(chǎn)的復(fù)雜性、算法模型在生產(chǎn)過程中的不確定性、模型部署硬件平臺的多樣性”三方面挑戰(zhàn)。
為了加速AI算法量產(chǎn),曠視打造了AIS (AI Service)算法生產(chǎn)平臺。這個平臺作為曠視在算法量產(chǎn)領(lǐng)域的最新進展,在這次技術(shù)開放日上向公眾開放亮相。
周而進介紹,AIS算法生產(chǎn)平臺是曠視基于多年算法生產(chǎn)經(jīng)驗,包括Brain++體系、自研的深度學(xué)習(xí)框架MegEngine,數(shù)據(jù)管理平臺MegData和計算平臺MegCompute等基礎(chǔ)上打造的一站式 MLOps 算法生產(chǎn)平臺,能提供從數(shù)據(jù)清洗、智能標(biāo)注、數(shù)據(jù)管理、數(shù)據(jù)質(zhì)檢、算法自動生產(chǎn)、模型多維能力評測、pipeline 部署等全流程能力。
目前,AIS已支持 100 多種業(yè)務(wù)模型訓(xùn)練,2 小時即可完成模型訓(xùn)練,模型產(chǎn)出精度指標(biāo)遠高于業(yè)界平均水平;其中的ADS(Auto Deploy Service)模型部署工具,提供將訓(xùn)練好的模型一鍵轉(zhuǎn)換至不同計算平臺并支持測試對分的服務(wù),可大幅簡化模型從訓(xùn)練到部署的流程。
算法定義硬件之:AI傳感器
隨著算法量產(chǎn)成為現(xiàn)實,如何將算法部署應(yīng)用到具體的生產(chǎn)生活空間中,這是IoT承載的商業(yè)價值。在印奇看來,這是曠視算法定義硬件最終要解決的問題和創(chuàng)造的價值。
在技術(shù)開放日現(xiàn)場,曠視研究院計算攝影負責(zé)人范浩強用“計算攝影”為例詳解了算法定義硬件的意義和價值。
在范浩強看來,隨著AI、視覺算法等領(lǐng)域的發(fā)展,傳感器將不再單獨、直接提供應(yīng)用價值,這兩者之間需要算法來作為承上啟下的橋梁。隨著應(yīng)用的不斷升級,它對算法提出了越來越多的需求,而算法也對傳感器到底需要提供什么樣的信息輸入提出了要求,甚至本質(zhì)性地改造了傳感器的形態(tài)和樣式,進而產(chǎn)生了 “AI定義傳感器”這一概念。
在“計算攝影”中,算法的引入使得智能手機完成高質(zhì)量地月光夜景拍照。進入2022年,在曠視AI技術(shù)驅(qū)動下的智能手機拍照能力已經(jīng)達到星光級,可以在人眼難以辨識的環(huán)境之下拍出高質(zhì)量的照片。這個過程中,AI算法扮演著非常重要的角色。
范浩強透露,目前曠視對8K級別的“AI畫質(zhì)”硬件方案的研發(fā)與產(chǎn)品化,希望能夠在不久的未來和大家見面。
談及AI定義傳感器這條路未來趨勢,范浩強介紹曠視今年還將發(fā)布兩個新技術(shù)愿景:
一是,在畫質(zhì)維度上,提出走向16K AI極超高清的AI畫質(zhì)這一概念。16K所帶來的改變將不只是像素數(shù),曠視希望通過AI、傳感和顯示這三者一起聯(lián)動,實現(xiàn)真正身臨其境的影像體驗。
二是,從 IoT傳感角度,傳感器將走向更加極致的小型化、低功耗,從而能夠和每個人的日常生活,和每個人自身實現(xiàn)更加深度的結(jié)合。
在技術(shù)開放日現(xiàn)場,曠視展示了“瞬時相機”的應(yīng)用效果。瞬時相機不僅可以準(zhǔn)確拍攝到高速運動物體的細節(jié),還能改善相機在低光條件下的拍攝表現(xiàn)。
具體而言,曠視瞬時相機將自研圖像去模糊算法搭配于事件相機中,解決了高速運動物體拍攝模糊的情況。通常普通相機拍攝的內(nèi)容可能會出現(xiàn)運動模糊,而瞬時相機通過將普通相機拍攝的模糊圖片與事件相機記錄的事件信息相結(jié)合,再利用深度學(xué)習(xí)算法對運動模糊區(qū)域進行重建,最終實現(xiàn)圖像去模糊效果。
在曠視技術(shù)開放日,印奇總結(jié)道:“‘技術(shù)信仰、價值務(wù)實’是曠視的人才觀和價值觀,AIoT核心技術(shù)科研體系是曠視未來十年、二十年不斷堅持的科研方向。”
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )