NVIDIA憑借生成式AI和通用智能體方面的研究獲得NeurIPS獎(jiǎng)

在NeurIPS這一關(guān)注機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺等領(lǐng)域的業(yè)界知名會(huì)議上,NVIDIA Research帶來了60多個(gè)項(xiàng)目,并展示了開創(chuàng)性成果

兩篇NVIDIA Research的論文憑借對AI和機(jī)器學(xué)習(xí)領(lǐng)域的貢獻(xiàn)而榮獲2022年NeurIPS獎(jiǎng)。其中一篇研究的是基于擴(kuò)散的生成式AI模型,另一篇?jiǎng)t是關(guān)于如何訓(xùn)練通用智能體。

本周在新奧爾良舉行的NeurIPS大會(huì)和下周的NeurIPS在線會(huì)議中,60多場講座、學(xué)術(shù)海報(bào)會(huì)和研討會(huì)均有NVIDIA的論文作者參加。

針對圖像、文本或視頻等模態(tài)的合成數(shù)據(jù)生成(SDG)是貫穿NVIDIA論文的一大關(guān)鍵主題。其他主題還包括強(qiáng)化學(xué)習(xí)、數(shù)據(jù)采集和增強(qiáng)、氣候模型以及聯(lián)邦學(xué)習(xí)。

NVIDIA學(xué)習(xí)和感知研究副總裁Jan Kautz表示:“AI是一項(xiàng)極其重要的技術(shù)。從生成式AI到自主智能體,NVIDIA在各個(gè)領(lǐng)域都取得了飛快的進(jìn)展。在生成式AI領(lǐng)域,我們不僅在推動(dòng)自身對基礎(chǔ)模型理論的理解,而且還在為更輕松地創(chuàng)建逼真的虛擬世界和模擬做出實(shí)際的貢獻(xiàn)。”

重構(gòu)基于擴(kuò)散的生成式模型的設(shè)計(jì)

基于擴(kuò)散的模型已成為生成式AI領(lǐng)域的一項(xiàng)開創(chuàng)性技術(shù)。NVIDIA研究人員憑借對擴(kuò)散模型設(shè)計(jì)的分析獲得了優(yōu)秀主流論文獎(jiǎng)(Outstanding Main Track Paper)。他們所提出的改進(jìn)措施能夠顯著提高這些模型的效率和質(zhì)量。

該論文將擴(kuò)散模型的各個(gè)組成部分分解成模塊,幫助開發(fā)者明確可以調(diào)整的流程,進(jìn)而提高整個(gè)模型的性能。研究人員表示,經(jīng)過他們修改的模型在AI生成圖像質(zhì)量評估中獲得了創(chuàng)紀(jì)錄的高分。

在基于《我的世界》游戲的模擬套件中訓(xùn)練通用智能體

雖然研究人員長期以來一直在《星際爭霸》、《Dota》、《圍棋》等視頻游戲環(huán)境中訓(xùn)練自主智能體,但這些智能體一般只擅長少數(shù)任務(wù)。因此,NVIDIA研究人員開始轉(zhuǎn)向全球最熱門的游戲《我的世界》,開發(fā)了一個(gè)用于訓(xùn)練通用智能體(一種能夠成功執(zhí)行各種開放式任務(wù)的智能體)的可擴(kuò)展訓(xùn)練框架。

這個(gè)名為MineDojo的框架使智能體能夠利用一個(gè)由7000多個(gè)維基百科網(wǎng)頁、數(shù)百萬個(gè)Reddit帖子和30萬小時(shí)游戲錄像所組成的大規(guī)模在線數(shù)據(jù)庫來學(xué)習(xí)《我的世界》的靈活玩法(如下圖所示)。該項(xiàng)目獲得了NeurIPS委員會(huì)頒發(fā)的優(yōu)秀數(shù)據(jù)集和基準(zhǔn)論文獎(jiǎng)。

作為概念驗(yàn)證,MineDojo的研究人員創(chuàng)建了一個(gè)名為MineCLIP的大型基礎(chǔ)模型。該模型學(xué)會(huì)了將YouTube上的《我的世界》游戲視頻與視頻字幕(包含玩家敘述屏幕上的動(dòng)作)相關(guān)聯(lián)。通過MineCLIP,該團(tuán)隊(duì)訓(xùn)練出了一個(gè)能夠在沒有人類干預(yù)的情況下執(zhí)行《我的世界》中若干任務(wù)的強(qiáng)化學(xué)習(xí)智能體。

創(chuàng)建構(gòu)建虛擬世界的復(fù)雜 3D 幾何體

本屆NeurIPS上還展示了GET3D。這個(gè)生成式AI模型可根據(jù)其所訓(xùn)練的建筑物、汽車、動(dòng)物等2D圖像類別,即時(shí)合成3D幾何體。AI生成的物體具有高保真的紋理和復(fù)雜的幾何細(xì)節(jié),并且以常用圖形軟件應(yīng)用中所使用的三角網(wǎng)格格式創(chuàng)建,這使得用戶可以十分輕松地將這些幾何體導(dǎo)入3D渲染器和游戲引擎,以進(jìn)行后續(xù)編輯。

GET3D即GenerateExplicitTextured3D的縮寫,正如其名,它具備生成具有顯示紋理的3D網(wǎng)格的能力。該模型是在NVIDIA A100 Tensor Core GPU上使用從不同相機(jī)角度拍攝的約100萬張3D幾何體的2D圖像訓(xùn)練而成。該模型在單顆NVIDIA GPU上運(yùn)行推理時(shí),每秒可生成約20個(gè)物體。

AI生成的物體可用于構(gòu)建為游戲、機(jī)器人、建筑、社交媒體等行業(yè)設(shè)計(jì)的數(shù)字空間,比如建筑物、戶外空間或整座城市的3D表達(dá)。

通過對材質(zhì)和光照的控制,改進(jìn)可逆渲染流程

在6月于新奧爾良舉行的最近一次CVPR會(huì)議上,NVIDIA Research發(fā)布了3D MoMa。這種可逆渲染方法使開發(fā)者能夠創(chuàng)建由3D網(wǎng)格模型、覆蓋在模型上的材質(zhì)以及光照這三個(gè)不同部分所組成的3D物體。

此后,該團(tuán)隊(duì)在分離3D物體中的材質(zhì)和光照方面取得了重大進(jìn)展,這反過來又提高了AI生成幾何體的可編輯能力,創(chuàng)造者們能夠輕松地對在場景中移動(dòng)的物體替換材質(zhì)或者調(diào)整光照。

本次發(fā)布相關(guān)精彩視頻已在NVIDIA中國西瓜視頻賬號發(fā)布:

3D MoMa 材質(zhì)和光照演示

這項(xiàng)研究工作依靠的著色模型采用NVIDIA RTX GPU加速光線追蹤技術(shù),更為逼真。該成果正在NeurIPS大會(huì)上以海報(bào)形式展示。

提高語言模型生成文本的事實(shí)準(zhǔn)確性

另一篇被NeurIPS收錄的論文研究的是預(yù)訓(xùn)練語言模型的一項(xiàng)重大難題——AI生成文本的事實(shí)準(zhǔn)確性。

由于AI只是通過關(guān)聯(lián)單詞來預(yù)測句子接下來的內(nèi)容,因此為生成開放式文本而訓(xùn)練的語言模型往往會(huì)產(chǎn)生包含非事實(shí)信息的文本。在這篇論文中,NVIDIA研究人員提出了能夠突破這一局限性的技術(shù),這也是為現(xiàn)實(shí)世界應(yīng)用部署此類模型的必要前提。

研究人員建立了首個(gè)能夠衡量生成開放式文本語言模型事實(shí)準(zhǔn)確性的自動(dòng)化基準(zhǔn),并發(fā)現(xiàn)擁有數(shù)十億參數(shù)的大型語言模型比小型語言模型的事實(shí)準(zhǔn)確性更高。該研究團(tuán)隊(duì)提出了一項(xiàng)新的技術(shù)——事實(shí)性強(qiáng)化訓(xùn)練,以及一種新穎的采樣算法,通過兩者的結(jié)合,助力訓(xùn)練語言模型生成準(zhǔn)確的文本,并且將事實(shí)性錯(cuò)誤率從33%降低到15%左右。

目前,NVIDIA在全球共有300多名研究人員,團(tuán)隊(duì)專注的課題領(lǐng)域涵蓋AI、計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺、自動(dòng)駕駛汽車和機(jī)器人技術(shù)等。進(jìn)一步了解NVIDIA Research并查看NeurIPS收錄的所有NVIDIA論文列表。

關(guān)于NVIDIA

自1993年成立以來,NVIDIA (NASDAQ: NVDA) 一直是加速計(jì)算領(lǐng)域的先驅(qū)。NVIDIA 1999年發(fā)明的GPU驅(qū)動(dòng)了PC游戲市場的增長,并重新定義了現(xiàn)代計(jì)算機(jī)圖形,開啟了現(xiàn)代AI時(shí)代,推動(dòng)了元宇宙的創(chuàng)建。NVIDIA現(xiàn)在是一家全棧計(jì)算公司,其數(shù)據(jù)中心規(guī)模的產(chǎn)品正在重塑整個(gè)行業(yè)。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )