近年來,應(yīng)用場(chǎng)景的旺盛需求,推動(dòng)AI領(lǐng)域?qū)⒓夹g(shù)能力從感知延伸到認(rèn)知、從2D擴(kuò)展到3D。
3月19日,云從科技基于單幀圖像的3D人體重建技術(shù)同時(shí)在Human3.6M、Surreal和UP-3D上創(chuàng)造了最新的世界紀(jì)錄,此次突破將原有最低誤差記錄大幅降低30%,也是繼去年云從在3D人臉數(shù)據(jù)集上大幅刷新紀(jì)錄后,再次在此類3D重建技術(shù)上取得重要成果。
Human3.6M數(shù)據(jù)集上對(duì)比
Surreal數(shù)據(jù)集上對(duì)比
UP-3D數(shù)據(jù)集上對(duì)比
3D重建領(lǐng)域通常以誤差(Error)作為衡量算法能力的主要指標(biāo),誤差(Error)就是生成模型與實(shí)際圖像的差別。一般來說,誤差(Error)越低,精度越高,意味著技術(shù)的性能越好。
云從科技3D人體重建技術(shù)全身精度誤差(Surface Error)在Surreal上從75.4毫米降低到52.7毫米,關(guān)節(jié)精度誤差(3DJointError)從55.8毫米降低到40.1毫米,Human3.6M上的關(guān)節(jié)精度誤差(3DJointError)從59.9毫米降低到46.7毫米,技術(shù)的執(zhí)行速度從之前的上百毫秒降低到僅需5毫秒。
論文中,云從科技針對(duì)人體具有豐富多樣的姿態(tài)和穿著的特點(diǎn),提出了一套全新的基于人體3D縱深預(yù)測(cè)的3D信息表征方式。通過對(duì)三原色圖像(RGB,不含深度信息)的分析,預(yù)測(cè)人體的3D形態(tài)和姿勢(shì),并用6萬多個(gè)點(diǎn)完整描繪人體,從而在人體重建技術(shù)上取得速度與精度的雙突破,呈現(xiàn)出來的模型更精細(xì),幀率更是高達(dá)到200fps,原本由于受實(shí)時(shí)顯示限制而無法實(shí)現(xiàn)的應(yīng)用可以一一實(shí)現(xiàn)——這將極大地推動(dòng)相關(guān)智能圖像應(yīng)用的落地步伐。
由于對(duì)輸入圖像的要求低,使3D重建技術(shù)將可以利用普通光學(xué)攝像頭作為感知設(shè)備。該技術(shù)將會(huì)使美顏APP無需結(jié)構(gòu)光攝像頭也能具備高精準(zhǔn)度的瘦身與動(dòng)畫合成功能;商場(chǎng)內(nèi)試衣魔鏡將會(huì)自動(dòng)根據(jù)身形生成你所想要更換的衣服,大大節(jié)省商場(chǎng)空間的同時(shí)提升用戶體驗(yàn)度,使更多智能應(yīng)用成為可能。
通過重要人員影像重建、醫(yī)療仿真肢體打印、虛擬試衣、美顏化妝、表情姿態(tài)動(dòng)畫合成等應(yīng)用場(chǎng)景在大型商場(chǎng)、直播平臺(tái)、美顏軟件、影視特效制作等行業(yè)普惠AI能力。
值得一提的是,Human3.6M、Surreal和UP-3D是全球關(guān)于3D人體重建技術(shù)的權(quán)威數(shù)據(jù)集,加州大學(xué)伯克利分校、馬克斯-普朗克研究所、Amazon、賓夕法尼亞大學(xué)、北京大學(xué)、浙江大學(xué)、MicrosoftResearch、法國國家信息與自動(dòng)化研究所、AdobeResearch等知名企業(yè)、研究所和大學(xué)都在該榜單的競(jìng)爭(zhēng)隊(duì)列中,算法實(shí)力比拼可謂激烈,相較于以往,中國企業(yè)與高校機(jī)構(gòu)開始逐漸在國外老牌優(yōu)勢(shì)領(lǐng)域展露頭角。
與傳統(tǒng)關(guān)鍵點(diǎn)檢測(cè)、3D重建技術(shù)的區(qū)別
傳統(tǒng)的人體關(guān)鍵點(diǎn)檢測(cè)技術(shù)往往以2D的人體骨骼關(guān)節(jié)點(diǎn)檢測(cè)形式出現(xiàn),即通過技術(shù)預(yù)測(cè)RGB圖像中人體的十幾個(gè)關(guān)節(jié)點(diǎn)的坐標(biāo),一方面結(jié)果非常稀疏,將人體大為簡(jiǎn)化成骨骼的形式,另一方面結(jié)果往往只包含二維平面上的坐標(biāo)預(yù)測(cè),不能還原深度信息,因此無法體現(xiàn)縱深的感覺。而基于單幀圖像的3D重建技術(shù)不僅能輸出骨骼關(guān)節(jié)點(diǎn)信息,更能同時(shí)預(yù)測(cè)大量的人體表面關(guān)鍵點(diǎn)信息,預(yù)測(cè)結(jié)果更加豐富,而且每個(gè)點(diǎn)的坐標(biāo)都是3D的,能夠體現(xiàn)不同軀干的縱深信息。
3D關(guān)鍵點(diǎn)檢測(cè)
并且傳統(tǒng)3D重建技術(shù)大多需要連續(xù)的圖像序列或是多視角的圖像,在硬件設(shè)備上一般需要采用雙目攝像機(jī)或者結(jié)構(gòu)光攝像機(jī)等設(shè)備,因此在手機(jī)等便攜設(shè)備上往往難以實(shí)現(xiàn);另一方面,專用設(shè)備還會(huì)增加部署成本,增加大規(guī)模普及3D重建技術(shù)的難度。
基于單幀圖像的3D重建技術(shù)對(duì)原始圖像的需求放松的同時(shí),對(duì)背后的技術(shù)提出了更難的挑戰(zhàn):技術(shù)需要從單幀圖像中推理出人體或人臉的3D形態(tài),并通過【光學(xué)透視】【陰影疊加】等基本光學(xué)原則準(zhǔn)確預(yù)測(cè)出各個(gè)關(guān)鍵點(diǎn)在3D空間的位置和朝向,從而得到人體的姿態(tài)或表情信息。
人體姿態(tài)和服飾復(fù)雜多樣,精度提升意味著對(duì)復(fù)雜場(chǎng)景的適應(yīng)性更好,模型更接近真實(shí)的情況。如阿凡達(dá)、漫威電影、阿麗塔等電影中,都需要專用特效設(shè)備與面部貼點(diǎn)來完成精細(xì)的人像采集,基于單幀圖像的3D人體/人臉重建技術(shù)將徹底顛覆電影視頻的拍攝制作,同時(shí)降低工業(yè)級(jí)3D動(dòng)畫合成的門檻。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- AI超跑新秀揭秘:理想或?qū)⑸孀愣虅☆I(lǐng)域,廣電部門嚴(yán)查紅果短劇風(fēng)波
- 紅果短劇回應(yīng)被約談:5天內(nèi)暫停新劇上線,積極整改,重樹內(nèi)容標(biāo)準(zhǔn)
- 互聯(lián)網(wǎng)大廠春節(jié)福利揭秘:高薪休假與日常福利究竟誰更勝一籌?
- 亞馬遜CTO預(yù)測(cè):2025年及未來五大科技趨勢(shì),未來已來,你準(zhǔn)備好了嗎?
- 鴨鴨羽絨服與夢(mèng)餉科技攜手打造超級(jí)品牌日,GMV同比增長(zhǎng)300%,共贏新零售未來
- 中國客戶海外安全案件激增,2025年需應(yīng)對(duì)碎片化風(fēng)險(xiǎn):SOS報(bào)告揭示新挑戰(zhàn)
- 小米布局GPU集群,探索AI大模型新領(lǐng)域,科技巨頭引領(lǐng)未來趨勢(shì)
- 阿里影業(yè)入股姚安娜經(jīng)紀(jì)公司:新篇章,新機(jī)遇
- 螞蟻森林再度捐資河北種樹,共筑綠色長(zhǎng)城
- 谷歌不打算賤賣自家明星產(chǎn)品:Chrome瀏覽器
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。