超寫(xiě)實(shí)數(shù)字人小燦加入,助力火山語(yǔ)音全類(lèi)型虛擬數(shù)字人應(yīng)用創(chuàng)新

當(dāng)發(fā)現(xiàn)更多AI科技作用于日常生活時(shí),你是否想過(guò)竟然有一天會(huì)與AI數(shù)字人做同事?日前,火山語(yǔ)音團(tuán)隊(duì)重磅推出了一位神秘新成員——首個(gè)超寫(xiě)實(shí)數(shù)字員工小燦!這位新同事不僅形象清新美麗,還有著很強(qiáng)的親和力,大幅提升了工作幸福感,真可謂讓大家率先體驗(yàn)到了擁有一位超寫(xiě)實(shí)數(shù)字人同事的快樂(lè)。

在首爆TVC短片中,作為一位剛參加實(shí)習(xí)的虛擬數(shù)字員工,小燦對(duì)于新工作的忐忑、對(duì)于未來(lái)的憧憬,如同每一個(gè)初入職場(chǎng)的新人一樣真實(shí);她在新環(huán)境中的緊張、對(duì)于實(shí)習(xí)生活的期待、與同事們的自然互動(dòng)……這些都讓我們看到了虛擬數(shù)字人豐富的情感世界,仿佛她就在眼前。

當(dāng)然,除了小燦的個(gè)性以及情感的靈動(dòng)展示之外,深扒其背后的技術(shù)實(shí)力更是可圈可點(diǎn)。小燦的出現(xiàn),無(wú)疑為火山語(yǔ)音在虛擬數(shù)字人領(lǐng)域的未來(lái)開(kāi)啟了新篇章。

聚焦面部、肢體以及音色等多方向

技術(shù)創(chuàng)新助力逼真呈現(xiàn)

長(zhǎng)期以來(lái),火山語(yǔ)音團(tuán)隊(duì)致力構(gòu)建全面逼真、快速響應(yīng)、可多場(chǎng)景應(yīng)用的超寫(xiě)實(shí)數(shù)字人。在創(chuàng)作首個(gè)數(shù)字員工小燦的過(guò)程中,團(tuán)隊(duì)主要在面部驅(qū)動(dòng)、肢體驅(qū)動(dòng)以及“一條音頻秒級(jí)別音色復(fù)刻”等技術(shù)層面實(shí)現(xiàn)了創(chuàng)新突破,共同助力數(shù)字人的逼真呈現(xiàn)。

具體來(lái)說(shuō),面部驅(qū)動(dòng)主要采用了表情、唇形聯(lián)合建模的方案,為了實(shí)現(xiàn)更細(xì)粒度的唇形控制,團(tuán)隊(duì)采用了國(guó)際音標(biāo) IPA 作為建模單元,基于數(shù)小時(shí)的訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)高精度的唇形、表情生成,并且基于 IPA 可以在不新增訓(xùn)練數(shù)據(jù)的情況下很容易地進(jìn)行多語(yǔ)種、多方言的擴(kuò)展。

另外關(guān)于肢體的AI驅(qū)動(dòng),團(tuán)隊(duì)也研發(fā)了以下三種方案:

(a)Motion Blending 動(dòng)作庫(kù)拼接

Motion Blending 動(dòng)作庫(kù)拼接方案,可以應(yīng)用于視頻創(chuàng)作、直播等通用場(chǎng)景,能保證動(dòng)作生成的質(zhì)量與效率。其中 In-Between 模塊采用基于 Trasnformer 的 Encoder + Decoder 結(jié)構(gòu),將待過(guò)渡的兩段動(dòng)作進(jìn)行編碼,Decoder 則根據(jù) Position Encoding 作為 Query 查詢(xún);為保證穩(wěn)定,預(yù)測(cè)目標(biāo)是與原始兩片段 Slerp 插值結(jié)果的偏差。內(nèi)部評(píng)測(cè)結(jié)果表明,這種方案生成的效果大幅優(yōu)于 UE 原生的動(dòng)作庫(kù)拼接方案。此外,為了解決音頻時(shí)序?qū)R的問(wèn)題,需要對(duì)動(dòng)作庫(kù)中選取的動(dòng)作進(jìn)行截取,為盡可能減少對(duì)高質(zhì)量動(dòng)作庫(kù)的破壞,方案根據(jù)待過(guò)渡動(dòng)作的姿態(tài)和運(yùn)動(dòng)等信息估計(jì)出最優(yōu)插值長(zhǎng)度,進(jìn)一步提高了生成的動(dòng)作效果。

(b) 端到端

針對(duì)直播等交互場(chǎng)景,團(tuán)隊(duì)錄制了數(shù)小時(shí)的動(dòng)作數(shù)據(jù),訓(xùn)練基于 Diffusion (X start) 的端到端 Audio2Gesture 模型,Denoise 模塊考慮了音頻的低/中/高級(jí)特征并具有長(zhǎng)時(shí)依賴(lài)信息,確保了生成的動(dòng)作與輸入音頻節(jié)奏和語(yǔ)義的相關(guān)性。

(c)端到端 + 指定動(dòng)作

考慮到實(shí)際應(yīng)用時(shí),某些場(chǎng)景可能需要一些指定動(dòng)作,例如打招呼、比心等強(qiáng)語(yǔ)義動(dòng)作,團(tuán)隊(duì)開(kāi)發(fā)了基于 Inpainting 方式的動(dòng)作生成算法,確保指定動(dòng)作的觸發(fā);而在大部分沒(méi)有指定動(dòng)作的片段,則按照端到端動(dòng)作生成的方式生成語(yǔ)義和節(jié)奏匹配的動(dòng)作,并且結(jié)合 Diffusion 模型漸進(jìn)生成的特性使動(dòng)作過(guò)渡靈活自然。

談及“一條音頻秒級(jí)別音色復(fù)刻”技術(shù),也被稱(chēng)為zero shotTTS。這項(xiàng)技術(shù)能夠在短短幾秒鐘內(nèi)高度還原真人的音色、說(shuō)話(huà)風(fēng)格以及聲學(xué)環(huán)境等特性,種種均建立在火山語(yǔ)音團(tuán)隊(duì)全自主研發(fā)的核心技術(shù)架構(gòu)上,使得其關(guān)鍵性能指標(biāo)在業(yè)界占優(yōu)。此外,團(tuán)隊(duì)還開(kāi)發(fā)了基于自回歸GPT類(lèi)大模型的韻律模塊,目前這個(gè)模塊的訓(xùn)練數(shù)據(jù)已經(jīng)超過(guò)了20萬(wàn)個(gè)小時(shí),而且其架構(gòu)具有很強(qiáng)的可擴(kuò)展性,預(yù)計(jì)未來(lái)能夠支持100萬(wàn)小時(shí)以上的數(shù)據(jù)訓(xùn)練。更重要的一點(diǎn),這個(gè)模塊支持code-switch功能,意味著無(wú)論輸入的提示是中文還是英文,都可以直接輸出中文、英文或者混合內(nèi)容。這一功能的實(shí)現(xiàn),無(wú)疑大幅提升了超寫(xiě)實(shí)數(shù)字人小燦的應(yīng)用范圍以及實(shí)用性。

構(gòu)建全類(lèi)型虛擬數(shù)字人矩陣

輻射多場(chǎng)景應(yīng)用

目前火山語(yǔ)音的數(shù)字人產(chǎn)品已具備包括2D真人、3D卡通和3D超寫(xiě)實(shí)在內(nèi)的全類(lèi)型虛擬數(shù)字人生產(chǎn)管線(xiàn)。聚焦播報(bào)、交互、直播三大核心場(chǎng)景,專(zhuān)注構(gòu)建AI數(shù)字人從原子層到方案層產(chǎn)品能力。基于全自研多模態(tài)交互技術(shù)體系,建立從形象、感知、理解、對(duì)話(huà)能力都趨近于真人的數(shù)字人,面向行業(yè)客戶(hù)持續(xù)提供行業(yè)領(lǐng)先的一站式數(shù)字人解決方案。

具體來(lái)說(shuō)播報(bào)場(chǎng)景,火山語(yǔ)音數(shù)字人為泰康保險(xiǎn)等客戶(hù)提供一站式數(shù)字人音視頻生產(chǎn)平臺(tái),幫助企業(yè)提升內(nèi)容生產(chǎn)效率,打通自動(dòng)化、高效的數(shù)字人視頻生產(chǎn)鏈路,同時(shí)支持詞條精修、文本/音頻驅(qū)動(dòng)、多軌混編、畫(huà)中畫(huà)等多項(xiàng)高級(jí)功能,助力打造更具差異化、更精品化的內(nèi)容生態(tài)。

交互場(chǎng)景,火山語(yǔ)音數(shù)字人為興業(yè)證券等客戶(hù)提供“面對(duì)面”交互服務(wù)體驗(yàn)升級(jí),搭載全自研語(yǔ)音交互技術(shù),結(jié)合大模型精準(zhǔn)理解用戶(hù)意圖、合理應(yīng)答,滿(mǎn)足智能客服、智能開(kāi)戶(hù)、金融資訊播報(bào)、短視頻創(chuàng)作、市場(chǎng)推廣等多場(chǎng)景的數(shù)字營(yíng)銷(xiāo)需求,助力企業(yè)“數(shù)智化”轉(zhuǎn)型。

直播場(chǎng)景,火山語(yǔ)音數(shù)字人為國(guó)信證券等客戶(hù)打造“ 全天候數(shù)字人直播間”方案,量身定制品牌數(shù)字人形象。其中數(shù)字人直播平臺(tái)滿(mǎn)足0直播間布景費(fèi)用投入、積木式構(gòu)建劇本內(nèi)容、AI智能劇本生成并提供一鍵推流功能,實(shí)現(xiàn)在火山引擎企業(yè)直播、抖音、淘寶、京東等多個(gè)平臺(tái)開(kāi)播。

一直以來(lái),火山語(yǔ)音團(tuán)隊(duì)積極將經(jīng)過(guò)多年精心打磨的語(yǔ)音技術(shù)能力面向市場(chǎng)開(kāi)放,通過(guò)火山引擎成功地將這些技術(shù)應(yīng)用到了汽車(chē)、金融、有聲閱讀、視頻配音等多個(gè)行業(yè)領(lǐng)域并覆蓋了廣泛的應(yīng)用場(chǎng)景,幫助眾多行業(yè)領(lǐng)頭企業(yè)實(shí)現(xiàn)了AI語(yǔ)音能力的應(yīng)用與拓展,但團(tuán)隊(duì)目標(biāo)并不止步于此。未還來(lái)將繼續(xù)探索前沿科技與業(yè)務(wù)場(chǎng)景的高效結(jié)合,以期為用戶(hù)體驗(yàn)和業(yè)務(wù)增長(zhǎng)注入更多的創(chuàng)新動(dòng)力,并通過(guò)不斷的創(chuàng)新與探索為人們的生活帶來(lái)更多便利與樂(lè)趣。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2023-10-27
超寫(xiě)實(shí)數(shù)字人小燦加入,助力火山語(yǔ)音全類(lèi)型虛擬數(shù)字人應(yīng)用創(chuàng)新
超寫(xiě)實(shí)數(shù)字人小燦加入,助力火山語(yǔ)音全類(lèi)型虛擬數(shù)字人應(yīng)用創(chuàng)新

長(zhǎng)按掃碼 閱讀全文