當發(fā)現(xiàn)更多AI科技作用于日常生活時,你是否想過竟然有一天會與AI數(shù)字人做同事?日前,火山語音團隊重磅推出了一位神秘新成員——首個超寫實數(shù)字員工小燦!這位新同事不僅形象清新美麗,還有著很強的親和力,大幅提升了工作幸福感,真可謂讓大家率先體驗到了擁有一位超寫實數(shù)字人同事的快樂。
在首爆TVC短片中,作為一位剛參加實習的虛擬數(shù)字員工,小燦對于新工作的忐忑、對于未來的憧憬,如同每一個初入職場的新人一樣真實;她在新環(huán)境中的緊張、對于實習生活的期待、與同事們的自然互動……這些都讓我們看到了虛擬數(shù)字人豐富的情感世界,仿佛她就在眼前。
當然,除了小燦的個性以及情感的靈動展示之外,深扒其背后的技術(shù)實力更是可圈可點。小燦的出現(xiàn),無疑為火山語音在虛擬數(shù)字人領(lǐng)域的未來開啟了新篇章。
聚焦面部、肢體以及音色等多方向
技術(shù)創(chuàng)新助力逼真呈現(xiàn)
長期以來,火山語音團隊致力構(gòu)建全面逼真、快速響應(yīng)、可多場景應(yīng)用的超寫實數(shù)字人。在創(chuàng)作首個數(shù)字員工小燦的過程中,團隊主要在面部驅(qū)動、肢體驅(qū)動以及“一條音頻秒級別音色復(fù)刻”等技術(shù)層面實現(xiàn)了創(chuàng)新突破,共同助力數(shù)字人的逼真呈現(xiàn)。
具體來說,面部驅(qū)動主要采用了表情、唇形聯(lián)合建模的方案,為了實現(xiàn)更細粒度的唇形控制,團隊采用了國際音標 IPA 作為建模單元,基于數(shù)小時的訓(xùn)練數(shù)據(jù)實現(xiàn)高精度的唇形、表情生成,并且基于 IPA 可以在不新增訓(xùn)練數(shù)據(jù)的情況下很容易地進行多語種、多方言的擴展。
另外關(guān)于肢體的AI驅(qū)動,團隊也研發(fā)了以下三種方案:
(a)Motion Blending 動作庫拼接
Motion Blending 動作庫拼接方案,可以應(yīng)用于視頻創(chuàng)作、直播等通用場景,能保證動作生成的質(zhì)量與效率。其中 In-Between 模塊采用基于 Trasnformer 的 Encoder + Decoder 結(jié)構(gòu),將待過渡的兩段動作進行編碼,Decoder 則根據(jù) Position Encoding 作為 Query 查詢;為保證穩(wěn)定,預(yù)測目標是與原始兩片段 Slerp 插值結(jié)果的偏差。內(nèi)部評測結(jié)果表明,這種方案生成的效果大幅優(yōu)于 UE 原生的動作庫拼接方案。此外,為了解決音頻時序?qū)R的問題,需要對動作庫中選取的動作進行截取,為盡可能減少對高質(zhì)量動作庫的破壞,方案根據(jù)待過渡動作的姿態(tài)和運動等信息估計出最優(yōu)插值長度,進一步提高了生成的動作效果。
(b) 端到端
針對直播等交互場景,團隊錄制了數(shù)小時的動作數(shù)據(jù),訓(xùn)練基于 Diffusion (X start) 的端到端 Audio2Gesture 模型,Denoise 模塊考慮了音頻的低/中/高級特征并具有長時依賴信息,確保了生成的動作與輸入音頻節(jié)奏和語義的相關(guān)性。
(c)端到端 + 指定動作
考慮到實際應(yīng)用時,某些場景可能需要一些指定動作,例如打招呼、比心等強語義動作,團隊開發(fā)了基于 Inpainting 方式的動作生成算法,確保指定動作的觸發(fā);而在大部分沒有指定動作的片段,則按照端到端動作生成的方式生成語義和節(jié)奏匹配的動作,并且結(jié)合 Diffusion 模型漸進生成的特性使動作過渡靈活自然。
談及“一條音頻秒級別音色復(fù)刻”技術(shù),也被稱為zero shotTTS。這項技術(shù)能夠在短短幾秒鐘內(nèi)高度還原真人的音色、說話風格以及聲學環(huán)境等特性,種種均建立在火山語音團隊全自主研發(fā)的核心技術(shù)架構(gòu)上,使得其關(guān)鍵性能指標在業(yè)界占優(yōu)。此外,團隊還開發(fā)了基于自回歸GPT類大模型的韻律模塊,目前這個模塊的訓(xùn)練數(shù)據(jù)已經(jīng)超過了20萬個小時,而且其架構(gòu)具有很強的可擴展性,預(yù)計未來能夠支持100萬小時以上的數(shù)據(jù)訓(xùn)練。更重要的一點,這個模塊支持code-switch功能,意味著無論輸入的提示是中文還是英文,都可以直接輸出中文、英文或者混合內(nèi)容。這一功能的實現(xiàn),無疑大幅提升了超寫實數(shù)字人小燦的應(yīng)用范圍以及實用性。
構(gòu)建全類型虛擬數(shù)字人矩陣
輻射多場景應(yīng)用
目前火山語音的數(shù)字人產(chǎn)品已具備包括2D真人、3D卡通和3D超寫實在內(nèi)的全類型虛擬數(shù)字人生產(chǎn)管線。聚焦播報、交互、直播三大核心場景,專注構(gòu)建AI數(shù)字人從原子層到方案層產(chǎn)品能力?;谌匝卸嗄B(tài)交互技術(shù)體系,建立從形象、感知、理解、對話能力都趨近于真人的數(shù)字人,面向行業(yè)客戶持續(xù)提供行業(yè)領(lǐng)先的一站式數(shù)字人解決方案。
具體來說播報場景,火山語音數(shù)字人為泰康保險等客戶提供一站式數(shù)字人音視頻生產(chǎn)平臺,幫助企業(yè)提升內(nèi)容生產(chǎn)效率,打通自動化、高效的數(shù)字人視頻生產(chǎn)鏈路,同時支持詞條精修、文本/音頻驅(qū)動、多軌混編、畫中畫等多項高級功能,助力打造更具差異化、更精品化的內(nèi)容生態(tài)。
交互場景,火山語音數(shù)字人為興業(yè)證券等客戶提供“面對面”交互服務(wù)體驗升級,搭載全自研語音交互技術(shù),結(jié)合大模型精準理解用戶意圖、合理應(yīng)答,滿足智能客服、智能開戶、金融資訊播報、短視頻創(chuàng)作、市場推廣等多場景的數(shù)字營銷需求,助力企業(yè)“數(shù)智化”轉(zhuǎn)型。
直播場景,火山語音數(shù)字人為國信證券等客戶打造“ 全天候數(shù)字人直播間”方案,量身定制品牌數(shù)字人形象。其中數(shù)字人直播平臺滿足0直播間布景費用投入、積木式構(gòu)建劇本內(nèi)容、AI智能劇本生成并提供一鍵推流功能,實現(xiàn)在火山引擎企業(yè)直播、抖音、淘寶、京東等多個平臺開播。
一直以來,火山語音團隊積極將經(jīng)過多年精心打磨的語音技術(shù)能力面向市場開放,通過火山引擎成功地將這些技術(shù)應(yīng)用到了汽車、金融、有聲閱讀、視頻配音等多個行業(yè)領(lǐng)域并覆蓋了廣泛的應(yīng)用場景,幫助眾多行業(yè)領(lǐng)頭企業(yè)實現(xiàn)了AI語音能力的應(yīng)用與拓展,但團隊目標并不止步于此。未還來將繼續(xù)探索前沿科技與業(yè)務(wù)場景的高效結(jié)合,以期為用戶體驗和業(yè)務(wù)增長注入更多的創(chuàng)新動力,并通過不斷的創(chuàng)新與探索為人們的生活帶來更多便利與樂趣。
免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 乘云而上,OceanBase再越山峰
- 新浪新聞探索大會在京舉行 探索新質(zhì)生產(chǎn)力賦能產(chǎn)業(yè)新路徑
- 銷量差異背后:小米如何在全球競爭中逆襲,國內(nèi)卻遭遇瓶頸?
- OPPO式出海,為全球化講一個“落地生根”的故事
- MLPerf Storage揭榜,「存儲」掛帥,驅(qū)動AI上演“飛馳人生”
- 技術(shù)創(chuàng)新締造產(chǎn)業(yè)應(yīng)用價值,京東何曉冬論文獲CIKM最佳時間檢驗獎
- 高通揭開遮羞布,ARM已失去創(chuàng)新力,壟斷地位被動搖
- 中國制造太厲害,售價降九成,三星被迫再關(guān)閉一項業(yè)務(wù)
- 麥當勞、肯德基、星巴克拍短劇,短劇會成為品牌常規(guī)營銷手段嗎?
- 今年雙11大變樣,淘寶京東不卷了!
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。