在2021年10月22日華為開發(fā)者大會的直播中,有一位紅衣女孩一直在直播屏幕左下角,兢兢業(yè)業(yè)地為整場大會做實時手語翻譯。這位紅衣女孩是HMS Core團隊的手語數(shù)字人,她基于團隊最新研發(fā)的手語服務,可以完成實時手語翻譯,生成包括身體姿態(tài)、手部動作以及面部表情的手語。有了她,聽障手語使用者也可以“聽”懂HDC大會,獲取到更多感興趣的資訊。這是華為首次采用AI全程手語直播,引發(fā)了線上線下觀眾和媒體的關(guān)注。
一個美好的愿望
手語項目起源于一款在2018年推出的應用StorySign,這是一個將歐美流行兒童書籍轉(zhuǎn)化成手語動畫,幫助有聽力障礙的兒童學習閱讀的App。StorySign的推出為眾多聽障兒童打開了連接世界的一扇窗,也給他們的家庭帶去了溫暖。發(fā)布一段時間后,StorySign逐步上架了71本兒童讀物,支持了英、法、德等15種語言的手語,但同時項目也遇到瓶頸:想要普及手語,讓更多的人學習更豐富的手語,就要有充足的手語動畫作為手語學習的資源。但如何更快速地生成豐富的手語動畫呢?
StorySign集成了HMS Core的OCR(Optical Character Recognition, 光學字符識別)技術(shù),這是一種基于深度學習,將圖片上的文字智能識別成文本的AI技術(shù)。那么,既然AI可以智能識別圖片上的文字, AI能不能做手語翻譯呢?給AI一段話,它如果可以自動翻譯成手語動畫,大家就可以跟著AI學習手語了,甚至AI也能成為聾人與健聽人之間的實時翻譯官,這樣AI造福的不僅僅是兒童的閱讀場景,更是更廣泛的聽障群體!
為了讓AI手語翻譯通過HMS Core能力開放出去,讓開發(fā)者去集成,進而服務到全球4.6億的聽障人群。首先要面對的難題便是 - AI能不能做手語翻譯,從文字智能生成手語動畫?HMS Core組建了覆蓋AI手語翻譯所需要的3D數(shù)字人建模、自然語言理解、計算機視覺、3D動畫、圖形渲染、移動端Android開發(fā)、云側(cè)服務化等眾多關(guān)鍵技術(shù)專家團隊,并邀請到國內(nèi)權(quán)威手語語言學專業(yè)教授作為項目顧問,攜手共同攻關(guān)智能實時手語翻譯項目。
算法和數(shù)據(jù)的雙重挑戰(zhàn)
手語翻譯項目啟動后,團隊通過查閱大量文獻和專利,快速對行業(yè)內(nèi)相關(guān)技術(shù)進行了調(diào)研,一起梳理出了幾大難題。首先,要考慮到手語動作對于精度的高要求,1厘米指尖位置的誤差就可能表示完全不同的意思。其次,中文和手語成對的大規(guī)模高質(zhì)量手語語料極難獲取,無法在短時間內(nèi)找到這么多專業(yè)的手語老師來提供語料。第三,手語作為獨立的語言,有其自身的語法及語序,中文與手語的語法及語序存在差異。例如中文“我沒有帶身份證”,對應的手語語序為“身份證/我/帶/沒有”。最后,手語不僅包括手部動作,還包含身體姿態(tài)及面部表情和口動,多模態(tài)數(shù)據(jù)的協(xié)同生成很重要。
通過對這些難題的逐一分析與解決方案的討論,手語團隊輸出了一種基于文本的多模態(tài)數(shù)字人動作和表情生成方案。這個方案由手語轉(zhuǎn)寫模塊和手語動作表情生成模塊組成,融合了手語語言學領(lǐng)域知識,并且能夠有效解決高質(zhì)量動捕數(shù)據(jù)較少的問題。
算法方案確定后,手語團隊迎來了更大的挑戰(zhàn)——數(shù)據(jù)。在人工智能領(lǐng)域,有句話是“兵馬未動,糧草先行”,對手語翻譯項目來說,“糧草”就是手語數(shù)據(jù)獲取問題,包括手語轉(zhuǎn)寫數(shù)據(jù)和3D動作數(shù)據(jù)。如何制定合理的轉(zhuǎn)寫方案?什么樣的動作捕捉設備采集的數(shù)據(jù)可以滿足手語項目的商用要求?
轉(zhuǎn)寫是一件需要緊密結(jié)合語言學和計算機學的工作。為此,技術(shù)專家們與手語顧問緊密配合,投入到手語語言學知識學習中,經(jīng)過了大量的討論,制定適合項目的手語轉(zhuǎn)寫標準。語言本是一件語感驅(qū)動的事,而計算機則是講究規(guī)則的。為了將手語語言學的知識總結(jié)成計算機能表達出的規(guī)則,團隊里的人工智能專家們和手語顧問對轉(zhuǎn)寫規(guī)則進行了多次討論,反復修改優(yōu)化了20多個版本,最終完成了適合項目要求的定制化轉(zhuǎn)寫方案。
在動作捕捉數(shù)據(jù)方面,通過多方調(diào)研以及對動捕設備現(xiàn)場考察,過數(shù)十種之后,手語團隊發(fā)現(xiàn)發(fā)現(xiàn),動捕數(shù)據(jù)采集情況遠比想象的復雜得多。在動捕采集的過程中,可能引入誤差的原因有很多,例如動捕服不夠貼身、動捕人員身型比例與手語數(shù)字人比例不一致等,導致動捕的原始數(shù)據(jù)無法直接使用。因此,手語團隊立刻組建動作修復小組,加快動捕數(shù)據(jù)的采集進度,使項目得以穩(wěn)步推進。
手語數(shù)字人和開發(fā)者大會的故事
隨著數(shù)據(jù)采集進度的推進和AI算法模型的迭代優(yōu)化,手語服務的工程化也同步進展順利。手語翻譯團隊在短短一周的時間內(nèi)就寫完了移動端SDK開發(fā)代碼,并且順利地完成了端云聯(lián)調(diào)。同時,在嘗試了多種不同的解決方案后,手語翻譯團隊通過旋轉(zhuǎn)角直接驅(qū)動骨骼的方式,避免在驅(qū)動后數(shù)字人動作的微小差別導致手語意思相差甚遠,讓手語數(shù)字人能夠準確地完成手語動作
一切就緒,手語服務準備開放首版本,在HDC交出一份滿意的答卷。手語團隊決定讓手語數(shù)字人全程支持開發(fā)者大會直播演講。這個挑戰(zhàn)可想而知,華為開發(fā)者大會上直播,觀看的人數(shù)非常龐大。如果手語數(shù)字人可以登上這個舞臺,在直播時為聽障朋友們提供手語翻譯,所有觀看直播的人都會注意到這個會打手語的紅衣女孩。這無疑可以吸引更多人來關(guān)注聽障人士,也就可以吸引到更多開發(fā)者借助手語服務來為聽障手語使用者提供服務。
手語服務是從文本生成手語,直播時算法的輸出嚴重依賴于語音識別的結(jié)果,語音識別的準確性如何保障?HDC大會演講中包含大量中英文混合的技術(shù)名詞,怎么讓手語數(shù)字人打出這些詞?把整套驅(qū)動和渲染方案搬到自研引擎上能否兼容?面對這些棘手的問題,手語團隊組建了HDC大會直播攻關(guān)小組,一部分成員攻關(guān)算法,在優(yōu)化手語生成算法模型以覆蓋HDC大會可能會出現(xiàn)的科技語料;另一部分成員攻關(guān)直播時云上語音識別、文字轉(zhuǎn)手語算法部署以及3D模型驅(qū)動問題,以保證直播時手語數(shù)字人能順利識別到話筒中的聲音并打手語。在不到一個月的時間里做足了充足的準備。
在HDC2021如約舉辦的當天。手語團隊的伙伴們在后臺緊張地守著直播畫面,他們緊緊盯著直播屏幕左下角的紅衣女孩,擔心手語數(shù)字人出現(xiàn)任何故障。所幸在整場直播中,她表現(xiàn)得游刃有余,非常驚艷!這一刻,團隊所有人的心情都是一樣的:不懈的努力沒有白費,手語數(shù)字人終于在HDC這個大舞臺上被大家看見了!
這是國內(nèi)首次由數(shù)字虛擬人物進行的實時大會直播手語翻譯,這一切都得益于華為自研的AI算法以及渲染技術(shù),讓大會直播實時手語翻譯在完全無需真人的情況下得以實現(xiàn)。這套基于云技術(shù)的語音識別、手語生成、驅(qū)動渲染的手語翻譯方案經(jīng)過HDC2021得到了驗證,它不僅準確呈現(xiàn)了手語動作,也解決了手語翻譯目前普遍的的一個技術(shù)難點——表情系統(tǒng)。表情的出現(xiàn)讓手語數(shù)字人能夠更加完整準確地表達手語含義,目前手語服務已支持輸出10種不同的表情類型。相信在不久的將來,這套方案可以被搬上媒體內(nèi)容制作中,聽障朋友們也可以獲取更多的社會資訊。
技術(shù)傳遞溫度
全球有4.6億聽障人群,當前的中文手語生成遠遠不足以覆蓋這些人群。未來,HMS Core手語團隊將持續(xù)優(yōu)化手語翻譯效果和手語數(shù)字人渲染效果,同時也將構(gòu)建英文手語生成能力,將手語服務全球化,以服務更多的聽障人群。
相信在不久的將來,手語數(shù)字人可以在更多的場合和大家見面,她可以出現(xiàn)在電視新聞節(jié)目的手語翻譯小窗口中,為大家翻譯新聞;也可以在大家乘坐地鐵、飛機的時候,可以用手語為聽障朋友們播報安全須知;甚至,在一些特殊教育學校里,她可以做一位手語老師,教聽力障礙的同學們學習手語……。懷揣著這個美好的愿望, HMS Core團隊基于手語服務能力正在打造StorySign2.0 APP,希望能帶給聽障人士更多的溫度。
正如HDC大會上的一句話:沒有人能夠熄滅滿天星光,每一位開發(fā)者,都是華為要匯聚的星星之火。目前,手語數(shù)字人已經(jīng)通過HMS Core手語服務向開發(fā)者全面開放,讓更多的應用開發(fā)者都可以通過調(diào)用我們的手語服務SDK,快速實現(xiàn)手語實時翻譯,打造各類手語App,為聽障人士提供更加多樣化的服務。手語服務團隊希望和開發(fā)者一起,共筑華為移動服務的滿天星光,打造一個溝通無障礙的世界。
文章轉(zhuǎn)自《華為人》
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )