近幾年,隨著圖像處理、語音合成、語音識別、語義理解、多語種等多項人工智能技術(shù)不斷發(fā)展,AI虛擬人開始在各行各業(yè)落地應用,各大公司爭相布局。這背后,其實是AI虛擬人多模態(tài)交互技術(shù)正在成為大趨勢。
多模態(tài)融合視覺、聽覺、文本等多種模態(tài)信息,能夠打破單模態(tài)輸入輸出限制,從而更貼近人類真實使用習慣。對于AI交互產(chǎn)品來說,只有綜合利用多模態(tài)信息才能更準確地理解人類行為。但現(xiàn)階段受限于語義鴻溝、異構(gòu)鴻溝、數(shù)據(jù)缺失等原因,多模態(tài)研究還有一定難度,如何將多模態(tài)技術(shù)應用于實際產(chǎn)品仍然困擾著許多開發(fā)者。
本次訊飛開放平臺樂享A.I.技術(shù)沙龍成都專場,致力于為開發(fā)者們提供破解多模態(tài)技術(shù)落地難題的思路參考。活動現(xiàn)場吸引了眾多開發(fā)者參與,來自科大訊飛的多位分享嘉賓與成都的開發(fā)者伙伴齊聚一堂,圍繞“A.I.虛擬人多模態(tài)創(chuàng)新交互”主題,展開了面對面的深入探討與實操模擬。
沙龍開場,訊飛開放平臺總經(jīng)理張斌發(fā)表了開場致辭。他表示,成都是一個擁有巨大潛力和機會的城市,因此它對于很多企業(yè)來說有非常大的魅力。電子信息產(chǎn)業(yè)是成都的支柱產(chǎn)業(yè),今年2月份成都剛剛成為第二批國家人工智能應用先導區(qū),這體現(xiàn)了成都在人工智能行業(yè)中的重要地位。在訊飛開放平臺上超過210萬開發(fā)者中,來自成都的開發(fā)者數(shù)量也居于各大城市前列。因此科大訊飛希望通過本場沙龍活動與成都的開發(fā)者們建立更好的聯(lián)系,一起共建人工智能生態(tài)。
語音合成領(lǐng)域發(fā)展趨勢深度洞察
如今,智能語音已經(jīng)成為新交互模態(tài)必不可少的技術(shù)之一,其中,語音合成能力讓產(chǎn)品走向“開口說話”的階段。在未來越來越多的個性化場景下,語音合成可能會往哪些方向發(fā)展?訊飛AI研究院副院長江源在語音合成領(lǐng)域從事了十多年的研究,他以“未來個性場景下語音合成發(fā)展趨勢”為主題,與現(xiàn)場開發(fā)者分享了他對于語音合成領(lǐng)域技術(shù)發(fā)展趨勢的深度洞察。
江源指出,未來面對越來越豐富的個性化場景,語音合成技術(shù)的發(fā)展方向?qū)⒅饕扇齻€訴求牽引,分別是音色、情感和多語種。
首先,大家都想要擁有一個獨一無二的聲音來代表自己、代表品牌形象,因此如何便捷高效地定制個性化音色是非常大的訴求。在這方面,科大訊飛已經(jīng)能夠提供非常成熟的解決方案和產(chǎn)品,做到品牌個性化、應用個性化和用戶個性化,這背后主要依靠的是訊飛自研的基于聽感量化的混合數(shù)據(jù)多層級建模方案。
其次是自如的情感表達,傳統(tǒng)的語音合成只要求做到信息播報,讓聽眾聽清就可以,現(xiàn)在隨著技術(shù)的進步,機器合成的聲音已經(jīng)可以比較好地貼近真人的聲音,大家對于聲音和效果的要求也更多了,比如希望機器合成的聲音更好聽、更悅耳、更符合當前的使用場景,這就要求機器能夠更好地表達交互之間情感的細微變化。情感也是未來人機交互中很重要的特性,關(guān)系到人工智能是否可以跨越鴻溝實現(xiàn)真正的智能。目前科大訊飛正在圍繞可控情感語音合成技術(shù)和可控文本情感預測技術(shù)做一些研究和探索。
最后是方言語種的多元需求,這主要是為了幫助我們更好地保護地域性的語言和文化,以及更好地走向全球化。
訊飛A.I.虛擬人方案及應用解讀
目前,AI主播、AI偶像等等AI虛擬人場景已經(jīng)成為各大公司重點布局的方向,這一場景背后從視頻圖像到智能語音技術(shù)缺一不可。訊飛的AI虛擬人方案有哪些技術(shù)創(chuàng)新點?訊飛怎么解決AI虛擬人在內(nèi)容和交互上的問題?訊飛有聲平臺業(yè)務部總經(jīng)理郜靜文在以“A.I.虛擬人內(nèi)容生產(chǎn)和多模態(tài)交互”為主題的分享中,詳細介紹了訊飛A.I.虛擬人的方案及應用。
科大訊飛自成立以來就一直在從事A.I.虛擬人相關(guān)技術(shù)的研究,語音合成、語音識別、語義理解、圖像理解等技術(shù)都為A.I.虛擬人多模態(tài)技術(shù)奠定了基礎(chǔ)。郜靜文在演講中分享了A.I.虛擬人應用的發(fā)展歷程,20世紀80年代,研究人員開始嘗試將虛擬人物引入到現(xiàn)實世界中,虛擬數(shù)字人步入萌芽階段;21世紀初,傳統(tǒng)手繪逐漸被CG、動作捕捉等技術(shù)取代,虛擬數(shù)字人步入探索階段;近五年,得益于深度學習算法的突破,虛擬數(shù)字人制作過程有效簡化,開始步入初級階段;互聯(lián)網(wǎng)、終端屏等技術(shù)的飛速發(fā)展和海量音視頻內(nèi)容產(chǎn)出的需求,又進一步推動了A.I.虛擬人技術(shù)的發(fā)展,現(xiàn)如今,虛擬數(shù)字人正朝著智能化、便捷化、精細化、多樣化成長。
訊飛A.I.虛擬人技術(shù)架構(gòu)的最底層是基礎(chǔ)數(shù)據(jù),包括業(yè)務知識和形象庫、聲音庫;往上一層是包括圖像識別、語義理解、3D人臉識別、語音驅(qū)動口唇、語音合成、語音識別、人臉視頻合成、肢體動作合成等在內(nèi)的核心技術(shù);再往上是基于核心技術(shù)打造出的2D真人、3D卡通、3D真人等虛擬形象?;谶@些技術(shù)最后呈現(xiàn)給開發(fā)者的主要是三大類業(yè)務產(chǎn)品:播報系統(tǒng),實現(xiàn)了文字到音頻以及文字到虛擬形象的輸出,也結(jié)合了相關(guān)的視頻處理文件的多軌能力,能夠支持輸入文字以后自動輸出需要的視頻,目前這套系統(tǒng)已經(jīng)有一百多個媒體和企業(yè)在使用;多模態(tài)交互系統(tǒng),可以應用在金融行業(yè)的視頻客服或視頻面試中;軟硬件一體的A.I.虛擬人一體化解決方案,可以放在展廳、大堂做一些交互和客服的工作,減少開發(fā)者和企業(yè)的開發(fā)成本。
郜靜文在現(xiàn)場發(fā)布了科大訊飛A.I.虛擬人生態(tài)平臺,希望能有更多技術(shù)合作伙伴共同參與到虛擬人的研發(fā)和平臺建設(shè)中來。她表示,訊飛將在這個平臺中提供更多技術(shù)服務、SaaS服務和行業(yè)解決方案,與合作伙伴共建A.I.虛擬人生態(tài)圈。同時,訊飛對外開放2項定制能力,分別是A.I.音庫自訓練平臺和A.I.虛擬人服務調(diào)用,支持公有云調(diào)用、私有化部署。訊飛希望能與合作伙伴共同豐富虛擬人內(nèi)容和服務,共創(chuàng)共贏。
訊飛開放平臺產(chǎn)品矩陣
訊飛近幾年一直重點發(fā)力平臺+賽道的戰(zhàn)略,而平臺屬性對于生態(tài)建設(shè)來說必不可少,訊飛開放平臺也承載著訊飛在AI生態(tài)建設(shè)的野心。訊飛開放平臺產(chǎn)品運營總監(jiān)汪艦為現(xiàn)場開發(fā)者介紹了訊飛開放平臺目前可以提供哪些技術(shù)產(chǎn)品和解決方案,以及訊飛通過什么樣的思路來優(yōu)化這些產(chǎn)品。
訊飛開放平臺成立于2010年,是基于科大訊飛國際領(lǐng)先的人工智能研究成果建設(shè)的AI技術(shù)與生態(tài)服務平臺,面向用戶提供語音識別、語音合成、語義理解、文字識別、人臉識別等AI技術(shù)授權(quán)。截至目前,訊飛開放平臺已經(jīng)擁有330萬生態(tài)合作伙伴,對外開放了433項AI能力及解決方案,全球使用訊飛開放平臺技術(shù)能力的終端設(shè)備累計已經(jīng)超過31億。
汪艦表示,一項技術(shù)在實驗室誕生要走過的路,遠遠小于這項技術(shù)從實驗室走出來進入大家的生活場景要走的路。語音識別技術(shù)是訊飛的強項,但同樣也會收到很多客戶和使用者反饋的各種問題,為了解決這些問題,訊飛研發(fā)團隊做了非常多努力。解決語音識別問題的核心是提高識別率,第一步是做好聲學前端處理,通過聲源定位、噪聲抑制、回聲消除等技術(shù),從硬件上解決識別中的噪聲問題;第二步可以通過算法層面的聲學模型定制和語言模型定制來提高識別率;第三步可以借助多模態(tài)技術(shù),讓機器一邊聽一邊看,通過捕捉主要說話人來提高識別率。
對于訊飛開放平臺的基本理念,汪艦也進行了解讀,他指出,開放平臺的源頭是數(shù)據(jù),在很多場景下,數(shù)據(jù)來自各個行業(yè)的開發(fā)者和數(shù)據(jù)擁有者;拿到數(shù)據(jù)之后首先會進行數(shù)據(jù)標注,然后放到訊飛提供的機器學習引擎中去訓練,最終輸出一個引擎模型,訊飛會提供引擎部署服務,可以將這個引擎放到訊飛的開發(fā)平臺上做云端的調(diào)用或本地化部署。
除了精彩的大咖分享環(huán)節(jié)之外,沙龍最后還安排了Workshop實操接入環(huán)節(jié),現(xiàn)場由訊飛有聲平臺研發(fā)工程師呂磊手把手現(xiàn)場教學,帶領(lǐng)開發(fā)者體驗訊飛AI虛擬人接入實踐,基于訊飛開放平臺能力,不同行業(yè)的開發(fā)者都能快速開發(fā)出可以滿足特定場景需求的A.I.虛擬人。
雖然成都專場活動已經(jīng)落下帷幕,但訊飛開放平臺樂享A.I.技術(shù)沙龍系列活動才只是剛剛開始。接下來,訊飛開放平臺樂享A.I.技術(shù)沙龍系列活動將繼續(xù)向全國各大重點城市出發(fā),圍繞AI熱點能力分享、行業(yè)應用探究和Workshop技術(shù)實踐等豐富形式,與各地開發(fā)者展開實地面對面交流,為大家提供最新的人工智能理念、產(chǎn)品技術(shù)、解決方案和實踐經(jīng)驗。
下一站,樂享A.I.技術(shù)沙龍將會走進哪個城市呢?讓我們拭目以待!(通訊員:陳彤)
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )