123,123

近幾年，隨著圖像處理、語音合成、語音識(shí)別、語義理解、多語種等多項(xiàng)人工智能技術(shù)不斷發(fā)展，AI虛擬人開始在各行各業(yè)落地應(yīng)用，各大公司爭相布局。這背后，其實(shí)是AI虛擬人多模態(tài)交互技術(shù)正在成為大趨勢(shì)。

多模態(tài)融合視覺、聽覺、文本等多種模態(tài)信息，能夠打破單模態(tài)輸入輸出限制，從而更貼近人類真實(shí)使用習(xí)慣。對(duì)于AI交互產(chǎn)品來說，只有綜合利用多模態(tài)信息才能更準(zhǔn)確地理解人類行為。但現(xiàn)階段受限于語義鴻溝、異構(gòu)鴻溝、數(shù)據(jù)缺失等原因，多模態(tài)研究還有一定難度，如何將多模態(tài)技術(shù)應(yīng)用于實(shí)際產(chǎn)品仍然困擾著許多開發(fā)者。

本次訊飛開放平臺(tái)樂享A.I.技術(shù)沙龍成都專場(chǎng)，致力于為開發(fā)者們提供破解多模態(tài)技術(shù)落地難題的思路參考。活動(dòng)現(xiàn)場(chǎng)吸引了眾多開發(fā)者參與，來自科大訊飛的多位分享嘉賓與成都的開發(fā)者伙伴齊聚一堂，圍繞“A.I.虛擬人多模態(tài)創(chuàng)新交互”主題，展開了面對(duì)面的深入探討與實(shí)操模擬。

科大訊飛樂享A.I.技術(shù)沙龍成都站成功舉辦，探秘AI虛擬人多模態(tài)交互落地

沙龍開場(chǎng)，訊飛開放平臺(tái)總經(jīng)理張斌發(fā)表了開場(chǎng)致辭。他表示，成都是一個(gè)擁有巨大潛力和機(jī)會(huì)的城市，因此它對(duì)于很多企業(yè)來說有非常大的魅力。電子信息產(chǎn)業(yè)是成都的支柱產(chǎn)業(yè)，今年2月份成都剛剛成為第二批國家人工智能應(yīng)用先導(dǎo)區(qū)，這體現(xiàn)了成都在人工智能行業(yè)中的重要地位。在訊飛開放平臺(tái)上超過210萬開發(fā)者中，來自成都的開發(fā)者數(shù)量也居于各大城市前列。因此科大訊飛希望通過本場(chǎng)沙龍活動(dòng)與成都的開發(fā)者們建立更好的聯(lián)系，一起共建人工智能生態(tài)。

科大訊飛樂享A.I.技術(shù)沙龍成都站成功舉辦，探秘AI虛擬人多模態(tài)交互落地

語音合成領(lǐng)域發(fā)展趨勢(shì)深度洞察

如今，智能語音已經(jīng)成為新交互模態(tài)必不可少的技術(shù)之一，其中，語音合成能力讓產(chǎn)品走向“開口說話”的階段。在未來越來越多的個(gè)性化場(chǎng)景下，語音合成可能會(huì)往哪些方向發(fā)展?訊飛AI研究院副院長江源在語音合成領(lǐng)域從事了十多年的研究，他以“未來個(gè)性場(chǎng)景下語音合成發(fā)展趨勢(shì)”為主題，與現(xiàn)場(chǎng)開發(fā)者分享了他對(duì)于語音合成領(lǐng)域技術(shù)發(fā)展趨勢(shì)的深度洞察。

江源指出，未來面對(duì)越來越豐富的個(gè)性化場(chǎng)景，語音合成技術(shù)的發(fā)展方向?qū)⒅饕扇齻€(gè)訴求牽引，分別是音色、情感和多語種。

科大訊飛樂享A.I.技術(shù)沙龍成都站成功舉辦，探秘AI虛擬人多模態(tài)交互落地

首先，大家都想要擁有一個(gè)獨(dú)一無二的聲音來代表自己、代表品牌形象，因此如何便捷高效地定制個(gè)性化音色是非常大的訴求。在這方面，科大訊飛已經(jīng)能夠提供非常成熟的解決方案和產(chǎn)品，做到品牌個(gè)性化、應(yīng)用個(gè)性化和用戶個(gè)性化，這背后主要依靠的是訊飛自研的基于聽感量化的混合數(shù)據(jù)多層級(jí)建模方案。

其次是自如的情感表達(dá)，傳統(tǒng)的語音合成只要求做到信息播報(bào)，讓聽眾聽清就可以，現(xiàn)在隨著技術(shù)的進(jìn)步，機(jī)器合成的聲音已經(jīng)可以比較好地貼近真人的聲音，大家對(duì)于聲音和效果的要求也更多了，比如希望機(jī)器合成的聲音更好聽、更悅耳、更符合當(dāng)前的使用場(chǎng)景，這就要求機(jī)器能夠更好地表達(dá)交互之間情感的細(xì)微變化。情感也是未來人機(jī)交互中很重要的特性，關(guān)系到人工智能是否可以跨越鴻溝實(shí)現(xiàn)真正的智能。目前科大訊飛正在圍繞可控情感語音合成技術(shù)和可控文本情感預(yù)測(cè)技術(shù)做一些研究和探索。

最后是方言語種的多元需求，這主要是為了幫助我們更好地保護(hù)地域性的語言和文化，以及更好地走向全球化。

訊飛A.I.虛擬人方案及應(yīng)用解讀

目前，AI主播、AI偶像等等AI虛擬人場(chǎng)景已經(jīng)成為各大公司重點(diǎn)布局的方向，這一場(chǎng)景背后從視頻圖像到智能語音技術(shù)缺一不可。訊飛的AI虛擬人方案有哪些技術(shù)創(chuàng)新點(diǎn)?訊飛怎么解決AI虛擬人在內(nèi)容和交互上的問題?訊飛有聲平臺(tái)業(yè)務(wù)部總經(jīng)理郜靜文在以“A.I.虛擬人內(nèi)容生產(chǎn)和多模態(tài)交互”為主題的分享中，詳細(xì)介紹了訊飛A.I.虛擬人的方案及應(yīng)用。

科大訊飛自成立以來就一直在從事A.I.虛擬人相關(guān)技術(shù)的研究，語音合成、語音識(shí)別、語義理解、圖像理解等技術(shù)都為A.I.虛擬人多模態(tài)技術(shù)奠定了基礎(chǔ)。郜靜文在演講中分享了A.I.虛擬人應(yīng)用的發(fā)展歷程，20世紀(jì)80年代，研究人員開始嘗試將虛擬人物引入到現(xiàn)實(shí)世界中，虛擬數(shù)字人步入萌芽階段;21世紀(jì)初，傳統(tǒng)手繪逐漸被CG、動(dòng)作捕捉等技術(shù)取代，虛擬數(shù)字人步入探索階段;近五年，得益于深度學(xué)習(xí)算法的突破，虛擬數(shù)字人制作過程有效簡化，開始步入初級(jí)階段;互聯(lián)網(wǎng)、終端屏等技術(shù)的飛速發(fā)展和海量音視頻內(nèi)容產(chǎn)出的需求，又進(jìn)一步推動(dòng)了A.I.虛擬人技術(shù)的發(fā)展，現(xiàn)如今，虛擬數(shù)字人正朝著智能化、便捷化、精細(xì)化、多樣化成長。

訊飛A.I.虛擬人技術(shù)架構(gòu)的最底層是基礎(chǔ)數(shù)據(jù)，包括業(yè)務(wù)知識(shí)和形象庫、聲音庫;往上一層是包括圖像識(shí)別、語義理解、3D人臉識(shí)別、語音驅(qū)動(dòng)口唇、語音合成、語音識(shí)別、人臉視頻合成、肢體動(dòng)作合成等在內(nèi)的核心技術(shù);再往上是基于核心技術(shù)打造出的2D真人、3D卡通、3D真人等虛擬形象?；谶@些技術(shù)最后呈現(xiàn)給開發(fā)者的主要是三大類業(yè)務(wù)產(chǎn)品：播報(bào)系統(tǒng)，實(shí)現(xiàn)了文字到音頻以及文字到虛擬形象的輸出，也結(jié)合了相關(guān)的視頻處理文件的多軌能力，能夠支持輸入文字以后自動(dòng)輸出需要的視頻，目前這套系統(tǒng)已經(jīng)有一百多個(gè)媒體和企業(yè)在使用;多模態(tài)交互系統(tǒng)，可以應(yīng)用在金融行業(yè)的視頻客服或視頻面試中;軟硬件一體的A.I.虛擬人一體化解決方案，可以放在展廳、大堂做一些交互和客服的工作，減少開發(fā)者和企業(yè)的開發(fā)成本。

科大訊飛樂享A.I.技術(shù)沙龍成都站成功舉辦，探秘AI虛擬人多模態(tài)交互落地

郜靜文在現(xiàn)場(chǎng)發(fā)布了科大訊飛A.I.虛擬人生態(tài)平臺(tái)，希望能有更多技術(shù)合作伙伴共同參與到虛擬人的研發(fā)和平臺(tái)建設(shè)中來。她表示，訊飛將在這個(gè)平臺(tái)中提供更多技術(shù)服務(wù)、SaaS服務(wù)和行業(yè)解決方案，與合作伙伴共建A.I.虛擬人生態(tài)圈。同時(shí)，訊飛對(duì)外開放2項(xiàng)定制能力，分別是A.I.音庫自訓(xùn)練平臺(tái)和A.I.虛擬人服務(wù)調(diào)用，支持公有云調(diào)用、私有化部署。訊飛希望能與合作伙伴共同豐富虛擬人內(nèi)容和服務(wù)，共創(chuàng)共贏。

訊飛開放平臺(tái)產(chǎn)品矩陣

訊飛近幾年一直重點(diǎn)發(fā)力平臺(tái)+賽道的戰(zhàn)略，而平臺(tái)屬性對(duì)于生態(tài)建設(shè)來說必不可少，訊飛開放平臺(tái)也承載著訊飛在AI生態(tài)建設(shè)的野心。訊飛開放平臺(tái)產(chǎn)品運(yùn)營總監(jiān)汪艦為現(xiàn)場(chǎng)開發(fā)者介紹了訊飛開放平臺(tái)目前可以提供哪些技術(shù)產(chǎn)品和解決方案，以及訊飛通過什么樣的思路來優(yōu)化這些產(chǎn)品。

科大訊飛樂享A.I.技術(shù)沙龍成都站成功舉辦，探秘AI虛擬人多模態(tài)交互落地

訊飛開放平臺(tái)成立于2010年，是基于科大訊飛國際領(lǐng)先的人工智能研究成果建設(shè)的AI技術(shù)與生態(tài)服務(wù)平臺(tái)，面向用戶提供語音識(shí)別、語音合成、語義理解、文字識(shí)別、人臉識(shí)別等AI技術(shù)授權(quán)。截至目前，訊飛開放平臺(tái)已經(jīng)擁有330萬生態(tài)合作伙伴，對(duì)外開放了433項(xiàng)AI能力及解決方案，全球使用訊飛開放平臺(tái)技術(shù)能力的終端設(shè)備累計(jì)已經(jīng)超過31億。

汪艦表示，一項(xiàng)技術(shù)在實(shí)驗(yàn)室誕生要走過的路，遠(yuǎn)遠(yuǎn)小于這項(xiàng)技術(shù)從實(shí)驗(yàn)室走出來進(jìn)入大家的生活場(chǎng)景要走的路。語音識(shí)別技術(shù)是訊飛的強(qiáng)項(xiàng)，但同樣也會(huì)收到很多客戶和使用者反饋的各種問題，為了解決這些問題，訊飛研發(fā)團(tuán)隊(duì)做了非常多努力。解決語音識(shí)別問題的核心是提高識(shí)別率，第一步是做好聲學(xué)前端處理，通過聲源定位、噪聲抑制、回聲消除等技術(shù)，從硬件上解決識(shí)別中的噪聲問題;第二步可以通過算法層面的聲學(xué)模型定制和語言模型定制來提高識(shí)別率;第三步可以借助多模態(tài)技術(shù)，讓機(jī)器一邊聽一邊看，通過捕捉主要說話人來提高識(shí)別率。

對(duì)于訊飛開放平臺(tái)的基本理念，汪艦也進(jìn)行了解讀，他指出，開放平臺(tái)的源頭是數(shù)據(jù)，在很多場(chǎng)景下，數(shù)據(jù)來自各個(gè)行業(yè)的開發(fā)者和數(shù)據(jù)擁有者;拿到數(shù)據(jù)之后首先會(huì)進(jìn)行數(shù)據(jù)標(biāo)注，然后放到訊飛提供的機(jī)器學(xué)習(xí)引擎中去訓(xùn)練，最終輸出一個(gè)引擎模型，訊飛會(huì)提供引擎部署服務(wù)，可以將這個(gè)引擎放到訊飛的開發(fā)平臺(tái)上做云端的調(diào)用或本地化部署。

除了精彩的大咖分享環(huán)節(jié)之外，沙龍最后還安排了Workshop實(shí)操接入環(huán)節(jié)，現(xiàn)場(chǎng)由訊飛有聲平臺(tái)研發(fā)工程師呂磊手把手現(xiàn)場(chǎng)教學(xué)，帶領(lǐng)開發(fā)者體驗(yàn)訊飛AI虛擬人接入實(shí)踐，基于訊飛開放平臺(tái)能力，不同行業(yè)的開發(fā)者都能快速開發(fā)出可以滿足特定場(chǎng)景需求的A.I.虛擬人。

科大訊飛樂享A.I.技術(shù)沙龍成都站成功舉辦，探秘AI虛擬人多模態(tài)交互落地

雖然成都專場(chǎng)活動(dòng)已經(jīng)落下帷幕，但訊飛開放平臺(tái)樂享A.I.技術(shù)沙龍系列活動(dòng)才只是剛剛開始。接下來，訊飛開放平臺(tái)樂享A.I.技術(shù)沙龍系列活動(dòng)將繼續(xù)向全國各大重點(diǎn)城市出發(fā)，圍繞AI熱點(diǎn)能力分享、行業(yè)應(yīng)用探究和Workshop技術(shù)實(shí)踐等豐富形式，與各地開發(fā)者展開實(shí)地面對(duì)面交流，為大家提供最新的人工智能理念、產(chǎn)品技術(shù)、解決方案和實(shí)踐經(jīng)驗(yàn)。

下一站，樂享A.I.技術(shù)沙龍將會(huì)走進(jìn)哪個(gè)城市呢?讓我們拭目以待!(通訊員：陳彤)

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

科大訊飛樂享A.I.技術(shù)沙龍成都站成功舉辦，探秘AI虛擬人多模態(tài)交互落地

科大訊飛樂享A.I.技術(shù)沙龍成都站成功舉辦，探秘AI虛擬人多模態(tài)交互落地