相芯科技觀察:AI虛擬主播簡史

AI虛擬主播又迎來了高光時刻。

2018年,搜狗和新華社聯(lián)合推出的全球首個AI合成主播的誕生,掀開了“AI+虛擬主播”的神秘面紗,一時間,嗅到“科技紅利”的市場各方開始蜂擁而上。2019央視網(wǎng)絡春晚推出AI虛擬主持人團隊;今年兩會期間,新華社推出AI虛擬主播“新小萌”,人民日報推出AI虛擬主播“小晴”;今年五一期間,北京電視臺推出AI虛擬主播“小萌花”“小萌芽”,央視五四晚會推出AI虛擬主播“小靈”……

回看這波市場熱潮,總讓人有一種錯覺,仿佛回到了當初世界首個虛擬主持人誕生時的群雄起舞。不過,相比當初略顯單薄的虛擬主持人,這次新增的“AI”元素,到底會給市場帶來什么變化?

在回答這個問題之前,我們需先來界定一下概念。關于“AI”“虛擬主播”的概念,目前百度百科上已有了明確的定論,但關于“AI虛擬主播”卻大多“只聞其聲,不知其人”。

相芯科技觀察:AI虛擬主播簡史

翻看各大報道,虛擬主持人和虛擬主播的概念正在相互交融。從主播的定義(百度百科)來看,其在主持人的基礎上,還融合涵蓋了更多領域,以便適用于互聯(lián)網(wǎng)時代的多媒體形態(tài)。

相芯科技觀察:AI虛擬主播簡史

若以此為基準,AI虛擬主播或可定義為,在互聯(lián)網(wǎng)時代,結合人工智能與三維虛擬形象技術,并可自主承擔策劃、編輯、主持、制作等一系列工作的主播。

既然定義已經(jīng)明確,那AI虛擬主播有什么樣的故事呢?

這個,要從一段視頻開始說起……

1.0時代:雛形初顯 虛擬主持人登場

自工業(yè)革命起,以機器代替手工勞動就成了人類努力的方向。隨后,第一臺計算機的發(fā)明,讓機器開始升級為“人工智能”。步入互聯(lián)網(wǎng)時代后,“人工智能”更是加快了替代手工勞動的步伐,并從基礎的體力勞動層面漸漸轉向創(chuàng)意、創(chuàng)作層面。

于是,在翹首期盼了多年后,2001年,傳媒業(yè)終于迎來了“開辟新天地的創(chuàng)舉”——世界上第一個虛擬主持人阿娜諾娃(Ananova)誕生了。CNN將其描述為“一個可播報新聞、體育、天氣等的虛擬播音員,堪比一個真實的有血有肉的主播。”

相芯科技觀察:AI虛擬主播簡史

  (阿娜諾娃)

阿娜諾娃的出現(xiàn),有其獨特的時代背景。當時,隨著網(wǎng)站經(jīng)濟垮臺,互聯(lián)網(wǎng)泡沫破裂,全球動蕩不斷。而動蕩,對于傳媒業(yè)來說,往往意味著“富礦”。如何加快新聞生產(chǎn)速度,提升新聞播報的準確率,成為了各家媒體競爭的焦點。

英國PA New Media公司正是抓住了這一契機,順勢推出了阿娜諾娃,并將其作為英國傳媒業(yè)與美聯(lián)社對抗的“秘密武器”。彼時的阿娜諾娃,雖是一個只有頭部動畫、表情也略顯僵硬的2D虛擬人物,但因可根據(jù)新聞腳本快速制作視頻,并可24小時持續(xù)播報的特點,還是在全球刮起了一陣打造“虛擬主持人”的颶風。

此后,日本推出了寺井有紀(Yuki),中國推出了歌手虛擬主持人阿拉娜(Alana),美國推出了薇薇安(Vivian),韓國推出了露西雅(Lusia)。從2D到3D,從只有頭部到擁有全部身體,從只有虛擬人物播報到擁有演播室進行播報,虛擬主持人日漸成熟,被越來越多媒體關注和使用,并引發(fā)了全社會對“主持人要下崗”的擔憂。

很快,這種擔憂就變成了現(xiàn)實。2004年,央視CCTV-6頻道推出了國內(nèi)首位虛擬電視節(jié)目主持人—小龍。它采用三維形象技術,擁有高挑的身材,集合了劉德華、梁朝偉和金城武的“臉部精華”,并單獨主持了《光影周刊》欄目。小龍的上崗,點燃了國內(nèi)CG技術從電影級走向消費級的星星之火。

相芯科技觀察:AI虛擬主播簡史

  (小龍)

但這把“火”來得快,去得也很快。就在小龍誕生的當年,阿娜諾娃就徹底告別了歷史舞臺。而曾經(jīng)吹捧過她的所有媒體,開始紛紛關閉舊欄目,開設新欄目,換上新的真人主持,好像阿娜諾娃從未出現(xiàn)過一樣。

直至今日,再回看當年的這波虛擬主持人熱潮,仍有幾點值得反思:

技術的成熟是產(chǎn)品出現(xiàn)的關鍵,但產(chǎn)品的成熟度如何,是由市場評判的。市場之所以會追捧虛擬主持人,根本目的是為了節(jié)省制作成本,提升制作效率。但早期的虛擬主持人,從整個制作過程來看,成本其實遠超聘請一位專業(yè)真人主持。

相芯科技觀察:AI虛擬主播簡史

  (“小龍”的整個制作過程)

虛擬主持人具有行業(yè)特殊性,對語音、表情、肢體等都有很高的要求。相比其他行業(yè),主持人最基本的要求就是口才。也就是說,虛擬主持人要達到與真人主持一樣的口才,語音識別和自然語言處理的準確率都要求極高。顯然在這方面,早期虛擬主持人還沒有準備好;其次,要讓虛擬人物播報呈現(xiàn)出自然狀態(tài),就必須解決口型匹配、表情匹配,乃至肢體動作匹配等問題。畢竟只有“音”“容”“笑”“貌”都像人,才不會有違和感;最后,在制作播報視頻時,一定要快、穩(wěn)、準。新聞行業(yè)是一個極為注重時效性的行業(yè),如果制作一個視頻就需要花費幾天乃至幾周的時間,那顯然是偽命題。

虛擬主持人是否一定要像真人,這是在做產(chǎn)品之前必須明確好的方向。早期的虛擬主持人都格外在意“像真人”,似乎這是一條鐵律。這很大程度上,源自在當時環(huán)境下,主持人大多與新聞播報捆綁,像真人才更有可信度。但從長遠發(fā)展來看,“像真人”真的是必須的嗎?

自阿娜諾娃“死”后,虛擬主持人市場仿佛瞬間熄火,自此步入了長達十多年的“黑暗時代”。

2.0時代:偶像先行 AI虛擬主播順風飛翔

2016年,當一位自稱“超級AI”的虛擬主播絆愛(kizuna ai)在YouTube上首次亮相時,也許誰都沒想到,她會成為照亮“黑暗時代”的第一縷曙光。

與早期虛擬主持人不同,絆愛是由真人扮演而成。在專業(yè)公司制定好絆愛的3D模型后,由真人穿上動捕設備,在背后控制絆愛的面部動態(tài)表情及動作,并由聲優(yōu)去配音及對口型,從而進行直播或錄制視頻。

相芯科技觀察:AI虛擬主播簡史

  (絆愛)

相比早期虛擬主持人,絆愛并不“像真人”,而是以二次元形象出道。但從播報狀態(tài)上來看,無論是3D形象,還是語音、動作,絆愛相比早期主持人都明顯更勝一籌。這種整體播報質感和體驗的升級,讓絆愛幾乎在沒有任何市場運作的前提下,YouTube訂閱數(shù)一路扶搖直上,截止目前已超過259萬人,從虛擬主播搖身一變?yōu)槿衽枷瘛?/p>

絆愛的成功,也有其獨特的時代背景。2016年,AlphaGo以1:4打敗圍棋世界冠軍李世石的事實,讓人們意識到,已經(jīng)誕生了幾十年的人工智能,處在了可全面商業(yè)化的臨界點,AI時代正加速到來。

同年,科大訊飛、搜狗、百度先后召開發(fā)布會,對外公布語音識別準確率均達到97%??萍甲悦襟w人闌夕曾說,一旦語音識別的準確率達到99%,那將直接進入產(chǎn)業(yè)爆發(fā)的黎明。巧合的是,這一輪AI虛擬主播熱潮的興起,與AI,特別是語音識別技術的飛躍,幾乎是同步的。

相芯科技觀察:AI虛擬主播簡史

智能語音產(chǎn)業(yè)的發(fā)展速度,在某種程度上影響了AI虛擬主播市場化的進度。但在AI虛擬主播的賽道上,虛擬形象的生成與打造,也是一道繞不過去的坎。畢竟,只有聲、沒有形的主播,只能存在于廣播之中。

2018年5月,科大訊飛攜手相芯科技打造了虛擬主持人“康曉輝”。這位虛擬主持人有著與真人相似的外形,不僅與央視記者江凱一同主持了《直播長江》安徽篇,還在現(xiàn)場進行了實時互動。

相比絆愛,“康曉輝”的一大亮點就在于其背后的虛擬形象生成技術(PTA),該技術讓人們擺脫了3D虛擬形象定制所需的高昂成本,只需普通攝像頭和一張自拍,就可實時生成與自己相似且更美觀的3D虛擬形象。

且先不論“康曉輝”與真人有多相似,但其背后離不開真人的操作,還是暴露了AI虛擬主播的不足。畢竟,用真人驅動虛擬形象,對于傳媒業(yè)來說,并非是一個最好的解決方案。

但“康曉輝”所揭開的瓦片,如同絆愛所帶來的曙光一樣,還是為傳媒業(yè)發(fā)展指明了一個方向:虛擬主播AI化,勢不可擋。

相芯科技觀察:AI虛擬主播簡史

  (圖片源自網(wǎng)絡)

其后的市場走向,也給出了印證。2018年11月,全球首個“AI合成主播”誕生;2019年3月全球首個“AI合成女主播”誕生;2019年春晚AI虛擬主持人團隊誕生……在這套AI虛擬主播的方案中,只需輸入一段既有的新聞文本,主播就可實時進行播報,且發(fā)音與唇形、面部表情等也完全吻合,無論是看上去還是聽上去,似乎都與真人無二了。

當然,這是明面上的效果,確實值得肯定。但這套方案的背后,仍沒有完全AI化。有業(yè)內(nèi)人士指出,AI合成主播的背后,其實是真人在“表演”,它的實現(xiàn)方式是在真人臉上疊加真人的3D模型,并通過人臉檢測與跟蹤技術盡可能讓兩張臉“合二為一”,以呈現(xiàn)出動態(tài)播報效果。

聽上去是不是有點問題?沒錯。試想,如果每一個AI虛擬主播的背后都有一個個真人,那為何不直接用真人就好?邏輯是這樣沒錯,但技術的進步總是需要一個過程,如果與市場的接軌,可以加快技術的進步,避免AI虛擬主播的發(fā)展走入“死胡同”,也未嘗不是一件好事。

從上述AI虛擬主播的演進路線來看,有三個問題是必須要解決的:

是否可以不需真人,實現(xiàn)AI虛擬主播的全自動播報?

目前來看,定制一個主播的虛擬形象,合成一個主播的音色,都花費巨大,這是否可以解決?

在語音識別已漸入佳境時,語音與虛擬形象的高度匹配,是否會成為行業(yè)發(fā)展的下一個突破口?

3.0時代:全面AI化 虛擬主播走入千家萬戶

在電影《西蒙妮》中,人們曾描繪過AI虛擬主播的理想形態(tài):

她是一個由計算機虛擬合成的、高度逼真的三維動畫人物。她美得令人無法拒絕,一言一行都與真人一樣,并可以完成一切表演、播報,且不會有任何緋聞,妥妥的一枚“完美代言人”。

相芯科技觀察:AI虛擬主播簡史

  (圖片源自網(wǎng)絡)

可以取代人類,且不會出現(xiàn)任何差錯,也不會有負面新聞,這是很多人眼中的完美AI虛擬主播。但之后的十多年,不論是影視業(yè)還是AI虛擬主播行業(yè),都不得不面對一個現(xiàn)實:虛擬形象“像真人”并不簡單,目前這個問題是無解的。

有趣的是,2019年《阿麗塔:守護天使》的上映,徹底打破了這個僵局。阿麗塔不僅成為了世界上第一個翻越“恐怖谷”的虛擬人物,還再一次向世人確認了虛擬人物“像真人”的問題是有解的——燒錢就行。

相芯科技觀察:AI虛擬主播簡史

  (阿麗塔的制作成本)

但落地到AI虛擬主播,成本是繞不開的問題,于是主攻的方向就自然變成了如何實現(xiàn)影視級到消費級的技術降維。

目前來看,AI虛擬主播的實現(xiàn)方式大致可分為三種。上述提到的“真人操作”模式,這一模式靈感來源于影視業(yè),實現(xiàn)方式也跟影視業(yè)差不多,都需要配套真人演繹,前期需要進行大量的數(shù)據(jù)采集,中期需要動捕設備來配合播報,后期需要對視頻制作進行再加工。從前期準備到后期制作,成本都不可謂不高,這大概也是該模式目前僅限于一些大媒體,難以大范圍推廣的原因所在。

“AR+AI”模式,靈感來源于全息投影,實現(xiàn)方式依賴于增強現(xiàn)實技術,具體參考百度的AI虛擬主播“小靈”。這一模式,需要提前設置好AI虛擬主播的回答、動作、表情等,并通過其與真人主播的互動,來制造真實感。且因為AI虛擬主播是后期做上去的,所以現(xiàn)場真人主持與其互動時,就需要靠“演”。但這種實現(xiàn)方式,對真人主持的要求極高,對后期制作的要求也很高,從應用層面來看,要大范圍推廣難度顯而易見。

全AI化模式,靈感來源于早期主持人,實現(xiàn)方式和效果卻比早期主持人好很多。這一模式分成定制AI虛擬主播和使用視頻制作后臺兩步,其將上述兩種方式中“人”的成分大大剔除,專注于用AI來替代人力,將虛擬主播的語音、情緒、動作,乃至后期視頻制作需要的圖片、視頻等都集成到后臺編輯系統(tǒng)中。目前來看,它是更接近全自動化,也更節(jié)省制作成本、提升制作效率的方式。

相芯科技觀察:AI虛擬主播簡史

  (小萌芽、小萌花)

但相比前兩者已有多個應用,全AI化的模式目前落地的項目似乎只有世園會期間,北京電視臺和相芯科技聯(lián)手制作的AI虛擬主播小萌芽、小萌花的播報視頻。不過,該視頻中的AI虛擬主播,雖然語音、動作、表情等都已接近真人,但形象上仍是3D卡通人物。

“像真人”,到底什么才像?目前各方并沒有一個明確定論。但從現(xiàn)有的AI虛擬主播來看,相比外形像固定的某一個人,語音、動作、表情,乃至播報時的整體狀態(tài)像真人,似乎更為重要。而要做到這點,還需不斷升級自然語言處理技術和語音動畫合成技術,前者讓人機交互更自然,后者可讓虛擬主播更鮮活。

目前來看,在自然語言處理領域,市場上已涌現(xiàn)了諸如谷歌、微軟、思必馳等眾多國內(nèi)外企業(yè);在語音動畫合成技術領域上,也涌現(xiàn)了諸如百度、相芯科技、搜狗等國內(nèi)企業(yè)。未來,隨著技術加速升級,全AI化的虛擬主播也將加速到來。且相比傳統(tǒng)媒體行業(yè)的應用,也許在自媒體上,這一愿景將會更早實現(xiàn)。畢竟,從全球市場表現(xiàn)來看,截止2018年底,各大平臺上的虛擬主播已經(jīng)超過了6000個。

邁克斯·泰格在《生命LIFE 3.0》一書中說,生命3.0是一個由人工智能重塑的時代。在這個時代,我們可以設計自己的硬件和軟件。這與AI虛擬主播時代,可謂不謀而合。

這個時代,到底離我們還有多遠?

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2019-05-27
相芯科技觀察:AI虛擬主播簡史
AI虛擬主播又迎來了高光時刻。

長按掃碼 閱讀全文