原標題:那段記憶中的聲音:單式評書再現(xiàn)江湖背后的AI技術(shù)
“聽眾朋友們,你們好。從今兒個,由我為大家播講懸疑小說,《江湖消亡史:北平暗夜》。這個故事發(fā)生在民國十幾年的北京城里……”情感充沛的評書腔調(diào),蒼勁沙啞的嗓音,單田芳大師的“聲音”再次響起,熱愛評書的朋友一聽恍若隔世,已故的單老評書怎么突然回來了?
三年前,無數(shù)人感慨世上再無“下回分解”,網(wǎng)友們的呼喚被聽見了,為致敬單老,也為給遍布大江南北的書迷朋友們一個驚喜,喜馬拉雅運用AI技術(shù)讓“書接上回”重現(xiàn)江湖。
耳熟能詳單老的“下回分解”故事重新回歸,這段記憶中的聲音背后,是來自于喜馬拉雅的語音合成(TTS: Text-to-speech)技術(shù),即將文字轉(zhuǎn)化為聲音,喜馬拉雅的技術(shù)團隊還將單田芳先生的AI合成音應用于六部風格各異的書籍,用單式評書腔調(diào),全新演繹聽眾耳熟能詳?shù)慕?jīng)典之作。
語音AI讓單老聲音重煥新生
不熟悉評書的朋友們可能不知道單老的魅力。在北方的出租車上,遇到司機在播放單老的評書概率還是蠻高的,而在喜馬拉雅的評書類目中,單老的專輯評書節(jié)目長期在熱播榜前列。例如,《亂世梟雄》在喜馬拉雅的播放量近24億,《白眉大俠》播放量近20億。在民間也有個說法:“凡有井水處,皆聽單田芳。”喜愛他的書迷遍布大江南北,故事中的魅力經(jīng)過單老情感充沛的演繹極富有味道。
打開喜馬拉雅,在《單田芳聲音 AI 重現(xiàn)系列》專輯中,既有直擊淚點、奇人異事道盡人生悲歡的武俠小說——趙晨光的《江湖消亡史:北平暗夜》,也有傳達時代脈動的紀實文學——陳廷一的《毛氏三兄弟:三兄弟與共和國奠基》,還有時下流行、故事情節(jié)曲折奇特的推理小說——紫金陳的《無證之罪》,更有延續(xù)單老生前未完成的評書經(jīng)典——宮白羽的《十二金錢鏢》……
這些經(jīng)典之作讓評書愛好者像過年一般。大家想念單式評書中的故事與人生,人物的百轉(zhuǎn)千回與俠義灑脫。單老的聲音與跌宕起伏的故事加起來就等于完美,讓人立馬沉浸在故事的世界中。很多書評愛好者都留言表示:怎么沒有早點用AI技術(shù)啊,讓人癡癡等了好幾年。幸運的是,有人在為傳統(tǒng)藝術(shù)默默出力,完美復現(xiàn)單老聲音的背后,是來自于喜馬拉雅智能語音實驗室團隊的AI技術(shù)。
據(jù)喜馬拉雅智能語音實驗室盧恒博士的介紹,喜馬拉雅智能語音實驗室運用TTS 技術(shù),融入團隊自主設計的韻律提取模塊以及專門的口音模塊,才得以實現(xiàn)原汁原味的單老獨特聲線。
TTS技術(shù)早已在喜馬拉雅電子書、新聞等領(lǐng)域?qū)崿F(xiàn)了廣泛的應用,能夠高效地將新聞、書籍和文章中的大量文字信息轉(zhuǎn)為音頻,大幅提升了音頻的生產(chǎn)效率。但是主流的TTS 框架模型是對音頻內(nèi)容直接進行提取和合成,最終成型的內(nèi)容效果整體上來說人的那部分情感和情緒都顯得很寡淡。而在評書這個場景中,韻律的起伏非常大,正是因為韻律的變化才使得評書引人入勝,平淡的情緒和腔調(diào)帶來的后果就非常致命了,而這也是TTS技術(shù)中的難點。
喜馬拉雅智能語音實驗室自主設計的韻律提取模塊,無論單田芳先生評書中的韻律多么豐富和多變,都能提取并完全復刻出來,這才讓單老的AI合成音仿佛本尊再現(xiàn)。
另外,評書中有很多特殊口音,比如口語化的評書中,“這個”中的“這”字,普通話發(fā)音“zhè”,但在評書中通常讀為“zhèi”,跟普通話的發(fā)音有很大的區(qū)別。為此,喜馬拉雅團隊專門做了特殊重音和停頓的標注,才使單老AI合成音能夠還原出老味道。
除了高度還原單老的聲音外,在新的專輯中,也加入了高級音效設計師的配樂與音效,讓聽眾通過耳朵就能獲得身臨其境的沉浸式體驗,評書中的世界立馬變得立體和生動起來。
通過這些彎彎折折,單式評書才得以重見天日。
天生相互吸引:內(nèi)容與AI語音技術(shù)的邂逅
我們聽到的原汁原味的單老“聲音”,其完美復現(xiàn)并非偶然,而這也只是喜馬拉雅TTS技術(shù)的冰山一角。喜馬拉雅已在智能語音技術(shù)上深耕多年,尤其是在TTS領(lǐng)域方面潛心鉆研多年。
目前TTS在業(yè)界的發(fā)展十分迅速,國內(nèi)布局TTS賽道的有一線大廠,比如阿里擁有的語音合成技術(shù)KAN-TTS,騰訊云在語音合成方面也有技術(shù)研發(fā)。國外像DeepMind創(chuàng)建的語音合成器WaveNet,讓語音合成的音質(zhì)有了大幅的提升。2016年,谷歌DeepMind推出了用于生成原始音頻波形的深層神經(jīng)網(wǎng)絡模型—“WaveNet”,并在一年多的時間內(nèi)將原始模型的效率提高了1000倍,而在一組美式英語的人類聽眾測試中,WaveNet的得分超過了真實人類語音。
喜馬拉雅語音技術(shù)團隊也已經(jīng)研發(fā)出自己的聲碼器“PhaseGAN”,這種基于生成對抗網(wǎng)絡的聲碼器甚至有著比WaveNet 更高的生產(chǎn)效率。
喜馬拉雅TTS技術(shù)的核心,就在于如何讓機器的聲音聽上去韻律自然、情感充沛。說白了,就是如何在機器聲音中注入人性。拿有聲小說這個場景來說,用TTS音色演繹有聲小說需要學習小說中的抑揚頓挫、情感表達、上下文關(guān)系,區(qū)分旁白和對白等,將作品像真人一般呈現(xiàn)出來很困難。
而喜馬拉雅的TTS模型系統(tǒng)有著獨特的基因優(yōu)勢:
1.內(nèi)容數(shù)據(jù)豐富,區(qū)別于一線廠商的數(shù)據(jù)來源,喜馬拉雅在音頻賽道多年耕耘,已積累海量的內(nèi)容,包含大量的有聲書內(nèi)容與眾多的主播,基于這些龐大的語音素材庫,喜馬拉雅有強勁的模型迭代語料和更大的發(fā)揮空間。
2.數(shù)據(jù)是模型迭代的燃料基礎,在此之上,喜馬拉雅也有厚重的研發(fā)實力。在語音合成、語音識別、智能音效、語音編解碼、語音信號處理和虛擬主播等技術(shù)上,喜馬拉雅都進行了深度研發(fā),自研的TTS前端文本處理分析模塊,可高精度、全自動地對文本進行多音字識別、韻律預測和風格分類,可以演繹不同情緒文字,還能自動區(qū)分旁白、對白,并支持英文,豐富了TTS能表達的情感和韻律。
3.專利效能,現(xiàn)下喜馬拉雅已申請了三項TTS語音合成相關(guān)專利,一是在沒有任何英文原始數(shù)據(jù)的TTS聲音就能夠?qū)崿F(xiàn)說英文的技術(shù)框架,讓不會說英文的人也能流利地講英文。另外,喜馬拉雅還采用并行解碼器,生成語音合成序列,改進了語音合成后端模型的結(jié)構(gòu)和效率。
我們可以發(fā)現(xiàn)TTS技術(shù)的獨特優(yōu)勢可以豐富內(nèi)容的生產(chǎn)迭代,不僅將提高內(nèi)容生產(chǎn)效率,也讓更多不同內(nèi)容的生產(chǎn)成為可能。在喜馬拉雅當下主要的PGC、UGC、PUGC三大內(nèi)容生產(chǎn)模式之外,AI語音技術(shù)的更新迭代讓第四種新內(nèi)容生產(chǎn)模式——AIGC成為可能,并展現(xiàn)出更大的想象空間。
喜馬拉雅的內(nèi)容生態(tài)經(jīng)過多年的積累、更新,內(nèi)容精良并且IP豐富。豐富的IP與技術(shù)的結(jié)合將可能碰撞出更加多元的火花,讓聽眾聽到以往所難以甚至不可能聽到的內(nèi)容。把腦洞開得大一些,在AI語音的賦能下,未來我們是否可能聽到各種內(nèi)容IP和不同聲音IP的組合?比如,孫儷“聲音”演播的《甄嬛傳》,孫紅雷“聲音”演播的《掃黑風暴》,甚至,張藝興版的評書,易烊千璽版的童話故事等內(nèi)容。這些逼真自然的聲音和不同內(nèi)容相結(jié)合,在各類題材和頻道中出現(xiàn),將會給聽眾帶來很多驚喜。只有你想不到,沒有AI做不到。
技術(shù)與內(nèi)容的雙向賦能如同兩個嚙合完美的齒輪一般,驅(qū)動著喜馬拉雅內(nèi)容和產(chǎn)品的更新迭代。從數(shù)據(jù)上來看,用戶用腳投票,喜馬拉雅的月活跑在了行業(yè)前列。據(jù)喜馬拉雅招股書內(nèi)容顯示,截至上半年,移動端總收聽時長和在線音頻總收入來看,喜馬拉雅是中國最大在線音頻平臺,平均MAU達2.62億,其中包括1.1億移動端用戶和1.51億的物聯(lián)網(wǎng)及其他開放平臺的用戶。移動端用戶共花費8478億分鐘收聽喜馬拉雅音頻內(nèi)容,占中國在線音頻總收聽時長的70.9%。
在雙飛輪驅(qū)動的模式下,喜馬拉雅內(nèi)容和技術(shù)都在向前向深飛馳,給我們用戶帶來了更加豐富的內(nèi)容與體驗。剖析音頻行業(yè)這個并不為大眾熟知的賽道,可以透視到是什么決定了機器如何說話,決定了用戶耳朵的體驗與舒適度,也可以看到頭部的企業(yè)帶來了哪些經(jīng)驗,如何撬開智能語音的富礦。
“聲”寫未來
給大家一個數(shù)據(jù)感受下音頻市場的增長勢態(tài)。據(jù)悉,2020年中國在線音頻用戶數(shù)量已經(jīng)有6.4億人,其中超六成用戶表示曾經(jīng)購買過在線音頻服務,預計2022年將達到6.9億人。沒想到吧,大家的付費意愿竟然這么強勢。平時勤儉節(jié)約的大家,在豐富精神世界方面,卻舍得愿意為大腦和心靈投資。
在音頻市場的快速增長下,圍繞“耳朵經(jīng)濟”的競爭日趨激烈,除喜馬拉雅、荔枝、蜻蜓FM等老牌平臺之外,騰訊、字節(jié)跳動等互聯(lián)網(wǎng)巨頭以及中央廣播電視總臺這樣的“國家隊”也紛紛進入這一賽道。各大平臺內(nèi)容類型的豐裕程度與是否具有差異化的優(yōu)質(zhì)內(nèi)容是吸引用戶以及撬動用戶付費的關(guān)鍵。
可以預見的是,在語音技術(shù)加成下,TTS技術(shù)制作的高效高質(zhì)音頻內(nèi)容會進一步賦能優(yōu)質(zhì)內(nèi)容的生產(chǎn),喜馬拉雅的內(nèi)容生態(tài)“PGC、UGC、PUGC”也將因為新成員AIGC的加入,在內(nèi)容創(chuàng)造方面,帶給用戶更多的聽覺盛宴。
喜馬拉雅的AI技術(shù)與內(nèi)容互相磁吸,螺旋纏繞不斷向前向深發(fā)展, AI技術(shù)為喜馬拉雅的內(nèi)容生態(tài)加碼,而內(nèi)容反哺技術(shù)不斷精進。技術(shù)與內(nèi)容的全面融合也撬開了未來的智能語音合成市場富礦:
1.對傳統(tǒng)文化的傳承,豐富和傳承評書這類非物質(zhì)文化遺產(chǎn),影響越來越多的傳統(tǒng)文化愛好者和青年演員去參與其中,創(chuàng)造更豐富的文化遺產(chǎn)。
2.對平臺的創(chuàng)作者來說,提升效率和內(nèi)容的質(zhì)量,讓創(chuàng)作者不再陷入音頻制作的重復性工作中,在多種內(nèi)容的制作方面TTS都可以賦能創(chuàng)作者的轉(zhuǎn)型升級。
3.AI技術(shù)及大數(shù)據(jù)分析能力讓內(nèi)容創(chuàng)作、分發(fā)和運營更加精準化,隨著音頻內(nèi)容逐漸規(guī)?;?,以及技術(shù)的迭代更新,AI對于內(nèi)容的全生命流程參與程度也越來越高,從而讓音頻內(nèi)容呈現(xiàn)更豐富更智能化的趨勢。
移動互聯(lián)網(wǎng)的快速發(fā)展下,有聲讀物成為我們隨身攜帶的“避難所”。在這些聲音里面,我們療愈自己,經(jīng)歷他人的跌宕生活,感受故事中的喜怒哀樂和人生百態(tài)。無論是內(nèi)容的量與質(zhì),還是技術(shù)的深度研發(fā),喜馬拉雅牽引著行業(yè)不斷進步,激發(fā)更多的廠商去深耕音頻行業(yè),迭代創(chuàng)新能力。而這也意味著,我們這些喜愛有聲讀物的用戶會擁有更豐富的眼界與精神世界。
聲音不僅僅只是一個簡單的溝通工具,里面包含了豐富的知識智慧、故事情感,它讓流淌的時間更有意義,讓我們的精神生活更加豐盛。而技術(shù)正不斷豐富著聲音的世界,為我們的耳朵帶給我們越來越多元、豐富的體驗。
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。