語(yǔ)音合成商業(yè)化:科大訊飛向左,魔音工坊向右

近年來(lái)隨著AI技術(shù)的迅速發(fā)展,人機(jī)交互變得越來(lái)越頻繁,“語(yǔ)音合成”就是人機(jī)交互中的重要一環(huán)。語(yǔ)音合成技術(shù)又被稱為文語(yǔ)轉(zhuǎn)換(TTS)技術(shù),就是可以將文字信息轉(zhuǎn)化為流暢標(biāo)準(zhǔn)的語(yǔ)音,其所合成的聲音既可以是模仿某個(gè)人的聲音,也可以是包含特定風(fēng)格的聲音,甚至能摻雜一定的情感成分?;谶@樣的特點(diǎn),語(yǔ)音合成技術(shù)能夠應(yīng)用到許多領(lǐng)域,既可以改善人機(jī)交互困難的情景,使人類(lèi)與計(jì)算機(jī)的交流更加方便快捷,也可以幫有身體障礙,只能通過(guò)語(yǔ)音來(lái)交流的特殊人群。

但是,在人機(jī)互動(dòng)之外,語(yǔ)音合成的商業(yè)化一直是個(gè)隱藏在人工智能后面的神秘角色,但大體來(lái)講,可以分為兩種類(lèi)型:一種是借著技術(shù)優(yōu)勢(shì)做賦能,代表為科大訊飛的訊飛開(kāi)放平臺(tái);另一種是貼近需求做應(yīng)用,代表為出門(mén)問(wèn)問(wèn)的魔音工坊。

配圖來(lái)自Canva可畫(huà)

隱藏在人工智能背后的狹小市場(chǎng)

語(yǔ)音合成市場(chǎng)是個(gè)極為細(xì)分的狹小市場(chǎng),與之并列的還有語(yǔ)音識(shí)別、語(yǔ)音分析等,說(shuō)到底,語(yǔ)音合成不過(guò)是人工智能在應(yīng)用過(guò)程中的副產(chǎn)品罷了。但也正是因此,語(yǔ)音合成技術(shù)就處在了一個(gè)“難者不會(huì),會(huì)者不難”的尷尬區(qū)間,所以市面上的語(yǔ)音合成技術(shù)基本上都來(lái)自人工智能廠商,至少是對(duì)人工智能有所參與的廠商。

例如各大云服務(wù)廠商就都有語(yǔ)音合成的服務(wù),包括騰訊云、阿里云、百度AI開(kāi)放平臺(tái)以及字節(jié)跳動(dòng)的火山引擎。

“語(yǔ)音合成”用最簡(jiǎn)單的方式理解,歸根結(jié)底不過(guò)是讓機(jī)器將文本“說(shuō)出來(lái)”。雖然語(yǔ)音合成總是與人工智能相關(guān),但其實(shí)只要用戶需要,就能成為一種應(yīng)用場(chǎng)景,因此語(yǔ)音合成的應(yīng)用范圍十分廣泛,同時(shí)遍布消費(fèi)級(jí)和行業(yè)級(jí)——而且,在不同的應(yīng)用場(chǎng)景中,消費(fèi)級(jí)和行業(yè)級(jí)也顯示出截然不同的特點(diǎn)來(lái)。

消費(fèi)級(jí)應(yīng)用場(chǎng)景中的語(yǔ)音合成,面向的對(duì)象往往就是消費(fèi)者自身。近年來(lái)隨著短視頻的興起,配音成為部分短視頻創(chuàng)作者工作流中必不可少的環(huán)節(jié),但是絕大部分的短視頻創(chuàng)作者并沒(méi)有接受過(guò)專(zhuān)業(yè)的配音訓(xùn)練,因此其配音要么效果不盡人意,要么效率極為低下——某些生手甚至需要30分鐘來(lái)配1分鐘的文案內(nèi)容。

在這樣的情況下,語(yǔ)音合成恰好彌補(bǔ)了消費(fèi)級(jí)用戶自身能力的不足。由于大部分消費(fèi)級(jí)需求以配音為主,使得消費(fèi)級(jí)語(yǔ)音合成可以通過(guò)標(biāo)準(zhǔn)化、通用化的方式來(lái)降低制作成本。也正是因此,在消費(fèi)級(jí)領(lǐng)域耕耘,對(duì)語(yǔ)音合成廠商的技術(shù)要求沒(méi)那么高。

行業(yè)級(jí)應(yīng)用場(chǎng)景中的語(yǔ)音合成,面向的對(duì)象往往需要是“消費(fèi)者的消費(fèi)者”——與消費(fèi)級(jí)用戶很不同的是,行業(yè)級(jí)用戶自身其實(shí)并不需要語(yǔ)音合成來(lái)滿足什么需求,但它們的語(yǔ)音合成產(chǎn)品一般都要面向數(shù)以萬(wàn)計(jì)的用戶,對(duì)使用頻次和產(chǎn)品質(zhì)量都有更高的要求。

因此行業(yè)級(jí)語(yǔ)音合成產(chǎn)品往往采用定制的方式,不僅制作周期長(zhǎng),制作難度高,而且產(chǎn)品單價(jià)高,替換成本高。這種時(shí)候?qū)φZ(yǔ)音合成廠商的技術(shù)要求和制作水平就大大提高,一般都是由大型人工智能廠商,或者專(zhuān)精語(yǔ)音技術(shù)的廠商來(lái)完成。

訊飛:技術(shù)驅(qū)動(dòng)行業(yè)級(jí)市場(chǎng)

科大訊飛是典型的技術(shù)驅(qū)動(dòng)型企業(yè),它的語(yǔ)音技術(shù)當(dāng)屬世界一流,它旗下的“訊飛開(kāi)放平臺(tái)”是以語(yǔ)音交互為核心的人工智能開(kāi)放平臺(tái)。因此,訊飛開(kāi)放平臺(tái)提供的語(yǔ)音合成服務(wù)實(shí)際上只占了它自身很小的一部分。

在這樣的情況下,訊飛開(kāi)放平臺(tái)幾乎和其他云廠商的開(kāi)放平臺(tái)一樣,不能提供面面俱到的通用化和標(biāo)準(zhǔn)化產(chǎn)品,也正是如此使其無(wú)法提供通用型產(chǎn)品。對(duì)于訊飛開(kāi)放平臺(tái)來(lái)說(shuō),技術(shù)才是第一位的,因?yàn)橹挥屑夹g(shù)力足夠強(qiáng),才能滿足上門(mén)的行業(yè)級(jí)客戶,尤其是這些客戶的需求比消費(fèi)級(jí)客戶復(fù)雜得多。

對(duì)此,訊飛開(kāi)放平臺(tái)只能提供以通用的服務(wù)模型,即某種成熟的方法論,來(lái)實(shí)現(xiàn)行業(yè)級(jí)客戶的復(fù)雜需求。為了便于區(qū)分行業(yè)級(jí)用戶的需求,訊飛開(kāi)放平臺(tái)依舊將語(yǔ)音合成服務(wù)分成了三個(gè)板塊:在線語(yǔ)音合成、離線語(yǔ)音合成以及發(fā)音人自訓(xùn)練平臺(tái)。

其中在線語(yǔ)音合成能夠?qū)⑽淖洲D(zhuǎn)化為自然流暢的人聲,超過(guò)100個(gè)發(fā)音人可供選擇,并且支持多語(yǔ)種、多方言和中英混合,同時(shí)能夠靈活配置音頻參數(shù)。這種模式廣泛應(yīng)用于新聞閱讀、出行導(dǎo)航、智能硬件和通知播報(bào)等場(chǎng)景,這在海爾的電話客服、追書(shū)神器和央視新聞APP的“早??!新聞來(lái)了”有聲欄目都有應(yīng)用。

離線語(yǔ)音合成引擎滿足無(wú)網(wǎng)絡(luò)環(huán)境下的轉(zhuǎn)語(yǔ)音需求,SDK輕巧方便,能夠做到實(shí)時(shí)響應(yīng),相當(dāng)于APP內(nèi)置的“朗讀者”,在語(yǔ)音導(dǎo)航、新聞聽(tīng)書(shū)和提示播報(bào)等場(chǎng)景具有廣泛應(yīng)用。耳熟能詳?shù)腒A有高德導(dǎo)航、滴滴打車(chē)、起點(diǎn)讀書(shū)和智慧樹(shù)考勤機(jī)等。

最后,發(fā)音人自訓(xùn)練平臺(tái)則是基于科大訊飛最新語(yǔ)音合成深度學(xué)習(xí)技術(shù),只需要提供少量的干凈錄音數(shù)據(jù),機(jī)器就可以快速學(xué)習(xí)并生成可使用的語(yǔ)音合成音庫(kù),提供專(zhuān)屬的合成聲音。適用于智能客服和教育培訓(xùn)等領(lǐng)域。

結(jié)合以上數(shù)據(jù)不難發(fā)現(xiàn),行業(yè)級(jí)客戶對(duì)于語(yǔ)音合成的需求,更多的體現(xiàn)在人機(jī)交互方面,簡(jiǎn)單來(lái)說(shuō)就是需要手機(jī)APP“會(huì)說(shuō)話”,而不像消費(fèi)級(jí)用戶那樣基本上只對(duì)配音后的音頻有需求。

因此,在將語(yǔ)音合成模塊嵌入應(yīng)用的過(guò)程中,訊飛開(kāi)放平臺(tái)就完成了它的商業(yè)化。在行業(yè)級(jí)應(yīng)用場(chǎng)景中,音庫(kù)定制、服務(wù)量、裝機(jī)量、發(fā)音人、并發(fā)數(shù)以及有效期都是可選的收費(fèi)選項(xiàng),而且價(jià)格相較于消費(fèi)級(jí)服務(wù)來(lái)說(shuō),算是十分高昂了。

魔音工坊:應(yīng)用驅(qū)動(dòng)消費(fèi)級(jí)市場(chǎng)

相較于母公司出門(mén)問(wèn)問(wèn),魔音工坊可能更加出名,它是專(zhuān)門(mén)針對(duì)消費(fèi)級(jí)市場(chǎng)進(jìn)行特化的語(yǔ)音合成平臺(tái)。正如前文所述,消費(fèi)級(jí)語(yǔ)音合成市場(chǎng)的基本需求——同時(shí)也是最大需求——就是配音。所以魔音工坊幾乎就是針對(duì)配音來(lái)設(shè)置不同板塊和各種功能。

對(duì)于魔音工坊來(lái)說(shuō),技術(shù)并不是第一位的,如何利用現(xiàn)有技術(shù)與消費(fèi)者需求進(jìn)行匹配才是第一位的。以功能最為完整的網(wǎng)頁(yè)端來(lái)說(shuō)明,魔音工坊共設(shè)置5個(gè)板塊:軟件配音、真人配音、聲音商店、效率工具以及聲音克隆。

其中聲音商店是聲庫(kù),內(nèi)置了魔音工坊自制的不同聲源。共計(jì)367個(gè)配音師,和817種風(fēng)格,因?yàn)橹饕鼙娛菄?guó)內(nèi)用戶,因此基本覆蓋了各地區(qū)方言,和少量不同音色的英語(yǔ)聲源。魔音工坊通過(guò)標(biāo)準(zhǔn)化和通用化的聲源,足以滿足絕大部分用戶的配音需求了。

而軟件配音和聲音克隆板塊給予用戶分別自定義文本和音源的權(quán)利。其中文本的自定義過(guò)程中,可調(diào)的參數(shù)細(xì)致到多音字讀音、語(yǔ)速和停頓等真實(shí)場(chǎng)景中的;而音源的自定義則與訊飛開(kāi)放平臺(tái)類(lèi)似,需要提供真人聲源。

最后,效率工具和真人配音則為用戶解決在配音過(guò)程中可能遇到的問(wèn)題。效率工具提供了文案提取、自動(dòng)打軸、背景音處理、人生處理、一鍵去水印和封面制作等工具,而且基本上都是免費(fèi)試用;真人配音則進(jìn)一步節(jié)省了用戶花在配音調(diào)參的時(shí)間。

不難發(fā)現(xiàn),從聲庫(kù)到自定義聲源,從軟件配音到真人配音,魔音工坊幾乎將用戶的每個(gè)痛點(diǎn)都抓住了,雖然技術(shù)可能不比科大訊飛,但在對(duì)消費(fèi)級(jí)用戶的友好度這一塊,魔音工坊絕對(duì)不輸。

同時(shí),魔音工坊的商業(yè)模式可以很好地嵌套在從尋找聲音到完成配音的過(guò)程中。從用戶打開(kāi)魔音工坊那一刻起,收費(fèi)就已經(jīng)開(kāi)始了——首先是售價(jià)289元的年費(fèi)會(huì)員,緊接著聲庫(kù)的聲源基本上都是會(huì)員專(zhuān)享或者付費(fèi)使用,價(jià)格從199-899/年不等,其次聲音克隆和真人配音亦需要額外付費(fèi),具體數(shù)額視不同情況而定。

技術(shù)與應(yīng)用的博弈與殊途同歸

行業(yè)級(jí)語(yǔ)音合成廠商與消費(fèi)級(jí)語(yǔ)音合成廠商“井水不犯河水”,幾乎是涇渭分明地守著各自的一畝三分地。但實(shí)際上,在訊飛開(kāi)放平臺(tái)和魔音工坊決定服務(wù)不同的人群的時(shí)候,語(yǔ)音合成的技術(shù)面以及應(yīng)用面的博弈就開(kāi)始了。此時(shí),技術(shù)已經(jīng)不再是決定性因素了,如何與需求對(duì)接才是重中之重。

因此,我們可以將訊飛開(kāi)放平臺(tái)和魔音工坊之間的區(qū)別,看作是語(yǔ)音合成滿足不同消費(fèi)者需求的不同路徑。行業(yè)級(jí)用戶往往需要語(yǔ)音與應(yīng)用相結(jié)合,其中重點(diǎn)在于“結(jié)合”,在于為它們自己的用戶提供足夠差異化的使用體驗(yàn);而消費(fèi)級(jí)用戶往往需要的是語(yǔ)音合成出的音頻,重點(diǎn)在于“結(jié)果”。這之間的微妙差異,正是技術(shù)力稍弱的語(yǔ)音合成廠商生存的空間。

但是,在這些差別的另一面,也能看到消費(fèi)級(jí)與行業(yè)級(jí)用戶需求是殊途同歸的。說(shuō)到底,無(wú)論是某個(gè)APP需要內(nèi)置語(yǔ)音,還是某個(gè)短視頻創(chuàng)作者需要配音,這都是以“語(yǔ)音合成”這項(xiàng)技術(shù)為基礎(chǔ)的。像是許多將別家技術(shù)打包,拿過(guò)來(lái)就用的“二道販子”,無(wú)論如何都不可能經(jīng)營(yíng)得長(zhǎng)久。在這種時(shí)候,語(yǔ)音合成就變成了一個(gè)楔子,它就變成了這個(gè)市場(chǎng)的“入場(chǎng)券”。

總的來(lái)說(shuō),以訊飛開(kāi)放平臺(tái)和魔音工坊為代表的兩類(lèi)語(yǔ)音合成廠商將會(huì)繼續(xù)共存下去。這也象征著語(yǔ)音合成技術(shù)驅(qū)動(dòng)和應(yīng)用驅(qū)動(dòng)的統(tǒng)一,無(wú)論如何,滿足消費(fèi)者需求才是語(yǔ)音合成商業(yè)化的關(guān)鍵要素。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2022-06-05
語(yǔ)音合成商業(yè)化:科大訊飛向左,魔音工坊向右
但也正是因此,語(yǔ)音合成技術(shù)就處在了一個(gè)“難者不會(huì),會(huì)者不難”的尷尬區(qū)間,所以市面上的語(yǔ)音合成技術(shù)基本上都來(lái)自人工智能廠商,至少是對(duì)人工智能有所參與的廠商。

長(zhǎng)按掃碼 閱讀全文