在各個(gè)企業(yè)都大步奔向AI技術(shù)時(shí),我們也能發(fā)現(xiàn)越來(lái)越多的企業(yè)開(kāi)始關(guān)注技術(shù)與人文之間的聯(lián)系。就像搜狗重陽(yáng)節(jié)推出的“以聲相伴”項(xiàng)目,就是以個(gè)性化語(yǔ)音合成為切入,讓廣大用戶嘗試?yán)米约旱穆曇艉铣烧Z(yǔ)音,為阿爾茲海默癥患者讀書,喚起社會(huì)對(duì)于患者的關(guān)愛(ài)。
除去項(xiàng)目中體現(xiàn)出的人文關(guān)懷和公益精神以外,我們關(guān)注更多的是搜狗在小程序和短片展示的語(yǔ)音合成技術(shù)高度和結(jié)合語(yǔ)音識(shí)別的應(yīng)用創(chuàng)新性,在當(dāng)今語(yǔ)音市場(chǎng)群雄爭(zhēng)霸的格局下,搜狗可謂別樹(shù)一幟地亮了次肌肉,吸引了行業(yè)的關(guān)注。
被埋藏的寶藏:當(dāng)語(yǔ)音合成成為整個(gè)市場(chǎng)的短板
如果說(shuō)語(yǔ)音合成是一項(xiàng)不被重視的技術(shù),顯然是不夠客觀的。如今BAT科技巨頭、AI獨(dú)角獸等紛紛入局,語(yǔ)音市場(chǎng)一片熱鬧,很難說(shuō)有哪一項(xiàng)細(xì)節(jié)技術(shù)是沒(méi)有人關(guān)注的。
但從當(dāng)前幾家典型AI技術(shù)企業(yè)的在語(yǔ)音方面的布局來(lái)看,的確很少有哪一家展示出了在語(yǔ)音合成方面較為深入的能力。
以百度為例,百度的DuerOS更加注重的是技術(shù)生態(tài)的打造。通過(guò)連接硬件,打通百度語(yǔ)音技術(shù)下達(dá)到現(xiàn)實(shí)應(yīng)用場(chǎng)景的通路。因此,顯然DuerOS更注重語(yǔ)音技術(shù)API接口的耦合與整合,包括百度對(duì)于AI技術(shù)的整體化關(guān)注,DuerOS技術(shù)體系中也融合了一部分結(jié)合了視覺(jué)等等方面的多模態(tài)識(shí)別。
另一種典型是科大訊飛等專注于單項(xiàng)語(yǔ)音技術(shù)研究的技術(shù)型企業(yè)。因此對(duì)于主攻B端市場(chǎng)的AI技術(shù)企業(yè)來(lái)說(shuō),語(yǔ)音合成技術(shù)的打造更傾向于“一招鮮吃遍天”,比如大家很熟悉的林志玲語(yǔ)音,就是邀請(qǐng)林志玲前來(lái)錄制了四千多個(gè)字,才能搭建成今天聲音和語(yǔ)氣都高度相似的林志玲語(yǔ)音合成。但這種高成本高投入的技術(shù),顯然只能適用于B端市場(chǎng),不具有普遍性。
裂隙是光透進(jìn)來(lái)的地方:搜狗將如何利用技術(shù)撬動(dòng)語(yǔ)音市場(chǎng)格局?
而搜狗在宣傳片中展示出了自己在業(yè)內(nèi)推出的個(gè)性化生成語(yǔ)音和情感遷移兩項(xiàng)技術(shù)。
通過(guò)利用聲音數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),從聲音樣本中抓取音色、音調(diào)這樣的關(guān)鍵特征,再把音節(jié)數(shù)據(jù)還原成聲音,就可以在短時(shí)間內(nèi)復(fù)制一個(gè)人的語(yǔ)氣和聲調(diào)。像很多地圖產(chǎn)品推出的明星版語(yǔ)音包,其實(shí)是找了明星錄入上千個(gè)字的讀音加上幾十句短語(yǔ),拼接起來(lái)才能實(shí)現(xiàn)。但搜狗的個(gè)性化生成技術(shù),只需要用戶上傳少量音頻,即可合成高質(zhì)量的個(gè)性化音色。
而情感遷移技術(shù)則是將相聲貫口、唱歌、繞口令等等不同的說(shuō)話風(fēng)格抽象化,將語(yǔ)速、停頓方式、語(yǔ)調(diào)等特征構(gòu)成神經(jīng)網(wǎng)絡(luò)模型,再對(duì)文本信息進(jìn)行處理,進(jìn)而可以模仿各種發(fā)音風(fēng)格。如同視頻中老奶奶的聲音一樣,老年人說(shuō)話特有的慢條斯理和和藹,都是通過(guò)情感遷移才能實(shí)現(xiàn),而不能僅僅依靠音色。
首先,市場(chǎng)中呈現(xiàn)出了敏捷開(kāi)發(fā)與敏捷應(yīng)用之間的空隙。打造平臺(tái)化生態(tài)的技術(shù)企業(yè),關(guān)注的更多是如何幫助開(kāi)發(fā)者進(jìn)行敏捷開(kāi)發(fā),讓語(yǔ)音技術(shù)能力可以快速進(jìn)入智能音箱、IOT設(shè)備、汽車等等硬件場(chǎng)景。但作為C端用戶和消費(fèi)者,同樣需要敏捷的應(yīng)用語(yǔ)音技術(shù)。就像宣傳片中體現(xiàn)的,只需幾十秒的對(duì)話就能完美復(fù)制一個(gè)人的聲音和語(yǔ)氣,對(duì)于用戶來(lái)說(shuō)是一種十分實(shí)用的應(yīng)用方式。例如用戶可以用自己的聲音替換有聲書聲音、用家人朋友的聲音進(jìn)行地圖導(dǎo)航等等。這種敏捷應(yīng)用的廣闊市場(chǎng)是無(wú)法被平臺(tái)中的開(kāi)發(fā)者所代勞的,也就為搜狗提供了更加貼近用戶的途徑。
其次,市場(chǎng)中呈現(xiàn)了B端到C端語(yǔ)音商業(yè)化的空白。AI獨(dú)角獸們雖然每一輪融資都數(shù)額巨大,但這也證明專項(xiàng)投入于AI技術(shù)會(huì)造成巨大的變現(xiàn)壓力。而企業(yè)通常會(huì)選擇將這種壓力釋放于B端市場(chǎng),在同傳、語(yǔ)音客服等等業(yè)務(wù)中收費(fèi)。至于面對(duì)C端用戶的服務(wù),又往往是免費(fèi)的。但搜狗在短片中展示出的個(gè)性化語(yǔ)音合成,以及伴隨語(yǔ)音識(shí)別交互可以實(shí)現(xiàn)的陪伴,展現(xiàn)出了一種定制化的C端商業(yè)場(chǎng)景。未來(lái)用戶或許可以通過(guò)付費(fèi)打造一套擁有自己聲音的兒童陪伴語(yǔ)音系統(tǒng),幫助遠(yuǎn)離家鄉(xiāng)的父母陪伴孩子,或是學(xué)??梢詾榻處熀铣梢惶渍Z(yǔ)音家教系統(tǒng),讓學(xué)生熟悉的聲音在課后仍然可以為他們解答問(wèn)題。搜狗用強(qiáng)大的語(yǔ)音識(shí)別能力,結(jié)合起個(gè)性化生成語(yǔ)音和情感遷移兩項(xiàng)獨(dú)特的差異化技術(shù),讓搜狗可以觸及到他人難以抵達(dá)的語(yǔ)音商業(yè)市場(chǎng)。
通往未知的任意門:語(yǔ)音市場(chǎng)的下一章如何書寫?
在今年7月的“Blizzard Challenge 2018 ”語(yǔ)音合成大賽上,第一次參賽的搜狗戰(zhàn)勝了大量國(guó)際頂尖科研機(jī)構(gòu),獲得了可懂度和語(yǔ)音停頓兩項(xiàng)任務(wù)中排名第一的優(yōu)異成績(jī)。在這樣權(quán)威性極強(qiáng)的國(guó)際賽事中獲得這樣的成績(jī),也進(jìn)一步證明了搜狗在語(yǔ)音合成上的能力。不僅是語(yǔ)音合成,搜狗在機(jī)器翻譯上的高度投入,同樣也涉及語(yǔ)音識(shí)別,像搜狗旅行翻譯寶這類產(chǎn)品的熱銷和高度啟用率,也給搜狗累積了大量的語(yǔ)音交互書。在WMT2017國(guó)際機(jī)器翻譯大賽上,搜狗在語(yǔ)音識(shí)別上的準(zhǔn)確率達(dá)到了驚人的97%。
如今搜狗展示出的不光是語(yǔ)音交互和語(yǔ)音合成的技術(shù)能力,更多的則是體現(xiàn)出搜狗進(jìn)一步深入語(yǔ)音市場(chǎng)時(shí),獨(dú)有的技術(shù)優(yōu)勢(shì)和商業(yè)化前景。C端個(gè)性化語(yǔ)音合成與交互,可以說(shuō)是當(dāng)今語(yǔ)音市場(chǎng)的無(wú)人之地。搜狗所擁有的優(yōu)勢(shì)是技術(shù)上不可替代性,幫助搜狗從一種競(jìng)品中脫穎而出,有如高塔一般,展示出更多差異化優(yōu)勢(shì)也能輻射更多發(fā)展可能。
現(xiàn)如今的語(yǔ)音市場(chǎng),已經(jīng)基本完成了最初的市場(chǎng)培養(yǎng),越來(lái)越多的企業(yè)開(kāi)始應(yīng)用起智能客服,越來(lái)越多的用戶開(kāi)始習(xí)慣和手機(jī)、音箱對(duì)話。正是在這樣市場(chǎng)格局之下,才是比拼差異化、比拼細(xì)節(jié)的關(guān)鍵時(shí)刻。用戶剛剛學(xué)會(huì)了接納,接下來(lái)即將學(xué)會(huì)分辨優(yōu)劣并進(jìn)行選擇。搜狗這時(shí)發(fā)揮出了多年的技術(shù)累積,打出了場(chǎng)景應(yīng)用創(chuàng)新與差異化大旗。搜狗此舉是否會(huì)刺激市場(chǎng)更多的向打造差異化優(yōu)勢(shì)發(fā)展?或者破壞當(dāng)下微妙的平衡,吸引來(lái)大量用戶?通往未知的任意門已經(jīng)打開(kāi),一切可能都在醞釀之中,搜狗與語(yǔ)音市場(chǎng)的故事,值得期待。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 國(guó)產(chǎn)手機(jī)大勝,蘋果銷量大跌,難怪急哄哄降價(jià)千元
- 這里不止“羊毛月”,少年也在以電商助農(nóng)
- 同仁堂醫(yī)養(yǎng)IPO: “三位一體”診療服務(wù)體系高效協(xié)同 “中醫(yī)+”健康服務(wù)未來(lái)可期
- 走出群山,長(zhǎng)賽道“攀登者”vivo
- 三線結(jié)構(gòu)光與升降LDS激光雷達(dá) 石頭自清潔掃拖機(jī)器人G30導(dǎo)航避障新里程
- 石頭科技閃耀CES2025 首創(chuàng)仿生機(jī)械手掃拖機(jī)器人
- TCL華星亮相CES2025,印刷OLED等創(chuàng)新顯示技術(shù)全球吸睛
- 科技云報(bào)到:從大模型到云端,“AI+云計(jì)算”還能講出什么新故事?
- 承載AI的云南花卉,正在盛開(kāi)
- 打造個(gè)人辦公新范式,科大訊飛召開(kāi)辦公智能體產(chǎn)品升級(jí)發(fā)布會(huì)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。