文本轉(zhuǎn)語音 (TTS) 是一個已有數(shù)十年歷史的領(lǐng)域,但采用通常僅限于少數(shù)幾個領(lǐng)域,因為合成語音讓人感覺不自然和機器人化。但在過去的五年里,由于深度學(xué)習(xí),合成聲音(又名神經(jīng) TTS)可以變得更加自然和悅耳。音調(diào)、節(jié)奏、發(fā)音、口音、情感和說話風(fēng)格可以根據(jù)需要進行調(diào)整。
Amazon、Google、IBM 和 Microsoft 等大型云供應(yīng)商提供的 APIs允許開發(fā)人員輕松地將語音功能添加到各種應(yīng)用程序中。除了大型供應(yīng)商之外,許多創(chuàng)新的初創(chuàng)公司和專家正在想象合成語音的新可能性。
這些不同的用例分為兩大類。
朗讀用例
公司可以為這些用例使用庫存語音或創(chuàng)建定制的合成語音(包括名人語音)。
·客戶服務(wù)。自動語音響應(yīng)是最古老的用例之一,但對話路徑和響應(yīng)必須仔細預(yù)先錄制并完全編寫腳本。開放式對話是有限的,因為不可能預(yù)先記錄每一個潛在的反應(yīng)?,F(xiàn)在,通過在有限的訓(xùn)練數(shù)據(jù)語料庫(即預(yù)先錄制的音頻)上使用人工智能,可以創(chuàng)建合成語音并將其用于開放式對話應(yīng)用程序。
·新聞閱讀。許多出版物(例如,華盛頓郵報、BBC、華爾街日報)都使用 TTS,因此讀者可以收聽文章。一些媒體網(wǎng)站提供"聽故事"作為付費訂閱者的高級功能。
·電子郵件。將向您讀出電子郵件(例如,在 Microsoft Outlook 中)。例如,當(dāng)您開車時,這可以實現(xiàn)免提體驗。
·輔助技術(shù)。語音銀行可以幫助患有運動神經(jīng)元疾病的人生成自己的合成語音,可用于輔助語音設(shè)備。一些應(yīng)用程序使有語言障礙的用戶能夠通過 TTS 接口設(shè)備說話。為了幫助有視力挑戰(zhàn)的用戶,有一些應(yīng)用程序可以讀出處方標簽、產(chǎn)品標簽,還有一些應(yīng)用程序可以提供用戶周圍環(huán)境的提示和描述。
富媒體內(nèi)容用例
這組用例通常涉及音頻和視頻內(nèi)容。
·配音。視頻配音和畫外音并不新鮮,但 Netflix 等流媒體平臺的興起創(chuàng)造了全球觀眾和對將內(nèi)容配音成多種語言的新需求。通過混合使用語音識別、機器翻譯和合成聲音,可以將音頻配音為原始演員聲音中的不同語言。唇形同步曾經(jīng)是配音為不同語言的內(nèi)容的問題,但現(xiàn)在人工智能有助于創(chuàng)建與口語相匹配的合成唇形動作。
·音頻編輯。這是一個創(chuàng)新用例,有助于減少音頻編輯的障礙。使用自動生成的腳本或文本,您可以通過修改相應(yīng)的文本來刪除填充詞、添加新音頻或刪除片段。這有可能大大降低編輯成本和時間。
·在線和元宇宙安全。使用人工智能,聲音可以被轉(zhuǎn)換或改變,同時保留其情感和表現(xiàn)力。就像游戲玩家將視覺皮膚應(yīng)用于他們的化身一樣,可以應(yīng)用語音皮膚來保護隱私并減少游戲環(huán)境或基于音頻的社交媒體(例如 Twitter 空間或俱樂部會所)中的騷擾。
道德問題和風(fēng)險
隨著合法用例的增加,濫用和欺詐的可能性也在增加。
用戶同意使用合成聲音。在一部關(guān)于已故名廚 Anthony Bourdain的紀錄片中,他的合成聲音被用來讓他"說出"幾句他從未真正說過的臺詞。這樣的例子提出了'同意'的問題,什么是允許的,什么是不允許的。
·深度偽造Deepfakes。不難想象,隨著合成音頻和視頻功能變得更好,我們將如何充斥著復(fù)雜的公眾人物(甚至是普通公民)的深度偽造。它可能是一個錯誤信息的雷區(qū),會對公眾信任和信息來源的可靠性產(chǎn)生影響。
·語音網(wǎng)絡(luò)釣魚和欺詐。《華爾街日報》報道說,一位 CEO 的聲音被利用進行欺詐,以他的聲音給他的同事打電話,指示資金轉(zhuǎn)移,這是一種全新的網(wǎng)絡(luò)犯罪類別,由合成聲音和社會工程學(xué)結(jié)合而成。
公司需要善于負責(zé)任地使用合成語音用例來改善用戶體驗,提供更好的客戶服務(wù),并創(chuàng)造新的產(chǎn)品和服務(wù)。但他們還需要防范惡意行為者的對抗性攻擊。對于語音應(yīng)用來說,這是一個勇敢的新世界。
KashyapKompella是全球人工智能行業(yè)分析公司 rpa2ai Research 的首席執(zhí)行官,也是《實用人工智能:企業(yè)手冊》的合著者。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 移遠通信:國內(nèi)業(yè)務(wù)持續(xù)復(fù)蘇 利潤逐步修復(fù)
- 韓國《量子科技和量子產(chǎn)業(yè)促進法》正式生效
- 中國移動啟動5G專網(wǎng)深度定制產(chǎn)品短名單第一次增補采購:總預(yù)算13.5億元
- 十二部門:探索核技術(shù)在量子計算等未來產(chǎn)業(yè)中的交叉應(yīng)用
- 報告稱2024Q3智能手機Top10:三星蘋果前2,中國廠商占8席
- LightCounting:光模塊的超高速增長還能持續(xù)多久?
- 任正非回應(yīng)華為員工提問:英語是華為工作語言,除我之外員工普遍英語水平出色
- 蘋果Q4營收949億美元:凈利潤同比下滑35.8%,受補繳稅款影響
- 華為業(yè)績出爐:2024年前三季度營收5859億元,凈利潤628.7億元
- 英特爾第四季度營收展望高于預(yù)期 盤后股價大漲
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。