車載語音交互技術(shù)繁榮發(fā)展,火山語音讓車企品牌“繪聲繪色”

汽車消費(fèi)歷來是國民消費(fèi)經(jīng)濟(jì)的重要組成部分,配備了智能技術(shù)的新能源汽車更是在近年來快速崛起,成為汽車消費(fèi)的主流。在日益成熟的智能汽車科技中,車載語音交互與應(yīng)用隨之步入市場爆發(fā)期,進(jìn)而成為繼智能手機(jī)和智能音箱之后的第三大智能語音場景。在車載語音交互新勢力中,火山引擎憑借長期以來對汽車行業(yè)的深刻洞察與豐富經(jīng)驗,依托一直以來為字節(jié)跳動內(nèi)部各業(yè)務(wù)線提供優(yōu)質(zhì)語音AI技術(shù)能力以及全棧語音產(chǎn)品解決方案的火山語音團(tuán)隊,為車企帶來了耳目一新的交互體驗。

日前,火山語音團(tuán)隊正式為哪吒汽車旗下重磅車型哪吒S推出“哪吒音色”新功能,以更低成本和更高效率為車企打造專屬“音色”,成為哪吒汽車遙遙領(lǐng)先2022年新能源車新勢力銷量榜單的關(guān)鍵技術(shù)競爭力之一。據(jù)了解,“哪吒音色”不但可以生動表達(dá)高興、失落、嬌蠻、冷靜四種情緒,還支持河南話、廣東話、川渝話等特色方言以及以小蘿莉、活潑女聲等為代表的趣味音色。更重要的一點(diǎn),憑借超99%的準(zhǔn)確率和在線、離線環(huán)境下穩(wěn)定流暢的語音表現(xiàn),火山語音成功讓汽車?yán)L聲繪色,再造品牌新勢力。

智能語音合成引領(lǐng)車載語音交互市場

據(jù)中國汽車工業(yè)協(xié)會數(shù)據(jù),2022年1月到11月中國新能源汽車產(chǎn)銷超過600萬輛,同比均增長1倍,市場占有率達(dá)25%,該市場的強(qiáng)勢拉升已成定局,隨之而來車載語音交互市場迎來了發(fā)展的黃金期。

目前,車載語音交互功能已成為中國乘用汽車座艙內(nèi)的標(biāo)配功能,滲透率高達(dá)86%,其中以主機(jī)廠商、造車新勢力、智能語音處理引擎及應(yīng)用供應(yīng)商、云服務(wù)商、平臺整體商等為代表的“多元競爭”逐步走入白熱化階段,可以預(yù)見智能語音合成技術(shù)或?qū)⒊蔀楦鞣絼萘Φ南乱粋€殺手锏。

此外伴隨新能源汽車銷量的快速拉升,也促成了新消費(fèi)群體和需求的規(guī)?;楷F(xiàn)。以Z世代和女性消費(fèi)群體為代表的新消費(fèi)群體,對于消費(fèi)個性化和差異化需求顯著,迫使汽車消費(fèi)正從出行剛需轉(zhuǎn)向個性消費(fèi)。社交需求、自我塑造、悅己需求等,讓智能音色成為新消費(fèi)群體選擇汽車品牌的新因素。總體而言,通過語音合成技術(shù)形成的個性化、情感化、可定制化的智能音色,或成為突圍車載語音交互同質(zhì)化競爭的關(guān)鍵突破口。

眾多周知,當(dāng)前新能源汽車的車載語音通常為標(biāo)準(zhǔn)音色,主要由于可定制化音色通常需要不同的語料包進(jìn)行訓(xùn)練,但優(yōu)質(zhì)音頻數(shù)據(jù)和發(fā)音人較為稀缺,部分小語種音頻數(shù)據(jù)標(biāo)注員更為稀缺等原因,所以訓(xùn)練多趣味、多方言、多語種的音色模型消耗成本較高,因此能夠既好又快推出車載智能音色的汽車品牌,或?qū)⒙氏日碱I(lǐng)市場,而在這一方面,我們不可忽視哪吒汽車的異軍突起。

全新的智能音色,背后是強(qiáng)大的技術(shù)實力

放眼廝殺激烈的中國新能源車市場,哪吒汽車交出的成績單可謂亮眼:2022年11月,月交付同比增長51%;1-11月累計交付同比增長142%……而在出色的銷售數(shù)據(jù)之下,實力強(qiáng)大的智能技術(shù)體系不可小覷,其中就包括全雙工連續(xù)對話、可見即可說等流暢精準(zhǔn)的智能語音體驗,而近日“哪吒音色”的正式上線,則為用戶帶來了“你的情緒我都懂”的全新感受。

作為一款活力動感、富有“人情味兒”的車載語音助手音色,哪吒汽車S聯(lián)合火山語音為用戶提供了多樣與個性兼具的音色選擇,無論是趣味音色、還是多方言、多語種的嘗試,都可隨心切換。例如,“哪吒音色”提供了高興、失落、嬌蠻、冷靜四大情感交互場景,比方說無法完成車主要求時的歉意表達(dá)音色、車主違規(guī)超速時提醒的嬌蠻可愛音色等。關(guān)于此,火山語音團(tuán)隊采用了半監(jiān)督情感模塊,僅憑借1小時的情感數(shù)據(jù)作為參考,智能分析出其余全量錄制語句的情感類型和情感強(qiáng)度,進(jìn)而讓所有錄制數(shù)據(jù)都參與合成語音情感能力的建模,實現(xiàn)更顯著、更自然和更細(xì)膩的情感表現(xiàn)力。值得提及的一點(diǎn),在“哪吒音色”個性化的聽感下,是極速響應(yīng)靈敏加成。火山語音團(tuán)隊表示,“哪吒音色”運(yùn)用了業(yè)界領(lǐng)先的基于無監(jiān)督表征的并行對抗深度神經(jīng)網(wǎng)絡(luò),語音請求延時低于150毫秒,全鏈路句準(zhǔn)確率達(dá)到98.1%。在語音質(zhì)量MOS評分中達(dá)到4.6分(滿分5分),以行業(yè)領(lǐng)先水平做到“更懂你心”!

自2022年10月試上線以來,“哪吒音色”引起了用戶和眾多汽車品牌的強(qiáng)大興趣,其背后正是火山語音強(qiáng)大的語音合成能力。一直以來團(tuán)隊針對數(shù)據(jù)獲取難、專業(yè)要求高、訓(xùn)練難度大、消耗成本高等業(yè)界疑難問題開展多音色模型訓(xùn)練,提出了低成本、高效率、批量生產(chǎn)的方案,為企業(yè)用戶提供了許多“聽得懂”、“說的好”、“會的多”的音色。尤其是不久之前上新發(fā)布的超自然對話語音合成技術(shù),相較傳統(tǒng)TTS更加真實自然,語氣詞、吸氣聲、猶豫時的停頓以及字音拖長等細(xì)節(jié)都被精準(zhǔn)復(fù)現(xiàn),而且只需常規(guī)音庫1/4數(shù)據(jù),就可極大還原真人說話細(xì)微的韻律特點(diǎn)、發(fā)音口癖,讓合成效果更加真實,給人帶來沉浸式的聽感體驗。其對外推出的“音色復(fù)刻技術(shù)”,作為一套全自動高效化的輕量級音色定制方案,不同于傳統(tǒng)語音合成技術(shù)對數(shù)據(jù)的高門檻要求,對數(shù)據(jù)量的需求僅為傳統(tǒng)方法的0.3%,普通人在相對安靜的開放環(huán)境錄制2分鐘以上,即可達(dá)到音色空間建模的標(biāo)準(zhǔn),生成專屬音色的AI模型,便捷又高效。

在“哪吒音色”的背后是火山語音團(tuán)隊。作為火山引擎語音合成產(chǎn)品的技術(shù)能力提供方,火山語音團(tuán)隊即字節(jié)跳動AI Lab Speech & Audio智能語音與音頻團(tuán)隊,自2017年成立以來就專注研發(fā)行業(yè)領(lǐng)先的AI智能語音技術(shù),截止2022年上半年,團(tuán)隊已有17篇論文入選AI頂級會議,其中音頻生成方向接受了8篇論文。火山語音團(tuán)隊攻克了很多語音合成技術(shù)的前沿挑戰(zhàn),例如在在韻律建模方面,不同的語言、方言、風(fēng)格都具備自身的韻律特點(diǎn),有不同的語速、語調(diào)、重音模式等語音變化信息,這種細(xì)粒度的韻律特征顯著地影響著發(fā)音準(zhǔn)確性和地道性,而傳統(tǒng)的端到端神經(jīng)網(wǎng)絡(luò)框架很難隱式建模和控制這種細(xì)粒度的韻律特征變化。對此,火山語音團(tuán)隊提出了音素級別細(xì)粒度韻律建模的AM架構(gòu),通過引入音調(diào)、短語重音等音素級別的韻律特征以及音素級變量適配器,可以分別實現(xiàn)音節(jié)、短語和句子級別語調(diào)、重音模式變化,實現(xiàn)“聽得懂”、“說的好”。

在火山語音團(tuán)隊強(qiáng)大科研力量的支持下,火山引擎語音合成產(chǎn)品于2022年11月獲得國家語音及圖像識別產(chǎn)品質(zhì)量檢驗檢測中心頒發(fā)的語音合成增強(qiáng)級檢驗檢測證書,在語音合成的基本要求以及擴(kuò)展要求上已達(dá)最高等級標(biāo)準(zhǔn)。經(jīng)評測,火山引擎提供的音色MOS評分最高可達(dá)4.64分,處行業(yè)領(lǐng)先水平。目前,火山語音將打磨多年的語音技術(shù)能力面向市場,通過火山引擎開放給外部企業(yè),已覆蓋汽車、金融、有聲閱讀、視頻配音等眾多應(yīng)用場景。

展望2023:在火山語音團(tuán)隊的持續(xù)創(chuàng)新與快速創(chuàng)新成果轉(zhuǎn)換的推動下,火山引擎已經(jīng)成為了車載語音交互行業(yè)的新勢力,越來越多的車企品牌將在火山引擎平臺上快速發(fā)展,抓住2023年即將爆發(fā)的市場機(jī)會;而在更廣泛的智能語音市場,火山語音團(tuán)隊也將帶來源源不斷的新技術(shù)、新產(chǎn)品,以更低門檻、更高品質(zhì)、更快交付等,助力更多行業(yè)大步邁入智能時代!

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )