能聽(tīng)懂“方言”的AI,思必馳“方言識(shí)別”如何做到的?

不論是“勒是霧都”的重慶,還是遍地“靚女靚仔”的廣東,“吳儂軟語(yǔ)”的江浙,方言都是各地極具特色文化名片。一方面,方言附著極大的親切感,另一方面,方言也承載著各地強(qiáng)烈的情感認(rèn)同與文化價(jià)值。

科技發(fā)展中的語(yǔ)言交流,不能遮蔽地方性的文化和知識(shí)。

考慮方言識(shí)別存在文化保護(hù)的更高立意,同時(shí)也在將老年、弱勢(shì)群體并入科技生活。思必馳放大全鏈路語(yǔ)音系統(tǒng)應(yīng)用在方言的識(shí)別、理解、合成上,在家居、銀行大廳等應(yīng)用場(chǎng)景落地,形成了能聽(tīng)懂“方言”的醫(yī)療陪伴音箱、智能客服機(jī)器人等多樣化的產(chǎn)品,可識(shí)別粵語(yǔ)、四川話等多種方言。

語(yǔ)音識(shí)別的“軟肋”-口音、方言

語(yǔ)音識(shí)別好比機(jī)器的“聽(tīng)覺(jué)系統(tǒng)”,讓機(jī)器通過(guò)識(shí)別、理解,將語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)榭衫斫獾奈谋?。漢語(yǔ)語(yǔ)音識(shí)別的研究起始于70年代,經(jīng)歷四十余年發(fā)展,得益于技術(shù)的演進(jìn)和海量數(shù)據(jù)的積累,一般場(chǎng)景下普通話識(shí)別都能達(dá)到較好的識(shí)別效果。但“口音、方言”仍是全球諸多人機(jī)交互公司共同面對(duì)的挑戰(zhàn)。

為了探究方言、口音對(duì)語(yǔ)音識(shí)別系統(tǒng)的影響,2018 年華盛頓郵報(bào),Globalme 、Pulse Labs (語(yǔ)音研究公司)合作,對(duì)市場(chǎng)主流智能音箱進(jìn)行測(cè)試,事實(shí)證明智能音箱不能對(duì)方言“通吃”。

能聽(tīng)懂“方言”的AI,思必馳“方言識(shí)別”如何做到的?

方言識(shí)別究竟難在哪?

多音多義,使用情境各不同。以中文為例,不僅是在文字使用習(xí)慣上(例如,“老后悔了”),讀音上也存在差異性(“插”讀“擦”,“胡”讀“福”)。標(biāo)準(zhǔn)普通話由21個(gè)聲母和39個(gè)韻母組成,上海方言中卻包含34個(gè)聲母和54個(gè)韻母,不同方言就是不同數(shù)量的聲韻母組合。同時(shí),語(yǔ)音識(shí)別是一個(gè)強(qiáng)場(chǎng)景關(guān)聯(lián)的技術(shù),不同使用情境,方言識(shí)別效果存有差異。針對(duì)性的聲學(xué)模型+語(yǔ)言模型訓(xùn)練是一個(gè)長(zhǎng)期的過(guò)程。

能聽(tīng)懂“方言”的AI,思必馳“方言識(shí)別”如何做到的?

需要豐富的語(yǔ)料用以訓(xùn)練。可以理解為機(jī)器的“詞匯量”,思必馳基于多年語(yǔ)音交互領(lǐng)域的研究,積累了大量基于場(chǎng)景化的數(shù)據(jù),銖積寸累地汲取方言語(yǔ)料,不斷更新、完善語(yǔ)音數(shù)據(jù)資源庫(kù)的建設(shè)。

需要持續(xù)地研究文化、語(yǔ)素、音素,專業(yè)人士、方言專家的參與,會(huì)讓方言識(shí)別效果事半功倍。

低資源環(huán)境,如何保證識(shí)別準(zhǔn)確率?

面對(duì)低資源環(huán)境,如何提升語(yǔ)音識(shí)別準(zhǔn)確率?思必馳研發(fā)了多種跨語(yǔ)言預(yù)訓(xùn)練、聯(lián)合學(xué)習(xí)、遷移學(xué)習(xí)的技術(shù),使用較少的數(shù)據(jù),來(lái)實(shí)現(xiàn)方言識(shí)別效果的提升。

能聽(tīng)懂“方言”的AI,思必馳“方言識(shí)別”如何做到的?

跨語(yǔ)言預(yù)訓(xùn)練模型

跨語(yǔ)言預(yù)訓(xùn)練,簡(jiǎn)言之,就是利用大量的有監(jiān)督或無(wú)監(jiān)督文本,例如用普通話來(lái)作為它的基底得到通用的預(yù)訓(xùn)練模型,在此基礎(chǔ)上疊加少量的方言數(shù)據(jù)進(jìn)行模型訓(xùn)練。伴隨后期積累起來(lái)的方言、垂直場(chǎng)景數(shù)據(jù)。“煉丹爐”就可以不斷提高模型性能表現(xiàn),從而提升識(shí)別率。

多語(yǔ)言聯(lián)合學(xué)習(xí),例如考慮到貴州、四川地理位置上的接近性,因而語(yǔ)言近似性較高。在方言數(shù)據(jù)樣本低資源下,思必馳將近似性語(yǔ)言進(jìn)行聯(lián)合學(xué)習(xí),從而降低模型的識(shí)別難度。

自研的小樣本遷移學(xué)習(xí)技術(shù),用較少的數(shù)據(jù)量,可以快速實(shí)現(xiàn)場(chǎng)景體驗(yàn)優(yōu)化。例如使用少量帶標(biāo)注的文本數(shù)據(jù),即可對(duì)標(biāo)點(diǎn)斷句進(jìn)行優(yōu)化,相對(duì)傳統(tǒng)模式調(diào)優(yōu),節(jié)省了83%的數(shù)據(jù)量。

能聽(tīng)懂“方言”的AI,思必馳“方言識(shí)別”如何做到的?

使用聯(lián)合學(xué)習(xí)和遷移學(xué)習(xí)的識(shí)別后處理技術(shù)

在實(shí)際應(yīng)用中,滿足大規(guī)??焖僮远ㄖ频哪P?是企業(yè)方的切實(shí)需求,一是低門檻快速定制,二是能擁有足夠的自主權(quán)。思必馳方言識(shí)別技術(shù),同時(shí)具備快速高效的場(chǎng)景化定制能力。通過(guò)數(shù)據(jù)的快速收集和場(chǎng)景模擬,結(jié)合自主研發(fā)的識(shí)別模型自訓(xùn)練系統(tǒng),短時(shí)間內(nèi)顯著提升方言識(shí)別模型在應(yīng)用領(lǐng)域的效果,滿足業(yè)務(wù)需求。

對(duì)于有多語(yǔ)言混合需求的集成商,思必馳運(yùn)用多混合識(shí)別模型,在完成識(shí)別特定方言的同時(shí),還可識(shí)別普通話,最多支持十多種方言的識(shí)別。例如,中川混讀模型可以同時(shí)識(shí)別四川話和普通話。

目前,思必馳提供基于云+端混合引擎的連續(xù)語(yǔ)音識(shí)別,支持四川話、粵語(yǔ)、上海話、閩南語(yǔ)、陜西話、山東話等十幾種方言識(shí)別。

輕松識(shí)別方言,讓交互更有溫度

探索人機(jī)交互的自然、流暢發(fā)展,語(yǔ)言的交流一定要足夠人性化。

重慶農(nóng)商行客服機(jī)器人刷屏朋友圈,TA能聽(tīng)懂四川話,順暢完成余額查詢、轉(zhuǎn)賬等操作,面對(duì)說(shuō)慣了四川話的老一輩人們,這個(gè)功能太友好。

能聽(tīng)懂“方言”的AI,思必馳“方言識(shí)別”如何做到的?

基于廣泛的生活場(chǎng)景,思必馳與合作伙伴一起將人性化交互的主動(dòng)權(quán)交給用戶,聆聽(tīng)更多“新聲”。

在家里,美的空調(diào)/熱水器烤箱等產(chǎn)品均支持多種方言(粵語(yǔ),四川話,山東話,上海話)識(shí)別,方言轉(zhuǎn)普通話等模式,各色鄉(xiāng)音無(wú)縫交流。思必馳智能醫(yī)療音箱亦能聽(tīng)懂方言、重口音普通話,充當(dāng)家庭醫(yī)生安心相伴。

汽車?yán)?支持四川話的語(yǔ)音識(shí)別服務(wù),導(dǎo)航都略帶一絲“麻辣味”。某城市地鐵站內(nèi),自助售票機(jī)支持普通話/中英混合/英語(yǔ)/粵川滬等多語(yǔ)種及方言的識(shí)別,準(zhǔn)確識(shí)別“

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )