一篇看懂服務(wù)機(jī)器人語(yǔ)音交互與“三大技術(shù)”的因果關(guān)系

  隨著時(shí)代的發(fā)展和人工智能技術(shù)的愈加完善,智能服務(wù)機(jī)器人已越來(lái)越廣泛地應(yīng)用于各行業(yè)、各領(lǐng)域當(dāng)中,如我們隨處可見的迎賓機(jī)器人、智能講解機(jī)器人、會(huì)場(chǎng)機(jī)器人等,為緩解勞動(dòng)力短缺和工作人員的壓力起到了重要作用。

  當(dāng)我們與服務(wù)機(jī)器人進(jìn)行語(yǔ)音對(duì)話時(shí),是否想過,它是依靠什么技術(shù)接收到我們的聲音,并給予及時(shí)、準(zhǔn)確地回復(fù)的呢?比如說:“今天天氣怎么樣”?服務(wù)機(jī)器人馬上會(huì)說:“今天天氣晴朗,氣溫為10℃-22℃”,伴隨有4-5級(jí)的東南風(fēng)……

  其實(shí),服務(wù)機(jī)器人的語(yǔ)音交互原理與我們?nèi)祟愂窍嗨频?實(shí)現(xiàn)正常的互動(dòng)必須滿足三個(gè)條件:用耳朵聽、用大腦理解、用嘴巴回答。服務(wù)機(jī)器人實(shí)現(xiàn)智能交互的“三大技術(shù)”分別為語(yǔ)音識(shí)別技術(shù)(ASR),相當(dāng)于它的“耳朵”;自然語(yǔ)言處理技術(shù)(NLP),相當(dāng)于它的“大腦”;語(yǔ)音合成技術(shù)(TTS),相當(dāng)于它的“嘴巴”。

  當(dāng)我們提出問題后,智能服務(wù)機(jī)器人將通過麥克風(fēng)接收聲音,聲音將通過語(yǔ)音識(shí)別技術(shù)(ASR),把聲學(xué)語(yǔ)音轉(zhuǎn)換為服務(wù)機(jī)器人能夠識(shí)別的文字、字母信息。如上圖所示,在寧夏博物館嘈雜的環(huán)境中,小笨智能服務(wù)機(jī)器人可通過語(yǔ)音識(shí)別技術(shù)(ASR)準(zhǔn)確“傾聽”游客聲音,并轉(zhuǎn)換為其能夠識(shí)別的語(yǔ)言,為下一步對(duì)語(yǔ)義的分析、理解做準(zhǔn)備。

  小笨智能服務(wù)機(jī)器人語(yǔ)音識(shí)別技術(shù)(ASR)采用國(guó)際先進(jìn)算法,通過編碼,把語(yǔ)音轉(zhuǎn)換為小笨智能服務(wù)機(jī)器人可以識(shí)別的樣式(即數(shù)字向量表示),因?yàn)槁曇粜盘?hào)是服務(wù)機(jī)器人沒有辦法直接識(shí)別的,需要將聲音切割成一小段一小段音頻,然后每一小段都按一定規(guī)則的數(shù)字向量來(lái)表示。

  然后就是解碼的過程,即將數(shù)字向量拼接為文字、字母的過程。將編碼好的向量放置于聲學(xué)模型和語(yǔ)言模型中,就可得到每一小段對(duì)應(yīng)的文字、字母,然后把翻譯出來(lái)的文字、字母再經(jīng)過語(yǔ)言模型,就可組成小笨可識(shí)別的單詞。

  當(dāng)然,聲學(xué)模型和語(yǔ)言模型也是個(gè)神經(jīng)網(wǎng)絡(luò),是小笨智能服務(wù)機(jī)器人通過大量的語(yǔ)音和語(yǔ)言數(shù)據(jù)訓(xùn)練出來(lái)的,這也是小笨智能服務(wù)機(jī)器人可以準(zhǔn)確識(shí)別各種復(fù)雜語(yǔ)音的原因之一……

  解碼完成后,可識(shí)別的單詞信息將通過服務(wù)機(jī)器人的自然語(yǔ)言處理技術(shù)(NLP)來(lái)準(zhǔn)確理解客戶意圖、情感傾向等信息,此為語(yǔ)音交互中的核心之一,也是最難的模塊之一。

  自然語(yǔ)言處理技術(shù)(NLP)通過語(yǔ)法分析、句法分析、語(yǔ)義理解文本相似度處理、情感傾向分析等技術(shù),具備衡量人們觀點(diǎn)和傾向的能力,可精準(zhǔn)區(qū)分出哪些話屬于這個(gè)意圖,哪些表達(dá)不是這一類意圖。小笨智能自主研發(fā)的自然語(yǔ)言處理技術(shù)(NLP)可將接收到的信息進(jìn)行分析、理解,上圖為小笨智能服務(wù)機(jī)器人在濟(jì)南能源集團(tuán)辦事大廳,前來(lái)辦理業(yè)務(wù)的群眾只需要說出需求,即可準(zhǔn)確理解群眾意圖,并從“5G云端大腦”中提取出相對(duì)應(yīng)答案,發(fā)出準(zhǔn)確的回復(fù)指令。

  小笨智能服務(wù)機(jī)器人“5G云端大腦”儲(chǔ)存著海量知識(shí)庫(kù),可支持生活常識(shí)、天氣、機(jī)票等信息查詢,并同步企業(yè)各類形式的信息,使企業(yè)信息通過語(yǔ)音、視頻、動(dòng)圖等形式展現(xiàn)出來(lái),滿足訪客98%以上的日常閑聊或企業(yè)業(yè)務(wù)問答。

  當(dāng)服務(wù)機(jī)器人發(fā)出回復(fù)指令后,還需要用“嘴巴”說出來(lái),這就需要使用語(yǔ)音合成技術(shù)(TTS),即把回復(fù)指令轉(zhuǎn)換為人類能夠聽懂的聲音。如下圖,在濟(jì)南長(zhǎng)途汽車總站小笨智能服務(wù)機(jī)器人“理解”完游客的問題后,于“5G云端大腦”中提取出準(zhǔn)確的回復(fù)指令,并轉(zhuǎn)換為游客能夠理解的語(yǔ)音、視頻、圖片等形式,讓游客輕松掌握出行信息。

  語(yǔ)音合成技術(shù)(TTS)的工作流程可分為兩步,第一步為文本處理,這一步做的事情是把文字或字母指令轉(zhuǎn)化成音素序列,并標(biāo)出每個(gè)音素的起止時(shí)間、頻率變化等信息,這一步的作用不可小覷,比如拼寫相同但讀音不同的詞的區(qū)分、縮寫的處理、停頓位置的確定等。

  第二步為語(yǔ)音合成,這一步是指根據(jù)已經(jīng)標(biāo)注好的音素起止時(shí)間、頻率變化等生成語(yǔ)音,最終通過揚(yáng)聲器準(zhǔn)確表達(dá)出來(lái)。

  小笨智能語(yǔ)音合成技術(shù)(TTS)技術(shù)可對(duì)文本實(shí)現(xiàn)實(shí)時(shí)轉(zhuǎn)換,轉(zhuǎn)換時(shí)間可以按秒計(jì)算,文本輸出的語(yǔ)音音律流暢,讓聽者在聽取信息時(shí)感覺自然,幾乎沒有機(jī)器語(yǔ)音輸出的冷漠與生澀感。

  小笨智能強(qiáng)大的自然語(yǔ)言處理能力,可滿足在不同應(yīng)用場(chǎng)景中高效、準(zhǔn)確服務(wù),針對(duì)不同的應(yīng)用場(chǎng)景,同步不同的樣本數(shù)據(jù),所以,小笨智能已服務(wù)過的6000+客戶中,覆蓋政務(wù)大廳、法院、商場(chǎng)、機(jī)場(chǎng)等全行業(yè)場(chǎng)景,滿足了不同企業(yè)的差異化需求。

  從語(yǔ)音識(shí)別到智能問答,從意圖識(shí)別到情感分析,無(wú)不顯示小笨智能服務(wù)機(jī)器人在當(dāng)代對(duì)場(chǎng)景深層次服務(wù)的執(zhí)著追求。未來(lái),小笨智能將繼續(xù)堅(jiān)持為企業(yè)、為社會(huì)提供有價(jià)值的見解,使傳統(tǒng)行業(yè)煥發(fā)新生力,讓我們的生活更方便、更高效。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )