百度強(qiáng)勢入場,AI們集體打 call:揭秘百度智能客服背后的語音技術(shù)與應(yīng)用

兩年前的今天,AI流行下圍棋;今天,AI流行打電話……

這個(gè)潮流的最近一次上演,是幾天前的百度AI開發(fā)者大會(huì)上,李彥宏現(xiàn)場播放了百度AI客服邀請(qǐng)開發(fā)者的真實(shí)電話錄音。

當(dāng)時(shí)我就在現(xiàn)場,第一通電話里那位開發(fā)者方言比較重,到底說了什么我基本沒聽懂。但百度的AI卻應(yīng)對(duì)自如,在電話中回答了各種問題。

第二通電話更神了,那位女開發(fā)者發(fā)現(xiàn)了小度的AI身份,直接問百度給ta發(fā)錢嗎,結(jié)果被小度用一句“百度給我免費(fèi)充電”,巧妙的“回撩”了過去。

在眾人的驚嘆中,我們很容易發(fā)現(xiàn)讓AI打電話已經(jīng)成為了“兵家必爭”之地。前不久谷歌I/O大會(huì)上Google Assistant演示AI打電話訂餐廳,一句“嗯哼”也安排得明明白白。幾天之后微軟的AI大會(huì)上馬上反擊,不僅上演電話秀,還高調(diào)Diss谷歌,表示微軟小冰已經(jīng)打過60多萬次電話了。

打電話這件事就這么重要嗎?引三大AI巨頭都不惜電話費(fèi)也要硬杠一下?

事實(shí)上,在這個(gè)AI跟陌生人直接進(jìn)行有效溝通的場景里,隱藏著兩個(gè)AI語音與NLP技術(shù)的核心關(guān)卡,足夠給今天AI公司的軍備競賽提供完美肌肉秀。而AI打電話同時(shí)也指向另一個(gè)問題:AI到底能干什么,是不是在很多領(lǐng)域已經(jīng)可以完全代替真實(shí)的產(chǎn)業(yè)勞動(dòng)?

打個(gè)call的功夫,這些復(fù)雜的競爭與技術(shù)炫技就都顯露了出來。

一顰一笑都有來歷:為什么已經(jīng)聽不出AI還是真人?

AI打電話第一關(guān):怎么讓AI聲音聽起來不別扭?

我們知道,人和人之間的交流,其實(shí)絕大部分依靠的是簡單的詞匯量+大量復(fù)雜的情感詞、語氣詞、助動(dòng)詞。如果我們把日常說話直接轉(zhuǎn)化為文字,會(huì)發(fā)現(xiàn)文檔里80%的話都是“無效信息”。

但怎么讓AI學(xué)會(huì)這些東西,像真人一樣有感情、有頓挫,有語氣詞,甚至有呼吸節(jié)奏地與人交流,是一門巨大的技術(shù)挑戰(zhàn)。

百度AI開發(fā)者大會(huì)前,百度AI客服給大量開發(fā)者打了電話,其中很多開發(fā)者一開始?jí)焊鶝]有發(fā)現(xiàn)這是位AI小姐姐。而這其實(shí)是建立在它沒有刻意修飾機(jī)器音的基礎(chǔ)上。

如何讓AI聽起來像人一樣,這需要在語音合成與語序修飾上下一番功夫。而這也是各家展現(xiàn)本領(lǐng)的時(shí)刻。

根據(jù)資料,谷歌I/O大會(huì)上的打電話AI,使用了生成式 TTS 引擎。能根據(jù)不同的情境控制語音的語調(diào),并生成一些語氣詞。當(dāng)然,這背后還有DeepMind的WaveNet自然語音合成算法作為支撐。

雖然谷歌的操作已經(jīng)十分風(fēng)騷。但在中文領(lǐng)域想要復(fù)制英文的詞匯運(yùn)算以及助詞生成卻完全無法進(jìn)行。百度這次展示的語音合成方案,據(jù)稱是基于中文識(shí)別與語義理解技術(shù),創(chuàng)新結(jié)合WaveNet加上拼接技術(shù),打造出了滿足中文需求,并適合大規(guī)模應(yīng)用的自然語言合成算法。

所以我們在聽百度AI客服打電話的時(shí)候,會(huì)在機(jī)器音之外聽到自然的語序,合理的語氣詞使用,甚至模仿出的呼吸聲,邁過了AI與人類傻傻分不清楚的第一道門檻。

當(dāng)然了,只是說話好聽是沒用的,重點(diǎn)是能聽懂,能聊下去。在理解層面,AI的挑戰(zhàn)就更大了。

一言一語都是學(xué)問:AI如何跟陌生人聊下去

直到今天,很多媒體和看客還在嘲笑AI聊天是“人工智障”。這種聲音就像嘲笑最開始跑不過馬車的汽車,當(dāng)有一天大家發(fā)現(xiàn)在嘲笑的是什么,已經(jīng)連汽車尾氣都看不見了。

為了能在聊天時(shí)不“智障”,無數(shù)巧妙到毫厘的技術(shù)解決方案正在加緊研發(fā)與應(yīng)用。AI能夠真正與人聊天,而不是單純的一問一答,需要的是AI能夠快速識(shí)別人類問題,并快速給出回復(fù)。這個(gè)過程不能卡頓和延遲——沒有人想跟慢半拍的機(jī)器聊天。

為了解決這個(gè)問題,各家高招跌出。比如第五代小冰采用了全雙工語音技術(shù),讓預(yù)測模型和生成模型同步傳輸數(shù)據(jù),達(dá)到預(yù)測聊天的效果。但可惜的是小冰似乎還沒有脫離傳統(tǒng)AI對(duì)話的窠臼,在流暢度以及“超綱”問題的應(yīng)答上依舊不夠靈敏。

對(duì)比谷歌和百度的打電話技術(shù),會(huì)發(fā)現(xiàn)更好的解決方案,可能是結(jié)合自然聲音合成技術(shù)同步生成高效預(yù)測,讓AI和真人具有一樣的溝通語言習(xí)慣。但谷歌的方案一出,馬上收到了一些懷疑,比如他們的聲音被多家媒體懷疑是錄制聲音作弊。

另一方面,相較百度的AI客服展示,谷歌語音助手是訂餐。換言之谷歌語音助手只用給出信息,并聽懂對(duì)方的回復(fù)就行了。而百度的AI客服卻要回答對(duì)方可能出現(xiàn)的各種問題。甚至巧妙回答完全超乎一般人機(jī)語音對(duì)話中的問題——比如“百度給你發(fā)工資嗎?”

百度的絕招,在于這次強(qiáng)調(diào)百度大腦升級(jí)的多模態(tài)深度語義理解技術(shù),其中語音語義一體化技術(shù),可以有效解決語音識(shí)別與語義理解中間的環(huán)節(jié)遲慢和環(huán)節(jié)誤差問題,達(dá)到真正的與人隨說所理解。

百度另一個(gè)值得注意的核心技術(shù)突破,是Deep peak2技術(shù),其識(shí)別方案利用音素組合建模,可以忽略上下文影響,極快速準(zhǔn)確識(shí)別語音語義,在亮相之處就跟華少的語速PK了一把。通過Deep peak2,小度不僅能識(shí)別開發(fā)者大會(huì)上那位老鐵讓我沒聽懂的方言,還可以準(zhǔn)確識(shí)別中英文混合建模。讓百度AI的識(shí)別錯(cuò)誤率,比市面上主流AI語音硬件下降20%,且能應(yīng)對(duì)中英文混著說這個(gè)“老大難問題”。

結(jié)合知識(shí)圖譜技術(shù)作為基礎(chǔ),新銳語音識(shí)別解決方案作為驅(qū)動(dòng),語音語義一體化技術(shù)作為核心,AI客服才能主動(dòng)與人類聊下去,回答各種問題??梢哉f在這個(gè)技術(shù)應(yīng)用方案上,中國百度已經(jīng)明顯與谷歌、微軟拉開差距。

一行一動(dòng)都是未來:AI客服的大革命

簡單來說,打電話這件事的復(fù)雜程度和挑戰(zhàn)性,讓他成為了今天頂尖AI公司必須完成的軍備競賽。

但這項(xiàng)技術(shù)的目的當(dāng)然不僅是為了炫技,用谷歌I/O大會(huì)之后美國科技媒體的評(píng)價(jià):AI打電話這件事,正在把人工智能技術(shù)史無前例地與真實(shí)世界聯(lián)系到一起。

客服投訴、企業(yè)管理、調(diào)查回訪、聯(lián)系溝通,我們有太多工作是依靠打電話這件事來完成的。假如AI可以勝任這項(xiàng)工作的核心領(lǐng)域,甚至達(dá)到以假亂真的地步,那么大量簡單重復(fù)的語言工作將不再浪費(fèi)人類的寶貴工作時(shí)間。

更重要的是,給陌生人打電話意味著機(jī)器與人全方位的溝通。尤其是百度客服電話在AI身份被試穿之后的調(diào)侃,完全可以應(yīng)對(duì)大量需要及時(shí)處理、協(xié)調(diào),給出咨詢方案的溝通。甚至可以說,很多人類客服做的不會(huì)有它應(yīng)對(duì)的這么好。

這個(gè)層面上看,打電話這事可以說是AI現(xiàn)實(shí)應(yīng)用的練兵場。開放的應(yīng)用層,會(huì)帶給產(chǎn)業(yè)世界無窮的想象。舉個(gè)例子來說,假如打電話的AI溝通能力,跟精準(zhǔn)的機(jī)器翻譯相結(jié)合。那么用AI主動(dòng)與歪果仁進(jìn)行跨語種聊天,然后把獲取信息反饋回來不就成為了可能?那么市面上那些大張旗鼓的“翻譯機(jī)”產(chǎn)品,不就失去了基本的存在價(jià)值?這就是技術(shù)突破后的降維打擊。

目前來看,小冰還是無法擺脫語料庫的尷尬;而谷歌還需要在更多應(yīng)用場景證明自己打電話的能力真實(shí)性。百度已經(jīng)領(lǐng)先了一個(gè)身位,給中國AI的打call打個(gè)call,在今天看來并不過分。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-07-08
百度強(qiáng)勢入場,AI們集體打 call:揭秘百度智能客服背后的語音技術(shù)與應(yīng)用
原標(biāo)題:百度強(qiáng)勢入場,AI們集體打call:揭秘百度智能客服背后的語音技術(shù)與應(yīng)用兩年前的今天,AI流行下圍棋;今天,AI流行打電話……這個(gè)潮流的最近一次上演,是幾天前的百度AI開發(fā)者大會(huì)上,李彥宏

長按掃碼 閱讀全文