123,123

兩個月前的Google I/O大會上，“劈柴哥”祭出了手中的王牌AI：GoogleAssistant的一句“嗯哼”，讓全場為之驚艷。

在語音助手的智能化標(biāo)準(zhǔn)還是如何做到“像人”的時候，Google Assistant的語氣詞，給人的感覺像是在和真人對話。本以為谷歌會因此再度“封神”，卻沒想到在不到兩個月后的百度AI開發(fā)者大會上，百度的AI客服便上演了更精彩的一幕。

會賣萌的AI客服

介紹完L4級別無人駕駛的阿波龍后，李彥宏似乎想讓現(xiàn)場的開發(fā)者們輕松一下，播放了兩段AI客服邀請開發(fā)者參加百度AI開發(fā)者大會的錄音。錄音中，百度的AI客服不僅會在對話中自然地加入“喔”、“額”、“嗯”等語氣詞，還能清楚地聽到它換氣和呼吸的聲音，給人的感覺像是在和真人對話。

如果只有這些的話，百度AI客服和Google Assistant算是旗鼓相當(dāng)，但電話過程中的一個個小插曲，除了現(xiàn)場的一陣陣笑聲，也著實(shí)讓人領(lǐng)略到了百度的技高一籌。這里對兩段AI客服和開發(fā)者的對話片段做一個還原：

對話一：

開發(fā)者：“誒，你是不是機(jī)器人??？”

AI客服：“呃……被您發(fā)現(xiàn)啦，我是開發(fā)者大會智能客服機(jī)器人，很高興為您服務(wù)。”

開發(fā)者：“機(jī)器人，哈哈，那你是哪里人啊？”

AI客服：“這個還用問么，我是百度人?！?/p>

開發(fā)者：“那百度給你發(fā)工資嗎？”

AI客服：“嗯……百度為我免費(fèi)充電?！?/p>

對話二：

AI客服：“想給您確認(rèn)，4號、5號的百度AI開發(fā)者大會是否會出席？”

開發(fā)者：“會。”

AI客服：“哦，好的?！?/p>

開發(fā)者：“喂？”

AI客服：“嗯，您說?！?/p>

開發(fā)者：“哦，沒事，我以為你是機(jī)器人呢，哈哈哈哈，不好意思。”

事實(shí)上，從7月1號開始這位特殊的客服勤勤懇懇地服務(wù)了幾百位開發(fā)者，有人聽出了機(jī)器人的身份，有人壓根就沒有發(fā)覺，有人誤以為是機(jī)器人接下來又自我否定……雖然百度官方?jīng)]有做出正式的公告，但百度的AI客服已經(jīng)在某種程度上通過了圖靈測試，比如機(jī)智地應(yīng)對突如其來的質(zhì)疑。

人類的語言系統(tǒng)一直是個奧秘，文字僅僅承載了20%的溝通，剩下的80%要靠情感來溝通，從而聽出對話人的喜怒哀樂，做出不失分寸的回答，這也成了人機(jī)對話與生俱來的瓶頸。即便語音識別的準(zhǔn)確度高達(dá)97%以上，人家“喂”了一聲之后就不知道怎么接茬，自然會被開發(fā)者們吐槽成“人工智障”。

而百度AI客服驚艷的地方就在于：不僅可以通過語氣詞“蒙混過關(guān)”，就算被識破后也能做出機(jī)智幽默的回答，即使是比較刁鉆的提問，依舊應(yīng)答如流。

AI為何要學(xué)會打電話？

驗(yàn)證AI語音能力的方式有很多，為何百度要選擇打電話？這還要從谷歌和微軟的兩個先例說起。

正如前面所提到的Google Assistant用一句“嗯哼”驚艷全場，其實(shí)是谷歌有意展示語音助手幫客戶打預(yù)約電話的能力，比如電話訂餐、理發(fā)店預(yù)約啥的，甚至將Google Duplex定義為能打電話完成真實(shí)世界任務(wù)的 AI 系統(tǒng)。

無獨(dú)有偶，微軟在中國召開的人工智能大會上也上演了一場電話秀，甚至為了Diss 隔壁的Google Duplex，微軟宣布在過去兩年的時間內(nèi)，小冰與人類用戶完成了累計(jì)超過 60 萬通電話交流，并將小冰定義為情感聊天機(jī)器人。

弄明白了這個問題，我們不妨對比下百度、谷歌、微軟三家人工智能的“打電話”能力。

Google Duplex與真人溝通對話的過程中，可以準(zhǔn)確理解人類語言，并根據(jù)任務(wù)目標(biāo)做出合理自然的應(yīng)答。目前這項(xiàng)技術(shù)針對的是執(zhí)行一些特定的任務(wù)，比如為某幾類活動約定時間。而對話之所以聽起來真實(shí)自然，在于使用了一個級聯(lián) TTS 引擎和一個生成式 TTS 引擎，能根據(jù)不同的情境控制語音的語調(diào)，同時生成一些語氣詞。

第五代小冰采用了全雙工語音技術(shù)和生成模型，允許數(shù)據(jù)在兩個方向上同時傳輸，可以實(shí)時預(yù)測人類即將說出的內(nèi)容，實(shí)時生成回應(yīng)，并控制對話節(jié)奏，從而使長程語音交互成為可能。此外采用該技術(shù)的智能硬件設(shè)備，也不需要用戶在每輪交互時都說出喚醒詞，僅需一次喚醒，就可以輕松實(shí)現(xiàn)連續(xù)對話，使人與機(jī)器的對話更像人與人的自然交流。

百度AI客服的內(nèi)核是百度大腦3.0，按照王海峰博士的解釋，“多模態(tài)深度語義理解”是百度大腦3.0的核心，包括數(shù)據(jù)語義、知識語義、視覺語義、語音語義一體化和自然語言語義等等。而在語音對話方面主要有兩點(diǎn)，一個是自然語言處理和知識圖譜，讓AI有能力回答“超綱”的問題；另一個是語音合成怎么聽起來更加自然的語音語義一體化技術(shù)，將傳統(tǒng)的拼接技術(shù)和最新的WaveNet技術(shù)有機(jī)結(jié)合在一起，既保證了拼接時說話人的情感，又保證了在WaveNet技術(shù)中輸出聲音的穩(wěn)定性，同時降低了需要使用的數(shù)據(jù)和成本。

似乎可以下出這樣的結(jié)論：微軟小冰剛剛走出搜語料庫的階段，打電話也符合小冰作為“聊天機(jī)器人”的定位；Google Assistant仍然只能完成特定任務(wù)，完全替代“人類助理”仍尚需時日；而百度借助AI客戶則展示了全方位的溝通對話能力，特別是被“識破”后的機(jī)智，讓外界看到了開放應(yīng)用的可能。

不僅僅是AI客服

百度選擇以“客服”展示AI能力，恐怕不只是對標(biāo)谷歌、微軟那么簡單，早在去年9月份，在百度金融APP中在線機(jī)器人的服務(wù)占比就已經(jīng)高達(dá)95%。也從另一個層面證實(shí)：對手們還在炫技的時候，百度已經(jīng)開始了商業(yè)化的應(yīng)用。

而AI智能客服涉及到的語音語義一體化、自然語言處理等只是百度大腦3.0的一小部分能力。比如視覺語義化可以讓機(jī)器從看清到看懂視頻，可以實(shí)現(xiàn)顧客在無人超市購物的完整體驗(yàn)；數(shù)據(jù)語義化技術(shù)可以將大千世界中多元、異構(gòu)和多模態(tài)的三元空間大數(shù)據(jù)，形成包含千億節(jié)點(diǎn)、萬億關(guān)系的龐大數(shù)據(jù)語義網(wǎng)絡(luò)。如此種種。

值得一提的是，目前百度大腦3.0已經(jīng)對外開放了110多項(xiàng)領(lǐng)先的AI能力，并通過開放EasyDL等定制化平臺、軟硬一體的AI能力，持續(xù)降低AI應(yīng)用門檻，幫助開發(fā)者和企業(yè)應(yīng)用AI實(shí)現(xiàn)業(yè)務(wù)創(chuàng)新與升級。這也是谷歌、微軟難以企及的。

也就是說，開發(fā)者可以通過簡單的接口調(diào)用就能獲得強(qiáng)大的AI能力，進(jìn)而不斷讓創(chuàng)意落地成真。就拿語音語義一體化技術(shù)來說，不單單是百度的AI客服，還將被應(yīng)用在智能音箱、智能電視、智能手機(jī)等一系列軟硬件產(chǎn)品上，甚至是我們預(yù)想不到的場景里。

關(guān)于人工智能的使命，百度是這么回答的：從重復(fù)、低效、繁重的腦力判斷工作中把人解放出來。相信這絕非是一句空談，就好像會賣萌的AI客服，難道不是你Pick的對象嗎？

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）