如果家里沒一臺(tái)“智能音箱”,怎么好意思說自己是極客Boy。
可當(dāng)你忍不住剁手后,體驗(yàn)了一兩天的嘗鮮感,十有八九會(huì)把它扔在角落里吃灰。
每次對(duì)話都要喊一下喚醒詞,感覺好不別扭,鄰居家還可能以為你養(yǎng)了條叫“XX”的狗;指令說道一半就會(huì)被打斷,莫名其妙的回了句“對(duì)不起,請(qǐng)?jiān)僬f一遍”;上一句還在問今天天氣怎么樣,下一句問今天穿什么衣服,給到的是和天氣毫無關(guān)系的答案……
不只是你覺得這種體驗(yàn)很不爽,百度的工程師們也忍受不了這種“人工智障”,在今年的百度世界大會(huì)上,百度語(yǔ)音技術(shù)部總監(jiān)高亮就聊了聊語(yǔ)音技術(shù)是如何讓智能音響變聰明的。
先定一個(gè)小目標(biāo)
鋼鐵俠和自己的AI管家賈維斯對(duì)話時(shí),如果每次交互都要重新喚醒,不管是什么人都能發(fā)號(hào)施令,環(huán)境太吵的時(shí)候就聽不清,鋼鐵俠不知道會(huì)被打趴下多少次。
在百度世界,高亮說“遠(yuǎn)場(chǎng)語(yǔ)音的技術(shù)發(fā)展特別快,百度的喚醒、遠(yuǎn)場(chǎng)識(shí)別以及基于高頻Query解決的語(yǔ)音語(yǔ)義一體化等技術(shù),可以解決基礎(chǔ)體驗(yàn)問題,讓音箱喚得醒,聽得清。”但是,解決基礎(chǔ)體驗(yàn)還不夠,如果和智能音箱交互,你就會(huì)發(fā)現(xiàn),“聽懂”才是最難的。
“小度小度,放一首許巍的歌”
“現(xiàn)在播放許巍的歌曲《故鄉(xiāng)》”
“嗯……這是……他哪張專輯里的?”
“來自專輯《那一年》”
……
在高亮現(xiàn)場(chǎng)的演示里,搭載了百度遠(yuǎn)場(chǎng)語(yǔ)音技術(shù)方案的智能音箱只需喚醒一次就可以連續(xù)多輪對(duì)話,能夠準(zhǔn)確識(shí)別用戶說話時(shí)的猶豫停頓、能夠區(qū)分并跟隨首次喚醒的人,與此同時(shí),回應(yīng)還相當(dāng)靈敏,與小度的問答越來越像一場(chǎng)“交談”而不僅僅是一次“交互”。從“交互”到“交談”,這就是百度工程師們正在做的事情。
當(dāng)下的人工智能遠(yuǎn)沒有科幻電影中成熟,普遍認(rèn)為還只有五六歲小孩的智商,可你和五六歲小孩溝通時(shí)也會(huì)這么費(fèi)勁嗎?就如高亮所言“每一個(gè)技術(shù)問題都會(huì)面臨一個(gè)技術(shù)解決的方法”,或許普通用戶只能吐槽抱怨一下,但百度的一群工程師們卻默默定了個(gè)小目標(biāo),不是先掙一個(gè)億,而是:
1、一次喚醒可以連續(xù)交互;只需要喚醒一次,就可以進(jìn)行連續(xù)對(duì)話,不管智能音箱處于什么樣的工作狀態(tài),哪怕正在播放音樂。就像人與人之間的對(duì)話那樣有問有答,不再是每次對(duì)話都要說出喚醒詞,真正的語(yǔ)音交互不應(yīng)該是刻板的。
2、說話停頓不會(huì)打斷;當(dāng)你說“給我放一首周杰倫的…呃…菊花臺(tái)”,智能音箱不是著急隨便放了一首周杰倫的歌,而是播放菊花臺(tái)。智能音箱要明白你什么時(shí)候說完了,什么時(shí)候沒說完,不會(huì)把你沒說完的話切斷,畢竟誰還沒有猶豫的時(shí)候呢。
3、知道說話人是誰;一個(gè)典型的三口之家,有爸爸、媽媽、孩子,每個(gè)人的需求是不一樣的。智能音箱要精準(zhǔn)識(shí)別出每一個(gè)人的聲音,知道問題是誰問的,然后給出準(zhǔn)確的答案。
4、上下文對(duì)話連貫;智能音箱在回答你現(xiàn)在的問題時(shí),也要知道上一個(gè)問題是什么,要學(xué)會(huì)結(jié)合上下文,不能答非所問。只有這樣人和智能音箱的對(duì)話才會(huì)更自然,我們想要的不是沒有情感的機(jī)器,至少對(duì)話要有邏輯性。
5、聽清聽懂不傻冒泡;你在客廳和朋友聊天時(shí),可能有些話是說給朋友聽的,有些是給智能音箱的指令,這時(shí)候智能音箱就要進(jìn)行精準(zhǔn)判斷,準(zhǔn)確識(shí)別出你是不是在和音箱對(duì)話,而不是在不該出現(xiàn)的時(shí)候“插兩句嘴”。
現(xiàn)在語(yǔ)音交互用到的技術(shù)主要是麥克風(fēng)陣列、語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音轉(zhuǎn)文字、文字轉(zhuǎn)語(yǔ)音等等,都是人工智能技術(shù)最基本的應(yīng)用,幾乎一個(gè)十幾人的創(chuàng)業(yè)團(tuán)隊(duì)就能完成。但百度工程師們的小目標(biāo),卻需要一連串的技術(shù)攻堅(jiān)。
百度高級(jí)副總裁、AI 技術(shù)平臺(tái)體系總負(fù)責(zé)人王海峰所說過,AI技術(shù)與產(chǎn)業(yè)的結(jié)合愈發(fā)多元化,單一技術(shù)已無法滿足應(yīng)用需求,只有更懂得理解和思考,最終將幫助人們更便捷自然地獲取信息找到所求的交互,才能帶動(dòng)整個(gè)生態(tài)的發(fā)展。
用技術(shù)拯救“人工智障”
想要智能音箱可以連續(xù)對(duì)話、應(yīng)答如流,最簡(jiǎn)單的辦法就是“人工”智能,比如2015年橫空出世的某客服機(jī)器人,憑借軟萌的聲音、流暢的反應(yīng)、高度人性化的對(duì)答,幾乎可以和鋼鐵俠的賈維斯媲美,最后卻被扒出是“攝像頭+變聲器+人工客服”。
當(dāng)然,“人工”智能也只有在演示時(shí)騙一騙領(lǐng)導(dǎo),讓幾千萬臺(tái)智能音箱、智能家居、智能手機(jī)等都能對(duì)答如流,又該怎么實(shí)現(xiàn)呢?高亮在百度世界告訴我們,百度的工程師已經(jīng)想出了一套系統(tǒng)化方案。
第一步是語(yǔ)音信號(hào)處理。語(yǔ)音激活檢測(cè)技術(shù)已經(jīng)非常成熟,蘋果的“Hey,Siri”、DuerOS的“小度小度”都是案例,一次喚醒多次會(huì)話看起來也不復(fù)雜,比如設(shè)定智能音箱在一定時(shí)間內(nèi)自動(dòng)收音。難點(diǎn)在于怎么知道用戶的話到底有沒有說完。
因?yàn)槲覀冋f話不會(huì)永遠(yuǎn)都是連續(xù)不卡殼的,比如我想聽一首薛之謙的歌,我可能會(huì)說“小度小度,給我播首薛之謙的……”思考1-2秒,然后說“認(rèn)真的雪”。而這1-2秒間,就可能讓智能音箱以為你說完了,從而接收指令給你播起了薛之謙的所有歌曲,甚至停止響應(yīng)。
百度的工程師們準(zhǔn)備了十幾萬小時(shí)的仿真訓(xùn)練數(shù)據(jù),數(shù)千套房間數(shù)萬組沖擊響應(yīng)函數(shù),上萬小時(shí)真實(shí)AEC錄制數(shù)據(jù),以及幾十萬小時(shí)的無監(jiān)督聲音數(shù)據(jù),利用云、端語(yǔ)音完整性聯(lián)動(dòng)訓(xùn)練的方法,然后基于大數(shù)據(jù)進(jìn)行聲學(xué)建模和尾點(diǎn)檢測(cè),打造了全新的語(yǔ)音識(shí)別引擎。
當(dāng)你對(duì)智能音箱說話的時(shí)候,音箱會(huì)立刻感知到,然后持續(xù)不斷向云端發(fā)送語(yǔ)音數(shù)據(jù),進(jìn)行語(yǔ)義分析,監(jiān)測(cè)你說的話是不是完整,然后智能音箱就能判斷你的話是否說完了。上傳的語(yǔ)音數(shù)據(jù)只有幾十K大小,整個(gè)過程不到一秒鐘就能完成。不會(huì)出現(xiàn)諸如音箱在放著音樂,你說了一句“暫停”,音箱兩三秒才響應(yīng),這個(gè)時(shí)候你可能會(huì)覺得音箱沒有聽見(尤其是音箱播放音量比較大的時(shí)候),然后再補(bǔ)一句“暫?!钡那闆r。
就像高亮在現(xiàn)場(chǎng)的舉例,“給我放一首劉德華的…呃…忘情水”,這個(gè)猶豫發(fā)問和提筆忘字一樣,是很普遍的場(chǎng)景,需要對(duì)聲學(xué)建模做一些特殊處理,要有非常精準(zhǔn)的尾點(diǎn)檢測(cè), 讓系統(tǒng)能夠明白我們什么時(shí)候是猶豫,什么時(shí)候是說完了話,從而明確用戶所表達(dá)的意圖。
第二步聲紋跟蹤和決策。成年人的聲音可以長(zhǎng)期相對(duì)穩(wěn)定不變,就算別人故意模仿你的聲音和語(yǔ)氣,聲紋卻始終不會(huì)相同。和指紋、虹膜等生物識(shí)別一樣,聲紋也是獨(dú)一無二且相對(duì)穩(wěn)定的生理特征,這樣智能音箱可以拒絕掉不需要的聲音。
于是百度的工程師們,根據(jù)自然界聲音標(biāo)定的聲學(xué)置信度,對(duì)百萬人量級(jí)的聲紋進(jìn)行學(xué)習(xí)建模,并推出了面向智能音箱連續(xù)交互場(chǎng)景的語(yǔ)義置信度技術(shù),也是業(yè)界首創(chuàng)自動(dòng)區(qū)分語(yǔ)音中不同說話人身份的商用系統(tǒng)。會(huì)對(duì)喚醒人的聲紋進(jìn)行注冊(cè)、跟蹤、拒識(shí),和喚醒人方向不一樣的聲音會(huì)被拒絕掉,聲紋不同的聲音會(huì)被拒絕掉,和智能音箱場(chǎng)景不匹配的聲音也會(huì)拒絕掉。
比如說你和朋友聊天的時(shí)候,聊到某首歌時(shí)想讓智能音箱播放,也可能會(huì)聊到一些電視劇和工作上的事情。百度的智能音箱已經(jīng)達(dá)到了這樣的聰明程度:自動(dòng)判斷是不是在和它說話,發(fā)現(xiàn)命令會(huì)立刻執(zhí)行,不相關(guān)的對(duì)話絕不插一句嘴。
第三步交互上下文管理。現(xiàn)在的人工智能不是仿生學(xué),而是通過各種各樣的算法,畢竟人類連大腦的工作原理都還沒有搞清楚,讓人工智能像人類一樣思考還很遙遠(yuǎn)。那么問題就來了,和人工智能進(jìn)行單次的對(duì)話并不難,想要把上下文的信息關(guān)聯(lián)在一起就需要考驗(yàn)工程師們的腦洞了。
百度的工程師們先做了語(yǔ)音語(yǔ)義一體化技術(shù),把聲學(xué)、聲紋、語(yǔ)義置信度和從DuerOS獲得到的垂類信息資源融合起來,在深度神經(jīng)網(wǎng)絡(luò)的多信息融合技術(shù)、高頻圖和通用圖并行解碼決策的基礎(chǔ)上,對(duì)對(duì)話的上下文進(jìn)行跟蹤管理:判斷了說話對(duì)象后,可以知道之前交互的內(nèi)容,知道對(duì)象的角色、喜好,然后綜合所有這些信息作出精準(zhǔn)決策,這樣就解決了上下文關(guān)聯(lián)的問題。
假如你問百度智能音箱明天天氣怎么樣,下一句問穿什么衣服比較合適,聽到的回答會(huì)是和明天天氣相關(guān)的穿衣搭配。不會(huì)像一些智能音箱一樣,你問穿什么衣服,冷冰冰的來一句:“我找到附近有三家賣衣服的店鋪……”
技術(shù)可能不是萬能的,但沒有技術(shù)是萬萬不能的。
哪些場(chǎng)景可以用?
一次喚醒多輪對(duì)話的能力依賴于多項(xiàng)聲紋、語(yǔ)音、語(yǔ)義技術(shù)的進(jìn)步,包括創(chuàng)新的尾點(diǎn)檢測(cè)技術(shù),其利用云端信號(hào)AD技術(shù)一邊做語(yǔ)音識(shí)別一邊發(fā)給語(yǔ)義VAD,將聲學(xué)技術(shù)與語(yǔ)義技術(shù)結(jié)合在一起,能夠適應(yīng)用戶說話速度,知道用戶什么時(shí)候說完了,不在中間打斷。
魯棒拒識(shí)技術(shù)創(chuàng)新了聲紋跟蹤、語(yǔ)音置信度、聲學(xué)置信度,可以基于特定說話人的場(chǎng)景化識(shí)別,拒絕非音箱交互人聲,拒絕聊天內(nèi)容與場(chǎng)景不一致的對(duì)話。
現(xiàn)場(chǎng),高亮也用一款音箱向大家展示了百度遠(yuǎn)場(chǎng)語(yǔ)音技術(shù)方案——通過一連串流利的交互,在大會(huì)會(huì)場(chǎng)高噪音的環(huán)境下,說話的距離超過1米,音箱的喚醒和識(shí)別表現(xiàn)很好。并且一次喚醒就能多次對(duì)話,智能音箱在說話時(shí),也能聆聽用戶的新命令并且快速執(zhí)行。從更多的演示deme和視頻來看,維納斯智能音箱也能實(shí)現(xiàn)一定的上下文理解。
想要讓智能音箱實(shí)現(xiàn)連續(xù)對(duì)話的,不只是百度的工程師們,谷歌、亞馬遜等同樣在努力。這些個(gè)工程師們加班加點(diǎn),冒著掉頭發(fā)的風(fēng)險(xiǎn)去做技術(shù)研發(fā),僅僅是為了讓智能音箱不在角落里吃灰嗎?
其實(shí)場(chǎng)景還有很多。
王海峰曾在中國(guó)圖靈大會(huì)上展示過百度的智能語(yǔ)音搜索:當(dāng)用戶直接對(duì)著手機(jī)詢問“天氣熱嗎”,她會(huì)回答當(dāng)?shù)氐奶鞖馐菬徇€是涼爽,氣溫如何等情況;當(dāng)用戶接著問“上海呢”,她能夠基于上下文理解技術(shù)自動(dòng)補(bǔ)全用戶的問題是上海的天氣,從而給出準(zhǔn)確的回答。此外在王海峰在百度AI開發(fā)者大會(huì)上的那段“花式 RAP”,百度AI也完全不懵逼,妥妥應(yīng)答如流。
再比如公室里的小組會(huì)議總需要安排一個(gè)人進(jìn)行會(huì)議紀(jì)要,又不是專業(yè)的速記員,難免忘了某個(gè)問題是誰提的,某個(gè)人說了一大對(duì)話可能只記了開頭幾句。這時(shí)候聲紋識(shí)別技術(shù)就可以派上用場(chǎng)了,兩人場(chǎng)景中百度的識(shí)別準(zhǔn)確率為95.2%,三人及以上場(chǎng)景也達(dá)到了92.9%,遠(yuǎn)比普通人的會(huì)議紀(jì)要靠譜。
更多的應(yīng)用場(chǎng)景在用戶家中——在典型的三口、四口之家,音箱能聽清、聽懂、滿足小孩、老人、妻子和丈夫,每個(gè)人不同的需求;能夠區(qū)分人聲和電視的噪音、家電的噪音,能夠明白用戶的指代關(guān)系,在一次連續(xù)交互的過程當(dāng)中應(yīng)答如流;能夠在當(dāng)用戶表達(dá)完意圖的話,1秒內(nèi)有動(dòng)作,最遲不超過1.5秒。
又或者家里來了朋友,智能音箱可以能夠在用戶和朋友對(duì)話、聊天時(shí)能夠分辨來自同一方向的兩種聲音,哪個(gè)是指令,哪個(gè)是閑聊;更能夠明白主人什么時(shí)候在和它講話,什么時(shí)候在和朋友講話,不能兩個(gè)人討論著《延禧攻略》的劇情,音箱突然唱起了《紅墻嘆》或者放起了秦嵐的新聞。
還有在家里用智能音箱聽歌的時(shí)候,你喜歡聽的是周杰倫,你女朋友偏偏是鄧紫棋的粉絲,之前還存在互相切歌的場(chǎng)面。假如你有一臺(tái)DuerOS加持的技術(shù)音箱,你發(fā)出的指令立刻執(zhí)行,對(duì)你女朋友的指令置若罔聞,切歌大戰(zhàn)輕松分出勝負(fù)。當(dāng)然,游戲的前提是你要有個(gè)女朋友。
音箱只有做到該說話的時(shí)候說話,不該說話的時(shí)候不說話,才能跟我們真實(shí)交互場(chǎng)景變得非常像。所以,領(lǐng)教了百度這群執(zhí)著的工程師后,我們有理由相信,更好更智能、能跟你“對(duì)話”的智能設(shè)備全面融入你生活的日子已經(jīng)不遠(yuǎn)了。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購(gòu)和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營(yíng)
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長(zhǎng)?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢(shì)拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。