专干老肥熟女视频,人人爽免费在线视频

如果家里沒一臺“智能音箱”，怎么好意思說自己是極客Boy。

可當你忍不住剁手后，體驗了一兩天的嘗鮮感，十有八九會把它扔在角落里吃灰。

每次對話都要喊一下喚醒詞，感覺好不別扭，鄰居家還可能以為你養(yǎng)了條叫“XX”的狗；指令說道一半就會被打斷，莫名其妙的回了句“對不起，請再說一遍”；上一句還在問今天天氣怎么樣，下一句問今天穿什么衣服，給到的是和天氣毫無關(guān)系的答案……

不只是你覺得這種體驗很不爽，百度的工程師們也忍受不了這種“人工智障”，在今年的百度世界大會上，百度語音技術(shù)部總監(jiān)高亮就聊了聊語音技術(shù)是如何讓智能音響變聰明的。

先定一個小目標

鋼鐵俠和自己的AI管家賈維斯對話時，如果每次交互都要重新喚醒，不管是什么人都能發(fā)號施令，環(huán)境太吵的時候就聽不清，鋼鐵俠不知道會被打趴下多少次。

在百度世界，高亮說“遠場語音的技術(shù)發(fā)展特別快，百度的喚醒、遠場識別以及基于高頻Query解決的語音語義一體化等技術(shù)，可以解決基礎(chǔ)體驗問題，讓音箱喚得醒，聽得清?！钡?，解決基礎(chǔ)體驗還不夠，如果和智能音箱交互，你就會發(fā)現(xiàn)，“聽懂”才是最難的。

“小度小度，放一首許巍的歌”
“現(xiàn)在播放許巍的歌曲《故鄉(xiāng)》”
“嗯……這是……他哪張專輯里的？”
“來自專輯《那一年》”
……

在高亮現(xiàn)場的演示里，搭載了百度遠場語音技術(shù)方案的智能音箱只需喚醒一次就可以連續(xù)多輪對話，能夠準確識別用戶說話時的猶豫停頓、能夠區(qū)分并跟隨首次喚醒的人，與此同時，回應還相當靈敏，與小度的問答越來越像一場“交談”而不僅僅是一次“交互”。從“交互”到“交談”，這就是百度工程師們正在做的事情。

當下的人工智能遠沒有科幻電影中成熟，普遍認為還只有五六歲小孩的智商，可你和五六歲小孩溝通時也會這么費勁嗎？就如高亮所言“每一個技術(shù)問題都會面臨一個技術(shù)解決的方法”，或許普通用戶只能吐槽抱怨一下，但百度的一群工程師們卻默默定了個小目標，不是先掙一個億，而是：

1、一次喚醒可以連續(xù)交互；只需要喚醒一次，就可以進行連續(xù)對話，不管智能音箱處于什么樣的工作狀態(tài)，哪怕正在播放音樂。就像人與人之間的對話那樣有問有答，不再是每次對話都要說出喚醒詞，真正的語音交互不應該是刻板的。

2、說話停頓不會打斷；當你說“給我放一首周杰倫的…呃…菊花臺”，智能音箱不是著急隨便放了一首周杰倫的歌，而是播放菊花臺。智能音箱要明白你什么時候說完了，什么時候沒說完，不會把你沒說完的話切斷，畢竟誰還沒有猶豫的時候呢。

3、知道說話人是誰；一個典型的三口之家，有爸爸、媽媽、孩子，每個人的需求是不一樣的。智能音箱要精準識別出每一個人的聲音，知道問題是誰問的，然后給出準確的答案。

4、上下文對話連貫；智能音箱在回答你現(xiàn)在的問題時，也要知道上一個問題是什么，要學會結(jié)合上下文，不能答非所問。只有這樣人和智能音箱的對話才會更自然，我們想要的不是沒有情感的機器，至少對話要有邏輯性。

5、聽清聽懂不傻冒泡；你在客廳和朋友聊天時，可能有些話是說給朋友聽的，有些是給智能音箱的指令，這時候智能音箱就要進行精準判斷，準確識別出你是不是在和音箱對話，而不是在不該出現(xiàn)的時候“插兩句嘴”。

現(xiàn)在語音交互用到的技術(shù)主要是麥克風陣列、語音識別、語義理解、語音轉(zhuǎn)文字、文字轉(zhuǎn)語音等等，都是人工智能技術(shù)最基本的應用，幾乎一個十幾人的創(chuàng)業(yè)團隊就能完成。但百度工程師們的小目標，卻需要一連串的技術(shù)攻堅。

百度高級副總裁、AI 技術(shù)平臺體系總負責人王海峰所說過，AI技術(shù)與產(chǎn)業(yè)的結(jié)合愈發(fā)多元化，單一技術(shù)已無法滿足應用需求，只有更懂得理解和思考，最終將幫助人們更便捷自然地獲取信息找到所求的交互，才能帶動整個生態(tài)的發(fā)展。

用技術(shù)拯救“人工智障”

想要智能音箱可以連續(xù)對話、應答如流，最簡單的辦法就是“人工”智能，比如2015年橫空出世的某客服機器人，憑借軟萌的聲音、流暢的反應、高度人性化的對答，幾乎可以和鋼鐵俠的賈維斯媲美，最后卻被扒出是“攝像頭+變聲器+人工客服”。

當然，“人工”智能也只有在演示時騙一騙領(lǐng)導，讓幾千萬臺智能音箱、智能家居、智能手機等都能對答如流，又該怎么實現(xiàn)呢？高亮在百度世界告訴我們，百度的工程師已經(jīng)想出了一套系統(tǒng)化方案。

第一步是語音信號處理。語音激活檢測技術(shù)已經(jīng)非常成熟，蘋果的“Hey，Siri”、DuerOS的“小度小度”都是案例，一次喚醒多次會話看起來也不復雜，比如設(shè)定智能音箱在一定時間內(nèi)自動收音。難點在于怎么知道用戶的話到底有沒有說完。

因為我們說話不會永遠都是連續(xù)不卡殼的，比如我想聽一首薛之謙的歌，我可能會說“小度小度，給我播首薛之謙的……”思考1-2秒，然后說“認真的雪”。而這1-2秒間，就可能讓智能音箱以為你說完了，從而接收指令給你播起了薛之謙的所有歌曲，甚至停止響應。

百度的工程師們準備了十幾萬小時的仿真訓練數(shù)據(jù)，數(shù)千套房間數(shù)萬組沖擊響應函數(shù)，上萬小時真實AEC錄制數(shù)據(jù)，以及幾十萬小時的無監(jiān)督聲音數(shù)據(jù)，利用云、端語音完整性聯(lián)動訓練的方法，然后基于大數(shù)據(jù)進行聲學建模和尾點檢測，打造了全新的語音識別引擎。

當你對智能音箱說話的時候，音箱會立刻感知到，然后持續(xù)不斷向云端發(fā)送語音數(shù)據(jù)，進行語義分析，監(jiān)測你說的話是不是完整，然后智能音箱就能判斷你的話是否說完了。上傳的語音數(shù)據(jù)只有幾十K大小，整個過程不到一秒鐘就能完成。不會出現(xiàn)諸如音箱在放著音樂，你說了一句“暫?！保粝鋬扇氩彭憫?，這個時候你可能會覺得音箱沒有聽見（尤其是音箱播放音量比較大的時候），然后再補一句“暫?！钡那闆r。

就像高亮在現(xiàn)場的舉例，“給我放一首劉德華的…呃…忘情水”，這個猶豫發(fā)問和提筆忘字一樣，是很普遍的場景，需要對聲學建模做一些特殊處理，要有非常精準的尾點檢測，讓系統(tǒng)能夠明白我們什么時候是猶豫，什么時候是說完了話，從而明確用戶所表達的意圖。

第二步聲紋跟蹤和決策。成年人的聲音可以長期相對穩(wěn)定不變，就算別人故意模仿你的聲音和語氣，聲紋卻始終不會相同。和指紋、虹膜等生物識別一樣，聲紋也是獨一無二且相對穩(wěn)定的生理特征，這樣智能音箱可以拒絕掉不需要的聲音。

于是百度的工程師們，根據(jù)自然界聲音標定的聲學置信度，對百萬人量級的聲紋進行學習建模，并推出了面向智能音箱連續(xù)交互場景的語義置信度技術(shù)，也是業(yè)界首創(chuàng)自動區(qū)分語音中不同說話人身份的商用系統(tǒng)。會對喚醒人的聲紋進行注冊、跟蹤、拒識，和喚醒人方向不一樣的聲音會被拒絕掉，聲紋不同的聲音會被拒絕掉，和智能音箱場景不匹配的聲音也會拒絕掉。

比如說你和朋友聊天的時候，聊到某首歌時想讓智能音箱播放，也可能會聊到一些電視劇和工作上的事情。百度的智能音箱已經(jīng)達到了這樣的聰明程度：自動判斷是不是在和它說話，發(fā)現(xiàn)命令會立刻執(zhí)行，不相關(guān)的對話絕不插一句嘴。

第三步交互上下文管理。現(xiàn)在的人工智能不是仿生學，而是通過各種各樣的算法，畢竟人類連大腦的工作原理都還沒有搞清楚，讓人工智能像人類一樣思考還很遙遠。那么問題就來了，和人工智能進行單次的對話并不難，想要把上下文的信息關(guān)聯(lián)在一起就需要考驗工程師們的腦洞了。

百度的工程師們先做了語音語義一體化技術(shù)，把聲學、聲紋、語義置信度和從DuerOS獲得到的垂類信息資源融合起來，在深度神經(jīng)網(wǎng)絡(luò)的多信息融合技術(shù)、高頻圖和通用圖并行解碼決策的基礎(chǔ)上，對對話的上下文進行跟蹤管理：判斷了說話對象后，可以知道之前交互的內(nèi)容，知道對象的角色、喜好，然后綜合所有這些信息作出精準決策，這樣就解決了上下文關(guān)聯(lián)的問題。

假如你問百度智能音箱明天天氣怎么樣，下一句問穿什么衣服比較合適，聽到的回答會是和明天天氣相關(guān)的穿衣搭配。不會像一些智能音箱一樣，你問穿什么衣服，冷冰冰的來一句：“我找到附近有三家賣衣服的店鋪……”

技術(shù)可能不是萬能的，但沒有技術(shù)是萬萬不能的。

哪些場景可以用？

一次喚醒多輪對話的能力依賴于多項聲紋、語音、語義技術(shù)的進步，包括創(chuàng)新的尾點檢測技術(shù)，其利用云端信號AD技術(shù)一邊做語音識別一邊發(fā)給語義VAD，將聲學技術(shù)與語義技術(shù)結(jié)合在一起，能夠適應用戶說話速度，知道用戶什么時候說完了，不在中間打斷。

魯棒拒識技術(shù)創(chuàng)新了聲紋跟蹤、語音置信度、聲學置信度，可以基于特定說話人的場景化識別，拒絕非音箱交互人聲，拒絕聊天內(nèi)容與場景不一致的對話。

現(xiàn)場，高亮也用一款音箱向大家展示了百度遠場語音技術(shù)方案——通過一連串流利的交互，在大會會場高噪音的環(huán)境下，說話的距離超過1米，音箱的喚醒和識別表現(xiàn)很好。并且一次喚醒就能多次對話，智能音箱在說話時，也能聆聽用戶的新命令并且快速執(zhí)行。從更多的演示deme和視頻來看，維納斯智能音箱也能實現(xiàn)一定的上下文理解。

想要讓智能音箱實現(xiàn)連續(xù)對話的，不只是百度的工程師們，谷歌、亞馬遜等同樣在努力。這些個工程師們加班加點，冒著掉頭發(fā)的風險去做技術(shù)研發(fā)，僅僅是為了讓智能音箱不在角落里吃灰嗎？

其實場景還有很多。

王海峰曾在中國圖靈大會上展示過百度的智能語音搜索：當用戶直接對著手機詢問“天氣熱嗎”，她會回答當?shù)氐奶鞖馐菬徇€是涼爽，氣溫如何等情況；當用戶接著問“上海呢”，她能夠基于上下文理解技術(shù)自動補全用戶的問題是上海的天氣，從而給出準確的回答。此外在王海峰在百度AI開發(fā)者大會上的那段“花式 RAP”，百度AI也完全不懵逼，妥妥應答如流。

再比如公室里的小組會議總需要安排一個人進行會議紀要，又不是專業(yè)的速記員，難免忘了某個問題是誰提的，某個人說了一大對話可能只記了開頭幾句。這時候聲紋識別技術(shù)就可以派上用場了，兩人場景中百度的識別準確率為95.2%，三人及以上場景也達到了92.9%，遠比普通人的會議紀要靠譜。

更多的應用場景在用戶家中——在典型的三口、四口之家，音箱能聽清、聽懂、滿足小孩、老人、妻子和丈夫，每個人不同的需求；能夠區(qū)分人聲和電視的噪音、家電的噪音，能夠明白用戶的指代關(guān)系，在一次連續(xù)交互的過程當中應答如流；能夠在當用戶表達完意圖的話，1秒內(nèi)有動作，最遲不超過1.5秒。

又或者家里來了朋友，智能音箱可以能夠在用戶和朋友對話、聊天時能夠分辨來自同一方向的兩種聲音，哪個是指令，哪個是閑聊；更能夠明白主人什么時候在和它講話，什么時候在和朋友講話，不能兩個人討論著《延禧攻略》的劇情，音箱突然唱起了《紅墻嘆》或者放起了秦嵐的新聞。

還有在家里用智能音箱聽歌的時候，你喜歡聽的是周杰倫，你女朋友偏偏是鄧紫棋的粉絲，之前還存在互相切歌的場面。假如你有一臺DuerOS加持的技術(shù)音箱，你發(fā)出的指令立刻執(zhí)行，對你女朋友的指令置若罔聞，切歌大戰(zhàn)輕松分出勝負。當然，游戲的前提是你要有個女朋友。

音箱只有做到該說話的時候說話，不該說話的時候不說話，才能跟我們真實交互場景變得非常像。所以，領(lǐng)教了百度這群執(zhí)著的工程師后，我們有理由相信，更好更智能、能跟你“對話”的智能設(shè)備全面融入你生活的日子已經(jīng)不遠了。

免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

讓智能音箱連續(xù)對話，百度工程師都做了些什么？

下一篇

讓智能音箱連續(xù)對話，百度工程師都做了些什么？

下一篇

讓智能音箱連續(xù)對話，百度工程師都做了些什么？