探索語音為主的多通道交互 DuerOS設(shè)計(jì)最舒適的人機(jī)交流方式

7月4日- 5日,2018百度AI開發(fā)者大會(huì)在北京國家會(huì)議中心隆重舉行,大會(huì)上展示了眾多落地化成果。此次大會(huì)上百度首次舉辦AI設(shè)計(jì)論壇,百度設(shè)計(jì)體驗(yàn)委員會(huì)主席、百度人工智能交互設(shè)計(jì)院院長、百度用戶體驗(yàn)中心總經(jīng)理關(guān)岱松及設(shè)計(jì)團(tuán)隊(duì)分享了百度在AI設(shè)計(jì)和用戶體驗(yàn)方面的經(jīng)驗(yàn)及思考,共同交流AI智能美學(xué)及創(chuàng)意等方面的最前沿發(fā)展。論壇上百度與湖南大學(xué)的戰(zhàn)略合作正式啟動(dòng),整合百度在AI交互設(shè)計(jì)領(lǐng)域的優(yōu)勢(shì)和湖南大學(xué)先進(jìn)的科研能力,雙方將共建聯(lián)合創(chuàng)新實(shí)驗(yàn)室及博士后基地,在AI設(shè)計(jì)領(lǐng)域進(jìn)行更多更有價(jià)值的合作與探索。

DuerOS是以語音技術(shù)為基礎(chǔ)的對(duì)話式人機(jī)交互系統(tǒng)。通過萬物互聯(lián)、本能交互、千人千面三個(gè)方面構(gòu)建了人機(jī)之間的新交互模式,使得設(shè)備能夠主動(dòng)適應(yīng)外界變化提供更好的信息服務(wù),讓人機(jī)交互像人人交互一樣親切和富有情感,打造出用戶體驗(yàn)最舒適的人機(jī)交流方式。

以下為演講實(shí)錄:

探索語音為主的多通道交互 DuerOS設(shè)計(jì)最舒適的人機(jī)交流方式

【子軒】:大家好!我是百度體驗(yàn)架構(gòu)師周子軒,我今天要為大家分享的主題是《智慧型人機(jī)對(duì)話設(shè)計(jì)》。

大家知道最早的人機(jī)對(duì)話設(shè)計(jì)是什么時(shí)候開始的嗎?1952年,貝爾實(shí)驗(yàn)室剛開始研究語音合成,把阿拉伯?dāng)?shù)字對(duì)它說,它直接能轉(zhuǎn)換出來。直到上周,我也都是這么認(rèn)為的。

一周前的晚上,我跟小度小度說了一件事,『小度小度,你給我講個(gè)故事』你們猜小度講了什么?

【麗川】魔鏡魔鏡,告訴我,誰才是世界上最美麗的女人?

【子軒】魔鏡才是最早的帶屏音箱!但是魔鏡從設(shè)計(jì)角度講不夠聰明,不夠有智慧?;屎笙肼牭牟皇沁€有白雪公主漂亮,而且想要有人夸她。反正小度不會(huì)這么說,

為了研究這個(gè)話題,這就是我們今天想要分享智慧型人機(jī)對(duì)話設(shè)計(jì),下面有請(qǐng)皇后的扮演者百度DuerOS體驗(yàn)架構(gòu)師張麗川。

【麗川】我是一名DuerOS的設(shè)計(jì)師,來跟大家分享最下最近幾個(gè)月,我們?cè)趯?duì)話式交互上的探索。其實(shí)對(duì)話有著悠久的歷史,在古代沒有書本的時(shí)候,孔子等古今中外的哲學(xué)家們就是使用對(duì)話去教學(xué)和傳播思想。那么我們今天致敬經(jīng)典,用對(duì)話形式來講一講智慧型人機(jī)對(duì)話設(shè)計(jì)。

【子軒】麗川,你能說說DuerOS是什么嗎?

【麗川】DuerOS是一個(gè)搭建在AI浩瀚的技術(shù)上、以對(duì)話為統(tǒng)一用戶入口的、能實(shí)現(xiàn)承接多種第三方功能的系統(tǒng)級(jí)產(chǎn)品。

【子軒】那就是說,變得簡(jiǎn)單了,喚醒它,然后等待你的需求。但是還是不夠智慧,魔鏡至少還能告訴我……

【麗川】沒錯(cuò),魔鏡其實(shí)是一個(gè)比較會(huì)讀心的設(shè)備。因?yàn)?,語音并不等于對(duì)話。發(fā)出聲音其實(shí)只是其中的第一步,還需要對(duì)環(huán)境場(chǎng)景上下文的理解,充分獲取顯性和隱性的表達(dá),和對(duì)人心理互動(dòng)的把握,從而才能建立起良好的對(duì)話關(guān)系。

作為DuerOS的設(shè)計(jì)師,在領(lǐng)落到對(duì)話式人機(jī)交互的深意后,把更真實(shí)的自然還給用戶把推理運(yùn)算、歸納演繹等高級(jí)綜合能力裝在設(shè)備里。讓人感受到與ta互動(dòng)的對(duì)象,不僅僅是一個(gè)聯(lián)網(wǎng)的智能設(shè)備,更是一個(gè)有智慧的對(duì)話對(duì)象。這就是我們提出的智慧型人機(jī)對(duì)話基本模型。

【子軒】那我想先了解下你說的環(huán)境是什么意思?

【麗川】我們想傳遞出的是重組人與環(huán)境的適應(yīng)關(guān)系。所以,我們現(xiàn)在要提的一個(gè)概念是,從用戶主動(dòng)設(shè)置到環(huán)境主動(dòng)調(diào)整。首先,現(xiàn)在感應(yīng)設(shè)備技術(shù)已經(jīng)升級(jí)到一定程度,已經(jīng)可以檢測(cè)距離、光線、音量、人臉、動(dòng)作、溫度、濕度等等。通過感應(yīng)器采集過來的信息形成信息空間,他是除了人類社會(huì)和物理空間之外的第三空間。國務(wù)院下發(fā)的《新一代人工智能發(fā)展規(guī)劃》中也強(qiáng)調(diào)了這一空間的建設(shè)和使用?;貧w到家居環(huán)境,DuerOS和萬物對(duì)話,我們擁有關(guān)于一個(gè)環(huán)境里的各方面信息,這些正是可以讓環(huán)境適應(yīng)適應(yīng)人的基礎(chǔ)。

探索語音為主的多通道交互 DuerOS設(shè)計(jì)最舒適的人機(jī)交流方式

【子軒】那么環(huán)境適應(yīng)人真的可以去實(shí)現(xiàn)了啊?

【麗川】環(huán)境適應(yīng)人分成三個(gè)進(jìn)階。第一個(gè)是自動(dòng)調(diào)整環(huán)境,第二個(gè)是響應(yīng)人體變化,第三個(gè)是學(xué)習(xí)人的習(xí)慣。

探索語音為主的多通道交互 DuerOS設(shè)計(jì)最舒適的人機(jī)交流方式

【子軒】第一個(gè)是能夠根據(jù)干濕度來調(diào)整我適應(yīng)我嗎?

【麗川】這是溫度和濕度的自動(dòng)調(diào)節(jié)。對(duì)于人體最合適的溫度和適度已經(jīng)有成熟的模型,把這個(gè)模型輸入到設(shè)備當(dāng)中。當(dāng)設(shè)備感受到人在家里的時(shí)候,就自動(dòng)把家居環(huán)境調(diào)整到最適宜的狀態(tài)。

探索語音為主的多通道交互 DuerOS設(shè)計(jì)最舒適的人機(jī)交流方式

【子軒】第二點(diǎn)是響應(yīng)人體變化怎么理解呢?

【麗川】隨著對(duì)話式交互的時(shí)代的到來,我們和設(shè)備的距離拉開,甚至到一個(gè)想遠(yuǎn)就遠(yuǎn),想近就近的360度空間范圍里。所以,我們提出了在不同距離下最佳視覺呈現(xiàn)解決方案。他落地形態(tài)比如直觀的有字號(hào)、字體、排版、圖文比,間接的有信息量的重構(gòu)。

下面講一下適應(yīng)人的習(xí)慣。剛才我們展示了很多模型,但是這種模型是對(duì)于大部分人來說的,對(duì)于個(gè)人來說,是有自己的個(gè)性喜好的。

探索語音為主的多通道交互 DuerOS設(shè)計(jì)最舒適的人機(jī)交流方式

【子軒】這個(gè)場(chǎng)景我很熟悉,我在家做家務(wù)的時(shí)候就會(huì)調(diào)大音量……

【麗川】有了技術(shù)與環(huán)境場(chǎng)景更好的交融之后,人與設(shè)備的交流,才能更加細(xì)分場(chǎng)景與人交流方式的關(guān)系,回歸人體真正的自然交流方式。經(jīng)過認(rèn)知科學(xué)的研究發(fā)現(xiàn),人們其實(shí)是使用多通道的方式去表達(dá)信息的。人本身就是多感官的,每個(gè)感官都能傳遞信息。

探索語音為主的多通道交互 DuerOS設(shè)計(jì)最舒適的人機(jī)交流方式

【子軒】什么叫做多通道呢?

【麗川】通俗一點(diǎn)講,就像當(dāng)前我倆的對(duì)話,除了我們字面表達(dá)的文字內(nèi)容之外,還有手勢(shì),還有眼神,還有表情,還有語氣語調(diào),這些加在一起,才完整的去表達(dá)了信息。

再細(xì)分下去,每個(gè)通道有ta傳遞信息的特點(diǎn),也有傳遞信息的上限。所以,多通道整合的交互,才是最自然的,效率最大,更適合于多任務(wù)并行。

不過,多通道這個(gè)詞也提出來很多年了,但是以前的產(chǎn)品設(shè)計(jì)上只是用于代替手指的部分指令,比如指紋支付,指紋解鎖,人臉解鎖。這種是拆分開的。

而真正的多通道交互應(yīng)該是整合在一起的,共同去傳遞信息,完成操作任務(wù)。

【子軒】這個(gè)我認(rèn)同,人最早去適應(yīng)機(jī)器……,教人學(xué)電腦還是一份職業(yè),現(xiàn)在看來,這一刻真的到來了

【麗川】多通道表達(dá)信息的設(shè)計(jì)就是要去細(xì)分場(chǎng)景和操作任務(wù)。查閱相關(guān)資料發(fā)現(xiàn),表達(dá)的通道和任務(wù)有指派性和互補(bǔ)性的特點(diǎn)。指派性也就是唯一性。是指某些任務(wù)下,有些任務(wù)是有最佳最優(yōu)勢(shì)的表達(dá)通道的。這時(shí)候未必是語言或手指或眼神,可能還是一個(gè)動(dòng)作,比如手勢(shì)靜音。

像這樣的方案,只要用戶知道設(shè)備支持這樣的操作,對(duì)他來說是沒有學(xué)習(xí)成本和回憶成本的。

比如互補(bǔ)性,當(dāng)單個(gè)通道不能充分表達(dá)信息時(shí),需要其他通道補(bǔ)充,才能表達(dá)地更精準(zhǔn)。經(jīng)過多通道的同時(shí)表達(dá),可以讓每個(gè)通道表達(dá)的信息更少,而合起來的意義更明確。

AI交互設(shè)計(jì)院的同事,會(huì)有意識(shí)地去采集這些手勢(shì)集合,把我們最自然的交互還原出來。這些集合的采集,在東方內(nèi)斂含蓄文化下,真的很有意義。

【子軒】

人其實(shí)一直都有心理活動(dòng),并且會(huì)通過情緒,情感去表達(dá)出來。

探索語音為主的多通道交互 DuerOS設(shè)計(jì)最舒適的人機(jī)交流方式

【麗川】也有更多的網(wǎng)友會(huì)去自己設(shè)計(jì)表情包,表達(dá)更多無以名狀的情感。但是設(shè)備和技術(shù)的限制,只能在這個(gè)層面上?,F(xiàn)在小度也能覺察人的心理活動(dòng)了。這里要提一個(gè)概念是模式匹配。

AI發(fā)展幾十年,從未有像現(xiàn)在,讓人充滿信心。因?yàn)楝F(xiàn)在大數(shù)據(jù)、深度學(xué)習(xí)、感應(yīng)器、情緒理論模型等的高能加持,AI已經(jīng)從單純的仿生,進(jìn)化成模式匹配,這為我們?nèi)プ龈鼜?fù)雜的情感識(shí)別與鑒定打下了基礎(chǔ)。

最基礎(chǔ)的可以匹配的模式就是,人的心理活動(dòng)三要素,知覺、情感、意志。三者之間是遞進(jìn)推導(dǎo)關(guān)系,也是反向影響關(guān)系。

以嬰兒這個(gè)群體舉例,表達(dá)很直接,情緒很明顯,意圖很明確。采用遞進(jìn)式的推進(jìn),可以快速定位他們的核心意圖。

老人這個(gè)群體,表達(dá)很含蓄,情緒很內(nèi)斂,意圖卻很簡(jiǎn)單。當(dāng)老人對(duì)一個(gè)智能設(shè)備開口說出請(qǐng)求時(shí),這不僅僅是請(qǐng)求的內(nèi)容這么簡(jiǎn)單,還代表這他們對(duì)新科技的向往,不想落伍的倔強(qiáng),或者和自己兒女想要有共同的語言。把高科技信息以更有好的方式展示給老人,是對(duì)老人感官能力退化之后的無助感的關(guān)懷。

真正有智慧的個(gè)體,是當(dāng)你還沒開口就知道你想要什么,俗話說的,很有靈性。通過一個(gè)人的表現(xiàn),推測(cè)ta的意圖,通過情緒感知再去細(xì)化意圖,給予更深的解讀。

【子軒】這個(gè)怎么說,有什么產(chǎn)品嗎?

【麗川】這個(gè)還真有,我們正在設(shè)計(jì)一個(gè)自動(dòng)伴唱功能。在播放歌曲的時(shí)候,察覺你在跟唱,那么就會(huì)切入一個(gè)模式,去掉原生,放伴奏歌曲,一秒進(jìn)入K歌環(huán)節(jié)。

探索語音為主的多通道交互 DuerOS設(shè)計(jì)最舒適的人機(jī)交流方式

【子軒】這真是一個(gè)激動(dòng)人心的時(shí)代。我們用最自然的方式和一個(gè)智慧的對(duì)象對(duì)話,滿足我們不同的生活訴求。

DuerOS設(shè)計(jì)團(tuán)隊(duì)真的是太體貼,太貼心,太專業(yè)了。麗川,你一定是小度吧,我問了你這么多問題,都很有條理的回答我了。

【麗川】你才是小度呢~未來的小度,其實(shí)就像是你這樣自然的與人交談,像我的朋友,能很好的傾聽,總結(jié)!

【子軒】讓我們共同期待DuerOS 設(shè)計(jì)團(tuán)隊(duì)給大家?guī)砀嗟牧己玫捏w驗(yàn),讓我們共同期待智慧型人機(jī)對(duì)話交互時(shí)代的到來!

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-07-16
探索語音為主的多通道交互 DuerOS設(shè)計(jì)最舒適的人機(jī)交流方式
7月4日- 5日,2018百度AI開發(fā)者大會(huì)在北京國家會(huì)議中心隆重舉行,大會(huì)上展示了眾多落地化成果。

長按掃碼 閱讀全文