科技訊11月16日消息,百度度秘事業(yè)部總經(jīng)理景鯤在2017百度世界大會上宣布DuerOS2.0正式對業(yè)界開放。當(dāng)天百度還發(fā)布了三款搭載DuerOS2.0的人工智能硬件產(chǎn)品,渡鴉raven H 、raven R及raven
Q。
景鯤表示,作為人工智能時代的安卓,DuerOS已無處不在。人工智能時代,人機交互方式依舊在變革,AI操作系統(tǒng)需要不斷學(xué)習(xí)和進化,DuerOS從1.0到2.0的全面升級,將會給用戶和行業(yè)帶來更好的“聽清、聽懂和滿足”體驗。
為了更好地喚醒萬物,小度智能設(shè)備開放平臺在技術(shù)能力、解決方案、平臺體系三個方面進行了全面升級。
技術(shù)能力的升級,包括語音喚醒能力、語音識別能力、合成語音以及AI能力的升級。
解決方案的升級,包括更好的遠(yuǎn)場語音交互開發(fā)套件、更新的語音交互APP解決方案、更新的DuerOS for Apollo解決方案以及更新的跨場景跨設(shè)備解決方案;平臺體系的升級,包括新增的物聯(lián)網(wǎng)設(shè)備云、智能設(shè)備質(zhì)量認(rèn)證支持,平臺體系更加豐富。
與此同時DuerOS不僅大幅提升了原生技能的豐富度與用戶體驗,還發(fā)布了小度技能開放平臺。小度技能開放平臺將面向內(nèi)容類、智能家居類、生活服務(wù)類合作伙伴,開放百度的自然語言理解、知識圖譜及系統(tǒng)意圖等核心AI能力。目前DuerOS的技能生態(tài)已擁有超過200個技能。
百度人工智能交互設(shè)計院院長關(guān)岱松在現(xiàn)場宣布人工智能交互設(shè)計院正式成立,該設(shè)計院將以報告輸出、產(chǎn)品測評等形式幫助幫助DuerOS的合作伙伴和全球AI產(chǎn)品在交互設(shè)計上不斷提升優(yōu)化。
同時“普羅米修斯計劃”也正式啟航,該計劃包含開放超大規(guī)模對話式AI數(shù)據(jù)集、跨學(xué)科合作等,同時會通過一個100萬美元的基金用以鼓勵和培養(yǎng)對話式AI領(lǐng)域的優(yōu)秀項目和人才。
會后,景鯤接受了媒體專訪,他在專訪中表示,目前大家在實際生活中對人機交互的感受還不多,但是人機交互是更自然的方式,百度非常有信心,我們需要給這個產(chǎn)業(yè)一點耐心。
在采訪中,有媒體問到人工智能操作系統(tǒng)的難度。景鯤認(rèn)為,百度是唯一一個有資源、也有技術(shù)儲備、能夠知道每個模塊之間的挑戰(zhàn)在哪里、怎么能夠集成第三方的合作模塊的,甚至在某些場景里面,只有百度這個模塊做得好。景鯤認(rèn)為作為操作系統(tǒng),公司的基因也很重要。他認(rèn)為百度是唯一一家真的有機會能夠把這個事情做成的,而且從百度現(xiàn)在整個進展來看,還不錯。(溫泉)
以下為專訪速記全文:
景鯤:大家好,我是景鯤,很多朋友都見了好幾次,都很熟了,大家朋友圈都看到了我很多信息,我負(fù)責(zé)百度度秘DuerOS平臺。
主持人:大家有什么問題可以提問。
提問:我是來自深圳關(guān)注智能硬件的一家媒體。當(dāng)我們作為記者,其實用人機交互這種形式接受是比較快的,但是實際上有多少普通的老百姓有這樣的方式,用機器對話?我們看的比較多的場景是車?yán)锩妫依锩嬗靡粝?,還有其他的部分,包括我們那么多的設(shè)備發(fā)出去了,真正有多少人在用,這個交互形式是不是成熟?DuerOS在這方面有什么樣的計劃?
景鯤:我覺得任何一代新的交互出現(xiàn)的時候,從原來的鍵盤、鼠標(biāo),到后來的觸摸屏,電阻屏,電容屏,這種交互變革不是一下子用戶馬上就轉(zhuǎn)變了。如果看整個智能手機的普及,iPhone4在中國出現(xiàn),才開始真正大規(guī)模的普及。這個時候,我們需要給這個產(chǎn)業(yè)一點耐心,首先這個語音交互在某些場景下是更便捷、更自然的。像你剛才說的,在車的場景或者是家的場景,有的時候在像耳機這種穿戴場景,甚至有時候在手機的場景,手機放在車?yán)锩妫矣X得都是一種更自然的交互。所以我們需要給這個交互更多的信心。這種交互變革更需要百度這樣的大平臺去推動。因為這樣的變革往往需要更多的資源和資本的力量。所以O(shè)S是放在時代前沿的位置,我們推著它往前走。說到如何讓老百姓接受,我覺得整體的體驗是很重要的。整個語音交互的體驗,不止是語音交互的喚醒,是對整個產(chǎn)品的顏值、聲音,整個一套端到端的體驗。這些都是推動人接受語音交互這種產(chǎn)品體驗往前走比較重要的因素。
我們內(nèi)部在跟很多合作伙伴一起合作,所以我們能看到很多數(shù)據(jù)。我們看到的數(shù)據(jù)是很正向的,很多用戶在接受這種新的智能設(shè)備之后,從原來的好奇、到后面每天在一些固定場景的使用,其實都能夠養(yǎng)成一些習(xí)慣。這也是我們看到很多公司在不遺余力的推動這個方向背后,看到的一些信號。所以從我們的角度來講,我覺得是非常有信心的,是很正面的,用戶在接受這種新的交互。
提問:我來自搜狐科技。今天上午Robin講到免關(guān)鍵詞的這種自然語言交互方式,我以前也了解過其他廠商類似的方案,覺得這種產(chǎn)品用關(guān)鍵詞的話,可能隱私性相對好一點。如果沒有關(guān)鍵詞的話,有可能要把平時說的話識別出來上傳到云端,然后再傳下來理解,隱私的問題怎么保護?另外一個問題就是,現(xiàn)在有些廠商他們也推出了全棧式的語音開放平臺,DuerOS這邊怎么看待這個事情?以后有沒有相應(yīng)的計劃?
景鯤:我覺得這兩個問題都問得特別好。第一個問題,隱私問題特別關(guān)鍵,可能很多媒體朋友都很關(guān)心。我稍微解釋一下,Robin的那個演示,他有些細(xì)節(jié),不知道大家有沒有關(guān)注到。他是戴了一個耳機,我們在手機上的這種自然語言交互現(xiàn)在的前提是都需要戴著一個耳機,耳機是一個很私人的設(shè)備。另外他是用的手機百度的一個特殊模式,就是聽新聞的模式。如果大家下載手機百度9.0,這個模式是要先打開新聞,然后APP會提示你,已開始聽你說話。然后再提示你,戴上耳機更好。這個免喚醒詞目前是這樣的一種體驗。并不是家里的一個設(shè)備,一直在聽用戶說話。
提問:或者類似于那種智能音箱。
景鯤:現(xiàn)在還沒有用到智能音箱,因為智能音箱在家庭場景中的隱私、不同場景的隱私都是需要特別處理的。所以這種免關(guān)鍵詞的設(shè)備,目前就是在手機App中配合耳機來使用,并不存在隱私方面的問題。在家庭隱私方面,其實大家都會有很多考慮。比如說現(xiàn)在業(yè)界普遍的做法是先喚醒它,再跟它說話,這個時候才會跟云端有直接交互。你不喚醒它,這個設(shè)備跟云端沒有任何交互。這是關(guān)于隱私方面的問題。免關(guān)鍵詞是Robin在限定的場景、限定的設(shè)備上實現(xiàn)的。
你提到的一些公司研發(fā)語音套件,我其實特別高興,我跟他們是很好的朋友,在朋友圈里面有時候私下聊一聊。我覺得尤其在中國市場,甚至在國外市場也是一樣,推動的人不能是一家,要是一個產(chǎn)業(yè),大家一起做。剛才我講到產(chǎn)、學(xué)、研,最好是產(chǎn)學(xué)研一起推,這個事情才走得快。所以我永遠(yuǎn)覺得,市場最健康的時候是大家都往前推的時候。所以我特別開心,有些其他公司,包括將來的合作伙伴大家都在一起推進,我覺得這對產(chǎn)業(yè)是一個特別好的事情。
提問:有沒有相應(yīng)的一些計劃?咱們會不會也會出全棧式的設(shè)備?
景鯤:我剛才說的DuerOS,其中有一塊是更好、更多的語音解決方案,所以我們就會有一個跟聲智科技合作的全棧式開發(fā)套件。為什么會推出這個?我們都是基于合作伙伴反饋的。我們在開發(fā)者大會的時候推出的是一個單獨的語音識別的套件,要搭配樹莓派一起用。有些開發(fā)者說做成一體化得更好,所以我們今天下午也會宣布跟聲智公司合作了,一體化的解決方案。
提問:我們知道,做一款語音交互的智能產(chǎn)品需要很多的技術(shù)板塊,比如信號降噪、語音識別等等,需要很多技術(shù)合在一起。今天我們看到很多的技術(shù)是拿來主義,比如語音識別用A廠商的,還有用C廠商的。然而拼湊就會有問題,比如一個做信號降噪和一個做語音識別的公司對接,前者的技術(shù)目標(biāo)可能是降噪,讓耳朵聽起來清晰,但是耳朵的機理和機器是不一樣的,所以對后者而言,前者的信號處理是一個黑匣子。物聯(lián)網(wǎng)的時代,做產(chǎn)品的復(fù)雜度不是一個量級的,上下游之間耦合的時候會存在巨大的摩擦力。而且有一個地方堵住了,全部就都堵住了。我也聽到一種業(yè)界的聲音,人工智能行業(yè)短時間很難出現(xiàn)真正的操作系統(tǒng)。因為完全不一樣,沒法標(biāo)準(zhǔn)化。所以有人說,在業(yè)界走的比較久的人,他們會自己提到端到端,他們很難是一套操作系統(tǒng)。所以我想作為操作系統(tǒng)的代表,DuerOS怎么看待這個事情?
景鯤:首先我覺得你這個問題問得很好。將來慢慢產(chǎn)業(yè)肯定都會走標(biāo)準(zhǔn)化,基本上任何產(chǎn)業(yè)都是一樣的。比如說車這個產(chǎn)業(yè),發(fā)展這么長時間了,你也會發(fā)現(xiàn),特斯拉很多的元件也是從別人那里采購的,搭到一起,再經(jīng)過端到端的打磨,并不是特斯拉每一個零件都是自己生產(chǎn)的,它的電池也不是自己生產(chǎn)的。所以我覺得,整個產(chǎn)業(yè)慢慢都會標(biāo)準(zhǔn)化,不同的人擅長打磨單獨一個模塊,把這個模塊優(yōu)化到最優(yōu),沒有一個公司能夠真正有資源,每一個模塊都打造到最優(yōu),肯定是一個生態(tài)系統(tǒng)的合作,這是我對整個標(biāo)準(zhǔn)化未來的看法。
現(xiàn)在我們的渡鴉就是端到端整個的解決方案,為什么要做渡鴉?我覺得產(chǎn)品體驗最重要,端到端可能對某些不同的模塊把握得更好一些。渡鴉從設(shè)計到降噪,整個都是百度的。但是這個時候我覺得,人工智能對話式人機交互涉及到很多場景,有耳機、音箱、電視、車的場景,不可能一個公司全部的產(chǎn)品都是端到端的,這個資源太大了。所以這個時候,要能夠把業(yè)界最好的科技公司的技術(shù)適當(dāng)?shù)娜诤显谝黄稹_@個時候,我覺得就是操作系統(tǒng)的機會。因為你不可能覆蓋那么多的端到端,比如聲智科技,他在整個語音麥克風(fēng)陣列識別上做得很好,跟很多大公司合作。從技術(shù)角度來講,我們可以找到比較清楚的邊界,同時統(tǒng)一打磨用戶體驗的技術(shù)路徑,并不是完全端到端才能實現(xiàn)的這種技術(shù)路線。在這個時候,你說是不是需要一個操作系統(tǒng)?我覺得是絕對需要的,要不然用戶體驗是不統(tǒng)一的。很多你看到的一些公司,小公司操作系統(tǒng)很難做,因為涉及到設(shè)備合作伙伴,不同的模塊太多了。我覺得百度是唯一一個有資源、也有技術(shù)儲備、能夠知道每個模塊之間的挑戰(zhàn)在哪里、怎么能夠集成第三方的合作模塊的,甚至在某些場景里面,只有我們這個模塊做得好。我覺得作為操作系統(tǒng),這個公司的基因也很重要。我覺得百度是唯一一家真的有機會能夠把這個事情做成的,而且從我們現(xiàn)在整個進展來看,還不錯。
提問:早晨渡鴉登場的時間比Robin和陸奇加起來還要多,你覺得渡鴉這個產(chǎn)品的銷量會怎么樣?
景鯤:我聽說今天下午他們官網(wǎng)快被擠爆了。從我的角度來講我是很樂觀的,我永遠(yuǎn)不會質(zhì)疑中國人的購買力,你只要這個東西做得好,是可以打好某一個市場的。就像你這種很Fashion的,你要不買就不Fashion了,所以你回去得買一個,我覺得渡鴉有它的市常目前整體的智能硬件市場,說實話我覺得現(xiàn)在相比手機來講不算那么大。這個市場跟手機差了幾個量級,所以這個市場容量是巨大的。任何一個階段都有這個市場容量,并不是他打到那個階段,他的銷量就會被別的銷量挑戰(zhàn),很多還是賣得很好。所以我覺得它是有它的市場的。但是我并不是太關(guān)注它的銷量,我們內(nèi)部關(guān)注一個指標(biāo),叫“凈推薦值”。就是這個設(shè)備你買了之后,你會不會向你第二個朋友推薦。這是很關(guān)鍵的指標(biāo),這個代表產(chǎn)品體驗。只要這個值高,大家都覺得這個產(chǎn)品是一個好產(chǎn)品,我覺得這個目的就達(dá)到了。我們也不用給iPhone第一代一個很宏大的目標(biāo),但是它是人機交互的一個標(biāo)桿,我們打出第一款產(chǎn)品來,這個目標(biāo)就已經(jīng)很好了。
提問:我是人民網(wǎng)的記者。我剛剛聽到您在臺上講的,開發(fā)者大會之后,我們有更多的合作伙伴,我想請問一下這4個月當(dāng)中有沒有什么新的合作伙伴跟我們分享一下?屏幕上放了一些小米、美的等等,除了這些比較大的之外,如果有一些小的創(chuàng)業(yè)公司或者是個人開發(fā)者找過來,我們會采取怎樣的合作方式?
景鯤:首先我們個人開發(fā)者很多,我們大概做了三場圍繞開發(fā)者的線下活動?;鸨潭榷汲趿宋覀兊念A(yù)期,基本上200人的場來400人。所以我們看到,整個長尾的,個人開發(fā)者的熱情是特別高的。所以我們的開發(fā)套件,最開始我們做整個軟硬結(jié)合。7月5日我們發(fā)布的時候碰到了一個挑戰(zhàn),就是我們的庫存不足,補了兩個月才滿足這個庫存。一開始我們沒有這么大的概念,但是這是一個信號,就是開發(fā)者的熱情是特別高的。關(guān)于我們新的合作伙伴,大概在這個月和下個月可能就會宣布兩個新的、很重量級的合作伙伴,這個我先不說,大家期待一下,是非常重要的合作伙伴。
今天下午因為你們先上來了,我們就有幾個重量級的合作伙伴宣布了。比如今天下午我們宣布了跟飛利浦的合作。他們是國外最流行的智能家居燈泡設(shè)備。DuerOS是首家跟他們達(dá)成這方面戰(zhàn)略合作的。今天下午我們跟招商銀行信用卡也宣布了合作,招商銀行是口碑很好的商業(yè)銀行。如果大家下載它的App的話,可以發(fā)現(xiàn)它的信用卡服務(wù)已經(jīng)做得很好了。我們的合作是第一家銀行跟對話式人工智能接口的戰(zhàn)略合作。等一會兒會發(fā)布很多跟其他新的廠商的戰(zhàn)略合作。
提問:是哪個領(lǐng)域內(nèi)比較排前的?
景鯤:我們把合作伙伴分幾層,第一層我們希望是每個品類、每個垂類里面的佼佼者和行業(yè)領(lǐng)先者,他們有聲量和勢能,他們對行業(yè)的把握非常準(zhǔn)。第二層我們也有一些中長尾的合作伙伴,他們是很有行業(yè)代表性的。這些公司也不需要很大,但是它的產(chǎn)品很有價值,大家會盯著它??赡芰坎淮?,但是它可能代表一個標(biāo)桿,這樣的合作伙伴是中長尾的。還有就是個人開發(fā)者和很多方案商,我們也有很多的合作,就不能一一枚舉了,特別多。
提問:我想接著問一下合作伙伴方面的問題。雖然今天力推渡鴉的新產(chǎn)品,但是同時DuerOS也在大規(guī)模的和第三方應(yīng)用廠商進行合作。你們作為后面的賦能者,對自家和對別家的硬件廠商是否有一些區(qū)別?
景鯤:沒區(qū)別。從我的角度來講,我們內(nèi)部一直做的一個比喻是Surface和聯(lián)想筆記本的比喻。為什么微軟推Surface?只是猜測,是因為需要一款新的設(shè)備,軟硬一體化的設(shè)備,去推動整個筆記本的變革,所以微軟做了一個Surface。雖然目前量也不大,但是推動著整個筆記本持續(xù)往前走,是一款體驗很好的設(shè)備。對于我們也是,渡鴉是一款標(biāo)桿性的用戶體驗的設(shè)備。剛才說了,今天下午所有渡鴉背后的技術(shù)我們都會開放給我們的合作伙伴。在開發(fā)者大會上我們講過,百度要做的是一個AI平臺。百度目前AI平臺對于我們的壓力也很大,我們把平臺做好,這是我們追求的,所以我們要變成一個AI平臺的公司。
提問:剛剛您提到渡鴉背后的技術(shù),我想問一下,目前渡鴉背后的技術(shù)相比于其他的智能硬件的廠商來說,最核心或者說最具競爭力的技術(shù)是什么?
景鯤:渡鴉除了產(chǎn)品本身的特性之外,跟DuerOS相關(guān)的技術(shù)包括,比如說渡鴉的麥克風(fēng)陣列,它用了8個麥克風(fēng),上面蓋子4個,下面底座4個。像這種新的麥克風(fēng)陣列技術(shù),基本上現(xiàn)在應(yīng)該是業(yè)內(nèi)首家嘗試的。渡鴉設(shè)備上面的蓋子拿下來之后,它是可以按住說話的,也就是它是近場的。所以說這是一個遠(yuǎn)場和近場融合的交互方式,這也是跟它的設(shè)備特性相關(guān)的。還有就是音樂的打磨,我們基本上把音樂升級之后,整個音樂標(biāo)簽做得更多了。做了7千多個應(yīng)用標(biāo)簽,讓用戶在這種智能設(shè)備上,可以播任何一個標(biāo)簽的音樂。加上我們很多新的能力,剛才在下面說,我們有100多個第三方技能,這些技能都會先跟渡鴉設(shè)備做一個緊密的結(jié)合。所以我覺得,渡鴉的整個產(chǎn)品特性是軟硬一體化的,是全面的融合。從設(shè)計到聲音,到我們的技術(shù)能力,到后面的內(nèi)容,整個包裝成一個用戶體驗很好的產(chǎn)品。
提問:現(xiàn)在搭載DuerOS的所有硬件里面,您從后臺數(shù)據(jù)來看,哪一類產(chǎn)品的人均交互比例是最高的?
景鯤:都挺高的。我要說哪個最高,其他的就不高興了,其實都挺高的。
提問:剛才您也談到咱們有很多的合作伙伴和硬件解決方案,我想知道,落地最多的場景是哪些?以及您看好哪些產(chǎn)品?
景鯤:我只能從我們自己的角度出發(fā)。現(xiàn)在市面上看到大的手機的合作廠商,背后很多語音交互的能力都是我們提供的。潛移默化的,DuerOS已經(jīng)在很多手機背后了。在電視的場景,我們無論是跟傳統(tǒng)的智能電視廠商、還是跟OTT有線盒子,還是廣電系的盒子,基本上都有很好的合作。音箱上也有很多,剛才說的有一家DOSS音箱,它本來是出口的,搭載Alexa系統(tǒng)出口到國外的。但是它瞬間就搭載了DuerOS系統(tǒng)在國內(nèi)銷售,已經(jīng)在亞馬遜上開賣了。車載我們是跟Apollo緊密合作在一起的,所以基本上我們跟北汽、一汽都會合作搭載DuerOS系統(tǒng)的設(shè)備。再其他的就更加分散了,像可穿戴、耳機,就稍微分散一些。幾個大的品類就是剛才說的那些。
提問:我想問一下,據(jù)7月份百度開發(fā)者大會已經(jīng)過去幾個月了,您認(rèn)為整個智能語音市場在這個格局發(fā)生了哪些變化?包括從技術(shù)、玩家。
景鯤:首先我覺得過去的4個月是特別突飛猛進的4個月,我沒想到這4個月變得這么熱鬧。我們從7月5日發(fā)布這個平臺之后,這4個月的過程當(dāng)中,基本上中國數(shù)得上的公司都已經(jīng)推出了類似的東西。所以這4個月的發(fā)展我覺得很好,從我的角度,我覺得特別高興。我們作為驅(qū)動,有很多不同的人、不同的公司都加入到這個過程當(dāng)中去推動這種變革。
我個人覺得,人機交互真正的變革時間會比較長,光這4個月還不夠,可能要以年來計?,F(xiàn)在大家都在起步階段,所有的公司可能都在起步階段,很多公司都在加入這個行業(yè)。所以我希望整個行業(yè)都能保持這種熱情,把這種人機交互再持續(xù)往前推,推到每個家庭,就覺得它是一個必需品。
提問:我們都知道百度的目標(biāo)合作群體有很多,大到企業(yè),小到個人開發(fā)者。企業(yè)就不說了,對于個人開發(fā)者來說,百度能提供一個什么樣的幫助和支持?讓他們能夠更好的開發(fā)?而且我們之前喜歡把這種關(guān)系形同為與iOS、Android對于App開發(fā)者的關(guān)系是一樣的。在實施的過程中,怎么樣能夠保證安全性和可操作性?
景鯤:安全性是指的隱私安全嗎?
提問:個人開發(fā)者肯定要用到用戶的一些隱私。作為百度來說,怎么能保證這個安全性?
景鯤:首先我說一下為什么我們要發(fā)展個人開發(fā)者?我們真正要推動一個產(chǎn)業(yè),需要從產(chǎn)業(yè)頭部廠商、中小廠商和個人開發(fā)者共同推動。尤其我們看到一個信號:個人開發(fā)者雖然不具備很多渠道,但是它的創(chuàng)意是無限的,是特別有創(chuàng)意的,基本上可以把他的能力放在不同的設(shè)備上。前一段時間有一個開發(fā)者把語音對話的模塊放到了燕舞的收音機上,讓那個設(shè)備重新煥發(fā)了青春。燕舞公司直接找到百度,原來燕舞的群體是今天消費能力最強的群體,DuerOS讓他們的公司有了更多的活力。所以個人開發(fā)者對于我們的生態(tài)來講能貢獻很多想象力,是一個源泉,很有意義。說到隱私,我覺得倒不太存在,因為個人開發(fā)者往往開發(fā)的個人設(shè)備都是自己使用的,他沒有很強的渠道推廣能力,不能推廣到很多人,他都是自己使用的。
提問:百度能給這樣的個人開發(fā)者提供什么樣的支持和幫助?
景鯤:比如今天下午跟聲智做的一體化開發(fā)套件,相當(dāng)于它將為個人開發(fā)者提供一個軟硬一體化的方案。我們今天下午還會發(fā)布我們的技能平臺,開發(fā)者可以在云端打造自己的技能,在云端把資源、能力、技能跟下面的搭載在一起,就成為他自己端到端的一個解決方案,自己可以玩,可以用,很好。
提問:我們經(jīng)常做語音交互的時候,會按一下,Hi,Siri,或者是Hi,小度,或者說小度小度,有一個喚醒詞。我今天早上聽到在介紹的時候,在月末的時候不需要這種喚醒詞,請問這個技術(shù)是怎么樣實現(xiàn)的?
景鯤:這個跟剛才的那個問題是一樣的,這種技術(shù)只是在手機百度這個場景里面,在聽新聞的模式,是免喚醒詞的。需要進入一個特定的語音交互的模式,其他的模式里面還沒有應(yīng)用到。
提問:我來自36Kr,咱們DuerOS一直強調(diào)要做人工智能時代的Android。從生態(tài)系統(tǒng)層面來看,您認(rèn)為哪些環(huán)節(jié)是比較關(guān)鍵的?
景鯤:我覺得現(xiàn)在最重要的環(huán)節(jié)是用戶體驗。尤其是當(dāng)我們的合作伙伴變多之后,是不是能保證每個設(shè)備都能有一個比較好的一致性的用戶體驗?這個對于我們來講是比較關(guān)鍵的。因為這種時候,最好能達(dá)到這樣的效果:就是能讓用戶在不同的場景里面,使用任意一款搭載DuerOS的設(shè)備以后,在那個場景里面都是喜歡這個DuerOS賦能的設(shè)備的,并且習(xí)慣一直用這個設(shè)備。所以我認(rèn)為現(xiàn)在最重要的就是整個用戶體驗,你是不是真正買一個音箱回去能持續(xù)用?你說的話它能懂?打開包裝,有一個從來沒用過智能音箱的人說這是什么?你說這是一個智能音箱,一句話就能清楚,一句話就能跟這個設(shè)備交互,我覺得這種體驗是現(xiàn)在生態(tài)系統(tǒng)的核心,我們生態(tài)系統(tǒng)必須要靠比較好的體驗才能往前推。
提問:剛剛他們都說到我們之后要推一個沒有喚醒詞的設(shè)備,我很好奇,我們在開發(fā)者大會的時候收購了一個做喚醒詞的小的團隊,我想知道他們在這4個月當(dāng)中是承擔(dān)著一個什么樣的角色?為什么我們收購了這樣一個做喚醒詞的小的團隊,現(xiàn)在我們又推出無喚醒詞這樣一項技術(shù)?
景鯤:它只是在手機百度App這個環(huán)境里面,朗讀模式免喚醒詞。不是在家庭環(huán)境中的那種智能設(shè)備的喚醒詞,那是做不到的,而且也存在一些隱私問題。所以只是限定場景,限定在App里面的人機交互。在家居的智能交互里面,喚醒詞是必不可少的,因為有一定隱私的保護性,先喚醒它之后再跟它說話,沒喚醒之前,他不跟人做任何的交互。我們收購的公司叫KITT.AI,是做智能家居領(lǐng)域智能交互的喚醒詞的。我們很多合作伙伴都想做自己的喚醒詞,包括DuerOS賦能的音箱、冰箱、電視,他們都需要在設(shè)備上為喚醒做優(yōu)化。他們往往需要針對設(shè)備優(yōu)化。因為麥克風(fēng)的距離不一樣,麥克風(fēng)的個數(shù)不一樣,所以需要對于這些設(shè)備進行特別的調(diào)優(yōu)才能真正保證好的用戶體驗。通過KITT.AI,我們已經(jīng)把這種技術(shù)推給我們的合作伙伴,搭載在他們的麥克風(fēng)里面,使得效果更好。
提問:我們這次推出的智能硬件是搭載DuerOS系統(tǒng)的,和之前搭載這個系統(tǒng)推出的其他產(chǎn)品有什么能力上的差別?
景鯤:它是首先搭載DuerOS 2.0的。DuerOS 2.0實現(xiàn)了各方面的能力升級,其他的設(shè)備基本上都會被升級到DuerOS 2.0上。渡鴉相當(dāng)于DuerOS 2.0的第一個標(biāo)桿,我們后續(xù)會把DuerOS 2.0開放給我們的合作伙伴。
提問:我來自機器之心。DuerOS這個名字里面,我覺得OS應(yīng)該是重點,現(xiàn)在各個語音廠商也都是有自己的平臺,模式其實看來是大同小異的。我想知道一下,DuerOS在一些商業(yè)模式、內(nèi)容模式和本身技術(shù)的模式方面和其他家的差異化在哪里?對于OS這兩個字母,我感覺定義的是有一點模糊。如果搭載在一個智能音箱里面,我們跟它對話交互,它就算是一個OS。其他家的這種系統(tǒng)也是搭載在音箱里面能交互,為什么Duer就能叫OS?
景鯤:首先你提到商業(yè)技術(shù)能力,商業(yè)化目前不是我們的目標(biāo)。我覺得在關(guān)鍵時候,先把用戶體驗做對了,這是最重要的。如果用戶體驗沒做對,商業(yè)都白扯,可能還到不了那一步,所以用戶體驗最重要。對話式AI大家都在做,大家都看好這個方向。7月5日我也在說,科技版圖上四家最大的公司都在做對話式AI。每家公司在做的時候,基本上都會沿用之前這個公司比較擅長的。它就自然變成了這個產(chǎn)品最大的特色,基本上可以這樣看。每家的DNA不一樣,每家做了這個平臺之后,感覺也是完全不一樣的。DuerOS是把百度最強的能力發(fā)揮出來的一個平臺,所以百度跟其他平臺有什么不一樣、DuerOS就有什么不一樣。比如有的友商語音識別做得很多,只是語音轉(zhuǎn)文字的。百度以前最大的市場是百度搜索的生態(tài)系統(tǒng),百度對語言的理解是百度最大的不一樣。所以百度最大的不一樣放到DuerOS上,這就是DuerOS最大的不一樣。相當(dāng)于DuerOS對語言的交互,對語言理解之后,還可以把更多的內(nèi)容和資源,以及開發(fā)者,原來我們的開發(fā)者是網(wǎng)站開發(fā)者,后來是App開發(fā)者,把這些都聚到一起。所以DuerOS就變成了一個窗口,去訪問原來百度后面生態(tài)平臺的很多資源。所以DuerOS就是百度AI能力和資源集大成者的一個縮影,是對話式人工智能的一個縮影,所以它最大不一樣就是百度的勢能跟其他的公司不一樣。如果你這樣去評估別人的平臺,也能得到一樣的結(jié)果,就是每個平臺背后都有他整個公司的縮影,這就是這個平臺最大的不一樣。
對于OS明確的定義,其實最開始是我提出來叫OS的。我對OS更多的看法是它是一個生態(tài),一個操作系統(tǒng)。操作系統(tǒng)背后是一個生態(tài),是一個平臺,不僅僅就是音箱的一款產(chǎn)品。這取決于業(yè)務(wù)的發(fā)展思路,是做一款東西,還是想做成一個生態(tài),把大家在這個平臺上一起推動發(fā)展。我覺得DuerOS代表了我們的愿景,OS就應(yīng)該是一個生態(tài)。我稍微引申一下,一個OS最核心的關(guān)鍵點,不是它叫不叫OS,是它是不是有自己的生態(tài)。如果他沒有自己的生態(tài),它就不是OS。移動時代有很多OS,有很多OS叫OS,但是后來你發(fā)現(xiàn),它都沒有自己的生態(tài)。有自己的生態(tài)的全都可以稱為OS,Android有自己的生態(tài),可以稱為OS,Windows有自己的生態(tài)是OS,如果你是附著在這些平臺上的就不能叫OS,因為你沒有自己的平臺。所以我們DuerOS也是希望在語音交互這種新的模式下,我們能夠創(chuàng)建自己的生態(tài)。這個生態(tài)是基于新交互的生態(tài),這是我們?yōu)槭裁疵蒓S的原因,就是它是一個開放賦能的平臺生態(tài)。
提問:今天最開始在宣傳片里面,大家說現(xiàn)在這個技術(shù)是基于Android或者是Linux的,是我看錯了嗎?
景鯤:你可以這樣想,原來那些系統(tǒng)都是上一代的,是一個底層的系統(tǒng),并不是那么關(guān)心交互的。DuerOS其實是以用戶交互為驅(qū)動的一個操作系統(tǒng)。移動時代跟原來的PC有很多不一樣,AI技術(shù)跟原來的不一樣,AI的設(shè)備也很多樣。這種多樣的情況下,DuerOS要做的就是通過語音交互,把用戶統(tǒng)一在一起。雖然設(shè)備很不一樣,但是都用一個交互統(tǒng)一在一起。這是DuerOS要綁定的關(guān)系。其他的OS我把它看成是我們原來的系統(tǒng)適配層,適配到原來傳統(tǒng)的OS。但是DuerOS是一個語音交互的平臺,更上層一些。
提問:剛剛說到開發(fā)者,類似于DuerOS上面有100個Skills這種概念,這些Skills是開發(fā)者貢獻來的還是你們自己?
景鯤:我們有自己100個原生的?,F(xiàn)在有很多開發(fā)者,作為我們前期的嘗鮮者,他們在我們的平臺上搭建了100多個第三方的Skills。
提問:原生的是100個,還有100個開發(fā)者的?
景鯤:對,第三方的。
提問:我來自界面。跟廠商合作的時候,您了解到他們會比較看重哪些指標(biāo)?因為我發(fā)現(xiàn)有些廠商后來更換了百度的系統(tǒng),不知道有沒有什么具體的一些策略?要做一個設(shè)備的Android系統(tǒng),現(xiàn)在已經(jīng)到哪一步了,您覺得還差什么?
景鯤:設(shè)備廠商現(xiàn)在最關(guān)注聽懂和滿足,如果用原來的核心三要素:聽清、聽懂和滿足,現(xiàn)在設(shè)備廠商最關(guān)心聽懂和滿足。很多智能音箱可能覺得有點傻,交互不是那么自然,問它東西它不懂。所以現(xiàn)在這一塊是我們的合作伙伴最關(guān)心的。其實這一塊是老百姓最關(guān)心的。老百姓不關(guān)心你這三個模塊,老百姓最關(guān)心我隨便問你一句話,你真正能懂我,給我一個東西。所以聽懂和滿足,是所有合作廠商現(xiàn)在最關(guān)心的。
提問:都是技術(shù)層面是嗎?
景鯤:滿足有點像資源豐富度的層面,聽懂是技術(shù)層面,就是有大家Query能聽懂。我們最近做的渡鴉設(shè)備,它在聽懂層面上是遠(yuǎn)遠(yuǎn)超過其他競品的,所以我們把它定位為標(biāo)桿設(shè)備,或者是智能硬件設(shè)備。我覺得發(fā)展到現(xiàn)在,我們需要探索如何做一個最好的產(chǎn)品體驗。現(xiàn)在大家都有點Follow美國Echo的路線,就是他們怎么做我們怎么做。我覺得我們要做世界級的DuerOS。人機交互在美國也是很初期的,尤其在中國的場景里面,中國的家庭環(huán)境比較小,美國是大房子,中國是小房子,我們都是一居室、兩居室、三居室的房間,什么樣的交互是好的交互,多快的交互是好的交互?這些需要很多的探索。今天下午發(fā)布的百度人工智能交互設(shè)計院會在12月份發(fā)布行業(yè)里面第一個很有價值的報告,就是智能音箱的交互多快是快,多快是好。像這些東西,大家如果不關(guān)注用戶體驗,都不會看到這種細(xì)節(jié),就會覺得現(xiàn)在Echo這個就是好,之前從媒體上我們都沒看到你們寫過智能音箱多快是好。
提問:1.5秒?
景鯤:我們現(xiàn)在基本上是1.25秒到1.4秒?,F(xiàn)在講的極致的最好的是650毫秒。如果再快,在現(xiàn)在來講,用戶會覺得雖然你很智能,但有點搶話。就像這樣一個小問題,原來我們做搜索引擎的時候覺得越快越好,但是在這種新的人機交互上來講,你會發(fā)現(xiàn)有很多原來的認(rèn)知都會有變化。所以我覺得在細(xì)節(jié)上,已經(jīng)做了很多了。比如現(xiàn)在的智能音箱,你叫它一聲,現(xiàn)在有的不出聲,亮一個燈,有的音箱是你叫它一聲、它“叮”響一聲,有的音箱你叫它一聲,它回復(fù)“唉”,用人聲回復(fù)。我們發(fā)現(xiàn),你在不同的時間點按,用不同的交互都是好的。1.4秒以后用人聲會好一點,人會覺得慢一點,人反饋會好一點。1.4秒以內(nèi)用人聲回復(fù),就會增強那種搶話的感覺,這個時候用“叮”一聲更合適。這個聲音跟人聲是不一樣的,可能不用人聲回答。再往前,Alexa就是指示燈,沒有聲音,不同的時間用不同的交互。我們在這個方面花了很多的時間,探索怎么能夠讓產(chǎn)品體驗最好?;卮鹉銊偛诺膯栴},還是把用戶體驗做對。把每個設(shè)備在每個場景里面的用戶體驗做對,現(xiàn)在是最重要的。
主持人:謝謝各位媒體朋友,如果有什么問題的話可以隨時再聯(lián)系,感謝大家!
(結(jié)束)
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )