123,123,123

伴隨5G+AICDE技術的不斷發(fā)展，智慧家庭進入加速發(fā)展階段，一個全新的智慧家庭時代正在來臨。在家庭數字化浪潮背景下，科大訊飛積極用AI賦能行業(yè)生態(tài)，用人工智能助力智慧家庭產業(yè)走向新高度。

11月19日，由科大訊飛主辦的全球1024開發(fā)者節(jié)AI+家庭論壇在合肥奧體中心成功舉辦。本次論壇以“聚力AI 智連萬家”為主題，圍繞數字時代的新形勢、新發(fā)展，現場嘉賓分享了智慧家庭領域的最新實踐與前沿思考，共話數字化家庭的未來，見證“AI+家庭”的創(chuàng)新前行之路。

會議現場，科大訊飛副總裁朱家泉發(fā)表了題為《多模態(tài)融合，大屏進入交互新時代》的精彩演講。

以下是演講內容分享：

各位現場的嘉賓朋友們，線上線下的合作伙伴和開發(fā)者們，大家下午好！

很高興今天又能在1024舞臺上跟大家分享，目前科大訊飛基于大屏交互的合作進展以及取得的新成果。

機遇：大屏交互從語音邁入多模時代時機已經成熟

首先跟大家分享一下電視大屏人機交互發(fā)展歷程。從1925年第一臺電視開始，直到1955年電視才首次出現紅外遙控，歷經了大半個世紀。訊飛和長虹在2015年才在國內首次做出智能語音遙控電視。從2015年開始，訊飛和業(yè)界很多合作伙伴一直都在致力于如何能夠提升電視大屏的人機交互體驗，我們于2018年開始跟廣科院設立聯合語音創(chuàng)新實驗室，致力于把最好的語音體驗提供給中國的電視用戶。3年前，2019年的1024大會，訊飛攜手諸多合作伙伴一起向業(yè)界推出了國內第一個電視大屏語音操控系統(tǒng)iFLYHOME OS。截止到現在，我們有什么具體的新進展呢？

首先來看一組數據，當前訊飛和國內的主流運營商、互聯網電視廠商，以及很多的智能終端合作伙伴一起攜手合作，把整個iFLYHOME OS推向了千家萬戶。截止到今年11月，在電視端累計的語音用戶數超過2.1億，日語音交互次數達到1.5億，累計語音交互次數突破600億次。正是因為合作伙伴與訊飛的共同努力推動，應該說中國的電視大屏正式邁入了語音交互時代。

但是伴隨我們的用戶和使用次數的增長，我們也在實際的運營和訪談中發(fā)現，當前的語音交互還有很大的不足。對用戶來說，從交互體驗到應用服務，有很多個性化、特性化和多樣化的需求還達不到滿足，尤其是很多用戶覺得現在的人機交互不夠自然，沒有情感。另外在服務領域，除了影視服務之外，在教育、康養(yǎng)、健身、家庭辦公等多個領域的應用服務也沒法提供。諸多的體驗和服務的不滿足，都是當前我們在人機交互領域還需要進一步提升的關鍵因素。

從市場環(huán)境來看，用戶側，一方面現在攝像頭、遠場設備，包括正在推出來的兒童陪護機器人，還有健身鏡，基于用戶多模態(tài)的語音交互使用習慣，我們覺得已經逐步養(yǎng)成。訊飛側，AI技術不斷成熟，從語音、視覺、認知三大塊方向有超過100多項核心技術，已經開始逐步應用和研發(fā)，這種市場環(huán)境下，我們覺得中國電視大屏人機交互發(fā)展需要邁入一個新時代。

因此，今天訊飛聯合中國移動、中國電信、中國聯通、廣科院等合作伙伴，我們一起在“1024開發(fā)者節(jié)”這個重大的活動當中，向業(yè)界發(fā)布科大訊飛iFLYHOME OS 2.0，來助力電視大屏的人機交互，從語音正式邁入多模態(tài)新時代。

3大提升：iFLYHOME OS 2.0能聽、會說、效果好

在業(yè)界，訊飛第一個將以虛擬人為媒介的強視覺多模態(tài)交互系統(tǒng)搬上電視大屏。它相對于傳統(tǒng)的人機交互，在能聽、會說、使用效果層面上得到了極大的提升，同時我們也把能聊、會認、安全等更大的創(chuàng)新功能能力疊加到了iFLYHOME OS 2.0當中，使得我們的大屏虛擬人真正能做到“能聽會說、能看會認、能理解會思考”。

在能聽層面上它有什么樣的新的能力提升呢？

我們的2.12億用戶一直有一個問題困擾著語音提供商，那就是方言。中國有諸多的方言體系，雖然訊飛現在在電視端已經支持20多種方言，但是有一個場景始終沒法滿足，電視的終端是在家庭下，不是私人終端，它是合家歡的終端，使用的場景有孩子、老人、年輕人，每個人在人機交互中的語音使用習慣不同，老年人偏向于方向，孩子偏向于用普通話。但是在業(yè)界現在的解決方案中，基本上都是需要用戶手動切換識別引擎，訊飛在滿足家庭多代同堂的場景下率先提出了混合識別，我們現在支持7種方言的免切換，使得在合家歡的場景下所有的用戶都可以用自己熟悉的語言習慣，和我們的電視進行人機交互。

另一個大幅度的能力提升是降噪，一旦把遠場識別功能加入了，在客廳環(huán)境下它有很多復雜的噪聲，包括電視機聲音、廚房聲音以及家里電器的聲音，有人說一用掃地機器人，語音識別就不行了，因為它太吵了。訊飛使用最新的多模降噪技術，把多模態(tài)的語音進行合理分離，充分解決了在客廳場景下這種復雜噪音的問題，較傳統(tǒng)的降噪有50%的效果提升，94%的平均準確率，使得我們遠場交互真正在家庭場景下能夠得到使用，使得家庭使用更舒心。

讓設備能聽得清，也要讓它能夠很好地表達出來，語音合成是我們當前在電視人機交互中很多用戶不滿意的核心問題之一。他們一直跟我反饋，說我們現在的語音合成太機械化，太呆板，沒有情感。因此我們在2.0的版本中采用訊飛最先進的極致擬人合成能力，在昨天的發(fā)布會中已經提出來了，我們讓虛擬人的交互更有情感，它到底是什么樣的體驗呢，我們先看一個小視頻。

這是基于現在實際的系統(tǒng)做的模擬，我想問一下現場的嘉賓，你們能聽出來哪些是合成、那些是人聲嗎？其實我也不知道，我們的產品經理把實際發(fā)音人和系統(tǒng)合成音做了混合對話設計，他把它藏在了里面。

可以說我們極致虛擬人的語音合成，讓虛擬人交互更有情感，它還有10+其他年齡、性別、場景發(fā)音人增加到電視大屏當中去。

設備能聽會說，不代表它能懂，我們覺得如何讓用戶有更好的體驗，我們在2019年聯合杭研、福建移動在行業(yè)首發(fā)了一套基于大屏的人機交互評價體系和標準，我們叫“懂有暢快暖”用戶體驗體系。這個體系一提出，得到了很多行業(yè)人士的認可，端到端的交互成功率從86%提升到91.8%，讓端到端的服務體驗更加完善。

3大創(chuàng)新：iFLYHOME OS 2.0能聊、會認、更安全

除了三大能力提升之外，還基于諸多場景做了核心的功能創(chuàng)新，有代表性的主要有三個：

第一個“能聊”。我們在做用戶訪談時，他們說現在的人機交互是簡單的任務性、指令性交互，就是一問一答，我想看中央一套，我們幫他放中央一套；我想看劉德華的電影，我們就幫他放劉德華的電影，但是一旦跳出任務指令，AI就顯得非常傻。

所以在新一代的人機交互當中，把訊飛最先進的情感型對話納入了2.0系統(tǒng)，它可以通過機器人的多情緒識別表達，讓現在的虛擬人具備實時新聞熱點能力，具備文學、歷史知識，也具備政治、軍事知識，可以跟大屏前的用戶做多場景下的復雜對話。而且這個功能有一個非常大的拓展，人一旦和虛擬人建立了信任、情感之后，我們就可以基于這種情感式的對話，挖掘更多的基于用戶在內容上的個性化、場景化的服務推薦和需求，這項功能也會開放給所有的運營商、服務合作伙伴。

第二個“會認”。從傳統(tǒng)的語音和現在的圖像、視頻識別相結合，剛才何總在做元宇宙介紹的時候也多次強調，這是我們多模態(tài)識別核心?，F在的電視大屏正是因為攝像頭和機頂盒、電視業(yè)務相結合，使得我們面向多人場景下的圖像、聲音多模態(tài)融合識別技術有了更多廣泛的應用場景?，F在在家庭看電視的情況下，可能有多個角色，但是這多個角色都可以跟我們電視進行人機交互。如果只是傳統(tǒng)的語音識別，我們很難做到清晰的聲音定位和遠場角色識別。有了圖像之后，可以把聲音和人臉識別檢測結合，還有主論壇發(fā)布的唇形識別相結合，使得我們的語音識別指令能夠更加清晰定位到用戶，讓遠場的交互更加清晰、更精準。

第三個“更安全”。電視業(yè)務運營商和服務提供商都知道，對于電視大屏內容安全是我們做電視業(yè)務從業(yè)者非常關注的。訊飛基于當前整個聲音+文字的監(jiān)控技術，基于語義的敏感內容識別，我們和廣科院有非常深的研討，使得我們現在基于電視大屏語音轉文字的能力可以在新的2.0產品中隆重上線。它為我們在電視大屏端創(chuàng)造出更多的應用場景，包括很多合作伙伴說的怎么樣才能把大屏的輕社交屬性做好，能不能上彈幕的功能，還有用戶反饋說運營商有一些很老、很早的視頻，這些視頻內容沒有字幕，能不能把訊飛的字幕轉寫，把聽見轉寫能力加上去，因此我們在iFLYHOME OS 2.0當中把整個的轉寫、翻譯能力也實時提供給應用的合作伙伴，使得我們真的在大屏社交方向上，可以在電視大屏上做新的應用探索。

剛才我把基于iFLYHOME OS的三大能力提升和三大功能給大家做了簡單的介紹。

大家一直說“耳聽為虛，眼見為實”，那么它真實的效果怎么樣呢，我們的小伙伴做了一個視頻，請看大屏幕。這是我們做的一些簡單的功能視頻模擬，展覽館的科技館、生活館都有對應的展區(qū)，也歡迎我們的合作伙伴們、開發(fā)者們到展廳現場體驗我們最新的基于電視大屏的人機交互系統(tǒng)，也歡迎大家能給我們提出更多的寶貴性的改進意見。

所有2.0的功能也面向全行業(yè)做全能力的逐步開放，包括給合作伙伴有標準化的虛擬人快速定制系統(tǒng)，還有面向多領域的垂直方向上的能力下沉，包括剛才講的大屏輕社交、大屏康養(yǎng)、大屏政務、大屏教育等多個領域，都可以做到很好的語音語義、多模態(tài)識別支持。同時針對合作伙伴，也把整個接口進行了標準化的對接，使得我們的各項開發(fā)工作可以更加高速、高效、快捷。

未來我們會持續(xù)地把很多多模態(tài)的最新技術與現在的iFLYHOME OS 2.0系統(tǒng)相結合，提供給諸多的產品、應用、合作伙伴，包括情緒感知、體感識別、表情識別、遠場手勢識別能力，會陸續(xù)的在我們的系統(tǒng)當中定期發(fā)布。

舉一個簡單的場景——遠場手勢識別。上半年，有一個合作伙伴是做棋牌的，他很想把現在很火的象棋、圍棋搬到電視大屏上，怎么都找不到解決方案，為什么呢？不管是用遙控按鍵，還是語音，都沒有辦法解決在電視大屏場景下去下棋這個核心場景。我們用遠場手勢識別，讓爸爸、爺爺坐在沙發(fā)上，用兩個簡單的動作，一拿，一放，就能解決在電視大屏當中的棋牌場景落地。我堅信我們把諸多的新技術放到多模態(tài)解決方案中，會給未來大屏端的應用和服務帶來更多的創(chuàng)新以及更大的廣闊的發(fā)展空間。

就像董事長昨天說的，因為看見，所以堅信，我們認為大屏的未來已來，科大訊飛會堅持用AI賦能，與我們的合作伙伴一起攜手，共同邁入大屏人機交互2.0新時代。

謝謝大家！

免責聲明：本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網站出現的信息，均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時，應及時向本網站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后，將會依法盡快聯系相關文章源頭核實，溝通刪除相關內容或斷開相關鏈接。

1024AI+家庭論壇｜科大訊飛朱家泉：多模態(tài)融合，大屏進入交互新時代

下一篇