搜狗推出“唇語識別”技術(shù) 打造多形態(tài)的人機交互

從鍵盤打字到觸控屏,再到現(xiàn)在的語音交互和手勢交互,人工智能技術(shù)的發(fā)展,正在促使人機交互方式向更加多元化方向變革。而今天,國內(nèi)知名互聯(lián)網(wǎng)公司搜狗又推出了一種人機交互新技術(shù)——唇語識別,這也是業(yè)內(nèi)首個公開演示的唇語識別系統(tǒng),通過機器視覺識別,不用聽聲音,僅靠識別說話人唇部動作,就能解讀說話者所說的內(nèi)容。

搜狗推出“唇語識別”技術(shù) 打造多形態(tài)的人機交互

與語音識別不同,唇語識別是一項基于機器視覺與自然語言處理于一體的技術(shù),因此在研發(fā)難度上比語音識別大得多。據(jù)悉,搜狗首創(chuàng)了復雜端到端深度神經(jīng)網(wǎng)絡技術(shù)進行中文唇語序列建模,通過數(shù)千小時的真實唇語數(shù)據(jù)訓練,另外得益于搜狗在自然語言處理方面的強大優(yōu)勢,最終取得了業(yè)界領(lǐng)先的唇語識別效果。在非特定人開放口語測試集上,搜狗唇語識別系統(tǒng)已經(jīng)達到60%以上的準確率,超過google發(fā)布的英文唇語系統(tǒng)50%以上的準確率,在垂直場景如車載、智能家居等場景下甚至已經(jīng)達到90%的準確率。在剛結(jié)束不久的烏鎮(zhèn)世界互聯(lián)網(wǎng)大會上,搜狗唇語識別技術(shù)亮相,在業(yè)內(nèi)大多數(shù)唇語識別技術(shù)實用性尚待考證的環(huán)境下,成功完成了業(yè)內(nèi)首個中文唇語識別系統(tǒng)的公開演示,引起廣泛關(guān)注。

當國內(nèi)大部分企業(yè)都扎堆聚集在智能語音、圖像識別等領(lǐng)域時,搜狗唇語識別技術(shù)的推出無疑將引領(lǐng)整個行業(yè)進入一個全新的發(fā)展方向。作為人機交互的形式之一,未來唇語識別技術(shù)可以輔助語音交互及圖像識別,在日常生活、安防、公益等各個領(lǐng)域?qū)崿F(xiàn)廣泛應用。比如在車載場景下,周圍噪音過大時會對語音指令產(chǎn)生干擾,通過唇語識別技術(shù)則可以規(guī)避干擾,保證人車交互的準確性和穩(wěn)定性,日常不便發(fā)聲的公共場所也可以保證說話內(nèi)容的私密性;在安防領(lǐng)域,由于目前多數(shù)監(jiān)控只有攝像頭沒有麥克風,往往只能看清嘴型卻不知道在說什么,給案情分析帶來很多難題,而唇語識別技術(shù)可以幫助公安人員獲取重要的講話信息,為公共安全提供有效支持。除此之外,唇語識別技術(shù)還能發(fā)揮巨大的公益價值,幫助先天性聽障人群或老年人,讓他們更好地理解和表達自己。

作為一家技術(shù)驅(qū)動型的企業(yè),近年來搜狗一直致力于自然語言的研究,目前在語音識別、語義理解、機器翻譯等方面均取得了行業(yè)領(lǐng)先的成果并實現(xiàn)產(chǎn)品落地,此次推出唇語識別技術(shù),不僅會推動整個AI行業(yè)的技術(shù)革新,也意味著搜狗在AI領(lǐng)域的技術(shù)實力達到了更高的發(fā)展水平。

時至今日,人工智能的發(fā)展速度已經(jīng)完全超出了我們的想象,那些電影里的炫酷黑科技正在一步步成為現(xiàn)實出現(xiàn)在我們的生活中。隨著AI技術(shù)的發(fā)展,相信在不遠的將來,唇語識別也能像語音識別、圖像識別一樣成為我們生活中隨處可見的一部分。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2017-12-15
搜狗推出“唇語識別”技術(shù) 打造多形態(tài)的人機交互
從鍵盤打字到觸控屏,再到現(xiàn)在的語音交互和手勢交互,人工智能技術(shù)的發(fā)展,正在促使人機交互方式向更加多元化方向變革。

長按掃碼 閱讀全文