原標(biāo)題:世界杯沒有秘密:有人趴在角落里悄悄讀著球員的唇……
世界杯已經(jīng)過半,殘酷的淘汰賽也已經(jīng)馬上就要進(jìn)入四分之一決賽。相比場(chǎng)內(nèi)球員們的激情和球迷的熱情,場(chǎng)外關(guān)于各球隊(duì)的報(bào)道也是讓人目不暇接。其中最令人好奇的,大概要算教練和球員們之間的一些“耳鬢廝磨”了。
比如西班牙和俄羅斯的點(diǎn)球大戰(zhàn)。當(dāng)西班牙主帥耶羅決定讓科克踢點(diǎn)球的時(shí)候,科斯塔表達(dá)了不同意見,并多次向耶羅、科克和隊(duì)長拉莫斯進(jìn)行交流。然而這并沒有什么用,科克還是踢了第三個(gè)點(diǎn)球,并成功罰丟,導(dǎo)致志奪冠的西班牙就此結(jié)束了在本屆世界杯的征程。
類似的情況還出現(xiàn)在小組賽阿根廷1:1暫平尼日利亞的時(shí)候,桑保利去詢問梅西該不該上阿圭羅,只見梅西點(diǎn)了點(diǎn)頭,隨后阿圭羅被換上。
問題是,好像我們看球除了現(xiàn)場(chǎng)球迷的呼喊聲之外,聽到最多的大概要算是踢足球的聲音了,教練球員之間的交流我們也是只見其人不聞其聲。那些電視臺(tái)是怎么知道他們說了什么話的?難道是后臺(tái)進(jìn)行了采訪?
非也。實(shí)際上,要弄懂他們?cè)谡f什么其實(shí)很簡(jiǎn)單,就是對(duì)口型。正規(guī)說法就是:讀唇語。
聽起來是不是很高端?
從“手工時(shí)代”到人工智能
唇語之用,最早在于幫助聽力障礙人群獲取語言信息,讓其過上正常人的生活。在這個(gè)意義上,其作用于手語相當(dāng)。但與手語不同的是,讀唇語是一件難度很高、即便費(fèi)盡心思去練習(xí)也不一定學(xué)有所成的事情。
學(xué)唇語首先得視力好,俗稱眼尖。不要求幾里地之外明察秋毫,至少能在幾十米外看見嘴唇動(dòng)作吧。傳說中英國職業(yè)唇語破解女王杰西卡就說自己能在四十米開外的地方通過讀唇來破解別人說話的內(nèi)容。所以,不是歧視大家,那些五米之外人畜不分的近視群體這輩子還是不要再想著讀唇語這件事了……
正是由于掌握的人數(shù)少,現(xiàn)實(shí)中見得不多,讀唇語就變成了一件神秘而高大上的事情。在這個(gè)時(shí)代,我們姑且可以把它成為唇語的“手工時(shí)代”。
而在近兩年,長期處于靠個(gè)人努力來維持現(xiàn)狀的唇語突然就火了起來,似乎在一夜之間變成了一件唾手可得的事情。而造成這一現(xiàn)象的根本原因,就是人工智能視覺識(shí)別技術(shù)的發(fā)展,或許我們可以把它稱作唇語識(shí)別的人工智能時(shí)代。比如《機(jī)器姬》當(dāng)中機(jī)器人夏娃讀取內(nèi)森和迦樂的嘴部動(dòng)作來識(shí)別內(nèi)容。那么,人工智能識(shí)別唇語在現(xiàn)實(shí)中又有哪些表現(xiàn)呢?
從技術(shù)原理上來說,讀唇語這件事正適合人工智能來做。通過對(duì)說話人嘴部說話的連續(xù)動(dòng)作的捕捉,然后將其與單詞發(fā)音進(jìn)行匹配,最終經(jīng)過不斷地修正,得出動(dòng)作、發(fā)音、語義三者最協(xié)調(diào)的句子,從而實(shí)現(xiàn)唇語的破解。
比如2016年Deepmind聯(lián)合牛津大學(xué)推出的人工智能唇語識(shí)別系統(tǒng)。通過對(duì)該系統(tǒng)進(jìn)行超過5000小時(shí)、11800條新聞視頻的訓(xùn)練學(xué)習(xí),其在最終的視頻測(cè)試中達(dá)到了46.8%的識(shí)別正確率,而人類則僅僅為12.4%。這個(gè)差距可以說是相當(dāng)明顯了。
而在國內(nèi)也有公司開發(fā)了相關(guān)的唇語識(shí)別AI。去年烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì)上,搜狗也顯示了自己在唇語識(shí)別上的成果,其采用的則是新聞視頻、電視節(jié)目、普通人說話等綜合場(chǎng)景來訓(xùn)練的方法。當(dāng)然,這項(xiàng)技術(shù)的開發(fā)仍然處于起步階段,想要完成想象中的唇語通吃,大概仍然需要時(shí)間。
可以確定的是,在視覺識(shí)別技術(shù)不斷提升的情況下,唇語識(shí)別即將由一項(xiàng)傳說中的“秘術(shù)”變成人人都可裝備的日常工具。但把讀唇語變成一種通用的語言輔助工具,真的是很容易的一件事的嗎?
讀唇語對(duì)人不易,AI亦如是
我們知道,人工智能的深度學(xué)習(xí)是建立在大量相關(guān)材料的基礎(chǔ)上的,比如Deepmind訓(xùn)練一個(gè)唇語識(shí)別的人工智能,總時(shí)長達(dá)到了5000個(gè)小時(shí),而識(shí)別成功率也還不到50%。然而對(duì)現(xiàn)階段的處于識(shí)別來說,這已經(jīng)是一個(gè)非常好的數(shù)據(jù)了,畢竟頂尖的人類唇語識(shí)別專家也才有百分之十幾的成功率。那么,既然唇語識(shí)別這么難,人工智能要想拿下它,又應(yīng)該需要注意哪些問題?
第一,要解決口型不一致的問題??谛筒灰恢碌膯栴}體現(xiàn)在兩個(gè)方面。
一方面,由于音準(zhǔn)的不同,不是所有的人發(fā)出同樣的音節(jié)的時(shí)候都是會(huì)產(chǎn)生同樣的動(dòng)作。這點(diǎn)動(dòng)作從人類的視角來看可能難以發(fā)現(xiàn),但從擅長識(shí)別微表情的人工智能的時(shí)間來說,些許的動(dòng)作差別可能就會(huì)造成誤判。比如一個(gè)傻子口齒不清,人們聽起來都費(fèi)勁,就更不要說讀唇識(shí)別了。
另一方面,同一種語言由于地域的不同,同一個(gè)字也可能存在不同的發(fā)音方式。比如“六”,在普通話的讀音中,它讀作“l(fā)iù”;而在南方方言里,很多情況下它被讀作“l(fā)ù”,甚至在其他地區(qū)還有讀成“l(fā)uò”“l(fā)o”等。那么,在識(shí)別方言這一塊兒,人工智能遇到的麻煩也是不小。
第二,人工智能唇語識(shí)別的語氣問題。既然是識(shí)別說話內(nèi)容,就不可避免地要涉及說話者的語氣。同一個(gè)詞語、同一句話,由于說話者語氣的不同,其也可能會(huì)造成不同的語義。比如“你弄啥類”,加個(gè)問號(hào)表示疑問,加個(gè)嘆號(hào)就代表的是憤怒。所以,單純識(shí)別說話者語言內(nèi)容將會(huì)限制唇語識(shí)別的功能,如何將說話者的表情、動(dòng)作、場(chǎng)景等一系列和表達(dá)有關(guān)的因素統(tǒng)一到唇語識(shí)別當(dāng)中去,也是一個(gè)需要考慮的問題。
第三,在很多情況下我們并不需要人形機(jī)器人一樣,我們也不一定非得讓唇語識(shí)別變成一個(gè)萬事通。在對(duì)其進(jìn)行訓(xùn)練的時(shí)候,我們可以根據(jù)使用的具體場(chǎng)景來進(jìn)行專門的素材搜集。比如地鐵站自動(dòng)賣票,就只需要針對(duì)站點(diǎn)名稱的口型作重點(diǎn)訓(xùn)練。這樣就可以避免特定場(chǎng)景下由無效工作而帶來的繁瑣。
更重要的是,語言是一個(gè)非常龐大的知識(shí)庫,如果想要精確地實(shí)現(xiàn)對(duì)各種情況下的唇語的識(shí)別,海量的語音、動(dòng)作訓(xùn)練將是一個(gè)耗時(shí)巨甚的工作量。
唇語雖小,潛力卻大
毫無疑問,當(dāng)唇語識(shí)別技術(shù)成熟,其應(yīng)用前景是非常樂觀的,比如以下幾個(gè)方面。
1. 安防領(lǐng)域。家庭攝像頭功能、場(chǎng)景都比較單一,一般都會(huì)有麥克風(fēng)進(jìn)行聲音搜集。然而在數(shù)量更多的室外監(jiān)控系統(tǒng)里,基本上只能看到畫面而沒有聲音。這就是電子監(jiān)控的一個(gè)很大缺陷。那么,引入唇語識(shí)別之后,相當(dāng)于在技術(shù)上令畫面產(chǎn)生了聲音。違法者在鏡頭前的交流內(nèi)容將被捕捉,而這也很有可能成為破案的重要線索。英國警方就利用杰西卡的唇語能力破獲了一起機(jī)場(chǎng)搶劫案。
2. 醫(yī)療健康領(lǐng)域。唇語最原始的作用就是幫助聽力障礙患者能夠和普通人一樣正常進(jìn)行交流,但這個(gè)學(xué)習(xí)成本無疑是巨大的,可能需要幾年乃至十幾年的時(shí)間。甚至如果視力、毅力都不好的話,其只能靠非常麻煩的手語來進(jìn)行交流。那么,在唇語識(shí)別技術(shù)的幫助下,聽力障礙患者將不必花費(fèi)這樣的學(xué)習(xí)成本而能直接和正常人一樣交流。
3. 實(shí)時(shí)語音轉(zhuǎn)化更加精準(zhǔn)。如今無論是智能法庭上的實(shí)時(shí)字幕還是國際會(huì)議中的同聲傳譯,其基本上都是依靠單純的語音識(shí)別功能來實(shí)現(xiàn)。通過唇語識(shí)別技術(shù)的加成,其將從單純的“聽”變成一邊“看”一邊“聽”,更符合人類接受語言信息的特點(diǎn)。由此,人工智能在實(shí)時(shí)字幕、同聲傳譯等場(chǎng)景下的應(yīng)用也將更加成熟。
此外,利用唇語來識(shí)別語音,對(duì)語音分離問題的解決也將產(chǎn)生積極的影響。之前就有團(tuán)隊(duì)通過視頻和語音的對(duì)照來分離語音,唇語更是可以成為值得關(guān)注的一個(gè)點(diǎn)。
4. 推進(jìn)多模態(tài)物聯(lián)網(wǎng)的構(gòu)建。比如上海地鐵引入的語音購票,其就是通過對(duì)乘客進(jìn)行語音和人臉的雙重識(shí)別來確定到達(dá)站和買票人。基于此,將唇語識(shí)別技術(shù)和語音識(shí)別結(jié)合起來,將有可能為物聯(lián)網(wǎng)的構(gòu)建打開更大的想象空間。在家庭物聯(lián)網(wǎng)場(chǎng)景中,以智能音箱為代表的入口可以不必單純依賴語音識(shí)別指令,加入唇語讀取來提高識(shí)別的精確度。畢竟,看著別人說話和閉上眼睛聽別人說話,對(duì)信息接受者而言是有很大不同的。
但唇語識(shí)別也是一項(xiàng)非常需要警惕的技術(shù)。畢竟大自然限制了人聲的傳播距離,就是為了保護(hù)個(gè)體的私密。一旦唇語識(shí)別泛濫,每個(gè)人都可能再無秘密可言。說話要捂嘴、回家第一件事是拉窗簾、開車要貼不透光車膜……這樣人心惶惶的世界可能是誰也不愿意待的,畢竟英國女王被人讀了唇語并公開之后還是很不高興的。
不管怎樣,唇語識(shí)別都稱得上是一項(xiàng)值得期待的技術(shù)。盡管現(xiàn)在還不成熟,盡管未來需要考慮到很多容易產(chǎn)生不利影響的現(xiàn)實(shí)問題。但是,當(dāng)它展現(xiàn)出對(duì)人類社會(huì)積極的意義的時(shí)候,我們也不該去拒絕給它個(gè)擁抱。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢(shì)拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。