《中國(guó)財(cái)富》雜志專(zhuān)訪遠(yuǎn)鑒首席科學(xué)家鄭榕

近日,遠(yuǎn)鑒首席科學(xué)家兼多維身份識(shí)別與可信認(rèn)證技術(shù)國(guó)家工程實(shí)驗(yàn)室技術(shù)委員會(huì)委員鄭榕博士接受了《中國(guó)財(cái)富》雜志的專(zhuān)訪,暢聊了聲紋技術(shù)在信息安全防線里發(fā)揮的重要作用。同時(shí)鄭榕博士也表示聲紋識(shí)別是公司的特色技術(shù),除此之外遠(yuǎn)鑒還具備自主知識(shí)產(chǎn)權(quán)的語(yǔ)音、圖像全棧技術(shù),并首創(chuàng)多維身份識(shí)別技術(shù)。遠(yuǎn)鑒將全棧技術(shù)能力應(yīng)用到更廣闊的信息安全領(lǐng)域,用來(lái)保護(hù)網(wǎng)絡(luò)身份信息認(rèn)證和互聯(lián)網(wǎng)內(nèi)容風(fēng)控,實(shí)現(xiàn)了“身份 + 內(nèi)容”的新安全。

創(chuàng)刊于2004年4月的《中國(guó)財(cái)富》,由南方都市報(bào)、中國(guó)扶貧基金會(huì)、北京大學(xué)公民社會(huì)研究中心聯(lián)合出品,整合公益界、學(xué)術(shù)界、傳媒界以及企業(yè)界、政界、文化界等各種有志于公益慈善事業(yè)的力量和資源,透過(guò)新聞專(zhuān)業(yè)主義的手法,站在公民社會(huì)建設(shè)理念和實(shí)踐的最前沿,以敏銳的傳媒視角、全面深入的理性思考,和具備高度社會(huì)責(zé)任感的實(shí)踐精神,及開(kāi)放和包容的工作心態(tài)打造“中國(guó)公益第一刊”。

《中國(guó)財(cái)富》雜志專(zhuān)訪遠(yuǎn)鑒首席科學(xué)家鄭榕

《中國(guó)財(cái)富》雜志專(zhuān)訪遠(yuǎn)鑒首席科學(xué)家鄭榕

以下為本次采訪原文:

文|柳暉

我們的聲音和指紋、人臉一樣,都具備相對(duì)穩(wěn)定又唯一的特征。隨著遠(yuǎn)鑒等科技公司在聲紋識(shí)別技術(shù)領(lǐng)域的突破,聲紋識(shí)別正在金融、公共安全、互聯(lián)網(wǎng)等領(lǐng)域快速應(yīng)用。全球范圍內(nèi),聲紋識(shí)別也是競(jìng)爭(zhēng)激烈的技術(shù)賽道,在美國(guó)政府進(jìn)行出口管制的 14 類(lèi)技術(shù)中,聲紋識(shí)別就位列其中。

指紋打卡、人臉識(shí)別打卡已經(jīng)成為不少公司的標(biāo)配。不過(guò),在新冠肺炎疫情背景下,聲紋考勤系統(tǒng)成為不少企業(yè)的選擇。借助聲紋識(shí)別技術(shù),員工只需要念幾個(gè)數(shù)字,不需要摘口罩,也不需要接觸屏幕,就可以完成身份認(rèn)證和打卡。

近幾年,聲紋識(shí)別不僅僅應(yīng)用于公司考勤系統(tǒng)、門(mén)禁系統(tǒng),在公共安全、金融、互聯(lián)網(wǎng)、健康等領(lǐng)域,聲紋識(shí)別也已經(jīng)成為常規(guī)的身份認(rèn)證手段,而結(jié)合聲紋、人臉識(shí)別等技術(shù)的多模態(tài)認(rèn)證,也成為個(gè)人身份認(rèn)證的新趨勢(shì)。

為進(jìn)一步了解聲紋識(shí)別技術(shù)的應(yīng)用前景,我們采訪了北京遠(yuǎn)鑒信息技術(shù)有限公司(以下簡(jiǎn)稱(chēng)“遠(yuǎn)鑒”)的首席科學(xué)家兼多維身份識(shí)別與可信認(rèn)證技術(shù)國(guó)家工程實(shí)驗(yàn)室技術(shù)委員會(huì)委員鄭榕博士。遠(yuǎn)鑒是國(guó)內(nèi)專(zhuān)攻聲紋識(shí)別領(lǐng)域的創(chuàng)新企業(yè),在 2019 年首屆中國(guó)人工智能多媒體信息識(shí)別技術(shù)競(jìng)賽中,遠(yuǎn)鑒拿到了聲紋識(shí)別領(lǐng)域的冠軍,并與曠視科技、科大訊飛、商湯科技等身份識(shí)別領(lǐng)域的頭部企業(yè)一起,成為多媒體信息識(shí)別技術(shù)競(jìng)賽 A 級(jí)認(rèn)證的企業(yè)。

單一的身份認(rèn)證都不一定可靠

與指紋、人臉、虹膜等生物特征一樣,一個(gè)人的聲音特征也是獨(dú)一無(wú)二的,而且具有穩(wěn)定性,因此,從上世紀(jì) 70 年代開(kāi)始,就有人開(kāi)始研究基于聲紋的識(shí)別技術(shù)。盡管研究起步很早,但有意思的是,看起來(lái)更復(fù)雜的人臉識(shí)別與指紋識(shí)別在應(yīng)用上似乎走在了聲紋識(shí)別的前面。鄭榕解釋說(shuō):“聲紋認(rèn)證的門(mén)檻相對(duì)較高。除了解決噪音、多人場(chǎng)景的問(wèn)題,聲紋識(shí)別還需要解決跨信道比對(duì)與跨信道認(rèn)證的問(wèn)題,否則就沒(méi)辦法大規(guī)模商業(yè)化。”

以銀行接入聲紋認(rèn)證為例,假如客戶(hù)第一次錄入的聲音是用手機(jī)的麥克風(fēng)采集的,之后再用座機(jī)撥打客服電話,那采集聲音的設(shè)備就換成座機(jī)的麥克風(fēng)了——所謂“跨信道認(rèn)證”,就是要處理不同采集設(shè)備以及不同采集參數(shù)(比如,手機(jī)上的各個(gè)應(yīng)用程序在處理聲音時(shí),選擇的參數(shù)并不相同)下的聲音信號(hào),而在過(guò)去,這是一個(gè)很難逾越的障礙。

近幾年來(lái),隨著遠(yuǎn)鑒等科技公司在跨信道認(rèn)證上的突破,聲紋識(shí)別的商業(yè)化也走上了快車(chē)道。鄭榕介紹說(shuō),跨信道比對(duì)以及跨信道認(rèn)證,涉及人工智能的深度學(xué)習(xí)算法,需要對(duì)各種信道進(jìn)行針對(duì)性訓(xùn)練之后才能完成,這也是遠(yuǎn)鑒的核心技術(shù)之一。

推動(dòng)聲紋識(shí)別快速商業(yè)化的另一個(gè)原因,是識(shí)別過(guò)程的簡(jiǎn)化。以遠(yuǎn)鑒的技術(shù)為例,只需要20 秒左右的錄音(或者朗讀 3 遍 8 位的隨機(jī)數(shù)字串),就可以完成聲紋特征的采集。在過(guò)去,要完成這一過(guò)程,需要念一兩分鐘的文本才能完成。

不過(guò),聲紋識(shí)別也并不是絕對(duì)安全的。“單一模態(tài)的身份認(rèn)證都不安全。”鄭榕說(shuō)。不管是指紋識(shí)別、人臉識(shí)別、步態(tài)識(shí)別,還是虹膜識(shí)別,單一的認(rèn)證方式都很難保證安全。因此,綜合多種生物特征的多模態(tài)認(rèn)證技術(shù)就成為必然的選擇,為此,遠(yuǎn)鑒也在積極研發(fā)人臉識(shí)別技術(shù),與聲紋識(shí)別技術(shù)形成多模態(tài)認(rèn)證體系,目前已經(jīng)成功投入商用。

將人臉識(shí)別與聲紋識(shí)別綜合到一起,再結(jié)合 OTP(一次性密碼),結(jié)合多因子活體檢測(cè)就構(gòu)成了遠(yuǎn)鑒主推的多模態(tài)身份認(rèn)證方式。鄭榕說(shuō),人臉識(shí)別與聲紋識(shí)別技術(shù)可以綜合互補(bǔ)。以網(wǎng)約車(chē)司機(jī)的身份認(rèn)證為例,光線好的時(shí)候,可以采用人臉識(shí)別認(rèn)證,而在光線較弱或者在開(kāi)車(chē)途中的身份認(rèn)證,則可以用聲紋識(shí)別來(lái)完成。在聲紋識(shí)別過(guò)程中,用戶(hù)需要在限定時(shí)間內(nèi)(比如 5 秒內(nèi))讀出若干位隨機(jī)產(chǎn)生的數(shù)字,這些數(shù)字都是一次性的(OTP),這就為人為合成語(yǔ)音制造了難度——系統(tǒng)會(huì)對(duì)隨機(jī)數(shù)字的內(nèi)容進(jìn)行認(rèn)證,也會(huì)對(duì)聲紋特征進(jìn)行比對(duì),在雙重驗(yàn)證之下,進(jìn)一步強(qiáng)化了身份確認(rèn)的可靠性。

聲紋識(shí)別應(yīng)用上有兩個(gè)分支,可以簡(jiǎn)單總結(jié)為 1 ∶ N 與 1 ∶ 1。

前者是辨認(rèn)場(chǎng)景,作用是鑒別說(shuō)話者的身份。比如安全部門(mén)在搜查恐怖分子的時(shí)候,就經(jīng)常使用這一模式,將嫌疑人聲音與數(shù)據(jù)庫(kù)中的聲音進(jìn)行比對(duì),以搜查或排查聲音的主人。這一模式需要龐大的聲紋數(shù)據(jù)庫(kù)來(lái)進(jìn)行比對(duì)。

后者是確認(rèn)場(chǎng)景,最常見(jiàn)的就是聲紋門(mén)鎖。這一模式并不是從數(shù)據(jù)庫(kù)中鑒別一個(gè)人的身份,而是判斷說(shuō)話者和他聲稱(chēng)的身份是否一致,銀行在柜臺(tái)通過(guò)聲紋識(shí)別確認(rèn)客戶(hù)的身份,汽車(chē)判斷駕駛座上發(fā)出指令的人是否是車(chē)主,都采用的是類(lèi)似的模式。

這兩種模式可以用于鑒別未知身份人的確切身份,或者對(duì)一個(gè)人自己聲稱(chēng)的身份進(jìn)行確認(rèn)。對(duì)用戶(hù)來(lái)說(shuō),對(duì)自我身份的確證是非常重要的功能,可以讓我們?cè)诰€上辦理許多以前必須當(dāng)面驗(yàn)證的服務(wù)。

線下場(chǎng)景的線上化

在鄭榕看來(lái),我們?cè)谖磥?lái)或許可以和密碼說(shuō)再見(jiàn)。

對(duì)現(xiàn)代人來(lái)說(shuō),密碼是讓人又愛(ài)又恨的存在?;旌蠑?shù)字、字母、大小寫(xiě),甚至還有特殊字符的密碼,很難被記住。另一方面,為了保證數(shù)據(jù)的安全性,在不同的應(yīng)用與平臺(tái)上,我們需要設(shè)置不同的密碼。越來(lái)越長(zhǎng),以及越來(lái)越多的密碼,漸漸成為負(fù)擔(dān)。

基于生物特征的身份認(rèn)證,則解決了密碼帶來(lái)的負(fù)擔(dān)。不管是人臉識(shí)別,還是聲紋識(shí)別,都不需要特意去記憶和準(zhǔn)備,在安全性上也并不比密碼差。

鄭榕說(shuō),多模態(tài)身份認(rèn)證給互聯(lián)網(wǎng)帶來(lái)的最大改變,是推動(dòng)了線下場(chǎng)景線上化的過(guò)程,許多原本只能在線下完成的業(yè)務(wù),在引入這種認(rèn)證方式之后,就可以在線上完成。

以駕照的年檢為例,由于人臉識(shí)別技術(shù)的引入,原本必須去交警支隊(duì)辦理的業(yè)務(wù),可以通過(guò)遠(yuǎn)程上傳照片與體檢報(bào)告來(lái)完成,在家等快遞送達(dá)新的駕照即可。

要實(shí)現(xiàn)線下業(yè)務(wù)線上化,就必須有廉價(jià)、可靠且可以遠(yuǎn)程實(shí)現(xiàn)的驗(yàn)證方式。相比指紋、虹膜、人臉識(shí)別,聲紋識(shí)別的成本是最低的。當(dāng)指紋、虹膜必須當(dāng)面認(rèn)證時(shí),聲紋識(shí)別卻與人臉識(shí)別一樣,可以遠(yuǎn)程完成。

目前,遠(yuǎn)鑒主要與銀行、保險(xiǎn)公司合作,來(lái)推動(dòng)線下場(chǎng)景線上化的進(jìn)程。遠(yuǎn)鑒是國(guó)內(nèi)首批通過(guò)央行銀行卡檢測(cè)中心(BCTC)權(quán)威檢測(cè)的聲紋識(shí)別企業(yè),目前在齊魯銀行、招商銀行等金融機(jī)構(gòu),已經(jīng)成功部署并應(yīng)用遠(yuǎn)鑒的身份識(shí)別系統(tǒng)。

此外,由于曾承擔(dān)公安部、網(wǎng)信辦的多項(xiàng)國(guó)家重點(diǎn)工程,遠(yuǎn)鑒在數(shù)據(jù)響應(yīng)、超大規(guī)模數(shù)據(jù)持續(xù)訓(xùn)練上,快速創(chuàng)新和迭代了識(shí)別算法,因此,在 1∶N 身份識(shí)別模式上有豐富經(jīng)驗(yàn)和成功案例。

因此,在參與大規(guī)模的線下業(yè)務(wù)線上化的過(guò)程中,遠(yuǎn)鑒可以提供相對(duì)穩(wěn)定和安全的支持。在與公安部、網(wǎng)信辦的合作之外,遠(yuǎn)鑒也在積極探索“互聯(lián)網(wǎng) + 政務(wù)服務(wù)”的模式。

以泰康人壽的考勤系統(tǒng)為例,由于保險(xiǎn)業(yè)務(wù)員需要四處走訪,要完成他們的考勤打卡業(yè)務(wù),就需要比較有創(chuàng)意的解決方案。遠(yuǎn)鑒提供的是人臉識(shí)別 + 聲紋識(shí)別 + 地理位置 +OTP 的多模態(tài)認(rèn)證方式,可以讓業(yè)務(wù)員在不中斷客戶(hù)訪問(wèn)的情況下完成考勤打卡。

基金和銀行開(kāi)戶(hù),目前還都是在線下柜臺(tái)完成身份認(rèn)證的,但鄭榕認(rèn)為,在未來(lái)或許也都可以借助多模態(tài)身份認(rèn)證實(shí)現(xiàn)線上操作。事實(shí)上,民間也一直在呼吁一些線下業(yè)務(wù)盡快實(shí)現(xiàn)線上服務(wù)。以老人的生存性驗(yàn)證為例,原本都必須到柜臺(tái)認(rèn)證,但借助基于生物特征的遠(yuǎn)程認(rèn)證之后,就可以用手機(jī)來(lái)完成。

鄭榕也強(qiáng)調(diào)了多模態(tài)認(rèn)證的重要性。他說(shuō),“單一的人臉識(shí)別也不一定可靠。盡管有些應(yīng)用需要用戶(hù)進(jìn)行活體驗(yàn)證,比如眨眼或者轉(zhuǎn)頭,但網(wǎng)上一些開(kāi)源程序,就可以用一張照片實(shí)現(xiàn)轉(zhuǎn)頭或眨眼的效果。”

這其實(shí)也反映了生物認(rèn)證領(lǐng)域的兩大趨勢(shì):第一個(gè)是多模態(tài)認(rèn)證的興起,第二個(gè)則是手機(jī)等個(gè)人設(shè)備成為生物信息輸入的工具和接口。借助手機(jī)等設(shè)備進(jìn)行身份認(rèn)證,為了避免冒用身份,活體驗(yàn)證是常用的手段。所謂活體驗(yàn)證,就是確認(rèn)正在進(jìn)行身份認(rèn)證操作的對(duì)象是活人,而不是機(jī)器。

在人臉識(shí)別中,常見(jiàn)的活體驗(yàn)證辦法,是讓用戶(hù)按指引完成眨眼、轉(zhuǎn)頭等動(dòng)作。聲紋識(shí)別中,遠(yuǎn)鑒也開(kāi)發(fā)出一些算法來(lái)完成活體驗(yàn)證。在活體驗(yàn)證之外,持續(xù)驗(yàn)證也是常用的防冒用手段。這是聲紋識(shí)別比較擅長(zhǎng)的領(lǐng)域。在說(shuō)話的過(guò)程中,會(huì)持續(xù)地進(jìn)行聲紋比對(duì),以避免中途換人的情況。

在多模態(tài)認(rèn)證進(jìn)一步發(fā)達(dá)的將來(lái),銀行卡應(yīng)該也可以線上開(kāi)戶(hù)。到那時(shí),該說(shuō)再見(jiàn)的或許不只有密碼,還有各種各樣的實(shí)體卡。

隱私保護(hù)與體驗(yàn)感優(yōu)化

人臉識(shí)別大規(guī)模應(yīng)用以來(lái),引起了許多人對(duì)隱私問(wèn)題的擔(dān)憂(yōu)。畢竟,個(gè)人面容是比較敏感的內(nèi)容,不少人會(huì)介意自己的人臉信息被收集和存儲(chǔ)。

聲紋識(shí)別相對(duì)好一些。在錄入聲音與認(rèn)證身份的時(shí)候,用戶(hù)一般是讀一些隨機(jī)數(shù)字,這些數(shù)字并沒(méi)有實(shí)際意義,因此,與面容信息相比,敏感性相對(duì)較弱。

一個(gè)現(xiàn)實(shí)是,在過(guò)去若干年里,客服電話一直在告知客戶(hù)“為了確保服務(wù)質(zhì)量,您的通話可能被錄音”——自己的聲音被第三方采集和存儲(chǔ),對(duì)一般用戶(hù)來(lái)說(shuō)不存在心理障礙。

除了在內(nèi)容上相對(duì)沒(méi)那么敏感外,聲紋識(shí)別還有一個(gè)特別大的優(yōu)勢(shì),那就是它可以實(shí)現(xiàn)無(wú)感認(rèn)證。

從用戶(hù)的體驗(yàn)角度來(lái)看,聲紋識(shí)別分有感與無(wú)感兩種方式。

所謂有感認(rèn)證,就是用戶(hù)清晰地知道自己在進(jìn)行認(rèn)證,比如需要用戶(hù)讀出隨機(jī)數(shù)字的時(shí)候,就是典型的有感認(rèn)證,有感認(rèn)證往往是與文本相關(guān)的,需要讀出指定的文本(經(jīng)常是隨機(jī)數(shù)字)。

在無(wú)感認(rèn)證的情況下,用戶(hù)根本就不會(huì)意識(shí)到系統(tǒng)在對(duì)他的身份進(jìn)行確認(rèn)。這種方式不需要讀出指定的文本,屬于和文本無(wú)關(guān)的認(rèn)證。在民用場(chǎng)景下,經(jīng)常用于客戶(hù)服務(wù)。以銀行客服為例,借助這種無(wú)感聲紋認(rèn)證,銀行不需要一再確認(rèn)打電話進(jìn)來(lái)的客戶(hù)的身份,而且,由于聲紋識(shí)別可以持續(xù)認(rèn)證,如果通話中途換人,也可以快速鑒別出來(lái)。

在提升用戶(hù)體驗(yàn)感方面,鄭榕認(rèn)為聲紋識(shí)別還有巨大的想象空間。比如說(shuō),未來(lái)可以在短語(yǔ)音認(rèn)證上繼續(xù)努力,如果只需要少量幾個(gè)音節(jié)就可以完成認(rèn)證,那用戶(hù)有感認(rèn)證的體驗(yàn)感也會(huì)大大提升。此外,通過(guò)聲紋分析個(gè)人特征也是可以進(jìn)一步完善的方向。如果可以通過(guò)聲音來(lái)抓取年齡、情緒、性別和性格等屬性,那么企業(yè)在為客戶(hù)提供服務(wù)時(shí),可以更具針對(duì)性。在遠(yuǎn)鑒的公司宣傳冊(cè)上,印著“依托人工智能技術(shù)構(gòu)建可信網(wǎng)絡(luò)”這句話,在溝通中,鄭榕也表示,聲紋識(shí)別是公司的特色技術(shù),遠(yuǎn)鑒還具備自主知識(shí)產(chǎn)權(quán)的語(yǔ)音、圖像全棧技術(shù),并首創(chuàng)多維身份識(shí)別技術(shù)。遠(yuǎn)鑒將全棧技術(shù)能力應(yīng)用到更廣闊的信息安全領(lǐng)域,用來(lái)保護(hù)網(wǎng)絡(luò)身份信息認(rèn)證和互聯(lián)網(wǎng)內(nèi)容風(fēng)控,實(shí)現(xiàn)了“身份 + 內(nèi)容”的新安全。未來(lái)遠(yuǎn)鑒將繼續(xù)發(fā)力信息安全,有力支撐“數(shù)字中國(guó)”新型信息基礎(chǔ)設(shè)施建設(shè),為國(guó)家網(wǎng)絡(luò)信息安全筑好堅(jiān)固基石。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )