復(fù)旦大學(xué)肖仰華:12306的驗(yàn)證碼已不再安全


4月13日,中國(guó)科學(xué)院科技戰(zhàn)略咨詢研究院與騰訊研究院在北京聯(lián)合舉辦了“2017人工智能:技術(shù)、倫理與法律研討會(huì)”,會(huì)議邀請(qǐng)了中國(guó)科學(xué)院科技戰(zhàn)略咨詢研究院院長(zhǎng)潘教峰、騰訊研究院院長(zhǎng)司曉、中國(guó)科學(xué)院學(xué)部科學(xué)規(guī)范與倫理研究與支撐中心李真真、復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院肖仰華等數(shù)十位人工智能領(lǐng)域?qū)<液蛯W(xué)者,共同探討當(dāng)前人工智能技術(shù)發(fā)展中面臨的和帶來(lái)的倫理、法律、社會(huì)經(jīng)濟(jì)影響等問(wèn)題。

期間,肖仰華教授做了主題為“未來(lái)人機(jī)區(qū)分——基于語(yǔ)言認(rèn)知的智能驗(yàn)證碼”的分享,雷鋒網(wǎng)根據(jù)現(xiàn)場(chǎng)錄音、PPT、以及采訪內(nèi)容整理成文。

復(fù)旦大學(xué)肖仰華:12306的驗(yàn)證碼已不再安全,未來(lái)屬于智能驗(yàn)證碼

雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))按:肖仰華,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,副教授,博士生導(dǎo)師,上海市互聯(lián)網(wǎng)大數(shù)據(jù)工程技術(shù)中心副主任。主要從事大數(shù)據(jù)管理與挖掘、知識(shí)庫(kù)等方向的研究工作。

為什么需要驗(yàn)證碼?

復(fù)旦大學(xué)肖仰華:12306的驗(yàn)證碼已不再安全,未來(lái)屬于智能驗(yàn)證碼

首先,非常高興有機(jī)會(huì)跟大家來(lái)分享我在人機(jī)區(qū)分方面一些思考和工作。我主要從事計(jì)算機(jī)研究,近幾年關(guān)注的比較多的是人工智能領(lǐng)域的相關(guān)研究。在研究不斷開展的過(guò)程中我們?cè)絹?lái)越強(qiáng)烈地意識(shí)到一個(gè)問(wèn)題,那就是我們現(xiàn)在已經(jīng)很難區(qū)分計(jì)算機(jī)背后到底是人還是機(jī)器,這就很容易造成一個(gè)非常尷尬的局面,我們到底是在跟人交互還是在跟機(jī)器交互?我最近聽到一個(gè)笑話,有一個(gè)人在婚戀網(wǎng)站上談朋友,最后發(fā)現(xiàn)是一個(gè)機(jī)器人在跟他聊天。所以人機(jī)區(qū)已經(jīng)成了非常重要的一個(gè)議題。

到底怎樣才能有效地區(qū)分互聯(lián)網(wǎng)的另一端是機(jī)器還是人呢?我們計(jì)算機(jī)領(lǐng)域給出的方案就是驗(yàn)證碼。這個(gè)小小的驗(yàn)證碼是所有人最熟悉卻又最為陌生的事物,幾乎所有人都使用過(guò)驗(yàn)證碼,但是驗(yàn)證碼背后的機(jī)制與原理卻并不為人所熟知。為什么在登錄系統(tǒng)的時(shí)候系統(tǒng)會(huì)讓人輸入驗(yàn)證碼?事實(shí)上就是為了做人機(jī)區(qū)分,系統(tǒng)需要知道是真實(shí)的人還是機(jī)器在獲取我們的數(shù)據(jù),是真實(shí)的人在購(gòu)買還是機(jī)器在刷單,是真實(shí)的人在購(gòu)票還是機(jī)器在搶票。所以驗(yàn)證不單單是一件事關(guān)乎整個(gè)人類身份和尊嚴(yán)的事情,同時(shí)也是具有重大安全意義的問(wèn)題,而且已經(jīng)在保證網(wǎng)站安全、數(shù)據(jù)安全、運(yùn)營(yíng)安全和交易安全等方面發(fā)揮了巨大的作用。

網(wǎng)站安全:垃圾注冊(cè)、惡意登錄、賬號(hào)盜用

數(shù)據(jù)安全:數(shù)據(jù)爬取、數(shù)據(jù)破壞

運(yùn)營(yíng)安全:惡意刷單、虛假秒殺、虛假評(píng)論

交易安全:虛假交易、惡意套現(xiàn)、盜卡支付


為什么傳統(tǒng)的驗(yàn)證碼已經(jīng)不安全了?

但是最近幾年人工智能技術(shù)的發(fā)展,特別是大數(shù)據(jù)推動(dòng)下的人工智能技術(shù)的發(fā)展,已經(jīng)使得機(jī)器的感知能力達(dá)到甚至超越了人類的水平,這個(gè)技術(shù)趨勢(shì)的直接結(jié)果是什么呢?就是基于感知能力的人機(jī)驗(yàn)證的方式已然失效。

復(fù)旦大學(xué)肖仰華:12306的驗(yàn)證碼已不再安全,未來(lái)屬于智能驗(yàn)證碼

先簡(jiǎn)單回顧一下近幾年人工智能發(fā)展的趨勢(shì)。如果想尋求一個(gè)簡(jiǎn)單原因來(lái)解釋為什么最近幾年人工智能風(fēng)風(fēng)火火,或者人工智能為何這么興旺,那么這個(gè)原因應(yīng)該是大數(shù)據(jù)時(shí)代的到來(lái),沒有大數(shù)據(jù)不可能有人工智能如今的發(fā)展。我們現(xiàn)在有著越來(lái)越龐大的數(shù)據(jù)規(guī)模,越來(lái)越完整的數(shù)據(jù)生態(tài),這是人工智能跨越式發(fā)展的前提和基礎(chǔ)。此外,大數(shù)據(jù)時(shí)代我們的硬件水平呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)的趨勢(shì)。現(xiàn)在我們擁有前所未有的計(jì)算能力,而這個(gè)計(jì)算能力仍然在飛速增長(zhǎng)。正是計(jì)算能力的飛速增長(zhǎng)以及大數(shù)據(jù)的迅速積累為人工智能的跨越式發(fā)展奠定了基礎(chǔ)。大數(shù)據(jù)時(shí)代為人工智能的發(fā)展可以說(shuō)帶來(lái)前所未有的數(shù)據(jù)紅利。

人工智能近期的發(fā)展,尤其體現(xiàn)在以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)方面,近幾年我們看到深度學(xué)習(xí)在很多領(lǐng)域取得了前所未有的突破。深度學(xué)習(xí)之所以能夠迅猛發(fā)展,其實(shí)就是因?yàn)橛辛撕A康臉?biāo)注數(shù)據(jù),所以大家看到最近很多深度學(xué)習(xí)方面突破大都來(lái)自像Google、Facebook這樣的大公司,為什么?因?yàn)樗麄冇泻A康臄?shù)據(jù)。

復(fù)旦大學(xué)肖仰華:12306的驗(yàn)證碼已不再安全,未來(lái)屬于智能驗(yàn)證碼

以深度學(xué)習(xí)為代表的人工智能技術(shù)快速發(fā)展的一個(gè)直接結(jié)果就是:機(jī)器在某些方面的感知能力方面已經(jīng)達(dá)到甚至超越了人類水平。比如微軟在圖像識(shí)別方面的準(zhǔn)確率達(dá)到96.43%,人類只有94.9%。也就是說(shuō)人去看一個(gè)圖像都不一定有機(jī)器看得準(zhǔn)。百度的DeepSpeech平臺(tái)的語(yǔ)音識(shí)別錯(cuò)誤率已經(jīng)降到3.7%-5.7%之間,而人類的錯(cuò)誤率仍有4%-9.7%,所以在語(yǔ)音識(shí)別方面機(jī)器已經(jīng)超越人類。以深度學(xué)習(xí)為代表的人工智能技術(shù)已經(jīng)讓機(jī)器在視覺、聽覺方面的感知能力大幅進(jìn)步,在視聽這些基本的感知能力層面人類已經(jīng)沒有什么好值得驕傲的?,F(xiàn)在我們身邊的機(jī)器,其感知能力事實(shí)上比我們強(qiáng)。

復(fù)旦大學(xué)肖仰華:12306的驗(yàn)證碼已不再安全,未來(lái)屬于智能驗(yàn)證碼

這個(gè)技術(shù)趨勢(shì)的直接結(jié)果是什么呢?就是大家最為熟悉的圖片驗(yàn)證方式已經(jīng)徹徹底底失效。這些結(jié)果不是來(lái)自什么頂尖的實(shí)驗(yàn)室,而是來(lái)自某大學(xué)的碩士生課程作業(yè)。對(duì)于Complex Image這種相對(duì)復(fù)雜的驗(yàn)證碼,機(jī)器識(shí)別的準(zhǔn)確率高達(dá)98%-99.8%。在人機(jī)對(duì)比實(shí)驗(yàn)里,人大概10個(gè)里面要錯(cuò)3個(gè),機(jī)器10個(gè)里面只錯(cuò)了1個(gè),基本上是機(jī)器完敗人類?;ヂ?lián)網(wǎng)上的很多平臺(tái)目前還嚴(yán)重依賴這類驗(yàn)證碼,以為能夠防止刷單、刷票等等,但是事實(shí)上并不安全。

復(fù)旦大學(xué)肖仰華:12306的驗(yàn)證碼已不再安全,未來(lái)屬于智能驗(yàn)證碼


傳統(tǒng)驗(yàn)證碼可以說(shuō)已經(jīng)十分不安全。比如上圖中拖拽驗(yàn)證碼,已經(jīng)可以通過(guò)自動(dòng)化程序來(lái)破解。而且這樣的破解程序也不需要什么高手才能做出來(lái)的,這里演示的是我實(shí)驗(yàn)室同學(xué)用來(lái)練手的破解項(xiàng)目。先通過(guò)圖像處理算法找出方塊的目標(biāo)位置,由于方塊區(qū)位特征明顯,很容易找到。之后設(shè)計(jì)一個(gè)帶參數(shù)剛體運(yùn)動(dòng)的軌跡模擬模型,參數(shù)隨機(jī)化之后模擬真人的軌跡拖動(dòng),從而實(shí)現(xiàn)破解。

復(fù)旦大學(xué)肖仰華:12306的驗(yàn)證碼已不再安全,未來(lái)屬于智能驗(yàn)證碼

12306圖形驗(yàn)證碼

除了拖拽驗(yàn)證碼,據(jù)說(shuō)難倒了很多購(gòu)票者的12306的驗(yàn)證碼其實(shí)也可以被破解。12306的驗(yàn)證碼本質(zhì)上在做圖片中的對(duì)象識(shí)別,因此可以利用已經(jīng)相當(dāng)成熟的ImageNet相關(guān)算法,而ImageNet相關(guān)算法對(duì)圖片中的實(shí)體識(shí)別已經(jīng)到達(dá)很高的準(zhǔn)確率。

復(fù)旦大學(xué)肖仰華:12306的驗(yàn)證碼已不再安全,未來(lái)屬于智能驗(yàn)證碼

谷歌圖形驗(yàn)證碼

此外,就連谷歌圖片驗(yàn)證碼也可以通過(guò)類似的方法被破解。谷歌圖片驗(yàn)證碼識(shí)別的主要難度在其類型多樣:有時(shí)是選擇圖片中招牌部分,有時(shí)是框出圖上的汽車。但是對(duì)于每一類驗(yàn)證都是有相應(yīng)的破解方法,特別是對(duì)于基于圖片中物體識(shí)別的驗(yàn)證碼,可以用類似ImageNet的相關(guān)算法破解。

如今,幾乎所有的主流的傳統(tǒng)驗(yàn)證碼都已經(jīng)被破解,傳統(tǒng)的驗(yàn)證方式早已不安全。

未來(lái)屬于基于語(yǔ)言認(rèn)知的智能驗(yàn)證碼

出路何在?我的觀點(diǎn)很明確,那就是基于語(yǔ)言認(rèn)知的人機(jī)區(qū)分,也就是考驗(yàn)機(jī)器語(yǔ)言認(rèn)知能力的智能驗(yàn)證碼,這將會(huì)是未來(lái)一段時(shí)間內(nèi)的重要選擇。

復(fù)旦大學(xué)肖仰華:12306的驗(yàn)證碼已不再安全,未來(lái)屬于智能驗(yàn)證碼

這類驗(yàn)證碼的基本思路是,讓機(jī)器去讀一段文本,然后回答問(wèn)題。有點(diǎn)類似語(yǔ)文里面的閱讀理解。比如說(shuō)讓人或機(jī)器讀這么一段文本:“某人從復(fù)旦大學(xué)哲學(xué)系畢業(yè),現(xiàn)在是鄭州大學(xué)公共學(xué)院的導(dǎo)師”,然后問(wèn)“這個(gè)人的在職單位是什么?”人或機(jī)器需要點(diǎn)擊包含答案的文本片段才能通過(guò)驗(yàn)證。這類驗(yàn)證本質(zhì)上是在考驗(yàn)人或機(jī)器的文本理解能力。對(duì)于人而言極為簡(jiǎn)單,但是對(duì)于機(jī)器而言,這是很有難度的。比如剛才的例子,機(jī)器有可能回答復(fù)旦大學(xué),也有可能回答鄭州大學(xué),但是我們都知道只有鄭州大學(xué)是他的在職單位。機(jī)器要回答這個(gè)問(wèn)題必須理解這段話講的是什么,必須能夠區(qū)分鄭州大學(xué)和復(fù)旦大學(xué)一個(gè)是學(xué)習(xí)單位,一個(gè)是在職單位。換言之,機(jī)器必須具備像我們?nèi)艘粯拥恼J(rèn)知能力,才能破解這樣的驗(yàn)證碼。但是很遺憾,機(jī)器畢竟沒有像人一樣受過(guò)十幾年的教育,也就無(wú)從具備這樣的文本理解能力。當(dāng)前機(jī)器在認(rèn)知能力方面,尤其在語(yǔ)言認(rèn)知方面,至少在未來(lái)一段時(shí)間窗口內(nèi)還難以企及人類水平,可能再過(guò)二十年、三十年或許能達(dá)到這個(gè)水平,但是這是二、三十年之后的事情了。

我們來(lái)看看當(dāng)前人工智能到底有什么問(wèn)題。當(dāng)前人工智能的問(wèn)題集中表現(xiàn)在理解常識(shí)的能力和推理能力非常有限。什么叫常識(shí)?幾乎所有人都知道,以至于大家都不說(shuō)的知識(shí),叫常識(shí)。比如說(shuō)太陽(yáng)是從東邊升起的,人是會(huì)走但是不會(huì)飛的,魚是會(huì)游但是不會(huì)走的,雞是有兩條腿,兔子是有四條腿的,類似于這樣的知識(shí),就叫常識(shí)。機(jī)器普遍缺乏這種常識(shí),因?yàn)闄C(jī)器現(xiàn)在所學(xué)到的知識(shí)都是從文本里面學(xué)習(xí)來(lái)的,但是常識(shí)是人人都知道的,所以文本里不會(huì)被提及,那就意味著數(shù)據(jù)里不會(huì)存在,因此機(jī)器就無(wú)從學(xué)習(xí)。所以機(jī)器現(xiàn)在是普遍缺乏常識(shí)的。

我們?cè)傧胂肴藶槭裁淳哂羞@種常識(shí)?人的常識(shí)是通過(guò)自身與世界的交互而產(chǎn)生的,我們從胚胎開始就在積累常識(shí),就在感受時(shí)間的流逝,感受空間的存在。當(dāng)你是一個(gè)很小的小朋友時(shí)你就知道調(diào)皮會(huì)挨打,所以你就在體驗(yàn)有因必有果。時(shí)間感、空間感、因果感,都是通過(guò)身體經(jīng)年累月的體驗(yàn)而形成的。人類要想在短短幾十年時(shí)間內(nèi),把這種通過(guò)體驗(yàn)而得到的知識(shí)以一種填鴨式地方式灌輸給機(jī)器是很困難的。

復(fù)旦大學(xué)肖仰華:12306的驗(yàn)證碼已不再安全,未來(lái)屬于智能驗(yàn)證碼

另外一方面是推理能力有限。我曾經(jīng)問(wèn)過(guò)很多在線機(jī)器人:“奧巴馬是白人嗎?”,很多機(jī)器的回答都不準(zhǔn)確。事實(shí)上,這些機(jī)器背后的知乎庫(kù)中都存有“奧巴馬是黑人”這樣的事實(shí),但是從“奧巴馬是黑人”推理出“奧巴馬不是白人”,對(duì)機(jī)器來(lái)說(shuō)就非常困難。另一方面人類的推理是能夠容忍很多異常的。比如說(shuō)“有翅膀的鳥會(huì)飛”,大部分情況下是這樣的,但是你也會(huì)發(fā)現(xiàn)一些特例,比如企鵝有翅膀不會(huì)飛,鴕鳥有翅膀也不會(huì)飛。機(jī)器只能勝任非黑即白的推理,異常容忍的推理對(duì)于機(jī)器而言仍很困難,但對(duì)于人而言確極為簡(jiǎn)單。這里提及的難題目前有一個(gè)不成熟的說(shuō)法,被統(tǒng)稱為AI-Complete問(wèn)題,也就是說(shuō)這些問(wèn)題要等到機(jī)器智能達(dá)到人類水平的時(shí)候才能解決。這明顯是個(gè)悖論,但從這一說(shuō)法可以看出這類問(wèn)題有多難。

基于這些認(rèn)識(shí),我們提出并實(shí)現(xiàn)了一種基于知識(shí)圖譜的驗(yàn)證碼。我們有一個(gè)目前世界上最大的中文百科知識(shí)庫(kù)CN-DBpedia。利用自有的知識(shí)庫(kù),自動(dòng)生成自然語(yǔ)言問(wèn)題,自動(dòng)判定答案。所有的問(wèn)題全是自動(dòng)生成的,理論上可以生成數(shù)以億計(jì)的問(wèn)題。同時(shí)我們平臺(tái)可以自動(dòng)判定答案,但是機(jī)器是不知道答案的,機(jī)器必須通過(guò)理解才能知道答案。我們的驗(yàn)證碼還具有交互友好的特性,只要輕輕一點(diǎn)就能通過(guò)驗(yàn)證。

那么我們的系統(tǒng)是如何知道答案的呢?其實(shí)在CN-DBpedia里存儲(chǔ)的是2億多的結(jié)構(gòu)化事實(shí),比如(復(fù)旦大學(xué),所在地,上海),基于這些結(jié)構(gòu)化事實(shí),我們通過(guò)深度學(xué)習(xí)模型自動(dòng)生成自然語(yǔ)言問(wèn)題,也就是說(shuō)我們的系統(tǒng)在提問(wèn)時(shí)是已經(jīng)知道答案的。

如果要破解我們的驗(yàn)證碼需要以下幾個(gè)技術(shù)儲(chǔ)備:

識(shí)別圖片里面的文字以獲取問(wèn)題

理解文本以及問(wèn)題,進(jìn)而生成答案

使用一個(gè)成熟的涵蓋數(shù)億關(guān)系知識(shí)庫(kù)的QA系統(tǒng)

因此,破解這個(gè)驗(yàn)證碼至少比破解目前流行的圖片驗(yàn)證碼要難(上述第1步)。文本理解以及知識(shí)庫(kù)上的QA(雷鋒網(wǎng)注:特別是能回答數(shù)以億計(jì)知識(shí)的QA),是目前正在研究和探索的問(wèn)題,還沒有成熟的解決方案。因此,至少目前,在機(jī)器語(yǔ)言認(rèn)知能力尚未達(dá)到人類水平之前,我們的驗(yàn)證碼是難以破解的。

復(fù)旦大學(xué)肖仰華:12306的驗(yàn)證碼已不再安全,未來(lái)屬于智能驗(yàn)證碼

我們的核心技術(shù)是從知識(shí)庫(kù)里面結(jié)構(gòu)化知識(shí)自動(dòng)生成自然語(yǔ)言問(wèn)題。我們提出了基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的從結(jié)構(gòu)化三元組生成自然語(yǔ)言問(wèn)題的模型,從而實(shí)現(xiàn)問(wèn)題的自動(dòng)隨機(jī)生成。理論上有數(shù)以億計(jì)的候選問(wèn)題空間,一個(gè)真實(shí)的用戶是不會(huì)兩次碰到相同的問(wèn)題的,從而保證了驗(yàn)證的安全可靠。

復(fù)旦大學(xué)肖仰華:12306的驗(yàn)證碼已不再安全,未來(lái)屬于智能驗(yàn)證碼

同時(shí),為了進(jìn)一步提高驗(yàn)證的安全性,降低對(duì)于真實(shí)用戶的驗(yàn)證門檻,提高對(duì)于機(jī)器驗(yàn)證的門檻,我們也考慮到了分級(jí)驗(yàn)證。如果是首次登錄的普通用戶,就采用簡(jiǎn)單的驗(yàn)證,如果是高頻訪問(wèn)的賬號(hào)就用復(fù)雜驗(yàn)證,比如說(shuō)像淘寶的刷單,我們就可以通過(guò)組合驗(yàn)證的方式,將機(jī)器拒絕于門外。

復(fù)旦大學(xué)肖仰華:12306的驗(yàn)證碼已不再安全,未來(lái)屬于智能驗(yàn)證碼

組合驗(yàn)證實(shí)際上就是通過(guò)組合文本理解、圖片識(shí)別、軌跡識(shí)別等不同驗(yàn)證碼方式來(lái)增加機(jī)器破解的難度,從而實(shí)現(xiàn)更強(qiáng)的安全驗(yàn)證。

復(fù)旦大學(xué)肖仰華:12306的驗(yàn)證碼已不再安全,未來(lái)屬于智能驗(yàn)證碼

我們的驗(yàn)證碼終極形式是常識(shí)驗(yàn)證。比如說(shuō):“上海GDP僅次于日本東京,問(wèn)GDP第一的城市是誰(shuí)?”答案應(yīng)該是“東京”,回答這類問(wèn)題本質(zhì)上是在考驗(yàn)機(jī)器的常識(shí)理解能力。常識(shí)理解問(wèn)題可以說(shuō)是人工智能皇冠上的問(wèn)題。

基于語(yǔ)言認(rèn)知的智能驗(yàn)證碼具有非常多的應(yīng)用場(chǎng)景,包括電商平臺(tái)防搶單、用戶注冊(cè)防僵尸、航旅春運(yùn)防刷票、發(fā)表評(píng)論防水軍、信息檢索防爬取、論壇博客防撞庫(kù)等等。不僅如此,這種驗(yàn)證碼還有很多超越人機(jī)區(qū)分的未來(lái)商業(yè)應(yīng)用價(jià)值:

閾下知覺廣告(subliminal advertising):閾下知覺是低于閾限的刺激所引起的行為反應(yīng)。雖我們感覺不到,但卻能在潛意識(shí)中形成記憶,引導(dǎo)之后決策。

眾包數(shù)據(jù)標(biāo)注: 驗(yàn)證碼是用戶登陸的必經(jīng)之路,谷歌已經(jīng)對(duì)接了圖片分類問(wèn)題實(shí)現(xiàn)圖片樣本的自動(dòng)標(biāo)注、物體識(shí)別等。

訪問(wèn)權(quán)限控制:類似于門衛(wèi),在加入某些小眾群體的時(shí)候,能起到區(qū)分作用,只有知道特定群體知識(shí)的人才能回答驗(yàn)證進(jìn)入系統(tǒng)。


4月13日,中國(guó)科學(xué)院科技戰(zhàn)略咨詢研究院與騰訊研究院在北京聯(lián)合舉辦了“2017人工智能:技術(shù)、倫理與法律研討會(huì)”,會(huì)議邀請(qǐng)了中國(guó)科學(xué)院科技戰(zhàn)略咨詢研究院院長(zhǎng)潘教峰、騰訊研究院院長(zhǎng)司曉、中國(guó)科學(xué)院學(xué)部科學(xué)規(guī)范與倫理研究與支撐中心李真真、復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院肖仰華等數(shù)十位人工智能領(lǐng)域?qū)<液蛯W(xué)者,共同探討當(dāng)前人工智能技術(shù)發(fā)展中面臨的和帶來(lái)的倫理、法律、社會(huì)經(jīng)濟(jì)影響等問(wèn)題。

期間,肖仰華教授做了主題為“未來(lái)人機(jī)區(qū)分——基于語(yǔ)言認(rèn)知的智能驗(yàn)證碼”的分享,雷鋒網(wǎng)根據(jù)現(xiàn)場(chǎng)錄音、PPT、以及采訪內(nèi)容整理成文。

復(fù)旦大學(xué)肖仰華:12306的驗(yàn)證碼已不再安全,未來(lái)屬于智能驗(yàn)證碼

雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))按:肖仰華,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,副教授,博士生導(dǎo)師,上海市互聯(lián)網(wǎng)大數(shù)據(jù)工程技術(shù)中心副主任。主要從事大數(shù)據(jù)管理與挖掘、知識(shí)庫(kù)等方向的研究工作。

為什么需要驗(yàn)證碼?

復(fù)旦大學(xué)肖仰華:12306的驗(yàn)證碼已不再安全,未來(lái)屬于智能驗(yàn)證碼

首先,非常高興有機(jī)會(huì)跟大家來(lái)分享我在人機(jī)區(qū)分方面一些思考和工作。我主要從事計(jì)算機(jī)研究,近幾年關(guān)注的比較多的是人工智能領(lǐng)域的相關(guān)研究。在研究不斷開展的過(guò)程中我們?cè)絹?lái)越強(qiáng)烈地意識(shí)到一個(gè)問(wèn)題,那就是我們現(xiàn)在已經(jīng)很難區(qū)分計(jì)算機(jī)背后到底是人還是機(jī)器,這就很容易造成一個(gè)非常尷尬的局面,我們到底是在跟人交互還是在跟機(jī)器交互?我最近聽到一個(gè)笑話,有一個(gè)人在婚戀網(wǎng)站上談朋友,最后發(fā)現(xiàn)是一個(gè)機(jī)器人在跟他聊天。所以人機(jī)區(qū)已經(jīng)成了非常重要的一個(gè)議題。

到底怎樣才能有效地區(qū)分互聯(lián)網(wǎng)的另一端是機(jī)器還是人呢?我們計(jì)算機(jī)領(lǐng)域給出的方案就是驗(yàn)證碼。這個(gè)小小的驗(yàn)證碼是所有人最熟悉卻又最為陌生的事物,幾乎所有人都使用過(guò)驗(yàn)證碼,但是驗(yàn)證碼背后的機(jī)制與原理卻并不為人所熟知。為什么在登錄系統(tǒng)的時(shí)候系統(tǒng)會(huì)讓人輸入驗(yàn)證碼?事實(shí)上就是為了做人機(jī)區(qū)分,系統(tǒng)需要知道是真實(shí)的人還是機(jī)器在獲取我們的數(shù)據(jù),是真實(shí)的人在購(gòu)買還是機(jī)器在刷單,是真實(shí)的人在購(gòu)票還是機(jī)器在搶票。所以驗(yàn)證不單單是一件事關(guān)乎整個(gè)人類身份和尊嚴(yán)的事情,同時(shí)也是具有重大安全意義的問(wèn)題,而且已經(jīng)在保證網(wǎng)站安全、數(shù)據(jù)安全、運(yùn)營(yíng)安全和交易安全等方面發(fā)揮了巨大的作用。

網(wǎng)站安全:垃圾注冊(cè)、惡意登錄、賬號(hào)盜用

數(shù)據(jù)安全:數(shù)據(jù)爬取、數(shù)據(jù)破壞

運(yùn)營(yíng)安全:惡意刷單、虛假秒殺、虛假評(píng)論

交易安全:虛假交易、惡意套現(xiàn)、盜卡支付

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-04-26
復(fù)旦大學(xué)肖仰華:12306的驗(yàn)證碼已不再安全
4月13日,中國(guó)科學(xué)院科技戰(zhàn)略咨詢研究院與騰訊研究院在北京聯(lián)合舉辦了“2017人工智能:技術(shù)、倫理與法律研討會(huì)”。

長(zhǎng)按掃碼 閱讀全文