123,123

據(jù)媒體報道，近期，F(xiàn)acebook、微軟等巨頭已開始著手打擊 deepfake 濫用，斥資 1000 多萬美元舉辦 deepfake 檢測挑戰(zhàn)賽。谷歌也宣布了開源大型 deepfake 視頻數(shù)據(jù)集，以支持社區(qū)對 deepfake 檢測的研究。

今年6 月，一段利用DeepFake機器學習算法生成的Facebook 創(chuàng)始人馬克·扎克伯格的講話視頻引起軒然大波。

人們驚訝的不是視頻內(nèi)容本身，而是DeepFake 機器學習算法的進步之迅速。由AI生成的視頻仿真程度越來越高，導致辨別這些內(nèi)容真?zhèn)卧絹碓嚼щy。如果這類技術被大規(guī)模濫用，很可能會帶來不可估量的負面影響。

從技術角度看，引發(fā)關注的DeepFake 機器學習算法由卷積神經(jīng)網(wǎng)絡(ConvolutionalNeural Network, CNN)催生而來。后者是深度學習(Deep Learning)技術中極具代表性的神經(jīng)網(wǎng)絡結(jié)構。目前，CNN 已經(jīng)在圖像處理領域取得了很大成功。全球最大圖像識別數(shù)據(jù)庫ImageNet 數(shù)據(jù)集上，許多成功的模型都是基于CNN。

從金融科技平臺人人貸看CNN 在金融科技領域的運用

據(jù)華爾街日報報道，今年3 月英國一家能源公司CEO 被犯罪分子通過電話騙取了22 萬歐元。負責這起詐騙案理賠的保險公司調(diào)查后認為，犯罪分子利用了DeepFake 類軟件工具，通過模仿這位CEO 的德國老板的特殊口音獲取其信任，并最終得逞。

可見，DeepFake 并非只是換臉，其含義已經(jīng)泛化為利用AI 生成虛假音頻、視頻、圖像等內(nèi)容的行為。DeepFake 也并不只代表某個特定算法模型或軟件工具，而是一類算法的應用集合。

在對數(shù)據(jù)和風險高度敏感的金融行業(yè)，DeepFake 以假亂真的效果很可能會影響到銀行、金融科技公司等機構對使用者開展KYC(了解你的客戶)比如遠程客戶認證等關鍵環(huán)節(jié)。

金融業(yè)是對數(shù)據(jù)高度敏感的行業(yè)。在以CNN 為代表的深度學習大量運用之前，金融行業(yè)對數(shù)據(jù)的處理很大程度上是根據(jù)已知經(jīng)驗和規(guī)律做出判斷。

比如，卡車司機群體的健康或意外風險較高，保險公司在對這部分投?？蛻魷y算建模時一般會提高保費價格。再比如，公務員群體的工作較為穩(wěn)定，還款意愿和能力相對更容易判定。這兩個例子中共同的數(shù)據(jù)變量是職業(yè)，不同職業(yè)對金融業(yè)務風險會產(chǎn)生顯著影響。

但已知經(jīng)驗和規(guī)律畢竟有限，以此為基礎的一些強假設大多數(shù)情況下自變量(比如：年齡、職業(yè))和因變量(風險)滿足線性關系。而在實際的金融業(yè)務開展過程中，采集來的數(shù)據(jù)之間常常存在非線性關聯(lián)。

在這種情況下，數(shù)據(jù)分析人員可以通過變量衍生和變換技術來彌補線性模型表達能力的不足。例如，用戶在央行征信中心的征信報告中會留下銀行等金融機構的查詢記錄，單條查詢記錄可能跟用戶的資質(zhì)沒有太大關聯(lián)，但是，如果我們統(tǒng)計用戶在一定期限內(nèi)的被查詢次數(shù)，這就是用戶對于貸款饑渴程度的一個很好的度量，也跟用戶資質(zhì)有較大的關系。

在這個例子中，“用戶的征信報告被貸款機構查詢的記錄”到“用戶一定期限內(nèi)的被查詢次數(shù)”就是一次非線性的變量衍生過程。在變量衍生后，數(shù)據(jù)分析人員以標準的變量評估方法為基礎，結(jié)合KYC 的經(jīng)驗判斷衍生和變換后的變量是否是一個“好”的變量。數(shù)據(jù)分析人員的經(jīng)驗、能力甚至靈感決定了能否找到良好的非線性變換，以對用戶的資質(zhì)做更準確的評價。

但受限于數(shù)據(jù)分析人員的精力和能力限制，要找到更理想的衍生變量進而發(fā)現(xiàn)其中的邏輯關系并不容易。利用CNN 構造并訓練模型，通過調(diào)整參數(shù)將模型性能調(diào)整到理想狀態(tài)，可以解決這個問題。

以金融科技企業(yè)人人貸的業(yè)務流程為例，人人貸將采集到的用戶數(shù)據(jù)可視化為一張“圖片”，圖片中的每一個像素定義為每一個變量的取值。通過批量分析用戶“圖片”，可以發(fā)現(xiàn)高風險用戶在圖片的某些區(qū)域上有持續(xù)的共同或相似之處。與此同時，也會發(fā)現(xiàn)一些圖片區(qū)域的取值在高風險和低風險的用戶之間并無差異，即在風險識別的目標下無效的變量區(qū)域。

得益于數(shù)據(jù)降維，CNN 模型能夠顯著減少需要處理的數(shù)據(jù)量級，將算力要求控制在可接受范圍內(nèi)。更重要的是，基于CNN 的風險識別模型可以晝夜不停地工作，所處理的數(shù)據(jù)量級和復雜程度也遠遠超過數(shù)據(jù)分析人員采用的傳統(tǒng)統(tǒng)計分析方法或傳統(tǒng)機器學習。

經(jīng)過多年業(yè)務實踐，人人貸認為在信貸風險管理領域，存在成功應用CNN 的前提條件。值得注意的是，人人貸并不是運用CNN 來完成信貸風險決策，而是將CNN 用于傳統(tǒng)信用評估流程中的“變量衍生”環(huán)節(jié)，也就是把CNN 網(wǎng)絡的輸出作為衍生變量的重要備選。

在風險識別之外，人人貸作為國內(nèi)領先的金融科技企業(yè)，較早采用了第三方服務商的人臉識別解決方案，能夠準確、高效地完成客戶身份驗證。其中的人臉識別算法也大量使用了CNN 相關技術。就目前而言，第三方人臉識別解決方案提供商的算法已經(jīng)相當成熟，可以有效防御2D 照片、3D 人臉模型攻擊，反身份欺騙成功率可達99.5%。

基于CNN相關技術的應用，人人貸得以將金融科技有效滲入業(yè)務全流程，極大的提高了風控流程的效率，進而將服務全流程智能化、系統(tǒng)化。

免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內(nèi)容或斷開相關鏈接。

從金融科技平臺人人貸看CNN 在金融科技領域的運用

下一篇