文|周輝 零壹財經(jīng)
3月7日訊,近年來,隨著移動互聯(lián)網(wǎng)的興起,各種傳統(tǒng)的業(yè)務(wù)逐漸轉(zhuǎn)至線上,互聯(lián)網(wǎng)金融,電子商務(wù)迅速發(fā)展,商家針對營銷及交易環(huán)節(jié)的推廣活動經(jīng)常以返利的形式進行。由于有利可圖,此類線上推廣迅速滋生了針對返利的系統(tǒng)性的優(yōu)惠套利欺詐行為,俗稱薅羊毛。由于移動設(shè)備的天然隱蔽性和欺詐行為的多變性,傳統(tǒng)的防范手段,比如規(guī)則系統(tǒng)等就顯得有些笨拙和捉襟見肘了,使得薅羊毛看起來仿佛防不勝防。但是正所謂魔高一尺,道高一丈。在實踐中,我們發(fā)現(xiàn),一個基于統(tǒng)計和機器學習的多層動態(tài)風險評分體系和決策系統(tǒng)能有效地抵御“羊毛黨”的攻擊。那如何打造這樣一個系統(tǒng)呢?
首先,我們來了解下此系統(tǒng)的核心部分之一:特征工程。
特征工程,又稱特征學,是學習一個特征的技術(shù)的集合,將原始數(shù)據(jù)轉(zhuǎn)換成為能夠被機器學習來有效開發(fā)的一種形式。通俗地講,特征工程對原始數(shù)據(jù)進行加工,將其轉(zhuǎn)換為精確的,可量化的數(shù)據(jù)。
著名法國小說《小王子》中有這樣的描述:“如果你對大人們說‘我看到一幢用玫瑰色的磚蓋成的漂亮的房子,它的窗戶上有天竺葵,屋頂上還有鴿子……‘,他們想象不出來房子有多好,必須對他們說‘我看見了一幢價值十萬法郎的房子’他們才能理解房子有多好。”文中,從房屋模糊的文學性描述到“十萬法郎”就是一個特征學習的例子。
特征工程轉(zhuǎn)換后的數(shù)據(jù)能被更好的理解和運算,方便我們從貌似渣亂無章的原始數(shù)據(jù)中找出那些可疑的異常數(shù)據(jù)。它是機器學習中很重要的一步,也許是最重要的一步。在機器學習領(lǐng)域里有一個不成文的共識,數(shù)據(jù)和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。
在反欺詐的實踐中,我們發(fā)現(xiàn)從網(wǎng)絡(luò)及設(shè)備終端、用戶行為信息、業(yè)務(wù)事件頻次,欺詐網(wǎng)絡(luò)圖譜這四大維度提取特征,并在此基礎(chǔ)上對有組織的薅羊毛行為層層篩查,對風險加以甄別,就能讓羊毛黨無所遁形。
圖二
設(shè)備終端與網(wǎng)絡(luò)
設(shè)備終端與網(wǎng)絡(luò)層面的特征是防范羊毛黨的第一道防線,為了規(guī)避篩查,或者方便適用自動化工具,欺詐者首先選擇在終端做手腳。他們或者適用PC或服務(wù)器以腳本或模擬器冒充終端設(shè)備,或者在終端設(shè)備上,Root,越獄,打開調(diào)試模式,安裝一鍵新機軟件,按鍵精靈等等,也有的正常用戶不幸安裝了木馬程序,而淪為任人擺布的肉雞。除了終端,網(wǎng)絡(luò)也是欺詐者最常擺弄的,他們經(jīng)常適用代理,VPN,或和一些機房的網(wǎng)絡(luò)管理人員合作,分散IP,進而冒充來自不同的地域。
為了對抗上面所提到的種種作弊行為,在實踐中,我們通常按下面的方法來構(gòu)造一個設(shè)備指紋系統(tǒng):1)根據(jù)收集到的歷史數(shù)據(jù),形成操作系統(tǒng)簽名數(shù)據(jù)庫。這個數(shù)據(jù)庫被用于判斷一個設(shè)備的操作系統(tǒng)簽名是否和聲明的操作系統(tǒng)及廠商,型號等吻合,進而判斷設(shè)備是否是腳本程序或模擬器偽裝,是否使用了代理或VPN,是否篡改了UA等設(shè)備信息等等;2)對設(shè)備的IP來源進行分析,看是否有可疑行為的歷史,是否來自機房,從而判斷其自動化或作弊的可能性;3)根據(jù)設(shè)備相關(guān)的三十多個特征將設(shè)備進行關(guān)聯(lián),賦予其唯一的身份識別符,此ID是上層特征,即用戶行為、頻次及欺詐網(wǎng)絡(luò)圖譜的基礎(chǔ)。
用戶行為信息
在堅實的設(shè)備指紋的基礎(chǔ)上,需要在會話和賬號兩層采集和提取用戶行為信息。在會話的層面上,借助基于概率的聚類模型和模式挖掘算法(sequentialpatternmining),將用戶的行為模式,比如事件發(fā)生的次序以及事件發(fā)生的間隔時間,歸為幾類。并在此基礎(chǔ)上識別出異常行為模式。這些標示特征為區(qū)分正常用戶和欺詐者或自動化工具提供了重要信息;更進一步,在賬號的層面上:首先以賬號為索引,將會話層面上提取到的行為信息特征按時間串聯(lián)起來,得到賬戶層面的異常行為標示特征。其次根據(jù)賬號相關(guān)聯(lián)的歷史行為數(shù)據(jù),提取出用戶的偏好屬性,比如是否為僵尸賬號,相鄰登錄的平均地理距離等。最后,我們將這些信息綜合起來,形成特有的用于反欺詐的用戶畫像。
當一個賬號再次出現(xiàn)在業(yè)務(wù)中時,用戶畫像中的特征就可以幫助我們評估對應(yīng)業(yè)務(wù)事件的風險。在實踐中,我們還發(fā)現(xiàn),由“羊毛黨”控制的賬號,通常具有某些相似性,比如所用手機號碼都來自某個號段,用戶名都由三個小寫字母,五個大寫字母和四個數(shù)字組成。據(jù)此,我們就可以定義賬號之間的相似度。這樣即使一個賬號首次出現(xiàn),我們也可以使用用戶畫像,對其風險做一個大致的評估。
用戶畫像除了本身能直接應(yīng)用于欺詐行為的判斷外。還可作為網(wǎng)絡(luò)圖譜模型的輸入,為欺詐網(wǎng)絡(luò)的發(fā)現(xiàn)提供線索和依據(jù)。
業(yè)務(wù)事件頻次特征
典型的薅羊毛行為的特征表現(xiàn)為短時期,小欺詐額,高頻次。從業(yè)務(wù)角度上來看:由于薅羊毛的欺詐行為有別于正常用戶的行為模式,會引起業(yè)務(wù)事件在某些顆粒度的時間+空間上分布異常。從反欺詐的防范要求角度上來看:需要對異常事件能快速響應(yīng),這就要求對客戶行為做實時或者近實時的統(tǒng)計、計算。并且綜合時間序列分析,個體差異分析以及當前趨勢分析這三方面的評估,實時并動態(tài)地對異常頻次數(shù)做標記。
以某互聯(lián)網(wǎng)公司一個實際的交易薅羊毛案例為例
圖三
被監(jiān)控的交易事件,隨著時間,在整體上會形成一個有規(guī)律可循的時間分布曲線。一個時間曲線,比如圖三的最上面一個小圖,其實是由三種效應(yīng)疊加起來的:
1.數(shù)據(jù)整體隨時間的趨勢效應(yīng),圖三的第二小圖;
2.數(shù)據(jù)隨時間的周期效應(yīng),圖三的第三小圖。這個其實包含兩個方面,一個是同一天各個小時間的個體差異,一個是某一小時對歷史上同一小時的慣性關(guān)系。
3.統(tǒng)計噪音效應(yīng)。(這部分數(shù)據(jù)通常被用來做異常分析)
當數(shù)據(jù)累積到一定量的時候,比如整體分布曲線,能很好的被ARIMA模型(也就是時間序列模型)模擬和預(yù)測。ARIMA是統(tǒng)計學中一類模型的統(tǒng)稱;ARIMA能自動處理時間維度上的周期變化,動態(tài)變化,噪音污染等問題。并對每個小時動態(tài)生成一系列異常檢驗規(guī)則??梢岳斫鉃槿缦碌囊幌盗幸?guī)則:某一天10點鐘,交易200次以下為正常,200-250為輕度異常,250-350為重度異常等等。
圖四
圖四是實際的模擬效果,綠色是原始值,紅色虛線是預(yù)測值,黑線是誤差,此案例預(yù)測的效果較好。
上面這些結(jié)果都是針對整體分布曲線而言的。但是在反優(yōu)惠套利欺詐的場景里面,我們常常希望在某細顆粒度上制定檢測規(guī)則:比如某個地域/IP網(wǎng)段每小時交易超過多少為異常。也就是說在時間維度的基礎(chǔ)上加入空間維度。這是因為通常來說,欺詐行為會引起在某個空間細顆粒度上,時間分布曲線異常;但不會引起整體層面上的異常,也就是說異常數(shù)據(jù)會被正常數(shù)據(jù)淹沒掉;而且,整體層面上的模型是無法區(qū)分細顆粒度上的差別。換句話說,它只能籠統(tǒng)地告訴我們,數(shù)據(jù)在某個時段出現(xiàn)了異常,但無法告訴我們在這個時段,按空間維度分比如城市,哪些是異常的,哪些依然是正常的。
在時間維度上加入空間維度,面臨兩方面的困難:一方面,細顆粒度的維度過高,以網(wǎng)段舉例,數(shù)據(jù)中出現(xiàn)的網(wǎng)段有近十萬個,分別建模成本過高;另一方面,細顆粒上的數(shù)據(jù)通常累積量不夠,難以滿足時間序列模型所需的條件。通過反復(fù)建模實踐,我們發(fā)現(xiàn)基于貝葉斯框架的生成式模型能較完美地克服上述困難,完成建模目標。由于這類模型綜合考慮了事件的時間和空間分布,我們不妨叫它“時空動能模型”。
圖五
圖五的兩張圖是兩個不同網(wǎng)段的交易數(shù)據(jù)分布圖。每副圖中藍色曲線是網(wǎng)段交易曲線,對應(yīng)著左邊的坐標系。紅色曲線是整體的分布曲線,對應(yīng)著右邊的坐標系。藍色曲線上的紅色點是模型得到的異常點,而紅色曲線上的藍點是前述紅點所對應(yīng)時間上的整體分布曲線上的點。
圖五左圖上下對比,可以看到,時空動能模型能在整體不異常的情況下,在細顆粒度上面找到異常點。
圖五左右對比,這兩張圖顯現(xiàn)的分別是不常用網(wǎng)段和常用網(wǎng)段,它們的分布曲線完全不相似。是無法用同一模型模擬的。但時空動能模型自動的為兩個網(wǎng)段分別建模,自動適應(yīng)這種動態(tài)變化。
上面的例子證明,綜合了統(tǒng)計和機器學習技術(shù)的模型能在反欺詐異常檢測中發(fā)揮巨大的作用。
欺詐網(wǎng)絡(luò)圖譜
羊毛黨經(jīng)常通過網(wǎng)絡(luò)發(fā)起組織,在一些單點特征上,同正常用戶一樣呈現(xiàn)出分散的特點,使得單點特征防御難以奏效。但如果將用戶行為用網(wǎng)絡(luò)的形式建模展示,會發(fā)現(xiàn)在一些特殊的圖形特征上,欺詐行為明顯異于正常行為。實踐中,我們借助于圖學習(GraphLearning)的一些模型,發(fā)現(xiàn)網(wǎng)絡(luò)圖譜模型對于羊毛黨的發(fā)現(xiàn)特別有效。當然欺詐網(wǎng)絡(luò)發(fā)現(xiàn)依賴于設(shè)備指紋以及建立在其基礎(chǔ)上的同人模型。
在上面的網(wǎng)絡(luò)圖譜里面,紅色點表示不同設(shè)備;綠色點表示不同賬號;藍色點表示不同APP。紅色點和綠色點之間的虛線表示:該設(shè)備注冊了這個賬號;藍色點與綠色點之間的虛線表示該賬號領(lǐng)取了這個APP的某些獎勵。
上面的左圖是正常用戶的行為網(wǎng)絡(luò)圖譜:不同設(shè)備的行為是分散的,不一致的。而右邊是“公會式羊毛黨”的行為網(wǎng)絡(luò)圖譜。在網(wǎng)絡(luò)圖譜上,羊毛黨的設(shè)備行為會呈現(xiàn)出高度的一致性和集中性。
以上,我們對網(wǎng)絡(luò)及設(shè)備終端、用戶行為信息、業(yè)務(wù)事件頻次,欺詐網(wǎng)絡(luò)圖譜這四大維度的特征工程做了一個簡單的介紹。在發(fā)欺詐實踐中,這些提取出來的特征,結(jié)合多層動態(tài)模型,能有效地識別出高風險薅羊毛行為,幫助企業(yè)打擊“羊毛黨”。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 馬云現(xiàn)身支付寶20周年紀念日:AI將改變一切,但不意味著決定一切
- 萬事達卡推出反欺詐AI模型 金融科技擁抱生成式AI
- OpenAI創(chuàng)始人的世界幣懸了?高調(diào)收集虹膜數(shù)據(jù)引來歐洲監(jiān)管調(diào)查
- 華為孟晚舟最新演講:長風萬里鵬正舉,勇立潮頭智為先
- 華為全球智慧金融峰會2023在上海開幕 攜手共建數(shù)智金融未來
- 移動支付發(fā)展超預(yù)期:2022年交易額1.3萬億美元 注冊賬戶16億
- 定位“敏捷的財務(wù)收支管理平臺”,合思品牌升級發(fā)布會上釋放了哪些信號?
- 分貝通商旅+費控+支付一體化戰(zhàn)略發(fā)布,一個平臺管理企業(yè)所有費用支出
- IMF經(jīng)濟學家:加密資產(chǎn)背后的技術(shù)可以改善支付,增進公益
- 2022年加密貨幣“殺豬盤”涉案金額超20億美元 英國銀行業(yè)祭出限額措施
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。