風控建模的學習材料往往從模型開始講,最后才講到模型評價的標準上來。因為模型本身比較難以理解,所以導致評價標準的理解上,往往跟模型的復雜性攪在一起,感覺理解起來更加困難。
其實,評價風控的標準跟模型是沒關系的,標準是一只尺子,用來衡量我們做的事情跟我們目標的距離,而模型就是我們做的事情。在這個尺子的度量下,哪個模型好,哪個模型壞,就可以量化的比較出來了。
所以,我們換個思路,先把我們的"尺子"講清楚,然后再去講這些模型如何去達到尺子的要求。今天這一講呢,我們講--混淆矩陣。
做風控審核的朋友要問了,"我就是審核一個客戶的好與壞,咋還來一個矩陣呢,我學生的時候就怕看見矩陣,頭疼"。其實,不要怕,這個矩陣是非常簡單的,它只是借用了個矩陣的表達形式罷了。
首先,我們樹立一個概念,我們每天的工作,是去審核一個個單個的借款人,而今天我們討論的標準,不是針對一個借款人的,而是對我們一段時間內所有審核工作的一個綜合考量。比如,過去3個月審核了1萬個借款人,那總體來講,審核效果如何呢,我們需要對這個考量制定量化的考核指標。
那么,問題就來了,什么樣的指標能夠告訴大家審核的結果的好壞呢?
壞帳率?有朋友說,如果發(fā)生壞帳越少,肯定是風控做的越好。問題是,如果我們把所有用戶都拒掉,壞帳率肯定是0,因為就沒有放貸嘛,哪來的壞帳。那銷售部門肯定要鬧翻天了,不交易哪來的提成啊?所以,并不是說壞帳率越低越好,還要考慮放貸的通過率。
通過率?通過的越多,銷售部門的提成越高,大家都樂翻天了。老板這個時候要出場了,你們什么樣的客戶都做,壞賬怎么辦?都讓老子抗么?風控人員不想混了么?
那最厲害的風控效果就是,呆帳率為零,而通過率是最高的。通俗來講,就是應該放貸的都放了,而不應該放的都沒放。而可悲的現(xiàn)實是,這樣的判斷力太難實現(xiàn)了,除了神以外,我們凡人是幾乎無法達到這樣的智慧的。我們審批通過的,肯定有漏網之魚并最終導致壞賬;而我們拒掉的,肯定有誤殺的,該賺的錢沒賺到。
那我們所尋求的各種手段,包括人工來審核,打分卡,邏輯回歸以及其他的大數(shù)據算法,要達到的目標,無非是"漏網之魚越少越好,同時誤殺的也越少越好"。很長時間內,我們只能逼近兩者的最優(yōu)效果,但卻無法達到。
于是,我們定義了幾個指標,來量化出上面所說的情況。
本身是好客戶,判斷也為好客戶的人群數(shù)量,英文標記為TP:True Positive
本身是壞客戶,判斷也為壞客戶的人群數(shù)量,英文標記為TN:True Negative
本身是好客戶,卻判斷為壞客戶的人群數(shù)量,即誤殺掉的,英文標記為FN:False Negative
本來是壞客戶,卻判斷成好客戶的人群數(shù)量,即漏網之魚,英文標記為FP: False Positive
舉個例子,有1000個貸款申請人,我們的風控人員人工將其中400個人判斷成好人,600個人判斷成壞人,即通過率是40%。結果發(fā)現(xiàn),這400個人中,有300個還款了,100個成壞帳了,即TP=300,F(xiàn)P=100;而其實那600個人中,有200個是能還款的(假定我們是知道的),而400個人是真的還不了錢的,那么TN=400,F(xiàn)N=200。
為了更好地將TP,F(xiàn)P,TN,F(xiàn)N組織起來,我們把它們放成一個矩陣的形式(插入矩陣表達),叫做混淆矩陣,看,多么簡單。我們肯定希望,TP和TN越大越好,F(xiàn)P和FN越小越好。
我們現(xiàn)在把判斷的方法從風控人員人工判斷,轉成用邏輯回歸來判斷,這個衡量的方法是不變的。也就是說"有1000個貸款申請人,我們的邏輯回歸風控模型將其中400個人判斷成好人,600個人判斷成壞人,即通過率是40%。結果發(fā)現(xiàn),這400個人中,有300個還款了,100個成呆帳了,即TP=300,F(xiàn)P=100;而其實那600個人中,有200個是能還款的(假定我們是知道的),而400個人是真的還不了錢的,那么TN=400,F(xiàn)N=200。",
看,評判的標準來講,與模型是無關的。
上例中,真實的好人數(shù)=TP+FN=300+200=500(即正確判斷出的好人+誤殺的),真實的壞人數(shù)=TN+FP=400+100=500(即正確判斷出的壞人+漏網的壞人)。如果用邏輯回歸,發(fā)現(xiàn),TP=350(350個好人正確判斷出來了),F(xiàn)P=50(50個漏網之魚),那么FP=50(誤殺的人150個),TN=450(450個壞人判斷出來了)。那么該模型將比我們人工判斷出來的效果要好。
好學的朋友一定又有疑問了,那600個人已經被拒掉了,我怎么知道其中有多少個好人被誤殺呢?非常好的問題,我們不知道。
所以我需要在一個已知結果的人群當中來檢驗我們的模型,我們清楚每一個人是好人還是壞人,然后把這個結果先隱藏起來,我們讓模型去做決策,看決策出來的結果(有的時候也被稱為預測結果)與真實結果的對比,這些度量就出來了。
那這個已知結果的人群是從哪里來的?是從我們真實的業(yè)務中來的,也就是經常說的,要有積累的業(yè)務數(shù)據(也叫樣本數(shù)據,每一筆借款記錄當成一個樣本),到了一定的量,來做模型出來。這個時候,我們往往把這些樣本數(shù)據分成兩部分,一部分樣本用來訓練(推算)模型出來,然后用另外一部分來測試,得出最終的結果出來。
如果思考的更深一點,我們發(fā)現(xiàn),這些樣本,其實我們是丟掉了那些被拒掉的案例,只留下了放貸的(因為這樣的才知道最終結果)。也就是說,其實我們是利用那些真實放款人的數(shù)據來訓練模型的,那些我們通過人的經驗被拒掉的,是難以體現(xiàn)在我們的模型中的(因為模型是基于成功放款的樣本來訓練的)。而我們可能拿這個模型來決定一個人的貸款申請(人的經驗來篩選這個環(huán)節(jié)沒有了),這里面的偏差的問題如何解決?這個問題就是我們在馬姆杜·雷法特所著《信用風險評分卡研究》一書中看到的拒絕演繹問題。這個問題比較復雜和充滿爭議,后面我們專門的章節(jié)介紹。
以上的介紹都很簡單,下面我們來點更深度的。
有一個模型A,它預測出的一個貸款人是好是壞,其實不是一個絕對值,而是一個概率。即,模型預測張三80%的可能性是好人。對于好人這個群體,我們可以數(shù)一數(shù),不同概率區(qū)間段上(比如,(80%~85%]就是一個區(qū)間段,表示概率大于80%且小于等于85%),好人的個數(shù)。我們就會得到一個<區(qū)間段,個數(shù)>的對應關系。比如<(80%~85%],100>表示,有100個好人的概率落在了(80%~85%]區(qū)間上。我們把不同區(qū)間段的對應關系表達在一張圖上,這個關系一般符合圖1的樣子(學術上叫做分布)。這些柱狀圖可以簡化為一條曲線來表達這個趨勢。
我們需要設定一個閾值,比如說大于70%好人概率的都認為是好人,那么張三(80%>70%)就被預測為好人;如果說這個標準提高到了90%,那張三就被預測為壞人了。
比如,在圖2中,我們以虛線表示的刻度作為評判好人的標準,則灰色部分(虛線左邊)為FN(本身是好人,誤殺為壞人),斜線部分(虛線右邊)為TP(本身是好人,判斷也是好人)。
同樣的,我們也可以針對壞人群體做出類似的曲線出來,如圖3所示,不同的是,斜線部分(虛線左邊)為TN(本身是壞人,判斷為壞人),灰色部分(虛線右邊)為FP(本身是壞人,誤判為好人)。
我們就很容易理解,這個標準的選擇決定了我們對放款控制的力度。如果虛線越往右,風險控制越嚴苛,F(xiàn)P(漏網之魚)就越小,但TP(正確放貸的量)也越小,被誤殺就越多。反過來,如果虛線越往左,風險控制越松,TP(正確放貸的量)越多,但FP(漏網之魚)也越多,正確找出來的壞人就越少。這是符合我們正常的理解的 。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 閉著眼睛寫代碼是一種什么樣的體驗?
- 2024世界顯示產業(yè)大會啟幕,4K花園自研“滿天星”獲十大創(chuàng)新應用
- 哈佛商學院:2024年全球96%代碼庫包含開源組件 Rust采用率增長500%
- 硅谷1/10程序員在摸魚?基本不干活卻能拿20-30萬美元年薪
- 傳馬斯克的"友商"擔心被報復 紛紛示好特朗普
- 數(shù)智龍江向新而行:5G-A與AI等數(shù)智技術助力龍江打造新質生產力
- 加州對特斯拉和SpaceX說不,公報私仇觸怒馬斯克
- 華為Mate品牌盛典盛大舉行,Mate 70等十余款全場景新品重磅亮相
- 支付寶新升級,手機碰一下就能點餐!全國10萬家餐廳可用
- 華為徐直軍談鴻蒙:10萬個應用是鴻蒙生態(tài)成熟的標志
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。