欢迎光临散文网 会员登陆 & 注册

信用评分卡

2022-03-08 11:40 作者:python风控模型  | 我要投稿

 

在公众号「python风控模型」里回复关键字:学习资料 

QQ学习群:1026993837 领学习资料   

金融行业中信用评分卡的应用还是比较普遍的,今天这里把信用评分卡制作的原理整理一下,在制作评分卡过程中,主要应用到的公式有WOE(Weight Of Evidence),IV(Information Value),score。整理好原理之后,有时间的话会将一套数据集和用Python处理的代码放在这里。现在手里有R的代码但是是别人的代码,我就不共享了。还是等我写好Python的代码后再附上链接吧。

信用评分卡模型,是多个离散变量每个变量对应一个分值,根据各项综合也就是总评分来评估个人情况的一种模式。

上图是我随手百度的一个信用评分卡,也就是说大分类会有几个,每个大分类下面有几个小分类,每个小分类对应着得分。也就是说不管原先是连续变量还是离散变量,最终模式都要通过分箱或重分箱转化成离散型。说到分箱,这里简单提一下,可以通过等宽等比自定义有监督等方法分箱,理论来看的话可能是有监督效果更好一点,比如利用CART决策树,各个类别即两节点边缘。而WOE得概念应用在这里可以恰到好处的使用,WOE是一种将分类变量连续化的一种方法,它通过某种方式将变量之间定义出一定的“距离”,生成WOE后按照正常方式建模建立logistic回归等。

对于分类变量我们通常采取转换成哑变量的方法进行数据处理,如定类变量和无法确定距离的定序变量。而对于有监督的二分类我们可以将定序变量通过WOE转换成连续型。

如上图这里举了个小例子,

py1为该分类下y=1占全部y=1数据的比例。这里同贝叶斯中的前验和决策树中求Entropy的占比是一样的。WOE反映了该变量中y=1对y=0的贡献比重(有些WOE会乘100)。从中既可以看出违约比例情况,也能看到不同分箱的重要性。接下来说一下上图中的IV,IV是用来筛变量的, 信息值(information value)来表现变量的重要性。

,大于0.5概率很小,小于0.02说明基本没有帮助,0.1~0.3有较大帮助。之后我们利用logit回归即可。

logistic回归过后我们得到的

,回归得到的


是各个指标的权重,也就是各个指标得分的前身。我们将总得分score = offset + factor * lnodds.还有一个指标pdo(points double the odds),就是说score + pdo = offset + factor* ln(2odds),odds翻二倍则分数增加pdo。注意一下,一般odds代表优比差,而我们在处理违约情况时往往取的是-lnodds而不是lnodds,由于通常情况下我们将y1设定为违约,比如我们希望

[公式]

为1:50而不是50:1.在所有公式中我们给定pdo,odds和score.先说pdo,上面两式做差后pdo = factor *ln2,pdo是给定项则可求factor。那么还剩下offset一个未知项,给定score和odds后(score设定为总分数最高分,odds设定为理想中设定的好坏客户的比例),求出offset。但是给定后不一定恰到好处,给定值需要根据需求不断调整,直到符合需求情况。那么接下来我们需要将总分数分配,代入lnodds后有score = offset + factor*(

[公式]

),这里的每一个x实际上都是我们求出的WOE或者定类变量的某一项,所以各自对应的分数

,于是得到了一张完整的信用评分卡。

自习想想信用评分卡模型其实还有有很多拓展空间的,比如按背景成绩等分班,分级等等,当然WOE是应用于二分类的因为无法用一个数来表现大于两个概率值的比重。评分卡模型相对不是太难,易于理解。有时间的话,敲出代码在放上来吧。

转载:https://zhuanlan.zhihu.com/p/35606238

欢迎各位同学了解《python金融风控评分卡模型和数据分析(加强版)》学习更多相关知识

入口1:https://ke.qq.com/course/package/43071

入口2:https://study.163.com/series/1202915601.htm?share=2&shareId=400000000398149 


信用评分卡的评论 (共 条)

分享到微博请遵守国家法律