文章插图
文章插图
就是选择X
可能模型的入参有很多X,那么如何选择这些X?
WOE weight of evidence 证据权重 。
这里就顺道说下odds ratio (OR值)的概念:odds 优势比 。
比如下雨的概率为0.25,不下雨的概率为0.75 。0.25与0.75的比值可以约分为1比3 。因此,我们可以说今天将会下雨的优势比为1:3(或者今天不会下雨的概率比为3:1)
若是风控模型,病例组就是正样本,对照组就是好样本 。
WOE=ln(BI/BT / GI/GT)*100%=ln(p1/p0)= ln(BI/GI / BT/GT)=ln(oddsi / oddsT)
【变量选择方法有哪些 变量选择方法的基本思想】p1和p0分别表示了违约样本与正常样本占各自总体的比例;
可以认为WOE衡量了自变量取Ai时的违约险算比(oddsratio)与总体违约险算比之间的某种差异 。正因为如此,直观地可以认为WOE蕴含了自变量取值对目标变量(违约概率)的某种影响,因此可以自然地将自变量重新编码:当自变量取值Ai时,编码为相应的WOEi 。
IV information value 信息值 。
IV=sum((p1-p0)*log(p1/p0))。
IV值可以用于衡量各变量对y的预测能力,用于筛选变量 。
对离散型的变量,如 一线城市、二线城市;博士、硕士等学历变量 。woe可以观察各个level间的跳转对odds的提升是否是线性的 。而IV值可以衡量变量整体的预测能力 。
对连续变量而言,可以通过将连续变量进行分箱的合理,可能是等距分箱,可能是等频分箱,一般选后者 。此时WOE和IV拥有和 离散型变量同样的意义 。
- java配置环境变量步骤视频教程 java怎样配置环境变量
- sql2000安装教程在win7上的安装方法 windows7安装sql2000
- mongodb使用方法 mongodb权威指南
- js的replace方法 replace的用法
- 四个方法让女性走出失恋的阴影 怎么让女朋友走出前任阴影
- 搭建邮件服务器的方法有哪几种 搭建自己的邮件服务器
- 软件证书过期如何解决方法 电脑软件证书过期
- 华为路由器恢复出厂设置的命令 华为路由器怎样恢复出厂设置方法
- 猪油保存方法是什么?
- 能让老板高薪挖墙脚的总监 挖墙脚的准确方法