风控分类模型种类(决策、排序)比较与模型评估体系(ROC/gini/KS/lift)

2023-11-12


本笔记源于CDA-DSC课程,由常国珍老师主讲。该训练营第一期为风控主题,培训内容十分紧凑,非常好,推荐:CDA数据科学家训练营





——————————————————————————————————————————


一、风控建模流程以及分类模型建设


1、建模流程


该图源自课程讲义。主要将建模过程分为了五类。数据准备、变量粗筛、变量清洗、变量细筛、建模与实施。




2、分类模型种类与区别


风控与其他领域一样,分类模型主要分为两大类:排序类、决策类、标注类(文本、自然语言处理)。


一般来说风控领域在意的是前两个模型种类,排序类以及决策类。


其中:巴塞尔协议定义了金融风险类型:市场风险、作业风险、信用风险。信用风险ABC模型有进件申请评分、行为评分、催收评分。



模型 解释 复杂度 应用场景
Logistics回归 影响程度大小与显著性,解释力度强,但只是线性,没有顾及到非线性,预测精度较低
申请评分、流失预测
决策树 1、描述性,重建用户场景,可做变量提取与用户画像 叶子的数量 流失模式识别
2、树的结构不稳定,可以得出变量重要性,可以作为变量筛选
随机森林 随机森林比决策树在变量筛选中,变量排序比较优秀

神经网络 1、不可解释,内部使用,预测精度较高。可以作为初始模型的金模型(用以评估在给定数据条件下,逻辑回归可达到的最精确程度)
2、线性(逻辑回归)+非线性关系,可用于行为评分的预测模型(行为评分对模型可解释性不强),可用于申请评分的金模型
3、使用场景:先做一个神经网络,让预测精度(AUC)达到最大时,再用逻辑回归
迭代次数 申请评分的金模型;
行为评分的预测模型


(1)信用风险——申请信用评分


申请评分可以将神经网络+逻辑回归联合使用。

《公平信用报告法》制约,强调评分卡的可解释性。所以初始评分(申请评分)一般用回归,回归是解释力度最大的。

神经网络可用于银行行为评级以及不受该法制约监管的业务(P2P)。其次,神经也可以作为申请信用评分的金模型。


金模型的使用:一般会先做一个神经网络,让预测精度(AUC)达到最大时,再用逻辑回归。

建模大致流程:

一批训练集+测试集+一批字段——神经网络建模看AUC——如果额定的AUC在85%,没超过则返回重新筛选训练、测试集以及字段;

超过则,可以后续做逻辑回归。


(2)信用风险——行为评分


行为评分建模:行为信用评级不需要解释性,所以可以用非线性的神经网络。


——————————————————————————————————————————


二、分类模型评估体系


上述将分类模型做了归纳,不同的分类模型所采用的评估体系不同。


决策类:准确率/误分率、利润/成本

排序类:ROC指标(一致性)、Gini指数、KS统计量、提升度


1、决策类评估——混淆矩阵指标


混淆矩阵,如图:其中这些指标名称在不同行业有不同的名称解释



正确率=(A+D)/(A+B+C+D)

灵敏度(覆盖率、召回率)=A/(A+B)

命中率(PV+)=A/(A+C)

特异度(负灵敏度、负覆盖率)=D/(C+D)

负命中率(PV-)=D/(D+B)



在以上几个指标中不同行业看中不同的指标:


(1)灵敏度/召回率/覆盖率(——相对于命中率)


譬如灵敏度(召回率)这一指标就比正确率要重要,覆盖率(Recall)这个词比较直观,在数据挖掘领域常用。因为感兴趣的是正例(positive),比如在信用卡欺诈建模中,我们感兴趣的是有高欺诈倾向的客户,那么我们最高兴看到的就是,用模型正确预测出来的欺诈客户(True Positive)cover到了大多数的实际上的欺诈客户,覆盖率,自然就是一个非常重要的指标。


(2)命中率(——相对于覆盖率)


欺诈分析中,命中率(不低于20%),看模型预测识别的能力。

在数据库营销里,你预测到b+d个客户是正例,就给他们邮寄传单发邮件,但只有其中d个会给你反馈(这d个客户才是真正会响应的正例),这样,命中率就是一个非常有价值的指标。 以后提到这个概念,就表示为PV+(命中率,Positive Predicted Value)*。




2、排序类指标评估


ROC指标(一致性)、Gini指数(洛伦兹曲线)、KS统计量、提升度四类指标。



(1)ROC曲线


对角线模型,最差,风控喜欢的指标。由决策类指标的灵敏度(召回率/覆盖率)与特异度(负灵敏度、负召回率)来构造。

求覆盖率等指标,需要指定一个阈值(threshold)。随着阈值的减小,灵敏度和1-特异度也相应增加(也即特异度相应减少)。

基于不同的阈值而产生的一系列灵敏度和特异度描绘到直角坐标上,就能更清楚地看到它们的对应关系。把sensitivity和1-Specificity描绘到同一个图中,它们的对应关系,就是传说中的ROC曲线,全称是receiver operating characteristic curve,中文叫“接受者操作特性曲线”。


AUC值,为了更好的衡量ROC所表达结果的好坏,Area Under Curve(AUC)被提了出来,简单来说就是曲线右下角部分占正方形格子的面积比例。该比例代表着分类器预测精度。R语言︱ROC曲线——分类器的性能表现评价


(2)累积提升曲线


营销最好的图,很简单。它衡量的是,与不利用模型相比,模型的预测能力“变好”了多少(分类模型评估——混淆矩阵、ROC、Lift等)。

将概率从大到小铺开x,提升度可以有一些“忽悠”的成本,哈哈~可以微调,可以自己调节提升度的区间


(3)K-S曲线


风控喜欢的指标。K-S曲线的最大值代表K-S统计量。



(4)洛伦兹曲线gini


风控喜欢的指标,TP率给了一个累积比,跟提升度差不多。


——————————————————————————————————————————


三、信用风险模型检测


监测可以分为前端、后端监控。


前端监控,授信之前,别的客户来了,这个模型能不能用?

后端监控,建模授信之后,打了分数,看看一年之后,分数是否发生了改变。


1、前端监控


长期使用的模型,其中的变量一定不能波动性较大。比如,收入这个指标,虽然很重要,但是波动性很大,不适合用在长期建模过程中。

如果硬要把收入放到模型之中,要放入收入的百分位制(排名)。




2、后端监控


主要监控模型的正确性以及变量选择的有效性。出现了不平滑的问题,需要重新考虑












http://blog.csdn.net/sinat_26917383/article/details/51725102






本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

风控分类模型种类(决策、排序)比较与模型评估体系(ROC/gini/KS/lift) 的相关文章

  • 华为od机考题目-敏感字段加密

    字符串长度小于等于127字符 只包含大小写字母数字下划线和偶数个双引号 命令字之间以一个或者多个下划线进行分隔 可以通过两个双引号来标识包含下划线d 的命令字或者空命令字 while 1 try k int input nums input
  • opencv (三十八)图像形态学—膨胀

    小白学视觉 笔记 扩展 include
  • 解决 Mac 左滑浏览器默认的返回事件

    阻止 document body style overscrollBehaviorX none 恢复 document body style overscrollBehaviorX auto 参考 https juejin cn post
  • 【MyCat简单介绍】

    1 MyCat简介 MyCat是MySQL分库分表的利器 MyCat的核心功能是分库分表 其配置数据库的主从模式还可实现读写分离 MyCat 是什么 MyCat是目前最流行的基于java语言编写的数据库中间件 是一个实现了MySQL协议的服

随机推荐

  • 图漾相机—windows- Python SDK(官网下载编译)

    文章目录 一 安装依赖 二 下载swig和SDK swig下载连接 https www swig org https www swig org 下载python SDK 下载 Windows Camport3 SDK 三 配置python和
  • 安卓 Android 11、12 不使用第三方 Recovery TWRP 刷入 Magisk v22+ 支持联发科

    测试机型 小米 10 至尊纪念版 Mi 10 Ultra 今天把 MIUI 版本更新到了 12 1 1 发现安卓版本升到了 11 接下来我就正常想刷 wzsx150 大佬的 TWRP 发现刷上去挂载不了 data 不支持安卓 11 网上搜索
  • uni-app 中使用uview生成测试小程序后报错:pleaseSetTranspileDependencies is not defined

    这是一篇踩坑文 记录一个uni app中的坑点 在uni app 中使用uview后在生成小程序后第一次编译时控制台报了这么一个错 在检查了许久的原因后最后找到的解决办法是 在文件 common vendor js 中搜索并删除下面这句话
  • 雷电模拟器中无法登录微信且抖音等视频类应用无法观看视频

    IP受限制解除 https jingyan baidu com article b2c186c83bb443c46ff6ff64 html 转载于 https www cnblogs com ysgcs p 9801374 html
  • docker容器开启mysql的binlog

    在宿主机的conf d里面创建my cnf 添加以下内容 mysqld binlog格式 binlog format mixed 存放地址 注意这个地址是docker容器里面的地址 不是宿主机里面的地址 log bin var lib my
  • vue项目CDN引入

    注 一些对系统并不是至关重要的文件诸如字体文件 css重置 js小插件 背景图片等可能适合使用CDN 因为即使CDN文件不可用 网站也能做到平稳退化 第一步 public index html 里 注 需引入vue并且main js中正常引
  • 联想ThinkStation C30工作站修复记录

    我使用联想ThinkStation C30开发算法 采用windows 64bit系统 前段时间 办公楼断电 导致ThinkStation C30工作站无法正常启动windows系统 一直黑屏 显示如下错误 有时闪烁显示下三角号 Intel
  • Vue中不同组件通信的方式

    props父组件向子组件传递 emit 子组件向父组件传递 root parent 都能够实现访问父组件的属性的方法 两者的区别在于 如果存在多级子组件 通过 parent访问得到的是它最近一级的父组件 通过root访问得到的是根组件 ro
  • Python实验内容(二)

    Python实验内容 实验6 8 实验6 1 有30名同学的成绩存储在列表list1中 67 82 87 80 78 59 46 70 60 66 71 55 42 72 63 65 68 80 67 73 60 89 74 82 74 6
  • 相机曝光与增益

    曝光 和 增益 是直接控制传感器 CCD CMOS 上读出来的数据 是要优先调节的 以调节曝光时间为主 不过曝的前提下 增加曝光时间可以增加信噪比 使图像清晰 软件上有个选项可以把过曝的区域显示出来 当然 对于很弱的信号 曝光也不能无限增加
  • word如何只设置一张为横向,怎样把word文档里单独的一页变成横向

    以word2007为例 将文档里的某一页2113设置成横向页 1 打开5261word文档 选中某一页种4102的所有文字 单击1653 页面布局 菜单 单击 页面设置 工具栏组右下角的扩展按钮 在弹出的 页面设置 对话框中的 页边距 选项
  • 自定义异常,抛出异常

    异常 在程序运行过程中 出现的不正常情况叫做异常 注意 1 相同的代码在运行的时候 根据输入的参数或者操作的不同 有可能会发生异常 有可能不会发生异常 应该在写代码的过程中尽可能的保证代码的正确性 不要到处都是bug 2 如果要解决代码中出
  • mac vscode 跳转函数_VSCode快捷键大全(Mac)

    记录一下总是忘记 通用 P F1 显示控制台 P 快速打开 快速查找并进入文件 N 新建窗口 不是文件 W 关闭窗口 基本编辑 X 删除整行 不需要选中 C 复制整行 不需要选中 上下移动整行 复制整行 并粘贴到此行的上面 下面 K 删除行
  • get和post区别

    get和post区别 get参数通过url传递 post放在request body中 get请求在url中传递的参数是有长度限制的 而post没有 get比post更不安全 因为参数直接暴露在url中 所以不能用来传递敏感信息 get请求
  • VWWare(虚拟机)下安装 Windows Server 2012 r2 (详细图文)

    VWWare 虚拟机 下安装 Windows Server 2012 r2 详细图文 第一 软件准备 WMware Workstation Pro 14 虚拟机 Windows Server 2012 r2 windwos镜像 第二 安装
  • 基于C#窗体的学生成绩/信息管理系统

    一 概述 前段时间发布了一个网页版的基于C 的学生信息管理系统 有很多同学都跑来问我有没有窗体版本的 所以为了满足大家的要求 在近段时间就写了一个窗体版的学生成绩 信息管理系统 学生成绩 信息管理是一个必不可少的重要环节 开发系统的意义在于
  • java的基础特性

    Java基础特性 与cmd的交互 1 1 什么是cmd 就是在windows操作系统中 利用命令行的方式去操作计算机 我们可以利用cmd命令去操作计算机 比如 打开文件 打开文件夹 创建文件夹等 1 2 如何打开CMD窗口 按下快捷键 wi
  • writeAsBytes writeAsString

    import dart io import dart convert main async File a File C aria2 1 txt var c read a print c var d utf8 decode c print d
  • 编辑距离算法(Minimum Edit Distance,MED)

    算法简介 编辑距离 又称Levenshtein距离 莱文斯坦距离也叫做Edit Distance 是指两个字串之间 由一个转成另一个所需的最少编辑操作次数 如果它们的距离越大 说明它们越是不同 许可的编辑操作包括将一个字符替换成另一个字符
  • 风控分类模型种类(决策、排序)比较与模型评估体系(ROC/gini/KS/lift)

    本笔记源于CDA DSC课程 由常国珍老师主讲 该训练营第一期为风控主题 培训内容十分紧凑 非常好 推荐 CDA数据科学家训练营 一 风控建模流程以及分类模型建设 1 建模流程 该图源自课程讲义 主要将建模过程分为了五类 数据准备 变量粗筛