海外风控中这类征信数据与模型实践,实操落地效果最有效

2023-11-12

今天的文章我们跟大家详细介绍,海外现金贷征信数据的特征介绍与建模实践。
希望今天的内容可以帮助各位童鞋了解海外现金贷的数据维度及其特征体系,并重点熟悉特征衍生的加工方法,在实际任务场景中加以实践应用。
首先,我们需要明确征信数据与短信、APP等其他维度数据相比,在数据获取与数据应用上的主要差异:
(1)海外的征信数据类似于我们国内的人行征信,业务方要具备相关但也不难拿到的资质,且数据的调用流转需支付一定的费用,这和短信、APP等维度数据通过爬虫方式免费获取有些渠道本质上的不同。
(2)征信数据的信息价值度明显更高,本身征信数据直接体现着用户的借贷历史与信用状况,这对于信用现金贷业务来讲,从信息对称上是较完美匹配的,聚焦在具体的特征字段上,征信变量的区分度有绝对优势。
(3)征信特征的可扩展性相对有限,远没有短信、APP维度的特征工程那么丰富,在时间序列、统计描述、业务理解等维度上可大量衍生的新字段较少,但这并不影响征信特征信息的绝对价值。

1、征信特征维度
我们先来了解下海外征信数据的主要类型,这里将整个特征信息体系划为7个模块,分别为身份信息、账户信息、借款情况、还款情况、逾期情况、整体情况、查询信息,除了身份信息相关特征的价值表现一般外(产品申请渠道同样可以获取),借贷交易信息与账户查询信息的相关特征均有着非常高的应用价值。下面围绕征信数据各个维度的信息,我们来依次介绍下具体的特征字段样例。
(1)身份信息
用户的身份信息主要包括年龄、性别、婚姻、工作等基本要素,具体字段样例如图1所示,这些特征在实际风控的数据挖掘中很少采用,多数情况下是用于用户群体的特征画像。
在这里插入图片描述
图1 身份信息特征

(2)账户信息
账户信息主要包括信用卡数量、贷款数量、信用卡有效数量、信用卡关闭数量、有效账户结清占比、结清账户占比等维度特征,是账户基本信息的全貌概览,相关字段如图2所示。
在这里插入图片描述
图2 账户信息特征

(3)借款情况
借款情况可以直接量化用户的借贷历史信息,反映出用户的授信规模、授信频次、授信时间等,这对分析用户的授信资产分布及其风险状况,具有很好的风控参考意义。其中,不同时间窗口下的序列类特征(近30/60/90天等),为特征的进一步衍生加工也创造了条件,相关特征如图3所示。
在这里插入图片描述
图3 借款情况特征

(4)还款情况
还款行为是相对借款情况的后续表现,征信体现的还款金额、还款次数等信息,可以很直观描述出用户在一定时期内的还款详情。此维度下的特征同样包含时间序列类的字段,具体特征样例如图4所示。
在这里插入图片描述
图4 还款情况特征

(5)逾期情况
金融借贷的逾期信息是最能直接体现用户信用状况的数据,结合时间周期、逾期次数、逾期金额等维度,可以较大程度说明用户的信用风险,在策略挖掘、模型训练等场景中都发挥着不俗的表现,相关字段如图5所示。
在这里插入图片描述
图5 逾期情况特征

(6)整体情况
整体情况是指用户贷款不同类型的分布信息,也就是根据逾期天数定义的贷款五级分类,分别为正常、关注、次级、可疑、损失,具体特征从数量与占比进行展开,相关字段如图6所示。
在这里插入图片描述
图6 整体情况特征

(7)查询信息
征信查询信息在反映用户的风险状况方面,具有很直接的量化参考意义,征信查询的次数越多,在很大程度上可以体现用户有较大的贷款风险,查询类型也可以分为银行类、非信用卡类等情况。此外,结合常见的时间维度特征,可以更有效分析用户的风险信息,相关字段如图7所示。
在这里插入图片描述
图7 查询信息特征

2、特征加工衍生
虽然征信数据在特征衍生方面,没有APP、短信维度数据那般丰富,但结合常见的统计描述方法仍然可以构建出相当部分的新字段,同时也能够满足实际业务的所属意义。上图3、4、5、7展示的多维度时间窗口特征,都可以进一步衍生出符合实际业务理解的新特征。下面我们选取图4对应的还款信息字段,来介绍下特征衍生的实现过程,其他模块信息的特征构建都可以围绕同样的逻辑。
在具体特征构建的方向上,主要从同类占比、异类占比、连续比较共3个维度进行列举,具体样例依次如图8、9、10所示。
在这里插入图片描述
图8 同类占比类特征
在这里插入图片描述
图9异类占比类特征

在这里插入图片描述
图10连续比较类特征

3、实例数据分析
通过上文内容介绍,我们针对征信数据大体构建出一个特征变量池,包括基本字段与衍生字段。当然,针对特征衍生环节,以上描述过程仅以“还款情况”为例加工出部分常用统计类字段,在实际场景中可以从“借款情况”、“逾期情况”、“查询信息”等多个维度同步实现,从而扩展生成更大体量的有效特征池。
为了对这些特征的加工逻辑与分布性能有进一步的熟悉,接下来我们围绕具体的实例样本数据,通过python代码来详细分析。由于征信数据的底层字段较多,我们选取的实例数据包含部分信息维度,涉及账户信息、借款情况、还款情况、查询信息等,共有4000条样本与14个字段,部分数据样例如图11所示,对应的特征字典如图12所示。
在这里插入图片描述
图11 实例样本数据

在这里插入图片描述
图12 样本特征字典

根据以上特征字段,我们来衍生加工一部分占比类新特征,具体字段名称与实现过程分别如图13、图14所示。
在这里插入图片描述
图13 衍生特征样例

在这里插入图片描述
图14 特征加工过程

为了便于分析最终特征变量池的性能分布效果,我们采用信息值IV来评估各字段的区分度价值,具体字段名称与实现过程分别如图13、图14所示。

在这里插入图片描述
图13衍生特征样例

在这里插入图片描述
图14 特征加工过程

通过以上字段分析,能够得到各字段的IV指标分布,汇总结果具体如下图16所示。由图中信息可知,新衍生特征的IV值均明显高于业务常用判断阈值0.02,且个别字段性能表现较好,例如action_cnt_d30(0.538)、query_rate_d30_d90(0.209)等,说明新特征的有效性,在特征应用中都可以作为待选对象。
在这里插入图片描述
图16 特征信息值分布

此外,特征衍生过程是一种同类信息的转换,得到的新字段除了要分析信息区分度,还需要特别考虑特征之间的相关性。因此,我们可以采取常用的corr函数来进行度量,最终对比结果如图17所示。由于样本字段较多构成的二维交叉表较大,此处重点展示衍生特征的相关性系数分布。从图中信息可以看出,新衍生特征与原始特征,或者新特征与新特征,变量之间的相关性系数接绝大多数都保持在可用的范围内(系数<0.7以上),因此通过特征的相关性分析进一步验证了特征衍生的有效性。
在这里插入图片描述
图17 特征相关性分布

4、风控模型搭建
通过以上特征衍生加工、特征区分度分析、特征相关性分析等系列过程,我们得到了一个可应用的特征变量池(原始12个+衍生8个),接下来我们通过以上特征字段,来建立一个风控贷前风险评估模型。当然,模型变量的选择对象,可以根据特征的IV值或pearson系数来进行筛选,例如IV>0.05、pearson<0.6等条件,这里我们将所有变量纳入模型拟合范围。
由于样本数据的目标变量flag为二分类型(0好用户/1坏用户),因此需采用分类模型算法来实现,此处选择应用较广的决策树模型XGBoost来完成,模型训练与模型评估的具体过程如详见知识星球中代码详情。
通过以上模型训练过程,模型输出的性能评价指标KS=0.6131、AUC=0.8066,反映了模型的综合表现较好,也就是对好坏用户的区分能力较强,这样我们便实现了通过征信数据来建立风控模型的完整过程。
综合本文内容,我们围绕征信数据介绍特征体系的信息维度与字段样例,并重点描述特征衍生的分析逻辑与开发思路。同时,根据具体的实例样本数据来建立风控模型,将原始特征与衍生特征进行融合,共同完成模型的整个训练过程,得到一个效果较佳的风险评估模型。在实际业务场景中,我们可以按照本文特征衍生的思路,扩大模型可选的特征变量池,为提升模型效果提供更多的选择空间。
关于以上所提到征信数据的特征体系介绍与风控模型,教研组的童鞋已经同步相关的内容至知识星球后台,查看完整版本,欢迎星球同学移步到知识星球查收完整内容:
在这里插入图片描述

更多风控及相关知识可关注:
在这里插入图片描述

~原创文章

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

海外风控中这类征信数据与模型实践,实操落地效果最有效 的相关文章

  • synchronized、volatile底层原理详解

    文章目录 一 synchronized 1 监视器Monitor monitor结构及原理 监视器Monitor有两种同步方式 互斥与协作 2 Mutex lock mutex的工作方式 3 java对象头 java对象布局 4 无锁 偏向
  • PCL 安装

    1 安装pcl 1 1下载文件 地址链接 Release PCL 1 11 1 PointCloudLibrary pcl GitHub 下载的文件 PCL 1 11 1 AllInOne msvc2019 win64 exe pcl 1
  • 使用groupingcomparator求同一订单中最大金额的订单

    有如下订单数据 现在需要求出每一个订单中成交金额最大的一笔交易 订单id 商品id 成交金额 Order 0000001 Pdt 01 222 8 Order 0000001 Pdt 05 25 8 Order 0000002 Pdt 03
  • Linux内存精确统计工具

    1 ps mem介绍 ps mem是一个可以帮助我们精确获取 Linux 中各个程序核心内存使用情况的简单python脚本 它会分别计算一个程序私有内存总量和共享内存总量 并以更准确的方式给出了总的内存使用量 2 安装方式 包管理器 pip
  • qq 浏览器不支持java_各种浏览器开启JavaScript脚本方法

    随着网站设计技术的发展 为了用户友好体验 大部分网站使用了JavaScript脚本设计 如果您的浏览器禁用或关闭的JavaScript支持 那么可能造成网站体验差或网站部分功能无法使用 下面提供10种浏览器如何开启JavaScript的方法
  • 电商平台项目------首页

    目录 Mock swiper seiper的基本使用 swiper在vue中的问题 组件通讯的方式 props 父给子通讯 自定义事件 子给父通讯 父组件通过ref获取子组件数据 全局事件总线 bus 全能 作用域插槽 vuex paren
  • Perl中变量值交换

    示例 a 1 b 2 print a a b b a print a
  • empty ajax,php - Javascript Array empty not empty (Ajax) - Stack Overflow

    I m trying to retrieve the address that API google send me into an array The problem is that I just received an array em
  • Android12 HttpCanary系统证书安装 Magisk模块movecert

    手机 pixel 6 系统 Android 12 HttpCanary高级版 想要无限制使用高级功能的可以参照我的这篇文章实战 逆向最新黄鸟抓包软件 HttpCanary证书的安装 之前我一直使用的Android 8 证书可以直接通过Htt
  • Golang-如何判断一个 interface{} 的值是否为 nil ?

    引用 起初我会下意识的回答 直接 v nil 进行判断不就好了吗 然后翻阅了很多资料终于大致搞定里面的道道 例子 请看下面这段代码 可以先猜测一下输出的结果 package main import fmt func main var a s
  • python复数类型-Python 复数属性和方法操作实例

    复数是由一个实数和一个虚数组合构成 表示为 x yj 一个复数时一对有序浮点数 x y 其中 x 是实数部分 y 是虚数部分 Python 语言中有关复数的概念 1 虚数不能单独存在 它们总是和一个值为 0 0 的实数部分一起构成一个复数
  • datax->hdfsreader->orc文件读取出错ArrayIndexOutOfBoundsException: 6

    Exception in thread main java lang ArrayIndexOutOfBoundsException 6 at org apache orc OrcFile WriterVersion from OrcFile
  • bash: pip3: command not found

    问题描述 当使用命令pip3 install XXX 出现错误 bash pip3 command not found 错误原因 pip3还没有安装 解决方法 安装 pip3 sudo apt install python3 pip
  • 单片机设计_实时时钟电路(AT89C51、LCD1602、DS1302)

    单片机实时时钟电路 LCD1602 DS1302 想要更多项目私wo 一 简介 此电路主要有51单片机 LCD1602模块 DS1302芯片组成 通过LCD1062显示当前时间 二 运行效果 三 源文件 main c 想要更多项目私wo i
  • 3DMax渲染常见问题

    span style color rgb 153 0 0 font family none font size 24px background color rgb 255 255 255 前言 span 最近在学习3DMax渲染 刚好看网上
  • 【软件工程基础复习整理】第五章概要设计(4) 类设计原则

    单一职责原则 当需求变化时 类的职责就会因此变化 单一职责原则要求的是一个类应该仅有一个引起它变化的原因 如果一个类承担的职责过多 会导致设计脆弱 也即当设计因一个职责的变化二发生改变时会遭到意想不到的破坏 影响这个累执行其他职责的能力 开
  • 用excel AVERAGEIFS函数 计算各校各班学生成绩平均分,

    上节课给大家分享了求平均值函数AVERAGE的用法 这节课 继续给大家分享有条件的求平均值函数AVERAGEIF和AVERAGEIFS 大家看名称就知道 AVERAGEIFS肯定是多条件求平均值的函数 学习内容 1 有条件的求平均值AVER

随机推荐

  • CSS——CSS基础(一篇就够用)

    CSS CSS基础 一篇就够用 一 CSS概述 1 什么是css 2 作用 3 css和html属性的使用原则 二 CSS语法规范 1 css的使用方式 行内样式 内联样式 内部样式 外部样式 2 css的样式特性 继承性 堆叠性 优先级
  • 图的邻接矩阵存储

    public class Graph init public static int MAX GRAPH SIZE 256 最大顶点个数 public static int MAX WEIGHT 65536 图中最大权值 public int
  • 【githubshare】KCon 黑客大会演讲 macOS Big Sur 内核漏洞挖掘、云虚拟化安全、服务器硬件可信与安全实践

    GitHub 上一个开源资料库 KCon 黑客大会演讲 PPT 2021 年包含了 macOS Big Sur 内核漏洞挖掘 云虚拟化安全 服务器硬件可信与安全实践等内容 个开源资料库 KCon 黑客大会演讲 PPT 2021 年包含了 m
  • win10下电脑和开发板无法ping通解决

    首先确保电脑ip地址和开发板ip地址在同一网关下 如图我的电脑和开发板都在192 168 2 网关下 1 打开控制面板 2 选择查看方式为小目标 3 打开防火墙 选择高级设置 4 打开入站规则 选择文件和打印机共享 回显请求 ICMPv4
  • 汇客huikeCRM项目实战-熟能生巧

    任务目录 开胃菜一 统计分析 线索统计 线索转化率漏斗图 开胃菜二 首页 商机转化龙虎榜接口 开胃菜二 首页 线索转化龙虎榜接口 任务一 首页 待办数据统计接口 任务二 统计分析 客户统计 学科客户分布饼图 任务三 统计分析 线索统计 新增
  • elsearch 查询不设置size,默认只返回10条数据.....

    原文链接 http blog csdn net qq 18145031 article details 53489370 方法一 如果需要搜索分页 可以通过from size组合来进行 from表示从第几行开始 size表示查询多少条文档
  • MATLAB2022a/Simulink + STM32F407 Discovery Kit教程1

    0 前面的话 之前在B站上看到了STM32 MATLAB开发环境设置的视频 但是STM32MatTarget包已经被ST官方移除了 这种方法已经过时了 现在有新的方法来利用Matlab来开发STM32 这里来分享一下 主要是参考matlab
  • 什么是以太坊

    文章以及资料 开源 github地址 文章目录 定义 特点 第二层功能 以太币 智能合约 以太坊组件 p2p网络 共识规则 交易 状态机 数据结构 经济安全性 扩展阅读 定义 以太坊 英语 Ethereum 是一个开源的有智能合约功能的公共
  • 使用windows调用Linux远程桌面

    一 安装所需要的软件 yum install y xrdp yum install y vnc chkconfig xrdp on chkconfig vncserver on 二 修改配置 a添加用户 useradd herry b 设置
  • 前端Vue仿美团地址管理列表组件

    随着技术的发展 开发的复杂度也越来越高 传统开发方式将一个系统做成了整块应用 经常出现的情况就是一个小小的改动或者一个小功能的增加可能会引起整体逻辑的修改 造成牵一发而动全身 通过组件化开发 可以有效实现单独开发 单独维护 而且他们之间可以
  • Python画樱花树代码和小猪佩奇

    樱花树 效果图 import turtle as T import random import time 画樱花的躯干 60 t def Tree branch t time sleep 0 0005 if branch gt 3 if 8
  • C语言---合法标识符与整型

    目录 1 头文件 2 常量 变量 命名规范 合法的浮点数 小数与指数 char与八进制 3 sizeof 数据溢出 4 整型 5 面向过程 流程 入口 出口 注释 6 进制转换 首先我们来介绍一下 一开始学习c语言最先遇到的头文件是什么 头
  • [vue3 + element-plus] 表单中清除单个字段的校验效果

    清除全部校验效果 const resetForm formEl FormInstance undefined gt if formEl return formEl clearValidate 清除单个校验效果 const resetItem
  • html网页设计字体变色,网页制作怎么改变字体颜色

    大家好 我是时间财富网智能客服时间君 上述问题将由我为大家进行解答 网页制作改变字体颜色的方法是 1 首先打开hbuilder软件 新建一个html文件 里面写入3个p标签 再在style标签中设置p标签的基本样式 包括间距 字体大小等属性
  • redhat7 虚拟机 取消屏幕保护或自动休眠时间

    RedHat7系统每次不操作5 10分钟 就会自动锁屏 要重新出入密码 比较麻烦 取消屏保步骤 应用程序 系统工具 设置 power 空白屏幕选择 从不
  • linux下QTCreator无法出现代码提示框到问题解决

    问题 在QT 5中输入代码是不出现补全代码到提示框 例如输入 incl几个字母后提示框中出现 include补全提示 解决办法 在中文输入法下面的字母输入模式下输入代码时 qt无法实时识别字母 所以不出现补全提示框 将输入法切换到EN 英语
  • 无字母数字的命令执行(ctfshow web入门 55)

    这几天都没有怎么学习 基本上都是复习学科知识 因为我们要期末考试 刚刚好今天有时间来做了一道命令执行的题 再一次拜读了 p神的文章 受益匪浅 直接进入正题 源代码
  • java easypoi 多sheet导入与导出

    easypoi 多sheet导入与导出 文章目录 easypoi 多sheet导入与导出 一 easypoi 环境 二 多sheet导出 二 多sheet导入 一 easypoi 环境 1 pom依赖
  • Git下载安装及设置详细教程

    一 安装前准备 1 廖雪峰老师Git教程 推荐Git入门教程 2 按照自己的系统版本下载Git软件 我的操作系统 Windows7 64位 安装版本为Git 2 18 0 64 bit exe 截至2018 8 27最新版本 Git下载地址
  • 海外风控中这类征信数据与模型实践,实操落地效果最有效

    今天的文章我们跟大家详细介绍 海外现金贷征信数据的特征介绍与建模实践 希望今天的内容可以帮助各位童鞋了解海外现金贷的数据维度及其特征体系 并重点熟悉特征衍生的加工方法 在实际任务场景中加以实践应用 首先 我们需要明确征信数据与短信 APP等