使用随机森林算法编写评分卡模型

2023-10-27

数据来源于信贷用户，数据量级为2W
在这里插入图片描述

首先读取数据

# 忽略警告
import warnings
warnings.filterwarnings('ignore')
# 导入常用库pandas/Numpy/matplotlib
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# jupyter图形界面显示图片
%matplotlib inline
# jupyter显示所有特征
pd.set_option('display.max_columns',None)
# 显示全部输出
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
# 导入sklearn常用库
from sklearn.ensemble import RandomForestClassifier
from sklearn import cross_validation,metrics
# 设置本ipynb的工作目录
import os
os.chdir(r'E:\model\7379')
#显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)
#设置value的显示长度为100，默认为50
pd.set_option('max_colwidth',100)

导入数据

# 导入bill信息
data_bill = pd.read_excel('data_20191008.xlsx',sheet_name='bill')
# 定义年龄计算函数
from datetime import date
def calculate_age(born):
    today = date.today()
    return today.year - born.year - ((today.month, today.day) < (born.month, born.day))

就不一一导入数据了

# 连表
data_bill = pd.merge(left=data_bill,right=data_bxinyan,how='left',on='userid') #连1
data_bill = pd.merge(left=data_bill,right=data_btongdun,on='userid') # 连2
data_bill = pd.merge(left=data_bill,right=data_btc5,how='left',on='userid') # 连3
raw_data = pd.merge(left=data_bill,right=data_btc15,how='left',on='userid') # 连4

数据探索

raw_data.set_index('userid',drop=True,append=False,inplace=True,verify_integrity=False)

在这里插入图片描述
1、查看数据大致分布

2、查看缺失值

# 删除缺失超过70%的特征
raw_data.drop(['overdue_date','max_overdue_amt','result_code'],axis=1,inplace=True)

定义一个输出行确实个数和缺失率的函数

def miss_row(data):
    """
    input：原始数据
    output：行的缺失个数和缺失率
    """
    row, col = data.shape
    row_miss = []
    row_total = []
    for i in range(row):
        w = data.iloc[i,:].isnull().sum() #第i行缺失的总数
        row_total.append(w)
        row_miss.append(w.sum()/col)
    row_miss = pd.Series(row_miss)
    row_total = pd.Series(row_total)
    row_miss.index = data.index #要保证row_miss和data的index相同
    row_percent = row_miss.sort_values(axis = 0,ascending = False)#对其进行排序
    row_total = row_total.sort_values(axis = 0,ascending = False)
    return row_total, row_percent

raw_data.dropna(thresh = len(raw_data.columns) * 0.8,axis=0,inplace=True) #删除缺失值大于80%的行数据

# 缺失值查看代码
import seaborn as sns # advanced vizs
import missingno as msno # missing values
%matplotlib inline
# missing values?
sns.set(style = "ticks")
msno.matrix(raw_data)

在这里插入图片描述

X = raw_data.iloc[:,1:]
y = raw_data['overdue']
# kde画密度图
plt.rcParams['axes.unicode_minus'] = False
plt.rcParams['font.sans-serif'] = ['Simhei']
plt.style.use('seaborn')
# 查看每个数值特征的分布，
X.hist(bins=100,figsize=(20,16))
plt.show(

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

使用随机森林算法编写评分卡模型的相关文章

目前最火的大模型训练框架 DeepSpeed 详解来了

目前大模型的发展已经非常火热关于大模型的训练微调也是各个公司重点关注方向但是大模型训练的痛点是模型参数过大动辄上百亿如果单靠单个GPU来完成训练基本不可能所以需要多卡或者分布式训练来完成这项工作一分布式训练 1 1 目前主
10个 Python 脚本来自动化你的日常任务

在这个自动化时代我们有很多重复无聊的工作要做想想这些你不再需要一次又一次地做的无聊的事情让它自动化让你的生活更轻松那么在本文中我将向您介绍 10 个 Python 自动化脚本以使你的工作更加自动化生活更加轻松因此没有更多
机器学习高维数据可视化：t-SNE 降维算法

作者简介人工智能专业本科在读喜欢计算机与编程写博客记录自己的学习历程个人主页小嗷犬的个人主页个人网站小嗷犬的技术小站个人信条为天地立心为生民立命为往圣继绝学为万世开太平本文目录 t SNE 简介 sklearn 中
人工智能深度学习：探索智能的深邃奥秘

导言人工智能深度学习作为当今科技领域的明星正引领着智能时代的浪潮深度学习和机器学习作为人工智能领域的两大支柱它们之间的关系既有协同合作又存在着显著的区别本文将深入研究深度学习在人工智能领域的角色以及其在各行各业中的深远影响研
人工智能智能控制系统：引领未来智能化时代

导言人工智能智能控制系统是当今科技领域的热点之一它不仅在工业生产中发挥着关键作用也在生活中展现出前所未有的智能化特征本文将深入探讨人工智能智能控制系统的定义应用领域和未来发展趋势深入探讨如何实现智能控制系统与人工智能的有机结合
Python-一键爬取图片、音频、视频资源

前言使用Python爬取任意网页的资源文件比如图片音频视频一般常用的做法就是把网页的HTML请求下来通过XPath或者正则来获取自己想要的资源这里我做了一个爬虫工具软件可以一键爬取资源媒体文件但是需要说明的是这里爬取资源
天猫双十实战

import numpy as np import matplotlib pyplot as plt from sklearn linear model import SGDRegressor from sklearn preprocess
基于BP神经网络结合自适应带宽核函数密度估计区间预测。BP-ABKDE区间概率预测，BP神经网络核密度估计下置信区间预测。区间预测(区间覆盖率PICP、区间平均宽度百分比PINAW，CRPS,CW

清空环境变量 warning off 关闭报警信息 close all 关闭开启的图窗 clear 清空变量 clc 清空命令行 res xlsread 数据集 xlsx num size 0 8 训练集占数据集比例 dataran 0 不
天猫双十实战

import numpy as np import matplotlib pyplot as plt from sklearn linear model import SGDRegressor from sklearn preprocess
基于生成式对抗网络的视频生成技术

随着人工智能的快速发展生成式对抗网络 GAN 作为一种强大的生成模型已经在多个领域展现出了惊人的能力其中基于GAN的视频生成技术更是引起了广泛的关注本文将介绍基于生成式对抗网络的视频生成技术的原理和应用探索其对电影游戏等领域带
基于BP神经网络结合自适应带宽核函数密度估计区间预测。BP-ABKDE区间概率预测，BP神经网络核密度估计下置信区间预测。区间预测(区间覆盖率PICP、区间平均宽度百分比PINAW，CRPS,CW

清空环境变量 warning off 关闭报警信息 close all 关闭开启的图窗 clear 清空变量 clc 清空命令行 res xlsread 数据集 xlsx num size 0 8 训练集占数据集比例 dataran 0 不
基于ResNet模型微调的自定义图像数据分类

Import necessary packages import torch import torch nn as nn from torchvision import datasets models transforms from tor
互操作性(Interoperability)如何影响着机器学习的发展？

互操作性 Interoperability 也称为互用性即两个系统之间有效沟通的能力是机器学习未来发展中的关键因素对于银行业医疗和其他生活服务行业我们期望那些用于信息交换的平台可以在我们需要时无缝沟通我们每个人都有成千上万个数据
详解数据科学自动化与机器学习自动化

过去十年里人工智能 AI 构建自动化发展迅速并取得了多项成就在关于AI未来的讨论中您可能会经常听到人们交替使用数据科学自动化与机器学习自动化这两个术语事实上这些术语有着不同的定义如今的自动化机器学习即 AutoML 特指模型构
Python机器学习实战：用Python构建10个有趣的应用

机器学习是一门强大的工具可以用于解决各种各样的问题通过学习机器学习您可以开发出能够自动化任务做出预测甚至创造艺术的应用程序如果您是一名 Python 开发人员那么您将很高兴知道有许多可以用 Python 构建的有趣机器学习应用
时间序列平稳性相关检验方法

理解平稳性一般来说平稳时间序列是指随着时间的推移具有相当稳定的统计特性的时间序列特别是在均值和方差方面平稳性可能是一个比较模糊的概念将序列排除为不平稳可能比说序列是平稳的更容易通常不平稳序列有几个特征平均值随时间推移发生变化
山西电力市场日前价格预测【2024-01-09】

日前价格预测预测说明如上图所示预测明日 2024 01 09 山西电力市场全天平均日前电价为314 92元 MWh 其中最高日前电价为593 66元 MWh 预计出现在18 15 最低日前电价为54 95元 MWh 预计出现在13
MIT_线性代数笔记：复习二

目录第二单元主要内容例题第二单元主要内容正交矩阵 Q 用矩阵形式描述正交性质投影矩阵 P 最小二乘法在方程无解时求最优解 Gram Schmidt 正交化从任意一组基得到标准正交基策略是从向量中减去投影到其它向量方向的分
【需求响应】改进连续时间控制方法用于分散式需求响应的恒温负荷研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Python代码及文章
开始弃用NeRF？为什么Gaussian Splatting在自动驾驶场景如此受欢迎？（浙江大学最新）...

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取今天自动驾驶之心为大家分享浙大刚刚出炉的3D Gaussian Splatting综述文章首先回顾了3D Gaussian的原理和应用借着全面比较了3D GS在静态

随机推荐

http接口实现跨域传递json实体(httpclient和jsonp方式都有)

传后台传不知道谁写的发送post请求很好用 param url param requestJson return throws Exception public static String sendPostJson String ur
springboot中restful风格请求的使用

springboot中restful风格请求的使用 restful风格 springboot中的使用 1 创建html表单页面 2 在yml配置文件中开启rest表单支持 3 编写controller层及对应映射处理 4 启动服务逐个访问
猜数字游戏代码

void Menu printf MENU n printf 1 PLAY n printf 0 EXIT n printf n void Game int randnum rand
Highstock中如何获取时间选择器的消息响应

Highstock中的时间选择器在绘制时间相关的图像的时候很好用最近有一个需求获取时间选择器选择的时间范围用于后面的处理查看了下官方文档还真有相关事件的定义 afterSetExtremes 参考链接 https www highc
C++外观模式：Facade Pattern

装饰者不改变接口但加入责任适配器将一个接口转换成另一个接口外观让接口更简单外观模式将一个或数个类的复杂的一切都隐藏在背后只显露出一个干净美好的外观外观模式提供了一个统一的接口用来访问子系统中的一群接口外观模式定义了一
区块链技术核心概念与原理理解

区块链的前世今生说到区块链就不得不提及密码朋克密码朋克萌芽于1970年代正式发起于1993年认为保护个人隐私是自由社会的重要基石反对政府公司对个人隐私的侵害政权的基础经常建立在控制数据上通过此类控制可以害人压迫人或让人
C++图形开发（2）：最基本的图形界面

文章目录 1 构成 2 内容介绍 2 1 initgraph 2 2 getch 2 3 closegraph 3 总结今天来简单介绍下最基本的图形界面 1 构成输入以下内容并编译这就是一个最基本的图形界面了 include
java for循环打印爱心

心形 import java util Scanner class MyTest public static void main String args for int m 1 m lt 5 m for int n 6 n
anaconda虚拟环境搭建（python+opencv）

一般安装和使用流程 1 安装Anaconda 打开命令行输入conda V检验是否安装及当前conda的版本以下操作均在Anaconda Prompt命令框下进行 2 conda常用的命令 1 查看安装了哪些包 conda list 2
2019牛客多校训练赛第五场A题（思维题）

题目描述看不清图片可以右击图片 gt 复制图片地址 gt 浏览器新开一个标签页粘贴此地址就可看大图也可以右击图片 gt 在新标签页打开图片题解题意给你一个整型x x lt 100 让你输出一个整型y y要满足3个条件 y 能被
Ubuntu 20.04无法连接网络(网络图标丢失)，重启网络出现Failed to restart network-manager.service

问题失去网络图标这里已经解决 sudo service NetworkManager stop sudo rm var lib NetworkManager NetworkManager state sudo service Netwo
如何按需下载和安装Win10补丁

如何按需下载和安装Win10补丁一般我们都是通过系统自带的Windows更新来直接安装补丁这种方式虽然方便但是耗时久而且更新体量也大会占用很多空间其实我们完全可以按需下载和安装下面就给大家介绍方法工具原料 Thinkpad
Harmony系统更改手机IP

在当今的互联网环境中我们经常需要更改手机的IP地址来绕过限制或保护我们的隐私虽然在一些操作系统上更改IP地址相对较容易但在Harmony系统上这可能会有些困难因此本文将分享一种在Harmony系统上免费更改手机IP地址的方法在
【Java SE】继承和多态(保姆级教学)

点进来你就是我的人了博主主页戳一戳欢迎大佬指点欢迎志同道合的朋友一起加油喔目录前言一继承 1 什么是继承 2 继承的优缺点 3 对继承的理解 4 方法的重写 5 继承中的构造方法的调用 6 包的声明和使用 7 四种权限修饰符
SM3算法设计原理

SM3密码杂凑算法的描述 SM3密码杂凑算法采用Merkle Damgard结构消息分组长度为512b 摘要长度256b 压缩函数状态256b 共64步操作步骤 SM3密码杂凑算法的初始值 SM3密码杂凑算法的初始值共256b 由8个32
5G LAN技术专题详解（1）-目录

相关文章会在公众号同步更新最近工作忙更新完公众号后经常容易忘记再CSDN上再发公众号上的文章更新的能快一些各位同学有兴趣可以关注一下公众号 5G通信大家学持续更新的相关5G内容都是直接根据3GPP整理保证更新内容的准确性避
VMware Fusion Pro 12 Mac介绍(支持11.0 Big Sur出来啦)

VMware Fusion 12 出来啦完美支持macOS Big Sur系统 Fusion 12 包含几项新的更新和改进包括 eGPU 兼容性对使用 Kubernetes 构建的基于容器的应用程序的支持 DirectX 11 和 O
计算机软件毕业设计项目源码大全

给计算机软件相关专业的同学准备了许多毕设项目源码大家可以下载找到跟自己类似的学习下别人的软件是如何做出来的 gitee下载地址 https gitee com chenshuai777 soft 部分截图如下太多了我就不一一截出来了
数字化项目建设管理难点分析与对策

企业数字化发展主要以项目建设为依托通过分阶段有计划地实施一系列数字化项目来不断夯实基础设施建设持续深化业务系统应用大力推进研发资源服务稳步提升安全保密防护措施日益完善运维管理体系随着企业改革的不断深入在加快数字化建设进程过
使用随机森林算法编写评分卡模型

数据来源于信贷用户数据量级为2W 首先读取数据忽略警告 import warnings warnings filterwarnings ignore 导入常用库pandas Numpy matplotlib import pandas

使用随机森林算法编写评分卡模型

数据探索

使用随机森林算法编写评分卡模型 的相关文章

随机推荐

热门标签

使用随机森林算法编写评分卡模型的相关文章