特征工程之分箱

2023-11-02

一般在建立分类模型时，需要对连续变量离散化，特征离散化后，模型会更稳定，降低了模型过拟合的风险。比如在建立申请评分卡模型时用logsitic作为基模型就需要对连续变量进行离散化，离散化通常采用分箱法。

分箱的重要性及其优势

离散特征的增加和减少都很容易，易于模型的快速迭代；
稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；
离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰；
逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合；
离散化后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力；
特征离散化后，模型会更稳定，比如如果对用户年龄离散化，20-30作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反，所以怎么划分区间是门学问；
特征离散化以后，起到了简化了逻辑回归模型的作用，降低了模型过拟合的风险。
可以将缺失作为独立的一类带入模型。
将所有变量变换到相似的尺度上。

有监督分箱：

卡方分箱法(ChiMerge)

自底向上的(即基于合并的)数据离散化方法。

它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。

基本思想:

对于精确的离散化，相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。而低卡方值表明它们具有相似的类分布。

这里需要注意初始化时需要对实例进行排序，在排序的基础上进行合并。

卡方阈值的确定：

根据显著性水平和自由度得到卡方值

自由度比类别数量小1。例如：有3类,自由度为2，则90%置信度(10%显著性水平)下，卡方的值为4.6。

阈值的意义

类别和属性独立时,有90%的可能性,计算得到的卡方值会小于4.6。大于阈值4.6的卡方值就说明属性和类不是相互独立的，不能合并。如果阈值选的大,区间合并就会进行很多次,离散后的区间数量少、区间大。

注：

1、ChiMerge算法推荐使用0.90、0.95、0.99置信度,最大区间数取10到15之间.

2、也可以不考虑卡方阈值,此时可以考虑最小区间数或者最大区间数。指定区间数量的上限和下限,最多几个区间,最少几个区间。

3、对于类别型变量,需要分箱时需要按照某种方式进行排序。

最小熵法分箱

(1) 假设因变量为分类变量，可取值1，… ，J。令 pij 表示第i个分箱内因变量取值为j的观测的比例，i=1，…，k，j=1，…，J；那么第i个分箱的熵值为 ∑

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

数据

特征工程之分箱的相关文章

医学图像配准MATLAB实现

医学图像配准MATLAB实现医学图像处理在临床诊断肿瘤治疗和医学信息融合等领域中起着至关重要的作用医学图像配准作为医学图像处理中的重要研究方向之一其目的是将通过不同机器或技术获取到的不同角度或时间段的医学图像进行对比以便医生或研究
七种排序算法

排序算法主要分为三大类分别是插入排序选择排序和交换排序其中插入排序包括直接插入排序和希尔排序选择排序包括直接选择排序和堆排序交换排序包括冒泡排序快速排序和归并排序各种排序算法的时间复杂度和空间复杂度如下一插入排序 1 直接
android之fragment与fragment、activity与activity、fragment与activity之间的通信

Broadcast广播接受者可以实现所有通信 activity与activity之间的通信当下一个activity关闭时传值给上一个activity 主要用得到startActivityForResult和onActivityResult

随机推荐

epoll_create和epoll_create1

名字 epoll create epoll create1 创建epoll文件描述符摘要 include
创建自定义类的对象数组

源代码 public class Student static int number 0 静态变量的访问可以不用创建类的实例就可就可使用 lt 类名属性 gt 的方法访问 String name 学生姓名 Student 无参构造函数 S
【HDLBits 刷题 12】Circuits（8）Finite State Manchines 27-34

目录写在前面 Finite State Manchines 2014 q3c m2014 q6b m2014 q6c m2014 q6 2012 q2fsm 2012 q2b 2013 q2afsm 2013 q2bfsm 写在前面 HD
C++中的虚函数表和虚函数在内存中的位置

目录结论今天在看别人面经的时候发现了这个问题一时间发现自己也说不清楚还想当然的以为虚函数表既然是类对象公有的那么应该在静态存储区想当然终究只是想当然经过试验得知这种想法是错误的由于不同的编译器在虚函数表上的实现可能不同
Jdk1.8新特性 - 方法引用

一说明方法引用使用一对冒号标识通过方法的名字来指向一个方法是函数式接口的另一种书写方式通过方法引用可以将方法的引用赋值给一个Function变量 Lambda表达式一般用于自己提供方法体而方法引用一般直接引用现成的方法二
Linux系统shell脚本之根分区监控

Linux系统shell脚本之根分区监控一脚本要求二脚本分析三执行脚本查看执行输出文件一脚本要求 1 编写一个shell脚本脚本名为disk per sh 2 脚本检测根分区使用率如果根分区超过80 则显示使用率且提
ES6笔记（解构）

1 解构解构通俗点说就是通过一种特定格式快捷的读取对象数组中的数据的方法基本用法如果右边是对象左边也要用对象的格式解构出来就是变量了再也不是属性了解构对象 var oUser name aaa age 20 es5读数据
[QT_001]解决Ubuntu下Qt无法连接MySQL数据库[Linux环境]

准备简要思路编译Qt下MySQL项目使其重新生成libqsqlmysql so这个动态库而后进行替换编译项目过程中项目配置文件需要引入使用到MySQL的头文件和库所以需要安装MySQL 我的环境 1 Ubuntu 18 04
对受控组件和非受控组件的理解，以及应用场景？

一受控组件受控组件简单来讲就是受我们控制的组件组件的状态全程响应外部数据举个简单的例子 class TestComponent extends React Component constructor props super pr
笨人可以学计算机吗,为什么有的笨人一旦开窍，其人生就像开了挂似的呢？

前言真正的天才是懂得在别人面前装糊涂的人但如果他受到某种刺激装糊涂也就没有必要了低调惯了的人总有一天会一鸣惊人韬盛和夫大自然有一种特有的现象自作聪明的动物往往不会活的太长而那些看起不起眼的动物往往隐藏着巨大的力量笨
Bootstarp入门教程（6）表格

基本案例为任意 table 标签添加 table可以为其赋予基本的样式少量的内补 padding 和水平方向的分隔线 table
Redis中的事务

1 Redis事务的定义 Redis事务是一个单独的隔离操作事务中的所有命令都会序列化然后按照顺序地执行事务在执行的过程中不会被其他客户端发送来的命令请求所打断其实就是一个缓存队列将所有任务放入然后再某一个阶段将其中的任务拿
C语言（Head First C）-9_1:静态库与动态库：静态库

该系列文章系个人读书笔记及总结性内容任何组织和个人不得转载进行商业活动 9 1 静态库与动态库静态库我们已经见识过标准库的威力了现在是时候在代码中发挥这种威力了本章内容创建自己的库并在多个程序中复用相同代码通过动态库在运行时
DATA_FORMAT = 'NCHW' 和DATA_FORMAT = 'CHWN'

转载自https blog csdn net qq 39622065 article details 81228915 NHWC batch in height in width in channels NCHW batch in chan
nginx日志文件删除后空间不能释放，必须重启服务才能释放空间

一台nginx服务器发现磁盘空间撑爆了进去看全是日志文件把磁盘写满了可是用rm删除log文件后发现磁盘空间并没有被释放明明文件没有了呀郁闷于是google下未释放磁盘空间原因在Linux或者Unix系统中通过rm或者文件管理
千万级规模高性能、高并发的网络架构经验分享

from https www cnblogs com shanyou p 5048099 html utm source tuicool utm medium referral 架构以及我理解中架构的本质在开始谈我对架构本质的理解之前先
最长回文---Manacher算法解析（俗称：马拉车算法）

题目链接 https cn vjudge net contest 320014 problem E Problem Description 给出一个只由小写英文字符a b c y z组成的字符串S 求S中最长回文串的长度回文就是正反读都是
vsCode快捷方式设置（ubuntu版本）

ubuntu版本的vscode 快捷键设置的地方文件 gt 首选项 gt 键盘快捷方式按键绑定 gt 更改按键绑定
<<软件研发之道>>经验法则4---不要认为别人是笨蛋

转载自 http book 51cto com art 201107 277211 htm 参考书籍 lt lt 软件研发之道 gt gt 我在这里重申软件是一种知识产权你必须运用智慧才能开发出软件你在工作中调用的智慧越多你最终得到
特征工程之分箱

一般在建立分类模型时需要对连续变量离散化特征离散化后模型会更稳定降低了模型过拟合的风险比如在建立申请评分卡模型时用logsitic作为基模型就需要对连续变量进行离散化离散化通常采用分箱法分箱的重要性及其优势离散特征的增加和减

特征工程之分箱

特征工程之分箱 的相关文章

随机推荐

热门标签

特征工程之分箱的相关文章