【机器学习】:特征筛选方法

2023-11-10

一.基于统计值的筛选方法

1.过滤法:选择特征的时候,不管模型如何,首先统计计算该特征和和label的一个相关性,自相关性,发散性等等统计指标。

优点:特征选择开销小,有效避免过拟合

缺点:没有考虑后续的学习器来选择特征,减弱了学习器的学习能力(因为某些特征可能和label算出来相关性不大,但是可能和其他特征交叉后,会和label具有很强的关联性)

2.单变量筛选法:

a:缺失值占比

b:方差

c:频数

d:信息熵

3.多变量筛选法

计算多个变量之间自己的相关性,绘制相应的相关性图,可以使用皮尔逊相关系数,斯皮尔曼相关系数等等来作为衡量。尤其是是在线性模型当中,两个共线性的模型可能对模型并不具备促进作用,反而可能会带来一些灾难性的后果。树模型则可以不考虑这种基于多变量的筛选方法。

二.基于模型验证的筛选方法

基于模型的验证集进行打分,是一种比较靠谱的方法,也是和最终模型的打分强相关的。

什么意思呢?也就是说我们每增加一些特征或者减少一些特征,我们就用来训练出一个模型,进行cv,也就是cross validation进行交叉验证,看模型的准确度是否是上升了。

我们基于这种方法对其进行改进,还有一种时间开销比较小的方法则是;排列重要性

也就是说,我们可以使用排列重要性这种方法对模型的特征进行验证和筛选。这种方法对于树模型来说基本上来说是最好的方法了。

如下图所示:

 当我们已经train出一个模型之后,我们对这个模型某一个特征进行打乱,再对当前的数据进行预测,看准确度多少,如果模型的准确度下降比较多,那么说明该变量对模型的影响很大。如果准确度下降不多,则说明该变量对模型的影响不大,完全可以将其剔除。这是一个十分有效且时间复杂度比较低的一个特征筛选的方法,在我们进行特征工程的时候可以经常使用这个方法,这个方法的代码实现起来也并不是很难。

三.基于模型嵌入的筛选方法

特征选择被嵌入到学习器的训练过程当中,利用模型参数来计算特征重要性。

线性模型:使用线性模型的系数大小进行衡量(比如逻辑回归和线性回归当中某个特征的前面的系数,看是否significant)

树模型:使用特征分裂过程当中的信息增益进行衡量

深度学习:使用注意力机制的权重进行衡量

但是模型认为重要的特征,不一定重要!因为不重要的特征可能和其他特征之间具有强相关性,因此如果剔除,也可能会对模型的效果并不一定有一定的提升。模型认为不重要的,也有可能重要。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【机器学习】:特征筛选方法 的相关文章

随机推荐

  • 用Langchain构建一个阅读助手

    LangChain 是一个强大的框架 可以简化构建高级语言模型应用程序的过程 01 什么是Langchain LangChain是一个强大的框架 旨在帮助开发人员使用语言模型构建端到端的应用程序 它提供了一套工具 组件和接口 可简化创建由大
  • STM32CubeM的搭建以及基于HAL库实现LED闪烁

    文章目录 一 STM32的开发环境的搭建 1 安装jdk环境 2 安装STM32CubeMX 3 安装固件库 4 安装MDK5软件 二 利用工具生成点亮LED灯的代码 三 MDK5生成 hex文件 四 程序烧录 五 运行结果 六 MDK5模
  • 基于SimGAN网络的人眼数据生成方法_SimGAN原理_参考代码

    注 此文为复现sim GAN 参考了一些论文 博客 如有侵权请联系 我附上原出处 由于一些格式原因 文章有些部分会比较乱 请见谅 Learning from Simulated and Unsupervised Images through
  • 5个你不可不知的IE的bug及其解决方案

    E令人咬牙切齿的bug不胜枚举 其中IE6更是臭名昭著 令人发指 这里总结出IE下最为严重的5个bug 及其应对方案 1 IE6下无法显示png格式的透明信息 这个bug是众多网页设计师的噩梦 虽然可以采用gif代替 但是gif的表现力实在
  • Ubuntu之Docker安装

    1 先卸载旧版 如果没有的话 就直接执行第二步 apt get remove docker docker engine docker io containerd runc 这个命令用于在 Ubuntu 和其他基于 Debian 的 Linu
  • qt 储存库

    手动添加 储存库要定位一个储存有QT在线安装镜像的地址 打开 http download qt io static mirrorlist 这个网址 显示了各国的qt镜像站点 点击 HTTP 最终进到 online repository ht
  • [C语言]浮点型在内存中的存储

    在上一篇文章 我们讲述了整型在内存中的存储 这篇文章我们就一起来看一下 浮点型在内存中的存储 回顾 整型在内存中的存储 C语言 和我一起来认识 整型在内存中的存储 HY PIGIE的博客 CSDN博客 目录 1 浮点数家族 2 整型和浮点型
  • Envi5.3——高分二号PMS数据预处理

    首先第一步 打开数据open 以TIFF格式打开 开始进行正射校正 RPC正射工作流程 我们先对多光谱进行校正 输入需正射校正文件和DEM文件 在这里我们不用自带的2010年的DEM文件 点击下一步 在高级控制面板 输出像素大小为4米 图像
  • 用于非线性时间序列预测的稀疏局部线性和邻域嵌入(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现 1 概述 本文提出了一种基于字典的L1范数稀疏编码
  • 基于SpringBoot的特色农产品销售设计与实现

    摘 要 目前市场上众多的特色农产品销售系统存在种种不足 比如系统无需登录即可查看农产品卖家的联系方式 并且交易大多为线下交易 很难实现线上购买 物流配送 线上收货收款的功能 本系统提供线上购买服务 使用数据库进行订单管理 设计优化交互界面
  • 【成电860考研】经验贴汇总(公共课+专业课+复试)-扒遍所有网站:信软群、王道、知乎、csdn等,截止21年7月整理出的所有帖子-共15篇

    单词哥 2020跨考 背景 记得 18 年底的时候 好朋友那年考研 我闲的无事就拿他买的英 语一真题做了下 忘了哪一年的题了 不过结果还可以 这也为后来 辞职考研埋了根 由于长期从事英语相关的工作 而又想要圆自己大 学时学计算机的梦 说到底
  • es 中关于 term,match, text, keyword

    转自 https blog csdn net qq 38043440 article details 101678677 最近项目中使用了ElasticSearch 在使用基本的查询功能的时候 遇到些头疼的事情 有时候数据明明存在 用ter
  • ES命令: “track_total_hits“:true

    搜索type全部数据 GET test movie search 结果 took 2 耗费时间 毫秒 timed out false 是否超时 shards total 5 发送给全部5个分片 successful 5 skipped 0
  • vlc详细使用说明

    vlc的全名是Video Lan Client 是一个开源的 跨平台的视频播放器 VLC支持大量的音视频传输 封装和编码格式 完整的功能特性列表可以在这里获得http www videolan org vlc features html 下
  • 小米蓝牙耳机使用说明_小米真无线蓝牙耳机Air2 SE评测

    很多人都会把 小米Air2 SE 这款耳机 当成是上一代的阉割版本 其实完全没必要这么想 因为他们除了耳机有点像之外 其它几乎全不一样 甚至当两款独立的产品也是没问题的 这款耳机根据我的分析和体验 我觉得它在音质上和小米Air2s 几乎是差
  • React——简介、JSX、组件、传值 React Props、状态 React State

    环境搭建 npm i g create react app create react app myapp cd myapp npm start 一 简介 1 简介 React主要用于构建UI 你可以在React里传递多种类型的参数 如声明代
  • spring boot获取datasource为null_Spring讲解九

    Spring JDBC 数据访问 Spring JDBC是Spring所提供的持久层技术 它的主要目标是降低使用JDBC API的门槛 以一种更直接 更简介 更简单的方式使用JDBC API 在Spring JDBC里 仅需做那些与业务相关
  • Python二叉树的三种深度优先遍历

    Python二叉树的三种深度优先遍历 一 广度优先遍历和深度优先遍历 对二叉树进行遍历 traversal 是指依次对树中每个节点进行访问 在遍历的过程中实现需要的业务 对树的遍历方式有广度优先遍历和深度优先遍历两种方式 广度优先一般用队列
  • 区块链学习(maven)【Day01-Day02】

    学习进度 2023 5 16日 2023 5 17日 maven基础环境配置 maven修改配置文件 idea配置maven环境 创建maven工程 导入maven工程 maven引入依赖 maven排除依赖 maven依赖范围 maven
  • 【机器学习】:特征筛选方法

    一 基于统计值的筛选方法 1 过滤法 选择特征的时候 不管模型如何 首先统计计算该特征和和label的一个相关性 自相关性 发散性等等统计指标 优点 特征选择开销小 有效避免过拟合 缺点 没有考虑后续的学习器来选择特征 减弱了学习器的学习能