特征选择&特征提取

2023-11-10

特征

在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比如在房价预测的问题中,影响房价y的因素有房子面积x1,卧室数量x2等,我们得到的样本数据就是(x1,x2)这样一些样本点,这里的x1和x2又被称为特征。

特征选择

为什么做特征选择?

在现实生活中,一个对象往往具有很多属性(以下称为特征),这些特征大致可以分成三种主要的类型:

  • 相关特征:对于学习任务有帮助,可以提升学习算法 的效果。
  • 无关特征:对于我们的算法没有任何帮助,不会给算法的效果带来任何提升。
  • 冗余特征:不会对我们的算法带来新的信息,或者这种特征的信息可以由其他的特征推断出来。

但是对一个特定的学习算法来说,哪一个特征是有效的是未知的。因此需要从所有特征中选择出对于学习算法有益的相关特征。

进行特征选择的主要目的:

  • 降维
  • 降低学习任务的难度
  • 提升模型的效率

什么是特征选择?

定义:从N个特征中选择其中M个子特征,并且在M个子特征中,准则函数可以达到最优解。

特征选择想要的做的是:选择尽可能少的子特征,模型效果不会显著下降,并且结果的类别分布尽可能的接近真实的类别分布。

怎么做特征选择?

特征选择主要包含四个过程:

1、生成过程:生成候选的特征子集

生成过程是一个搜索过程,这个过程主要有以下三个策略:

1)完全搜索:根据评价函数做完全搜索,主要有两种:穷举搜索和非穷举搜索

2)启发式搜索:根据一些启发式规则在每次迭代时,决定剩下的特征是应该被选择还是别拒绝,这种方法很简单并且速度很快。

3)随机搜索:每次迭代时会设置一些参数,参数的选择会影响特征选择的效果。

2、评价函数:评价特征子集的好坏

评价函数主要用来评价选出的特征子集的好坏,一个特征子集是最优的往往指相对于特定的评价函数来说的。评价函数主要用来度量一个特征可以区分不同类别的能力。根据具体的评价方法主要有三类:过滤式、包裹式、嵌入式、过滤和包裹组合式。

3、停止条件:决定什么时候该停止

停止条件用来决定迭代过程什么时候停止,生成过程和评价函数可能会对于怎么选择停止条件产生影响。停止条件有以下四种选择:

  • 达到预定义的最大迭代次数;
  • 达到预定义的最大特征数;
  • 增加(删除)任何特征不会产生更好地特征子集;
  • 根据评价函数产生最优特征子集。

4、验证过程:特征子集是否有效

特征提取

特征提取:是通过属性间的关系,如组合不同的属性得到新的属性,这样就改变了原来的特征空间。

特征选择:是从原始特征数据集中选择出子集,是一种包含关系,没有改变原始的特征空间。

目前图像特征的提取方法主要有两种方法:传统图像特征提取方法和深度学习方法。

  • 传统的特征提取方法:基于图像本身的特征进行提取
  • 深度学习方法:基于样本自动训练出区分图像的特征分类器

特征选择和特征提取都属于降维。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

特征选择&特征提取 的相关文章

  • 2、kettle知识点系列之kettle向redis同步数据

    kettle向redis同步数据 网上kettle向redis同步数据的完整案例不是很多 本文将以案例形式对整个过程进行详细讲解 一 案例描述 本文以最简单的案例描述 大家在应用过程中可根据实际情况进行调整 现有学生表和成绩表 如何将表中的

随机推荐

  • 转:基于Spark的电影推荐系统(包含爬虫项目、web网站、后台管理系统以及spark推荐系统)

    版权声明 本文为博主原创文章 遵循 CC 4 0 BY SA 版权协议 转载请附上原文出处链接和本声明 本文链接 https blog csdn net u011254180 article details 80006453 本次项目是基于
  • 算法作业(4):旅行者问题

  • 华为官方翻新产品秒杀活动来袭,官方正品,7折优惠,真香!

    4月24日 华为商城 微博官宣 4月26日12 00和20 00在华为商城APP内将举办两场超级秒杀节活动 其中包括7折优惠的2款华为官方翻新手机 分别是nova 9和nova 9 Pro 华为官方翻新nova 9手机秒杀直降660元 15
  • 前端实现语音播放

    0 Web Speech API Web Speech API 使您能够将语音数据合并到 Web 应用程序中 Web Speech API 有两个部分 SpeechSynthesis 语音合成 文本到语音 TTS 和 SpeechRecog
  • IC 的资源体系

    信息共享空间是集信息资源 各类软硬件设施于一体的一个综合性动态服务模 式 其最大特点是资源共享 因此 要加强电脑终端 打印机等硬件设施的建设 同时强调文献数据库 电子图书 学位论文 各类免费软件等信息资源的建设 提 供知识导航 跨库检索 开
  • SysTick定时器

    SysTick定时器 SysTick定时器也叫SysTick滴答定时器 它是Cortex M3内核的一个外设 它是一个24 位向下递减的定时器 每计数一次所需时间为1 SYSTICK SYSTICK是系统定时器时钟 它可以直接取自系统时钟
  • 【概念梳理】激活函数

    一 引言 常用的激活函数如下 1 Sigmoid函数 2 Tanh函数 3 ReLU函数 4 ELU函数 5 PReLU函数 6 Leaky ReLU函数 7 Maxout函数 8 Mish函数 二 激活函数的定义 多层神经网络中 上层节点
  • CoordinatorLayout的使用-Androidx

    折叠效果实现核心 CoordinatorLayout AppBarLayout CollapsingToolbarLayout 1 build gradle dependencies implementation com google an
  • Elasticsearch7.7 基础教程 1

    Elasticsearch7 7 基础教程 1 以下简称es7 7 es7 7的安装 1 官网下载 https www elastic co cn downloads elasticsearch 2 解压文件 3 在安装文件夹下的bin目录
  • Ajax session一直变,ajax异步session值不唯一 总是改变 解决办法

    public void doFilter ServletRequest servletRequest ServletResponse servletResponse FilterChain filterChain throws IOExce
  • 获取硬件信息的delphi源码(CPUID、操作系统、Mac物理地址、计算机名称、IP地址、用户名)

    转载请保留本文链接地址 http blog csdn net sushengmiyan article details 8545673 作者 sushengmiyan 2013 01 26 备注 功能 硬件信息获取单元 unit Appli
  • 使用nginx做为http-flv服务如何解决跨域问题

    什么是跨域 跨域是指浏览器的同源策略限制 这个策略会阻止一个域的javascript脚本和另外一个域的内容进行交互 如果一个请求url的协议 域名 端口三者之间任意一个与当前页面的url不同即为跨域 如下图所示即为跨域时的报错 使用ngin
  • idea git操作

    图片有的 是idea界面 有的是Android studio界面 当成字典看 不用记 你知道自己想操作仓库时 知道自己曾写过这篇文章就行 目录 引入git别的仓库的其它模块 创建 Git 分支并且 Push 删除分支 删除分支的文件 And
  • eclipse IDE的安装和常用配置教程(详细)

    eclipse IDE的安装和常用配置 第一步 安装配置JDK 打开eclipse需要先安装和配置好JDK 所以需要提前配置JDK 教程链接如下 https blog csdn net weixin 46028577 article det
  • HDFS简单测试

    使用Hadoop的Java客户端API操作分布式文件系统 获取文件系统实现 hdfs master01 9000 FileSystem get URI uri Configuration conf String user fs defaul
  • android 功能模块之通讯模块四

    Android通讯录开发之通讯录联系人搜索功能最新实现 2014年1月13日 之前的有两篇博客介绍了如何解决通讯录搜索功能的问题 那些方法都是从网上搜集 然后经过自己整理试验之后的 但在项目测试人员给我反馈 似乎还是存在一些问题 比如一些简
  • 【Flutter 2-10】Flutter手把手教程UI布局和Widget——流式布局Wrap

    作者 弗拉德 来源 弗拉德 公众号 fulade me Wrap 在Flutter中Wrap是流式布局控件 Row和Column在布局上是很好用 但是有一个缺点 如果当子控件数量过多导致Row或Column装载不下的时候 就会出现UI页面上
  • cdn 引入的资源需要通过 externals 排除打包哦~

    cdn 指的是通过相互连接的网络系统 使用最靠近用户的服务器将音乐 图片等资源以高效率和低成本的方式将内容传递给用户 在 webpack 中 我们可能会将引入的第三方资源会编译成单独的文件 作为静态资源放到服务器上 但有些库它本身就有 cd
  • 结构体大小和类大小的计算

    1 结构体大小的计算 当为空结构体时 其大小为1 选取结构体中类型字节数最大的最为对齐符 注意 是最大的类型字节数 例如 int a 10 并不是以40作为对齐符 每次申请对齐符个字节大小的内存 当内存不够时才继续申请 举例 struct
  • 特征选择&特征提取

    特征 在一些实际问题中 我们得到的样本数据都是多个维度的 即一个样本是用多个特征来表征的 比如在房价预测的问题中 影响房价y的因素有房子面积x1 卧室数量x2等 我们得到的样本数据就是 x1 x2 这样一些样本点 这里的x1和x2又被称为特