特征工程(一)-- 概述

2023-11-04

简介

特征工程本质上可以理解成数据预处理,其目的是最大限度地从原始数据中提取特征以供算法和模型使用,从而提高模型的准确率等指标。处理的数据中的特征直接影响到正在使用的模型以及能达到的最好的结果。当模型和特征都确定之后,通过调参带来的收益微乎其微,似乎已经到达模型的上限了。但是如果此时发现了更好的特征,只更换特征的情况下,效果会有很大的提升,这不是靠调参能够得到的。

特征工程总览:
请添加图片描述

特征工程的位置

在近一步讨论特征工程的细节之前,我们先明确一下机器学习或者说深度学习模型的工作管道。这会帮助我们了解一项任务,从问题提出到问题解决的全过程。机器学习的一般流程大概如下:

问题定义 -> 准备数据 -> 提取特征 -> 评估模型 -> 结果
请添加图片描述
上图中红框内就是特征工程需要关心的部分,即如何从原始数据中提取有用的特征信息。

特征工程的重要性

特征工程的目的就是找到更好的特征来表征原始数据中的固有结构,因为更好的特征一般具有以下的属性。

  • 良好的特征意味着更好的灵活性
    即便我们选择了一个相对较差的模型,但是由于良好的特征加持,我们依旧可以获得较好得到结果。因为大部分模型其实都可以很好地利用数据中良好的结构信息。良好的特征可以使我们使用更加简单的的模型,这样更容易训练,也更容易理解和维护。

  • 良好的特征意味着更简单的模型
    如果我们提取出了较好的特征,其实它已经具备足够强的表达能力,可以为我们节省大量在模型选择和参数调优上的时间。

  • 良好的特征意味着更好的结果
    对于Kagglers,或者参加其他比赛的同学来说,大家使用的算法都大同小异,大部分时间都花在了特征工程上面。

特征类型

我们知道由于特定的机器学习或深度学习的任务不同,对应所需要的数据集也不同。不过数据的类型还是可以总结出来,一般来说无非就以下几种类型:

  • 图像

  • 文本

  • 音频

  • 视频

    以文本数据举例,如果我们将其细分一下,其实还可以分为许多类型。比如有:

  • 数值数据(整数,浮点数)

  • 单词、句子、段落数据(字符串,单词)

  • 类别数据(字符串,数字)

要知道我们的模型的输入只能是数值类型,对于不是数值类型的特征,我们需要通过一系列方法来将其转换成模型和算法能接受的数据类型。这里面又包含了很多方法,比如One-hot编码,词袋模型,Word2Vec等等等等。

参考资料链接:https://www.jianshu.com/p/172677f4ea4c

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

特征工程(一)-- 概述 的相关文章

随机推荐

  • 【c++迭代器模拟实现】

    目录 前言 一 STL初始 二 六大组件之迭代器 迭代器初始 迭代器的模拟实现 1 victor 正向迭代器 反向迭代器1 反向迭代器2 反向迭代器3 2 list 正向迭代器 反向迭代器 总结 前言 打怪升级 第52天 一 STL初始 什
  • Oracle如何查询和中止正在运行的JOB

    今天遇到一个问题 有一个JOB会一直不停的执行 不能按照设定的间隔来执行 通过查询相关资料发现原来如此 当一个oracle job运行时返回一个error时 oracle会再次设法执行它 第一次尝试是在一分钟后 第二次是在2分钟后 第三次是
  • 代码点和代码单元的简单理解

    简单来说 代码单元就是用来表示代码点的 char数据类型就是一个采用UTF 16编码表示Unicode码点的代码单元 那代码点是什么 就是在unicode编码中的每一个符号 在特殊符号没出现之前 每个unicode代码点 字符在内 可以用一
  • 数据结构【2019年408第41题】

    1 一个N长度的链表的为了按照题目的需求 我们观察可以发现可以将一个链表从中间分开然后逆置然后依次插入则我们大致的思路如下 1 将链表分为两段 L和L2 2 将L2逆置从顺的顺序变为反过来的顺序 3 将L和L2按照 L gt L2 gt L
  • 高通LK显示屏分辨率太大,下半部分显示异常-FB buff超了的问题

    问题解决 bootable bootloader lk include dev fbcon h define LOGO IMG OFFSET 12 1024 1024 改成 define LOGO IMG OFFSET 20 1024 10
  • 前端利用html2canvas+jspdf实现html转pdf

    公司业务的月报页面 要实现pdf下载 查了资料 大概有个方向 就是利用html2canvas把html转为图片 然后再生成pdf格式的文件实现了下载 核心代码 import html2canvas from html2canvas impo
  • @Async注解在springboot项目中的使用

    众所周知 Async注解是开启一个异步线程的执行 但在springboot项目中如何具体的使用这个注解 还需要一一分析 仔细研究如何能更好的使用 Async注解 1 在项目启动类上添加 EnableAsync注解 如果没有这个注解而仅仅只有
  • 虚拟机安装Ubuntu16.04详细步骤

    文章目录 系统下载 安装VMware 配置虚拟机 系统安装 系统下载 官方下载地址 https ubuntu com download 阿里云镜像 推荐 http mirrors aliyun com ubuntu releases 16
  • linux/vim 操作tips

    1 Linux查看物理CPU个数 核数 逻辑CPU个数 总核数 物理CPU个数 X 每颗物理CPU的核数 总逻辑CPU数 物理CPU个数 X 每颗物理CPU的核数 X 超线程数 查看物理CPU个数 cat proc cpuinfo grep
  • 服务器部署redis和springboot整合redis详细步骤

    目录 redis服务器部署 在springboot项目中整合redis redis相关链接 文档 文件下载 阿里云服务器官网 云小站 专享特惠 云产品推荐 阿里云 redis服务器部署 购买阿里云服务器后 到控制台查看实例 获取公网IP 账
  • 蓝桥杯——方格填数(JAVA)

    题目 本题为填空题 只需要算出结果后 在代码中使用输出语句将所填结果输出即可 如下的 10个格子 填入 0 9 的数字 要求 连续的两个数字不能相邻 左右 上下 对角都算相邻 一共有多少种可能的填数方案 运行限制 最大运行时间 1s 最大运
  • 【全】正则表达式语法

    简单来说 正则表达式就是描述字符串的规则 其作用如下 1 校验数据的有效性 2 从文本中提取内容 3 文本内容替换 元字符 元字符即正则表达式中具有特殊含义的专用字符 主要分为5类 1 基础 任意字符 换行除外 d 任意数字 D 任意非数字
  • Android自定义控件之自定义属性(二)

    前言 上篇介绍了自定义控件的基本要求以及绘制的基本原理 本篇文章主要介绍如何给自定义控件自定义一些属性 本篇文章将继续以上篇文章自定义圆形百分比为例进行讲解 有关原理知识请参考Android自定义控件之基本原理 一 这篇文章 需求产生背景
  • 关于MPEG4 码流(mpeg4 raw data)的格式分析

    MPEG4码流开头往往如下 00 00 01 B0 F5 00 00 01 B5 09 00 00 01 00 00 00 01 20 08 86 84 00 3F 18 58 21 20 A3 1F 00 00 01 B2 58 76 6
  • 故障诊断1—基础理论

    1 故障诊断概念 故障诊断主要研究如何对系统中出现的故障进行检测 分离和辨识 即判断故障是否发生 定位故障发生的部位和种类 以及确定故障的大小和发生的时间等 2 故障诊断方法 故障诊断防范可分为定性分析和定量分析两大类 如图 1 所示 其中
  • Hexo博客优化:在Next主题中设置进阶版Live2D看板娘————拒绝踩坑!!!!

    最初级的用法 使用官方包安装 安装非常简单 但效果一般 hexo live 2d地址 https github com xiazeyu live2d widget models git命令行中输入 npm install save hexo
  • [SWPUCTF 2022 新生赛]ez_ez_php

    这段代码是一个简单的PHP文件处理脚本 让我们逐行进行分析 error reporting 0 这行代码设置了错误报告的级别为0 意味着不显示任何错误 if isset GET file 这行代码检查是否存在一个名为 file 的GET参数
  • Redis第二十七讲 Redis集群批量操作带来的问题

    Redis集群批量操作 比如对我们之前搭建的三主三从集群进行批量数据插入操作会报什么错误呢 关于Redis集群搭建可以参考我之前的一篇博客 Redis第十九讲 Redis主从 哨兵 集群搭建讲解 Redis集群搭建相对于哨兵还是比较简单的
  • app服务器 数据库文件,app访问服务器mysql数据库文件

    app访问服务器mysql数据库文件 内容精选 换一换 云数据库RDS服务上的MySQL在使用上有一些固定限制 用来提高实例的稳定性和安全性 具体详见表1 对于mysqlpump工具 由于在并行备份场景有coredump问题 不建议您使用
  • 特征工程(一)-- 概述

    简介 特征工程本质上可以理解成数据预处理 其目的是最大限度地从原始数据中提取特征以供算法和模型使用 从而提高模型的准确率等指标 处理的数据中的特征直接影响到正在使用的模型以及能达到的最好的结果 当模型和特征都确定之后 通过调参带来的收益微乎