数据清洗、数据挖掘常见十大问题

2023-11-15

一、数据预处理、数据清洗和特征工程

数据预处理主要是对数据集进行探索性分析,而特征工程则是进行分析后的相应处理。以上两个名词不常说,最常听的应该还是数据清洗,差不多也就相当于上面两个步骤。

​ 例如:在预处理阶段发现数据存在缺失值、异常值;数据特征之间存在共线性;数据特征可以互相组合形成更好的特征等等。就可以在特征工程 阶段对上述发现的问题进行相应的处理。

二、数据预处理和特征工程阶段最常见的10个问题

1. 什么是数据 EDA?

EDA:Exploratory Data Analysis,译为:探索性数据分析。

​ 数据 EDA 是在拿到数据之后对数据进行初步探索认识的一个过程,在数据 EDA 阶段,并不对数据做任何处理,只进行数据探索,而在特征工程阶段会对数据进行相关操作。具体的,数据 EDA 有如下作用:

  1. 了解数据的分布、特征的类别,以及发现离群点数据。这一步可通过简单的直方图、散点图、小提琴图、箱型图等进行探索;
  2. 了解数据特征与特征之间的关联情况,以及特征与目标变量之间的关系。这一步可通过组合直方图、热力图等进行探索;
  3. 对于划分后的数据集,可以探索训练集和测试集的样本整体分布是否一致,数据特征的缺失情况、分布是否一致等。

2. 缺失值的处理方式有哪些?

对于缺失值的处理有很多方法,在缺失率低的情况下可以对缺失数据进行填充,比如使用均值、众数、随机森林算法等进行缺失值填充;

另外,如果缺失值不能简单的填充,可以将缺失数据当做特征中的某个类别处理(具体的也可以在数据 EDA 中探索数据缺失的情况下和目标变量之间的关系)

如果某个特征的缺失程度过高,也可以直接剔除该特征。需要注意的是,在 xgb 和 lgb 模型中可以自动处理缺失值,所以不需要提前进行处理。

3. 如何检测异常数据?如何处理?

异常数据的检测有两种方法,基于统计的异常点检测基于距离的异常点检测

基于统计的异常点检测常用的有四分位法,通过上下四分位对异常数据进行筛选,特别的,在数据 EDA 阶段可以通过箱型图、小提琴图进行类似原理的检测。

基于距离的异常点检测可以参考聚类模型,通过欧氏距离公式计算点点之间的距离,并据此筛选异常数据。

对于异常数据,可以替换也可以删除;特别的,在风控模型中,会通过 WOE 转换对数据进行处理,将数据分成一箱一箱的,据此可以消除异常值对整体数据的影响。

4. 什么是特征工程?有什么作用?

特征工程总体来说是对数据进行处理、转换、筛选等,对在数据 EDA 阶段发现的缺失数据、异常数据等,都会在特征工程中进行处理,另外,对于特征的衍生、组合、转换等操作也会在此进行。

特征工程的目的就是通过数据预处理、特征衍生、特征筛选从而得到规整的数据贡献度大的特征,使模型达到更好的效果。

5. 特征工程的一般步骤是什么?

特征工程的一般步骤包括数据预处理,特征转换和特征筛选三部分。

  1. 数据预处理:主要对缺失值、异常值、数据格式等进行简单的处理操作;

  2. 特征转换:对连续特征、离散特征、时间序列特征等进行转换,更进一步的,还会对特征之间进行特征组合,包括但不限于四则运算、交叉、合并等业务上的特征操作;

    例如:未婚 + 本科毕业,男生 + 有房有车

  3. 特征筛选:在上一步生成的大量的特征中筛选部分对目标变量有明显贡献的特征,常用的方法有 过滤法、包装法和嵌入法(后面会具体介绍)。

6. 特征衍生的方法有哪些?

常用的特征衍生主要包括业务上的衍生和非业务上的衍生,整理如下:

  • 业务上的特征衍生:基于对业务的深入理解,进行头脑风暴,或者整合第三方的数据进行业务上的交叉和延伸
  • 非业务上的特征衍生:抛开业务本身,对于特征可以进行四则运算、取平均/最大/最小、单位转换等操作;另外,对于类别特征,还可以进行独热编码等衍生操作。

7. 对于时间序列特征、连续特征、离散特征如何做特征转换的?

  1. 对于时间序列特征:将时间变量的维度进行分离(年/月/日/时/分/秒),或者进行简单的衍生(季度、星期、凌晨、中午等),更进一步的可以与其他变量进行组合
  2. 对于连续型特征:常用标准化、归一化、离散化等操作。评分卡模型中主要用到离散化分箱,常用的离散化方法有:卡方分箱、等频等距分箱等。
  3. 对于离散型特征:如果是无序离散可以用独热编码,如果是有序离散可以用顺序编码。如果类别数较多可以使用平均数编码

8. 如何处理样本不平衡问题?

风控模型中样本不平衡主要是因为坏样本的数量太少,坏样本受限于用户本来就较少,也因为风控策略的严格导致坏用户过少。在针对此类数据样本一般使用如下方法:

  • 尝试扩大数据集,比如通过延长时间线来收集数据,将三个月的用户数据延长到六个月以增加数据量;
  • 对数据集进行抽样,一种是进行欠采样,通过减少较多类的数据样本来降低数据的不平衡;另一种是进行过采样,通过增加较少类的数据样本来降低数据的不平衡,常用 SMOTE 方法来实现过采样;
  • 尝试使用对不平衡样本数据处理效果较好的模型,如 xgb 和 lgb 模型。

9. 特征筛选的作用和目的?

在开始建模前的最后一个步骤就是进行特征筛选,特征筛选就是从所有的特征中筛选出贡献度最高的 m 个特征,使用筛选后的特征建模后有如下好处:

  • 大大缩短模型训练的时间,特别是在评分卡模型数据维度特别多时效果更佳;
  • 简化模型,避免维度过多产生维度灾难;
  • 增加模型的可解释性,减低模型过拟合的风险。

10. 特征筛选的方法有哪些?优缺点各是什么?

特征筛选常用的方法有过滤法、封装法和嵌入法,如何如下:

10.1 过滤法 Filter:

按照发散性或者相关性对各个特征进行评分,手动设定阈值或者待选择阈值的个数,选择特征。比较常用的方法有:方差过滤、卡方齐性检验、互信息法过滤、相关系数过滤、IV 值过滤,其中,后两个较常用。

  • 优点:算法复杂度低、通用性强,不需要训练分类器,对于大规模数据集比较实用;
  • 缺点:对于特征的评分在准确率上一般较低。

10.2 嵌入法 Embedded

先使用某些机器学习算法进行模型训练,得到各个特征的权重系数,根据系数从大到小选择特征。比较常用的方法有:基于随机森林、xgb、lgb 的嵌入法和使用惩罚项的模型的嵌入法(如岭回归,lasso 回归等)

上述提到的权重系数代表特征对于模型的某种贡献或重要性,比较树模型中的 feature_importances_ 属性。

  • 优点:更加精确到模型的效用本身,对于模型性能的提升较好
  • 缺点:特征对于模型贡献度的阈值无法主观确定,需要根据实际情况确定。

10.3 包装法 Wrapper:

与嵌入法类似,包装法是一个特征选择和算法训练同时进行的方法,比较依赖于算法自身的选择。比较常用的方法有:递归消除法、启发式搜索(前向/后向选择法,逐步选择法)、随机搜索。启发式搜索较常用。

具体的,包装法在初始训练集上训练评估器,通过 coed_ 属性或者通过 feature_importances_ 属性获得每个特征的重要性;然后,从当前的一组特征中修剪最不重要的特征,重复递归该过程直到特征达到要求

  • 优点:相对于过滤法,封装法的分类性能会更好
  • 缺点:通用性不强,当改变学习算法时,需要针对该学习算法重新进行特征选择;并且对于大规模数据,执行时间较长。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据清洗、数据挖掘常见十大问题 的相关文章

  • 决策分类树算法之ID3,C4.5算法系列

    一 引言 在最开始的时候 我本来准备学习的是C4 5算法 后来发现C4 5算法的核心还是ID3算法 所以又辗转回到学习ID3算法了 因为C4 5是他的一个改进 至于是什么改进 在后面的描述中我会提到 二 ID3算法 ID3算法是一种分类决策
  • 《机器学习》二刷超详细笔记

    博主在4月学完西瓜书时 一头雾水 觉得还是一知半解 9月开学后上完了必修的 machine learning 课程 并且自己编程实现了多种机器学习算法和论文复现后 才对机器学习有一点了解 现在再次翻阅西瓜书 很多知识点看到都豁然开朗 所以出
  • 大数据与人工智能的关系

    大数据与人工智能有密切的关系 大数据可以为人工智能提供大量的训练数据 从而提高人工智能的准确性和效率 人工智能又可以帮助我们对大数据进行分析和挖掘 提取有用的信息
  • 4-2 过滤器法

    4 2 过滤器法 请参考 数据准备和特征工程 中的相关章节 调试如下代码 注意 本节内容因为要耗费比较大的内存 在线平台有可能无法支持 可以下载到本地执行 基础知识 from sklearn datasets import load iri
  • 3. 决策树原理及数学建模实战

    决策树 文章目录 一 概念 二 ID3 2 1 概念 2 2 算法流程 2 3 信息熵 2 4 特点 三 C4 5 3 1 概念 3 2 信息增益率 3 3 处理连续值 3 4 过拟合问题 3 4 1 提出 3 4 2 剪枝 四 CART
  • Python人工智能,13天快速入门机器学习教程,含14大案例(NBA球员数据分析,北京租房数据,疾病数据预测等)

    40h小时入门人工智能 带你了解人工智能的前世今生 带你掌握人工智能经典算法 可掌握核心能力 1 掌握机器学习中处理数据的方法 2 理解经典的机器学习算法原理 3 掌握机器学习中工作的具体流程 Python人工智能13天快速入门机器学习教程
  • 数据挖掘计算题-1

    一 设某事务项集构成如下表 填空完成表1中支持度和置信度的计算 1 12 15分 表1 支持度与置信度 事务ID 项集 L2 支持度 规则 置信度 T1 A D A B 1 A B 7 T2 D E A C 2 C A 8 T3 A C E
  • 浅谈数据挖掘

    一 数据挖掘起源 人们迫切希望能对海量数据进行深入分析 发现并提取隐藏在其中的信息 以更好地利用这些数据 但仅以数据库系统的录入 查询 统计等功能 无法发现数据中存在的关系和规则 无法根据现有的数据预测未来的发展趋势 更缺乏挖掘数据背后隐藏
  • 数据挖掘知识浅析

    一 什么是数据挖掘 数据挖掘是指从大量数据中提取或 挖掘 知识 数据挖掘是一种 黄金挖掘 从沙子堆中挖掘出黄金 找出最有价值的黄金 这种有机的价值物提取的过程称为 黄金挖掘 通过某种手段或者经验丰富人士 从海量的数据中找出有用的 数据 掌握
  • 软考:中级软件设计师:程序语言基础:表达式,标准分类,法律法规,程序语言特点,函数传值传址

    软考 中级软件设计师 程序语言基础 表达式 提示 系列被面试官问的问题 我自己当时不会 所以下来自己复盘一下 认真学习和总结 以应对未来更多的可能性 关于互联网大厂的笔试面试 都是需要细心准备的 1 自己的科研经历 科研内容 学习的相关领域
  • 数据分析36计(22):分析师入门常见错误 "幸存者偏差",如何用匹配和加权法规避...

    在日常功能迭代分析中 一般会直接看使用该功能和未使用该功能的用户在成功指标上的表现 将两组数据求个差异值就得出功能的效果结论 但是有敏锐的分析师会发现 功能大部分情况下有筛选效应 即使用该功能的用户可能本身质量比较高 活跃比较频繁 用以上的
  • 全网最详细的Python安装教程,超级详细·小白秒懂!!!

    目录 1 安装版本说明 2 准备工作 确定操作系统及位数 2 1 确定方法1 2 2 确定方法2 3 下载Python安装包 4 安装Python 5 测试Python是否安装成功 6 Python安装成功后找不到编写代码的桌面快捷方式 7
  • 判断API接口优劣的标准

    随着互联网的发展 API接口已经成为了应用程序之间进行数据交互的重要方式 然而 在众多的API接口中 如何判断其优劣呢 本文将介绍一些判断API接口优劣的标准 一 稳定性和可用性 一个优秀的API接口必须具备稳定性和可用性 稳定性是指接口在
  • 天猫数据分析-天猫查数据软件-11月天猫平台饮料市场品牌及店铺销量销额数据分析

    今年以来 饮料是快消品行业中少数保持稳定增长的品类之一 11月份 饮料市场同样呈现较好的增长态势 根据鲸参谋电商数据分析平台的相关数据显示 今年11月份 天猫平台上饮料市场的销量为2700万 环比增长约42 同比增长约28 销售额为13亿
  • ResNet实战:CIFAR-10数据集分类

    本节将使用ResNet实现CIFAR 10数据集分类 7 2 1 CIFAR 10 数据集简介 CIFAR 10数据集共有60000幅彩色图像 这些图像是32 32像素的 分为10个类 每类6000幅图 这里面有50000幅用于训练 构成了
  • Pendulum详解1——Pendulum库入门指南 - 时光的艺术

    写在开头 时间 是编程世界中不可或缺的元素 无论是事件调度 数据分析 还是用户界面的显示 时间都扮演着关键的角色 然而 在Python的标准库 datetime 中 我们经常面临繁琐的操作和限制 为了摆脱这些束缚 我们引入了一个更加强大和灵
  • 振弦采集仪在地基沉降监测中的应用研究

    振弦采集仪在地基沉降监测中的应用研究 振弦采集仪是一种专门用于测量地基沉降的仪器 它采用振弦原理来测量地基的沉降情况 振弦采集仪通过在地基上安装一根细长的弹性振弦 并测量振弦的变形来获得地基沉降的数据 在地基沉降监测中 振弦采集仪可以提供精
  • 欢迎来到阿清的数据分析求职分享

    大家好 我是阿清 在这里 我将与大家分享关于数据分析岗位求职路上的点点滴滴 包括行业和岗位的深入见解 求职技巧 面试准备方法 以及实战案例分析等等 关于我 正经工作履历 2015年东南大学计算机专业研究生毕业 校招身份加入了阿里 最初参与面
  • 数据分析求职-岗位介绍

    这是咱们干货开始的第一篇文章 后续我尽量会保持日更的节奏和大家做分享 在未来所有分享的内容展开之前 咱们有必要先彻底 深入地了解下数据分析这个岗位 如果你还在犹豫是否要走数据分析的路 或者你已经拿了数据分析的offer想了解下将来会做什么
  • 天猫数据分析工具推荐(天猫第三方数据平台)

    在电商迅速发展的大背景下 做好天猫数据分析能够在多方面帮助品牌商家更好地运营店铺 塑造品牌 如通过数据分析了解消费者的需求 购买偏好 这有利于品牌商家及时调整商品结构 产品推广 商品宣传等等 灵活制定品牌的销售策略 那么 天猫平台行业 品牌

随机推荐

  • githubC++ 技术方向基础知识总结

    简介 面向 C C 技术方向校招求职者 初学者的基础知识总结 包括语言 程序库 数据结构 算法 系统 网络 链接装载库等知识及面试经验 招聘 内推等信息 github 传送门
  • spring学习笔记(十二)Spring注入内部Bean

    Java 中在类内部定义的类称为内部类 同理在 Bean 中定义的 Bean 称为内部 Bean 注入内部 Bean 使用
  • 带你深入了解NPM——NPM初学者指南

    前段时间 我们邀请了我们 城内 葡萄城 资深开发工程师刘涛为大家分享了一次干货满满的关于Electron线上公开课 在课程过程中有不少同学对于NPM的概念和用法有一些疑问 所以这次我们希望通过这篇文章来解答各位同学的问题 另外在介绍的基础上
  • 2021-11-09

    今天是我写博客的第一天 在这里我想先说一说的对于C语言的看法以及我对于我自己的看法 开通这个博客 最主要的是为了记录我对于C语言学习的不断进步过程以及积累过程 我深知想要学好一门一门新的学科是很艰难的 但是我也知道C语言对于现代发展又是及其
  • uniapp 使用echarts

    uniapp 如何使用 echarts 图标 1 引入 文件 主要这三个文件 2 在使用到的页面 注册使用 3 html 结构 ec 对应绑定的是 data 中的 ec 效果图 全部代码
  • STM32 RT-Thread 系统分析(3)-线程管理之线程切换(系统移植基础篇二)

    线程管理之线程切换 前言 基本信息 前言说明 rt hw context switch to 函数 关键代码分析 还原MSP值 复位序列 LDR r0 SCB VTOR LDR r0 r0 startup stm32f103xg S文件内容
  • 面向对象的设计思想

    面向对象的设计思想 OO思想 Object Oriented 1 看到一个需求的时候不应该直接写代码 应该先考虑有哪些类 2 考虑类的时候 类一定是一类事务的描述 不能太局限 3 考虑类的时候需要考虑主要的类 也就是需要和业务 动作 事件紧
  • 编写程序,对输入的一个整数,按相反顺序输出该数。例如,输入为 3578, 输出为 8753。...

    编写程序 对输入的一个整数 按相反顺序输出该数 例如 输入为 3578 输出为 8753 package HomeWork08 import java util Scanner public class HomeWork08 public
  • NIFI使用InvokeHTTP发送http请求

    说明 这里介绍四种平时常用的http请求方法 GET POST PUT DELETE 在官方的介绍文档中关于InvokeHTTP处理器的描述是这么说的 An HTTP client processor which can interact
  • HDU - 1020 Encoding

    Given a string containing only A Z we could encode it using the following method Each sub string containing k same chara
  • IDEA 安装插件IDE Eval Reset

    IDE Eval Reset是什么 idea eval reset是Jetbrains的插件 官方良心产品 会允许我们试用30天 可以借此重新刷新idea正版程序的使用期限 哈哈哈 爽到没朋友 具体操作 1 点击intelliJ IDEA
  • [开源协议]58种开源协议及分类

    转载自 http www opensource org licenses alphabetical 更多关于具体协议内容请看其链接 Licenses that are popular and widely used or with stro
  • Linux、Ubuntu下安装yaml, 关于Import Error: No module named yaml

    pip install pyyaml 如果不行的话 就 conda install yaml 最后 gt gt gt import yaml 没有报错就成功了
  • mingw64镜像网站

    mingw64镜像网站 http files 1f0 de mingw
  • UIBOT的简单使用

    最近项目上使用到一个新的技术软件 刚一阶段使用结束 用来记录下 首先我们了解下UIbot 这里我直接放上下载社区版本的官方地址 来也科技RPA AI智能自动化平台 助力政企实现智能时代的人机协同 首先需要用邮箱注册 然后直接安装社区版本 这
  • 【毕设教程】FCM模糊聚类算法

    文章目录 0 前言 1 如何理解模糊聚类 2 模糊C means聚类算法 3 FCM算法原理 4 Python FCM支持 4 1 安装相关库 4 2 skfuzzy cmeans函数说明 4 3 代码实现 4 4 运行结果 5 FCM算法
  • C++stringstream的简单介绍以及使用

    在C语言中 如果想要将一个整形变量的数据转化为字符串格式可以使用以下两种方式 1 itoa 函数 2sprint 函数 但是两个函数在转化时 都得需要先给出保存结果的空间 那空间要给多大呢 就不太好界定 而且转化格式不匹配时 可能还会得到错
  • matlab打开视频文件并提取颜色数据

    目标 实现加载任意视频文件 并按帧取指定图像区域的某颜色值代表该区域的颜色值 1 加载视频文件 加载视频文件使用函数VideoReader 输入为文件夹路径 返回为一个VideoReader对象 具体使用方法见创建对象以读取视频文件 MAT
  • 离散数学主析取范式及主合取范式

    今天总结了一下关于离散数学化简主析取范式以及主合取范式的一些方法 首先一般可能会用到 分配律 A B C lt gt A B A C A B C lt gt A B A C 其次若化简式里有蕴涵符号 则可以用 蕴涵等值式 A B lt gt
  • 数据清洗、数据挖掘常见十大问题

    数据清洗 数据挖掘常见十大问题 一 数据预处理 数据清洗和特征工程 二 数据预处理和特征工程阶段 最常见的10个问题 1 什么是数据 EDA 2 缺失值的处理方式有哪些 3 如何检测异常数据 如何处理 4 什么是特征工程 有什么作用 5 特