机器学习——数据探索大致流程

2023-10-31

什么是EDA

  • 在拿到数据后,首先要进行的是数据探索性分析(Exploratory Data Analysis),它可以有效的帮助我们熟悉数据集、了解数据集。初步分析变量间的相互关系以及变量与预测值之间的关系,并且对数据进行初步处理,如:数据的异常和缺失处理等,以便使数据集的结构和特征让接下来的预测问题更加可靠。
  • 并且对数据的探索分析还可以:
    • 1.获得有关数据清理的宝贵灵感(缺失值处理,特征降维…)
    • 2.获得特征工程的启发
    • 3.获得对数据集的感性认识
    • 意义:数据决定了问题能够被解决的最大上限,而模型只决定如何逼近这个上限。

EDA流程

  • 1、载入数据并简略观察数据
  • 2、总览数据概况
    • 在 describe 中有每一列的统计量、均值、标准差、最小值、中位数25% 50% 75%以及最大值。可以帮助我们快速掌握数据的大概范围和数据的异常判断。
    • 通过 info 来了解每列的 type 和是否存在缺失数据。
    • 通过 isnull().sum() 查看每列缺失情况
  • 3、通过 describe 和 matplotlib 可视化查看数据的相关统计量(柱状图)
    • 重点查看方差为0或者极低的特征
      在这里插入图片描述
  • 4、缺失值处理
  • 5、查看目标数据的分布
    • 重点查看是否有
      • 分类:类别分布不均衡
        • 可以考虑使用过抽样处理
      • 回归:离群点数据
        • 可以考虑将离群点数据去除
    • 存在着一些特别大或者特别小的值,这些可能是离群点或记录错误点,对我们结果会有一些影响的。那我们是需要将离群点数据进行过滤的。
      • 离群点:离群点是指一个数据序列中,远离序列的一般水平的极端大值和极端小值,且这些值会对整个数据的分析产生异常的影响
  • 6、特征分布
    • 绘制数字特征的分布(直方图)
      • 可以观测特征为连续性和还是离散型特征
      • 可以观测特征数值的分布、
      • 是否有离群点
        在这里插入图片描述
    • 绘制类别特征的分布(柱状图)
      • 查看该特征中是否有稀疏类,在构建模型时,稀疏类往往会出现问题当然也不是绝对的。如果当前特征比较重要则可以将特征的稀疏类数据删除
        在这里插入图片描述
  • 7、查看特征于特征之间的相关性(热力图)
    • 相关性强的特征就是冗余特征可以考虑去除。通常认为相关系数大于0.5的为强相关。
  • 8、查看特征和目标的相关性,正负相关性越强则特征对结果影响的权重越高,特征越重要。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习——数据探索大致流程 的相关文章

随机推荐

  • jdk1.8的安装和环境变量的配置最新版(超详细,保姆级教程)

    目录 一 JDK的下载和安装 1 JDK的下载 1 方式一 通过下面的链接地址直接下载jdk1 8版本 2 方式二 通过Oracle官网进行下载 2 jdk的安装 二 环境变量的配置 1 通过jdk路径配置环境变量 2 通过JAVA HOM
  • 剑指Offer53Java代码

    public class T53 public static boolean match String str String pattern if str null pattern null return false return matc
  • leetcode85 合并两个有序数组

    题目 给你两个按 非递减顺序 排列的整数数组 nums1 和 nums2 另有两个整数 m 和 n 分别表示 nums1 和 nums2 中的元素数目 请你 合并 nums2 到 nums1 中 使合并后的数组同样按 非递减顺序 排列 注意
  • static在c语言中是什么意思,在C语言中static有什么含义

    2019 10 10阅读 64 最主要有两点用途 让一个变量长期有效 而不管其是在什么地方被申明 比如 intfun1 staticints value 0 那么fun1不管在什么地方被调用 当函数退出后 s value最后的值将一直会被系
  • MR(MapReduce)架构

    一 什么是MR MapReduce将复杂的 运行于大规模集群上的并行计算过程高度地抽了两个函数 Map和Reduce 二 为什么使用MR 特点 1 易于编程 只关心业务逻辑 它简单的实现一些接口 就可以完成一个分布式程序 2 良好的扩展性
  • 算法面试-深度学习基础面试题整理(2023.8.29开始)

    一 无监督相关 聚类 异常检测 1 常见的距离度量方法有哪些 写一下距离计算公式 1 连续数据的距离计算 闵可夫斯基距离家族 当p 1时 为曼哈顿距离 p 2时 为欧式距离 p gt 时 就是切比雪夫距离 余弦距离 其中 A 和B是要比较的
  • Java8 consumer接口

    Java8 consumer接口 1 由来 Consumer是Java 8中的一个函数式接口 它属于java util function包 该接口定义了一个具有单个输入参数并且没有返回值的操作方法accept 2 官方常见五种示例命令和说明
  • 大数据技术与原理 概述

    大数据概述 大数据的发展历程 第一阶段 萌芽期 20世纪90年代至21世纪初 第二阶段 成熟期 21世纪前十年 第三阶段 大规模应用期 2010年以后 大数据的特点 简称4V 数据量大 数据类型多 处理速度快 价值密度低 大数据的特征 全面
  • Makefile 中gcc -lm -ldl是什么意思?

    gcc lm ldl是什么意思 包含动态链接库 到书上出现gcc lm 的选项 甚是不解 在网上查阅了一些资料 访问了一些论坛整理下 初学linux和gcc C代码调用math h中的函数有问题 如sqrt函数 若如sqrt 3 0 则可以
  • ros-sensor_msgs::PointCloud2类型消息解读

    ROS中sensor msgs PointCloud2类型消息解读 实例 header seq 2116 stamp secs 1586919439 nsecs 448866652 frame id LidarSensor1 height
  • Kubernetes系列(二)架构及特性

    在了解了k8s的发展历程之后 正式进入到学习k8s的阶段 本文主要内容是K8S的整体架构的说明和K8S一些特性的概括 架构 如下图是K8S的整体架构图 Kubernetes属于主从分布式架构 主要由Master Node和Worker No
  • 线程中捕获异常

    总结 正常线程抛出异常时 在外部是捕捉不到的 当此类异常跑抛出时 线程就会终结 而对于主线程和其他线程完全不受影响 且完全感知不到某个线程抛出的异常 也是说完全无法catch到这个异常 解决方案 为线程添加未捕获异常处理器 Uncaught
  • 关于错误 TypeError: ‘list‘ object is not callable 的解决办法

    在使用类型转换的过程中 运行以下代码产生了错误 1 tuple 将一个序列转换成元组 list 10 20 30 tuple tuple list print tuple print type tuple 2 list 将一个序列转换成列表
  • ip68能达到什么程度防水_IP68级防水能防多少米

    IPX8级防水8是厂商自定义的 具体防水深度由客户根据对自身产品的了解以及要求而定 IP68是连接器防水等级标准的最高级别 大家都知道 看防水连接器防水性能如何 主要看IPXX的后面两位数字XX 第一位X是从0到6 最高等级为6 第2位X是
  • ERROR Fatal error during KafkaServer startup. Prepare to shutdown (kafka.server.KafkaServer) kafka.c

    kafka启动时报错如下 2021 12 28 23 35 02 165 ERROR Fatal error during KafkaServer startup Prepare to shutdown kafka server Kafka
  • 必须收藏!Node.js下载(全版本秒下载!)

    全版本都有包含 windows Linux 源码等 根据文件夹名称进行挑选 下载 网址 https nodejs org dist 如何解决了您的问题 欢迎关注我 还希望来JAVA WEB开发交流群 958923746 有问题欢迎共享 共同
  • GTSRB数据集

    GTSRB数据集数据集XML格式现已整理完毕
  • matlab经验模态分解代码_Matlab中的模态分析

    频响函数FRF是如何得这个问题很难吗 回忆了一下 其实对新手来说确实蛮难的 虽然课本上将了一堆模态分析 但是我们都是用较为成熟的商业软件进行 只需要对软件 点点点 即可 勒博其实为此困扰过很久 今天勒博就简单讲讲我们一般说的模态分析 1 勒
  • 互联网金融青年会成立一周年庆典在京举办

    2015年11月15日 互联网金融 北京 高峰论坛暨互联网金融青年会成立一周年庆典在京举办 2015年是互联网金融发展历程中颇具意义的一年 随着行业指导意见的发布 监管框架越来越明晰 在互联网金融即将告别无序进入有序的当下 本次活动以 路越
  • 机器学习——数据探索大致流程

    什么是EDA 在拿到数据后 首先要进行的是数据探索性分析 Exploratory Data Analysis 它可以有效的帮助我们熟悉数据集 了解数据集 初步分析变量间的相互关系以及变量与预测值之间的关系 并且对数据进行初步处理 如 数据的