数据挖掘:探索性数据分析(EDA)

2023-11-13

数据挖掘:探索性数据分析(EDA)

在这里插入图片描述

一、什么是探索性数据分析

EDA (Exploratory Data Analysis),即对数据进行探索性的分析。充分了解数据,为之后的数据清洗和特征工程等提供想法和结论。在探索分析时,也可进行数据清洗的工作,两者是相辅相成的,没有说必须按照顺序去执行主要包括以下三个方面:分布分析,统计量分析和相关分析。
分布分析:定量定性分析。
统计量分析:集中,离散趋势和分布形状。
相关分析:单个图,图矩阵,相关系数。

另外,在比赛中可能会遇到脱敏数据。不告知数据的特征是什么,比如。阿里天池的工业蒸汽的数据本文主要讨论非脱敏数据,会在后续的文章对脱敏数据的一般处理方式进行说明。

  • 充分了解数据:
    1.了解数据的外部信息。即数据的现实意义。可通过比赛数据说明和上网百度、谷歌相关的业务数据知识得到。
    2.了解数据的内部信息。即数据的自身情况。可通过统计学的相关知识,如计算均值,标准差,峰度,偏度等。另外,也可以通过绘图,来深入了解数据,为创建有效特征提供思路。

二、数据外部信息

这部分主要参考比赛数据业务知识自己对数据的理解
比如,有身高和体重的数据,那么我们通过上网查找资料,得知将身体,体重带入某一公式,可以得出当前人的健康水平。这样我们就创建了一个更好的特征。
再举一个例子,电影评分的数据。通过上网查资料,或是平时对这方面数据的理解,可以得知IMDB的电影评分公式,将数据代入这个公式,可以创建一个不错的特征。
另外,也可以展开头脑风暴,创建大量的特征,有的没有都有,然后,进行特征选择。有时会有意想不到的效果。(但你也不知道为啥这个特征会有帮助。。。T^T)

三、数据内部信息

这里区分为单特征分析多特征分析。利用的方法包括统计学相关知识和数据可视化。
对于文本、图形、音频等非结构数据会在后续的文章中进行说明。本文主要探索结构性数据(简单理解就是全是数字的数据……)

读取数据后,可用pandas里的一些函数对数据有个大致的了解。常用的有如下几个函数:

# df是导入的数据
df.describe() # 查看所有数据平均值,四分位数等信息
df.info() # 查看所有数据的数据类型和非空值个数。
df.shape # 查看数据行列数
df.isnull()
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘:探索性数据分析(EDA) 的相关文章

随机推荐

  • Doris-07-索引的详细介绍(前缀索引、Ordinal索引、Zone Map索引、Bitmap索引、Bloom Filter索引、NGram BloomFilter索引、倒排索引)

    文章目录 索引 介绍 前缀索引 索引生成 查询过滤 Ordinal 索引 索引生成 查询过滤 Zone Map 索引 索引生成 查询过滤 Bitmap 索引 索引生成 查询过滤 适用场景 Bloom Filter 索引 索引生成 查询过滤
  • 设置myeclipse中.properties文件的编码方式

    打开myeclipse的 Window gt Perferences gt General gt Editors gt Context Types 或者 Window gt Perferences gt General gt Context
  • fluuter 包管理

    在pubspec yaml文件中 dependencies 字段下添加开发依赖 然后 运行 flutter pub get 获取依赖包
  • 编译 openwrt 及初始配置-及部分排错

    主机为 ubuntu 14 x64 硬件 优酷土豆宝 cpuMT7620A 内存128M flash 32M 有2个源 用哪个也可以 git clone https github com openwrt openwrt git git cl
  • baidu apollo(1)—启动环境分析

    apollo平台 1 5 目前是基于ros框架来实现 外围丰富了各种自己的感知 认知 决策 规划模块 docker 环境配置 bash docker scripts install docker sh install docker sh主要
  • Linux指令学习(CentOs6.5)tail指令

    本文转载至 CentOS里tail命令详解 tail 名称 tail output the last part of files 输出文件最后的那部分内容 功能描述 tail命令从指定点开始将文件写到标准输出 使用 f选项可以方便的查阅正在
  • 基于YOLOv7的室内场景智能识别系统(源码&教程)

    1 项目背景 近年来 随着移动互联网与定位技术的发展 基于位置服务越来越多地出现在人们的日常生活中 虽然智能手机都包含很多基于位置服务的应用 但是传统的基于位置服务常常将服务范围划分为室内与室外两种场景 室内外无缝定位系统是人们关注及研究的
  • STM32CubeMX配置GPIO外部中断

    前言 用PA0来检测按键的输入信号 当按键按下时会由低电平变为高电平 1 配置RCC时钟 将RCC的High Speed Clock HSE 配置为Crystal Ceramic Resonator 将主频设置为72MHz 2 配置GPIO
  • 将Qt、OpenGL、GLSL以及Qt的Graphics-View框架组合

    将Qt OpenGL GLSL以及Qt的Graphics View框架结合 将Qt OpenGL GLSL以及Qt的Graphics View框架结合 九月份都快过去了 学生们也都开学了 我想校园也会热闹许多吧 在希赛上也相应地热闹了一些
  • nginx--启动脚本

    bin bash Use Startup script for the nginx HTTP Server Definition Global environment variable IFS t n unset f unalias una
  • 瞎玩物联网系列--Hello 树莓派

    条件 Raspberry Pi 3b 32G存储卡 mac 网线 面包板 led灯 杜邦线 传感器若干 系统安装 各种下载 官方镜像下载 树莓派实验室地址 刻录工具 etcher Microsoft Remote Desktop for M
  • 二叉搜索树的定义、查找、插入和删除

    二叉搜索树的定义 查找 插入和删除 原创 2016年07月21日 21 59 00 二叉搜索树的定义 二叉搜索树 也称有序二叉树 排序二叉树 是指一棵空树或者具有下列性质的二叉树 1 若任意节点的左子树不空 则左子树上所有结点的值均小于它的
  • 不用swap分区,用交换文件(转)

    不用swap分区 用交换文件 转 more 安装linux时 一般系统都要求划分一个分区作为交换分区 但现时大家的电脑内存一般都很大 系统交换文件的机会会越来越少 就以我的来说 本人安装的是redhat linux V7 3 内存是256M
  • BGP距离协议①

    边界网关协议 边界网关协议分为内部网关协议和外部网关协议 IGP 内部网关协议 RIP OSPF EGP 外部网关协议 BGP AS自治系统 由单一的机构 组织所管理的一系列IP网络及设备所构成的集合 使用AS自治系统来划分内部和外部网关协
  • 数据库原理 具有检查点的恢复技术

    1 为什么需要检查点 搜索整个日志文件需要耗费的时间很多 重做处理 重新执行 耗费了大量的时间 2 解决方案是什么 在日志文件中增加检查点 check point 记录 增加重新开始文件 恢复子系统在登录日志文件期间动态的维护日志 3 检查
  • CPU测试相关工具搜集

    CPU测试相关工具搜集 一 y cruncher CPU性能测试工具 二 CPU Z CPU参数查看工具 三 cachesize 读取CPU Cache信息 四 Flops CPU浮点运算性能测试工具 五 Open Hardware Mon
  • IDEA找不到Maven窗口

    有时候导入项目或者创建项目时候Maven窗口找不到了 然后指定项目的pom xml文件
  • 缘结西安

    2021年6月1日上午 CSDN创始人 董事长蒋涛 首席运营官钟晖 副总裁李超 长沙首席技术官陈玉龙 高校俱乐部负责人张建龙 市场总监段思倍等到达西安思源学院 与学校就校企合作达成共识 正式结为校企战略合作伙伴 下午 CSDN董事长蒋涛以
  • C++基础——拷贝构造函数

    前言 在上篇文章中 我简单介绍了一下类的两大特殊函数 构造函数和析构函数 构造函数主要用来进行对象的成员变量初始化操作 而析构函数主要用来对战斗后的战场做清理工作 当我们不写这些函数时 编译器会自动生成默认的构造与析构函数 帮助我们合理的运
  • 数据挖掘:探索性数据分析(EDA)

    数据挖掘 探索性数据分析 EDA 一 什么是探索性数据分析 EDA Exploratory Data Analysis 即对数据进行探索性的分析 充分了解数据 为之后的数据清洗和特征工程等提供想法和结论 在探索分析时 也可进行数据清洗的工作