数据挖掘：探索性数据分析(EDA)

2023-11-13

数据挖掘：探索性数据分析(EDA)

在这里插入图片描述

一、什么是探索性数据分析

EDA (Exploratory Data Analysis)，即对数据进行探索性的分析。充分了解数据，为之后的数据清洗和特征工程等提供想法和结论。在探索分析时，也可进行数据清洗的工作，两者是相辅相成的，没有说必须按照顺序去执行。主要包括以下三个方面：分布分析，统计量分析和相关分析。
分布分析：定量定性分析。
统计量分析：集中，离散趋势和分布形状。
相关分析：单个图，图矩阵，相关系数。

另外，在比赛中可能会遇到脱敏数据。不告知数据的特征是什么，比如。阿里天池的工业蒸汽的数据本文主要讨论非脱敏数据，会在后续的文章对脱敏数据的一般处理方式进行说明。

充分了解数据：
1.了解数据的外部信息。即数据的现实意义。可通过比赛数据说明和上网百度、谷歌相关的业务数据知识得到。
2.了解数据的内部信息。即数据的自身情况。可通过统计学的相关知识，如计算均值，标准差，峰度，偏度等。另外，也可以通过绘图，来深入了解数据，为创建有效特征提供思路。

二、数据外部信息

这部分主要参考比赛数据，业务知识和自己对数据的理解。
比如，有身高和体重的数据，那么我们通过上网查找资料，得知将身体，体重带入某一公式，可以得出当前人的健康水平。这样我们就创建了一个更好的特征。
再举一个例子，电影评分的数据。通过上网查资料，或是平时对这方面数据的理解，可以得知IMDB的电影评分公式，将数据代入这个公式，可以创建一个不错的特征。
另外，也可以展开头脑风暴，创建大量的特征，有的没有都有，然后，进行特征选择。有时会有意想不到的效果。（但你也不知道为啥这个特征会有帮助。。。T^T）

三、数据内部信息

这里区分为单特征分析和多特征分析。利用的方法包括统计学相关知识和数据可视化。
对于文本、图形、音频等非结构数据会在后续的文章中进行说明。本文主要探索结构性数据（简单理解就是全是数字的数据……）

读取数据后，可用pandas里的一些函数对数据有个大致的了解。常用的有如下几个函数：

# df是导入的数据
df.describe() # 查看所有数据平均值，四分位数等信息
df.info() # 查看所有数据的数据类型和非空值个数。
df.shape # 查看数据行列数
df.isnull()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘

统计学

python

可视化

数据分析

数据挖掘：探索性数据分析(EDA) 的相关文章

如何使用 opencv.omnidir 模块对鱼眼图像进行去扭曲

我正在尝试使用全向模块 http docs opencv org trunk db dd2 namespacecv 1 1omnidir html用于对鱼眼图像进行扭曲处理Python 我正在尝试适应这一点C 教程 http docs op
用枢轴点拟合曲线 Python

我有下面的图我想用 2 条线来拟合它使用 python 我设法适应上半部分 def func x a b x np array x return a x b popt pcov curve fit func up x up y 我想用另
Pandas 日期时间格式

是否可以用零后缀表示 pd to datetime 似乎零被删除了 print pd to datetime 2000 07 26 14 21 00 00000 format Y m d H M S f 结果是 2000 07 26 14
Python zmq SUB 套接字未接收 MQL5 Zmq PUB 套接字

我正在尝试在 MQL5 中设置一个 PUB 套接字并在 Python 中设置一个 SUB 套接字来接收消息我在 MQL5 中有这个 include
将 python2.7 与 Emacs 24.3 和 python-mode.el 一起使用

我是 Emacs 新手我正在尝试设置我的 python 环境到目前为止我已经了解到在 python 缓冲区中使用 python mode el C c C c将当前缓冲区的内容加载到交互式 python shell 中显然使用了什么
使用Python请求登录Google帐户

在多个登录页面上需要谷歌登录才能继续我想用requestspython 中的库以便让我自己登录通常这很容易使用requests库但是我无法让它工作我不确定这是否是由于 Google 做出的一些限制也许我需要使用他们的 API 或
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
如何在不丢失注释和格式的情况下更新 YAML 文件 / Python 中的 YAML 自动重构

我想在 Python 中更新 YAML 文件值而不丢失 Python 中的格式和注释例如我想改造 YAML 文件 value 456 nice value to value 6 nice value 界面类似于 y yaml load
如何通过索引列表从 dask 数据框中选择数据？

我想根据索引列表从 dask 数据框中选择行我怎样才能做到这一点 Example 假设我有以下 dask 数据框 dict A 1 2 3 4 5 6 7 B 2 3 4 5 6 7 8 index x1 a2 x3 c4 x5 y6 x
如何使用 pybrain 黑盒优化训练神经网络来处理监督数据集？

我玩了一下 pybrain 了解如何生成具有自定义架构的神经网络并使用反向传播算法将它们训练为监督数据集然而我对优化算法以及任务学习代理和环境的概念感到困惑例如我将如何实现一个神经网络例如 1 以使用 pybrain 遗传算法
pip 列出活动 virtualenv 中的全局包

将 pip 从 1 4 x 升级到 1 5 后pip freeze输出我的全局安装系统软件包的列表而不是我的 virtualenv 中安装的软件包的列表我尝试再次降级到 1 4 但这并不能解决我的问题这有点类似于这个问题 http
Python3 在 DirectX 游戏中移动鼠标

我正在尝试构建一个在 DirectX 游戏中执行一些操作的脚本除了移动鼠标之外我一切都正常是否有任何可用的模块可以移动鼠标适用于 Windows python 3 Thanks I used pynput https pypi or
如何断言 Unittest 上的可迭代对象不为空？

向服务提交查询后我会收到一本字典或一个列表我想确保它不为空我使用Python 2 7 我很惊讶没有任何assertEmpty方法为unittest TestCase类实例现有的替代方案看起来并不正确 self assertTrue
Python：XML 内所有标签名称中的字符串替换（将连字符替换为下划线）

我有一个格式不太好的 XML 标签名称内有连字符我想用下划线替换它以便能够与 lxml objectify 一起使用我想替换所有标签名称包括嵌套的子标签示例 XML
实现 XGboost 自定义目标函数

我正在尝试使用 XGboost 实现自定义目标函数在 R 中但我也使用 python 所以有关 python 的任何反馈也很好我创建了一个返回梯度和粗麻布的函数它工作正常但是当我尝试运行 xgb train 时它不起作用然后我
模拟pytest中的异常终止

我的多线程应用程序遇到了一个错误主线程的任何异常终止例如未捕获的异常或某些信号都会导致其他线程之一死锁并阻止进程干净退出我解决了这个问题但我想添加一个测试来防止回归但是我不知道如何在 pytest 中模拟异常终止如果我只
在 JavaScript 函数的 Django 模板中转义字符串参数

我有一个 JavaScript 函数它返回一组对象 return Func id name 例如我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事有什么解
cv2.VideoWriter：请求一个元组作为 Size 参数，然后拒绝它

我正在使用 OpenCV 4 0 和 Python 3 7 创建延时视频构造 VideoWriter 对象时文档表示 Size 参数应该是一个元组当我给它一个元组时它拒绝它当我尝试用其他东西替换它时它不会接受它因为它说参数不是
Kivy - 单击按钮时编辑标签

我希望 Button1 在单击时编辑标签 etykietka 但我不知道如何操作你有什么想法吗 class Zastepstwa App def build self lista WebOps getList layout BoxLayo
使用随机放置的 NaN 创建示例 numpy 数组

出于测试目的我想创建一个M by Nnumpy 数组与c随机放置的 NaN import numpy as np M 10 N 5 c 15 A np random randn M N A mask np nan 我在创建时遇到问题mas

随机推荐

Doris-07-索引的详细介绍(前缀索引、Ordinal索引、Zone Map索引、Bitmap索引、Bloom Filter索引、NGram BloomFilter索引、倒排索引)

文章目录索引介绍前缀索引索引生成查询过滤 Ordinal 索引索引生成查询过滤 Zone Map 索引索引生成查询过滤 Bitmap 索引索引生成查询过滤适用场景 Bloom Filter 索引索引生成查询过滤
设置myeclipse中.properties文件的编码方式

打开myeclipse的 Window gt Perferences gt General gt Editors gt Context Types 或者 Window gt Perferences gt General gt Context
fluuter 包管理

在pubspec yaml文件中 dependencies 字段下添加开发依赖然后运行 flutter pub get 获取依赖包
编译 openwrt 及初始配置-及部分排错

主机为 ubuntu 14 x64 硬件优酷土豆宝 cpuMT7620A 内存128M flash 32M 有2个源用哪个也可以 git clone https github com openwrt openwrt git git cl
baidu apollo(1)—启动环境分析

apollo平台 1 5 目前是基于ros框架来实现外围丰富了各种自己的感知认知决策规划模块 docker 环境配置 bash docker scripts install docker sh install docker sh主要
Linux指令学习（CentOs6.5）tail指令

本文转载至 CentOS里tail命令详解 tail 名称 tail output the last part of files 输出文件最后的那部分内容功能描述 tail命令从指定点开始将文件写到标准输出使用 f选项可以方便的查阅正在
基于YOLOv7的室内场景智能识别系统（源码＆教程）

1 项目背景近年来随着移动互联网与定位技术的发展基于位置服务越来越多地出现在人们的日常生活中虽然智能手机都包含很多基于位置服务的应用但是传统的基于位置服务常常将服务范围划分为室内与室外两种场景室内外无缝定位系统是人们关注及研究的
STM32CubeMX配置GPIO外部中断

前言用PA0来检测按键的输入信号当按键按下时会由低电平变为高电平 1 配置RCC时钟将RCC的High Speed Clock HSE 配置为Crystal Ceramic Resonator 将主频设置为72MHz 2 配置GPIO
将Qt、OpenGL、GLSL以及Qt的Graphics-View框架组合

将Qt OpenGL GLSL以及Qt的Graphics View框架结合将Qt OpenGL GLSL以及Qt的Graphics View框架结合九月份都快过去了学生们也都开学了我想校园也会热闹许多吧在希赛上也相应地热闹了一些
nginx--启动脚本

bin bash Use Startup script for the nginx HTTP Server Definition Global environment variable IFS t n unset f unalias una
瞎玩物联网系列--Hello 树莓派

条件 Raspberry Pi 3b 32G存储卡 mac 网线面包板 led灯杜邦线传感器若干系统安装各种下载官方镜像下载树莓派实验室地址刻录工具 etcher Microsoft Remote Desktop for M
二叉搜索树的定义、查找、插入和删除

二叉搜索树的定义查找插入和删除原创 2016年07月21日 21 59 00 二叉搜索树的定义二叉搜索树也称有序二叉树排序二叉树是指一棵空树或者具有下列性质的二叉树 1 若任意节点的左子树不空则左子树上所有结点的值均小于它的
不用swap分区，用交换文件(转)

不用swap分区用交换文件转 more 安装linux时一般系统都要求划分一个分区作为交换分区但现时大家的电脑内存一般都很大系统交换文件的机会会越来越少就以我的来说本人安装的是redhat linux V7 3 内存是256M
BGP距离协议①

边界网关协议边界网关协议分为内部网关协议和外部网关协议 IGP 内部网关协议 RIP OSPF EGP 外部网关协议 BGP AS自治系统由单一的机构组织所管理的一系列IP网络及设备所构成的集合使用AS自治系统来划分内部和外部网关协
数据库原理具有检查点的恢复技术

1 为什么需要检查点搜索整个日志文件需要耗费的时间很多重做处理重新执行耗费了大量的时间 2 解决方案是什么在日志文件中增加检查点 check point 记录增加重新开始文件恢复子系统在登录日志文件期间动态的维护日志 3 检查
CPU测试相关工具搜集

CPU测试相关工具搜集一 y cruncher CPU性能测试工具二 CPU Z CPU参数查看工具三 cachesize 读取CPU Cache信息四 Flops CPU浮点运算性能测试工具五 Open Hardware Mon
IDEA找不到Maven窗口

有时候导入项目或者创建项目时候Maven窗口找不到了然后指定项目的pom xml文件
缘结西安

2021年6月1日上午 CSDN创始人董事长蒋涛首席运营官钟晖副总裁李超长沙首席技术官陈玉龙高校俱乐部负责人张建龙市场总监段思倍等到达西安思源学院与学校就校企合作达成共识正式结为校企战略合作伙伴下午 CSDN董事长蒋涛以
C++基础——拷贝构造函数

前言在上篇文章中我简单介绍了一下类的两大特殊函数构造函数和析构函数构造函数主要用来进行对象的成员变量初始化操作而析构函数主要用来对战斗后的战场做清理工作当我们不写这些函数时编译器会自动生成默认的构造与析构函数帮助我们合理的运
数据挖掘：探索性数据分析(EDA)

数据挖掘探索性数据分析 EDA 一什么是探索性数据分析 EDA Exploratory Data Analysis 即对数据进行探索性的分析充分了解数据为之后的数据清洗和特征工程等提供想法和结论在探索分析时也可进行数据清洗的工作

热门标签