数据分析实战（数据采集与整理）

2023-11-19

1、数据的可分析度

我们需要判断这个数据的分析是否是有价值的，在可分析度方面，需要一些判断的维度，主要是企业数据量、数据复杂度还有数据颗粒度。

数据量比较大的、复杂度比较高的、颗粒度比较细的数据，就有比较高的分析和利用价值。衡量数据复杂度我们应该看剔除相关性之后的列数；数据的颗粒度越细越好，有了细颗粒度的数据，我们就可以自行组合成颗粒度比较“粗”的数据，就比如知道了全国各个区的GDP数据，我们就可以推算出市、省、全国的数据，但是反向的操作无法实现。

2、重复数据删除

第一种方法Excel中“删除重复项”

选择判断是否重复的项

如果编号和成绩都相同、都重复了，那么就是重复值

第二种方法：高级筛选

“选择不重复的记录”

可以看到在D1-E31显示了删除重复值后的结果

第三种方法：使用SPSS

数据->标识重复个案

设置如下

可以看到显示的结果如下，1=唯一个案或主个案，0=重复个案

3、删除空行

先进行排序

可以删除空行了

不打乱数据的排序对空行进行删除，使用辅助列的方法，添加次序，然后第一步按照编号进行排序，删除空行之后再按照次序进行排序就行

4、缺失值的填充和分析

第一种方法使用手工填充，我们可以使用平均值进行填充，在Excel里面直接使用average函数就行

第二种方法使用SPSS“替换缺失值”进行填充

有多种方法可以选择，通常选择序列缺失值

可以看到结果对比

缺失值分析

分析指标选择

选择EM，点击下方EM...进入设置

可以看到新数据集f

5、SPSS处理大数据量

使用SPSS打开两个数据超过60万条的文件

在打开的第一个数据中点击合并文件->添加个案

选择第二个数据集进行合并

添加要合并的变量

对合并之后的数据集进行分析，点击描述统计->描述

点击变量尺寸

我们可以看到结果N=1378832，已经超过Excel的最大最大容量。

6、数据抽样

SPSS打开文件，在数据主标签中选择“选择个案”

点击随机个案样本，也可以根据要求选择别的

点击样本，选择要抽取的样本大小

在Excel中进行数据抽样可以使用函数randbetween，比如要500个随机数，即randbetween(1,500)。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析

数据分析实战（数据采集与整理）的相关文章

【Vue】Vue基础自用笔记&Day02_①Vue过滤器②按键修饰符③自定义指令

Vue基础 Day02 1 Vue过滤器 2 按键修饰符 3 自定义Vue指令 1 Vue过滤器 Vue js 允许你自定义过滤器可被用于一些常见的文本格式化过滤器可以用在两个地方双花括号插值和 v bind 表达式后者从 2 1
袁红岗的编程感悟

我自己知道近几年也一直在用但就是说不出来直到最近几天才能够表达叫作Think in Code 也就是用代码思考同时也把代码当成自己思想表达的方式正如哲学家用文字设计诠释思想程序员说话用的是代码这就是一个程序员的境界
使用python实现简单全连接神经网络

最近在学习神经网络的相关知识特在此做一个笔记 python语言的功能很强大可以使用很少的代码实现很多功能因此大家如果想研究深度学习的话一定要懂得python语言这篇笔记记录我的第一次使用python编写神经网络代码的过程其中代码

随机推荐

Centos7 ELK7.6.2集群搭建

Centos7 ELK7 6 2集群搭建 ELK7 6 2网盘安装包下载一单节点准备配置ip 配置主机名和主机名映射关闭防火墙事件同步更换yum源阿里云yum源安装常用软件系统优化创建用来启动es的普通用户 jdk安装
微信小程序（日历/日期）选择插件

微信小程序日历选择器插件点击日历日期可以获取到年月日 wxml
stm32学习笔记——通用计时器基本原理

stm32f10x最多有8个定时器 stm32f103zet6就有8个定时器分别是4个通用定时器 2个高级定时器 2个基本定时器定时器种类位数计时器模式产生DMA请求捕获比较通道互补输出特殊应用场景高级定时器 TIM1
Spring Boot 应用启动时 java.lang.reflect.InaccessibleObjectException 问题的解决

Spring Boot 的应用启动的时候遇到下面的错误 java lang reflect InaccessibleObjectException Unable to make private native accessible Set c
windows下命令行修改系统时间;修改系统时间的软件

找了很久都没有找到还找了关键词 dos下修改系统时间因为看到linux下修改系统时间是用hwclock 命令写入主板芯片而我由于某些原因想自动化修改系统时间所以找windows下修改系统时间的软件没有找到有一个意天禁止修改系
图解Git

基本用法上面的四条命令在工作目录暂存目录也叫做索引和仓库之间复制文件 git add files 把当前文件放入暂存区域 git commit 给暂存区域生成快照并提交 git reset files 用来撤销最后一次git add
UNITY一些关于旋转的问题

实现平滑的旋转旋转的目的是为了朝向目标物体 untiy中的旋转rotation是一个四元数在代码里面我们可以用Quaternion 来记录一个人物角色的最初的旋转角度注意这个要在awake里赋值目的是取得该值为了实现平滑的旋转
关于powershell中错误：无法将“XXX”项识别为 cmdlet、函数、脚本文件或可运行程序的名称解决方案

在利用ffmpeg进行格式转换时报错无法将 ffmpeg 项识别为 cmdlet 函数脚本文件或可运行程序的名称发现是改动了ffmpeg所在根文件夹名字导致path环境变量找不到ffmpeg程序改动环境变量就正常了快速打开环境变
protobuf对象转为Json串写入elastic search遇到的问题总结

背景从kafka中消费数据后拿到的是protobuf序列化后的字节数组转化为Java中的proto对象后需要将这些protocol对象继续处理成Json串写入elasticsearch 各种问题 Json工具选择刚开始尝试使用fas
Failed to convert property value of type 'java.lang.String' to required type 'int' for property

junit Spring 测试Service org springframework beans TypeMismatchException Failed to convert property value of type java lan
Django ORM中常用字段类型与参数

ORM中常用字段类型与参数在ORM中一个模型类对应的是数据库中的一张表对象对应的是数据库中的记录属性则对应的是字段此篇为章主要整理的是常用的字段类型和对应的参数字段类型 1 自增长字段自增长 id models AutoFiel
详述Java三种注释方法及实例说明

1 注释方法汇总实例说明在第二部分 1 1单行注释 1 符号 2 注释范围从符号开始到本行结束 3 快捷键 Ctrl Ctrl 和的组合选中要注释的内容按 Ctrl 便可同时单行注释多行内容若想多个同个取消则选中以及单
Linux的静态库和动态库

库从本质上来说是一种可执行代码的二进制格式可以被载入内存中执行库分静态库和动态库两种静态库和动态库的区别 1 静态函数库这类库的名字一般是libxxx a 利用静态函数库编译成的文件比较大因为整个函数库的所有数据都会被整合进目标
J-Flash中添加MDK制作的QSPI Flash下载算法方法

在JLINK的电脑端驱动V6 84a上测试的 1 MDK的QSPI Flash下载算法制作方法和制作好的算法看教程第80章和配套的例子即可http www armbbs cn forum php mod viewthread tid 869
蹭热点：白的不能再白的Github Pages部署教程

最近最热点的新闻无疑是微软收购世界上最大的同性交友网站 Github了作为一个程序单身狗我也来蹭蹭热点正好花了半天时间学了一下怎么构建Github Pages 没看错我也是现学的然后才发现原来Github还有这么NB好用的功能
Linux（一）: 系统操作命令与组成

目录命令格式一常用操作以及概念快捷键求助 1 help 2 man 3 info 4 doc 关机 1 who 2 sync 3 shutdown PATH sudo 包管理工具 1 发行版 VIM 三个模式 1 离开或保存 GN
python3.8动态人脸识别

一准备依赖库 pip install dlib pip python opencv 二代码实现 coding utf 8 从视屏中识别人脸并实时标出面部特征点 import dlib 人脸识别的库dlib import cv2 图像处
保姆级使用PyTorch训练与评估自己的ConvNeXt网络教程

文章目录前言 0 环境搭建快速开始 1 数据集制作 1 1 标签文件制作 1 2 数据集划分 1 3 数据集信息文件制作 2 修改参数文件 3 训练 4 评估 5 其他教程前言项目地址 https github com Fafa D
李沐论文精读系列四：CLIP和改进工作串讲（LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso）

文章目录一 CLIP 1 1 简介 1 1 1 前言 1 1 2 模型结构 1 1 3 模型效果 1 1 3 1 对自然分布偏移的鲁棒性 1 1 3 2 StyleCLIP 1 1 3 3 CLIPDraw 1 1 3 4 zero sh
数据分析实战（数据采集与整理）

1 数据的可分析度我们需要判断这个数据的分析是否是有价值的在可分析度方面需要一些判断的维度主要是企业数据量数据复杂度还有数据颗粒度数据量比较大的复杂度比较高的颗粒度比较细的数据就有比较高的分析和利用价值衡量数据复杂度我们

数据分析实战（数据采集与整理）

数据分析实战（数据采集与整理） 的相关文章

随机推荐

热门标签

数据分析实战（数据采集与整理）的相关文章