数据分析实战(数据采集与整理)

2023-11-19

1、数据的可分析度

我们需要判断这个数据的分析是否是有价值的,在可分析度方面,需要一些判断的维度,主要是企业数据量、数据复杂度还有数据颗粒度。

数据量比较大的、复杂度比较高的、颗粒度比较细的数据,就有比较高的分析和利用价值。衡量数据复杂度我们应该看剔除相关性之后的列数;数据的颗粒度越细越好,有了细颗粒度的数据,我们就可以自行组合成颗粒度比较“粗”的数据,就比如知道了全国各个区的GDP数据,我们就可以推算出市、省、全国的数据,但是反向的操作无法实现。

2、重复数据删除

第一种方法Excel中“删除重复项”

选择判断是否重复的项 

 如果编号和成绩都相同、都重复了,那么就是重复值

 第二种方法:高级筛选

 “选择不重复的记录”

可以看到在D1-E31显示了删除重复值后的结果

第三种方法:使用SPSS

数据->标识重复个案

 设置如下

可以看到显示的结果如下,1=唯一个案或主个案,0=重复个案

 3、删除空行

先进行排序

可以删除空行了

不打乱数据的排序对空行进行删除,使用辅助列的方法,添加次序,然后第一步按照编号进行排序,删除空行之后再按照次序进行排序就行

4、缺失值的填充和分析

第一种方法使用手工填充,我们可以使用平均值进行填充,在Excel里面直接使用average函数就行

第二种方法使用SPSS“替换缺失值”进行填充

有多种方法可以选择,通常选择序列缺失值

 可以看到结果对比

 缺失值分析

 分析指标选择

选择EM,点击下方EM...进入设置

 

 可以看到新数据集f

 5、SPSS处理大数据量

使用SPSS打开两个数据超过60万条的文件

 在打开的第一个数据中点击合并文件->添加个案

 选择第二个数据集进行合并

 添加要合并的变量

 对合并之后的数据集进行分析,点击描述统计->描述

点击变量尺寸

 我们可以看到结果N=1378832,已经超过Excel的最大最大容量。

 

 6、数据抽样

SPSS打开文件,在数据主标签中选择“选择个案”

点击随机个案样本,也可以根据要求选择别的

 

 点击样本,选择要抽取的样本大小

在Excel中进行数据抽样可以使用函数randbetween,比如要500个随机数,即randbetween(1,500)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析实战(数据采集与整理) 的相关文章

  • 【Vue】Vue基础自用笔记&Day02_①Vue过滤器②按键修饰符③自定义指令

    Vue基础 Day02 1 Vue过滤器 2 按键修饰符 3 自定义Vue指令 1 Vue过滤器 Vue js 允许你自定义过滤器 可被用于一些常见的文本格式化 过滤器可以用在两个地方 双花括号 插值和 v bind 表达式 后者从 2 1
  • 袁红岗的编程感悟

    我自己知道 近几年也一直在用 但就是说不出来 直到最近几天才能够表达 叫作Think in Code 也就是用代码思考 同时也把代码当成自己思想表达的方式 正如哲学家用文字设计 诠释思想 程序员 说话 用的是代码 这就是一个程序员的境 界
  • 使用python实现简单全连接神经网络

    最近在学习神经网络的相关知识 特在此做一个笔记 python语言的功能很强大 可以使用很少的代码实现很多功能 因此大家如果想研究深度学习的话 一定要懂得python语言 这篇笔记记录我的第一次使用python编写神经网络代码的过程 其中代码

随机推荐

  • Centos7 ELK7.6.2集群搭建

    Centos7 ELK7 6 2集群搭建 ELK7 6 2网盘安装包下载 一 单节点准备 配置ip 配置主机名和主机名映射 关闭防火墙 事件同步 更换yum源 阿里云yum源 安装常用软件 系统优化 创建用来启动es的普通用户 jdk安装
  • 微信小程序(日历/日期)选择插件

    微信小程序日历选择器插件点击日历日期可以获取到年月日 wxml
  • stm32学习笔记——通用计时器基本原理

    stm32f10x最多有8个定时器 stm32f103zet6就有8个定时器 分别是4个通用定时器 2个高级定时器 2个基本定时器 定时器种类 位数 计时器模式 产生DMA请求 捕获 比较通道 互补输出 特殊应用场景 高级定时器 TIM1
  • Spring Boot 应用启动时 java.lang.reflect.InaccessibleObjectException 问题的解决

    Spring Boot 的应用启动的时候遇到下面的错误 java lang reflect InaccessibleObjectException Unable to make private native accessible Set c
  • windows下命令行修改系统时间;修改系统时间的软件

    找了很久 都没有找到 还找了关键词 dos下修改系统时间 因为看到linux下修改系统时间是用hwclock 命令写入主板芯片 而我由于某些原因想自动化修改系统时间 所以找windows下修改系统时间的软件 没有找到 有一个 意天禁止修改系
  • 图解Git

    基本用法 上面的四条命令在工作目录 暂存目录 也叫做索引 和仓库之间复制文件 git add files 把当前文件放入暂存区域 git commit 给暂存区域生成快照并提交 git reset files 用来撤销最后一次git add
  • UNITY一些关于旋转的问题

    实现平滑的旋转 旋转的目的是为了朝向目标物体 untiy中的旋转rotation是一个四元数 在代码里面我们可以用Quaternion 来记录一个人物角色的最初的旋转角度 注意 这个要在awake里赋值 目的是取得该值 为了实现平滑的旋转
  • 关于powershell中错误:无法将“XXX”项识别为 cmdlet、函数、脚本文件或可运行程序的名称解决方案

    在利用ffmpeg进行格式转换时报错 无法将 ffmpeg 项识别为 cmdlet 函数 脚本文件或可运行程序的名称 发现是改动了ffmpeg所在根文件夹名字 导致path环境变量找不到ffmpeg程序 改动环境变量就正常了 快速打开环境变
  • protobuf对象 转为Json串写入elastic search遇到的问题总结

    背景 从kafka中消费数据后拿到的是protobuf序列化后的字节数组 转化为Java中的proto对象后 需要将这些protocol对象继续处理成Json串写入elasticsearch 各种问题 Json工具选择 刚开始尝试使用fas
  • Failed to convert property value of type 'java.lang.String' to required type 'int' for property

    junit Spring 测试Service org springframework beans TypeMismatchException Failed to convert property value of type java lan
  • Django ORM中常用字段类型与参数

    ORM中常用字段类型与参数 在ORM中一个模型类对应的是数据库中的一张表 对象对应的是数据库中的记录 属性则对应的是字段 此篇为章主要整理的是常用的字段类型和对应的参数 字段类型 1 自增长字段 自增长 id models AutoFiel
  • 详述Java三种注释方法及实例说明

    1 注释方法汇总 实例说明在第二部分 1 1单行注释 1 符号 2 注释范围 从符号 开始 到本行结束 3 快捷键 Ctrl Ctrl 和 的组合 选中要注释的内容 按 Ctrl 便可 同时单行注释多行内容 若想多个同个取消 则选中 以及单
  • Linux的静态库和动态库

    库从本质上来说是一种可执行代码的二进制格式 可以被载入内存中执行 库分静态库和动态库两种 静态库和动态库的区别 1 静态函数库 这类库的名字一般是libxxx a 利用静态函数库编译成的文件比较大 因为整个 函数库的所有数据都会被整合进目标
  • J-Flash中添加MDK制作的QSPI Flash下载算法方法

    在JLINK的电脑端驱动V6 84a上测试的 1 MDK的QSPI Flash下载算法制作方法和制作好的算法看教程第80章和配套的例子即可http www armbbs cn forum php mod viewthread tid 869
  • 蹭热点:白的不能再白的Github Pages部署教程

    最近最热点的新闻无疑是微软收购 世界上最大的同性交友网站 Github了 作为一个程序单身狗 我也来蹭蹭热点 正好花了半天时间学了一下怎么构建Github Pages 没看错 我也是现学的 然后才发现原来Github还有这么NB好用的功能
  • Linux(一): 系统操作命令与组成

    目录 命令格式 一 常用操作以及概念 快捷键 求助 1 help 2 man 3 info 4 doc 关机 1 who 2 sync 3 shutdown PATH sudo 包管理工具 1 发行版 VIM 三个模式 1 离开或保存 GN
  • python3.8动态人脸识别

    一 准备依赖库 pip install dlib pip python opencv 二 代码实现 coding utf 8 从视屏中识别人脸 并实时标出面部特征点 import dlib 人脸识别的库dlib import cv2 图像处
  • 保姆级使用PyTorch训练与评估自己的ConvNeXt网络教程

    文章目录 前言 0 环境搭建 快速开始 1 数据集制作 1 1 标签文件制作 1 2 数据集划分 1 3 数据集信息文件制作 2 修改参数文件 3 训练 4 评估 5 其他教程 前言 项目地址 https github com Fafa D
  • 李沐论文精读系列四:CLIP和改进工作串讲(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso)

    文章目录 一 CLIP 1 1 简介 1 1 1 前言 1 1 2 模型结构 1 1 3 模型效果 1 1 3 1 对自然分布偏移的鲁棒性 1 1 3 2 StyleCLIP 1 1 3 3 CLIPDraw 1 1 3 4 zero sh
  • 数据分析实战(数据采集与整理)

    1 数据的可分析度 我们需要判断这个数据的分析是否是有价值的 在可分析度方面 需要一些判断的维度 主要是企业数据量 数据复杂度还有数据颗粒度 数据量比较大的 复杂度比较高的 颗粒度比较细的数据 就有比较高的分析和利用价值 衡量数据复杂度我们