基于R语言tidyverse包的数据分析实践

2023-10-26

目录

1.tidyverse包基础

1.0 下载使用tidyverse

1.1 数据清洗

1.1.1 提取数据

1.1.2 数据整理与采样

1.1.3 缺省值处理

1.1.4 重复值处理

1.1.5 异常值处理

1.2 数据预处理

1.2.1 数据标准化

1.2.2 数据编码

 

 

1.tidyverse包基础

1.0 下载使用tidyverse

tidyverse包有很多依赖,大概率在安装的时候,会报错如:

 

这时不要惊慌,那是因为你没有安装libcurl4-openssl-dev,openssl这些软件,在系统里安装这些软件就好了,比如在ubuntu系统,执行以下命令

apt-get install libcurl4-openssl-dev openssl

 

1.1 数据清洗

1.1.1 提取数据

  • 读取数据文件

 

#data为tibble数据类型 
data <- read_csv( filepath, col_types=cols() )

1.1.2 数据整理与采样

根据业务需求和目标,整理出有用的数据。

  • 选取列子集

选取name ,age列

select(data,name,age,sex)
  • 选取行子集
filter(data,age>=15,sex=='F) head(data,n=10) tail(data,n=10) slice(data,1:10)
  • 随机抽样
sample_n(data,size = 10) #无放回 sample_n(data,size= 10,replace=TRUE) #有放回 sample_n(data,size=10,weight = 1/height) #让height越小的人越容易抽样抽取到,不等概率抽样

1.1.3 缺省值处理

  • 去除任意列数据中含有na的行数据(去除所有包含NA的行)
drop_na(data)
  • 去除某些列为na的行数据
drop_na(data,age,sex)

1.1.4 重复值处理

  • 去重
distinct() # 去除完全相同的行,只保留一行 distinct(name,sex,weight) #去除在三列数据上完全一致的行,只保留一行

1.1.5 异常值处理

  • 求极值
arrange(data,age,desc(height)) # age升序后,再对height降序
  • 衍生变量去除异常值
# 计算BMI值 data%>% mute( height_cm = round(height*2.54), weight_kg = round(weight*0.4535924), bmi = weight_kg / (height_cm / 100)^2) )

1.2 数据预处理

1.2.1数据标准化

data%>% select(height,weight)%>% scale() #默认标准化为均值为0方差为1的分布 scale(center=apply(.,2,min),scale=apply(.,2,max)-apply(.,2,min))) #放缩至0-1

1.2.2 数据编码

data['sex'] = ifelse(data['sex']=='F',0,1) # F 编码为0,M编码为1

 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

基于R语言tidyverse包的数据分析实践 的相关文章

随机推荐

  • 可用的公开 RTSP/ RTMP 在线视频流资源地址

    最后更新时间 2021年12月13日 不定期更新 最近在做海康视频的流媒体转码 特收集几个可以访问的在线流媒体资源测试使用 RTSP rtsp wowzaec2demo streamlock net vod mp4 BigBuckBunny
  • mysql常用语句之DQL:查询语句

    DQL 查询语句 常用关键字 关键字 说明 or 或 and 和 having 分组后的附加条件 group by 分组 order by 排序 asc 正序 desc 倒序 in 存在于某个值中 not in 不存在与某个值中 inner
  • 点击标题滚动到对应的 section, 滚动到对应的section 对应的标题高亮

  • java中注解的学习

    java 注解 从名字上看是注释 解释 但功能却不仅仅是注释那么简单 注解 Annotation 为我们在代码中添加信息提供了一种形式化的方法 是我们可以在稍后 某个时刻方便地使用这些数据 通过 解析注解 来使用这些数据 常见的作用有以下几
  • js中事件处理函数的总结

    1 HTML事件处理 直接添加到HTML结构中 不过这样的不利于保证HTML页面和JS的分离 不推介 demo 2 DOM 0级事件处理函数 把一个函数赋值给事件处理程序属性 js与页面分离的方法 但是不能够进行叠加 也就是对同一个Elem
  • nginx输出php错误日志,【问题解决】Nginx下开启php-fpm 输出php错误日志的设置

    最近在本地搭建的LNMP的开发环境 为了开发的时候不影响前端的正常开发就屏蔽的PHP里面php ini中的一些错误提示 但是这样一来 就影响到了后端开发的一些问题比如不能及时调试开发中的一些问题 nginx与apache不一样 在apach
  • 十八、搜索引擎

    搜索引擎ElasticSearch Lucene
  • 【bug】ImportError: cannot import name ‘_DataLoaderIter‘ from ‘torch.utils.data.dataloader‘

    pytorch版本的问题 架构本身的版本与实际的cuda环境以及想要跑通的代码不兼容 我遇到的问题是将pytorch版本降低 降到torch 1 0版本 对应的cuda环境也比较低 需要去网上对应着查一下cuda版本以及对应的pytorch
  • 基于JavaWeb三层架构的OA管理系统

    本系统是一个类似于培训学校的一个管理系统 系统角色有员工 学生 首页 它的左侧是后台管理系统的功能界面 右侧是前面的通过数据库查询的一个月或者是一年的统计信息 下面柱状图个折线图采用的是echarts架包通过数据库的信息实现的 都可以动态的
  • 全国计算机等级考试题库二级C操作题100套(第84套)

    第84套 函数fun的功能是 从三个形参a b c中找出中间的那个数 作为函数值返 回 例如 当a 3 b 5 c 4时 中数为4 请在程序的下划线处填入正确的内容并把下划线删除 使程序得出正确的结果 注意 源程序存放在考生文件夹下的BLA
  • 软件工程使用软件和软件所能画的图

    迅捷 业务流程图 软件结构图 功能框图 数据字典 序列图 用例图 Visio 业务流程图 软件结构图 功能框图 数据流图 数据字典 序列图 uml 用例图 类图 序列图 活动图 数据流图 Rose 用例图 包图 活动图 序列图 协作图 带有
  • 【测试开发】自动化测试 selenium 篇

    目录 一 什么是自动化测试 二 selenium 1 selenium的工作原理 2 selenium Java的环境搭建 Chrome浏览器 三 selenium中常用的API 1 定位元素 findElement 1 1 css选择语法
  • redis之mq实现发布订阅模式

    示例代码 github 概述 Redis不仅可作为缓存服务器 还可用作消息队列 本示例演示如何使用redis实现发布 订阅消息队列 在Redis中 发布者没有将消息发送给特定订阅者的程序 相反 发布的消息被描述为通道 而不知道 如果有的话
  • 分享Figma一些非常快速、省时、省力的功能和小技巧

    众所周知 越来越多的大工厂正在使用它figma了 那你的figma它是如何使用的 您是否遇到过一些问题或操作不方便的事情 今天 我想和大家分享Figma一些非常快速 省时 省力的功能和小技巧 因为文章属于直译 所以良心哥在编辑时帮你整理知识
  • [系统安全] 五十一.恶意家族分类 (2)基于API序列和深度学习的恶意家族分类实例详解

    您可能之前看到过我写的类似文章 为什么还要重复撰写呢 只是想更好地帮助初学者了解病毒逆向分析和系统安全 更加成体系且不破坏之前的系列 因此 我重新开设了这个专栏 准备系统整理和深入学习系统安全 逆向分析和恶意代码检测 系统安全 系列文章会更
  • 反馈及运放基础了解

    在电子电路中 将输出量 输出电压或输出电流 的一部分或全部通过一定的电路形式作用于输入回路 用来影响其输入量 放电电路的输入电压或输入电流 的措施称为反馈 基本放大电路的输入信号称为净输入量 它不但决定于输入信号 输入量 还与反馈信号 反馈
  • 将linux上的项目传到github上

    在网友的帮助下 终于学会了这一招 1 首先要确定你的linux上有安装了git 2 到你的网页github上新建一个仓库 将其clone到linux上 3 将你的项目放进这个空的仓库 文件夹 3 1 执行命令 git add 4 执行命令
  • 日语动作变形

    动1动词 动2动词 动3动词 基本型 可以作为连体形 行 買 帰 飲 呼 書 食 起 寝 変 準 変 変 来 连用形 行 買 帰 飲 呼 書 食 起 寝 変 準 変 変 来 体 也就是连用形 词尾由 段变为 段加 行
  • 这一年,谢谢自己

    兜兜转转间 这个开局有些艰难的2020就已经过半了 这些日子 你过得还好吗 不管是努力抵抗病痛 还是奋力工作生活 其实一直以来 我们都在路上 摸爬滚打 艰难前行 我们总是在追寻 在求索 为了所爱的人 而默默付出努力 却仍时时觉得对不起他们
  • 基于R语言tidyverse包的数据分析实践

    目录 1 tidyverse包基础 1 0 下载使用tidyverse 1 1 数据清洗 1 1 1 提取数据 1 1 2 数据整理与采样 1 1 3 缺省值处理 1 1 4 重复值处理 1 1 5 异常值处理 1 2 数据预处理 1 2