基于R语言tidyverse包的数据分析实践

2023-10-26

1.tidyverse包基础

1.0 下载使用tidyverse

1.1 数据清洗

1.1.1 提取数据

1.1.2 数据整理与采样

1.1.3 缺省值处理

1.1.4 重复值处理

1.1.5 异常值处理

1.2 数据预处理

1.2.1 数据标准化

1.2.2 数据编码

1.tidyverse包基础

1.0 下载使用tidyverse

tidyverse包有很多依赖，大概率在安装的时候，会报错如：

这时不要惊慌，那是因为你没有安装libcurl4-openssl-dev，openssl这些软件，在系统里安装这些软件就好了，比如在ubuntu系统，执行以下命令

apt-get install libcurl4-openssl-dev openssl

1.1 数据清洗

1.1.1 提取数据

读取数据文件

#data为tibble数据类型 
data <- read_csv( filepath, col_types=cols() )

1.1.2 数据整理与采样

根据业务需求和目标，整理出有用的数据。

选取列子集

选取name ,age列

select(data,name,age,sex)

选取行子集

filter(data,age>=15,sex=='F) head(data,n=10) tail(data,n=10) slice(data,1:10)

随机抽样

sample_n(data,size = 10) #无放回 sample_n(data,size= 10,replace=TRUE) #有放回 sample_n(data,size=10,weight = 1/height) #让height越小的人越容易抽样抽取到，不等概率抽样

1.1.3 缺省值处理

去除任意列数据中含有na的行数据（去除所有包含NA的行）

drop_na(data)

去除某些列为na的行数据

drop_na(data,age,sex)

1.1.4 重复值处理

去重

distinct() # 去除完全相同的行，只保留一行 distinct(name,sex,weight) #去除在三列数据上完全一致的行，只保留一行

1.1.5 异常值处理

求极值

arrange(data,age,desc(height)) # age升序后，再对height降序

衍生变量去除异常值

# 计算BMI值 data%>% mute( height_cm = round(height*2.54), weight_kg = round(weight*0.4535924), bmi = weight_kg / (height_cm / 100)^2) )

1.2 数据预处理

1.2.1数据标准化

data%>% select(height,weight)%>% scale() #默认标准化为均值为0方差为1的分布 scale(center=apply(.,2,min),scale=apply(.,2,max)-apply(.,2,min))) #放缩至0-1

1.2.2 数据编码

data['sex'] = ifelse(data['sex']=='F',0,1) # F 编码为0，M编码为1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

R

数据分析

R语言

基于R语言tidyverse包的数据分析实践的相关文章

ARM（IMX6U）裸机C语言版本LED驱动实验(汇编进入处理器SVC模式、SP堆内存、跳转main函数、链接起始地址)

参考 Linux之ARM IMX6U 裸机C语言LED驱动实验驱动编写编译作者一只青木呀发布时间 2020 08 11 11 20 17 网址 https blog csdn net weixin 45309916 article
达观杯_构建模型（三）lightGBM

countvector a doc a hash a 1 特征 countvector a doc a hash a 2 模型 lgb import numpy as np import pandas as pd from sklearn

随机推荐

可用的公开 RTSP/ RTMP 在线视频流资源地址

最后更新时间 2021年12月13日不定期更新最近在做海康视频的流媒体转码特收集几个可以访问的在线流媒体资源测试使用 RTSP rtsp wowzaec2demo streamlock net vod mp4 BigBuckBunny
mysql常用语句之DQL:查询语句

DQL 查询语句常用关键字关键字说明 or 或 and 和 having 分组后的附加条件 group by 分组 order by 排序 asc 正序 desc 倒序 in 存在于某个值中 not in 不存在与某个值中 inner
点击标题滚动到对应的 section, 滚动到对应的section 对应的标题高亮
java中注解的学习

java 注解从名字上看是注释解释但功能却不仅仅是注释那么简单注解 Annotation 为我们在代码中添加信息提供了一种形式化的方法是我们可以在稍后某个时刻方便地使用这些数据通过解析注解来使用这些数据常见的作用有以下几
js中事件处理函数的总结

1 HTML事件处理直接添加到HTML结构中不过这样的不利于保证HTML页面和JS的分离不推介 demo 2 DOM 0级事件处理函数把一个函数赋值给事件处理程序属性 js与页面分离的方法但是不能够进行叠加也就是对同一个Elem
nginx输出php错误日志,【问题解决】Nginx下开启php-fpm 输出php错误日志的设置

最近在本地搭建的LNMP的开发环境为了开发的时候不影响前端的正常开发就屏蔽的PHP里面php ini中的一些错误提示但是这样一来就影响到了后端开发的一些问题比如不能及时调试开发中的一些问题 nginx与apache不一样在apach
十八、搜索引擎

搜索引擎ElasticSearch Lucene
【bug】ImportError: cannot import name ‘_DataLoaderIter‘ from ‘torch.utils.data.dataloader‘

pytorch版本的问题架构本身的版本与实际的cuda环境以及想要跑通的代码不兼容我遇到的问题是将pytorch版本降低降到torch 1 0版本对应的cuda环境也比较低需要去网上对应着查一下cuda版本以及对应的pytorch
基于JavaWeb三层架构的OA管理系统

本系统是一个类似于培训学校的一个管理系统系统角色有员工学生首页它的左侧是后台管理系统的功能界面右侧是前面的通过数据库查询的一个月或者是一年的统计信息下面柱状图个折线图采用的是echarts架包通过数据库的信息实现的都可以动态的
全国计算机等级考试题库二级C操作题100套（第84套）

第84套函数fun的功能是从三个形参a b c中找出中间的那个数作为函数值返回例如当a 3 b 5 c 4时中数为4 请在程序的下划线处填入正确的内容并把下划线删除使程序得出正确的结果注意源程序存放在考生文件夹下的BLA
软件工程使用软件和软件所能画的图

迅捷业务流程图软件结构图功能框图数据字典序列图用例图 Visio 业务流程图软件结构图功能框图数据流图数据字典序列图 uml 用例图类图序列图活动图数据流图 Rose 用例图包图活动图序列图协作图带有
【测试开发】自动化测试 selenium 篇

目录一什么是自动化测试二 selenium 1 selenium的工作原理 2 selenium Java的环境搭建 Chrome浏览器三 selenium中常用的API 1 定位元素 findElement 1 1 css选择语法
redis之mq实现发布订阅模式

示例代码 github 概述 Redis不仅可作为缓存服务器还可用作消息队列本示例演示如何使用redis实现发布订阅消息队列在Redis中发布者没有将消息发送给特定订阅者的程序相反发布的消息被描述为通道而不知道如果有的话
分享Figma一些非常快速、省时、省力的功能和小技巧

众所周知越来越多的大工厂正在使用它figma了那你的figma它是如何使用的您是否遇到过一些问题或操作不方便的事情今天我想和大家分享Figma一些非常快速省时省力的功能和小技巧因为文章属于直译所以良心哥在编辑时帮你整理知识
[系统安全] 五十一.恶意家族分类 (2)基于API序列和深度学习的恶意家族分类实例详解

您可能之前看到过我写的类似文章为什么还要重复撰写呢只是想更好地帮助初学者了解病毒逆向分析和系统安全更加成体系且不破坏之前的系列因此我重新开设了这个专栏准备系统整理和深入学习系统安全逆向分析和恶意代码检测系统安全系列文章会更
反馈及运放基础了解

在电子电路中将输出量输出电压或输出电流的一部分或全部通过一定的电路形式作用于输入回路用来影响其输入量放电电路的输入电压或输入电流的措施称为反馈基本放大电路的输入信号称为净输入量它不但决定于输入信号输入量还与反馈信号反馈
将linux上的项目传到github上

在网友的帮助下终于学会了这一招 1 首先要确定你的linux上有安装了git 2 到你的网页github上新建一个仓库将其clone到linux上 3 将你的项目放进这个空的仓库文件夹 3 1 执行命令 git add 4 执行命令
日语动作变形

动1动词动2动词动3动词基本型可以作为连体形行買帰飲呼書食起寝変準変変来连用形行買帰飲呼書食起寝変準変変来体也就是连用形词尾由段变为段加行
这一年，谢谢自己

兜兜转转间这个开局有些艰难的2020就已经过半了这些日子你过得还好吗不管是努力抵抗病痛还是奋力工作生活其实一直以来我们都在路上摸爬滚打艰难前行我们总是在追寻在求索为了所爱的人而默默付出努力却仍时时觉得对不起他们
基于R语言tidyverse包的数据分析实践

目录 1 tidyverse包基础 1 0 下载使用tidyverse 1 1 数据清洗 1 1 1 提取数据 1 1 2 数据整理与采样 1 1 3 缺省值处理 1 1 4 重复值处理 1 1 5 异常值处理 1 2 数据预处理 1 2

基于R语言tidyverse包的数据分析实践

R

数据分析

R语言

基于R语言tidyverse包的数据分析实践的相关文章

ARM（IMX6U）裸机C语言版本LED驱动实验(汇编进入处理器SVC模式、SP堆内存、跳转main函数、链接起始地址)

达观杯_构建模型（三）lightGBM

随机推荐

可用的公开 RTSP/ RTMP 在线视频流资源地址

mysql常用语句之DQL:查询语句

点击标题滚动到对应的 section, 滚动到对应的section 对应的标题高亮

java中注解的学习

js中事件处理函数的总结

nginx输出php错误日志,【问题解决】Nginx下开启php-fpm 输出php错误日志的设置

十八、搜索引擎

【bug】ImportError: cannot import name ‘_DataLoaderIter‘ from ‘torch.utils.data.dataloader‘

基于JavaWeb三层架构的OA管理系统

全国计算机等级考试题库二级C操作题100套（第84套）

软件工程使用软件和软件所能画的图

【测试开发】自动化测试 selenium 篇

redis之mq实现发布订阅模式

分享Figma一些非常快速、省时、省力的功能和小技巧

[系统安全] 五十一.恶意家族分类 (2)基于API序列和深度学习的恶意家族分类实例详解

反馈及运放基础了解

将linux上的项目传到github上

日语动作变形

这一年，谢谢自己

基于R语言tidyverse包的数据分析实践

热门标签

mapfiles

googletv

csg

jshint

deedle

clipperlib

psychopy

emberrails

onetimepad

nativebase

基于R语言tidyverse包的数据分析实践

基于R语言tidyverse包的数据分析实践 的相关文章

随机推荐

热门标签

基于R语言tidyverse包的数据分析实践的相关文章