R手册(Tidy+Transform)--缺失处理(naniar and simputation)

2023-10-26

文章目录

naniar
simputation : make imputation simpler for missing data

缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。

缺失值从缺失的分布来讲可以分为完全随机缺失，随机缺失和完全非随机缺失。

完全随机缺失（missing completely at random，MCAR）
指的是数据的缺失是随机的，数据的缺失不依赖于任何不完全变量或完全变量。
随机缺失(missing at random，MAR)
指的是数据的缺失不是完全随机的，即该类数据的缺失依赖于其他完全变量。
完全非随机缺失(missing not at random，MNAR)
指的是数据的缺失依赖于不完全变量自身。

naniar

缺失数据摘要

函数	说明
vis_miss(x)	缺失数据可视化摘要
miss_var_summary(data)	缺失数据数值摘要 `data %>%group_by(factor) %>%miss_var_summary()`
n_miss(x) , n_complete(x)	缺失行/完整行数量
prop_miss(x) , prop_complete(x)	缺失行/完整行比例
geom_miss_point()	ggplot2散点图扩展
gg_miss_var(x,show_pct = FALSE)	绘制每个变量的缺失情况

阴影矩阵

函数	说明
as_shadow(data)	shadow matrices (NA+!NA)
bind_shadow()	将阴影矩阵绑定到原始数据框

data %>%bind_shadow() %>%
ggplot(aes(x = v1, fill = v2_NA)) + geom_density(alpha = 0.5)

可视化缺失值变量分布关系

可视化估算值分布:
data %>%bind_shadow() %>%
  simputation::impute_lm(Ozone ~ Temp + Solar.R) %>%
  ggplot(aes(x = Solar.R,y = Ozone,colour = Ozone_NA)) + 
  geom_point()

simputation : make imputation simpler for missing data

中位数插补：impute_median(dat, formula)
formula: <imputed variables> ~ <model object>
模型插补，函数调用约定如下：
impute_<model>(data, formula, … )

function	model	package
impute_rlm	M-estimation	MASS
impute_en	ridge/elasticnet/lasso	glmnet
impute_cart	CART	rpart
impute_rf	random forest	randomForest
impute_rhd	random hot deck	VIM (optional)
impute_shd	sequential hot deck	VIM (optional)
impute_knn	k nearest neighbours	VIM (optional)
impute_mf	missForest	missForest
impute_em	mv-normal	norm

for example

data %>% 
  impute_lm(v1 ~ v2 + v3) %>%impute_median(v1 ~ v4)%>%  #链接插补
  impute_rlm(data, v1 + v2 ~ v3 +v4)  #多变量插补

data %>% group_by(factor) %>% impute_lm(v1 ~ v2+v3) #分组插补

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

R手册

R手册(Tidy+Transform)--缺失处理(naniar and simputation) 的相关文章

R手册(Tidy+Transform)--tidyr

文章目录 Reshape Data Split or Unit Cells Handle Missing Values tidyr Easily tidy data with spread and gather functions Resh
R手册(Tidy+Transform)--缺失处理(naniar and simputation)

文章目录 naniar 缺失数据摘要阴影矩阵可视化缺失值变量分布关系 simputation make imputation simpler for missing data 缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类分组删
R手册(Parallel Computing)--foreach

R手册 Parallel Computing foreach foreach foreach 后端支持 library doParallel 为foreah包提供一个并行的后端 n cores lt detectCores logical
R手册(Tidy+Transform)--forcats

forcats 分类变量数据处理 forcats for factor 函数说明 factor x levels labels ordered as factor x fct expand f 添加更多级别 fct explicit na
R手册(Machine Learning)--mlr (Part 2)

文章目录 Configuration 配置 Parallelization 并行 Imputation 插补 Feature Extraction 特征提取 1 Feature filtering 特征筛选 2 Feature select
R手册(Common)--R语言入门

说明本节中大部分内容摘自书籍 R语言实战第2版文章目录 RStudio Take control of your R code 数据处理一般流程 R 数据结构 R 运算符概率函数控制语句与循环语句自定义函数调试拟合线性模型f
R手册(Import)--rvest

文章目录解析html 提取组件提取修改和提交形式的函数浏览网站解析html 函数说明 read html x encoding x为a url或 a local path html nodes x css xpath 通过使用
R手册(Common)--tidyverse+tibble

tidyverse是一系列包的组合构建了一套完整的数据分析生态链提供了一套整洁的数据导入分析和建模方法刷新了R语言原有的数据科学体系文章目录 tidyverse Usage core tidyverse packages Impo
R手册(Common)--面向对象(R6 and S4)

R 主要面向统计计算似乎很少会用到面向对象的编程方法但在统计计算中在下列情形中使用面向对象的编程方法可以编程更有效率文章目录面向对象R6类面向对象S4类自定义S4类实例化函数 S4的泛型函数面向对象R6类 R 的面向对象
R手册(Visualise)--geomnet(ggplot2 extensions)

文章目录 geomnet 返回ggplot2扩展主目录 geomnet Geom 网格图关系图 geom net aes from id to id fontsize data stat net position identity na
R手册(Visualise)--ggplot2

文章目录 Overview Geoms 基本图形单变量双变量三变量文本误差可视化地图 Stats Scales 常用标尺格式坐标轴标尺 Color and fill scales Shape and size scales C
R手册(Common)--R语言基础包

文章目录环境设置输入输出文件操作进度条数据创建数据选取及数据信息列联表内置常量数学矩阵运算模型其他函数 R语言基础包 base stats 环境设置系统函数函数说明 options 显示或设置当前选项 digi
R手册(NLP)--wordcloud2

文章目录 wordlcoud2函数 letterCloud函数 shiny支持 wordcloud2 R interface to wordcloud for data visualization Wordcloud2主要包括两个函数 wo
R手册(Syntax)--magrittr

magrittr pipe lhs gt rhs forward pipe lhs为rhs第一个参数时 x gt f y 等价于 f x y lhs在任意位置时用点代替 z gt f x y arg 等价于 f x y arg z rh
R手册(Time Series)--forecast and prophet

文章目录 forecast for Time Series and Linear Models 时间序列分析模型预测 ggplot2扩展模型评估 prophet 构建模型模型预测可视化交叉验证时间序列分析 Time Serie
R手册(NLP)--text2vec

文章目录分词器 I O 处理迭代器支持 create 函数向量化主题模型 text2vec 这个 R 包提供了高性能和简洁的 API 来进行文本分析自然语言处理分词器 word tokenizer strings 英语分词器
R手册(Common)--data.table

R语言data table包是自带包data frame的升级版用于数据框格式数据的处理最大的特点快包括两个方面一方面是写的快代码简洁只要一行命令就可以完成诸多任务另一方面是处理快内部处理的步骤进行了程序上的优化使用多线程
R手册(Communicate)--R Markdown

文章目录 Overview Rmd Structure YAML Header Parameters Set render options with YAML 初始文档信息 Text Embed code with knitr syntax
R手册(Visualise)--gganimate(ggplot2 extensions)

文章目录 gganimate Create easy animations with ggplot2 返回ggplot2扩展主目录 gganimate Create easy animations with ggplot2 GitHub链接
R手册(Visualise)--GGally(ggplot2 extensions)

本站已停止更新查看最新内容请移至本人博客 Wilen s Blog 文章目录 GGally ggmatrix ggplot2矩阵 ggpairs ggplot2广义配对图 ggscatmat 纯粹定量变量的传统散点图矩阵返回ggplot

随机推荐

@RequestBody 500 的原因

因为 RequestBody是调用目标类的无参构造器若有有参构造就会报错因此一般实用RequestBody的类和 domain不同应该重新配置一个包来存放此类类且之赋予他们get set方法
VTK教程1--------VTK在win10下的安装

VTK的安装本文在win10操作系统下安装了VTK8 1 2 下文是安装顺序事先准备三个软件 1 Visual Studio2017 community 该版本可以免费使用 2 CMake 本文使用的版本是cmake 3 13 1 w
XREAL 联合创始人吴克艰谈AR：下一代计算平台及其关键技术

编者按一种行业观点是 AR或是未来十年三十年的革命性技术是下一代计算平台近半个世纪我们总能听到苹果在AR行业的创新动作开辟了新的硬件范式 AR VR行业为苹果不断欢呼的同时激发了人们的好奇心究竟人类在戴上AR眼镜的那一瞬间
【C++】内存分区&引用

内存分区首先我们要了解内存区域大概分为四个区域 1 代码区这里主要存放我们写的代码的二进表达式即CPU可以看懂的机械指令这个区域有两个特征只读和共享前者可以保证代码的不会被随意修改后者可以保证相同代码多次阅读不需要创建多个副
linux-kali 2020.3.3 虚拟机环境下载安装

一所需环境配置文件下载 1 虚拟机这次配置环境使用的vmware版本为15 5 0 虚拟机大家可以自行在相关微信公众号上搜索破解版按照其上进行安装如下图如果需要也可以vm官方网站上进行下载相关软件直接下载对应版本即可 vm官网链
python argument 1 must be 2-item sequence, not int

在继续python学习的时候发现报错了出现错误argument 1 must be 2 item sequence not int 明明我是照着书打的为什么会出现错误呢 import pygame import sys from se
《软件测试》第十三章软件安全测试

软件测试第十三章软件安全测试 13 0 前言 13 1 战争游戏电影 13 2 了解动机 13 3 威胁模式分析 13 4 软件安全是一项功能吗软件漏洞是一个缺陷吗 13 5 了解缓冲区溢出 13 6 使用安全的字符串函数 13 7
Microsoft visual C++ 2013 redistributable (x86) setup failed

Microsoft visual C 2013 redistributable x86 0x80070005 setup failed log 截图下载SubInACL工具链接 https blogs msdn microsoft co
css flex shrink,CSS3 flex-shrink属性用法详解

下面本文章来给各位介绍一下CSS3 flex shrink使用方法希望例子能帮助到各位 flex grow控制flex container有多余空间的时候怎么分配默认值为0 即所有的flex items都不分配 flex shrink1
C#里面SQLite读取数据的操作

挂载表格时候用 public static DataSet Query string SQLString using SQLiteConnection connection new SQLiteConnection connectionSt
BottomNavigationView+ViewPager实现页面滑动

如图所示在androidstudio中新建一个Bottom Navigation Activity 修改布局中的内容
import无法定位到输入点

torch geometric安装运行环境需要torch geometric 下载安装完之后再 import torch geometric时一直出错安装不上找了很多解决方法终于找到可以解决的办法了亲测有效原因最终发现因为
最小重量机器设计问题

相关问题工作分配问题设某一机器由n个部件组成每一种部件都可以从m个不同的供应商处购得设 wij 是从供应商j 处购得的部件i的重量 cij 是相应的价格试设计一个回溯算法给出总价格不超过d的最小重量机器设计对于给定的机器部件重
.net core 并发下的线程安全问题

抱歉其实内容并不如题背景写测试demo所出现的异常供大家学习与拍砖 net core webapi项目做了一个授权的filter 真正的生产项目的话 JWT很棒单个接口测试没有问题当用前端在同一个页面调用多个接口的时候运行服
Python语言学习实战-内置函数filter()的使用（附源码和实现效果）

实现功能 filter 函数是Python的内置函数之一用于过滤序列中的元素它接受两个参数一个是函数用于判断每个元素是否符合条件另一个是可迭代对象包含要过滤的元素 filter 函数返回一个迭代器其中包含所有符合条件的元素 f
Beam：没有模板Haskell的数据库功能！

作为Haskell Web系列的一部分我们检查了Persistent和Esqueleto库这些中的第一个允许您使用特殊语法创建数据库模式然后您可以使用Template Haskell生成所有必要的Haskell数据类型和类型的实例
R语言第2章数据对象与数据读写（2）

重复序列的创建 rep as factor c yizi1 yinzi2 yinzi3 3 rep 是重复函数它可以将某一向量重复若干次使用格式 rep x times 1 length out NA each 1 其中x是预重复的序列
win10无法装载iso文件_win10系统打开iso格式文件的四种方法

许多用户在win10系统中下载一个ISO文件经常重装系统的小伙伴都知道 iso格式是一种光盘映像的文件格式 Windows10系统自带的虚拟光驱无需任何软件就可以直接打开ISO文件如果没有虚拟光驱该怎么打开接下去分享win10系统打
python二元函数图像在线绘制_Python：绘制两个变量的二维函数

我的功能是 def g R r return np sqrt 2 0 R r r R 1 np sqrt R np sqrt R np sqrt 2 0 r 1 r 1 r 1 0 np sqrt R np sqrt 2 0 1 R np
R手册(Tidy+Transform)--缺失处理(naniar and simputation)

文章目录 naniar 缺失数据摘要阴影矩阵可视化缺失值变量分布关系 simputation make imputation simpler for missing data 缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类分组删

R手册(Tidy+Transform)--缺失处理(naniar and simputation)

文章目录

naniar

缺失数据摘要

阴影矩阵

可视化缺失值变量分布关系

simputation : make imputation simpler for missing data

R手册(Tidy+Transform)--缺失处理(naniar and simputation) 的相关文章

随机推荐

热门标签