data.table 将 NA 替换为多列的均值和 id

2024-03-29

如果我有以下数据表：

dat <- data.table("id"=c(1,1,1,1,2,2,2,2), "var1"=c(NA,1,2,2,1,1,2,2),
              "var2"=c(4,4,4,4,5,5,NA,4), "var3"=c(4,4,4,NA,5,5,5,4))
   id var1 var2 var3
1:  1   NA    4    4
2:  1    1    4    4
3:  1    2    4    4
4:  1    2    4   NA
5:  2    1    5    5
6:  2    1    5    5
7:  2    2   NA    5
8:  2    2    4    4

如何用 id 中每列的平均值替换缺失值？在我的实际数据中，我有许多变量，这些变量仅适用于我希望替换的变量，那么如何以通用方式完成，例如它不会替换为 var3 而仅替换为 var1 和 var2？：

tomean=c("var1", "var2")

我尝试过类似的方法，但我还没有找到解决方案：

dat[, (tomean) := mean(tomean, na.rm=TRUE), by=id, .SDcols = tomean]

要仅使用列名评估列，我们可以使用get()。我们需要lapply()对多列执行此操作。

## determine the column names that contain NA values
nm <- names(dat)[colSums(is.na(dat)) != 0]
## replace with the mean - by 'id'
dat[, (nm) := lapply(nm, function(x) {
    x <- get(x)
    x[is.na(x)] <- mean(x, na.rm = TRUE)
    x
}), by = id]

这给出了更新的dat

   id     var1     var2 var3
1:  1 1.666667 4.000000    4
2:  1 1.000000 4.000000    4
3:  1 2.000000 4.000000    4
4:  1 2.000000 4.000000    3
5:  2 1.000000 5.000000    5
6:  2 1.000000 5.000000    5
7:  2 2.000000 4.666667    5
8:  2 2.000000 4.000000    4

Update:对于您更新的问题，为了避免在包含 NA 的所有列上运行此问题，请勿使用nm。只需使用您自己的矢量tomean.

tomean <- c("var1", "var2")
dat[, (tomean) := lapply(tomean, function(x) {
    x <- get(x)
    x[is.na(x)] <- mean(x, na.rm = TRUE)
    x
}), by = id]

这给出了

   id     var1     var2 var3
1:  1 1.666667 4.000000    4
2:  1 1.000000 4.000000    4
3:  1 2.000000 4.000000    4
4:  1 2.000000 4.000000   NA
5:  2 1.000000 5.000000    5
6:  2 1.000000 5.000000    5
7:  2 2.000000 4.666667    5
8:  2 2.000000 4.000000    4

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

missingdata

data.table 将 NA 替换为多列的均值和 id 的相关文章

R：如何添加具有从矩阵的每一行中随机选择的值的列？

我会先说我是一个 R 菜鸟我认为这可能有一个简单的解决方案但我正在努力寻找它我有一个 2 列 1 000 行的矩阵保持行固定我想创建一个新变量从两列中随机选择一个元素例如制作一个简单的矩阵 matrix c 1 1 4 6 1
将非平凡函数应用于 data.table 的有序子集

Problem 我正在尝试使用我新发现的 data table 功能永久来计算一堆数据的频率内容如下所示 Sample Channel Trial Voltage Class Subject 1 1 1 196 82253 1 1 1
R 中有没有快速替换列值的方法？

假设我们有一个包含数值的数据框如下所示 Temperature Height 32 157 31 159 33 139 我想更换Height价值观与pic 00001 pic 00002等等最终结果是 Temperature Heigh
xml2 包 (R) 中的 xml_find_all 函数未找到相关节点

我使用 R 中的 xml2 包来访问 xml 数据发现它在不同的 xml documents 上表现不同在这个宠物的例子中 library xml2 doc lt read xml
使用 Rcpp 得出斐波那契数列的意外结果

我刚刚开始使用Rcpp很抱歉如果我错过了一个简单的步骤或类似的东西我已经尝试过这个 sourceCpp library Rcpp sourceCpp code include
R中不同级别的李克特分组

我想使用 Likert 包并按变量分组并绘制结果问题是我想要可视化的变量有不同的级别有没有解决的办法一个简单的例子来说明我的问题 library reshape library likert foo lt data frame ca
在knitr中打印漂亮的交叉表

我想要的是使用 R Markdown 和 knit 从 RStudio 打印漂亮的交叉表无论是在 pdf 文件中还是在 html 文件中我怀疑我错过了一些非常明显的东西因为我不敢相信这是如此困难我使用 xtabs 或 ftable
为什么安装的“igraph”包在加载后返回“libicui18n.so.58：无法打开共享对象文件”？

我试图使用命令 install packages igraph 在 R 中安装 igraph 包安装后在测试阶段出现以下错误测试是否可以加载已安装的包错误包或命名空间 dyn load file DLLpath DLLpath 中的
使用列表中的数据框：删除变量，添加新变量

定义一个列表dats有两个数据框 df1 and df2 dats lt list df1 data frame a sample 1 3 b sample 11 13 df2 data frame a sample 1 3 b sampl
如何在ggplot2中使用希腊符号？

我的类别需要用希腊字母命名我在用ggplot2 并且它与数据配合得很好不幸的是我无法弄清楚如何将这些希腊符号放在 x 轴上在刻度线处并使它们出现在图例中有什么办法可以做到吗更新我看了一下link https github c
在多面图中用 N 注释 x 轴

我正在尝试生成一些按治疗条件和访问次数细分的数字结果的箱线图每个框中的观察次数都放在图下方并且也标记了访问次数这里有一些虚假数据可以用来说明我举了两个我尝试过但不太有效的例子 library ggplot2 library plyr
使 matplotlib 图形默认看起来像 R？

Is there a way to make matplotlib behave identically to R or almost like R in terms of plotting defaults For example R t
在 R 中打印绘图时第一页为空

我正在尝试创建一个包含多个图的pdf 更具体地说我想保存我的图每页 4 个因此我在 r 中有以下代码可以工作但将页面留空第一个 pdf Plots plots numeric four in page pdf paper a4
如何对工作区中的元素运行循环？

gt ls 1 A anorex 1 anorexia B byMonth C clotting 8 counts d D d AD DelayByDay delayed glm D93 15 glmout groups h housing
当添加列较少时追加到现有 SQLite 表，而不将数据库读入 R

是否有一些简单的方法无论是在 SQL 端还是在 R 端将 data frame 附加到具有更多列的现有表缺失的列应该用 NA 填充如果它能够优雅地处理比表 1 列数更多的表 2 那么会加分吗 library RSQLite Crea
plot xts if (on == "years") { 中的错误：缺少 TRUE/FALSE 需要的值

我正在尝试绘制 xts 对象但出现有关年份的错误 xts 对象只有一个数值和一个 POSIXct 索引下面的代码显示了 xts 和尝试绘图时的错误关于需要对 xts 对象做什么才能正确绘制的任何想法 xTest lt as xts 3
计算数据帧 R 中字符串的频率

我想计算数据框中某些字符串的频率 strings lt c pi pie piece pin pinned post df lt as data frame strings 然后我想计算字符串的频率 counts lt c pi in pi
dplyr 总结小计

Excel 中数据透视表的一大优点是它们会自动提供小计首先我想知道 dplyr 中是否已经创建了任何可以实现此目的的东西如果没有实现它的最简单方法是什么在下面的示例中我按气缸和化油器的数量显示了平均排量对于每组气缸 4 6 8
如何在r中进行左连接[重复]

这个问题在这里已经有答案了我有两个数据集一和二数据集一 a b c 111 a 1 112 b 2 113 c 3 114 d 4 115 e 5 数据集二 e d g 222 ss 11 111 ff 22 113 ww 33 114
R Leaflet：添加多边形时传递 popupOptions。

Within addPolygons 有一个popup参数就像addPopups 功能区别我认为是当弹出窗口创建时addPolygons 可以单击多边形内的任意位置来触发弹出窗口但是如果addPopups 被使用单个lng and

随机推荐

声明后在 C++ 向量中分配元素

请参考下面的代码和注释 vector
如何在对 C# .NET 3.5 服务器进行 DCOM 调用时可靠地检查客户端身份？

我有一个旧的 Win32 C DCOM 服务器我正在重写它以使用 C NET 3 5 客户端应用程序位于远程 Windows XP 计算机上也是用 C 编写的这些客户端必须保持不变因此我必须在新的 NET 对象上实现接口这已经完成
jQuery - 如何选择表中所有行的最后一列？

假设我有一个 HTML 表如下所示带有适当的 tr td 标签 a1 b1 c1 a2 b2 c2 a3 b3 c3 a4 b4 c4 table border 1 tr td a1 td td b1 td td c1 td tr tr
如何保护 Next.js next-auth 中的路由？

我正在尝试将身份验证与next auth应用程序中的库我一直在遵循这里给出的官方教程https github com nextauthjs next auth example https github com nextauthjs nex
Laravel 6 中未定义 Artisan 命令“make:auth”

我在 Laravel 6 中创建登录身份验证时遇到问题我在终端中输入 make auth 然后收到错误 Command make auth 似乎未定义有解决办法吗看起来 L6 将 Auth 脚手架移至一个单独的包 https git
实体框架的 SQL 运算符函数是否可以安全防范 SQL 注入？

这些函数可以访问 SQL 中的特殊函数 SqlClient 例如喜欢或之间他们还为它们提供了更好的通用抽象层不要与存储过程函数混淆这是另一篇文章的主题question https stackoverflow com ques
xyplot 中的多个 ablines

我有一个长数据框定义为 q lt data frame Indicator Code factor Year numeric Value numeric 我试图在单个 xyplot 中绘制每个不同年份的值作为年份的函数Indicator
PHP 包含最佳实践问题

我一直在学习 PHP 语法并进行练习我有 NET 背景因此母版页总是让我在处理页眉和页脚时变得非常简单到目前为止我有一个 mainHeader php 和 mainFooter php 其中有我的头部菜单和页脚 html 我创建了一
Android 和 iOS 上的 Open Graph SMS 丰富消息

我正在尝试利用带有开放图元标记的富文本消息因此我已将元标记包含在我的网站头部中并且它通过了所有 Facebook 调试和 iOS API 验证工具然而当我通过短信将链接发送给 Android 或 iOS 上的人时它通常不起作用
获取 Facebook 页面帖子

我编写了一些 JavaScript 来获取 Facebook 页面上的所有帖子我这样做的 URL 是这样的 http graph facebook com cocacola feed limit 5 callback facebookRe
C# 嵌入vlc控件

我尝试将 VLC 嵌入到我的 WPF 项目中我已经注册了 axvlc dll 还下载了 VLC nightly build 版本 2 2 2 System Windows Markup XamlParseException 类型的第一次机
Netbeans 删除内置类？

我有一个 NetBeans 项目其中有很多类过去三周我一直在研究这个项目今天才开始遇到这个问题单击 NetBeans 中的运行主项目按钮时我看到以下错误 Exception in thread main java lang N
在x86汇编中，为imul使用两个单独的寄存器是否更好？

我想知道主要是出于好奇使用相同的寄存器进行操作是否比使用两个更好考虑到性能和或其他问题什么会更好 mov rbx rcx imul rcx rcx or mov rbx rcx imul rbx rcx 任何有关如何对此进行基准测
适用于 Windows 安装的 GitHub

安装 GitHub for Windows 时如何解决此错误尝试下载时发生错误 http github windows s3 amazonaws com GitHub application http github windows s3
以下是在 Python Mechanize 中按下提交按钮的结果

所以我有一个经过身份验证的网站我想通过 mechanize 模块访问该网站我可以登录然后转到我想要的页面但是由于该页面识别出 mechanize 未启用 javascript 因此它希望我单击提交按钮以重定向到网站的非 javas
如何在 Mockito 中模拟 instanceof

我有一段代码我想用 Mockito 测试一下 mockedClass instanceof SampleInterface The mockedClass被嘲笑的抽象类 MockedClass 以及SampleInterface是一个接口
消除 Javascript 中的按键延迟

我有以下问题我正在尝试编写一个 Javascript 游戏并且角色由箭头键控制问题是当一个人按住按键时在触发第一个按键之间有一个短暂的延迟keypress以及重复的keypress 另外当按下向右箭头键并保持按下状态然后按
使用基于函数的视图更新视图

如何将对象传递到模型表单中以在呈现页面时预填充字段我想做一些类似于 Django UpdateView 基于类的视图中的构建但使用基于函数的视图只需从模型中获取对象并将该对象作为实例传递给表单即可然后将表单传递给模板像下面的例子一
使用 Flexjson 将 JSON 列表反序列化为对象列表

我正在尝试反序列化以下 json books id 1 name book 1 id 2 name book 2 进入列表之前用这个 json 工作过 id 1 name book 1 id 2 name book 2 使用此代码 Lis
data.table 将 NA 替换为多列的均值和 id

如果我有以下数据表 dat lt data table id c 1 1 1 1 2 2 2 2 var1 c NA 1 2 2 1 1 2 2 var2 c 4 4 4 4 5 5 NA 4 var3 c 4 4 4 NA 5 5 5 4

data.table 将 NA 替换为多列的均值和 id

data.table 将 NA 替换为多列的均值和 id 的相关文章

随机推荐

热门标签