分组然后计算缺失变量？

2023-12-24

我的数据看起来像这样：

df1 <- data.frame(
  Z = sample(LETTERS[1:5], size = 10000, replace = T),
  X1 = sample(c(1:10,NA), 10000, replace = T),
  X2 = sample(c(1:25,NA), 10000, replace = T),
  X3 = sample(c(1:5,NA), 10000, replace = T)
)

我可以用以下方法计算缺失的变量：

data.frame("Total Missing" = colSums(is.na(df1)))

但是，我想通过Z。即每个 Z 值缺失 X1-3 的数量。

我试过这个

df1 %>% group_by(Z) %>% summarise('Total Missing' = colSums(is.na(df1)))

但它并没有像我预期的那样工作。

您可以使用summarise_each:

df1 %>% 
  group_by(Z) %>% 
  summarise_each(funs(sum(is.na(.))))
#Source: local data frame [5 x 4]
#
#       Z    X1    X2    X3
#  (fctr) (int) (int) (int)
#1      A   169    77   334
#2      B   170    77   316
#3      C   159    78   348
#4      D   181    79   326
#5      E   174    69   341

请注意，您可以在里面指定summarise_each将函数应用到哪些列（默认为除分组列之外的所有列）或函数应应用于哪些列not被应用于。您可能还注意到像summarise_each to summarise，还有mutate_each作为对的补充mutate如果您想将函数应用于所有列而不汇总结果。

强制性的 data.table 等效项是：

library(data.table)
setDT(df1)[, lapply(.SD, function(x) sum(is.na(x))), by = Z]
#   Z  X1 X2  X3
#1: D 181 79 326
#2: C 159 78 348
#3: B 170 77 316
#4: A 169 77 334
#5: E 174 69 341

在 R 基础中，您可以使用拆分/应用/组合方法，如下所示：

do.call(rbind,
        lapply(
          split(df1, df1$Z), function(dd) {
            colSums(is.na(dd[-1]))
          }))
#   X1 X2  X3
#A 169 77 334
#B 170 77 316
#C 159 78 348
#D 181 79 326
#E 174 69 341

或者，也在基本 R 中，您可以使用aggregate:

aggregate(df1[-1], list(df1$Z), FUN = function(y) sum(is.na(y))) 
aggregate(. ~ Z, df1, FUN = function(y) sum(is.na(y)), na.action = "na.pass") # formula interface

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

分组然后计算缺失变量？的相关文章

带有嵌套分组变量的多行轴标签，用于 - R 中的堆积条形图

我想使用 ggplot 制作一个包含多个类别的堆叠条形图并带有嵌套的标记 X 轴类似于我使用 Excel 制作的条形图如此处所示我尝试使用给出的例子here https stackoverflow com questions 181
使用 R 中的 tidyverse 重新调整因子和重新排序因子

我想使用这些功能重新调平 and 重新排序在我的数据框中我了解重新调整级别的工作原理但我不明白为什么我在 data frame 中看不到级别的变化例如假设我有鸢尾花数据集 library tidyverse head iris g
使用亚毫秒日期时间从字符->POSIXct->字符准确转换

我的文件中有一个字符日期时间列我加载文件到data table 并执行需要将列转换为的操作POSIXct 然后我需要写POSIXct值返回文件但日期时间不会相同因为打印不正确这个打印格式问题是众所周知的并且已经被讨论过多次我
根据共同值对两个数据帧求和

我有一个看起来像的数据框 day of week count 1 0 3 2 3 1 3 4 1 4 5 1 5 6 3 另一个喜欢 day of week count 1 0 17 2 1 6 3 2 1 4 3 1 5 4 5 6 5
将 csv 文件上传到shinyApps.io

我的应用程序在本地运行良好并且我能够成功地将应用程序部署到shinyapps io 服务器但是当我尝试使用shinyapps URL 在浏览器中加载应用程序时收到以下错误消息错误对象数据不是成立我认为这是因为 data 变量从
求解非线性方程组

我正在尝试求解以下四个方程组我尝试过使用 rootSolve 包但似乎我无法通过这种方式找到解决方案我正在使用的代码如下 model lt function x F1 lt sqrt x 1 2 x 3 2 1 F2 lt sqrt
替换rmarkdown/knitr/pdf中字幕的自动编号

我正在使用 Rmarkdown 生成 PDF 文档我想在其中手动定义图号下面是一个块的示例 r chunk26 fig cap Fig 5 3 My figure caption plot 1 1 我使用特殊的编号来遵循文档的章节问题
当在另一行中找到元素逗号分隔时合并行

您好我有一个数据框例如 species family Events groups 1 SP1 A 10 22 G1 2 SP1 B 7 G2 3 SP1 C D 4 5 6 1 3 G3 G4 G5 G6 4 SP2 A 22 10 G
单击 R Shiny 中的按钮后将输入字段重置为 null

我正在构建一个应用程序用户可以在其中按列输入表的数据值单击添加按钮后输入的值将按列附加到现有值例如如果输入 col1 2 3 并单击 ADD 我们将在显示屏中看到 col1 2 3 如果输入 col2 4 7 并单击 ADD
闪亮的点击/画笔不适用于非笛卡尔坐标？

我正在开发一个闪亮的应用程序它应该让用户在由 ggplot2 生成的世界地图上选择地理数据点如这个例子 http shiny rstudio com gallery plot interaction selecting points h
dplyr：同一公式中全年每日值的总和以及特定每日值的总和

Using df数据框 date lt rep as Date seq as Date 2003 01 01 as Date 2005 12 31 by 1 format Y m d 9 site lt c rep Site 1 3 109
将分类变量重新编码为二进制 (0/1)

有人可以帮助我使用ifelse 我有一个data frame dat 具有称为 Q1 的分类变量因子 dat Q1 dat Q1编码为 1 2 3 或 4 我需要创建一个新列data new1基于以下规则 if dat Q1 3 then
将数据框分成相等的部分

我有一个示例数据框 df lt data frame x 1 112 y runif 112 有没有办法打印数据框列表其中列表的第一部分包含行1 10 第二11 20等等直到最后 111 112 你可以使用split with rep
将 R 中的时间数据绘制为各种分辨率（分钟、小时、秒等）

我有一些 CSV 数据例如 Timestamp Count 2009 07 20 16 30 45 10 2009 07 20 16 30 45 15 2009 07 20 16 30 46 8 2009 07 20 16 30 46 6
在 ggplot2 上绘制世界地图

我一直在尝试在 ggplot2 上绘制世界地图我跟踪了电子邮件的线索带 l 的 ggplot 地图 https stackoverflow com questions 9558040 ggplot map with l但我确实遇到了同样
基于列名称的字符向量的子数据框[重复]

这个问题在这里已经有答案了菜鸟问题提前感谢您的耐心我有一个数据框 vals lt c 1 1 1 1 testdf lt data frame var1 vals var2 vals var3 vals 我有一个变量名称的字符向量 v
在 r 中的字符串内循环以输出具有向量化值的表达式

示例数据 gt DF A B C 1 11 22 88 2 11 22 47 3 2 30 21 4 3 30 21 gt r 1 A A i B B i A A i C C i 3 B B i C C i A A i B B i C C
在r中拆分数据并将所有拆分文件保存在csv中

我有一个名为 data 的数据集 Model Garage City Honda C Chicago Maruti B Boston Porsche A New York Honda B Chicago Honda C New York 它
如何在 R 中为所有plot.default、plot 或lines 调用设置默认颜色

为了简化我的日常 R 交互我想为所有绘图设置默认颜色例如假设我想要用红线绘制所有绘图例如在 gnuplot 中到目前为止这是我的 Rprofile 的片段 setHook packageEvent grDevices onLoa
在 R 中，为什么 sum 与其他方法（例如 cumsum）相比如此慢？

我正在尝试实现一个需要非常快的函数主要是因为它一遍又一遍地处理巨大的数据帧 R 总是让我感到困惑为什么它有时有点慢而有时又慢得离谱不幸的是它从来都不快不管怎样我一直认为如果可能的话当以某种方式推入 apply sapply

随机推荐

R：将查找表与数据框合并

我正在使用 R 编程语言我有以下有关患者医疗特征和疾病患病率的数据集 set seed 123 library dplyr Patient ID 1 5000 gender lt c Male Female gender lt sampl
WordPress 在不使用 get_posts() 的情况下获取帖子数量？

需要一个专门设计用于获取匹配条件的帖子计数的函数调用我认为 get posts 函数对于此操作来说太昂贵了我只是想决定当有预定义数量的帖子要显示时是否显示查看更多帖子链接例如要显示的默认帖子链接数为 3 我只想在帖子总数超过 3
SPARK SQL - 使用 DataFrames 和 JDBC 更新 MySql 表

我正在尝试使用 Spark SQL DataFrames 和 JDBC 连接在 MySql 上插入和更新一些数据我已成功使用 SaveMode Append 插入新数据有没有办法从 Spark SQL 更新 MySql 表中已有的数据
Javascript：将逗号替换为### - 仅用双引号[重复]

这个问题在这里已经有答案了在下面的字符串中 This is just for Test ignore it My name is FirstName LastName 我想将双引号内的所有逗号替换为目前我只找到了的匹配模式但需要
jQuery + JSON 如何从变量定义键

我有以下代码 post factory set key value function response json where key foo value bar 但服务器总是获取 key 和 bar 有没有办法将键设置为变量而不是字符串
ASP.Net MVC 和 Comet (WebSync)

我正在尝试在我的 ASP Net MVC 2 0 项目中实现 comet 我在用着WebSync http www frozenmountain com websync 来自冰冻山我的网站是用 C 4 0 和 ASP Net 4 0 编码
直接从 Eclipse 本地历史记录恢复已删除的文件

发生了一些 git 错误我丢失了一个文件的很多更改我使用 Eclipse 作为 IDE 但 git 错误包括删除项目并重新克隆目录所以我无法从 Eclipse 中进行恢复我相信我已经找到了包含我想要恢复的代码的本地历史文件但我不确
我可以在 Windows Azure 中托管应用程序并将数据库存储在不同的服务器上吗

我可以在 Windows Azure 中托管应用程序并将数据库存储在不同的服务器上吗例如我想将我的数据保存在服务器上这样我就不必担心隐私问题如果这是可能的是否会消除在云中托管应用程序的价值 thanks 您的意思是在 Window
您如何知道 Pytorch Save 是否包含模型和/或仅包含权重？

我对 pytorch 相当陌生这可能是版本问题但我看到使用了 torch load 和 torch load state dict 但在这两种情况下文件扩展名通常是 pth 我创建的模型我可以通过 torch Save 和 torc
使用 Python 抓取 PDF 文本 (pdfquery)

我需要抓取一些 PDF 文件来提取以下文本信息我尝试使用 pdfquery 来完成此操作方法是解决我在 Reddit 上找到的示例请参阅第一篇文章 https www reddit com r Python comments 4bnj
QTableWidgetItem 文本已更改

我正在寻找一种干净的方式来对事件做出反应如果QTableWidgetItem已更改其文本我尝试过使用信号QTableWidget itemChanged QTableWidgetItem item 但这会导致错误因为我更改了背景颜色Q
在 C++ 中，“operator !=”是否应该始终通过“operator ==”来实现？

我目前查看了一个旧的 C 代码库发现很多代码都是这样的 bool SomeClass operator const SomeClass other const return member1 other member1 member2 ot
优化点-圆距离法

我正在实施 RANSAC 算法来检测图像中的圆圈我分析了执行情况得到 13699392 function calls in 799 981 seconds Random listing order was used ncalls tot
Jetpack Compose 中的文本超链接主题标签 (#) 和提及 (@)？

Jetpack Compose 中的文本超链接主题标签和提及 Composable fun HashtagsAndMentions val colorScheme MaterialTheme colorScheme val primary
如何在 FeignClient 中调用带有多个查询字符串参数的 url？

我尝试使用多个查询字符串参数调用 Google API 奇怪的是我找不到办法做到这一点这是我的 FeignClient FeignClient name googleMatrix url https maps googleapis co
为什么页脚项目不包含在 Repeater.Items 中？

我需要在按钮的 OnClick 事件中从 FooterTemplate 内的文本框中获取值我的第一个想法是循环遍历中继器上的 items property 但正如您在此示例中所看到的它只包括实际的数据绑定项而不包括页脚项 ASPX
ob_get_clean 和 ob_get_flush 之间的区别

它们似乎都做同样的事情将输出缓冲区内容返回给您然后将其删除我应该使用哪一个 ob get clean http php net manual en function ob get clean php删除缓冲区不打印它并返回其内容
Android 中选项卡式视图寻呼机的单独后退导航

我想要的是在选项卡滑动菜单上下文中我想将选项卡内的一个片段替换为另一个片段并维护选项卡菜单以及当前选项卡当滑动到另一个选项卡并返回到原始选项卡时我希望显示最后一个片段例如我有tab a with Fragment 1 tab
用于解析数据的正则表达式

我正在编写一个从简单文本文件中读取一些数据的应用程序数据文件我感兴趣的有以下形式的行 Mem 100 120 Mem 200 231 Mem 43 12 Mem 1293 12 54 所以正如你所理解的每条线的模式是这样的 s t
分组然后计算缺失变量？

我的数据看起来像这样 df1 lt data frame Z sample LETTERS 1 5 size 10000 replace T X1 sample c 1 10 NA 10000 replace T X2 sample c 1

分组然后计算缺失变量？

分组然后计算缺失变量？ 的相关文章

随机推荐

热门标签

分组然后计算缺失变量？的相关文章