根据多个键控列将缺失行添加到 data.table

2024-04-07

我有一个data.table包含指定唯一情况的多个列的对象。在下面的小例子中，变量“name", "job", and "sex“指定唯一的 ID。我想添加缺失的行，以便每个案例对于另一个变量的每个可能实例都有一行，”from“ （如同expand.grid).

library(data.table)
set.seed(1)
mydata <- data.table(name = c("john","john","john","john","mary","chris","chris","chris"),
                 job = c("teacher","teacher","teacher","teacher","police","lawyer","lawyer","doctor"),
                 sex = c("male","male","male","male","female","female","male","male"),
                 from = c("NYT","USAT","BG","TIME","USAT","BG","NYT","NYT"),
                 score = rnorm(8))

setkeyv(mydata, cols=c("name","job","sex"))

mydata[CJ(unique(name, job, sex), unique(from))]

这是当前的 data.table 对象：

> mydata
    name     job    sex from      score
1:  john teacher   male  NYT -0.6264538
2:  john teacher   male USAT  0.1836433
3:  john teacher   male   BG -0.8356286
4:  john teacher   male TIME  1.5952808
5:  mary  police female USAT  0.3295078
6: chris  lawyer female   BG -0.8204684
7: chris  lawyer   male  NYT  0.4874291
8: chris  doctor   male  NYT  0.7383247

这是我想要的结果：

> mydata
     name     job    sex from      score
1:   john teacher   male  NYT -0.6264538
2:   john teacher   male USAT  0.1836433
3:   john teacher   male   BG -0.8356286
4:   john teacher   male TIME  1.5952808
5:   mary  police female  NYT  NA
6:   mary  police female USAT  0.3295078
7:   mary  police female   BG  NA
8:   mary  police female TIME  NA
9:  chris  lawyer female  NYT -NA
10: chris  lawyer female USAT -NA
11: chris  lawyer female   BG -0.8204684
12: chris  lawyer female TIME -NA
13: chris  lawyer   male  NYT  0.4874291
14: chris  lawyer   male USAT  NA
15: chris  lawyer   male   BG  NA
16: chris  lawyer   male TIME  NA
17: chris  doctor   male  NYT  0.7383247
18: chris  doctor   male USAT  NA
19: chris  doctor   male   BG  NA
20: chris  doctor   male TIME  NA

这是我尝试过的：

setkeyv(mydata, cols=c("name","job","sex"))
mydata[CJ(unique(name, job, sex), unique(from))]

但我收到以下错误并添加 fromLast=TRUE （或 FALSE）并没有给我正确的解决方案：

Error in unique.default(name, job, sex) : 
  'fromLast' must be TRUE or FALSE

以下是我遇到的相关答案（但似乎没有一个答案涉及多个键控列）：将缺失的行添加到数据表中 https://stackoverflow.com/questions/22462405/add-missing-rows-to-a-data-table

在 data.table 中高效插入默认缺失行 https://stackoverflow.com/questions/16518505/efficiently-inserting-default-missing-rows-in-a-data-table

在 data.frame 中添加缺失值行的最快方法？ https://stackoverflow.com/questions/10438969/fastest-way-to-add-rows-for-missing-values-in-a-data-frame

这里有几种可能性 -https://github.com/Rdatatable/data.table/pull/814 https://github.com/Rdatatable/data.table/pull/814

CJ.dt = function(...) {
  rows = do.call(CJ, lapply(list(...), function(x) if(is.data.frame(x)) seq_len(nrow(x)) else seq_along(x)));
  do.call(data.table, Map(function(x, y) x[y], list(...), rows))
}

setkey(mydata, name, job, sex, from)

mydata[CJ.dt(unique(data.table(name, job, sex)), unique(from))]
#     name     job    sex from      score
# 1: chris  doctor   male  NYT  0.7383247
# 2: chris  doctor   male   BG         NA
# 3: chris  doctor   male TIME         NA
# 4: chris  doctor   male USAT         NA
# 5: chris  lawyer female  NYT         NA
# 6: chris  lawyer female   BG -0.8204684
# 7: chris  lawyer female TIME         NA
# 8: chris  lawyer female USAT         NA
# 9: chris  lawyer   male  NYT  0.4874291
#10: chris  lawyer   male   BG         NA
#11: chris  lawyer   male TIME         NA
#12: chris  lawyer   male USAT         NA
#13:  john teacher   male  NYT -0.6264538
#14:  john teacher   male   BG -0.8356286
#15:  john teacher   male TIME  1.5952808
#16:  john teacher   male USAT  0.1836433
#17:  mary  police female  NYT         NA
#18:  mary  police female   BG         NA
#19:  mary  police female TIME         NA
#20:  mary  police female USAT  0.3295078

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

根据多个键控列将缺失行添加到 data.table 的相关文章

在R中，如何平均空间网格正方形上的空间点数据

现在设法解决问题我有一组大约 50 000 个点它们具有坐标和一个与其关联的值我希望能够将点放入网格中对落在网格正方形中的所有点的关联值进行平均所以我想最终得到一个对象来识别每个网格方块并给出网格方块内的平均值如果有帮助的话我
重用 R 中内置的模型

在 R 中构建模型时如何保存模型规范以便可以在新数据上重用它假设我根据历史数据建立逻辑回归但直到下个月才会有新的观察结果最好的方法是什么我考虑过的事情保存模型对象并在新会话中加载我知道某些模型可以使用 PMML 导出但还没有
在ggplot2中添加边框或背景以缩放图例guide_colorbar

我在 ggplot 图中有一个从白色到红色的颜色条并且白色边框在白色背景上不太明显有没有办法对图例中的刻度线进行不同的着色或在渐变比例周围添加边框这是一个最小的例子 df lt data frame x lt rnorm 10 y l
在 R 中使用 randomforest() 进行分类？

我最初有一个由 N 行 12 列组成的数据框最后一列是我的班级 0 或 1 我必须将整个数据框转换为数字 training lt sapply training temp as numeric 但后来我认为我需要将类列作为因子列来使用 r
将 data.frame 的列中的值替换为另一个 data.frame 中的值

我的情况是我有一个数据框其中有一列填充了整数 1 到 6 我想用更具描述性的标签替换这些整数这些标签在另一个充当键的数据框中提供 V1 V2 1 1 LABEL1 2 2 LABEL2 3 3 LABEL3 4 4 LABEL4
Shiny 中的模态对话框：可以调整宽度但不能调整高度

在我的 Shiny 应用程序中我有几个来自闪亮BS 包的模式窗口我可以像这样调整这些模式窗口的宽度 tags head tags style HTML modal lg width 1200px abs 1 background col
Git：如何维护项目的两个分支并仅合并共享数据？

假设我有一个项目的两个分支 IMClient MacOS 和 IMClient Windows 它们的代码仅比方说一个目录 main 有所不同所有其他目录都包含与系统无关的代码并且可以互换有些工作人员在 Windows 版本上工作
来自 data.frame 每一列的随机样本

我想从 a 的每一行中抽取随机样本data frame独立于其他行这是一个例子此代码为每行选择相同的列但我需要为每行独立选择列 library plyr set seed 12345 df1 lt mdply data frame m
如何从 data.frame 中选择行和列的子集

我有这个 d d Age gt 2 它返回 Age 超过 2 的所有行但我只想返回几列中的值例如 d X 和 d Y 而不是全部无论如何我可以做到这一点吗 Thanks d d Age gt 2 c X Y
在 R 中读取 Stata 13 文件

有没有办法在 R 中读取 Stata 版本 13 数据集文件我尝试执行以下操作 gt library foreign gt data read dta TEAdataSTATA dta 但是我收到一个错误 read dta TEAdat
Quarto/Rmarkdown 中的美人鱼图：狭窄且模糊

我正在尝试生成 pdf 格式的四开文档稍后会生成 word 格式我遇到了美人鱼图的问题请在下面找到一个示例 qmd 文件来说明该问题所以首先它应该支持 mermaid 标签但当我这样做时我无法在 rstudio 中运行单元
R - 根据另一个数据框查找每组的重叠日期

我有一个数据框其中包含多个雨量计的降雨测量值如下例所示 gt rnfl ID date value 1 250 2000 03 01 5 37 2 250 2000 03 02 0 00 3 250 2000 03 03 2 94 4
R 中大型稀疏矩阵的聚类分析

我有一个包含 250000 笔交易行和 2183 项列的交易数据集我想将其转换为稀疏矩阵然后对其进行分层聚类我尝试了包 sparcl 但它似乎不适用于稀疏矩阵关于如何解决这个问题有什么建议吗或者我可以使用任何其他包对稀疏矩
包检查时如何有效处理未压缩的保存？

在最近开发一个包的过程中我将数据集包含在data 我的包的文件夹在我的具体情况下我有 5 个数据集所有这些数据集都位于data table格式尽管我在下面描述的问题仍然存在如果我将它们保留为data frame 我已将每个人单独
有效地将环境从内部功能转移到全局环境

我有一个在其中创建环境的函数我希望将该环境分配给全局环境目前我通过将环境分配给来做到这一点globalenv 作为最后一步如下 funfun lt function inc 1 dataEnv lt new env dataEnv d
udunits2 R 安装：找不到 udunits2.h

我正在尝试在 R 中安装 udunits2 以满足对ggforce包裹但是安装程序在检查 udunits2 时始终失败我已经尝试过中的说明this https stackoverflow com questions 47059517
readRDS() 加载额外的包

什么情况下会出现readRDS R 中的函数尝试加载包命名空间我很惊讶地在新的 R 会话中看到以下内容 gt loadedNamespaces 1 base datasets graphics grDevices methods sta
使用 ggplotly（ggplot2 withplotly）时可以去掉注释中的跟踪标签吗？

使用ggplotly时是否可以删除注释中的跟踪标签例如 library ggplot2 library plotly g lt ggplot iris aes Sepal Width Sepal Length geom point ann
解释 survreg 中的威布尔参数

我正在尝试使用从 R 中的 survreg 估计的参数生成逆威布尔分布我的意思是对于给定的概率这将是在 MS Excel 中实现的小型模拟模型中的随机数返回使用我的参数预计出现故障的时间我理解逆威布尔分布的一般形式是 X b l
Yajra DataTable Laravel 中的 Foreach

我试图在我的数据表中放入一个 foreach 循环但它不起作用附如果我删除 foreach 一切都已经正常了这里附上我的代码 Product Product query colors Color all return Datatab

随机推荐

动态 fnAddData 时，数据表显示“正在处理...”标签

我有一个函数可以动态地将数据添加到数据表中这是函数 function fnClickAddRow for i 0 i lt 10000 i example dataTable fnAddData giCount 1 giCount 2 g
为什么 Rust 中 String 隐式转换为 &str？

考虑以下代码 let s String from hello let mut r String new for c in s chars r push c As chars的方法是 str 为什么可以String叫它我想这与coercio
如何在 VS Code 中调试 nightwatch 测试

我正在尝试使用 VS Code 调试 nightwatch e2e 测试我使用打字稿编写测试只有当我在 js 文件中放置断点时它才能工作之后它会转到 ts 文件我可以从那里调试它如果我把它放在我的测试的 ts 文件中它永远不会停
如何将 SVG 导入 Next.js 组件？

我正在尝试将 SVG 图像从文件导入到 Next js 组件中在资产文件夹中我有 google svg 图标
Swift 3 的链接器命令失败，退出代码为 1（使用 -v 查看调用）

我正在构建一个 Swift 库并且正在将其托管在 GitHub 上 https github com Napalm Framework Napalm 一切都很顺利直到我添加蓝牙套件 https github com rhummelmos
YSlow 为使用 mod_deflate 压缩的文件提供 F 级

我在用着mod deflate on 阿帕奇2 2压缩级别设置为 9 我根据以下建议对网站的每个可能的方面进行了微调Y慢 v2 并在所有类别上均取得了总体 A 级总分 91 除了减少 HTTP 请求 Grade C 我还在进一步努力图
CloudFront 速率限制规则不起作用

我有一个适用于 EC2 HTTP 服务器的 CloudFront 发行版我为我的 CloudFront 分配创建了速率限制使用WAF https docs aws amazon com waf latest APIReference AP
如何将 DXGI 共享资源的句柄传递给另一个进程？

https msdn microsoft com en us library windows desktop bb174562 v vs 85 aspx https msdn microsoft com en us library wind
如何在实体框架中重用投影？

我有一个 ASP NET MVC 应用程序它使用实体框架来获取数据我需要将实体转换为模型然后再将它们传递给视图预测可能非常复杂但为了保持简单 public static IQueryable
setBackgroundDrawable() 已弃用

所以我的 sdk 从 15 变为 21 当我调用时setBackgroundDrawable Android Studio 告诉我它已被弃用我想用以下方法绕过它 int sdk android os Build VERSION SDK I
由于图像，应用程序尺寸较大。如何压缩 .PNG 图像？

我正在开发一个应用程序它有很多图像需要处理因此我的应用程序的大小变得非常大我想压缩或类似的东西来减小应用程序的大小任何想法 png 放置在res drawable are 自动优化 http developer android co
在 Unity 中创建带有延迟的无限循环

我需要在 Unity 中创建一个无限循环而不使用主线程我看到了一些例子但它没有用 while true var aa debug log print 我想添加一些延迟例如2秒如果有人知道解决方案请帮忙首先定义一个协程 https
访问 iOS 6 新 API 以获取相机曝光和快门速度

在苹果的iOS 6 0 功能页面 https developer apple com technologies ios6 过去常说利用内置摄像头的高级功能新的 API 可让您控制焦点曝光和感兴趣区域您还可以使用人脸检测 API 访问
Android 应用程序需要 Google Play 服务更新 - 打开按钮而不是更新

为了使用 GCM Google Cloud Messaging 我需要在我的应用程序中实现 Google Play 服务库在我的 Galaxy S2 Android 4 1 2 上一切正常但在我的 HTC Android 2 2 2 上
如何在滚动 android 时固定工具栏

我目前正在开发电子商务 Android 应用程序我需要在滚动时修复工具栏正如我附上下面的屏幕截图滚动操作栏时需要固定正文内容滚动到工具栏后面这是布局 xml
什么是 __meteor_bootstrap__？

我刚刚开始使用 Meteor 并致力于现有的项目我遇到了其中一个软件包 observatory apollo 的问题该软件包具有以下行 meteor bootstrap app use Observatory logger TLog u
C# 中是否有像 Java 中那样的 throws 关键字？ [复制]

这个问题在这里已经有答案了可能的重复如何在 C 中使用 Java 风格的 throws 关键字 https stackoverflow com questions 3465465 how to use java style throws
如何以编程方式创建 Func<> 委托

我有一个小型依赖注入框架我正在尝试解决它Lazy lt gt 动态实例我们的想法是做这样的事情 DIContainer Register
使用自定义段变量设置 ASP.Net MVC 4 路由

我刚刚开始开发一个具有几个区域的应用程序基本网格主控详细信息类型系统我正在考虑利用 MVC 中良好的路由功能特别是 4 但我只是不明白我相信目前唯一定义的路线是基本路线 routes MapRoute Default cont
根据多个键控列将缺失行添加到 data.table

我有一个data table包含指定唯一情况的多个列的对象在下面的小例子中变量 name job and sex 指定唯一的 ID 我想添加缺失的行以便每个案例对于另一个变量的每个可能实例都有一行 from 如同expand grid

根据多个键控列将缺失行添加到 data.table

根据多个键控列将缺失行添加到 data.table 的相关文章

随机推荐

热门标签