我没有使用 data.table 的经验,所以我不知道我的问题是否有解决方案(谷歌上的 30 分钟至少没有给出答案),但就这样了。
对于 data.frame,我经常使用以下命令来检查唯一值的观察数量:
df$Obs=with(df, ave(v1, ID-Date, FUN=function(x) length(unique(x))))
使用data.table时有相应的方法吗?
就在这里。很高兴,您询问了最新的功能之一data.table
,在 v1.8.2 中添加:
:=
现在已实施按组 (FR#1491) 并子分配给新列
现在通过引用自动添加该列(初始化为NA
在哪里
子分配不接触)(FR#1997)。:=
按组可以与所有组合
种类i
, so :=
按组包括分组依据i
以及由by
。
自从:=
by group 是参考,它应该比任何更快
方法(直接或间接)cbind
是 DT 的分组结果,因为根本没有创建(大)DT 的副本。这是一种简短而自然的语法,可以与其他查询组合使用。
DT[,newcol:=sum(colB),by=colA]
在您的示例 iiuc 中,它应该类似于:
DT[, Obs:=.N, by=ID-Date]
代替 :
df$Obs=with(df, ave(v1, ID-Date, FUN=function(x) length(unique(x))))
注意:=
按组对于大型数据集可以很好地扩展(较小的数据集将有很多小组)。
See ?":="
and 在 data.table 标签中搜索“参考”
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)