我正在观看 Greg Reda 制作的关于 Pandas 的视频[1],看看 Pandas 可以做什么,与 data.table 相比如何。我很惊讶地发现在 data.table 中连接表是多么困难。如果您观看视频,特别是 @49:00 到 @52:00 分钟,您会发现 Pandas 允许您根据不同的列名称连接表,并且您可以为左表和右表选择不同的后缀。我了解 setkey 用于优化目的[2],并了解如何使用相同的列名连接表[3]。我尝试了 data.table 的合并,但设置时遇到很大困难by=
使用不同列名的关键字参数。这是我的问题。
在 data.table 中,是否可以根据不同的列名连接表?如果是这样,怎么办?如果没有,为什么不呢?另外,更有用的是,这个功能不是很有用吗?我感到惊讶的是这个问题没有更早地出现。如果之前已经讨论过这个问题,请原谅我(请指出他们)。
顺便说一句,Greg 所说的数据可以在他的 github 上找到[4]。
- https://www.youtube.com/watch?v=1uVWjdAbgBg
- https://stackoverflow.com/a/13686768/3892933
- 在 R data.table 中连接具有相同(非键控)列名的表
- https://github.com/gjreda/pydata2014nyc
Update:下面列出的所有功能均已实现并在当前稳定版本的 data.table 中可用v1.9.6
在克兰上。
data.tables 中的联接至少可以进行这些改进。
最简单的原因是我们还没有做到这一点。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)