非等值连接一步添加 data.table 中范围表的所有列

2024-05-07

我确信我忽略了显而易见的事情，但我找不到一种方法来连接“查找”表的所有列data.table非等值连接一步到位.

我看了阿伦的演讲（https://github.com/Rdatatable/data.table/wiki/talks/ArunSrinivasanSatRdaysBudapest2016.pdf https://github.com/Rdatatable/data.table/wiki/talks/ArunSrinivasanSatRdaysBudapest2016.pdf）和多个 SO 问题，但几乎所有问题都只涉及更新单个列，而不是连接多个列。

假设我有2个data.tablesa and b:

library(data.table)
a <- data.table(Company_ID = c(1,1,1,1),
            salary = c(2000, 3000, 4000, 5000))

#   Company_ID salary
# 1:          1   2000
# 2:          1   3000
# 3:          1   4000
# 4:          1   5000

b <- data.table(cat = c(1,2),
            LB = c(0, 3000),
            UB = c(3000,5000),
            rep = c("Bob","Alice"))

#    cat   LB   UB   rep
# 1:   1    0 3000   Bob
# 2:   2 3000 5000 Alice

我最终想要的是匹配 cat、LB、UB、rep（中的所有列）b) 到表a:

#    Company_ID salary cat   LB   UB   rep
# 1:          1   2000   1    0 3000   Bob
# 2:          1   3000   2 3000 5000 Alice
# 3:          1   4000   2 3000 5000 Alice

目前，我设法做到这一点的唯一方法是使用以下两行：

a <- a[b, on = .(salary >= LB, salary < UB), cat := cat]
a[b, on = .(cat == cat)]

它输出所需的表，但看起来很麻烦，而且根本不像data.table方法。任何帮助将不胜感激！

因为您想要每一行的结果a，你应该像这样加入b[a, ...]:

b[a, on=.(LB <= salary, UB > salary), nomatch=0, 
  .(Company_ID, salary, cat, LB = x.LB, UB = x.UB, rep)]

   Company_ID salary cat   LB   UB   rep
1:          1   2000   1    0 3000   Bob
2:          1   3000   2 3000 5000 Alice
3:          1   4000   2 3000 5000 Alice

nomatch=0意味着我们将删除行a是无与伦比的b.
我们需要明确提及UB and LB列来自b使用x.*前缀（来自?data.table文档，其中参数的命名方式如下x[i]).

关于奇怪的默认列，有一个未解决的问题可以改变这种行为：#1615 https://github.com/Rdatatable/data.table/issues/1615.

(下面提到的问题 #1989 现已修复——请参阅 Uwe 的回答。)

交替...一种应该有效并避免显式列出所有列的方法：添加a的列b，然后子集b:

b[a, on=.(LB <= salary, UB > salary), names(a) := mget(paste0("i.", names(a)))] 
b[b[a, on=.(LB <= salary, UB > salary), which=TRUE, nomatch=0]]

这有两个问题。首先，有一个错误会导致非等值连接在遇到以下情况时中断：mget (#1989 https://github.com/Rdatatable/data.table/issues/1989）。临时解决方法是枚举a的专栏：

b[a, on=.(LB <= salary, UB > salary), `:=`(Company_ID = i.Company_ID, salary = i.salary)] 
b[b[a, on=.(LB <= salary, UB > salary), which=TRUE, nomatch=0]]

其次，执行两次此连接的效率很低（一次用于:=和第二次which），但我看不到任何解决办法...也许可以证明功能请求允许两者j and which?

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

非等值连接一步添加 data.table 中范围表的所有列的相关文章

Rstudio 更有意义的窗口标题

我在 Ubuntu 16 04 下使用 R studio 版本 1 0 143 窗口标题仅显示一个非常无信息的 RStudio 我希望至少有当前选项卡的名称或者最好是与此选项卡对应的文件的完整路径在 Windows 下完整路径似乎出现
R 因子变量之间的相关性

我想知道是否有一种简单的方法来识别与另一个变量 100 相关的特征因子变量因此在示例中该过程将匹配颜色和车辆以及植物和高度 color lt c black black blue blue yellow vehicle
在R中，如何平均空间网格正方形上的空间点数据

现在设法解决问题我有一组大约 50 000 个点它们具有坐标和一个与其关联的值我希望能够将点放入网格中对落在网格正方形中的所有点的关联值进行平均所以我想最终得到一个对象来识别每个网格方块并给出网格方块内的平均值如果有帮助的话我
连接查询或子查询

开发人员何时使用联接而不是子查询是否有经验规则或者它们是否相同第一个原则是准确地陈述查询第二个原则是简单明了地陈述查询这是你通常做出选择的地方第三个是陈述查询以便它能够有效地处理如果它是一个具有良好查询处理器的数据库管理
如何调整ggplot2中的标题位置

这是代码 require ggplot2 require grid pdf a pdf png a png a lt qplot date unemploy data economics geom line opts title A b l
R：data.table 与 merge(aggregate()) 性能

或者更一般地说它是DT SD by versus merge aggregate 话不多说这里是数据和示例 set seed 5141 size 1e6 df lt data table a rnorm size b paste0 sa
RStudio 在临时目录中从 Rmarkdown 创建 PDF 文件

我使用 RStudio 和 Rmarkdown 来创建报告由于某种原因使用 Knit 按钮会导致它仅在某个临时目录中创建从命令输出来看似乎 pandoc 本身被指示这样做我觉得这很奇怪 usr lib rstudio bin pa
rmarkdown 中的内部链接不起作用

我使用 rmarkdown 来渲染 pdf 文档现在我想在文本中添加内部链接在帮助页面中降价 http rmarkdown rstudio com authoring pandoc markdown html links 它说内部链接定
如何减小 R Plot 中图例的大小，同时仍使其可读？

我试图用 R 中的两个 y 轴绘制多年来的一些数据但是每当我尝试包含图例时图例就会主导我的绘图当我使用其他地方建议的解决方案时例如keyword和或使用cex论据在另一篇文章中建议here https stackoverflo
R：变换不规则时间字符串

我有两个不同的时间序列来自不同的数据帧具有不同的不规则格式但问题是相同的我只想提取小时分钟秒和毫秒时代系列看起来像这样 ts1 08 27 23 445 08 27 24 280 08 27 25 115 I tried st
profvis() 何时以及为何显示“源不可用”？

我经常分析 R 代码并大量使用 profvis 对于某些函数浏览器窗口的上半部分会显示源代码有时则不会我不知道什么时候会出现这种情况对我来说这似乎是随机的有谁知道 profvis 何时以及为什么无法在顶部窗口中显示代码发生这种
在 R 中读取 Stata 13 文件

有没有办法在 R 中读取 Stata 版本 13 数据集文件我尝试执行以下操作 gt library foreign gt data read dta TEAdataSTATA dta 但是我收到一个错误 read dta TEAdat
SPGridView、数据以及确保数据安全的正确方法

我正在使用 SPGridView 来呈现一些数据并启用了效果很好的过滤功能直到您选择数据中的特定项目进行过滤有问题的数据项在字符串中包含撇号例如这是 richards 的字符串这会导致后过滤器应用程序页面加载因错误而终止 Syn
当 DataTable 为空时，DataGrid 显示空行

我有一个DataGrid dg1 绑定到DataTable 数据集表代码运行良好并且DataGrid正在显示数据DataTable正确但是如果我Clear the DataTable the DataGrid也很清楚但留下一个空行
有效地将环境从内部功能转移到全局环境

我有一个在其中创建环境的函数我希望将该环境分配给全局环境目前我通过将环境分配给来做到这一点globalenv 作为最后一步如下 funfun lt function inc 1 dataEnv lt new env dataEnv d
正则表达式挑选括号之间的一些文本[重复]

这个问题在这里已经有答案了可能的重复提取 R 中所有括号内的信息正则表达式 https stackoverflow com questions 8613237 extract info inside all parenthesis i
R 中 write.table 文件名中的变量

请帮助我解决一个幼稚的问题已经用谷歌搜索并尝试了很多变体但失败了如何使用 R 中 write table 的文件名中的变量保存文件脚本循环遍历 dir 中的文件应用一些函数然后将结果保存到具有相同名称但附加结尾的文件中谢谢
readRDS() 加载额外的包

什么情况下会出现readRDS R 中的函数尝试加载包命名空间我很惊讶地在新的 R 会话中看到以下内容 gt loadedNamespaces 1 base datasets graphics grDevices methods sta
Rails 查询连接关联表与别名

我有一个模型Edge属于另一个模型Node通过不同的外键两次 def Edge lt ActiveRecord Base belongs to first class name Node belongs to second class na
如何在 R 地图库中绘制正确的颜色

我正在尝试使用 R 地图库为特定国家绘制特定颜色我可以填写颜色但它们与各自的国家地区没有正确关联我想知道是否有人能知道为什么我的数据框是 filld 有 3 列第一列是国家名称第二列只是一些数字数据第三列是颜色 countr

随机推荐

我无法在 Android 中使用 setMultiChoiceItems 在对话框中显示列表

我有一个方法返回 CharSequence 并且不为空用日志检查但不显示在对话框中我必须初始化 boolean 数组吗我没有看到任何错误所以也许我错过了一些东西我的代码是 dbManager open final CharSeq
Proguard：如何保留除特定条件之外的所有内容？

我正在使用 Proguard 来混淆我的代码并且我需要保留每个第三方库例如 keep class com layer dontwarn com layer keep class com twitter keep class androi
SPARQL (Jena) UPDATE 可以通过文字集合（而不是文字）进行参数化吗？

我可以调用参数化的 SPARQL UPDATE 如 Jena 的ParameterizedSparqlString 将属性设置为多个例如字面值例如我有 Set
在书签中使用本地存储

我非常喜欢使用带有小脚本的书签例如我编辑了注释编辑脚本这个帖子 http www reddit com r LifeProTips comments 265rxe lpt use a browser tab as a quick and
在显示另一个对话框之前隐藏所有可见的 Metro 对话框

我在用着MahApps Metro http mahapps com在我的 WPF 项目中我正在构建一个类来帮助我展示Dialogs http mahapps com controls dialogs html 我想知道是否有一种方法可以
有没有办法在 asp.net core 3.1 Rest-API 中使用 Identity Server 功能

我正在使用 asp net core 3 1 在服务器中使用 Rest API 的项目以 Angular 作为单页应用程序的前端从每个客户端用户需要提供其用户名和密码才能访问 Web API 的受保护部分我想使用 Identity
DATEADD(day, -7, GETDATE()) - 是否考虑了时间？

我正在通过 Amazon Redshift 在 Aginity 中编写 SQL 查询来提取过去 7 天的数据这Date我调用的列是变量类型 DATE 输出示例如下 5 30 2017 0 00 当我调用下面的函数时运行此查询在一天中的什
Haskell 中美元符号 ($) 和 id 函数之间有关系吗？

这几天我正在读一篇评论莫纳德挑战 http mightybyte github io monad challenges 我强烈推荐给像我这样的 Haskell 初学者我最终得到了这个线程 https news ycombinator co
如何从symfony2中的表单对象获取每个字段的错误消息？

我按照这个教程http symfony com doc current forms html http symfony com doc current forms html我完美地呈现了我的插入表单但只有一个问题我无法解决当表单无效时
Solr 过滤查询 - 字符串与整数

假设我正在尝试查询一堆具有类别的文档并且我想将查询限制为指定的类别据我所知这只是使用 fq 参数过滤器查询我想知道将参数设置为整数而不是字符串或数据通常的情况是否会提高性能我只是会在右侧犯错但我想我应该仔细检查一下以防万一
将 ElasticSearch SearchResponse 对象转换为 JsonObject

我想将elasticsearch搜索结果转换为Json对象我还没有找到任何直接转换的正确方法 SearchResponse response client prepareSearch index setExplain true execu
创建一个类的所有常量的数组？

我正在使用一个定义了近 20 个常量的类因为我希望所有这些常量值都在一个数组中我只想知道有没有什么方法可以创建一个类的所有常量的数组我尝试过compact https www php net manual en function c
使用 ruby 获取 URL 的内容长度

我正在尝试编写一个 ruby 脚本该脚本使用以下命令获取有关网站上文件的一些详细信息net http 我的代码如下所示 require open uri require net http url URI parse asset res N
OAuth 2.0：优点和用例 - 为什么？

谁能解释一下 OAuth2 的优点以及为什么我们应该实施它我问这个问题是因为我对此有点困惑这是我目前的想法 OAuth1 更准确地说是 HMAC 请求看起来合乎逻辑易于理解易于开发并且非常非常安全相反 OAuth2 带来了授权请求
在 C 或 C++ 中返回结构是否安全？

我的理解是不应该这样做但我相信我已经看到过这样做的示例注意代码不一定在语法上正确但想法就在那里 typedef struct int a b mystruct 然后这是一个函数 mystruct func int c int d my
如何解决使用 UWP GetFolderFromPathAsync 时访问被拒绝的问题

尝试使用 GetFolderFromPathAsync 从 UWP 应用访问文件系统时我的访问被拒绝我的 UWP 应用需要访问 Windows 10 文件系统我正在使用 BroadFileSystemAccess 但被卡住了我下面的
如何关闭 IntelliJ 编辑器中的无限空白？

如何删除 IntelliJ 中行尾后移动光标的功能文件菜单 gt 设置 gt 编辑器 gt 常规 gt 虚拟空间并取消选中允许在行尾后放置插入符号您还可以取消选中虚拟空间面板中的其他选项
iOS Flutter 与 Firebase：启动时 FlutterAppDelegate 中出现白屏和 SIGABRT

现在在多个项目中非常不一致的是我在启动应用程序时出现白屏并且 Xcode 显示错误 Thread 1 signal SIGABRT 在线上 objc class AppDelegate FlutterAppDelegate 这些都是i
不同GIT版本的GIT合并结果不同

在不同的 GIT 版本上运行 merge 命令我们得到不同的结果命令是 git merge no ff origin master codeline Results 版本2 1 4 gt 合并成功版本1 7 1 gt 同一提交上的同一合
非等值连接一步添加 data.table 中范围表的所有列

我确信我忽略了显而易见的事情但我找不到一种方法来连接查找表的所有列data table非等值连接一步到位我看了阿伦的演讲 https github com Rdatatable data table wiki talks ArunS

非等值连接一步添加 data.table 中范围表的所有列

非等值连接一步添加 data.table 中范围表的所有列 的相关文章

随机推荐

热门标签

非等值连接一步添加 data.table 中范围表的所有列的相关文章