data.table 有条件连接：保留所有列

2024-01-10

我有这两张表

library(data.table)
d = seq(0.1,1,by = 0.1)
n = length(d)
dtBig = data.table(id = rep(letters[1:2],each = n/2),
                   d1 = d,
                   d2 = d + 0.2,
                   i = 1:n)
dtSmall = data.table(id = rep(letters[1:2],each = 2),
                     d_start = c(0.2,0.65,0.15,1.1),
                     d_end = c(0.65,0.85,0.8,1.5))

我想进行有效的合并id有两个不等式条件d1 >= d_start and d2 <= d_end.

当表有很多行时，第一种方法非常耗时：

dtAll = merge(dtSmall, dtBig, by = "id", allow.cartesian = T)[d1 >= d_start & d2 <= d_end]

所以我使用“on”运算符：

dtAll2 = dtBig[dtSmall, on = .(id, d1 >= d_start, d2 <= d_end),nomatch = 0]

但是，d1 采用 d_start 的值和 d_end 的 d2 的值，并且我丢失了 d1 和 d2 的值。
所以我做了这些命令：

dtAll2 = dtBig[dtSmall, on = .(id, d1 >= d_start, d2 <= d_end),nomatch = 0]
dtAll2[,`:=`(d_start = d1, d_end = d2)]
dtAll2[,`:=`(d1 = NULL, d2 = NULL)]
dtAll2 = dtAll2[dtBig[,.(i,d1,d2)],on = .(i == i),nomatch = 0]

验证 dtAll 和 dtAll2 是否相同：

setcolorder(dtAll, names(dtAll2))
setkey(dtAll,i)
setkey(dtAll2,i)
all.equal(dtAll,dtAll2)

但我确信有更好的方法，有什么想法吗？

您可以使用foverlaps可用的data.table为此，并从您的d1 >= d_start & d2 <= d_end我们可以看出您对 dtBig 中的那些记录感兴趣withindtSmall 中开始/结束的范围，可以在type争论。你必须使用setkey on the y（第二个表，dtSmall）。你不必使用by.y因为它默认为 y 中的键。

setkey(dtSmall, id, d_start, d_end)
dtAllF <- foverlaps(dtBig, dtSmall, by.x = c("id", "d1", "d2"), type = "within", nomatch = 0)

Results

dtAllF
# id d_start d_end  d1  d2 i
# 1:  a    0.20  0.65 0.2 0.4 2
# 2:  a    0.20  0.65 0.3 0.5 3
# 3:  a    0.20  0.65 0.4 0.6 4
# 4:  b    0.15  0.80 0.6 0.8 6

检查是否相等

setcolorder(dtAllF, c("id", "i"))
identical(dtAll2, dtAllF)

# [1] TRUE

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

join

MERGE

dataTable

data.table 有条件连接：保留所有列的相关文章

R 和系统调用

我过去曾使用 R 对命令行进行非常基本的调用例子可以找到here https stackoverflow com questions 3284301 command line in r code 这一次我希望模仿这段从 Windows
使用 lapply、Reduce 和 union 折叠 data.table 中的行

我有一个 data table 示例 JACcar 它应该使用下面的代码根据 ID 折叠成一行但是我不明白为什么它不会折叠少于 2 行我还尝试通过将列限制为仅包含 NA 以外的值的列来验证我的输出因为原始数据中有 123 列有人可
如何根据另一列的条件语句将因子列添加到数据框？

我有一个数据框我需要根据条件语句添加一个因子列这里是data https www dropbox com s hujiacus8ek5o5z MoroccoCGE CC Stats csv Code morstats agri f lt
使用 Rgraphviz 中的 pos 参数来固定节点位置

基于这个问题当弧与另一弧重叠时自动弯曲 https stackoverflow com questions 45721802 automatically curving an arc when it is overlapping with
如何在基于其他数据帧的数据帧中创建联接？

我有 2 个数据框一份包含学生批次详细信息另一份包含分数我想加入 2 个数据框数据框1包含 s1 s2 s3 Stud1 Stud2 Stud3 Stud2 Stud4 Stud1 Stud1 Stud3 Stud4 数据框2包含
基于两列对数据框中的行进行求和[重复]

这个问题在这里已经有答案了我想添加一列的值将它们按两列分组我找到了如何在一列上执行此操作但无法弄清楚如何在两列上执行此操作例如如果我有以下数据框 x c a a b b c c a a b b c c a a b b c c y
尝试使用 movie3d 制作 3D PCA 图（rgl）的电影

我已经使用 pca3d 包在 R 中制作了 rgl 3D PCA 图并且我正在尝试使用 movie3d 制作一个包含旋转图电影的 gif 文件 pca3d 包 makeMoviePCA 中有一个函数它将其参数传递给 movie3d 这是
对 data.table 进行子集化的最快方法是什么？

在我看来这是执行行列子集的最快方法data table是使用 join 和nomatch option 它是否正确 DT data table rep 1 100 100000 rep 1 10 1000000 setkey DT V1
将 SAS sas7bdat 数据读入 R

R 有哪些选项可以读取本机 SAS 格式的文件 sas7bdat 进入R The NCES 共同核心 https nces ed gov ccd pubschuniv asp例如包含以此格式保存的大量数据文件存储库为了具体起见让我们集
使用 XSLT 合并 2 个具有匹配“id”属性的 XML 文件

当存在匹配的 id 属性时我想使用 XSLT 合并 2 个 XML 文件 myFile1 xml 这是第一个输入文件
R：从 Github 安装包时出现编码问题

我正在尝试安装dcStockR https github com yutannihilation dcStockR来自 Github 的包这是一个htmlwidgets http www htmlwidgets org 周围的包装纸dc
如果 RCurl::getURL() 执行时间太长，如何停止执行？

有没有办法告诉 R 或 RCurl 包在超过指定时间段时放弃尝试下载网页并转到下一行代码例如 gt library RCurl gt u http photos prnewswire com prnh 20110713 NY34814 b
如何在 Shiny 应用程序中访问/打印/跟踪当前选项卡选择？

我正在一个闪亮的应用程序中工作我希望能够访问用户在会话中当前所在选项卡上的信息我有一个观察事件用于侦听要单击的特定按钮简而言之我想存储打印用户单击此按钮时所在的当前选项卡单击此按钮后选项卡将更改为带有 updateTabIt
具有条件连接和非匿名返回的 LINQ 查询

我有一个针对 SQL Server 数据库的 LINQ 查询该查询将每行的数据写入一个对象Person 在某些情况下我想加入其他表并添加更多字段Person对象同时利用 LINQ 延迟加载 The Person类看起来像这样 publ
R：适合显示具有倾斜计数的数据的图

我有这样的数据 Name Count Object1 110 Object2 111 Object3 95 Object4 40 Object2000 1 因此只有前 3 个物体的计数较高其余 1996 个物体的数量少于 40 个其中
合并两个ActiveRecord数组并按created_at排序

books Book find all articles Articles find all 通过阅读来自http guides rubyonrails org layouts and rendering html http guides
将一长行带空格的数据导入R中

这个问题是我上一个问题的后续问题将一长行数据导入到 R 中 https stackoverflow com questions 8389913 我有一个由单行文本组成的大型数据文件格式类似于 Cat 14 15 Horse 16 我最终
如何使用 Rcpp 将 C 结构从 C 库公开到 R

我正在尝试将 C 结构从 C 库公开到 R 中例如 struct A int flag 库提供 API 来构造和销毁是很常见的A A initA void freeA A a 感谢RCPP MODULE 很容易暴露它而不考虑析构函数 in
如何在 R 中创建纯 ascii 表作为输出，类似于 MySQL 风格？

我正在尝试为 R 找到一个输出的函数data frameMySQL 风格的 ascii 表中的对象如下 id var1 var2 1 asdf g 2 asdf h 3 asdf j 有这样的功能吗至少有两个工具可以做到这一点 csvfi
了解日期并使用 R 中的 ggplot2 绘制直方图

主要问题当尝试使用 ggplot2 制作直方图时我无法理解为什么日期标签和中断的处理无法像我在 R 中预期的那样工作我在找我的约会频率的直方图刻度线位于匹配条下方的中心日期标签在 Y b format 适当的限制最小化网格空

随机推荐

使用 mongodb java 驱动程序运行本机 mongodb 查询

我想用java执行CRUD操作updateOne updateMany or deleteMany 等等但是当我想与像这样的运算符一起运行时 set unset我必须导入新课程例如Updates或创建嵌套Document对象我想插入原
JAXB xjc：如果值为空，如何生成返回空的字符串代码？

给出以下示例 xsd 片段 lt xs attribute name SEGMENT default use optional type xs string gt 当 xjc 生成包含以下内容的类时SEGMENTbean 属性以下 get
静态字符串中的非固定宽度文本 - Jasper Reports

正如我从这篇文章以来了解到的那样如何在 Jasper Reports 中相对于数据宽度拉伸文本字段 https stackoverflow com questions 8979134 how to stretch field horizo
如何通过java打开现有文件，如.docx、.txt、.pptx？

我想知道如何通过java打开文件我可以像这样打开 Office 本身 try Runtime runTime Runtime getRuntime Process process runTime exec C Program Files
Material-UI Menu 组件仅触发最后一个 MenuItem onClick 操作

最近我尝试使用 MaterialUI 4 3 3 的 Menu 和 MenuItem 组件实现一个简单的下拉菜单 MenuItem 上的 onclick 事件行为不正确什么时候console log id 被调用时每个组件都会回显示例数
在 HIghcharts 中设置自定义图例项目符号（或图标）

我正在尝试将默认的 highcharts 图例符号更改为我自己的自定义符号我希望图例标签旁边有一个字体很棒的图标为此我考虑了 labelformatter labelFormatter function var on
std::shared_ptrs 的自定义删除器

创建后是否可以使用自定义删除器std shared ptr不使用new 我的问题是对象创建是由工厂类处理的并且它的构造函数和析构函数受到保护这会产生编译错误我不想使用new因为它的缺点详细说明我更喜欢创建这样的共享指针它不允许您
FluentValidation 一个属性出现多个错误消息

我正在使用 FluentValidation 验证输入值我正在使用一种方法来验证数据库中的值该方法根据值返回不同错误消息的整数值 1 2 和 3 如何根据方法的返回值显示错误消息我在类作用域中创建了一个变量并设置了返回值在下一条语句
基于目录的环境变量范围-如何实现？

我有一组工具需要根据我正在处理的项目传递参数我希望能够根据当前目录自动设置几个环境变量因此当我在目录之间切换时我常用的环境变量也会改变例子让我们当前目录是 foo 因此如果我这样做 foo myscript var1 VAR1
Java SE 可以减少 CDI 吗？

JSR 330 依赖注入可以应用于 Java SE 和 Java EE 环境而 JSR 299 的标题是 Java EE 平台的上下文和依赖注入除了严格面向 Java EE 的功能之外哪些 CDI 功能对 Java SE 也有意义有
如何使用 Mongoose 将 json 导入 MongoDB

我对此有一些问题这使得它变得棘手所以我正在使用 Mongoose 和 MongoLab 我可以很好地存储和检索数据但我想要一个允许我做数据库基础种子的系统我为集合创建了模式但没有运行因为没有数据所以我似乎无法运行正常的 mo
XDP 卸载模式标志集不适用于 bcc

我正在尝试运行密件抄送中提供的本教程 XDP 代码我使用的代码是这个脚本密件抄送示例网络 xdp xdp drop count py https github com iovisor bcc blob master examples
启动 Android 模拟器时出错：FB::flushWindowSurfaceColorBuffer: 找不到窗口句柄 0x4

我刚刚开始使用安卓因此当我尝试启动 AVD 详细信息如下时它不会启动只是暂时黑屏直到我厌倦它并将其关闭我安装了 intelhaxm 并禁用了 hyper v 这是我从控制台得到的日志 2014 07 28 20 02 52 a
为什么这段代码是同步运行的？

我试图通过代码来理解并发性我有一个代码片段我认为它是异步运行的但是当我放入 debug writeline 语句时我发现它正在同步运行有人可以解释我需要做什么不同才能使用 Task Something 将 ComputeBB 推送
是否可以使用基于属性而不是类型的通用约束？ [复制]

这个问题在这里已经有答案了我正在尝试编写一个负责持久应用程序选项的类由于需要保留选项因此我发送的值必须是可序列化的最初我以为我能够编写一个具有如下签名的方法 Public Sub SaveOption Of T As ISerial
Spring 中 RestTemplate 客户端抛出 ResourceAccessException 与 HttpClientErrorException

在 Apache Tomcat 8 5 上使用 Spring 4 3 1 我们实现了一个处理 GET POST 和 PUT 请求的 REST 服务器 POST 请求以以下形式处理 POST Consumes MediaType APPLIC
从 firestore firebase 获取数据

我需要从firestore中的以下数据结构中获取formName和id的数据在这种情况下如何获取数据例如创建嵌套对象嵌套值会转换为 Java 中的映射因此类似这样的操作应该可以解决问题 DocumentReference docRe
过滤 django DatetimeField__date 不起作用

根据这个document https docs djangoproject com en 1 10 ref models querysets datev1 9 中添加的我们可以查询DateTimeField按日期无时间例子有 Entry
create-react-app：在开发中更改bundle.js的src

我正在尝试使用 create react app 更改开发中的bundle js 的src 默认路径为 static js bundle js div div 在我们的生产中我们使用 Apache 作为 API 的代理以测试 SSO 和
data.table 有条件连接：保留所有列

我有这两张表 library data table d seq 0 1 1 by 0 1 n length d dtBig data table id rep letters 1 2 each n 2 d1 d d2 d 0 2 i 1 n

data.table 有条件连接：保留所有列

data.table 有条件连接：保留所有列 的相关文章

随机推荐

热门标签

data.table 有条件连接：保留所有列的相关文章