data.table 中的条件（不等式）连接

2024-04-16

我只是想弄清楚如何对两个 data.tables 进行条件连接。

我写了一个sqldf条件连接给我提供其开始或结束时间在其他开始/结束时间之内的电路。

sqldf("select dt2.start, dt2.finish, dt2.counts, dt1.id, dt1.circuit 
      from dt2 
        left join dt1 on (
          (dt2.start  >= dt1.start and dt2.start  < dt1.finish) or 
          (dt2.finish >= dt1.start and dt2.finish < dt1.finish)
        )")

这给了我正确的结果，但对于我的大型数据集来说太慢了。

什么是data.table如何在没有矢量扫描的情况下做到这一点？

这是我的数据：

dt1 <- data.table(structure(list(circuit = structure(c(2L, 1L, 2L, 1L, 2L, 3L, 
1L, 1L, 2L), .Label = c("a", "b", "c"), class = "factor"), start = structure(c(1393621200, 
1393627920, 1393628400, 1393631520, 1393650300, 1393646400, 1393656000, 
1393668000, 1393666200), class = c("POSIXct", "POSIXt"), tzone = ""), 
    end = structure(c(1393626600, 1393631519, 1393639200, 1393632000, 
    1393660500, 1393673400, 1393667999, 1393671600, 1393677000
    ), class = c("POSIXct", "POSIXt"), tzone = ""), id = structure(1:9, .Label = c("1001", 
    "1002", "1003", "1004", "1005", "1006", "1007", "1008", "1009"
    ), class = "factor")), .Names = c("circuit", "start", "end", 
"id"), class = "data.frame", row.names = c(NA, -9L)))


dt2 <- data.table(structure(list(start = structure(c(1393621200, 1393624800, 1393626600, 
1393627919, 1393628399, 1393632000, 1393639200, 1393646399, 1393650299, 
1393655999, 1393660500, 1393666199, 1393671600, 1393673400), class = c("POSIXct", 
"POSIXt"), tzone = ""), end = structure(c(1393624799, 1393626600, 
1393627919, 1393628399, 1393632000, 1393639200, 1393646399, 1393650299, 
1393655999, 1393660500, 1393666199, 1393671600, 1393673400, 1393677000
), class = c("POSIXct", "POSIXt"), tzone = ""), seconds = c(3599L, 
1800L, 1319L, 480L, 3601L, 7200L, 7199L, 3900L, 5700L, 4501L, 
5699L, 5401L, 1800L, 3600L), counts = c(1L, 1L, 0L, 1L, 2L, 1L, 
0L, 1L, 2L, 3L, 2L, 3L, 2L, 1L)), .Names = c("start", "end", 
"seconds", "counts"), row.names = c(1L, 3L, 4L, 5L, 6L, 7L, 8L, 
9L, 10L, 11L, 12L, 13L, 14L, 15L), class = "data.frame"))

Using non-equi joins:

ans = dt1[dt2, on=.(start <= end, end > start), 
           .(i.start, i.end, counts, id, circuit, cndn = i.start < x.start & i.end >= x.end), 
           allow.cartesian=TRUE
        ][!cndn %in% TRUE]

条件start <= end, end >= start（注意>= on both情况）将检查两个间隔是否以任何方式重叠。一侧的开区间通过以下方式完成end > start part (>代替>=）。但它仍然会获取类型的间隔：

         dt1: start=================end
   dt2: start--------------------------------end ## start < start, end > end

and

         dt1: start=================end
                dt2: start----------end          ## end == end

The cndn专栏的目的是检查并删除这些情况。希望这些情况不会很多，这样我们就不会不必要地实现不需要的行。

PS：这种情况下的解决方案并不像我想要的那么简单，那是因为该解决方案需要一个OR手术。可以进行两个条件连接，然后将它们绑定在一起。

也许在某些时候，我们必须考虑以更直接的方式将连接扩展到此类操作的可行性。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

data.table 中的条件（不等式）连接的相关文章

Shiny可以识别用鼠标选择的文本（突出显示的文本）吗？

我需要用户将文本片段分配给 Shiny 中的类别或代码基本上我希望用户突出显示输出中的文本在下面的示例中来自table or text输出然后按一个按钮 code 并将选定的文本分配给应用程序内的对象在下面的应用程序中所选文
有没有一种简单的方法可以根据多个标准进行排名，从而保留 R 中的联系？

当单个标准排序良好时 rank 函数会返回明显的结果 rank c 2 4 1 3 5 1 2 4 1 3 5 当单个标准具有联系时排名函数默认情况下将平均排名分配给联系 rank c 2 4 1 1 5 1 3 0 4 0 1 5
使用starts_with() 将 NA 替换为 0

我正在尝试替换我的一组特定列的 NA 值tibble 这些列都以相同的前缀开头所以我想知道是否有一种简洁的方法来使用starts with 函数从dplyr包可以让我做到这一点我已经看到了有关 SO 的其他几个问题但是它们都需要使用特
具有动态变量数的公式

假设有一些 data framefoo data frame想要找到目标列的回归Y由其他一些专栏为此目的通常使用一些公式和模型例如 linear model lt lm Y FACTOR NAME 1 FACTOR NAME 2 fo
R：编写抛硬币的随机采样程序

假设我们有以下情况有一枚硬币如果它正面朝上那么下一次抛掷正面的概率是 0 6 如果是反面那么下一次抛掷反面的概率也是 0 6 一个班有100名学生每个学生随机抛掷硬币几次 Student n 的最后一次抛硬币不会影响 Studen
从向量中删除元素在 R 中出现的时间量

我想从一个向量中删除元素在另一个向量中出现的时间就像我要减去它们一样鉴于我想要删除的元素向量中的每个元素也存在于我想要从中删除的主向量中 a lt c A B B C C C b lt c A B C C a a in b return
如何编辑数据表中的行

我已经创建了一个数据表它有 3 列产品编号产品名称 and 产品价格 Datatable table new DataTable Product table Columns Add Product id typeof int tabl
jupyter 中的 r 图形 - 无法启动 png() 设备

我在 Jupyter 中使用 R 但无法在笔记本本身中绘制图表这是一个可重现的示例 set seed 123 mat as matrix x rnorm 100 y rnorm 100 plot mat 在朱皮特中 Error in pn
R：根据元素长度从向量中删除元素

如何根据字符串的字符数或长度从字符串向量中删除元素 df lt c asdf fweafewwf af aewfawefwef awefWEfawefawef gt df 1 asdf fweafewwf af aewfawefwef aw
回归时如何设置系数值；右

我正在寻找一种指定预测变量值的方法当我使用当前数据运行 glm 时其中一个变量的系数接近 1 我想将其设置为 0 8 我知道这会给我一个较低的 R 2 值但我先验地知道模型的预测能力会更大 glm 的权重组件看起来很有希望但我还没有
在 Shiny 中叠加两个 ggplot

我有一个非常大的数据集我正在使用 ggplot 在 Shiny 上绘制它我有一个与 x 轴上的值相关联的滑块我想用它对选定的数据子集重新着色并让其余数据保持原样最简单的选择是重新创建整个绘图但由于它是一个大型数据集因此这是一个
如何有效地将多个光栅 (.tif) 文件导入 R

我是 R 新手尤其是在空间数据方面我正在尝试找到一种方法来有效地将多个 600 单波段栅格 tif 文件导入到 R 中所有文件都存储在同一文件夹中不确定这是否重要但请注意在我的 Mac 和 Windows 并行 VM 上的文件夹
将所有分号替换为空格 pt2

我尝试对 2000 多行关键字的列表运行文本分析但它们的列出方式如下战略管理风格组织所以当我使用 tm 删除标点符号时它就变成了组织的战略管理风格我认为这在某种程度上破坏了我常用术语的分析我尝试过使用 vector lt
在 R 中导入 csv 文件时如何保留前导零？

当我写一个 csv来自 R 的文件其中我的组名称以前导零值开头前导零被保留但是当我导入 csv前导零被删除组名称被转换为整数当我导入一个组时如何保留组名称中的前导零 csvR 中的文件 Example df lt data fr
如何使用autoconf重新生成配置文件？

我使用 autoconf 重新生成配置文件它有效但是当我执行生成的配置文件时 configure 有一些错误消息例如 configure line 3713 syntax error near unexpected token bla
如何读取 R 中的每个 .csv 文件并将其导出到单个大文件中

你好我有以下格式的数据 101 20130826T155649 3 1 round 0 10552 180 yellow 12002 1 round 1 19502 150 yellow 22452 1 round 2 28957 130
根据 row_number() 过滤 data.frame

更新自从提出这个问题以来 dplyr 已经更新现在按照 OP 的要求执行我正在尝试获取第二行到第七行data frame using dplyr 我正在这样做 require dplyr df lt data frame id 1 1
空间数据xyz到矩阵

我有一个大数据框 100 000 行其中包含 LON LAT VALUE 我想将其转换为矩阵 EPSG 中的坐标 3035 我使用以下命令尝试了 reshape2 包 acast df lon lat value var value 效果
dplyr 中的标准评估：全局环境中的函数出现“无法找到函数”错误

我试图在 dplyr 中对全局环境中的函数使用标准评估但出现无法找到函数错误这是一些代码 create data frame df lt data frame x rnorm 10 y rnorm 10 define arbitra
R 中使用 `UseMethod()` 与 `inherits()` 来确定对象的类

如果我需要根据 R 对象的类以不同的方式处理它们我可以使用if and else在单个函数内 foo lt function x if inherits x list Foo the list else if inherits x num

随机推荐

张量流学习中的多元回归输出节点

我对张量流比较陌生想使用 tf contrib learn 中的 DNNRegressor 来执行回归任务但我不想有一个输出节点而是想要多个例如十个如何配置回归器来调整许多输出节点以满足我的需求我的问题与以下已在 SO 上提出的
如何查看亚马逊 lambda 函数的 console.log 输出

当你做一个 console log Loading function 在亚马逊 lambda 函数中它去哪里了我的设置 API网关 lambda函数nodejs6 10 卷曲https n2tredacted execute api u
android跨度点击事件

好的这些都是我的问题我需要使用正则表达式来过滤掉除字母之外的所有内容然后我需要将找到的单词包含在 word 标签中有了这个 str str replaceAll pattern 0 现在我正在过滤所有正确的元素标点符号数字等但
催化剂控制器问题

我刚刚在我的第一个大型项目中使用了催化剂我想知道我是否按照预期的方式使用了催化剂我有 Root pm 在该文件中我放置了多个 url 处理程序每个 url 有一个控制器是最佳实践还是应该考虑分组 Catalyst 的优点之一是它的灵活
Rails，将文件上传到服务器时获取文件名

我在 Rails 3 中使用 AJAX 上传器以及 paper clip 并在此处上传文件 def upload photo Photo create photo gt params file title gt params filenam
有哪些 CSS 属性可以让元素脱离正常流程？

有哪些 CSS 属性可以让元素脱离正常流程这些属性可以是 float position absolute 等这个问题涉及正常流程的所有可能的改变只有以下属性会影响任何给定元素的正常流程 float right left positio
在共享主机上安装 PHP 扩展

我需要启用mcrypt https www php net manual en book mcrypt php我的网站上的功能除了我在共享主机上运行 Linux 并且显然无权访问php ini文件似乎确实有安装 PEAR 模块的选项
在 R 中从 MySQL 获取 UTF-8 文本返回“？？？”

我一直在尝试从 R 获取 MySQL 数据库中的 UTF 8 文本我在 OS X 上运行 R 通过 GUI 和命令行都尝试过其中默认区域设置是 en US UTF 8 并且没有无论我尝试什么查询结果都显示对于所有非 ASCII 字符
Plotly 中子图的标题

我正在尝试在 Plotly 中制作 3x3 子图的网格我正在尝试为每个子图获取标题并在顶部获取主标题但我似乎无法让它发挥作用我看到这个很棒的网站 http takwatanabe me data science plotly layo
Python multiprocessing.Pool在MacOS和Linux系统上的不同性能

我是 Python 初学者我在项目中使用了 multiprocessing Pool 来提高性能这是我使用 multiprocessing Pool 的代码片段我在驻留服务器的开头构建池并在每次服务器收到请求时使用 Pool app
不定长度的数组[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 如何在未知长度的排序数组中找到随机元
MFC：如何在一个函数中捕获对话框每个控件的设置焦点

我有 n 个对话框它们具有相同的基本对话框每个对话框都有自己的控件编辑框组合框列表控件 etc 在基本对话框中如何设置每个控件的焦点消息例如给出一个消息框 text Hello I got focus my ID is d
XAMPP：无法启动 Apache (Windows 10)

我正在使用 XAMPP 并且可以启动 Apache 但是 MySQL php我的管理员 https en wikipedia org wiki PhpMyAdmin start 当我开始时我收到此错误 10 07 49 Apache Er
无法更改视图中绘制的圆圈的颜色

我正在尝试更新我在子类中创建的圆圈的颜色UIView通过在类中创建一个方法来更新颜色如下所示但颜色不会改变 import UIKit class badge UIView struct mine static var p UIBezie
Linux 文件权限的正则表达式（数字表示法）

我一生都无法找出正确的正则表达式我正在寻找的是一个正则表达式来匹配 Linux 文件权限的有效数字表示例如 740 表示全部读取无 777 表示全部全部到目前为止我已经尝试过以下操作 strtotest 740 echo strto
如何从视图范围的 JSF bean 获取请求参数？

我有查看范围bean 应该在 init PostConstruct 上访问请求 URL 中的值并在其生命周期内存储它们我了解到为了获得价值http请求我需要以下代码 ManagedProperty param x private in
iOS 相当于 Android 片段/布局

在 Android 中您可以使用 Fragments 只开发一款针对手机和平板电脑的应用程序这样您就可以拥有不同的 UI 您甚至可以仅使用布局并对代码设置一些条件来运行平板电脑或手机逻辑我需要为 iPhone 和 iPad 开发一个应
仅根据lucene中term出现次数较多的文档来计算分数

我开始研究基于 lucene net 引擎的简历检索文档组件它工作得很好它会获取文档并根据 VSM 背后的理念是查询词出现在 a 中的次数文档相对于数量该术语出现在所有集合中的文档越多该文件的相关内容是询问 Lucene
在 sphinx 侧边栏中启用版本阅读文档主题

我想将 versions html 包含在侧边栏中但无法成功我尝试在中为侧边栏添加 versions html 但这没有效果 html sidebars versions html 另外如何声明不同的版本conf py 我看过sphi
data.table 中的条件（不等式）连接

我只是想弄清楚如何对两个 data tables 进行条件连接我写了一个sqldf条件连接给我提供其开始或结束时间在其他开始结束时间之内的电路 sqldf select dt2 start dt2 finish dt2 counts d

data.table 中的条件（不等式）连接

data.table 中的条件（不等式）连接 的相关文章

随机推荐

热门标签

data.table 中的条件（不等式）连接的相关文章