R：如何高效地判断data.frame A是否包含在data.frame B中？

2024-02-27

为了查明数据框是否df.a是数据框的子集df.b我做了以下事情：

df.a <- data.frame( x=1:5, y=6:10 )
df.b <- data.frame( x=1:7, y=6:12 )
inds.x <- as.integer( lapply( df.a$x, function(x) which(df.b$x == x) ))
inds.y <- as.integer( lapply( df.a$y, function(y) which(df.b$y == y) ))
identical( inds.x, inds.y )

最后一行给出了TRUE, hence df.a包含在df.b.

现在我想知道是否有一种更优雅 - 并且可能更有效 - 的方法来回答这个问题？

此任务还可以轻松扩展以查找两个给定数据帧之间的交集，可能仅基于列的子集。

非常感谢您的帮助。

我将冒险猜测一个答案。

I think semi_join from dplyr会做你想做的事，甚至考虑到重复的行。

首先注意帮助文件?semi_join:

返回 x 中 y 中存在匹配值的所有行，仅保留 x 中的列。

半连接与内连接不同，因为内连接 join 将为 y 的每个匹配行返回一行 x，半连接将在哪里绝不重复 x 的行。

好的，这表明以下操作应该正确失败：

df.a <- data.frame( x=c(1:5,1), y=c(6:10,6) )
df.b <- data.frame( x=1:7, y=6:12 )
identical(semi_join(df.b, df.a),  semi_join(df.a, df.a))

这使FALSE，正如预期的那样

> semi_join(df.b, df.a)
Joining by: c("x", "y")
  x  y
1 1  6
2 2  7
3 3  8
4 4  9
5 5 10

但是，以下内容应该通过：

df.c <- data.frame( x=c(1:7, 1), y= c(6:12, 6) )
identical(semi_join(df.c, df.a), semi_join(df.a, df.a))

确实如此，给予TRUE.

第二semi_join(df.a, df.a)需要进行规范排序df.a.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

DataFrame

subset

setintersection

R：如何高效地判断data.frame A是否包含在data.frame B中？的相关文章

使用 RDCOMClient 搜索 Outlook 收件箱

我尝试使用 RDCOMClient 在 Outlook 收件箱中搜索电子邮件中的特定主题然后获取附件我在一封电子邮件上进行了这项工作但由于主题包含日期元素我需要搜索成为一个类似的子句但不太清楚这适合我的下面的查询 outlook
如何在 R 中绘制一列与其余列的关系图

我有一个数据集其中 1 是时间接下来的 14 个是幅度我想在一张图表上散布所有大小与时间的关系其中每个不同的列都是网格化的分层在另一个之上我想使用原始数据来制作这些图表并单独制作它们但只想执行此过程一次数据集A 唯一的自变
如何在 R 中将字符串解析为层次结构或树

有没有办法将表示组的字符串解析为 R 中的层次结构假设我的小组结构如下 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 3 1 1 3 1 1 1 3 2 1 1 3 3 1 2 1 2 1 1 2 1 1 1 2 1 2 1
如何定义“f_n-chi-square”函数并使用“uniroot”求置信区间？

I want to get a 95 confidence interval for the following question 我已经写了函数f n在我的 R 代码中我首先使用 Normal 随机采样 100 个样本然后定义函数h
R - 与 SpatialPolygonsDataFrame 对象相交的 SpatialLinesDataFrame 列表的嵌套循环

我有一系列需要完成的步骤SpatialLinesDataFrame 此处的线基于对象与多特征中各个特征的关系SpatialPolygonsDataFrame 多边形对象简而言之每个线列表元素源自单个面要素内部并且可能会也可能不会
如何绘制堆积比例图？

我有一个数据框 x lt data frame id letters 1 3 val0 1 3 val1 4 6 val2 7 9 id val0 val1 val2 1 a 1 4 7 2 b 2 5 8 3 c 3 6 9 我想绘制一个
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
如何使用 xpath 检查某个对象在网页中是否可见？

我正在 R 中使用 RSelenium 包来进行网络抓取有时加载网页后需要检查某个对象在网页中是否可见例如 library RSelenium open a browser RSelenium startServer remDr lt
ubuntu中R的igraph包的安装

我使用以下命令在 ubuntu 中安装 R 的 igraph 包 install packages igraph 但我收到一条错误消息警告无法访问存储库的索引 http ftp iitm ac in cran src contrib h
对 data.table 中的列表列执行操作

假设我有一个data table 例如dt lt data table foo list 1 3 4 6 bar c 2 7 如何使用 dt 框架对 foo 向量列表执行操作操作可能是将 bar 添加到 foo 返回列表 3 5 11 1
如何在ubuntu的conda环境中更改Rstudio中的R版本

我在基本系统中安装了 R 4 3 和 Rstudio 在 conda 环境中安装了旧版本的 R 4 2 3 命令which R返回环境中安装的 R 的目录 home 用户 miniconda3 envs anndata2ri pip bin
将第 N 行上的 NA 行插入 data.frames 列表，其中 N 来自列表

经过几个小时后我发现自己无法解决以下问题我有一个数据框列表我想分别向每个 DF 插入而不是替换一行或多行 NA 始终至少一行要插入的 NA 数量存储在单独的列表中为了说明这一点我有以下两个列表 list of datafra
从日期变量创建月末日期

我有一个包含日期变量的大型数据框它反映了该月的第一天有没有一种简单的方法来创建代表该月最后一天的新数据框日期变量以下是一些示例数据 date start month seq as Date 2012 01 01 length 4 by
如何在 Caret 中绘制随机森林（护林员）树

我生成了如下所示的随机森林树并尝试绘制它但出现错误我在哪里犯了错误我怎样才能以正确的方式绘制它 Actmodel lt train Activity Section Author data CB1 method ranger trC
使用 R 下载压缩数据文件、提取和导入数据

EZGraphs 在 Twitter 上写道很多在线 csv 都被压缩了有没有办法下载解压缩存档并使用 R 将数据加载到 data frame Rstats 我今天也尝试这样做但最终只是手动下载 zip 文件我尝试过类似的东西 f
R中的重叠矩阵

我有以下数据框 id channel 1 a 1 b 1 c 2 a 2 c 3 a 我想创建并重叠矩阵它基本上是一个方阵行和列标签为 a b c 表中的每个条目显示每个通道共有多少个 id 例如在上面的例子中矩阵看起来像 a b
purrr::可能函数可能无法与map2_chr函数一起使用

我怀疑这是 purrr 包中的错误但想先在 StackOverflow 中检查我的逻辑在我看来 possibly功能在内部不起作用map2 chr功能我正在使用 purrr 版本 0 2 5 考虑这个例子 library dplyr
不同编程语言中的浮点数学

我知道浮点数学充其量可能是丑陋的但我想知道是否有人可以解释以下怪癖在大多数编程语言中我测试了 0 4 到 0 2 的加法会产生轻微的错误而 0 4 0 1 0 1 则不会产生错误两者计算不平等的原因是什么在各自的编程语言中可以采
picker输入字体或背景颜色

我在闪亮的仪表板中使用 pickerInput 这很好除了一个问题背景颜色和字体颜色太相似使得过滤器选择难以阅读有什么办法可以改变背景或字体颜色吗如果可能的话我想继续使用 pickerInput 但如果有一个带有 selectI
绘制 Cox 回归的 Kaplan-Meier 图

我使用 R 中的以下代码设置了一个 Cox 比例风险模型来预测死亡率添加协变量 A B 和 C 只是为了避免混淆即年龄性别种族但我们真正对预测变量 X 感兴趣 X 是一个连续变量 cox model lt coxph Surv t

随机推荐

如何转义 f:selectItem itemLabel 属性

如何逃脱f SelectItem itemLabel属性以便我可以在标签中添加超链接使用以下代码我能够逃脱h outputText但不是f selectItem
如何计算弹簧圈数？

在参照如何检测和计算螺旋的圈数 https stackoverflow com questions 13563880 c sharp wpf emgu how to detect and count a spirals turns 即使在
Bootstrap Popover 内容中的外部 HTML 文件

当我使用 iframe 在弹出窗口内容中加载外部 html 文件时它限制弹出窗口的高度但我希望弹出高度是自动的有人帮帮我吧 document ready function pop right popover title Loading
捕获以毫秒为单位的时间

下面的代码用于打印日志中的时间 define PRINTTIME struct tm tmptime time t tmpGetTime time tmpGetTime tmptime localtime tmpGetTime cout l
PyMongo [SSL: CERTIFICATE_VERIFY_FAILED] 证书验证失败：无法获取本地颁发者证书

我正在使用 Python 3 9 5 和 PyMongo 3 11 4 我的MongoDB数据库版本是4 4 6 我使用的是 Windows 8 1 我正在学习 MongoDB 并且在 Atlas 中设置了一个集群并连接到该集群每当我尝试
部署到 github 页面的 create-react-app 链接出现 404 错误

我正在尝试将 create react app 部署到具有自定义域的 GitHub 页面上的相对路径例如 www example com myproject 我在用着react router dom react router redux
指针到底存储什么？（C++）

我知道指针存储它们指向的值的地址但是如果将指针的值直接显示到屏幕上您会得到一个十六进制数如果该数字正是指针存储的数字那么当说 pA pB both are pointers 你正在复制地址那么在处理像这样的非常小的项目时使用指针
在不存在的struct布局中循环

这是我的一些代码的简化版本 public struct info public float a b public info c public info float a float b info c null this a a this b
mysql中的负限制偏移

我正在创建一个高分服务器所需的功能之一是能够检索用户当前分数周围的高分我目前有以下内容 SELECT FROM highscores WHERE score gt SELECT score FROM highscores WHERE u
是否有任何此类处理器具有绕过缓存的指令？

是否有任何这样的处理器具有绕过特定数据的缓存的指令这个问题 https stackoverflow com questions 9544094 c working with the cpu cache还有一个答案表明 SSE4 2 指令确
HorizontalAlignment="Stretch" 在 TreeViewItem 中不起作用

这是一个不起作用的示例
使 System.setProperty 平台独立于 Maven 项目中以进行 Selenium 测试

我目前正在使用 Java 在 Maven 中使用 webdriver 创建 selenium 自动化现在为了初始化 Chrome 和 IE 等浏览器我必须设置系统属性例如 System setProperty webdriver ch
使用 jQuery DataTables 恢复原始排序顺序

我从已经排序的数据库中检索数据有时我需要重置回初始加载顺序我已经尝试过这个fnSortNeutral它不适用于新的 API DataTables 1 10 然后我尝试过这个 https datatables net forums dis
我如何知道模拟器上运行的应用程序是否是最新版本？

我使用 Eclipse 和 Android 模拟器开发 Android 应用程序有时我不知道我是否在模拟器中运行最新版本的应用程序有什么办法可以检查是否是最新版本吗例如我对应用程序的布局进行了更改但是当我在模拟器中运行应用程序时
ASP.NET - 会话超时

In the web config我的申请文件在
permgen，但 Java VisualVM 说“未找到 GC root”

我有一个非常简单的 Hello world 类型的 Web 应用程序 Spring 3 2 1 Hibernate 4 1 9 用于停止重新启动 Web 应用程序 Tomcat 7 0 26 The following web appli
使用网络凭据通过 Process.Start(path) 访问网络共享

我在用this http www codeproject com KB cs zetaimpersonator aspxImpersonator 类模拟域帐户来访问网络共享如下所示 using new Impersonartor user
正则表达式从右向左读取

我一直在寻找一个可以在一组数字中添加逗号的短代码直到我发现这个网站 http www mredkj com javascript nfbasic html 代码 function addCommas nStr nStr x nStr sp
在 React 中使用多个状态更好还是使用一个状态对象更好？

如果我有一个需要使用和操作多个状态项的功能组件并且我有多个状态用于不直接相关的不同事物例如游戏统计数据和 UI 元素状态那么性能或实践是否会更好像这样做 const state setState React useState u
R：如何高效地判断data.frame A是否包含在data.frame B中？

为了查明数据框是否df a是数据框的子集df b我做了以下事情 df a lt data frame x 1 5 y 6 10 df b lt data frame x 1 7 y 6 12 inds x lt as integer lap

R：如何高效地判断data.frame A是否包含在data.frame B中？

R：如何高效地判断data.frame A是否包含在data.frame B中？ 的相关文章

随机推荐

热门标签

R：如何高效地判断data.frame A是否包含在data.frame B中？的相关文章