如何检查第一个数据帧中的值是否包含或与另一个数据帧中的值匹配

2024-04-08

我在用R处理一些数据框。我的问题与如何检查第一个数据帧中的变量值是否与另一个数据帧中的值匹配有关。这场比赛与其他比赛有很大不同merge or join。我将介绍我的数据框（dput()最后）：

我的第一个数据框是df1。它包含变量name我想将其与第二个数据框中的其他变量进行对比。它看起来像这样：

df1
                   name
1            JUAN GIRON
2            GINA OLEAS
3 JUAN FERNANDO ELIZAGA
4          MARCO TORRES
5   JUAN PABLO GONZALEZ
6            IRMA GOMEZ

第二个数据框是df2。它还包含一个变量name这将用于与name from df1。看起来像这样（在真实情况下df2可以非常大，超过 1000 行）：

df2
                      name val
1            JUANA MARQUEZ   1
2         FERNANDO ELIZAGA   2
3               IRMA GOMEZ   3
4           PABLO GONZALEZ   4
5               GINA LUCIO   5
6              MARK TORRES   6
7           LETICIA BLACIO   7
8 JUAN PABLO GIRON BELTRAN   8

我正在寻找一种方法来检查每一行是否df1 for name变量包含或与任何值匹配name in df2。例如，值JUAN GIRON检查后name from df2应该返回，给出一个值yes因为它包含在字符串中JUAN PABLO GIRON BELTRAN from df2。同样的情况也适用于其他值。最后我想要这样的东西：

df3
                   name val
1            JUAN GIRON yes
2            GINA OLEAS  no
3 JUAN FERNANDO ELIZAGA yes
4          MARCO TORRES  no
5   JUAN PABLO GONZALEZ yes
6            IRMA GOMEZ yes

我怎样才能达到这个结果？我尝试过grepl()使用连接字符串|但它不起作用，因为某些值正在返回yes不匹配时匹配。

另外，由于数据可能很大，我想有一个解决方案dplyr因为比较是按行进行的，所以速度可能很慢。或者欢迎任何快速解决方案。非常感谢！

接下来是数据：

#df1
df1 <- structure(list(name = c("JUAN GIRON", "GINA OLEAS", "JUAN FERNANDO ELIZAGA", 
"MARCO TORRES", "JUAN PABLO GONZALEZ", "IRMA GOMEZ")), row.names = c(NA, 
-6L), class = "data.frame")

#df2
df2 <- structure(list(name = c("JUANA MARQUEZ", "FERNANDO ELIZAGA", 
"IRMA GOMEZ", "PABLO GONZALEZ", "GINA LUCIO", "MARK TORRES", 
"LETICIA BLACIO", "JUAN PABLO GIRON BELTRAN"), val = 1:8), row.names = c(NA, 
-8L), class = "data.frame")

也许我们可以这样做

df1 %>%
    mutate(val = c("no", "yes")[1 + (rowSums(
        outer(
            strsplit(name, "\\s+"),
            strsplit(df2$name, "\\s+"),
            Vectorize(function(x, y) all(x %in% y) | all(y %in% x))
        )
    ) > 0)])

这使

                   name val
1            JUAN GIRON yes
2            GINA OLEAS  no
3 JUAN FERNANDO ELIZAGA yes
4          MARCO TORRES  no
5   JUAN PABLO GONZALEZ yes
6            IRMA GOMEZ yes

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何检查第一个数据帧中的值是否包含或与另一个数据帧中的值匹配的相关文章

字符串池可以包含两个具有相同值的字符串吗？ [复制]

这个问题在这里已经有答案了字符串池可以包含两个具有相同值的字符串吗 String str abc String str1 new String abc Will the second statement with new operator
将 Excel 范围转换为 VBA 字符串

我想将给定范围内的值转换为 VBA 字符串其中原始单元格值由任何选定的列分隔符和行分隔符分隔分隔符可以是一个字符或更长的字符串行分隔符是行末尾的字符串该字符串应该像我们从左上角从左到右到右下角读取文本一样完成以下是范围 A1
正态分布平均值的贝叶斯推理玩具 R 代码 [降雪量数据]

我有一些降雪观测 x lt c 98 044 107 696 146 050 102 870 131 318 170 434 84 836 154 686 162 814 101 854 103 378 16 256 我被告知它遵循正态分布
警告消息 - 来自 dummies 包的 dummy

我正在使用 dummies 包为分类变量生成虚拟变量其中一些变量具有两个以上类别 testdf lt data frame A as factor c 1 2 2 3 3 1 B c A B A B C C C c D D E D D E
如何在 data.table 中分组后使用条件计算行数

我有以下数据框 dat lt read csv s1 s2 v1 v2 a b 10 20 a b 22 NA a b 13 33 c d 3 NA c d 4 5 NA c d 10 20 dat gt A tibble 6 x 4 gt
在R中循环子文件夹

我正在 R 环境中包含多个子文件夹的文件夹中工作我想要循环遍历多个子文件夹然后在每个子文件夹中调用 R 脚本来执行我想出了下面的代码但我的代码似乎添加了到子文件夹列表我收到错误文件中的错误文件名 r 编码编码无效的描述
如何按时间间隔匹配数据帧？

这是我从数据记录器导入原始数据时经常出现的问题温度记录仪设置为每十分钟记录一次温度单独的气体记录仪设置为记录最后十分钟间隔内使用的气体我想将这两个记录器的数据合并到一个数据框中进行绘图和分析但时间并不完全一致我希望每十分钟的时间段
为什么 sapply 的缩放速度比样本大小的 for 循环慢？

假设我想采用向量 X 2 1 N 并将 e 计算为每个元素的指数是的我认识到最好的方法就是通过向量化 exp X 但这样做的目的是将 for 循环与 sapply 进行比较我通过逐步尝试三种方法一种使用 for 循环两种以不同方
我可以使用哪个 R 函数来查找两条线的交点？

我刚刚研究了 stackoverflow 上所有的在 R 中寻找交集问题它们要么是关于曲线要么是关于分布像这个 https stackoverflow com questions 20519431 finding point of
更新 R6 对象实例中的方法定义

如何更新 R6 类实例的方法定义正如我所期望的 S3 使用当前的方法定义对于 R5 参考类我可以使用 myInstance myInstance copy 在 R6 中我尝试了 myInstance myInstance clone
在 RcppArmadillo 中将列向量乘以数值标量

我在编译这个简单的程序时遇到一些麻烦c 代码使用Rcpp和RcppArmadillo包裹采用以下简单示例将矩阵的每一列乘以数值标量 code lt arma mat out Rcpp as
如何从 JavaScript 中的字符串中删除空白字符？

如何从 JavaScript 中的字符串中删除空白字符修剪很容易但我不知道如何将它们从inside字符串例如 222 334 gt 222334 您可以使用正则表达式如下所示来替换所有空格 var oldString 222 334
闪亮的应用程序包：css 和所有 www/ 目录内容

我正在尝试将 Shiny 应用程序转换为 R 包但我在处理有关 www 目录以及松散文件的所有问题时遇到了问题我闪亮的应用程序运行得很好但是当我尝试打包它时它不起作用我闪亮的应用程序目录 my shiny app R ut
如何声明包含 M 个元素的列表对象

我想声明一个包含 M 3 x 3 矩阵的列表如果我事先知道数字 M 那么我可以通过以下方式声明这样的列表 elm lt matrix NA 3 3 Say M 7 myList lt list elm elm elm elm elm el
在 R 中提取 data.frames 列表的名称以及 data.frame 中的值

在下面的代码中 j是 data frames 的命名列表我想知道是否有办法 a 提取变量的数值即one short and one long 在 data frames 内并附加它们的相关名称即 AAA or BBB or CCC 到
data.table 抛出“找不到对象”错误[重复]

这个问题在这里已经有答案了我有一个数据表 library data table mydt lt data table index 1 10 当我在全局环境中尝试它时我可以让它工作但当我在调试器中或在包测试中使用它时却无法工作问题是我
为什么这个 R ggplot2 代码会显示一个空白的显示设备？

虽然 SO 通常不用于帮助解决错误但这个显示了特别简单且特别烦人的行为如果你是一个ggplot2用户您可以在 10 秒或更短的时间内重现它正如这个 GitHub 问题 ggplot gtable 创建空白显示 https githu
类型错误：“datetime.datetime”和“str”的实例之间不支持“>”

我是 python 日期和时间类型的新手我有一个日期值 date 2018 11 10 10 55 31 00 00 我需要检查该日期值是否超过 90 天我试过 from datetime import datetime from da
如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

我正在尝试从树结构中获取扁平树如下所示我想将整个树放在一个字符串中就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
case_when 与部分字符串匹配和 contains()

我正在使用一个数据集其中有许多名为 status1 status2 等的列在这些列中它表示某人是否豁免完整注册等不幸的是豁免投入并不一致这是一个示例 library dplyr problem lt tibble perso

随机推荐

通过 UDF 获取 Google 搜索第一个结果[重复]

这个问题在这里已经有答案了 Santosh 对以下问题有一个很棒的答案 vba 代码 link https stackoverflow com questions 17495644 using vba in excel to google
将 .NET 事件公开给 COM？

我一直在尝试向 VBA 客户端公开并触发事件到目前为止在 VBA 客户端事件已公开并且我看到方法事件处理方法已添加到我的模块类中但是 VBA 事件处理方法不会触发由于某种原因调试时事件为空同步修改我的代码也没有帮助作为记录
文件锁如何工作？

我一直在尝试使用FileLock获得对文件的独占访问权限以便删除它重命名它写信给它因为在 Windows 上至少您似乎无法删除重命名或写入已在使用的文件我写的代码看起来像这样 import java io File imp
Spring security 已登录用户的重定向问题

在使用我的基于 GWT 的 Web 应用程序实现 Spring Security 时我找到一切都按预期正常工作除了以下事实我打开了 login jsp 并给出了有效的用户登录凭据提交后成功重定向到主页现在当我在地址栏中编辑
电子关闭按钮不起作用

我正在尝试使用 Electron 以前称为 Atom Shell 创建一个应用程序该应用程序包装了 AngularJS 应用程序并与在 Node js 中创建的端点交互以编辑和保存 HTML 内容我能够毫无问题地创建应用程序当我尝试
glEnableClientState 和 glEnableVertexAttribArray

后者是否贬低前者我正在编写希望在着色器 2 0 硬件上工作的代码但我想使用更新的编程约定例如 VAO 所以我一直在使用glVertexAttribPointer函数而不是glVertexPointer glNormalPointer
强制 ListView 的 onSizeChanged

我有一个列表视图它动态分配不同的数据集这很好用我还使 fastScrollEnabled 为 true 为了更新sectionIndexer 我需要调用 list setFastScrollEnabled false list set
如何禁用 Jupyter 笔记本会话的密码请求？

多年来我一直使用以下命令启动 Jupyter Notebook jupyter notebook port 7000 no browser no mathjax 当我尝试在浏览器上打开 jupyter 时它会要求我输入密码即使我以前从未
在自动布局世界中正确调整 NSWindow 大小

我在使用自动布局滚动视图调整垂直窗口大小时遇到问题我想要的是我想尽可能地复制我的应用程序当前的窗口大小调整行为窗口的宽度是灵活的但窗口的高度通常应跟踪内容的高度具体来说通常窗口会自动调整其高度以精确调整匹配其内容 2 除外
如何将多个变量从 Excel 文件传递到批处理文件

我目前可以使用以下命令将一个参数从 Excel 文件传递到批处理文件 filepath C Users agaron Desktop batchmaster batchfiles batchfiletest bat month 然后调用
PHP 方法链接混乱

我最近接触了方法链接并且不确定我在这里所做的是否非法或者我做错了我有一个数据库类例如 class Database private connection private resultset last query current ro
使用带有当前时间的随机数生成器与不使用随机数生成器

我想了解使用随机数生成器与System currentTimeMillis 作为种子并仅使用默认构造函数也就是说这之间有什么区别 Random rand new Random System currentTimeMillis 和这个 R
Web 服务器不读取 .htaccess 文件

我安装了 Ubuntu 12 10 并安装了 apache2 但我的 htaccess 文件无法正常工作我将其设置为在链接中不能包含 php 文件扩展名因此看起来像 www website com login 而不是 login php
使用 sidekiq 处理两个独立的 Redis 实例？

下午好我有两个独立但相关的应用程序他们都应该有自己的后台队列阅读单独的 Sidekiq 和 Redis 进程然而我希望偶尔能够将工作推给app2的队列来自app1 从简单的队列推送的角度来看如果app1没有现有的 Sidek
SAPUI5自定义伪事件

在 SAPUI5 OpenUI5 中定义自定义伪事件的最佳实践是什么例如假设我想在按住扩展的 sap m Button 几秒钟时触发一个事件我不确定是否还有任何最佳实践我真的认为只有一种实践但我渴望学习任何其他做法所以如果
JPA/JPQL：SELECT 子句中不允许使用 AS 标识符

我有一个非常复杂的 JPQL 查询其形式为 SELECT NEW com domain project view StandingsStatLine ro id AS rid cl name AS team te ordinalNbr 1
带 Riverpod 的 Flutter 导航栏

我尝试管理我的状态但我真的做不到我想了解如何使用 Riverpod 包在管理页面底部创建导航栏我设法管理我们单击的页面但我不知道如何根据所选按钮返回正确的寻呼机主要 dart import package flutter mate
使用 Preg_Replace 替换撇号时遇到问题

我试图从文本中删除撇号但它并没有真正起作用一定是一件小事 text preg replace text 这就是我现在用来删除它的方法我究竟做错了什么有一系列的方法可以删除特殊字符将它们转换为网址并将它们存储在我的数据库中然而最
如何防止背景图像在更改时闪烁

我通过 JavaScript 将重复的背景图像从画布应用到 div 如下所示 var img canvas document createElement canvas img canvas width 16 img canvas heigh
如何检查第一个数据帧中的值是否包含或与另一个数据帧中的值匹配

我在用R处理一些数据框我的问题与如何检查第一个数据帧中的变量值是否与另一个数据帧中的值匹配有关这场比赛与其他比赛有很大不同merge or join 我将介绍我的数据框 dput 最后我的第一个数据框是df1 它包含变量name我想将

如何检查第一个数据帧中的值是否包含或与另一个数据帧中的值匹配

如何检查第一个数据帧中的值是否包含或与另一个数据帧中的值匹配 的相关文章

随机推荐

热门标签

如何检查第一个数据帧中的值是否包含或与另一个数据帧中的值匹配的相关文章