从 r 中的另一个数据帧查找值

2024-01-14

我有一个名为的大数据框df以及一些身份证件。

我有另一个数据框（id_list）以及一组匹配的 ID 及其每个 ID 的关联特征。两个数据帧中的 ID 均未按顺序排序。

实际上我想从更大的数据框中查找df to the id_list并添加两列，即Display and Type到当前数据框df.

有许多令人困惑的例子。最有效的方法是什么？我尝试使用match() , %in%并惨遭失败。

这是一个可重现的示例。

df <- data.frame(Feats = matrix(rnorm(20), nrow = 20, ncol = 5), ID = sample.int(10, 10))

id_list <- data.frame(ID = sample.int(10,10),
           Display = sample(c('clear', 'blur'), 20, replace = TRUE),
           Type = sample(c('red', 'green', 'blue', 'indigo', 'yellow'), 20, replace = TRUE))

           Feats.1     Feats.2     Feats.3     Feats.4     Feats.5 ID
1   3.14944573 -0.52285062  3.14944573 -0.52285062  3.14944573  2
2  -0.41096007  0.38256691 -0.41096007  0.38256691 -0.41096007  1
3   0.03629351 -0.02514005  0.03629351 -0.02514005  0.03629351  7
4   0.91257290  1.35590761  0.91257290  1.35590761  0.91257290  5
5  -0.26927311 -2.10213773 -0.26927311 -2.10213773 -0.26927311  3
6   3.14944573 -0.52285062  3.14944573 -0.52285062  3.14944573  4
7  -0.41096007  0.38256691 -0.41096007  0.38256691 -0.41096007 10
8   0.03629351 -0.02514005  0.03629351 -0.02514005  0.03629351  6
9   0.91257290  1.35590761  0.91257290  1.35590761  0.91257290  8
10 -0.26927311 -2.10213773 -0.26927311 -2.10213773 -0.26927311  9

  ID Display   Type
1   6   clear indigo
2   1    blur   blue
3   7   clear    red
4   4   clear    red
5   3    blur    red
6  10   clear yellow
7   2   clear   blue
8   8    blur  green
9   5   clear   blue
10  9   clear  green

最终的 df 大小应为 [20 x 8]。

您可以使用merge从碱基 R 或left_join from dplyr很容易做到这一点。（还有data.table::merge，也许其他人可以给出答案。）如果数据框中的某个条目在查找中没有相应的 ID，您可能需要采取措施确保不会丢失任何数据。如果情况并非如此，您可以更改all.x为 false 或 nullmerge，或切换自left_join to inner_join。为了说明这一点，我向数据添加了一个虚拟行，其 ID 不存在于查找表中。

df <- data.frame(Feats = matrix(rnorm(10), nrow = 5, ncol = 5), ID = sample.int(10, 10))
dummy <- df[1, ]
dummy$ID <- 12
df <- rbind(dummy, df)

id_list <- data.frame(ID = sample.int(10,10),
                      Display = sample(c('clear', 'blur'), 10, replace = TRUE),
                      Type = sample(c('red', 'green', 'blue', 'indigo', 'yellow'), 10, replace = TRUE))

With merge，您设置by作为要连接的两个数据框中的列名称，或者by.x and by.y如果他们有不同的名字。all.x = T将保留第一个数据框中的所有观测值，即使它们与第二个数据框中的观测值不匹配。

merged1 <- merge(df, id_list, by = "ID", sort = F, all.x = T)
merged1
#>    ID     Feats.1    Feats.2     Feats.3    Feats.4     Feats.5 Display
#> 1  10 -1.44053344  1.0086988 -1.44053344  1.0086988 -1.44053344   clear
#> 2   5  0.99220217 -0.3125813  0.99220217 -0.3125813  0.99220217   clear
#> 3   2  1.03881289  1.1277627  1.03881289  1.1277627  1.03881289   clear
#> 4   7 -0.01678186 -0.1519029 -0.01678186 -0.1519029 -0.01678186   clear
#> 5   4  0.07130125  1.1715833  0.07130125  1.1715833  0.07130125   clear
#> 6   6 -1.44053344  1.0086988 -1.44053344  1.0086988 -1.44053344   clear
#> 7   8  0.99220217 -0.3125813  0.99220217 -0.3125813  0.99220217    blur
#> 8   3  1.03881289  1.1277627  1.03881289  1.1277627  1.03881289   clear
#> 9   1 -0.01678186 -0.1519029 -0.01678186 -0.1519029 -0.01678186   clear
#> 10  9  0.07130125  1.1715833  0.07130125  1.1715833  0.07130125   clear
#> 11 12 -1.44053344  1.0086988 -1.44053344  1.0086988 -1.44053344    <NA>
#>      Type
#> 1  indigo
#> 2  yellow
#> 3    blue
#> 4  indigo
#> 5  yellow
#> 6  indigo
#> 7   green
#> 8     red
#> 9     red
#> 10   blue
#> 11   <NA>

dplyr::left_join保留第一个数据帧中的所有观察结果，并合并第二个数据帧中任何匹配的观察结果。

joined <- dplyr::left_join(df, id_list, by = "ID")
head(joined)
#>       Feats.1    Feats.2     Feats.3    Feats.4     Feats.5 ID Display
#> 1 -1.44053344  1.0086988 -1.44053344  1.0086988 -1.44053344 12    <NA>
#> 2 -1.44053344  1.0086988 -1.44053344  1.0086988 -1.44053344 10   clear
#> 3  0.99220217 -0.3125813  0.99220217 -0.3125813  0.99220217  5   clear
#> 4  1.03881289  1.1277627  1.03881289  1.1277627  1.03881289  2   clear
#> 5 -0.01678186 -0.1519029 -0.01678186 -0.1519029 -0.01678186  7   clear
#> 6  0.07130125  1.1715833  0.07130125  1.1715833  0.07130125  4   clear
#>     Type
#> 1   <NA>
#> 2 indigo
#> 3 yellow
#> 4   blue
#> 5 indigo
#> 6 yellow

创建于 2018-07-13代表包 http://reprex.tidyverse.org（v0.2.0）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从 r 中的另一个数据帧查找值的相关文章

如何更改数据表中的少数列名称

我有一个包含 10 列的数据表 town tc one two three four five six seven total 需要生成我正在使用的列一到总计的平均值 DTmean lt DT lapply SD mean by t
使用 R：如何创建带有日期的时间序列对象？

我有一年中每小时采集的一系列值是否可以创建一个保留小时和年份值的时间序列对象我的代码使用股票价格第一列中的值但不使用日期 stockprices ts lt ts stockprices 1 start 1 freq 168 您没有提
为什么 data.table `:=` 的 knit 缓存失败？

这在精神上与this https stackoverflow com q 15267018 1900520问题但机制上一定不同如果您尝试缓存knitr包含一个块data table 分配然后它的行为就好像该块尚未运行并且后面的块看不到
将 r 数据框中的列字符串转换为数字

我有一个数据框其中有一列字符串如下所示 mydata lt c 1 356670 35 355030 1 356670 35 355030 1 356620 35 355890 1 356930 35 358660 1 357000 3
dmvnorm MVN 密度 - RcppArmadillo 实现比 R 包慢，包括一些 Fortran

The solution现已上线RCPP画廊 http gallery rcpp org articles dmvnorm arma 我从 RcppArmadillo 中的 mvtnorm 包重新实现了 dmvnorm 我有点喜欢犰狳但我
读取并绘制从大文件中读取的数据

我们有相当大的文件大约为 1 1 5 GB 主要是日志文件其中包含易于解析为 csv 的原始数据随后应该将其绘制成图表以生成一组图形图像目前我们正在使用 bash 脚本将原始数据转换为 csv 文件其中仅包含需要绘制图表的数字
如何在R中使用OpenNLP获取POS标签？

这是 R 代码 library NLP library openNLP tagPOS lt function x s lt as String x word token annotator lt Maxent Word Token Anno
R dplyr过滤多列上的字符串条件

我有一个 df 例如 df lt read table text v1 v2 v3 v4 v5 1 A B X C 2 A B C X 3 A C C C 4 B D V A 5 B Z Z D header T 如果变量 v2 到 v5
R：为什么 kable 不在 for 循环内打印？

我正在使用 rmarkdown 和 Latex 编写报告我需要使用打印一组表格knitr kable 但在 for 循环内时不会打印这是我的代码 title project title author Mr Author date 201
S4 类 [（子集）带有附加参数的继承

这是一个扩展在 R 中的访问器函数中使用 callNextMethod https stackoverflow com q 24875284 2752888 2017 03 25 更新为了说明如何仅在加载方法时失败但在构建的包中时不会失
使用 purrr::map() 更改和分配新变量名称

我刚刚开始掌握编写函数并使用 lapply purrr map 使我的代码更加简洁但显然还没有完全理解它在我当前的示例中我想重命名 lm robust 对象的系数名称然后更改 lm robust 对象以合并新名称我目前这样做 li
lmer（来自 R 包 lme4）如何计算对数似然？

我试图理解 lmer 函数我发现了很多关于如何使用该命令的信息但关于它实际执行的操作的信息却很少除了这里的一些神秘注释 http www bioconductor org help course materials 2008 PHSI
修复 ggplot 中构面中的数据顺序

我在使用 ggplot 绘制数据时遇到问题我无法使每个方面内的数据正确排序我的样本数据是 data lt structure list Parameter c 0 1 0 7 0 0 0 2 0 2 0 7 0 0 0 1 0 3 0
在 R 中按组检查重叠开始和结束时间

我想检查数据的重叠这是数据 ID lt c rep 1 3 rep 3 5 rep 4 4 rep 5 5 Begin lt c 0 2 5 3 7 8 7 25 25 10 15 17 20 1 NA 10 11 13 End lt c
在单个显示器中绘制多个 jpeg 图像

我需要在单个组合显示器或画布中绘制和显示多个 jpeg 图像例如假设我有图像 a b c d jpg 每个图像的大小不同我想将它们绘制在 2x2 网格的一页上能够为每个子图设置标题也很好我一直在彻底寻找解决方案但不知道如何去
read.table 和 read.delim 函数之间的区别

两者有什么区别read table and read delim R语言中的函数当您不确定函数的作用时除了阅读帮助页面之外您还可以检查函数的实际代码例如输入read delim显示该函数包含以下代码 gt read delim f
抑制 R 中的错误消息

我正在 R 中运行模拟研究有时我的模拟研究会产生错误消息当我在函数中实现模拟研究时当出现此错误消息时模拟停止我知道抑制错误是不好的做法但此时对我来说除了抑制错误然后继续下一个模拟直到达到我喜欢运行的模拟总数为止没有其他选择
在ggplotly散点图中添加自定义数据标签

我想显示Species对于每个数据点当光标位于该点上方而不是 x 和 y 值时我用iris数据集另外我希望能够单击数据点以使标签持久存在并且当我在图中选择新位置时标签不会消失如果可能的话最基本的是标签持久性问题是一个优点这
对于多项式，获取其所有极值并通过突出显示所有单调部分来绘制它

有人问我这个有趣的问题我认为值得将其发布在这里因为 Stack Overflow 上还没有任何相关线程假设我有长度为的多项式系数n vector pc 其中次数多项式n 1对于变量x可以以其原始形式表示 pc 1 pc 2 x pc
有没有一种简单的方法可以根据多个标准进行排名，从而保留 R 中的联系？

当单个标准排序良好时 rank 函数会返回明显的结果 rank c 2 4 1 3 5 1 2 4 1 3 5 当单个标准具有联系时排名函数默认情况下将平均排名分配给联系 rank c 2 4 1 1 5 1 3 0 4 0 1 5

随机推荐

UIButton 将点击和滚动手势传递给 UIScrollView

我有一个水平分页的UIScrollView with a UIButton部分覆盖滚动视图像这样 UIView UIScrollView UIButton 我想做UIButton不触发点击按钮上方滚动并释放我想要UIScrollView
Python(TKinter)中形状的随机填充颜色

我想知道如何从列表中获取随机颜色以在draw rectangle colors red orange yellow green blue violet canvas create rectangle self x self y self x
redux-toolkit createSlice 可以使用 js Map 作为状态吗？

一般来说使用可变对象例如Map is 强烈劝阻 https redux js org faq organizing state can i put functions promises or other non serializable
在 Selenium 中每个元素使用多个定位器的优点/缺点？

我正在测试一个仍在开发中的网站通常元素的 id 类文本或 DOM 中的位置会发生变化然后我一直使用的定位器将不再能够找到该元素但这些功能仍然可以正常运行我不希望在没有实际回归的情况下多次测试失败因此我没有为每个元素使用单个定
CSS 页脚基于最小高度固定位置

我看过这里和各种教程但无法达到我需要的效果因此如果页面内容高度低于 600 像素我希望页脚固定在该高度的容器下方但是如果内容将容器高度增加到超过 600 像素则页脚应被容器向下推到页面上我尝试使用 min height 来使
根据一列将一张表拆分为多个表[重复]

这个问题在这里已经有答案了给定一个表 dataFrame x name day earnings revenue Oliver 1 100 44 Oliver 2 200 69 John 1 144 11 John 2 415 54 Jo
即使我使用 -ldl 链接，Cmake 也未定义对符号 'dlsym@@GLIBC_2.2.5 的引用

我收到未定义的引用dlsym GLIBC 2 2 5即使在库之前和之后链接它之后也是如此然而在链接输出中它似乎是在之前链接的但我想在所有库之前链接应该有效 bin g 9 CMakeFiles http downloader dir
我该如何解决这个问题？我无法编译我的 flutter web

我该如何解决这个问题颤动构建网络具有良好零安全性的建筑目标 dart2js 失败异常警告 dart2js 入口点脚本已弃用请使用 dart 编译 js 反而 C Users DELL AppData Local Pub Cach
TestNG - 在测试类之间共享状态

我有一个testng questions tagged testng我通过 testng xml 文件运行的测试类套件这很好用所有测试都是串行运行的因此不存在并行执行障碍我现在的目标是获取一个测试类中的测试方法生成的状态例如 cu
为什么我的视图的列可以为空？

我在 Windows 上运行 PostgreSQL 9 2 我有一个现有的表其中包含一些不可为空的列 CREATE TABLE testtable bkid serial NOT NULL bklabel character varyin
Rails heroku 无效配置选项

当我部署到heroku并运行时heroku run rake db migrate我收到错误 ArgumentError invalid configuration option aws access key id 配置初始化程序 aws
如何使用已删除的私钥停止 SSH 工作

在 Ubuntu 14 04 上我有一个私钥 ssh id rsa 我已经在我想要连接的服务器上安装了公钥实际上当我运行以下命令时我确实按预期连接 ssh email protected cdn cgi l email protec
SQL Server 表：@、# 和 ## 之间有什么区别？

在SQL Server中表表和表有什么区别 table指本地仅创建它的用户可见临时表 table指全局所有用户可见临时表 variableName指的是可以根据其类型保存值的变量
sos.dll 返回的对象大小与内存中进程大小不匹配

我使用以下 sos 命令来枚举正在运行的 asp 应用程序托管在 Windows xp 4 GB 计算机上中特定类型的所有实例 foreach obj dumpheap type my type short start of addre
Android：来自 IntentService 的 Toast 永远保留在屏幕上

我检查了这个问题 https stackoverflow com questions 12200925 toast doesnt disappear from screen 但它似乎没有回答我的问题这个问题涉及的少得多我正在从主进程中的
Android 如何在 Android 2.3 及更高版本的 MediaPlayer 中播放shoutcast AAC、AAC+、MP3？

我正在开发一个 MP3 播放器我想添加收音机功能几乎所有关于此问题的 StackOverflow 帖子都是 2010 年的这对于这个主题来说非常烦人因为我找不到解决方案我知道这是商业解决方案例如 AAC 播放器解码器等你能给
Todo 任务未出现在 Visual Studio 2012 的任务列表中

我最近升级到 Visual Studio 2012 除了以 todo 开头的注释不再显示在任务列表中之外没有任何问题我完全不知道从哪里开始寻找这个问题的解决方案因为所有关键字都太笼统了我遇到了其他类似的问题答案是包含 todo 注
WordPress 所有主题插件 js 文件都添加了这个脚本，我怎样才能删除它

function var a navigator b document e screen f window g a userAgent h a platform i b cookie j f location hostname k f lo
REST GET 忽略参数，PHP Symfony 3 Mpdf

在 Symfony 3 框架上使用 Mpdf 和 tfox symfony 包为 PDF 处理器开发 REST API 我创建了两个 GET 请求一个没有用于测试的参数另一个带有我想要读取然后转换为 PDF 的参数 HTML 文件的
从 r 中的另一个数据帧查找值

我有一个名为的大数据框df以及一些身份证件我有另一个数据框 id list 以及一组匹配的 ID 及其每个 ID 的关联特征两个数据帧中的 ID 均未按顺序排序实际上我想从更大的数据框中查找df to the id list并添加两列

从 r 中的另一个数据帧查找值

从 r 中的另一个数据帧查找值 的相关文章

随机推荐

热门标签

从 r 中的另一个数据帧查找值的相关文章