选择一个数据框中与另一数据框中部分匹配的行

2023-12-19

我希望在一个数据框中选择行，data.1，部分匹配第二个数据帧中的行，keep.these，得到desired.result。我在这里发现了几个基于一列匹配的问题，但我想在三列上匹配：STATE, COUNTY and CITY。到目前为止，我已经提出了三种解决方案，但似乎没有一个是理想的。

请注意，每一行都包含一个唯一的组合STATE, COUNTY and CITY在我的真实数据中。

当我使用merge我必须重新order。功能match似乎可行，但我对它不熟悉，不知道我对这个功能的使用是否符合预期。这apply下面的解决方案显然太复杂了。

The merge如果我不必对结果重新排序，这种方法将是理想的。对于大型数据集，重新排序可能非常耗时。这match如果有人可以确认这是一个合理的方法，那么该方法似乎还可以。

有没有更好的解决方案，最好是在基地R?

data.1 <- read.table(text= "
     CITY     COUNTY   STATE        AA
       1          1         1        2
       2          1         1        4
       1          2         1        6
       2          2         1        8
       1          1         2       20
       2          1         2       40
       1          2         2       60
       2          2         2       80
       1          1         3      200
       2          1         3      400
       1          2         3      600
       2          2         3      800
       1          1         4     2000
       2          1         4     4000
       1          2         4     6000
       2          2         4     8000
       1          1         5    20000
       2          1         5    40000
       1          2         5    60000
       2          2         5    80000
", header=TRUE, na.strings=NA)

keep.these <- read.table(text= "
     CITY     COUNTY     STATE      BB
       1          1         2      -10
       2          1         2      -11
       1          2         2      -12
       2          2         2      -13
       1          1         4      -14
       2          1         4      -15
       1          2         4      -16
       2          2         4      -17
", header=TRUE, na.strings=NA)

desired.result <- read.table(text= "
     CITY     COUNTY    STATE       AA
       1          1         2       20
       2          1         2       40
       1          2         2       60
       2          2         2       80
       1          1         4     2000
       2          1         4     4000
       1          2         4     6000
       2          2         4     8000
", header=TRUE, na.strings=NA)

##########

# this works, but I need to reorder

new.data.a <- merge(keep.these[,1:3], data.1, by=c('CITY', 'COUNTY', 'STATE'))

new.data.a <- new.data.a[order(new.data.a$STATE, new.data.a$COUNTY, new.data.a$CITY),]

rownames(desired.result) <- NULL
rownames(new.data.a)     <- NULL

all.equal(desired.result, new.data.a)

##########

# this seems to work, but match is unfamiliar

new.data.2 <- data.1[match(data.1$CITY  , keep.these$CITY  , nomatch=0) & 
                     match(data.1$STATE , keep.these$STATE , nomatch=0) & 
                     match(data.1$COUNTY, keep.these$COUNTY, nomatch=0),]

rownames(desired.result) <- NULL
rownames(new.data.2)     <- NULL

all.equal(desired.result, new.data.2)

##########

# this works, but is too complex

data.1b      <- data.frame(my.group = apply(    data.1[,1:3], 1, paste, collapse = "."),     data.1)
keep.these.b <- data.frame(my.group = apply(keep.these[,1:3], 1, paste, collapse = "."), keep.these)

data.1b <- data.1b[apply(data.1b, 1, function(x) {x[1] %in% keep.these.b$my.group}),]
data.1b <- data.1b[,-1]

rownames(desired.result) <- NULL
rownames(data.1b)        <- NULL

all.equal(desired.result, data.1b)

##########

这是此类问题的通用解决方案，非常有效：

data.1.ID <- paste(data.1[,1],data.1[,2],data.1[,3])

keep.these.ID <- paste(keep.these[,1],keep.these[,2],keep.these[,3])

desired.result <- data.1[data.1.ID %in% keep.these.ID,]

我只是为每条记录创建了一个唯一的 ID，然后对其进行搜索。注意：这将更改行名称，您可能需要添加以下内容：

row.names(desired.result) <- 1:nrow(desired.result)

EDIT:

这是解决同一问题的另一种方法。

如果您有一个非常大的数据集，例如数百万行，另一个非常有效的解决方案是使用该包data.table。它的工作速度比merge，取决于您拥有多少数据。

您所要做的就是以下几点：

library(data.table)

第一步：转换data.frame to data.table，前三列作为键。

d1 <- data.table(data.1, key=names(data.1)[1:3])
kt <- data.table(keep.these, key=names(keep.these)[1:3])

Step2：使用合并data.table的二分查找：

d1[kt]

注1：执行的简单性。注2：这将按键对数据进行排序。为了避免这种情况，请尝试以下操作：

data.1$index <- 1:nrow(data.1)  # Add index to original data
d1 <- data.table(data.1,key=names(data.1)[1:3]) # Step1 as above
kt <- data.table(keep.these,key=names(keep.these)[1:3])  # Step1 as above
d1[kt][order(index)]  # Step2 as above

如果您想删除最后两列（index, BB），这也很简单：

d1[kt][order(index)][,-(5:6),with=F] #Remove index

尝试使用大数据集，并将时间与merge。通常速度要快 50-100 倍左右。

要了解更多信息data.table, try:

vignette("datatable-intro")
vignette("datatable-faq")
vignette("datatable-timings")

或者看看它的实际效果：

example(data.table)

希望这可以帮助！！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

MERGE

match

apply

选择一个数据框中与另一数据框中部分匹配的行的相关文章

如何在knitr和RStudio中为word和html设置不同的全局选项？

我正在使用 RStudio 0 98 932 和 knitr 1 6 想要为word和html设置不同的全局knitr选项例如想要将word的fig width和fig height设置为6 html的fig width和fig hei
Rails/Ruby 合并两个具有相同键、不同值的哈希值

我有两个想要合并的哈希值它们看起来像这样 Hello gt 3 Hi gt 43 Hola gt 43 第二个哈希看起来像 Hello gt 4 Hi gt 2 Bonjour gt 2 我想合并这两个哈希数组使结果看起来像 Hello
randomForest 包在删除一个预测类时的奇怪行为

我正在运行一个随机森林模型它产生的结果从统计角度来看对我来说完全没有意义因此我确信有些东西mustrandomForest 包的代码出现错误至少在模型的本次迭代中预测左侧变量是具有 3 种可能结果的政党 ID 民主党独立党共和
Git 将一个分支合并到所有其他分支中

我知道这个问题已经在这里被问过 https stackoverflow com questions 2329716 merging changes from master into all branches using git https
Quantmod 的简单功能不再起作用

我明天要交论文我收到了一条关于 quantmod 的非常奇怪的错误消息这是我在过去几周使用这个包时从未遇到过的我无法导入特定于道琼斯指数 DJI 的数据我收到以下错误消息 getSymbols DJI src yahoo from
使用officer R导出时如何提高ggplots的分辨率

我想将图表导出到 PPT 并使用Officer 包来实现相同的目的但是图表的默认分辨率较低我想更改它我目前正在使用以下电话 ph with gg p1 type chart res 1200 其中 p1 是 ggplot 对象运行
正态分布平均值的贝叶斯推理玩具 R 代码 [降雪量数据]

我有一些降雪观测 x lt c 98 044 107 696 146 050 102 870 131 318 170 434 84 836 154 686 162 814 101 854 103 378 16 256 我被告知它遵循正态分布
R 闪亮仪表板中的动态重复条件面板

我正在尝试创建一个动态条件面板所以我的条件如下在用户界面中输入 selectInput inpt Input Number seq 1 50 1 selectize FALSE 我的条件面板 UI 输入是 conditionalPane
将列表中的每个元素转换为数据框中的一列

假设我有以下列表 d library combinat d permn c a b c 这看起来如下 1 1 a b c 2 1 a c b 3 1 c a b 4 1 c b a 5 1 b c a 6 1 b a c 是否可以将此列表的
我可以使用哪个 R 函数来查找两条线的交点？

我刚刚研究了 stackoverflow 上所有的在 R 中寻找交集问题它们要么是关于曲线要么是关于分布像这个 https stackoverflow com questions 20519431 finding point of
行对名称中具有特定模式的列求和

我有一个像这样的数据表 DT lt ata table data table ref rep 3L 4L nb 12 15 i1 c 3 1e 05 0 044495 0 82244 0 322291 i2 c 0 000183 0 155
R Shiny：如何将无功值从闪亮模块返回到主服务器功能？

我有一个简单的玩具示例它使用 add removeBtn 模块在第一个模块中添加和删除 UI 我需要跟踪单击添加删除的次数如果我不使用模块这很容易但我试图在嵌套模块的上下文中执行此操作代码如下但基本上我似乎无法访问主
R ggplot 中的柯尔莫哥洛夫-斯米尔诺夫图

我正在尝试在 r 中绘制 KS 图一切似乎都很顺利除了我只能使用颜色来可视化两个不同的样本而不是线型这一事实我已经尝试过以下方法 sample1 lt SD13009 sample2 lt SD13009PB group lt c r
更新 R6 对象实例中的方法定义

如何更新 R6 类实例的方法定义正如我所期望的 S3 使用当前的方法定义对于 R5 参考类我可以使用 myInstance myInstance copy 在 R6 中我尝试了 myInstance myInstance clone
在 R 中提取 data.frames 列表的名称以及 data.frame 中的值

在下面的代码中 j是 data frames 的命名列表我想知道是否有办法 a 提取变量的数值即one short and one long 在 data frames 内并附加它们的相关名称即 AAA or BBB or CCC 到
Mercurial 合并的默认主干版本？

当我们将 Mercurial 功能发布存储库中的更改合并到主干存储库时我们总是会与 Maven POM 文件 pom xml 和 Mercurial hgtags 文件发生冲突我们总是想保留主干版本我们永远不需要功能发布存储库版本有
R在Windows平台Rstudio上打印data.frames中的UTF-8代码

当数据框中存在UTF 8字符时将无法正常显示例如以下内容是正确的 gt U6731 1 朱但是当我将其放入数据框中并打印出来时它是 gt data frame x U6731 x 1
data.table 抛出“找不到对象”错误[重复]

这个问题在这里已经有答案了我有一个数据表 library data table mydt lt data table index 1 10 当我在全局环境中尝试它时我可以让它工作但当我在调试器中或在包测试中使用它时却无法工作问题是我
R：按组，测试一个变量的每个值是否存在于另一个变量中

我有一个数据框架结构如下 a lt c 1 1 1 2 2 2 3 3 3 3 4 4 b lt c 1 2 3 1 2 3 1 2 3 4 1 2 c lt c NA NA 2 NA 1 1 NA NA 1 1 NA NA df lt
当设置 coord_fixed 时，ggplot/shiny 中的鼠标悬停坐标是错误的

我正在使用问题中的答案当您将鼠标悬停在闪亮的 ggplot 上时出现工具提示 https stackoverflow com questions 27965931 tooltip when you mouseover a ggplot o

随机推荐

在 Windows 10 Professional 中安装自定义 inf 时遇到问题。 Windows 使用 OEM 驱动程序覆盖它

我已经为自定义设备制作了签名的 USB 串行 inf 文件并创建了一个安装程序该安装程序成功地将驱动程序安装到 Windows 7 32 64 Windows 8 1 64 但不适用于 Windows 10 这适用于默认安装右使用设
使用 Swiftui 我们如何创建用户表单

我想创建一个表单其中所有文本字段都需要从相同的对齐方式开始如下图所示它不从相同的对齐方式开始名字姓氏和电话号码所有文本字段未在单个垂直线上正确对齐 VStack HStack Text First Name TextField F
更新 ATOM 条目的正确/可接受的方法

什么是正确的方式来指示 ATOM 提要中的条目已更新正确是指符合现有规范and读者会注意到某些内容并将其标记为新的未读的我发现的所有规范都表明支持更新的节点但是当我尝试这样的事情时
Django 视图中长时间、缓慢的操作会导致超时。有什么办法可以让 Python 代替 AJAX 说话吗？

我从事 Python 编程已经有一段时间了但 DJango 和 Web 编程对我来说总体来说还是陌生的我在 Python 视图中执行了一个很长的操作由于我认为 local 函数需要很长时间才能返回因此存在 HTTP 超时公平地说
并发原子选择更新

我怎样才能使用 sqlalchemy 做这样的事情 user session query select from user if user state active session query update user set state i
在 C# 中交换 32 位正整数中的位

所以我正在尝试解决这个问题给定一个随机的 32 位正整数你要做的就是将第 3 4 5 位的值与第 24 25 26 位的位值交换假设这是一个您不需要明确解决方案的问题这里有一个提示使用以下命令屏蔽有问题的位做一个转变然后OR然
调用chrome.tabs.query后，得不到结果

我正在创建学习 Google Chrome 的扩展程序为了调试一些代码我插入了console log 如下 var fourmTabs new Array chrome tabs query function tabs for var
Javascript随机化数组，而起始位置没有元素[重复]

这个问题在这里已经有答案了我有一个 JavaScript 问题我让用户输入一个名称列表然后将其放入一个数组中长话短说我正在编写一种随机方法让人们弄清楚他们将为谁购买圣诞礼物例如原始数组由以下名称组成 Alex Joel Li
合并具有相同键的元组

如何合并具有相同键的元组 list 1 AAA 123 AAA 456 AAW 147 AAW 124 并将它们变成 list 2 AAA 123 456 AAW 147 124 最有效的方法是使用collections defaultdi
Django中的send_mail，在shell中工作，在本地工作，不在视图中

我什至不知道如何调试这个我在 Django 的一个视图中使用 send mail 在本地使用该应用程序时使用与我在生产中使用的相同的 SMTP 设置它可以正常工作并且在生产中的 shell 中也可以正常工作同样使用相同的设置但
当标题拆分为两行时修复plotly ggplotly() 标题重叠图

在下面的示例中标题的第二行与情节略有重叠有没有办法通过增加标题和情节之间的间距来解决这个问题 library ggplot2 library plotly library magrittr p1 lt ggplot iris aes x
如何使用 $.ajax（jQuery 或 Zepto）发布对象数组

我想在 Zepto 或 Jquery 中使用 ajax 发布一组对象两者都表现出相同的奇怪错误但我找不到我做错了什么当使用像 RestEasy 这样的测试客户端发送数据时数据会保存到服务器并且我可以看到请求在浏览器的网络面板中被破
使用 Tor 运行 Puppeteer

我安装了 Tor Expert Bundle 并且想使用 Puppeteer 运行它 I try const browser await puppeteer launch headless false args proxy server s
更新后 Fabric 崩溃：[Fabric isCrashlyticsCollectionEnabled]：无法识别的选择器发送到类 0x10c0bb918

今天 pod 更新后 Fabric 崩溃了面料1 9 0 Fabric isCrashlyticsCollectionEnabled unrecognized selector sent to class 0x10c0bb918 崩溃线
Linux系统调用

我能够获得系统调用的执行及其在内核中的处理但我还不清楚一些事情进入 swi 例程后内核保存用户模式寄存器在堆栈上问题是是谁的堆栈因为 swi 处理和相应的系统调用例程需要堆栈帧来工作如果是内核自己的堆栈那么从哪里分配堆栈
为什么数据流步骤无法启动？

我有一个线性三步数据流管道由于某种原因最后一步开始但前面的两个步骤挂起Not started在我放弃并终止这份工作之前很长一段时间我不确定是什么导致了这个问题因为同样的管道过去曾成功运行过而且我很惊讶它没有在日志中显示任何阻止前
更改成员资格连接字符串

我是 ASP NET 成员资格新手我需要帮助以编程方式更改其连接字符串到目前为止我尝试过的是我创建了一个类项目名称 Sample 作为命名空间并扩展了System Web Security SqlMembershipProvider
C++中接口类和实现类的并行继承

我正在尝试以与 Java 接口类似的方式使用 C 抽象基类假设我们有以下仅具有纯虚函数的接口类 class Shape virtual double area 0 class Square public Shape virtual voi
最简单的反向代理[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我正在寻找一种方法来简单地在本地设置连接到远程站点的代理我不想在系统中正确安装任何东西如果我可以使用单个命令行调用来调用它而不是使用单个配置文件
选择一个数据框中与另一数据框中部分匹配的行

我希望在一个数据框中选择行 data 1 部分匹配第二个数据帧中的行 keep these 得到desired result 我在这里发现了几个基于一列匹配的问题但我想在三列上匹配 STATE COUNTY and CITY 到目前为止

选择一个数据框中与另一数据框中部分匹配的行

选择一个数据框中与另一数据框中部分匹配的行 的相关文章

随机推荐

热门标签

选择一个数据框中与另一数据框中部分匹配的行的相关文章