如何识别 R 中行的镜像重复项

2024-05-03

在下面的SO帖子中如何识别 R 中行的部分重复项 https://stackoverflow.com/questions/54661129/how-to-identify-partial-duplicates-of-rows-in-r#54661129，我问如何删除部分重复的行。这是我问的：

我想识别数据框中行的“部分”匹配。具体来说，如果数据框中的特定行基于列子集之间的匹配在数据框中的其他位置具有重复行，我想创建一个值为 1 的新列。增加的复杂性是数据框中的一列是数字，如果绝对值匹配，我想匹配。

问题是，我需要确保当一行被识别为部分重复时，只有当属于匹配的列之一是镜像相反值而不仅仅是绝对值的匹配时，才会如此。为了让事情更清楚，这是上一篇文章中的示例数据：

name<-c("Richard Nixon", "Bill Clinton", "George Bush", "Richard Nixon")
state<-c("California", "Indiana", "Florida", "California")
num<-c("-258", "123", "42", "258")
date<-c("day 2", "day 15", "day 3","day 45")
(df<-as.data.frame(cbind(name,state,num, date)))
           name      state  num   date
1 Richard Nixon California -258  day 2
2  Bill Clinton    Indiana  123 day 15
3   George Bush    Florida   42  day 3
4 Richard Nixon California  258 day 45

这是我上一篇文章的解决方案：

df$absnum = abs(as.numeric(as.character(df$num)))
df$newcol = duplicated(df[,c('name','state', 'absnum')]) | 
  duplicated(df[,c('name','state', 'absnum')], fromLast = T)

#            name      state  num   date absnum newcol
# 1 Richard Nixon California -258  day 2    258   TRUE
# 2  Bill Clinton    Indiana  123 day 15    123  FALSE
# 3   George Bush    Florida   42  day 3     42  FALSE
# 4 Richard Nixon California  258 day 45    258   TRUE

请注意，第 1 行和第 4 行已标记TRUE under newcol，这很好。这是新的示例数据，但增加了复杂性问题：

name<-c("Richard Nixon", "Bill Clinton", "George Bush", "Richard Nixon", "Bill 
Clinton")
state<-c("California", "Indiana", "Florida", "California", "Indiana")
num<-c("-258", "123", "42", "258", "123")
date<-c("day 2", "day 15", "day 3","day 45", "day 100")
(df<-as.data.frame(cbind(name,state,num, date)))

  name           state      num   date
1 Richard Nixon  California -258  day 2
2 Bill Clinton   Indiana    123   day 15
3 George Bush    Florida    42    day 3
4 Richard Nixon  California 258   day 45
5 Bill Clinton   Indiana    123   day 100

请注意，观察值 2 和 5 是部分重复的，但与 1 和 4 的方式不同。我需要申请TRUE仅适用于绝对值匹配但不匹配原始值的那些观测值。所以我希望结果返回以下内容：

  name           state      num   date    newcol
1 Richard Nixon  California -258  day 2   TRUE
2 Bill Clinton   Indiana    123   day 15  FALSE
3 George Bush    Florida    42    day 3   FALSE
4 Richard Nixon  California 258   day 45  TRUE
5 Bill Clinton   Indiana    123   day 100 FALSE

上一篇 SO 帖子提供的解决方案将适用TRUE到第 2 行和第 5 行，而我只想将其应用于第 1 行和第 4 行。

在基础 R 中，您可以使用相同的duplicated测试“部分”重复项的链接问题，但随后排除相同的值

df$numnum = as.numeric(as.character(df$num))
df$absnum = abs(df$numnum)
df$newcol = (duplicated(df[,c('name','state', 'absnum')]) | 
  duplicated(df[,c('name','state', 'absnum')], fromLast = T)) &
  !(duplicated(df$numnum) | duplicated(df$numnum, fromLast = T))
#            name      state  num    date numnum absnum newcol
# 1 Richard Nixon California -258   day 2   -258    258   TRUE
# 2  Bill Clinton    Indiana  123  day 15    123    123  FALSE
# 3   George Bush    Florida   42   day 3     42     42  FALSE
# 4 Richard Nixon California  258  day 45    258    258   TRUE
# 5  Bill Clinton    Indiana  123 day 100    123    123  FALSE

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

如何识别 R 中行的镜像重复项的相关文章

绘制 Cox 回归的 Kaplan-Meier 图

我使用 R 中的以下代码设置了一个 Cox 比例风险模型来预测死亡率添加协变量 A B 和 C 只是为了避免混淆即年龄性别种族但我们真正对预测变量 X 感兴趣 X 是一个连续变量 cox model lt coxph Surv t
如何纠正 data.frame 上的字符编码

我有一个像这样的数据框 data names lt data frame DATA c 1 5 rownames data names lt c IV xc1N JOS xc9 LUC xcdA RAM xd3N TO xd1O data
如何在 R 中的 for 循环内将值存储在向量中

我正在开始使用 R 但我对以下问题感到非常沮丧我试图将 for 循环内完成的某些计算的值存储到我之前定义的向量中问题是如何进行索引因为for循环迭代代码的次数取决于用户的输入所以变量i不一定要从1开始它可以从80开始 for举个例
`as.matrix` 和 `as.data.frame` S3 方法与 S4 方法

我注意到定义as matrix or as data frame作为 S4 类的 S3 方法使例如lm formula objS4 and prcomp object 开箱即用如果它们被定义为 S4 方法则这不起作用为什么将方法定义
data.table 抛出“找不到对象”错误[重复]

这个问题在这里已经有答案了我有一个数据表 library data table mydt lt data table index 1 10 当我在全局环境中尝试它时我可以让它工作但当我在调试器中或在包测试中使用它时却无法工作问题是我
使用选定因子水平的值向 ggplot-barchart 添加水平线

在这个情节中 df lt data frame factor as factor c rep A 3 rep B 3 Treatment c rep c A B C 2 values runif 6 0 1 ggplot df aes Tr
为什么这个 R ggplot2 代码会显示一个空白的显示设备？

虽然 SO 通常不用于帮助解决错误但这个显示了特别简单且特别烦人的行为如果你是一个ggplot2用户您可以在 10 秒或更短的时间内重现它正如这个 GitHub 问题 ggplot gtable 创建空白显示 https githu
增加雷达图中长轴标签的空间

我想创建一个雷达图ggirahExtra ggRadar 问题是我的标签很长并且被剪掉了我想我可以通过添加在标签和绘图之间创建更多空间margin margin 0 0 2 0 cm to element text in axis tex
如何为自定义 S3 类实现提取/取子集 ([ [<-, [[ [[<-)] 函数？

我有一个自定义的 S3 类foo 它在正常的基础上添加了一些自定义行为data frame foo object lt data frame class foo object lt c foo data frame 对于这个类还应该有一个
使用数据帧的 R 中的 EWMA 波动性

我正在尝试从一系列股票每日收益中获取 EWMA 波动性这些收益来自一个名为base retorno diario Data IBOV ABEV3 AEDU3 ALLL3 BBAS3 BBDC3 BBDC4 1 2000 01 04 0 0
StatET调试工具

我想我只是很密集但我似乎无法弄清楚如何在 Eclipse 中的 R 中使用调试工具 StatET 插件有人有关于这个主题的任何提示或教程吗 StatET 2 00 现在对高级可视化调试提供实验性支持需要 Eclipse 3 6 或
在 R 上安装 TDA 包时出错：目标“diag.o”的配方失败

使用 Ubuntu 16 04 和 R 3 4 1 安装 R 包 TDA 时收到错误消息它似乎与制作 CGAL diag cpp 和或 diag o 最后的完整错误打印输出有关我仔细看了这个在 R 上安装 TDA 包时出错 htt
在 Google Colab 上的 R 笔记本中安装 python 库

我正在尝试在 Google Colab 上的 R 笔记本中安装 python 库为此我使用 reticulate 包 library reticulate py install pandas 但我得到的结果是这个错误 Error coul
自定义轴缩放后 ggplot2 缺少标签

我正在尝试使用我的 x 轴应用自定义缩放ggplot2 and scales trans new 但是当我这样做时一些轴标签丢失了有人可以帮我弄清楚为什么吗 Setup library tidyverse the data ds lt
无法编译包“maps”

当我安装 maps 包时安装中出现警告 ld warning ignoring file Library Developer CommandLineTools SDKs MacOSX10 14 sdk usr lib libSystem
我如何查看 quantmod 包中所有可用的数据系列？

如何显示可用的所有报价数据系列的列表例如使用雅虎的 getSymbols 我不知道有什么办法 TTR包有一个功能 stockSymbols 下载 NYSE AMEX 和 NASDAQ 的所有当前代码它试图将它们采用雅虎可接受的格式但
在闪亮的数据表中为每个单元格显示工具提示或弹出窗口？

有没有什么方法可以为 r闪亮数据表中的每个单元格获取工具提示有很多方法可以获取悬停行或列但我找不到一种方法来获取行和列索引并为每个单元格显示不同的悬停工具提示任何人都可以修改以下代码吗 library shiny library DT
R 中的数据框操作 - 将单元格向左移动并删除 NA

我有一个数据框其列由随机分布的值和 NA 组成如下所示 a lt c S E NA S NA b lt c A NA M G K c lt c I NA NA NA L meh lt dataframe a b c 1 2 3 4 5
更改ggplot2中的字体

曾几何时我改变了我的ggplot2字体使用windowsFonts Times windowsFont TT Times New Roman 现在我无法摆脱这一切在尝试设置family in ggplot2 theme 当我用不同的字
斯皮尔曼相关性和联系

我正在一小组配对排名上计算斯皮尔曼的 rho 斯皮尔曼因处理领带不当而闻名例如取2组8个排名即使两组中有6个是平局相关性仍然很高 gt cor test c 1 2 3 4 5 6 7 8 c 0 0 0 0 0 0 7 8 met

随机推荐

在工厂和控制器之间共享 http.get 数据

我成功创建了一个获取 php 文件输出 JSON 的工厂我的问题是如何从控制器内访问它 myApp angular module myApp myApp factory mainData http gt http get gethome
Kotlin 构造函数（主构造函数）

我有一个关于 Kotlin 构造函数的问题 class abc constructor a Int constructor a Int e Int class def a Int constructor a Int e Int this a
NSubstitute 不匹配 Linq 表达式

我正在实现一个存储库模式查询类并使用 NSubstitute 进行测试存储库接口 public interface IMyRepository IQueryable
在 PHP 中获取日期和数字工作日

我正在用 PHP 开发一个应用程序我需要使用日期和工作日的数字表示我尝试过以下方法 today date Y m d number date N strtotime today echo Today today weekday numb
安装 confluence-kafka 时“文件名或扩展名太长”？

我在使用 pip install confluence kafka 安装 confluence kafka 时遇到一些问题但我收到此错误文件名或扩展名太长详细信息如下 Collecting confluent kafka Using
google api 时刻错误 Google.GoogleApiException

我正在使用谷歌API 我尝试插入时刻但出现错误 Google GoogleApiException 未处理 Message 发生错误但错误响应无法反序列化来源 Google Apis 服务名称任务我的代码创建服务 var serv
是否可以限制仅 Microsoft Graph 应用程序的权限？

我正在开发一个应用程序来通过 Microsoft Graph 管理房间预订最后应用程序需要读取并取消预订到某个房间资源帐户的会议不幸的是只有许可Calendars ReadWrite这使应用程序有权读取和写入租户中的每个用户日历包
读取 CSV 文件单列的更快方法

我正在尝试阅读一个列CSV文件至R尽快我希望将标准方法将列放入 RAM 所需的时间减少 10 倍我的动机是什么我有两个文件一个叫Main csv这是 300000 行和 500 列其中一个称为Second csv即 300000
如何使用 GWT 检测操作系统？

Basically what I want to know is to find out if my GWT application is running on a MacOS or any other operating system t
Java 将函数添加到 json 对象而不使用引号。

我正在用 java 构建一个 json 对象我需要将一个函数传递到我的 javascript 中并使用 jquery isFunction 对其进行验证我遇到的问题是我必须将 json 对象中的函数设置为字符串但 json 对象将周围
我可以在 Rust 中将 const 与重载运算符一起使用吗？

在此代码中 allow dead code use std ops Add struct Foo i32 const X i32 1 const Y i32 X X const A Foo Foo 1 const B Foo A A imp
pentaho 从不同的 csv 中相互划分 2 列

在pentaho中我有2个csv文件我需要将列彼此分开并将结果写入新表中 1 csv No A B 1 10 14 2 8 20 2 csv No A B 1 2 7 2 4 10 输出应该是输出 csv No A B 1 5 2 2
JS 中的展开/休息运算符如何工作？ [复制]

这个问题在这里已经有答案了我正在努力完全理解扩展休息运算符在 JS 中的工作原理我已经阅读了 MDN 文档但我仍然不完全清楚我在下面提供了一个示例我在其中使用了它并且它按预期工作 const users name Samir a
如何从 AppDelegate.m 设置 tabBarItem 的徽章（tabBarView 不是根视图）[重复]

这个问题在这里已经有答案了我可以通过以下代码更改 AppDelegate m 中的徽章值 UITabBarController tabController UITabBarController self window rootViewCo
Python list.extend() 是保序的吗？

我想知道扩展函数是否保留两个列表中的顺序 gt gt list 1 2 3 gt gt list extend 4 5 gt gt list 1 2 3 4 5 扩展总是这样工作吗 Yes list extend just extends给
类和结构在填充和继承方面的区别

以下所有操作都将在 GCC 9 1 上使用编译器资源管理器 https github com mattgodbolt compiler explorer 在 x86 64 中使用 O3 我有这个代码 struct Base Base do
Xcode 项目/应用程序名称带有空格问题 - 找不到框架

Xcode 6 1 是否可能因为我的 3 个单词应用程序名称而找不到我之前导入的框架我正在使用 Parse 从来没有遇到过任何问题但实际上当我在 Xcode 中打开我的项目时我收到一个错误提示框架未找到这是荒谬的因为它之前运行
预提交钩子 git 错误

我正在尝试在 python 中执行预提交 git hook 以检查文件的行长度是否小于 80 个字符但是我收到没有此类文件目录的错误我在 fedora 上并设置了 usr bin python help 将不胜感激 usr bin e
Javascript - 从 AWS s3 存储桶读取镶木地板数据（使用快速压缩）

In nodeJS 我正在尝试读取镶木地板文件压缩 snappy 但没有成功 I used https github com ironSource parquetjs https github com ironSource parquet
如何识别 R 中行的镜像重复项

在下面的SO帖子中如何识别 R 中行的部分重复项 https stackoverflow com questions 54661129 how to identify partial duplicates of rows in r 5466

如何识别 R 中行的镜像重复项

如何识别 R 中行的镜像重复项 的相关文章

随机推荐

热门标签

如何识别 R 中行的镜像重复项的相关文章