删除所有重复行，除非有“相似”行

2023-12-25

我有以下内容data.table:

library(data.table)
dt = data.table(c(1, 1, 1, 2, 2, 2, 2, 3, 4),
                c(4, 4, 4, 5, 5, 6, 7, 4, 5))
   V1 V2
1:  1  4
2:  1  4
3:  1  4
4:  2  5
5:  2  5
6:  2  6
7:  2  7
8:  3  4
9:  4  5

我想研究不同的价值观V2对于给定的V1。但是，如果所有值V2对于给定的V1是相同的，我对此不感兴趣，所以我想删除这些行。

查看上面的示例，前三行完全相同（V1=1, V2=4），所以我想删除它们。

然而，接下来的四行包括两个相同的行和其他具有不同的行V2。在这种情况下，我想显示三个可能的值V2 given V1 = 2: (2, 5), (2, 6) and (2, 7).

最后两行有唯一的V1：属于“所有行都完全相同”的类别，因此也应该删除。

我能想到的最好的显示在这个答案 https://stackoverflow.com/a/7854620/2175231:

dt[!duplicated(dt) & !duplicated(dt, fromLast = TRUE), ]
   V1 V2
1:  2  6
2:  2  7
3:  3  4
4:  4  5

这显然不能令人满意：它删除了(2,5)对，因为它是重复的，并且它保留了(3,4) and (4,5)成对，因为它们是唯一的，因此不会被任何一个标记duplicated() pass.

另一种选择就是简单地调用

unique(dt)
   V1 V2
1:  1  4
2:  2  5
3:  2  6
4:  2  7
5:  3  4
6:  4  5

但它保留了(1,4), (3,4), (4,5)我想要删除的对。

最后，我想要的结果是：

尽管任何其他格式也是可以接受的，例如：

   V1 V2.1 V2.2 V2.3
1:  2    5    6    7

（这显示了可能的值V2对于每一个“有趣的”V1)

我不知道如何区分(1,4)案例（所有行都相同）(2,5)案例（有一些重复，但还有其他行具有相同的V1，所以我们必须删除重复的(2,5)但保留一份）。

至于唯一行，我编写了一个非常丑陋的调用，但它仅在只有一个唯一行时才有效。如果有两个，例如上面的示例，则会失败。

一个选项是按“V1”分组，获取唯一元素长度大于 1 的组的索引，然后取unique

unique(dt[dt[, .(i1 = .I[uniqueN(V2) > 1]), V1]$i1])
#   V1 V2
#1:  2  5
#2:  2  6
#3:  2  7

或者正如 @r2evans 提到的

unique(dt[, .SD[(uniqueN(V2) > 1)], by = "V1"])

注意：OP的数据集是data.table and data.table方法是做事的自然方式

如果我们需要一个tidyverse选项，与上述选项类似data.table选项是

library(dplyr)
dt %>%
   group_by(V1) %>% 
   filter(n_distinct(V2) > 1) %>% 
   distinct()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

删除所有重复行，除非有“相似”行的相关文章

在 mts 对象上使用 Apply 系列函数

在 mts 对象上使用 apply 或 sapply 会在发送到函数时删除其时间序列属性我应该如何在 mts 对象中的每个时间序列上应用相同的函数带有 ts 输入和 ts 输出并返回它最好是 mts 我的意思是除了使用 for 循环
根据值的运行总计创建组

我的数据在一个变量 Y 上是唯一的另一个变量 Z 告诉我每个 Y 中有多少人我的问题是我想从这些 Y 和 Z 创建 45 人的组我的意思是每当运行总计Z 达到 45 创建一组然后代码继续创建下一组我的数据看起来像这样 ID X
尽管提供了群落矩阵，纯素食 DBRDA 物种得分为空

我使用纯素社区生态包在 R 中执行了基于距离的冗余分析 dbRDA 我想在 dbRDA 结果的排序图中显示鱼类营养群体对样本之间差异营养级鱼类组合的丰度数据的相对贡献 IE 将箭头和营养级组名称叠加到排序图上其中箭头线的长度表示
如何从 data.frame 中选择行和列的子集

我有这个 d d Age gt 2 它返回 Age 超过 2 的所有行但我只想返回几列中的值例如 d X 和 d Y 而不是全部无论如何我可以做到这一点吗 Thanks d d Age gt 2 c X Y
Quarto/Rmarkdown 中的美人鱼图：狭窄且模糊

我正在尝试生成 pdf 格式的四开文档稍后会生成 word 格式我遇到了美人鱼图的问题请在下面找到一个示例 qmd 文件来说明该问题所以首先它应该支持 mermaid 标签但当我这样做时我无法在 rstudio 中运行单元
R 中大型稀疏矩阵的聚类分析

我有一个包含 250000 笔交易行和 2183 项列的交易数据集我想将其转换为稀疏矩阵然后对其进行分层聚类我尝试了包 sparcl 但它似乎不适用于稀疏矩阵关于如何解决这个问题有什么建议吗或者我可以使用任何其他包对稀疏矩
包检查时如何有效处理未压缩的保存？

在最近开发一个包的过程中我将数据集包含在data 我的包的文件夹在我的具体情况下我有 5 个数据集所有这些数据集都位于data table格式尽管我在下面描述的问题仍然存在如果我将它们保留为data frame 我已将每个人单独
readRDS() 加载额外的包

什么情况下会出现readRDS R 中的函数尝试加载包命名空间我很惊讶地在新的 R 会话中看到以下内容 gt loadedNamespaces 1 base datasets graphics grDevices methods sta
Dplyr 多重滞后整齐评估？

我试图在 dplyr 中使用尽可能少的代码来实现多个滞后同时坚持整洁的评估以下标准评估 SE 代码有效 if require dplyr install packages dplyr library dplyr a as tibble
将文本添加到 ggplot 中的轴标签

我从下表中绘制了一个图表 BoatPhs fit se lower upper 1 Before 3 685875 0 3287521 3 038621 4 333130 2 After0 20NTA 3 317189 0 6254079
通过 RSelenium 单击按钮

我正在尝试使用 Rselarium 和 Rvest 来抓取 REI 的评论吊床我想点击底部的按钮 x 次这样我就可以抓取所有评论我有点失落这是我到目前为止所拥有的如果您也知道如何在取景器中预览您正在做的事情而不是屏幕打印那就
使用 SparkR 1.5 从 RStudio 中的 hdfs 读取大文件（纯文本、xml、json、csv）的选项

我是 Spark 新手想知道除了下面的选项之外是否还有其他选项可以使用 SparkR 从 RStudio 读取存储在 hdfs 中的数据或者我是否正确使用它们数据可以是任何类型纯文本 csv json xml 或任何包含关系表的数据
R 中带有边缘箱线图的直方图

如何使直方图中的 X 轴与边缘箱线图匹配 data lt rnorm 1000 nf lt layout mat matrix c 1 2 2 1 byrow TRUE height c 1 3 layout show nf par mar
使用亚毫秒日期时间从字符->POSIXct->字符准确转换

我的文件中有一个字符日期时间列我加载文件到data table 并执行需要将列转换为的操作POSIXct 然后我需要写POSIXct值返回文件但日期时间不会相同因为打印不正确这个打印格式问题是众所周知的并且已经被讨论过多次我
创建序列组合

我正在尝试解决以下问题考虑 5 个简单序列 0 100 100 0 rep 0 101 rep 50 101 rep 100 101 我需要 3 个数字变量的集合它们的所有组合都具有上述序列由于有 5 个序列和 3 个变量因此可以有
for 循环与 cor.test 在许多类别上

我正在尝试在 R 中编写一个循环它将循环遍历 3 个不同的物种以计算两个连续变量 Redness 和 VarNormAbund 之间的相关性我的循环正在运行但 3 个物种中每一个的输出都是相同的这让我认为循环卡在第一个物种上 co
如何将 mcmc.list 转换为 bugs 对象？

我正在使用rjagsR 库功能coda samples产生一个mcmc list 例如来自example coda samples library rjags data LINE LINE recompile LINE out lt c
在 R 中收集多组列[重复]

这个问题在这里已经有答案了我有一个宽数据框需要将其收集或融化成一个高数据框我遇到的问题是我有几组列需要保持关联分组我每个表单提交有 2 个用户每个用户有 3 列数据我想将这 6 列基本上以 3 组的形式堆叠起来以便每个用户都
当在另一行中找到元素逗号分隔时合并行

您好我有一个数据框例如 species family Events groups 1 SP1 A 10 22 G1 2 SP1 B 7 G2 3 SP1 C D 4 5 6 1 3 G3 G4 G5 G6 4 SP2 A 22 10 G
DT数据表中的列对齐

In my shiny我正在使用的应用程序datatable函数来自DT库构建一个表格并希望将列居中对齐我可以用formatStyle column textAlign center 但它只影响列体而不影响标题我们必须设置columnD

随机推荐

水晶报表，基于组的摘要位于报表页脚

HI 是否可以在报告页脚显示组的摘要让我解释一下这个场景我必须创建以下类型的报告 Client Amount Currency Customer 123 WWWW 300 SGD XXXX 400 SGD YYYY 200 USD ZZ
睡眠直至下一个 15 分钟每小时间隔（00:00、00:15、00:30、00:45）

我需要我的脚本休眠直到下一个 15 分钟的每小时间隔例如整点一刻钟半点钟一刻钟它看起来像这样 While True do something sleepy time calculate time to next interval
通过网络和字节数组序列化/反序列化Java对象

我有来自 DZone 的代码 http www dzone com links r java custom serialization example html http www dzone com links r java custom
虚拟机重新启动后系统时间变得不正确

自从将多个物理服务器虚拟化到 GCP 后我遇到了一个问题即每当服务器重新启动时时间都会提前几个小时我认为是 4 小时但可能是 6 小时我的本地办公室位于 CST 时区这就是我们希望服务器显示的内容在 GCP 中虚拟服务器位
如何从 Java 程序调用 shell 脚本？

我使用 ubuntu 10 04 和 eclipse 我创建了一个 shell 脚本 exam sh bin bash echo Hello World 使用 chmod 755 exam sh 在命令行上我可以执行 exam sh ok
如何使用 Mailto URL 发送带有主题的邮件？

我需要做一个Mailto link到我的网站该网站应该包含产品名称或产品页面 URLsubject section 我该怎么做 Exp 当您收到一封电子邮件时eBay关于您正在销售或购买的产品通过查看主题部分中的产品名称您会自动知道该
基本 CLI 库“mscorlib”与引用的 F# 核心库二进制不兼容

我建立了一个网站它获取代码片段并编译并运行它们但是 F 在服务器上已损坏每当我尝试编译 F 代码时都会收到以下错误消息引用或默认的基本 CLI 库 mscorlib 与引用的 F 核心库 C Program Files x86 M
使用自定义打印服务进行 Android 打印

我正在尝试编写一个自定义的 Android 打印服务我已按照以下博客中提到的说明进行操作 https github com zaki50 MyPrintServiceProject https github com zaki50 MyPr
仅当在 Windows 7 上编译时，“New ADODB.Connection”上才会出现“无效的过程调用或参数”错误

自从我在 Windows 7 中获得了一台新的开发机器以来当我在 VB6 上编译一些遗留应用程序时我遇到了一些问题我的旧机器运行在 Windows XP 上如果我在我的 XP 机器上编译该项目一切都很好如果我在 Windows
使用 LINQ to SQL 确定主键

我正在编写一个基于 LINQ to SQL 的存储库我希望在其中允许使用 int 参数的 GetByID 签名是 public T GetByID int id Return return dataContext GetTable
jsp中的href标签并通过单击href标签传递数据

这是我的程序
VS Code 快速修复始终给出“没有可用的代码操作”

VS Code 与 Go 的快速修复总是给出没有可用的代码操作无论错误或警告是什么都不会给出任何修复这是我的配置环境问题还是 vscode 错误预期问题任何帮助将不胜感激我在使用鼠标选择快速修复时遇到同样的问题它在win1
如何在沙箱环境中运行JavaScript函数？

我有一个用 JavaScript node js 编写的应用程序服务器我接受 JS 函数代码作为来自 Web 浏览器的输入现在我希望能够在服务器上运行这个功能而不影响其他任何东西我想确保该函数正在修改的所有变量都是该函数的本地变量并
ECS Fargate 自动扩展速度更快？

我正在对我的自动扩展 AWS ECS Fargate 堆栈进行负载测试其中包括目标组指向 ECS 的应用程序负载均衡器 ALB ECS 集群服务任务 ApplicationAutoScaling ScalableTarget 和 A
如何向输入标签添加多个值 - js

我正在尝试捕获多个图像然后保存到数据库中这是js代码 const player document getElementById player const canvas document getElementById canvas con
如何弃用一个论点？

R 中有弃用参数的标准方法吗示例对于 Web API 包我之前包含了一个paging TRUE参数将对所有结果进行分页并下载所有内容现在我想要一个limit相反如果设置为则仅下载所有内容limit 0 这有效地消除了对paging
如何将单个数据网格行 FontWeights 更改为粗体？

当在我的数据网格中选择一行并按下按钮时我想将该行中单元格的 FontWeight 更改为粗体我一直在寻找一种方法来做到这一点但我所能做的就是更改每列的样式我找不到获取所选行或与此相关的任何行的方法我没有可以从 ItemSsou
使用反向迭代器反转 C++ 中的字符串？

我有以下代码但我似乎无法找到一种方法来反转此处的字符串 stringstream convert string y string z convert lt lt x string reverse iterator rit y conver
在 C# 中将数据从 datatable 移动到 datagridview

我有一个 C 程序它从两个不同的数据库文件中选择数据并将所需的数据组合到数据表 dt 中我需要的所有信息都在该数据表中我想将其放入 datagridview 中除了数据表中的信息之外 datagridview 中还有两列当我将每
删除*所有*重复行，除非有“相似”行

我有以下内容data table library data table dt data table c 1 1 1 2 2 2 2 3 4 c 4 4 4 5 5 6 7 4 5 V1 V2 1 1 4 2 1 4 3 1 4 4 2 5

删除*所有*重复行，除非有“相似”行

删除*所有*重复行，除非有“相似”行 的相关文章

随机推荐

热门标签

删除所有重复行，除非有“相似”行

删除所有重复行，除非有“相似”行的相关文章