查找行 NA 的数据框中的唯一性？

2023-12-08

我有一个如下所示的数据框。我想找到唯一的行（唯一性）。但在这个数据中我有“NA”。我喜欢如果一行中具有 NA 值的所有值与其他行相同（如行：1,2,5），我想忽略它，但如果不相同（如行：2,4），我喜欢保留它作为唯一行。例如，在第 1、2 和 6 行中，除 NA 之外的所有值都相同，因此因为 NA 可以是值“1 和 3”，所以我喜欢删除此行并仅保留第 2 行。此外，第 6 行中的值 2 和 3（不包括 NA）与行 c2 和 c5 相同，并且 c6 中的 NA 可能获得与 c2 和 c5 相同的值，因此该行不是唯一的。

另外，@Sotos 解决方案对我有更多帮助，但在最后一部分中，在为行创建模式时删除 NA 后，他的解决方案考虑 c8 和 c6 的相同模式 (23) 并删除它们。但实际上c8是独一无二的。

data:

      a1  a2   a3   a4
c1    2    1    3   NA
c2    2    1    3    3
c3    2    1    4    3
c4    2    2    3   NA
c5    2    1    3    3
c6    2    NA   3   NA
c7    2    NA   0   NA
c8    2    3   NA   NA

我想要这样的输出：

output:

     a1    a2  a3   a4
c2    2    1    3    3
c3    2    1    4    3
c4    2    2    3   NA
c7    2    NA   0   NA
c8    2    3   NA   NA

library(stringr) 
df <- unique(df)
#paste rows omitting NAs
df$new <- apply(df, 1, function(i) paste(na.omit(i), collapse = ''))
#use str_detect to determine whether each pattern is found more than once
df$new2 <- rowSums(sapply(df$new, function(i) str_detect(i, df$new)))
new_df <- subset(df, df$new2 == 1)
new_df <- new_df[, !names(new_df) %in% c('new', 'new2')]
new_df
#   V2 V3 V4 V5
#2  2  1  3  3
#3  2  1  4  3
#4  2  2  3 NA

根据您的评论，使用附加行测试代码：

new_df
#   a1 a2 a3 a4
#c2  2  1  3  3
#c3  2  1  4  3
#c4  2  2  3 NA
#c7  2 NA  0 NA

DATA

dput(df)
structure(list(a1 = c(2L, 2L, 2L, 2L, 2L, 2L, 2L), a2 = c(1L, 
1L, 1L, 2L, 1L, NA, NA), a3 = c(3L, 3L, 4L, 3L, 3L, 3L, 0L), 
    a4 = c(NA, 3L, 3L, NA, 3L, NA, NA)), .Names = c("a1", "a2", 
"a3", "a4"), class = "data.frame", row.names = c("c1", "c2", 
"c3", "c4", "c5", "c6", "c7"))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

查找行 NA 的数据框中的唯一性？的相关文章

在 R 中，如何获得某些向量值的所有可能组合？

背景我有一个需要一些参数的函数我想要获得所有可能的参数组合的函数结果一个简化的例子 f lt function x y return paste x y sep colors c red green blue days c Monda
使用 Rgraphviz 中的 pos 参数来固定节点位置

基于这个问题当弧与另一弧重叠时自动弯曲 https stackoverflow com questions 45721802 automatically curving an arc when it is overlapping with
通过（单子）join 和 fmap 进行终止检查替换

我正在使用大小类型并且有一个用于键入术语的替换函数如果我直接给出定义则终止检查但如果我通过单子连接和 fmap 对其进行分解则不会进行终止检查 OPTIONS sized types module Subst where op
将 Excel 数字日期重新格式化为 R 日期

希望将从 Excel 中提取的列重新格式化为包含数字 Excel 格式例如 40182 的数据框 as date 40182 origin 1899 12 30 format b Y Returns 1 2070 年 1 月 5 日我正
确定列的累积最大值

我正在尝试以下代码 df pd DataFrame 23 52 36 49 52 61 75 82 97 12 columns A B df C np where df A gt df C shift df A df C shift pri
data.table 相当于 dplyr::filter_at

考虑数据 library data table library magrittr vec1 lt c Iron Copper vec2 lt c Defective Passed Error set seed 123 a1 lt sampl
Dataframe unstack 性能 - pandas

我正在尝试拆开数据框它工作正常但问题是我正在处理 CSV 文件中的巨大数据集约 10 亿这是示例数据集 236539 48512569874 Name Danny 236539 48512569874 Class 12 236539
对 data.table 进行子集化的最快方法是什么？

在我看来这是执行行列子集的最快方法data table是使用 join 和nomatch option 它是否正确 DT data table rep 1 100 100000 rep 1 10 1000000 setkey DT V1
为什么表达式“1”==1 的计算结果为 TRUE？ [复制]

这个问题在这里已经有答案了 1 是字符值其他1是数字甚至当我尝试在下面执行时它给了我 TRUE as character 0 as numeric 0 谁能帮助我理解为什么来自help 如果两个参数是不同类型的原子向量则其中一
将多个函数应用于一个向量

我正在寻找一种将多个函数应用于一个向量的选项我认为这对于逆应用函数来说是一种仁慈其中一个函数应用于许多向量或列有没有办法指定两个或多个函数例如 min 和 max 并将其应用于向量与 CathG的评论类似但没有get v lt
正则表达式在 R 中同时多次包含字母/特殊字符时删除单词

我想删除那些单词中字母特殊字符的数量同时出现两次以上的单词例如输入就像 Google in theee lland of whhhat c c and e 输出应该是 Google in lland of c c and x lt G
为什么在 R 中绘图时，hovertemplate 无法正确显示某些数据点

mydat2 lt data frame subject c math english chemistry score c 80 50 65 class c A B A count c 50 60 70 library plotly plo
如何使用 Rrank() 函数创建新的ties.method？ [复制]

这个问题在这里已经有答案了我试图按人口和日期排序这个数据框所以我使用order and rank 功能 gt df lt data frame idgeoville c 5 8 4 3 4 5 8 8 date c rep 1950 4
有没有一种明智的方法可以在 R 中执行诸如文档字符串之类的操作？

这不仅仅是一个编码风格问题如果您了解 python 我认为 Ruby 也有类似的东西您可以在函数中拥有文档字符串这样您就可以通过发出 help 命令轻松获取该字符串例如 def something t None Do somethi
包什么时候需要为它自己的对象使用 :::

考虑这个 R 包有两个函数一个是导出函数另一个是内部函数 hello R export hello lt function internalFunctions hello internal 你好内部 R hello internal
缩放geom_密度以将geom_bar与y上的百分比相匹配

因为我对数学感到困惑上次我尝试问这个问题 https stackoverflow com questions 32412805 ggplot2 histogram with density curve that sums to 1 这是另一
使用 sprintf 打印换行符 - 有光泽

我试图在打印时进行换行这是我的代码 temp lt LETTERS 1 11 print sprintf Rank s s n 1 11 temp output 1 Rank 1 A n Rank 2 B n Rank 3 C n Ran
如何获取pandas中groupby对象中的组数？

我想知道有多少个独特的组需要执行计算给定一个名为 groupby 的对象dfgroup 我们如何找到组的数量简单快速 Pandaic ngroups 较新版本的 groupby API pandas gt 0 23 提供了此未记录的
使用 alpha 通道叠加两个 ggplot2 stat_密度2d 图

我想叠加两个ggplot2使用 alpha 通道进行绘图结果图像显示两个数据集这是我的测试数据 data read table text P1 1 0 4 nP2 0 0 2 nP3 2 1 8 nP4 2 2 6 nP5 0 5 2
将 r 中的一列从出生日期更改为年龄

我是第一次使用 data table 我的表中有大约 400 000 个年龄的列我需要将它们从出生日期转换为年龄做这个的最好方式是什么我一直在思考这个问题到目前为止对这两个答案都不满意我喜欢用lubridate 就像 KFB 所做

随机推荐

Swift - 移动到另一个场景时如何从场景中删除滑动手势？

所以我的游戏使用滑动手势在我的 didMoveToView 函数中我初始化了这些手势 let swipeRight UISwipeGestureRecognizer swipeRight direction UISwipeGestureR
Visual Studio 2017：在类库项目中嵌套文件

在 Web 项目中您可以选择嵌套文件 startup cs startup internals cs startup configuration cs 有什么方法可以在类库项目中实现相同的行为吗更新部分解决好的我知道了您需要了解
NoReverseMatch - Django 1.7 初学者教程

我正在遵循 Django 1 7 1 中的初学者教程并收到此错误 Reverse for vote with arguments 5 and keyword arguments not found 0 pattern s tried pol
为什么朴素素性测试算法不是多项式

我想了解为什么以下朴素素性测试算法不是多项式 IsPrime n an integer Begin For i 2 to n 1 do If n i 0 then return no EndIf EndFor return yes End
如何在 iOS 7 上以兼容模式调试应用程序？

所以 iOS 7发布了我们很多用户已经升级了尽管我们官方不支持iOS 7 并要求大家不要升级目前该应用程序以兼容模式运行我们的用户报告了很多问题问题是我不知道如何在兼容模式下调试所以其中一些问题确实很难修复我尝试用谷歌搜索它
Android JNI 从 Java 类获取两个字段

在发布任何代码或任何内容之前让我解释一下我要实现的目标我想做的是从资产文件夹中获取加载着色器并传递一组PongDroidShader对象转换为 C 以便它可以编译和加载它们在我的 Java 类中我有一个函数它会遍历着色器文件夹中
使用 SQL Server LIKE 模式搜索“全字匹配”

有谁有LIKE仅匹配整个单词的模式它需要将空格标点符号和字符串的开头结尾考虑为单词边界我没有使用 SQL 全文搜索因为它不可用我认为在以下情况下没有必要进行简单的关键字搜索LIKE应该能够做到这一点但是如果有人测试过全文搜索
Haskell：更快的素数求和

免责声明我正在研究欧拉问题 9 我正在将一些相当大的数字相加所有从 1 到 2 000 000 的素数对这些素数求和需要很长时间我正在使用 haskell 内置函数 sum as in sum listOfPrimes 还有其他更快
具有相同 nuget 包的项目引用不同版本的程序集

我快要疯了我希望这是我忽略的事情我正在经历间歇性的FileLoadExceptions 即使代码在部署之间发生变化它们也会在部署后显示不更改任何程序集引用看看最近的例子我看到了FileLoadException due to Sy
无需 GUI 即可运行 Electron

我看到这个问题已被询问但该问题的上下文不同因此没有与我的用例相关的答案因此我提出一个新问题我有一个基于 Electron 的 Web 服务器它适用于不习惯命令行的网络开发新手学生和艺术家是的这是一个很大的争论但我被加州大学洛
为什么我的应用程序无法在 Xcode 8 beta (8S128d) 中运行

这是一个会影响许多应用程序的问题可以在 Xcode 8 beta 8S128d 中找到这是第一个 Beta 版尽管它没有标记为 beta 1 问题出在 NSUserDefaults 上它不起作用这是代码也许可以将其放入appli
Python：（显式）字符串参数会损害性能吗？

假设某个函数总是获取一些它不使用的参数 def someFunc s do something not using s for example a 1 现在考虑这个电话 someFunc the unused string 它给出一个字符串
DbNull.Value 和 DbNull.Value.ToString() 之间的区别

我想知道哪种用法是正确的 if string IsNullOrEmpty parentID cmd Parameters Add new SqlParameter ParentSesID parentID else cmd Paramete
将用于生成电子邮件的 PHP 脚本转换为使用表单中的变量行

我正在使用 PHP 脚本根据表单中的信息生成电子邮件该表单的行数可变我已将表单中每行的输入名称转换为数组方法是添加名称后以便所有行中的数据都可用于生成电子邮件但是我不知道该怎么做是如何构建 PHP 以便它可以生成一封电子邮件
WinForms 文本框中的按钮

WinForms 文本框是否具有任何可以在框末尾嵌入按钮的属性就像 Chrome 地址框上的收藏夹按钮一样我还在某些 Excel 表单中看到类似以下内容 EDIT 我按照 Hans Passant 的回答添加了一个点击事件处理程序它似
多个处理程序附加到一个事件：如何仅分离一个？

在我正在处理的这个模块中我有一个监听窗口中调整大小事件的监听器每次运行模块时我都需要检查是否已经有一个侦听器注册到该事件并将其分离以避免出现不需要的行为内存泄漏等到目前为止一切顺利但是在我们正在开发的这个应用程序中有可
Rails 多列上的唯一索引失败（sqlite3）

我使用 Rails 设置了一个 HATBM 模型其中包含一个用户表一个组表和一个用于连接的 groups users 所有这些都使用scaffold 命令现在我想添加一个迁移以在表 groups users 的 group id 和
为什么IDIV为-1会导致浮点异常？

据我了解 idiv ebx将分裂edx eax 按顺序连接成 64 位值与 32 位ebx 然而当我尝试划分时0x00000000 0xfffffffb 0 和 5 与0xffffffff 1 我得到一个浮点异常有人可以解释为什么吗
将 PHP/MySQL 数据拆分为 3 列

我需要使用从 MySQL 返回的数据在 PHP 中创建 3 个 HTML 列我希望数据在所有 3 列之间均匀分配我将如何做到这一点你可以尝试做这样的事情 result mysql query SELECT value FROM tab
查找行 NA 的数据框中的唯一性？

我有一个如下所示的数据框我想找到唯一的行唯一性但在这个数据中我有 NA 我喜欢如果一行中具有 NA 值的所有值与其他行相同如行 1 2 5 我想忽略它但如果不相同如行 2 4 我喜欢保留它作为唯一行例如在第 1 2 和 6

查找行 NA 的数据框中的唯一性？

查找行 NA 的数据框中的唯一性？ 的相关文章

随机推荐

热门标签

查找行 NA 的数据框中的唯一性？的相关文章