如何加速“独特”数据框搜索

2023-12-24

我有一个数据框,其尺寸为 2377426 行 x 2 列,如下所示:

                   Name                                            Seq
428293 ENSE00001892940:ENSE00001929862 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
431857 ENSE00001892940:ENSE00001883352 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGGAAGTAAATGAGCTGATGGAAGAGC
432253 ENSE00001892940:ENSE00003623668 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGGAAGTAAATGAGCTGATGGAAGAGC
436213 ENSE00001892940:ENSE00003534967 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGGAAGTAAATGAGCTGATGGAAGAGC
429778 ENSE00001892940:ENSE00002409454 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGAGCTGGGAACCTTTGCTCAAAGCTCC
431263 ENSE00001892940:ENSE00001834214 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGAGCTGGGAACCTTTGCTCAAAGCTCC

第一列(名称)中的所有值都是唯一的,但“Seq”列中有许多重复项。 我想要一个仅包含唯一序列和名称的 data.frame。我尝试过独特,但这太慢了。我还尝试订购数据库并使用以下代码:

dat_sorted = data[order(data$Seq),]
    m = dat_sorted[1,]
    x =1;for(i in 1:length(dat_sorted[,1])){if(dat_sorted[i,2]!=m[x,2]){x=x+1;m[x,]=dat_sorted[i,]}}

这又太慢了! 有没有一种更快的方法可以在数据帧的一列中找到唯一值?


data[!duplicated(data$Seq), ]

应该可以解决问题。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何加速“独特”数据框搜索 的相关文章

随机推荐

  • React-Router 的历史对象问题

    我正在使用 React 和 React Router 构建一个非常简单的网页 我已经使用 NPM 安装了最新版本的 React Router 模块 v3 0 0 在我的 index js 文件中编写了 3 个非常简单的路由 import R
  • 休眠关联顺序

    我正在使用 Hibernate 3 2 并使用条件来构建查询 我想为多对一关联添加 排序依据 但我不知道如何做到这一点 我猜 Hibernate 查询最终会看起来像这样 select t1 a t1 b t1 c t2 dd t2 ee f
  • 使用 HTTP POST 时在 URL 中传递参数

    使用POST方法时是否允许通过URL 问号后面 向网页传递参数 我知道它是有效的 无论如何 因为我公司的网络应用程序经常这样做 但我不知道标准是否真正支持它 或者我是否可以依赖这种行为 我正在考虑实现一个 SOAP 请求处理程序 该处理程序
  • 如何使用 SelectedRows 从数据网格视图中获取选定的行数据?

    我有一个在数据网格视图控件中显示的表 用户从控件中选择一行并按下按钮 我需要从该行检索单元格并将它们存储为字符串 究竟如何使用 SelectedRow 方法获取数据 我已经为此工作了几个小时 但我已经束手无策了 这是我尝试过的示例 Data
  • Visual Studio 2015 Update 3 离线安装程序 (ISO) [关闭]

    Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案 在深入研究 Visual Studio IDE 2015 update 3 离线安装程序 又名 ISO 文件 后 我找到了它并分享了该 UR
  • 计算两列之间的时间差

    将因子转换为 POSIXCT 格式 然后应用日期时间格式后 我想获取 2 个 pos1 和 pos2 之间的日期时间差 但是 当我对特定项目执行此操作时 我在控制台中得到了正确的答案 但是当我对整个集合执行操作时 控制台仅输出数字 并且日期
  • 负向前瞻正则表达式

    为什么这不起作用 尝试进行消极的前瞻 我正在尝试从垃圾箱中提取数字 但检疫箱和检查箱除外 当我执行前面带有 的代码时 它会匹配括号中的所有数字 当我删除 时 它不匹配任何内容 您还可以使用 或运算符 在否定的前瞻中 我想要 Quaranti
  • Spring重试找到最后一次重试

    我在用Spring retry 1 2 0 https github com spring projects spring retry blob master README md 重试工作正常 但在我的方法中我想知道重试是否是最后一次重试
  • 选择计数(不同值)返回 1

    我正在设计一个查询SSMS http en wikipedia org wiki SQL Server Management Studio2005 年看起来像这样 SELECT COUNT DISTINCT ColumnName FROM
  • Ace 编辑器:自定义语法错误间距

    只是想知道 是否可以自定义语法错误槽 另外 是否可以突出显示有语法错误的文本 例如下面我试图检查的值myString反对字符串 chetan 但不带引号 现在这是一个语法错误 目前 我们在行号之前的装订线中显示错误 但是是否可以自定义 ac
  • 为什么对于某些文字,instanceof 返回 false?

    foo instanceof String gt false foo instanceof Object gt false true instanceof Boolean gt false true instanceof Object gt
  • 加载词和移动之间的区别?

    有什么区别 ldw r8 0 r4 and mov r8 r4 Load word 说 从内存复制 但是当 load word 从 r4 复制时 它是从寄存器复制而不是从内存复制 对吧 The lw instruction I assume
  • java中基于空格和匹配引号的正则表达式分割字符串

    我有一个字符串 需要根据空间和精确匹配的引号进行拆分 If the string It is fun to write regular expression 分割后我希望结果是 It is fun 来写 regular 表达 我从中得到一些
  • 如何创建一个随机链接到多个网站的按钮?

    我只是想知道如何创建一个按钮 每次单击该按钮时可以将一个人以随机顺序带到多个网站 我不希望这些网站一次全部打开 一次只打开一个 我正在寻找类似于 StumbleUpon 上使用的 stumble 按钮的东西 我计划将此按钮用于我计划创建的工
  • SQL 查询Where 子句为空或匹配(仅返回1)?

    我有一个表 其中的记录结构与此类似 ID角色ID1 空2 153 16 我编写了一个 where 子句来获取如下所示的记录 SELECT from TableX WHERE RoleID 2 OR RoleID IS NULL 这让我得到
  • 生成最终存档时出错:java.io.FileNotFoundException:xxx\bin\resources.ap_不存在

    昨天我安装了一些旧版本google api的 之后一切都出了问题 我创建的每个项目都显示 项目包含错误修复它们 它显示以下错误 生成最终存档时出错 java io FileNotFoundException C xxx maps bin r
  • UILabel 动画不正确

    由于某种原因 UILabel 的文本想要在没有动画的情况下设置其对齐方式 并且我不知道如何使文本与标签的其余部分一起动画 我现在有以下代码 UILabel label UILabel alloc initWithFrame CGRectMa
  • 如何在不重新加载和 # hack 的情况下更改 Windows 位置?

    起初我认为哈希破解是一个要求 但是从 Facebook 最近的更新来看 我不这么认为 最初的 hash hack 我不确定这是否是正确的术语 是通过更改 location hash 可以在 URL 中保存状态而不刷新页面 这被谷歌的应用程序
  • 在 Swift 中转义反斜杠

    我将正则表达式作为字符串值发送到 CloudKit 但它似乎不喜欢它 将 by 然而 一旦我从我的应用程序中获得这个值 我想以其原始形式重新转换它 代替 我不知道如何在 Swift 中管理这种转义字符 因为我什至无法用 a 设置字符串 在我
  • 如何加速“独特”数据框搜索

    我有一个数据框 其尺寸为 2377426 行 x 2 列 如下所示 Name Seq 428293 ENSE00001892940 ENSE00001929862 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA