如何加速“独特”数据框搜索

2023-12-24

我有一个数据框，其尺寸为 2377426 行 x 2 列，如下所示：

                   Name                                            Seq
428293 ENSE00001892940:ENSE00001929862 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
431857 ENSE00001892940:ENSE00001883352 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGGAAGTAAATGAGCTGATGGAAGAGC
432253 ENSE00001892940:ENSE00003623668 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGGAAGTAAATGAGCTGATGGAAGAGC
436213 ENSE00001892940:ENSE00003534967 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGGAAGTAAATGAGCTGATGGAAGAGC
429778 ENSE00001892940:ENSE00002409454 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGAGCTGGGAACCTTTGCTCAAAGCTCC
431263 ENSE00001892940:ENSE00001834214 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGAGCTGGGAACCTTTGCTCAAAGCTCC

第一列（名称）中的所有值都是唯一的，但“Seq”列中有许多重复项。我想要一个仅包含唯一序列和名称的 data.frame。我尝试过独特，但这太慢了。我还尝试订购数据库并使用以下代码：

dat_sorted = data[order(data$Seq),]
    m = dat_sorted[1,]
    x =1;for(i in 1:length(dat_sorted[,1])){if(dat_sorted[i,2]!=m[x,2]){x=x+1;m[x,]=dat_sorted[i,]}}

这又太慢了！有没有一种更快的方法可以在数据帧的一列中找到唯一值？

data[!duplicated(data$Seq), ]

应该可以解决问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

performance

Search

unique

如何加速“独特”数据框搜索的相关文章

在 R 上安装 TDA 包时出错：目标“diag.o”的配方失败

使用 Ubuntu 16 04 和 R 3 4 1 安装 R 包 TDA 时收到错误消息它似乎与制作 CGAL diag cpp 和或 diag o 最后的完整错误打印输出有关我仔细看了这个在 R 上安装 TDA 包时出错 htt
TypeScript 编译速度极慢 > 12 秒

只是把它放在那里看看其他人是否也遇到这个问题我已经使用 webpack 作为我的构建工具使用 typescript 构建了一个 Angular 2 应用程序一切都运行良好但是我注意到 typescript 编译超级超级慢我现在只有
C++ Exp 与 Log：哪个更快？

我有一个 C 应用程序需要比较两个值并决定哪个值更大唯一的复杂之处是一个数字在对数空间中表示而另一个则不是例如 double log num 1 log 1 23 double num 2 1 24 如果我想比较num 1 and
我如何查看 quantmod 包中所有可用的数据系列？

如何显示可用的所有报价数据系列的列表例如使用雅虎的 getSymbols 我不知道有什么办法 TTR包有一个功能 stockSymbols 下载 NYSE AMEX 和 NASDAQ 的所有当前代码它试图将它们采用雅虎可接受的格式但
获取包含矩阵行内最大值的列名称，该矩阵在数组内包含单独的最大值

例如给出 dim1 lt c P PO C T dim2 lt c LL RR R Y dim3 lt c Jerry1 Jerry2 Jerry3 Q lt array 1 48 c 4 4 3 dimnames list dim1 di
在 MySQL 数据库中保持 TEXT 字段唯一的最佳方法

我想让 TEXT 字段的值在我的 MySQL 表中唯一经过小型研究我发现由于性能问题每个人都不鼓励在 TEXT 字段上使用 UNIQUE INDEX 我现在想用的是 1 创建另一个字段来包含 TEXT 值的哈希值 md5 text v
R：改变堆积条形图的颜色

library ggplot2 df2 lt data frame supp rep c VC OJ each 3 dose rep c D0 5 D1 D2 2 len c 6 8 15 33 4 2 10 29 5 head df2 g
使用data.table进行聚合

经过 SO 用户的多次建议后我终于尝试将我的代码转换为使用data table library data table DT lt data table plate paste0 plate rep 1 2 each 5 id rep c
如何在R中分离两个图？

每当我运行这段代码时第一个图就会简单地覆盖前一个图 R中有没有办法分开得到两个图 plot pc title main abc xlab xx ylab yy plot pcs title main sdf xlab sdf ylab x
如何清除 APC 缓存而不使 Apache 崩溃？

如果 APC 存储大量条目清除它们会导致 httpd 崩溃如果 apc clear cache user 花费的时间超过 phps max execution time 调用 apc clear cache 的脚本将在之前被 php
rpart 决策树中的 rel 误差和 x 误差有什么区别？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个来自 UCI 机器学习数据库的纯分类数据框https archive ics uci edu ml datasets Diabet
比较两个 numpy 数组的最快方法

我有两个数组 gt gt gt import numpy as np gt gt gt a np array 2 1 3 3 3 gt gt gt b np array 1 2 3 3 3 无论顺序如何比较这两个数组的元素是否相等的最快方
如何在 foreach( ... , .packages="pkg") %dopar% 中指定 R 包的位置

我的包安装在其他地方我如何告诉 foreach 在哪里可以找到该包 foreach i 1 2 packages pkg dopar 这给我错误消息 worker initialization failed there is no p
如何使用 ggplotGrob 创建自定义图例？

我发布了一个question https stackoverflow com questions 29174774 how to create legend text elements being different colours in
R：根据列名部分匹配计算行平均值

我有一个看起来像这样的表 er er 1 as as 1 as 2 rt op a 1 6 90 8 6 4 87 b 1 8 56 7 5 5 9 c 8 7 6 4 5 9 6 d 1 0 8 6 4 3 6 e 9 7 2 4 3 8
如何在 R 中 fork 进程

我试图了解 R 多核包实现的分叉系统包的例子是 p lt fork if inherits p masterProcess cat I m a child Sys getpid n exit I was a child cat I m t
Laravel 上传前如何压缩图像？

我正在制作一个图片库网站用户可以在其中上传任何图像它们将显示在前端我需要在不影响图像质量的情况下压缩图像以减小图像大小以便页面加载速度不会影响那么大我使用以下代码来上传图像 rules array file gt require
选中复选框时提交表单

有没有办法在选中复选框时提交表单
如何将 Browserify 与外部依赖项一起使用？

我正在尝试慢慢地将 Browserify 引入我的网站但我不想重写所有 js 也不希望 jquery 和其他库的重复实例与我的 Browserify 版本捆绑在一起如果我构建将 jquery 列为外部依赖项的模块那么如何将其指向我的全
用于标签搜索的数据存储解决方案

我已经按照预先计算的分数订购了数百万件商品每个项目都有许多布尔属性假设总共有大约一万个可能的属性每个项目有十几个我希望能够请求实时几毫秒给定任意属性组合的前 n 个项目您会推荐什么解决方案我正在寻找可扩展性极强的东西我们目

随机推荐

React-Router 的历史对象问题

我正在使用 React 和 React Router 构建一个非常简单的网页我已经使用 NPM 安装了最新版本的 React Router 模块 v3 0 0 在我的 index js 文件中编写了 3 个非常简单的路由 import R
休眠关联顺序

我正在使用 Hibernate 3 2 并使用条件来构建查询我想为多对一关联添加排序依据但我不知道如何做到这一点我猜 Hibernate 查询最终会看起来像这样 select t1 a t1 b t1 c t2 dd t2 ee f
使用 HTTP POST 时在 URL 中传递参数

使用POST方法时是否允许通过URL 问号后面向网页传递参数我知道它是有效的无论如何因为我公司的网络应用程序经常这样做但我不知道标准是否真正支持它或者我是否可以依赖这种行为我正在考虑实现一个 SOAP 请求处理程序该处理程序
如何使用 SelectedRows 从数据网格视图中获取选定的行数据？

我有一个在数据网格视图控件中显示的表用户从控件中选择一行并按下按钮我需要从该行检索单元格并将它们存储为字符串究竟如何使用 SelectedRow 方法获取数据我已经为此工作了几个小时但我已经束手无策了这是我尝试过的示例 Data
Visual Studio 2015 Update 3 离线安装程序 (ISO) [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案在深入研究 Visual Studio IDE 2015 update 3 离线安装程序又名 ISO 文件后我找到了它并分享了该 UR
计算两列之间的时间差

将因子转换为 POSIXCT 格式然后应用日期时间格式后我想获取 2 个 pos1 和 pos2 之间的日期时间差但是当我对特定项目执行此操作时我在控制台中得到了正确的答案但是当我对整个集合执行操作时控制台仅输出数字并且日期
负向前瞻正则表达式

为什么这不起作用尝试进行消极的前瞻我正在尝试从垃圾箱中提取数字但检疫箱和检查箱除外当我执行前面带有的代码时它会匹配括号中的所有数字当我删除时它不匹配任何内容您还可以使用或运算符在否定的前瞻中我想要 Quaranti
Spring重试找到最后一次重试

我在用Spring retry 1 2 0 https github com spring projects spring retry blob master README md 重试工作正常但在我的方法中我想知道重试是否是最后一次重试
选择计数（不同值）返回 1

我正在设计一个查询SSMS http en wikipedia org wiki SQL Server Management Studio2005 年看起来像这样 SELECT COUNT DISTINCT ColumnName FROM
Ace 编辑器：自定义语法错误间距

只是想知道是否可以自定义语法错误槽另外是否可以突出显示有语法错误的文本例如下面我试图检查的值myString反对字符串 chetan 但不带引号现在这是一个语法错误目前我们在行号之前的装订线中显示错误但是是否可以自定义 ac
为什么对于某些文字，instanceof 返回 false？

foo instanceof String gt false foo instanceof Object gt false true instanceof Boolean gt false true instanceof Object gt
加载词和移动之间的区别？

有什么区别 ldw r8 0 r4 and mov r8 r4 Load word 说从内存复制但是当 load word 从 r4 复制时它是从寄存器复制而不是从内存复制对吧 The lw instruction I assume
java中基于空格和匹配引号的正则表达式分割字符串

我有一个字符串需要根据空间和精确匹配的引号进行拆分 If the string It is fun to write regular expression 分割后我希望结果是 It is fun 来写 regular 表达我从中得到一些
如何创建一个随机链接到多个网站的按钮？

我只是想知道如何创建一个按钮每次单击该按钮时可以将一个人以随机顺序带到多个网站我不希望这些网站一次全部打开一次只打开一个我正在寻找类似于 StumbleUpon 上使用的 stumble 按钮的东西我计划将此按钮用于我计划创建的工
SQL 查询Where 子句为空或匹配（仅返回1）？

我有一个表其中的记录结构与此类似 ID角色ID1 空2 153 16 我编写了一个 where 子句来获取如下所示的记录 SELECT from TableX WHERE RoleID 2 OR RoleID IS NULL 这让我得到
生成最终存档时出错：java.io.FileNotFoundException：xxx\bin\resources.ap_不存在

昨天我安装了一些旧版本google api的之后一切都出了问题我创建的每个项目都显示项目包含错误修复它们它显示以下错误生成最终存档时出错 java io FileNotFoundException C xxx maps bin r
UILabel 动画不正确

由于某种原因 UILabel 的文本想要在没有动画的情况下设置其对齐方式并且我不知道如何使文本与标签的其余部分一起动画我现在有以下代码 UILabel label UILabel alloc initWithFrame CGRectMa
如何在不重新加载和 # hack 的情况下更改 Windows 位置？

起初我认为哈希破解是一个要求但是从 Facebook 最近的更新来看我不这么认为最初的 hash hack 我不确定这是否是正确的术语是通过更改 location hash 可以在 URL 中保存状态而不刷新页面这被谷歌的应用程序
在 Swift 中转义反斜杠

我将正则表达式作为字符串值发送到 CloudKit 但它似乎不喜欢它将 by 然而一旦我从我的应用程序中获得这个值我想以其原始形式重新转换它代替我不知道如何在 Swift 中管理这种转义字符因为我什至无法用 a 设置字符串在我
如何加速“独特”数据框搜索

我有一个数据框其尺寸为 2377426 行 x 2 列如下所示 Name Seq 428293 ENSE00001892940 ENSE00001929862 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

如何加速“独特”数据框搜索

如何加速“独特”数据框搜索 的相关文章

随机推荐

热门标签

如何加速“独特”数据框搜索的相关文章