按序列大小对 fasta 进行排序

2024-05-10

我目前想按序列大小对 hudge fasta 文件（+10**8 行和序列）进行排序。 fasta 是生物学中用于存储序列（遗传或蛋白质）的明确定义的格式：

>id1

序列 1 # 可以位于多行

>id2

序列2

...

我运行了一个提供 tsv 格式的工具：

标识符、长度以及标识符的位置（以字节为单位）。

现在我正在做的是按长度列对这个文件进行排序，然后解析这个文件并使用eek来检索相应的序列，然后将其附加到一个新文件中。

# this fonction will get the sequence using seek
def get_seq(file, bites):  

    with open(file) as f_:
        f_.seek(bites, 0) # go to the line of interest
        line = f_.readline().strip() # this line is the begin of the 
                                     #sequence
        to_return = "" # init the string which will contains the sequence

        while not line.startswith('>') or not line:  # while we do not 
                                                     # encounter another identifiant
        to_return += line
        line = f_.readline().strip()

    return to_return
# simply append to a file the id and the sequence
def write_seq(out_file, id_, sequence):

    with open(out_file, 'a') as out_file:
        out_file.write('>{}\n{}\n'.format(id_.strip(), sequence))

# main loop will parse the index file and call the function defined below
with open(args.fai) as ref:

    indice = 0

    for line in ref:

        spt = line.split()
        id_ = spt[0]
        seq = get_seq(args.i, int(spt[2]))
        write_seq(out_file=args.out, id_=id_, sequence=seq)

我的问题是以下速度真的很慢，这是否正常（需要几天）？我还有其他方法吗？我不是一个纯粹的信息学家，所以我可能会错过一些要点，但我相信索引文件并使用搜索是实现这一目标的最快方法，我错了吗？

似乎为每个序列打开两个文件可能会对运行时间产生很大影响。您可以将文件句柄传递给 get/write 函数而不是文件名，但我建议使用已建立的 fasta 解析器/索引器，如 biopython 或 samtools。这是使用 samtools 的（未经测试的）解决方案：

subprocess.call(["samtools", "faidx", args.i])
with open(args.fai) as ref:

    for line in ref:

        spt = line.split()
        id_ = spt[0]
        subprocess.call(["samtools", "faidx", args.i, id_, ">>", args.out], shell=True)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

Sorting

Bioinformatics

fasta

按序列大小对 fasta 进行排序的相关文章

Spyder 未检测到导入的 python 文件中的更改

我正在使用 Spyder 3 2 4 Python 3 6 Spyder 不会检测导入的 python 文件中的更改例如测试2 py def func return 5 测试1 py import test2 a test2 func
如何调整 Seaborn 箱线图中胡须的大小？

我想在下面的箱线图中使须线更宽 import pandas as pd import numpy as np import seaborn as sns import matplotlib pyplot as plt data pd Dat
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
父子进程之间的通信

我正在尝试创建一个具有一个或多个子进程的 Python 3 程序父进程生成子进程然后继续处理自己的业务有时我想向特定的子进程发送一条消息由其捕获该消息并采取行动此外子进程在等待消息时需要处于非锁定状态它将运行自己的循环来维护服
python中如何对多个条件进行排序？

我有一个包含子列表的列表如下所示 result helo 10 bye 50 yeah 5 candy 30 我想用三个条件来排序首先按子列表索引 2 中的最高整数然后按子列表索引 1 中单词的长度最后按子列表第 1 个索引中的字
重新排列数组键 php [重复]

这个问题在这里已经有答案了我有这个数组 Array 15 gt 13 1 16 gt Mark one answer 19 gt You see a car on the hard shoulder of a motorway with
QDataWidgetMapper；将 TableWidget 映射到模型

我没有找到任何文档显示 QDataWidgetMapper 实际上适用于哪些小部件也没有找到任何使用 QTableWidget 进行映射的实现它绝对适用于 QLineEdit 和 QComboBoxes 它们是输入小部件但是是否可以映
Python zmq SUB 套接字未接收 MQL5 Zmq PUB 套接字

我正在尝试在 MQL5 中设置一个 PUB 套接字并在 Python 中设置一个 SUB 套接字来接收消息我在 MQL5 中有这个 include
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
如何在 MacBook Pro 上的 Docker 容器内运行 tkinter？

我正在尝试运行一个使用以下命令的 python GUI 应用程序tkinter我的 MacBook Pro 上的 docker 容器内的模块所以我安装了XQuartz https www xquartz org 并跟随本教程 https
如何在清除排序描述后删除wpf网格排序箭头

我单击网格标题对列进行排序然后单击重置按钮以通过其集合视图清除排序描述但排序箭头图标仍然保留在标题中如何去除它我在尝试弄清楚如何完全清除网格中的排序时遇到了这个问题感谢 krishnaaditya 回答如何清除标题中的排序箭头
在请求中设置端口

我正在尝试利用cgminer使用 Python 的 API 我对利用requests图书馆我了解如何做基本的事情requests but cgminer想要更具体一点我想缩小 import socket import json sock
使用 Python 绘制 USGS 水文数据甘特图？

我编译了一个数据帧其中包含几个不同流计的 USGS 流数据现在我想创建一个类似的甘特图this https stackoverflow com questions 31820578 how to plot stacked event d
为什么 Collections.counter 这么慢？

我正在尝试解决罗莎琳德的基本问题即计算给定序列中的核苷酸并在列表中返回结果对于那些不熟悉生物信息学的人来说它只是计算字符串中 4 个不同字符 A C G T 出现的次数我期望collections Counter是最快的方法首先
如何重载比较器以使用 UTF-8 和不同区域设置进行排序

我有一个数据集合 Alphabet Zend wiczenia 结果collection sort I get Alphabet Zend wiczenia 如何超载comparator使用 UTF 8 和不同的语言环境进行排序你需要设置
我怎样才能更多地了解Python的内部原理？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我使用Python编程已经有半年多了我对Python内部更感兴趣而不是使用Python开发应用程序
在Javascript中按降序对字符串进行排序（最有效）？

W3Schools 有这个例子 var fruits Banana Orange Apple Mango fruits sort fruits reverse 这是在 Javascript 中按降序对字符串进行排序的最有效方法吗 Updat
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以

随机推荐

Java中的DRY原则[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我一直在读关于DRY https en wikipedia org wiki Don 27t repeat yourself原则虽然看起来
如何使用角度 4 检索两个垫选择中的对象数组

我有一个对象数组每个对象都包含一个对象注释数组字段 id 0 name aa notes id 0 xx 14 id 1 xx 12 id 1 zz 9 id 2 name bb notes id 0 xx 7 id 1 xx 17 id
C# 事务中的事务

我正在使用 C 将发票的平面文件导入到数据库中如果遇到问题我将使用 TransactionScope 回滚整个操作这是一个棘手的输入文件因为一行不一定等于一条记录它还包括链接记录发票将包含标题行行项目和总计行有些发票需要跳过
空白/冷融合

停止 ColdFusion 输出空白的正确方法是什么我知道有cfcontent and cfsetting enableCFoutputOnly 这样做的正确方法是什么此外
如何在javascript中删除一组表情符号中的最后一个表情符号？

假设我的字符串中有 3 个表情符号字符串中没有任何空格或除表情符号之外的任何其他字符如何删除javascript中最后一个表情符号下面的答案不使用任何特殊的包并安全地删除最后一个表情符号 function safeEmojiBacks
如何在 Keras 中使用部分输入进行训练，其余部分用于损失函数

我是 Keras 新手正在尝试实现神经网络机器学习模型输入张量看起来像 X1 X2 和输出 Y 注意 X1 和 X2 是相关的在模型中只有 X1 将用于训练但 X1 和 X2 都将传递给损失函数该损失函数是 X1 X2 y pr
使用外部硬盘写入和存储 mysql 数据库

我已经设置了 mysql 数据库在我的 Mac 上使用 java 和 eclipse 运行它运行得很好但现在我将生成大约 43 亿行数据这将占用大约 64GB 的数据我存储了大量的密钥和加密值我有一个 1TB 外部我想用作存储位置
启动 onclick 比使用 document.onload 更快

我有带有链接的 html 页面我想在其中附加一个功能onclick事件一种方法当然是 a href save php Save a 但我知道这不是最佳做法所以我反而等待window onload 循环遍历链接并将保存功能附加到链接re
自定义函数错误：“表达式不能在计算列中使用”

在 Access 2010 中我尝试在计算列中使用自定义 VBA 函数我得到表达式不能在计算列中使用这是我的步骤启动 Access 2010 创建一个新的数据库 DB 创建一个包含文本列 Column1 的表 Table1 在 C
如何使用 Kryonet 通过网络发送对象？

我是网络新手我正在尝试将我使用 java 创建的棋盘游戏联网我的一个朋友向我推荐了 Kryonet 库到目前为止一切都很棒我不必处理套接字我遇到的问题是发送对象主要是我有一个 Board 类型的对象该对象包含其他对象例如
Gitlab CI - 如何启动 Shared Runner

我是 Gitlab CI 的新手我已经配置了 gitlab ci yml 文件并使用 CI Lint 它已经通过了验证过程基于此文档 https gitlab com help ci quick start README 我可以看到应
公共基类打破了元组的空基类优化

gcc 4 7 1 对元组进行空基类优化我认为这是一个非常有用的功能然而这似乎有一个意想不到的限制 include
通用 JSF 实体转换器[重复]

这个问题在这里已经有答案了我正在编写我的第一个 Java EE 6 Web 应用程序作为学习练习我没有使用框架只是使用 JPA 2 0 EJB 3 1 和 JSF 2 0 我有一个自定义转换器用于将存储在 SelectOne 组件中
BrowserKit 组件不可用

当我尝试启动功能测试时出现错误 BrowserKit 组件不可用 php bin phpunit usr bin env php PHPUnit 6 5 14 by Sebastian Bergmann and contributors T
如何在 C# 中创建 PKCS12 .p12 文件？

这可能是一个n00b问题但我在这方面确实没有任何经验我需要创建一个包含 X509 证书和私钥的 p12 捆绑包我当前有两个对象 X509Certificate2 和包含关键信息的 RSAParameters 对象如何将它们合并到 p
使用 MailTo 链接，我可以向发件人发送副本吗？

我们开发了一个非常简单的表单一旦提交就会填充一封电子邮件以发送支持票证这些电子邮件目前发送给我们的支持人员但如果我们也能向发件人发送一份副本那就更理想了我们正在使用 mailto 链接这可能吗例如我们的员工 Brad 填
如何使用注释和聚合在 Django 的 ORM 中执行此 GROUP BY 查询

我真的不知道如何翻译GROUP BY and HAVING到姜戈的QuerySet annotate and QuerySet aggregate 我正在尝试将这个 SQL 查询转换为 ORM 语言 SELECT EXTRACT year
如何在控制器中使用多个 DBContext

如何在控制器中使用多个 DBContext 我尝试以不同的方式重载构造函数一些控制器 public C1 DBContext1 a DBContext2 b DBContext3 c public C1 DBContext1 a publ
tomcat 8 无法在自由端口上启动

PROBLEM 通过 Windows 服务停止 gt 启动 tomcat 8 失败因为 tomcat 关闭不知何故以不可见状态继续侦听端口 8080 并且 tomcat 无法启动因为它无法绑定到端口 8080 背景我们的一个构建脚
按序列大小对 fasta 进行排序

我目前想按序列大小对 hudge fasta 文件 10 8 行和序列进行排序 fasta 是生物学中用于存储序列遗传或蛋白质的明确定义的格式 gt id1 序列 1 可以位于多行 gt id2 序列2 我运行了一个提供 tsv 格式

按序列大小对 fasta 进行排序

按序列大小对 fasta 进行排序 的相关文章

随机推荐

热门标签

按序列大小对 fasta 进行排序的相关文章