Bioinformatics

使用 pysam.TabixFile 注释读取的 Python 脚本中的处理速度振荡

最初的问题我正在用 python 3 5 编写一个生物信息学脚本它解析一个大的排序和索引的 bam https samtools github io hts specs SAMv1 pdf表示在基因组上对齐的测序读数的文件将基因组信

python performance python3x Bioinformatics Samtools

接受略有不同的 Snakemake 规则输入（.fq 与 .fq.gz）

我是 Snakemake 的新手希望能够选择一对 fq文件或一对 fq gz文件并运行它们trim galore得到一对修剪过的 fq gz输出文件在不提供所有 Snakefile 的情况下我得到了下面丑陋的解决方案我只是复制了规则

Bioinformatics snakemake

当我从网络运行 CGI 脚本时，为什么 python 找不到某些模块？

我不知道这里可能有什么问题我有一些来自 Biopython 的模块当使用交互式提示或通过命令行执行 python 脚本时我可以轻松导入这些模块问题是当我尝试在 Web 可执行 cgi 脚本中导入相同的 biopython 模块时

python CGI Bioinformatics biopython

如何使 bash 脚本与一个又一个命令一起工作？

我有一个如下所示的 bash 脚本首先它将sorted bam 文件作为输入并使用 stringtie 工具将每个样本gtf 作为输出然后每个样本 gtf 的路径将被赋予到 mergelist txt 中然后对它们使用 strin

Linux bash shell Bioinformatics

Biopython：如何避免蛋白质中的特定氨基酸序列以绘制 Ramachandran 图？

我编写了一个 python 脚本来绘制泛素蛋白的 Ramachandran 图我正在使用biopython 我正在处理 pdb 文件我的脚本如下 import Bio PDB import numpy as np import matp

python Bioinformatics biopython proteindatabase

运行 BLAST (bl2seq) 而不创建序列文件

我有一个执行 BLAST 查询 bl2seq 的脚本该脚本的工作原理如下获取序列a 序列b 将序列a写入文件将序列b写入文件b 运行命令 bl2seq i filea j fileb nblastn 从 STDOUT 获取输出解析

python perl unix shell Bioinformatics

在ggplot2散点图中使用伪彩色来表示密度

有人知道如何创建像屏幕截图中那样的图表吗我试图通过调整 alpha 来获得类似的效果但这会使异常值几乎看不见我只从一个名为 FlowJo 的软件中知道这种类型的图这里他们将其称为伪彩色点图不确定这是否是官方术语我想专门在 gg

r ggplot2 Bioinformatics

使用一组字符而不是一个字符的序列对齐算法

Summary 我从一些有关对齐算法的细节开始最后我提出了我的问题如果您了解对齐算法请从头开始考虑我们有两个字符串例如 ACCGAATCGA ACCGGTATTAAC 有一些算法例如史密斯沃特曼 https en wikip

c Algorithm Bioinformatics sequencealignment

如何将 PHYLIP 格式转换为 FASTA

我刚刚开始使用 perl 我有一个问题我有 PHYLIP 文件我需要将其转换为 FASTA 我开始写剧本首先我删除了行中的空格现在我需要对齐所有行每行应包含 60 个氨基酸并且序列标识符应打印在新行中也许有人可以给我一些建议

perl Bioinformatics

是什么导致 Python 错误“bad escape \C”？

我刚刚编写了一个函数它将查看文本文件并计算文本文件中 True 和 False 的所有实例这是我的文件 ATOM 43 CA LYS A 5 14 038 15 691 37 608 1 00 15 15 C True ATOM 52

python regex Bioinformatics python37

算法帮忙！与其伙伴一起搜索字符串的快速算法

我正在寻找一种用于在巨大字符串中进行搜索的快速算法它是由数亿到数十亿个字符组成的生物体基因组序列该字符串中仅存在 4 个字符 A C G T 并且 A 只能与 T 配对而 C 与 G 配对现在我正在搜索两个可以反向并行配对的子字符串

c Algorithm Bioinformatics

使用 R 分割字符串和计算字符的更快方法？

我正在寻找一种更快的方法来计算从 FASTA 文件读取的 DNA 字符串的 GC 含量这归结为获取一个字符串并计算字母 G 或 C 出现的次数我还想指定要考虑的字符范围我有一个工作函数相当慢它导致我的代码出现瓶颈它看起来像这样 c

Optimization string r Bioinformatics

尽管 pip3 模块安装满意，为什么 R 库“ssw”找不到通过 pip3 安装的 python 模块？

I am on Ubuntu 20 04 1 LTS focal 并使用R 我想在 R 中安装一个库以基于 Smith Waterman 算法但通过更快的实现来执行本地序列比对 The R图书馆是ssw可以在这里找到 https gith

python r configuration pip Bioinformatics

大型 DAG 上的拓扑排序示例

我正在寻找现实世界的应用程序拓扑排序执行于大图 sizes 我想象您可以找到此类实例的一些领域是生物信息学依赖性解析数据库硬件设计数据仓库但我希望你们中的一些人可能遇到或听说过任何需要的特定算法项目应用程序数据集顶排序即使

在 MATLAB 中更改 seqlogo 图形的 x 轴

我正在制作大量seqlogos http www mathworks com access helpdesk help toolbox bioinfo ref seqlogo html以编程方式它们有数百列宽因此运行seqlogo通常会

Java MATLAB plot Bioinformatics

“fasta 文件中序列的平均长度”：你能改进这个 Erlang 代码吗？

我正在尝试获取平均长度快速序列 http en wikipedia org wiki Fasta Sequence using Erlang fasta 文件看起来像这样 gt title1 ATGACTAGCTAGCAGCGATCGACC

string ERLANG Sequence Bioinformatics mean

如何在 Snakemake 表格配置中使用列表，用于描述生物信息学管道的测序单元

如何在 Snakemake 表格配置中使用列表我使用 Snakemake Tabular 与 BWA mem 映射配置来描述我的测序单元在单独的行上测序的文库在分析的下一阶段我必须合并测序单元映射的 bed 文件并获取合并的

python pandas Bioinformatics pipeline snakemake

检查向量中的值是否在不同长度向量的值范围内[重复]

这个问题在这里已经有答案了所以我正在 R 中工作并且有一个大型数据框其中包含一个具有如下基因组位置的向量 2655180 2657176 2658869 第二个数据框具有一系列位置和一个基因如下所示 chr1 100088228 1

r Bioinformatics

将相似的模式合并为单一共识模式

In the 上一篇文章 https stackoverflow com questions 51327765 remove item from list based on the next item in same list 我没有很好地

python list Bioinformatics consolidation

如何从出租车中获取界、门、纲、目、科、属和种的分类学特定 ID？

我有一个出租车列表如下所示 1204725 2162 1300163 420247 我希望从上面的出租车中按顺序获取带有分类 ID 的文件 kingdom id phylum id class id order id family id

Bioinformatics taxonomy phylogeny ncbi etetoolkit