Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
使用 pysam.TabixFile 注释读取的 Python 脚本中的处理速度振荡
最初的问题 我正在用 python 3 5 编写一个生物信息学脚本 它解析一个大的 排序和索引的 bam https samtools github io hts specs SAMv1 pdf表示在基因组上对齐的测序读数的文件 将基因组信
python
performance
python3x
Bioinformatics
Samtools
接受略有不同的 Snakemake 规则输入(.fq 与 .fq.gz)
我是 Snakemake 的新手 希望能够选择一对 fq文件或一对 fq gz文件并运行它们trim galore得到一对修剪过的 fq gz输出文件 在不提供所有 Snakefile 的情况下 我得到了下面丑陋的解决方案 我只是复制了规则
Bioinformatics
snakemake
当我从网络运行 CGI 脚本时,为什么 python 找不到某些模块?
我不知道这里可能有什么问题 我有一些来自 Biopython 的模块 当使用交互式提示或通过命令行执行 python 脚本时 我可以轻松导入这些模块 问题是 当我尝试在 Web 可执行 cgi 脚本中导入相同的 biopython 模块时
python
CGI
Bioinformatics
biopython
如何使 bash 脚本与一个又一个命令一起工作?
我有一个如下所示的 bash 脚本 首先 它将sorted bam 文件作为输入 并使用 stringtie 工具将每个样本gtf 作为输出 然后每个样本 gtf 的路径将被赋予到 mergelist txt 中 然后对它们使用 strin
Linux
bash
shell
Bioinformatics
Biopython:如何避免蛋白质中的特定氨基酸序列以绘制 Ramachandran 图?
我编写了一个 python 脚本来绘制泛素蛋白的 Ramachandran 图 我正在使用biopython 我正在处理 pdb 文件 我的脚本如下 import Bio PDB import numpy as np import matp
python
Bioinformatics
biopython
proteindatabase
运行 BLAST (bl2seq) 而不创建序列文件
我有一个执行 BLAST 查询 bl2seq 的脚本 该脚本的工作原理如下 获取序列a 序列b 将序列a写入文件 将序列b写入文件b 运行命令 bl2seq i filea j fileb nblastn 从 STDOUT 获取输出 解析
python
perl
unix
shell
Bioinformatics
在ggplot2散点图中使用伪彩色来表示密度
有人知道如何创建像屏幕截图中那样的图表吗 我试图通过调整 alpha 来获得类似的效果 但这会使异常值几乎看不见 我只从一个名为 FlowJo 的软件中知道这种类型的图 这里他们将其称为 伪彩色点图 不确定这是否是官方术语 我想专门在 gg
r
ggplot2
Bioinformatics
使用一组字符而不是一个字符的序列对齐算法
Summary 我从一些有关对齐算法的细节开始 最后我提出了我的问题 如果您了解对齐算法 请从头开始 考虑我们有两个字符串 例如 ACCGAATCGA ACCGGTATTAAC 有一些算法 例如 史密斯 沃特曼 https en wikip
c
Algorithm
Bioinformatics
sequencealignment
如何将 PHYLIP 格式转换为 FASTA
我刚刚开始使用 perl 我有一个问题 我有 PHYLIP 文件 我需要将其转换为 FASTA 我开始写剧本 首先 我删除了行中的空格 现在我需要对齐所有行 每行应包含 60 个氨基酸 并且序列标识符应打印在新行中 也许有人可以给我一些建议
perl
Bioinformatics
是什么导致 Python 错误“bad escape \C”?
我刚刚编写了一个函数 它将查看文本文件并计算文本文件中 True 和 False 的所有实例 这是我的文件 ATOM 43 CA LYS A 5 14 038 15 691 37 608 1 00 15 15 C True ATOM 52
python
regex
Bioinformatics
python37
算法帮忙!与其伙伴一起搜索字符串的快速算法
我正在寻找一种用于在巨大字符串中进行搜索的快速算法 它是由数亿到数十亿个字符组成的生物体基因组序列 该字符串中仅存在 4 个字符 A C G T 并且 A 只能与 T 配对 而 C 与 G 配对 现在我正在搜索两个可以反向并行配对的子字符串
c
Algorithm
Bioinformatics
使用 R 分割字符串和计算字符的更快方法?
我正在寻找一种更快的方法来计算从 FASTA 文件读取的 DNA 字符串的 GC 含量 这归结为获取一个字符串并计算字母 G 或 C 出现的次数 我还想指定要考虑的字符范围 我有一个工作函数相当慢 它导致我的代码出现瓶颈 它看起来像这样 c
Optimization
string
r
Bioinformatics
尽管 pip3 模块安装满意,为什么 R 库“ssw”找不到通过 pip3 安装的 python 模块?
I am on Ubuntu 20 04 1 LTS focal 并使用R 我想在 R 中安装一个库 以基于 Smith Waterman 算法但通过更快的实现来执行本地序列比对 The R图书馆是ssw可以在这里找到 https gith
python
r
configuration
pip
Bioinformatics
大型 DAG 上的拓扑排序示例
我正在寻找现实世界的应用程序拓扑排序执行于大图 sizes 我想象您可以找到此类实例的一些领域是生物信息学 依赖性解析 数据库 硬件设计 数据仓库 但我希望你们中的一些人可能遇到或听说过任何需要的特定算法 项目 应用程序 数据集顶排序 即使
在 MATLAB 中更改 seqlogo 图形的 x 轴
我正在制作大量seqlogos http www mathworks com access helpdesk help toolbox bioinfo ref seqlogo html以编程方式 它们有数百列宽 因此运行seqlogo通常会
Java
MATLAB
plot
Bioinformatics
“fasta 文件中序列的平均长度”:你能改进这个 Erlang 代码吗?
我正在尝试获取平均长度快速序列 http en wikipedia org wiki Fasta Sequence using Erlang fasta 文件看起来像这样 gt title1 ATGACTAGCTAGCAGCGATCGACC
string
ERLANG
Sequence
Bioinformatics
mean
如何在 Snakemake 表格配置中使用列表,用于描述生物信息学管道的测序单元
如何在 Snakemake 表格配置中使用列表 我使用 Snakemake Tabular 与 BWA mem 映射 配置来描述我的测序单元 在单独的行上测序的文库 在分析的下一阶段 我必须合并测序单元 映射的 bed 文件 并获取合并的
python
pandas
Bioinformatics
pipeline
snakemake
检查向量中的值是否在不同长度向量的值范围内[重复]
这个问题在这里已经有答案了 所以我正在 R 中工作 并且有一个大型数据框 其中包含一个具有如下基因组位置的向量 2655180 2657176 2658869 第二个数据框具有一系列位置和一个基因 如下所示 chr1 100088228 1
r
Bioinformatics
将相似的模式合并为单一共识模式
In the 上一篇文章 https stackoverflow com questions 51327765 remove item from list based on the next item in same list 我没有很好地
python
list
Bioinformatics
consolidation
如何从出租车中获取界、门、纲、目、科、属和种的分类学特定 ID?
我有一个出租车列表 如下所示 1204725 2162 1300163 420247 我希望从上面的出租车中按顺序获取带有分类 ID 的文件 kingdom id phylum id class id order id family id
Bioinformatics
taxonomy
phylogeny
ncbi
etetoolkit
1
2
3
»