Snakemake：将多个输入用于具有多个子组的一个输出的规则

2024-06-19

我有一个工作管道，用于下载、比对和对公共测序数据执行变体调用。问题是它目前只能在每个样本的基础上工作（i.e作为每个单独测序实验的样本）。如果我想对一组实验（例如样本的生物和/或技术复制）执行变体调用，则它不起作用。我试图解决它，但我无法让它发挥作用。

这是对齐规则的简化：

rule alignment:
    input:
        rules.download.output.fastq
    output:
        '{group}/alignment/{sample}.bam'
    shell:
        "bash scripts/02_alignment.sh {wildcards.group} {wildcards.samples}"

对于变体调用也是如此：

rule variant_calling:
    input:
        rules.alignment.output
    output:
        '{group}/variants/{sample}.vcf.gz'
    shell:
        "bash scripts/03_variant_calling.sh {wildcards.sample} {wildcards.group}"

这工作得很好，因为有一个.vcf为每个对齐生成的文件.bam文件。但我想做的是生成一个.vcf任意数量的文件.bam文件。我有一个pandas包含所有的数据框sample名称及其对应的group。我基本上想改变output第二条规则为'{group}/variants/{group}.vcf'，但我所做的一切都在某种程度上失败了。

我的想法是提供与所有每组对齐的规则.bam文件作为输入，然后只需为它运行的脚本提供它们所在的目录。问题是我找不到一种方法以这种按组的方式提供输入：要么我给出每个样本（作为工作管道），要么我给出所有.bam每个组变体调用的文件，无论它们实际属于哪个组。我不能只使用通配符，因为{sample}最后的输出中不存在通配符。我也尝试使用函数作为输入，但这会导致与上面相同的问题。

问题的关键似乎是分组的层次：如果我想对所有对齐的执行变体调用.bam数据集中的文件作为一个整体，可能会很好地工作，给出我上面提到的问题。问题在于整个数据集的子组：

  sample1      sample2             sample1      sample2      sample3
     |            |                   |            |            |
     |            |                   |            |            |
     --------------                   ---------------------------
            |                                      |
            |                                      |
          group1                                 group2

关于如何解决这个问题有什么想法吗？

您必须使用某种结构来将样本分组：

GROUPS = {
    "group1":["sample1","sample2"],
    "group2":["sample1","sample2","sample3"]
}

然后是这样的：

rule all:
    input:
         expand("{group}/variants/{group}.vcf.gz", group=list(GROUPS.keys()))

rule alignment:
    input:
        rules.download.output.fastq
    output:
        '{group}/alignment/{sample}.bam'
    shell:
        "bash scripts/02_alignment.sh {wildcards.group} {wildcards.samples}"

rule variant_calling:
    input:
        lambda wildcards: expand("{group}/alignment/{sample}.bam", group=wildcards.group, sample=GROUPS[wildcards.group]
    output:
        '{group}/variants/{group}.vcf.gz'
    shell:
        "bash scripts/03_variant_calling.sh {input} {output}"

当然，有些规则是您没有展示的，但我想您会明白的！

规则variant_calling中的shell命令可能很难处理，但您始终可以将目录定义为参数，例如：

params: groupAlignDir = "{group}/alignment"

并在 shell 中使用它：

"bash scripts/03_variant_calling.sh {params.groupAlignDir} {output}"

并获取脚本“variant_calling.sh”目录中的所有 bam 文件

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Snakemake：将多个输入用于具有多个子组的一个输出的规则的相关文章

以清晰的方式在 1 个轴上显示 3 个直方图 - matplotlib

我生成了 3 组数据它们以 numpy 数组的形式组织我有兴趣将这三组数据的概率分布绘制为标准化直方图所有三个分布看起来几乎相同因此将所有三个分布绘制在同一轴上以便于比较似乎是明智的默认情况下 matplotlib 直方图绘制为条
Flask-SQLAlchemy 构造函数

在 Flask SQLAlchemy 教程中定义了 User 模型的构造函数 from flask import Flask from flask ext sqlalchemy import SQLAlchemy app Flask na
如何使用类似 KDnuggets 风格的 PDF 绘制比较箱线图

在经历了解 KDnuggets 文章中的箱线图 https www kdnuggets com 2019 11 understanding boxplots html 我找到了带有概率密度函数的箱线图的详细图 pdf 我正在尝试绘制比较箱线
pygame中物体的速度？

我正在编写一个简单的 pygame 程序仅包含在屏幕上移动一个框盒子移动得很快我想知道如何控制速度在我的代码中更新后的位置移动了 1 而不是更小因为如果数字不是整数就会使事情变得更加复杂 import os sys impor
整数 numpy 数组乘以浮点数

我有一个包含整数值的 numpy 数组如果我将整个矩阵乘以一个浮点数结果是一个浮点矩阵但如果我通过 for 循环逐列相乘它只给出整数部分 import numpy as np A np array 1 2 3 4 5 6 7 8 9
Python 中的文字可以被覆盖吗？

找不到更好的方式来表达标题请随时更正我对 Python 还很陌生目前正在尝试该语言我注意到所有内置类型都不能与其他成员一起扩展例如我想添加一个each方法到list类型但那是不可能的我意识到它是出于效率原因而设计的并且大多
Python select() 行为很奇怪

我在理解 select select 的行为时遇到一些困难请考虑以下 Python 程序 def str to hex s def dig n if n gt 9 return chr 65 10 n else return chr 48
如何从sqlalchemy中的select语句创建新表？

我正在使用 sqlalchemy 的核心功能来编写一些抽象层该层本身需要能够从 select 语句创建表示例代码 metadata MetaData bind engine table Table table name metadata
Python Turtle 未按照文档示例填充

我试图向我女儿展示一些代码并认为海龟会很有趣我更喜欢数字但这对孩子们来说并不有趣我在重现文档示例时遇到问题这更让我烦恼因为我无法弄清楚我们还有很多其他事情可以做 The documentation example copied
无法为从图中加载的张量变量赋值

我已经训练了一个模型并保存了它现在我试图了解权重扰动如何影响其准确性因此我需要修改权重变量中保存的值本质上会为其添加一些噪声问题是加载它们后我无法为它们分配值我正在使用 TensorFlow 版本 1 2 1 来训练和加载模型
如何使用python在ID3v2 mp3文件上添加SYLT（同步歌词）标签？

我想使用 python 在我的 mp3 文件上添加来自 vtt 的同步歌词我尝试使用诱变模块但它没有按预期工作 from mutagen id3 import ID3 USLT SLT import sys import webvtt
使用 Opencv 屏蔽水平线和垂直线

我正在尝试删除该图像中的水平线和垂直线以便拥有更清晰的文本区域我正在使用下面的代码它遵循这个guide https docs opencv org 3 2 0 d1 dee tutorial moprh lines detection
TensorFlow 的 Print 或 K.print_tensor 不会在损失函数中打印中间张量

我为 Keras 模型编写了一个相当复杂的损失函数并且它不断返回nan训练时因此我需要在训练时打印中间张量我知道你不能在损失函数中执行 K eval 因为张量未初始化不过我都尝试过K print tensor and tf Pr
PyPy/RPython 可以用来生成小型独立可执行文件吗？

或者可以使用 PyPy RPython 将 Python 编译翻译为 C C 不需要 Python 运行时我试图通过它的 RPython 和 Python 它的运行它的编译和它的翻译来理解 PyPy 但有些失败 I have a h
Pythonlibs3 CMake 和 macOS

更新2 将以下两行添加到我的 CMake 文件中时成功找到了 python 3 及其库这只在终端中工作的原因是因为 CLion 使用其捆绑版本的 CMake 3 6 3 而我的终端使用的更新版本 3 7 2 正确找到了 python F
Python：如何即时生成代码？

我遇到了一个问题我必须动态生成程序然后执行它我们怎样才能做到这一点您可以使用 eval 函数从字符串执行代码一个例子是 import math test r dir math eval test Output doc name pa
在 django 中运行普通 sql 查询时如何获取字段名称

在我的 django 视图之一中我使用纯 sql 不是 orm 查询数据库并返回结果 sql select from foo bar cursor connection cursor cursor execute sql rows cur
显示进度的脚本？

当我的 python 脚本处理大文件时我想向用户显示进度我见过脚本印刷在 shell 中的同一光标位置显示进度我怎样才能在Python中做到这一点你应该使用python 进度条 http code google com p pyt
Pylance 无法在 VSCode Jupyter 笔记本中工作

皮兰斯工作于 py files 但不适用于 Jupyter ipynb笔记本我尝试保存 ipynb 同样的问题如何在我的笔记本中启用 Pylance 警告 Jupyter 扩展似乎不支持 Pylance 我提交这个问题就是为了解决这个缺
编写适用于 ndarray 和 MaskedArray 的通用数值函数的最佳实践

有没有比以下更漂亮的方式 import numpy as np from numpy import ma def foo x pkg ma if isinstance x ma MaskedArray else np return pkg

随机推荐

表单提交后 Angular2 更新视图

我正在使用 Angular2 创建一个简单的 CRUD 应用程序该应用程序由一个列出当前记录的表格和一个用于提交新记录的表格组成提交表单后更新表格以反映新记录的正确方法是什么这是我到目前为止所拥有的 export class Pers
Flymake的临时文件可以在系统临时目录下创建吗？

我目前正在使用以下代码在 emacs 中连接 Flymake 和 Pyflakes defun flymake create temp in system tempdir filename prefix make temp file or
在运行时设置 DataGridView 上的 DataFormatString？

是否可以在运行时设置 ASP NET DataGridView 中的列或单元格的 DataFormatString 属性这应该有效 BoundField priceField grid Columns 0 as BoundField pr
Reporting Services 在哪里存储其日志文件

最相关的谷歌结果似乎表明为了访问日志我们必须将您自己的日志表部署到数据库并制作报告服务写入它 http technet microsoft com en us library ms157403 aspx 简而言之 Reporting S
pandas groupby 操作缺少数据

在 pandas 数据框中我有一列如下所示 0 M 1 E 2 L 3 M 1 4 M 2 5 M 3 6 E 1 7 E 2 8 E 3 9 E 4 10 L 1 11 L 2 12 M 1 a 13 M 1 b 14 M 1 c 15
在 WooCommerce 管理订单项目上显示产品自定义字段（也适用于可变产品）

基于在 WooCommerce 的订单编辑页面上显示自定义字段 https stackoverflow com questions 56259910 show custom fields on the order editing page
关闭 XDOCUMENT 的实例

我收到这个错误该进程无法访问文件 C test Person xml 因为它是被另一个进程使用 IOException 未处理保存文件内容后如何关闭 xml 文件的实例 using System using System Collec
Bash：单行命令以与 grep 命令相反的状态退出？

如何减少以下 bash 脚本 grep P STATUS Perfect recess txt exit 1 exit 0 看起来我应该能够用一个命令来完成它但我这里总共有 3 个命令我的程序应该阅读课间休息 txt 如果它包含 ST
ChannelFactory重用策略

我一直在读到 ChannelFactory 的创建是昂贵的除非有技术原因不这样做否则应该在可能的情况下重用 ChannelFactory 或者通过某种方式缓存它们或者使用工厂的静态实例根据您的经验您发现哪些 ChannelFact
如何使用汇编获取BIOS时间？

我正在从头开始实现一个小型操作系统用于教育目的现在我想使用汇编来获取 BIOS 时间我对此进行了很多搜索但找不到任何代码示例来执行此操作如果有人可以提供任何参考或代码示例或与此相关的任何内容我将非常感激 See 时钟中断 1a
删除 Xcode 项目的源代码控制

我在 Xcode 项目上使用源代码控制已经有一段时间了但现在我不想使用源代码控制如何从 Xcode 中的项目中删除源代码控制有三种方法方法 1 将禁用所有项目的源代码管理方法 2 将删除所有项目的单个存储库的链接方法 3 将删除
Laravel 5 命名空间

我刚刚下载了 Laravel 5 并开始迁移到它但是我发现需要使用命名空间really恼人的除了让我的代码变得混乱之外我觉得我没有从中得到太多东西如何禁用命名空间要求我认为您不应该禁用或删除名称空间命名空间的主要原因是避免与同
使组合高度等于浏览器窗口的高度

http featuredfotografer com http featuredfotografer com Codemirror div 与 header div 结合占用的高度超过了浏览器的高度我怎样才能使它们的总高度达到浏览器窗口
Scala 交互式解释器 (REPL) - 如何将输出重定向到文本文件？

是否可能如果可能是如何做到的通常 gt and gt gt 在 Windows 或 Linux 命令行上工作的命令在这种情况下不起作用您可以从控制台以编程方式执行此操作 import java io FileOutputStream
CSS 选择器用于选择最后两个子项，而不知道列表中有多少项

我有一个无序列表它有时包含 4 5 6 或 7 个项目我想知道是否有一个 CSS 选择器来选择最后两项我意识到 last child会给我最后一件物品是否有倒数第二个孩子选择器或者孩子数量 2 选择器 HTML ul li
在 GCC 和 Clang 下，使用 lambda 的简单 RAII 包装器的复制初始化意外失败

我在创建一个简单的 RAII 包装器时遇到了一个意想不到的问题更不用说下面代码的逻辑不完整性了复制构造函数和赋值运算符未删除等这意味着是一个SSCCE 令我印象深刻的是复制初始化我的包装器与临时 lambda 的结果会导致编译错误而
16 位、32 位和 64 位 IEEE-754 系统可以表示什么范围的数字？

我对浮点数的表示方式有所了解但恐怕还不够一般问题是对于给定的精度就我的目的而言以 10 为基数的精确小数位数 16 位 32 位和 64 位 IEEE 754 系统可以表示什么范围的数字具体来说我只对精确到 0 5 个位或
获取特定月份/年份的第一天

有没有比以下更好的方法返回特定月份年份的第一天的日期 month date m year date Y from date Y m d mktime 0 0 0 month 1 year 这在计算上并不完全优雅但我喜欢它因为它非常可读
AWS-amplify 在请求中包含 cognito Authorization 标头

我创建了一个 AWS 移动中心项目包括 Cognito 和云逻辑在我的 API 网关中我为授权者设置了 Cognito 用户池我使用 React Native 作为我的客户端应用程序如何将授权标头添加到我的 API 请求中 con
Snakemake：将多个输入用于具有多个子组的一个输出的规则

我有一个工作管道用于下载比对和对公共测序数据执行变体调用问题是它目前只能在每个样本的基础上工作 i e作为每个单独测序实验的样本如果我想对一组实验例如样本的生物和或技术复制执行变体调用则它不起作用我试图解决它但我无法让它

Snakemake：将多个输入用于具有多个子组的一个输出的规则

Snakemake：将多个输入用于具有多个子组的一个输出的规则 的相关文章

随机推荐

热门标签

Snakemake：将多个输入用于具有多个子组的一个输出的规则的相关文章