可以使用不同的路径/通配符定义snakemake输入规则吗

2023-12-30

我想知道是否可以定义一个依赖于不同通配符的输入规则。

详细地说，我使用 qsub 在不同的 fastq 文件上运行这个 Snakemake 管道，它将每个作业提交到不同的节点：

原始 fastq 上的 fastqc - 不依赖其他作业的下游
适配器/质量修剪以生成修剪后的 fastq
fastqc_after 位于修剪后的 fastq（步骤 2 的输出）上，并且没有下游依赖性
修剪后的 fastq 上的 star-rsem 管道（上面步骤 2 的输出）
rsem 和 tximport（步骤 4 的输出）
运行多重QC

多QC-https://multiqc.info/ https://multiqc.info/- 在结果文件夹上运行，其中包含来自 fastqc、star、rsem 等的结果。但是，由于每个作业在不同的节点上运行，有时步骤 3（fastqc 和/或 fastqc_after）仍在节点上运行，而其他步骤完成运行（步骤 2、4 和 5）或反之亦然。

目前，我可以创建一个 MultiQc 规则，该规则等待步骤 2、4、5 的结果，因为它们通过输入/输出规则相互链接。

我已将我的管道以 png 格式附加到这篇文章中。任何建议都会有所帮助。

我需要什么：我想创建一个“整理”步骤，我希望 MultiQC 等待所有步骤（从 1 到 5）完成。换句话说，使用我附加的 png 作为指导，我想为 MultiQC 定义多个输入规则，这些规则也等待 fastqc 的结果

提前致谢。

Note: Based on comments I received from 'colin https://stackoverflow.com/users/251276/colin' and 'bli https://stackoverflow.com/users/1878788/bli' after my original post, I have shared the code for the different rules here.

步骤 1 - fastqc

rule fastqc:
    input:  "raw_fastq/{sample}.fastq"
    output: "results/fastqc/{sample}_fastqc.zip"
    log: "results/logs/fq_before/{sample}.fastqc.log"
    params: ...
    shell: ...

步骤 2 - bbduk

rule bbduk:
    input: R1 = "raw_fastq/{sample}.fastq"
    output: R1 = "results/bbduk/{sample}_trimmed.fastq",
    params: ...
    log: "results/logs/bbduk/{sample}.bbduk.log"
    priority:95
    shell: ....

步骤 3 - fastqc_after

rule fastqc_after:
    input:  "results/bbduk/{sample}_trimmed.fastq"
    output: "results/bbduk/{sample}_trimmed_fastqc.zip"
    log: "results/logs/fq_after/{sample}_trimmed.fastqc.log"
    priority: 70
    params: ...
    shell: ...

第 4 步 - 星形对齐

rule star_align:
    input: R1 = "results/bbduk/{sample}_trimmed.fastq"
    output:
        out_1 = "results/bam/{sample}_Aligned.toTranscriptome.out.bam",
        out_2 = "results/bam/{sample}_ReadsPerGene.out.tab"
    params: ...
    log: "results/logs/star/{sample}.star.log"
    priority:90
    shell: ...

步骤 5 - rsem_norm

rule rsem_norm:
    input:
        bam = "results/bam/{sample}_Aligned.toTranscriptome.out.bam"
    output:
        genes = "results/quant/{sample}.genes.results"
    params: ...
    threads = 16
    priority:85
    shell: ...

第 6 步 - rsem_model

rule rsem_model:
    input: "results/quant/{sample}.genes.results"
    output: "results/quant/{sample}_diagnostic.pdf"
    params: ...      
    shell: ...

步骤 7 - tximport rsem

rule tximport_rsem:
        input: expand("results/quant/{sample}_diagnostic.pdf",sample=samples)
        output: "results/rsem_tximport/RSEM_GeneLevel_Summarization.csv"
        shell: ...

第 8 步 - 多重QC

rule multiqc:
    input: expand("results/quant/{sample}.genes.results",sample=samples)
    output: "results/multiqc/project_QS_STAR_RSEM_trial.html"
    log: "results/log/multiqc"
    shell: ...

如果你想要统治multiqc仅在之后发生fastqc完成后，您可以添加输出fastqc的输入multiqc:

rule multiqc:
    input:
        expand("results/quant/{sample}.genes.results",sample=samples),
        expand("results/fastqc/{sample}_fastqc.zip", sample=samples)
    output: "results/multiqc/project_QS_STAR_RSEM_trial.html"
    log: "results/log/multiqc"
    shell: ...

或者，如果您需要能够引用的输出rsem_norm在你的shell部分：

rule multiqc:
    input:
        rsem_out = expand("results/quant/{sample}.genes.results",sample=samples),
        fastqc_out = expand("results/fastqc/{sample}_fastqc.zip", sample=samples)
    output: "results/multiqc/project_QS_STAR_RSEM_trial.html"
    log: "results/log/multiqc"
    shell: "... {input.rsem_out} ..."

在您的一篇评论中，您写道：

MultiQC 需要目录作为输入 - 我在 shell 命令中为其指定“结果”目录。

如果我理解正确的话，这意味着results/quant/{sample}.genes.results是目录，而不是普通文件。如果是这种情况，您应该确保没有下游规则在这些目录中写入文件。否则，目录将被视为在输出后已更新multiqc, and multiqc每次运行管道时都会重新运行。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

可以使用不同的路径/通配符定义snakemake输入规则吗的相关文章

如何在 Bash 中将字符串转换为小写

有办法进去吗bash questions tagged bash将字符串转换为小写字符串例如如果我有 a Hi all 我想将其转换为 hi all 有多种方法 POSIX标准 https en m wikipedia org wiki
Openshift 上的自定义 Node.js 版本

我在运行自定义节点版本时遇到问题node0 10您可以在开放班次中找到墨盒here https github com DavidReinberger openshift meteor leaderboard customNode 我可以很好
Linux shell 命令逐块读取/打印文件

是否有一个标准的 Linux 命令可以用来逐块读取文件例如我有一个大小为 6kB 的文件我想读取打印第一个 1kB 然后是第二个 1kB 看来猫头尾在这种情况下不起作用非常感谢你可以这样做read n在循环中 while r
subprocess.Popen args 参数的最大长度是多少？

我在用Popen http docs python org library subprocess html using the subprocess modulesubprocess 模块中的函数来执行命令行工具 subprocess Po
Bash 完成脚本在某些参数选项后完成文件路径

我正在为命令行工具编写 bash 完成脚本 plink local cur prev opts COMPREPLY cur COMP WORDS COMP CWORD prev COMP WORDS COMP CWORD 1 opts 1
bash双括号问题

我对 bash 脚本非常陌生在使用双括号时遇到了问题我似乎无法让它们在 Ubuntu Server 11 10 中工作我的下面的脚本位于 if test sh 中 bin bash if 14 14 then echo FOO fi
使用 Jenkins 运行 ios-sim

我正在尝试使用以下命令从命令行启动我的应用程序ios sim https github com downloads pegli ios sim ios sim xcode4 3 tar gz但这就是我得到的 Started by user
如何在fish shell脚本中获取程序名称？

在 bash 中与在 ruby 中一样程序名称由 0 给出鱼里有什么如果有必要我可以执行以下操作 set PROGRAM ps no header o args p self egrep o S 2 但我确信程序名称必须已经在某个
Linux shell 脚本：十六进制数字到二进制字符串

我正在 shell 脚本中寻找一些简单的方法来将十六进制数字转换为 0 和 1 字符的序列 Example 5F gt 01011111 是否有任何命令或简单的方法来完成它或者我应该为其编写一些开关 echo ibase 16 obase
将“npm run start”的输出写入文件

我想捕获的输出npm run start在一个文件中我遇到了大量错误我想更好地控制如何筛选输出当我尝试时 npm run start gt log txt 我得到一个非常简短的文件 8 行其结尾为 34m 39m 90m wdm 3
在 anaconda 环境下运行 qsub

我有一个程序通常在 Linux 的 conda 环境中运行因为我用它来管理我的库指令如下 source activate my environment python hello world py 我怎样才能跑你好世界 py在与 PBS
Bash 脚本大小限制？

我有一个 bash 脚本在 RHEL 或 OS X 上运行时出现以下错误第 62484 行意外标记换行符附近出现语法错误第 62484 行 o gz 这是一个自动生成的脚本用于解决我公司使用的 Grid Engine 计算集群
如何使用 bash 显示具有两个子文件夹的文件夹？

我通过 Cygwin 使用 bash 我有一个大文件夹 a 有很多子文件夹 b 这些子文件夹各有一个或两个子文件夹 c 我想找到所有有两个子文件夹 c 的子文件夹 b 并输出它们结构如下 a b1 c1 b2 c1 c2 b3 c1 c2
仅当重复行与模式匹配时才删除它们

这个问题 https stackoverflow com questions 1444406 how can i delete duplicate lines in a file in unix有一个很好的答案说你可以使用awk seen
使用 find - 删除除任何一个之外的所有文件/目录（在 Linux 中）

如果我们想删除我们使用的所有文件和目录 rm rf 但是如果我希望一次性删除除一个特定文件之外的所有文件和目录怎么办有什么命令可以做到这一点吗 rm rf 可以轻松地一次性删除甚至可以删除我最喜欢的文件目录提前致谢 find ht
Mongodb shell mongo：通常只允许每个套接字地址（协议/网络地址/端口）使用一次。对于套接字：0.0.0.0:27017

前两天还好好的现在mongod不起作用甚至echo ps A grep mongo没有打印任何内容但它警告错误每个套接字地址只有一种用途怎么杀掉它我也尝试过不同的随机端口他们怎么可能也失败呢 D mongodb win32 x
使用 posix shell 测试字符串中的正则表达式

如何测试字符串是否与特定字符串匹配正则表达式与基本无 bash 或任何其他 posix shell 脚本在 if 语句中您可以使用expr在 POSIX shell 中计算正则表达式的命令 s Abc expr s alpha 3 e
git 别名中的 AWK 语句

我正在尝试创建一个 git 别名来以特定格式打印日志中的所有拉取请求但是我在使用 AWK 删除双空格时遇到问题这是使用以下命令的 git log 的输出 git log merges grep pull request pretty
shell脚本中的\r字符

我在尝试执行 shell 脚本时收到以下错误 r command not found line 2 请提出同样的解决方案以下是脚本中使用的初始行 bin sh if lt 1 then echo ERROR Environment arg
如何在 shell 脚本中并行运行多个实例以提高时间效率[重复]

这个问题在这里已经有答案了我正在使用 shell 脚本它读取 16000 行的输入文件运行该脚本需要8个多小时我需要减少它所以我将其划分为 8 个实例并读取数据其中我使用 for 循环迭代 8 个文件并在其中使用 while

随机推荐

在 AsyncTask 中保持屏幕明亮

我在 AsyncTask 中使用此代码来确保 AsyncTask 运行时屏幕保持明亮 getWindow addFlags WindowManager LayoutParams FLAG KEEP SCREEN ON 但是我不希望 Asy
无法执行目标 org.apache.maven.plugins:maven-install-plugin:2.4:install-file maven

我尝试通过命令提示符执行以下命令 mvn install install file Dfile scertcommon 07 01 08 04 jar DgroupId com avaya sce DartifactId scertcomm
MATLAB vs C++ vs OpenCV - imresize

我有以下 MATLAB 代码我想将其传输到 C 中 Assume Gr是二维矩阵并且1 newscale 0 5 Gr imresize Gr 1 newScale in MATLAB 文档 http www mathworks com
Grails 服务不是事务性的吗？

据官方称文档 http grails github io grails doc latest guide services html 还有我看过的书服务默认都是跨国的但是即使我们立即抛出 RuntimeException 我们也会提交
如何在Python中按下按键时调用函数

我有一个正在循环运行的程序例如每当我按下键盘上的 ESC 键时它都应该调用一个函数来打印您按下了 ESC 键并且可能还执行一些命令我试过这个 from msvcrt import getch while True key ord
无法使用 sed 正则表达式删除空行

我有一个这样的文件 2733617 3 00 3 3 2733617 E1b1 8 00 8 16 2733617 E1b1b1b 2 00 2 4 2733617 I1 294 00 296 590 2733617 I2 1 00 1 2
构建服务器：管理第三方组件的最佳实践？

我正在维护一个相当大的遗留应用程序源代码树真是一团糟我正在尝试设置构建服务器在源树上我有带有源的第三方组件也在项目的包含路径中这些组件也安装在 IDE 中我的问题是如何管理这些组件我想这样管理在构建服务器上安装 IDE
这些表是如何关联的？

假设我经营一家在线业务您可以从我的网站订购产品并且我有一个包含两个表的数据库 Table order与田野order number customer ID address Table customer与田野customer ID fir
使用 Javascript 将参数从 URL 传递到隐藏表单字段

我无法从 URL 传递 ID 例如 123456 http www mysite com page html ID 123456 http www mysite com page html ID 123456 到隐藏的表单字段我发现一个
ReactJs 中的这个关键字以及为什么我们会失去上下文[重复]

这个问题在这里已经有答案了 class Foo extends React Component constructor props super props handleClick event console log this this is
替代 bazel 中的“`--whole-archive`”

我想在我的基于 bazel 的 C 项目之一中链接外部静态库我需要 whole archive 用于链接库如 gcc 或 g build 的选项 g main cc Wl whole archive lhttp Wl no whole
Spring JPA 在连接表上使用规范和条件查询

我正在使用 JPA 规范和 CriteriaQuery 来向我的实体添加 where 子句域类 public class Domain Id Column name id GeneratedValue strategy Generatio
映射时，ElasticSearch 中的精确匹配优于 ngram 匹配

我对使用 ngram 的单词进行了部分匹配如何修改映射以始终支持精确匹配而不是 ngram 标记我不想修改查询一个搜索框将搜索多种类型每种类型都有自己的字段例如假设我正在搜索职位一个人的头衔是现场工程师另一个人的头衔是发
WebSocketMessageBrokerStats - 如何设置loggingPeriod

如何在 WebSocketMessageBrokerStats 中设置loggingPeriod以减少值默认为30 WebSocketMessageBrokerStats 由 Bean 加载WebSocketMessageBroker配置
如何使用pandas获取每一行的数据类型？

我有一个看起来像这样的数据框 Name Age John 20 5 Alice 39 1 Pam 41 0 203921 Hope 我想创建一个名为 Name Type 的新列其返回如下 Name Name Type John True
单击通知 - 发送到应用程序

使用我的通知系统当发送通知时我希望能够单击通知并将其发送到我的应用程序但是使用我当前的代码它不会这样做我该如何解决这个问题 public void causeNotification CharSequence contentTe
错误报告 - ORA-25155：NATURAL 连接中使用的列不能有限定符 25155。00000 - “NATURAL 连接中使用的列不能有限定符”

当我运行此行时它给出了以下错误 CREATE VIEW student view AS SELECT Student Course Grade FROM Student NATURAL LEFT OUTER JOIN Grade NATU
将本地文件中的 json 数据加载到 React JS 中

我有一个 React 组件我想从文件加载 JSON 数据即使我正在创建变量控制台日志当前也不起作用data作为全球 use strict var React require react addons load in JSON data
Git bash 显示了 ed25519 密钥而不是 rsa 密钥指纹

我尝试了设置 GitHub SSH 密钥的教程但是当我输入提示时它显示的是 ed25519 而不是 rsa 密钥指纹有关如何添加 rsa 密钥指纹的任何指示吗 ED25519 key fingerprint is 这与您无关id rs
可以使用不同的路径/通配符定义snakemake输入规则吗

我想知道是否可以定义一个依赖于不同通配符的输入规则详细地说我使用 qsub 在不同的 fastq 文件上运行这个 Snakemake 管道它将每个作业提交到不同的节点原始 fastq 上的 fastqc 不依赖其他作业的下游适配器

可以使用不同的路径/通配符定义snakemake输入规则吗

可以使用不同的路径/通配符定义snakemake输入规则吗 的相关文章

随机推荐

热门标签

可以使用不同的路径/通配符定义snakemake输入规则吗的相关文章