我想知道是否可以定义一个依赖于不同通配符的输入规则。
详细地说,我使用 qsub 在不同的 fastq 文件上运行这个 Snakemake 管道,它将每个作业提交到不同的节点:
- 原始 fastq 上的 fastqc - 不依赖其他作业的下游
- 适配器/质量修剪以生成修剪后的 fastq
- fastqc_after 位于修剪后的 fastq(步骤 2 的输出)上,并且没有下游依赖性
- 修剪后的 fastq 上的 star-rsem 管道(上面步骤 2 的输出)
- rsem 和 tximport(步骤 4 的输出)
- 运行多重QC
多QC-https://multiqc.info/ https://multiqc.info/- 在结果文件夹上运行,其中包含来自 fastqc、star、rsem 等的结果。但是,由于每个作业在不同的节点上运行,有时步骤 3(fastqc 和/或 fastqc_after)仍在节点上运行,而其他步骤完成运行(步骤 2、4 和 5)或反之亦然。
目前,我可以创建一个 MultiQc 规则,该规则等待步骤 2、4、5 的结果,因为它们通过输入/输出规则相互链接。
我已将我的管道以 png 格式附加到这篇文章中。任何建议都会有所帮助。
我需要什么:我想创建一个“整理”步骤,我希望 MultiQC 等待所有步骤(从 1 到 5)完成。换句话说,使用我附加的 png 作为指导,我想为 MultiQC 定义多个输入规则,这些规则也等待 fastqc 的结果
提前致谢。
Note: Based on comments I received from 'colin https://stackoverflow.com/users/251276/colin' and 'bli https://stackoverflow.com/users/1878788/bli' after my original post, I have shared the code for the different rules here.
步骤 1 - fastqc
rule fastqc:
input: "raw_fastq/{sample}.fastq"
output: "results/fastqc/{sample}_fastqc.zip"
log: "results/logs/fq_before/{sample}.fastqc.log"
params: ...
shell: ...
步骤 2 - bbduk
rule bbduk:
input: R1 = "raw_fastq/{sample}.fastq"
output: R1 = "results/bbduk/{sample}_trimmed.fastq",
params: ...
log: "results/logs/bbduk/{sample}.bbduk.log"
priority:95
shell: ....
步骤 3 - fastqc_after
rule fastqc_after:
input: "results/bbduk/{sample}_trimmed.fastq"
output: "results/bbduk/{sample}_trimmed_fastqc.zip"
log: "results/logs/fq_after/{sample}_trimmed.fastqc.log"
priority: 70
params: ...
shell: ...
第 4 步 - 星形对齐
rule star_align:
input: R1 = "results/bbduk/{sample}_trimmed.fastq"
output:
out_1 = "results/bam/{sample}_Aligned.toTranscriptome.out.bam",
out_2 = "results/bam/{sample}_ReadsPerGene.out.tab"
params: ...
log: "results/logs/star/{sample}.star.log"
priority:90
shell: ...
步骤 5 - rsem_norm
rule rsem_norm:
input:
bam = "results/bam/{sample}_Aligned.toTranscriptome.out.bam"
output:
genes = "results/quant/{sample}.genes.results"
params: ...
threads = 16
priority:85
shell: ...
第 6 步 - rsem_model
rule rsem_model:
input: "results/quant/{sample}.genes.results"
output: "results/quant/{sample}_diagnostic.pdf"
params: ...
shell: ...
步骤 7 - tximport rsem
rule tximport_rsem:
input: expand("results/quant/{sample}_diagnostic.pdf",sample=samples)
output: "results/rsem_tximport/RSEM_GeneLevel_Summarization.csv"
shell: ...
第 8 步 - 多重QC
rule multiqc:
input: expand("results/quant/{sample}.genes.results",sample=samples)
output: "results/multiqc/project_QS_STAR_RSEM_trial.html"
log: "results/log/multiqc"
shell: ...