接受略有不同的 Snakemake 规则输入（.fq 与 .fq.gz）

2024-04-17

我是 Snakemake 的新手，希望能够选择一对.fq文件或一对.fq.gz文件并运行它们trim_galore得到一对修剪过的.fq.gz输出文件。在不提供所有 Snakefile 的情况下，我得到了下面丑陋的解决方案，我只是复制了规则并更改了输入。什么是更好的解决方案？

#Trim galore paired end trimming rule for unzipped fastqs:
rule trim_galore_unzipped_PE:
    input:
        r1=join(config['fq_in_path'], '{sample}1.fq'),
        r2=join(config['fq_in_path'], '{sample}2.fq'),
    output:
        r1=join(config['trim_out_path'], '{sample}1_val_1.fq.gz'),
        r2=join(config['trim_out_path'], '{sample}2_val_2.fq.gz'),
    params:
        out_path=config['trim_out_path'],
    conda:
        'envs/biotools.yaml',
    shell:
        'trim_galore --gzip -o {params.out_path} --paired {input.r1} {input.r2}'

#Trim galore paired end trimming rule for gzipped fastqs:
rule trim_galore_zipped_PE:
    input:
        r1=join(config['fq_in_path'], '{sample}1.fq.gz'),
        r2=join(config['fq_in_path'], '{sample}2.fq.gz'),
    output:
        r1=join(config['trim_out_path'], '{sample}1_val_1.fq.gz'),
        r2=join(config['trim_out_path'], '{sample}2_val_2.fq.gz'),
    params:
        out_path=config['trim_out_path'],
    conda:
        'envs/biotools.yaml',
    shell: 
        'trim_galore --gzip -o {params.out_path} --paired {input.r1} {input.r2}'

使用输入函数可能是最好的解决方案，如下所示：

将通配符传递给输入函数
使用已知的 YAML 值，使用该示例名称构建理论文件名。
使用 python 函数检查哪个文件（技术上是文件后缀）有效
建立有效文件列表
返回并解压有效文件列表。

Notes:

输入和输出应该具有相同的通配符，如果没有，则会导致问题
在输入函数中，确保它不能返回空字符串，因为 Snakemake 将此解释为“缺少输入”要求，这不是您想要的。
如果您采纳这些建议，请更新规则名称，我忘了。

蛇文件：

 configfile: "config.yaml"

 from os.path import join
 from os.path import exists

 rule all:
     input:
         expand("{trim_out_path}/{sample}.{readDirection}.fq.gz",
             trim_out_path=config["trim_out_path"],
             sample=config["sampleList"],
             readDirection=['1','2'])


 def trim_galore_input_determination(wildcards):
     potential_file_path_list = []
     # Cycle through both suffix possibilities:
     for fastqSuffix in [".fq", ".fq.gz"]:

         # Cycle through both read directions
         for readDirection in ['.1','.2']:

             #Build the list for ech suffix
             potential_file_path = config["fq_in_path"] + "/" + wildcards.sample + readDirection + fastqSuffix

             #Check if this file actually exists
             if exists(potential_file_path):

                 #If file is legit, add to list of acceptable files
                 potential_file_path_list.append(potential_file_path)

     # Checking for an empty list
     if len(potential_file_path_list):
         return potential_file_path_list
     else:
         return ["trim_galore_input_determination_FAILURE" + wildcards.sample]

 rule trim_galore_unzipped_PE:
     input:
         unpack(trim_galore_input_determination)
     output:
         expand("{trim_out_path}/{{sample}}.{readDirection}.fq.gz",
             trim_out_path=config["trim_out_path"],
             readDirection=['1','2'])
     params:
         out_path=config['trim_out_path'],
     conda:
         'envs/biotools.yaml',
     shell:
         'trim_galore --gzip -o {params.out_path} --paired {input}'

配置.yaml：

fq_in_path: input/fq
trim_out_path: output
sampleList: ["mySample1", "mySample2"]

$tree:

|-- [tboyarsk      1540 Sep  6 15:17]  Snakefile
|-- [tboyarsk        82 Sep  6 15:17]  config.yaml
|-- [tboyarsk       512 Sep  6  8:55]  input
|   |-- [tboyarsk       512 Sep  6  8:33]  fq
|   |   |-- [tboyarsk         0 Sep  6  7:50]  mySample1.1.fq
|   |   |-- [tboyarsk         0 Sep  6  8:24]  mySample1.2.fq
|   |   |-- [tboyarsk         0 Sep  6  7:50]  mySample2.1.fq
|   |   `-- [tboyarsk         0 Sep  6  8:24]  mySample2.2.fq
|   `-- [tboyarsk       512 Sep  6  8:55]  fqgz
|       |-- [tboyarsk         0 Sep  6  7:50]  mySample1.1.fq.gz
|       |-- [tboyarsk         0 Sep  6  8:32]  mySample1.2.fq.gz
|       |-- [tboyarsk         0 Sep  6  8:33]  mySample2.1.fq.gz
|       `-- [tboyarsk         0 Sep  6  8:32]  mySample2.2.fq.gz
`-- [tboyarsk       512 Sep  6  7:55]  output

$snakemake -dry（输入：fg）

 rule trim_galore_unzipped_PE:
     input: input/fq/mySample1.1.fq, input/fq/mySample1.2.fq
     output: output/mySample1.1.fq.gz, output/mySample1.2.fq.gz
     jobid: 1
     wildcards: sample=mySample1


 rule trim_galore_unzipped_PE:
     input: input/fq/mySample2.1.fq, input/fq/mySample2.2.fq
     output: output/mySample2.1.fq.gz, output/mySample2.2.fq.gz
     jobid: 2
     wildcards: sample=mySample2


 localrule all:
     input: output/mySample1.1.fq.gz, output/mySample2.1.fq.gz, output/mySample1.2.fq.gz, output/   mySample2.2.fq.gz
     jobid: 0

 Job counts:
         count   jobs
         1       all
         2       trim_galore_unzipped_PE
         3

$snakemake -dry（输入：fgqz）

 rule trim_galore_unzipped_PE:
     input: input/fqgz/mySample1.1.fq.gz, input/fqgz/mySample1.2.fq.gz
     output: output/mySample1.1.fq.gz, output/mySample1.2.fq.gz
     jobid: 1
     wildcards: sample=mySample1


 rule trim_galore_unzipped_PE:
     input: input/fqgz/mySample2.1.fq.gz, input/fqgz/mySample2.2.fq.gz
     output: output/mySample2.1.fq.gz, output/mySample2.2.fq.gz
     jobid: 2
     wildcards: sample=mySample2


 localrule all:
     input: output/mySample1.1.fq.gz, output/mySample1.2.fq.gz, output/mySample2.1.fq.gz, output/   mySample2.2.fq.gz
     jobid: 0

 Job counts:
         count   jobs
         1       all
         2       trim_galore_unzipped_PE
         3

有多种方法可以使其更加通用，但由于您声明并使用 YAML 配置来构建大部分文件名，因此我将避免在答案中讨论它。只是说这是可能的并且有点令人鼓舞。

“--paired {input}”将扩展以提供这两个文件。由于 for 循环，1 总是在 2 之前。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Bioinformatics

snakemake

接受略有不同的 Snakemake 规则输入（.fq 与 .fq.gz）的相关文章

NCBI Genbank核苷酸序列数据库检索基因序列解读

核酸数据库 Genbank数据库 Nucleotide数据库一基因序列注释内容解析以dut基因编码的大肠杆菌酶dutpase为例在Nucleotide数据库search X01714或者dutpase 检索链接https www n
BDS - Chapter - 3 - Remedial Unix Shell

This book assumes you re familiar with basic topics such as what a terminal is what the shell is the Unix filesystem hie
Python 中的递归生成器

我编写了一个函数来返回一个生成器其中包含给定长度的子字符串的每个唯一组合这些子字符串包含主字符串中的 n 个以上元素举例来说如果我有 abcdefghi 和长度为 2 的探针并且每个列表有 4 个元素的阈值我想得到 ab cd
fasta.gz 上的 SeqIO.parse

编码新手 Pytho biopython 新手这是我在网上的第一个问题如何打开压缩的 fasta gz 文件以提取信息并在我的函数中执行计算这是我正在尝试执行的操作我尝试了不同的方法以及错误是什么的简化示例我正在使用的 gzip
当集群（slurm）取消作业时 Snakemake 挂起

也许答案对很多人来说都是显而易见的但我很惊讶我找不到关于这个主题的问题这对我来说是一个主要问题我将不胜感激的提示当在 slurm 管理的集群上提交作业时如果队列管理器取消该作业例如由于资源或时间不足 snakemake 似乎不
查询 DNS 服务记录以查找主机名和 TCP/IP

在一篇关于生命科学标识符 see LSID Tester 用于测试生命科学标识符解析服务的工具罗德里克 DM 佩奇博士写道给定 LSID urn lsid ubio org namebank 11815 在 DNS 中查询 SRV 记录
在 Snakemake HTML 报告中包含参数和源代码

我想在我的html报告中包含shell命令以及snakemake规则的外部脚本的源代码我看到人们在RULE序列的表中包含这些下面的示例是文档中基本示例的一部分 https snakemake readthedocs io en stab
读取 .fasta 序列以提取核苷酸数据，然后写入 TabDelimited 文件

在继续之前我想请读者参考我之前使用 Perl 时遇到的问题因为我是这一切的初学者以下是我这几天发的帖子按时间顺序排列如何平均制表符分隔数据中的列值 Solved 为什么我在输出文件中看不到计算结果 Solved 使用 fasta
R-Shiny 中的自动多文件下载

我正在尝试弄清楚如何获得data frame对其自身进行子集化然后为每个子集编写一个 csv 文件我正在写一个shiny应用程序将为不同的仪器生成模板文件我需要能够为每个批次板任何内容获取一个文件显然我们可以进行手动排序但这
“通配符”对象没有属性“输出”

我收到一条相当简单的规则的错误我必须为另一个程序编写一个任务文件需要一个 tsv 文件我从配置文件中读取一定数量的参数并使用 shell 命令将它们写入文件中 Code rule create tasks output temp t
在 Snakemake 脚本中使用 argparse

是否可以将自定义命令行参数传递给snakemake脚本我已经尝试过了但是用以下命令执行 Snakefileargparse结果出错snakemake error unrecognized arguments zz 下面是一个示例脚本 i
根据同一列表中的下一个项目从列表中删除项目

我刚刚开始学习 python 这里有一个蛋白质序列的排序列表总共 59 000 个序列其中一些是重叠的我在这里列出了一个玩具清单例如 ABCDE ABCDEFG ABCDEFGH ABCDEFGHIJKLMNO CEST DBTSF
awk 命令在 Snakemake --use-singularity 中失败

我正在尝试将 Snakemake 与 Singularity 结合起来我注意到一个简单的awk使用奇点时命令不再起作用这 1最后一行被 bash 替换而不是被用作第一个字段awk 这是一个最小的工作示例蛇形锉刀 singularit
用于生物信息学/生物统计学/医学研究的 Clojure 或 Scala [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我不是一个专业的程序员我的领域是医学研究但我对C C 和各种脚本语言相当有能力不久前我对 Lisp 很感兴趣但一直没有时间认真学习它短
Snakemake 通配符：使用目录输出中的通配符文件

我是 Snakemake 的新手并尝试在规则中使用特定文件来自directory 克隆 git 存储库的另一个规则的输出目前这给了我一个错误Wildcards in input files cannot be determined
如何快速识别 Snakemake 中的规则是否需要输入函数

我正在关注其文档页面上的 Snakemake 教程并且确实陷入了输入函数的概念https snakemake readthedocs io en stable tutorial advanced html step 3 input fun
Snakemake - 如何使用文件的每一行作为输入？

我需要使用文件的每一行tissuesused txt作为snakemake中并行规则的输入我想总共大约有 48 个工作机会 for line in cat tissuesused txt do echo Sorting line phen
当我从网络运行 CGI 脚本时，为什么 python 找不到某些模块？

我不知道这里可能有什么问题我有一些来自 Biopython 的模块当使用交互式提示或通过命令行执行 python 脚本时我可以轻松导入这些模块问题是当我尝试在 Web 可执行 cgi 脚本中导入相同的 biopython 模块时
Snakemake 声明规则以非零退出代码退出，即使使用“|| true”？

我的 Snakemake 管道断言每当我运行任何规则时我的代码都会引发非零退出代码即使我的代码在我手动运行相同的代码时返回错误代码 0 并且在 Snakemake 中运行时它可以正常工作根据建议这个问题 https stackove
将文本文件转换为 plink PED 和 MAP 格式

我有以下数据其中的一小部分名为 short2 pre snp tumor txt rs987435 C G 1 1 1 0 2 rs345783 C G 0 0 1 0 0 rs955894 G T 1 1 2 2 1 rs608879

随机推荐

如何重命名c#中当前由Windows资源管理器打开的文件夹

在 C 中重命名文件夹时 System IO Directory Move throws System IO IOException 消息访问被拒绝如果该文件夹或任何子文件夹当前由 Windows 7 资源管理器窗口打开使用命令行RE
无法从 EC2 实例连接到 RDS 实例

我尝试从 EC2 实例 i 78a8df00 连接到 RDS 实例 mysql us east 1 rds amazonaws com 他们都在美国东部地区我将 EC2 实例的安全组 sg 添加到 RDS 安全组但这没有帮助这似乎是防
如何使用 React-Router 和 Express 后端返回有效的 JSON 响应？

我有一个与此类似的设置tutorial https dev to nburgess creating a react app with react router and an express backend 33l3 如何单独渲染 JSON
如何使用 BoxLayout 让组件与 JPanel 中的顶部对齐？

我正在开发一款名为 GalaxyWar 的游戏我正在尝试制作一个地图选择菜单我发现一个问题当我使用 BoxLayout 时BoxLayout Y AXIS在 JPanel 上setAlignmentX CENTER ALIGNMENT
TFS API：保存测试运行后无法添加测试点

环境使用 IronPython 和 TFS SDK 的 VSTS2010 工作流程 1以下工作流程的行为符合我的预期创建一个新的测试运行添加测试点保存测试运行我的预期行为测试运行与测试点一起保存观察到的行为符合我的预期行为
Hadoop YARN 作业陷入映射 0% 并减少 0%

我正在尝试运行一个非常简单的作业来测试我的 hadoop 设置所以我尝试使用 Word Count Example 它陷入了 0 所以我尝试了一些其他简单的作业并且每个作业都陷入了困境 52191 0003 14 07 14 23 55
制作我自己的（非数据库）fetch_object 函数

在 php mysql mysqli postgre 等中有 fetch object 函数您可以在其中获取数据行的对象默认情况下它将返回一个对象stdClass 但您也可以为构造函数定义一个 class name 和一个参数数组我
用动画同时隐藏导航栏和选项卡栏

Edit 我将赏金授予了约翰因为他在回答中付出了很多努力并且无论如何都会得到它但仍然没有可行的解决方案我仍在寻找答案如果有人知道如何做到这一点我将不胜感激我想在我的应用程序中添加一个最大化按钮来隐藏导航和标签栏导航栏和选
如何在 Polymer 中将事件从 rootScope 广播到元素？

例如我们有根范围
如何在广告中对用户进行递归搜索，无论该用户是在组还是子组中？

您好我在 ASP NET 应用程序中使用 Active Directory 和 C 如果用户位于组中或子组中我希望得到一个 bool 值我写了一个方法来获取用户是否在组中但不在这个子组中我如何在我的方法中进行递归搜索这是我的代码
使用 Zend Framework 2 扩展 ZfcUser

您好我正在尝试使用 Zend Framwork 2 的 ZfcUser 模块编写用户注册表单并且希望获得一些有关添加更多用户字段时最佳实践的建议到目前为止我已经创建了自己的模块名为 WbxUser 如模块 wiki 页面 http
HttpWebRequest 与将 URL 粘贴到地址栏中（功能上）有何不同？

我正在缩小与相关的潜在问题的范围two https stackoverflow com questions 1101266 bittorrent tracker announce problem prior https stackoverf
M1 Mac Xcode 构建完成但 Flutter 项目失败（苹果芯片）

我一直遇到一个问题每当我从 M1 Mac 运行任何项目时总会出现这个问题我已经尝试了来自stackoverflow和github的所有解决方案我快要失去我的了由于麻烦第四个项目首先我以为是因为 flutter macOS 桌面
Facebook Graph 不允许我访问公共群组中的任何相册

我在从 WirralGSB 团体的公开相册中抓取照片时遇到了一些麻烦我最初在 10 月份建立了该网站直到几天前才恢复正常我认为问题在于我没有访问密钥我通过自己制作的应用程序创建了访问密钥但这些密钥的有效期只有 30 分钟左右然后
从 Cats 理解并行类型类

有一个类型类叫做Parallel in Cats 此类的目的是为一些不支持开箱即用并行计算的 monad 提供并行计算例如Either例如我知道Monad用于相关计算因此需要顺序执行 Applicative用于独立计算因此此类计算可
如何在pytest运行时获取测试名称和测试结果

我想在运行时获取测试名称和测试结果 I have setup and tearDown我的脚本中的方法在setup 我需要获取测试名称然后在tearDown我需要获取测试结果和测试执行时间我有办法做到这一点吗你可以使用钩子我的测
跨多个项目共享单个 .editorconfig 文件

我的团队在 GitHub 中维护着多个 Java 存储库它们的根文件夹中都有一个 editorconfig 文件并且它们完全相同这使得维护它们有点痛苦因为它们都必须单独更新我们所有人都使用 IntelliJ 它具有从 URL 下载
SVG 图像的 xlink:href 属性中的与号 (&)？

我正在构建一个包含各种图像标签的 SVG 文档这xlink href图像的源 URL 属性包含带有符号的查询字符串如果我逃避他们 26或ascii编码它们不是有效的查询字符串服务器不会传送图像我无法使用 CDATA 转义它们
我的 .NET 2.0 应用程序可以继续运行多久？

Microsoft NET 框架的每个版本都有 e g 对 NET Framework 1 1 的支持于 2005 年 9 月 9 日结束对 NET Framework 2 0 的支持于 2010 年 12 月 1 日结束对 NET F
接受略有不同的 Snakemake 规则输入（.fq 与 .fq.gz）

我是 Snakemake 的新手希望能够选择一对 fq文件或一对 fq gz文件并运行它们trim galore得到一对修剪过的 fq gz输出文件在不提供所有 Snakefile 的情况下我得到了下面丑陋的解决方案我只是复制了规则

接受略有不同的 Snakemake 规则输入（.fq 与 .fq.gz）

接受略有不同的 Snakemake 规则输入（.fq 与 .fq.gz） 的相关文章

随机推荐

热门标签

接受略有不同的 Snakemake 规则输入（.fq 与 .fq.gz）的相关文章