无法让此正则表达式适用于 Snakemake 中的 wildcard_constraints

2023-12-24

我有一个用 Snakemake 编写的工作流程，用于分析生物测序数据。工作流程期望对所有数据文件进行组织，以便每个原始读取文件都以检测类型（RNASeq、DNaseSeq 等）开头，并且在工作流程生成的所有文件中都保持此文件名约定。

我有一个规则来对齐除 RNASeq 之外的每个测定中的数据的读数，以及一个仅应用于 RNASeq 数据的不同规则。我在设置这些规则时遇到了麻烦，以便 Snakemake 知道对哪些文件使用哪些规则。

在 RNASeq 规则中，我有这个：

wildcard_constraints: library='RNASeq_.+'

这可以确保 RNASeq 库使用该规则。不过，我仍然收到有关其他分析的不明确规则的错误，因此我认为我需要限制其他规则中的通配符。我试过这个：

wildcard_constraints: library='(!?RNASeq)_.+'

说匹配任何没有 RNASeq 的东西，但是如果我在 python 解释器中尝试它，虽然这有效，但 Snakemake 似乎无法将任何东西与这个正则表达式匹配。我尝试过其他方法，例如“[^R][^N][^A]”，但没有任何效果。

由于这些正则表达式在我手动尝试针对字符串时起作用，因此我认为 Snakemake 应用正则表达式的方式存在错误，或者我不了解 Snakemake 如何使用它们。我假设它只是“如果此正则表达式与通配符字符串匹配，则使用此规则。如果不匹配，则不要使用此规则。”

我相信以下内容展示了您想要实现的目标：

# Snakefile

rule sam_startswith_dna:
    output: '{pattern}.sam'
    wildcard_constraints: pattern='dna.+'
    shell: 'touch {output}'

rule sam_not_startswith_dna:
    output: '{pattern}.sam'
    wildcard_constraints: pattern='(?!dna).+'  # negative lookahead assertion
    shell: 'touch {output}'

rule bam_endswith_rna:
    output: '{pattern}.bam'
    wildcard_constraints: pattern='.+rna'
    shell: 'touch {output}'

rule bam_not_endswith_rna:
    output: '{pattern}.bam'
    wildcard_constraints: pattern='.+(?<!rna)'  # negative lookbehind assertion
    shell: 'touch {output}'

使用它（snakemake 4.6.0，python 3.6）：

$ snakemake -n dna_sample.sam   # runs rule: sam_startswith_sam

$ snakemake -n sample.sam       # runs rule: sam_not_startswith_sam
$ snakemake -n sample_dna.sam   # runs rule: sam_not_startswith_sam

$ snakeamke -n sample_rna.bam   # runs rule: bam_endswith_rna

$ snakemake -n sample.bam       # runs rule: bam_not_endswith_rna
$ snakemake -n rna_sample.bam   # runs rule: bam_not_endswith_rna

这就是我认为你在做的事情：

# Snakefile2

rule sam_startswith_dna_:
    output: '{pattern}.sam'
    wildcard_constraints: pattern='dna_.+'
    shell: 'touch {output}'

rule sam_not_startswith_dna_:
    output: '{pattern}.sam'
    wildcard_constraints: pattern='(?!dna)_.+'
    shell: 'touch {output}'

使用它：

$ snakemake -s Snakefile2 dna_data.sam  # runs rule: sam_startswith_dna_

$ snakemake -s Snakefile2 rna_data.sam  # raises MissingRuleException :( :( :(

您可以通过以下方法修复它：

# Snakefile3

rule sam_startswith_dna_:
    output: '{pattern}.sam'
    wildcard_constraints: pattern='dna_.+'
    shell: 'touch {output}'

rule sam_not_startswith_dna_:
    output: '{pattern}.sam'
    wildcard_constraints: pattern='(?!dna)[^_]{3}_.+'
    shell: 'touch {output}'

使用它：

$ snakemake -s Snakefile3 -n dna_data.sam  # runs rule: sam_startswith_dna_

$ snakemake -s Snakefile3 -n rna_data.sam  # runs rule: sam_not_startswith_dna_

But由于硬编码，它不是很通用{3}:

$ snakemake -s Snakefile3 -n gdna_data.sam  # raises MissingRuleException

以下内容是根据我的简要阅读snakemake.io.regex还有一些四处闲逛；可能包含错误

一般来说，给出这样的规则：

rule some_rule:
    output: 'some.{pattern}.txt'
    wildcard_constraints: pattern='[a-z_]+'
    shell: 'touch {output}'

和这样的命令行调用：

$ snakemake some.tar_get.txt

规则some_rule将被执行，如果

re.search('some\.(?P<pattern>[a-z_]+)\.txt$', 'some.tar_get.txt')

返回匹配项（假设其他检查通过（例如歧义、循环 dag 等））。

有趣的是，$被附加到模式中，但是^没有前置。

这种行为与我最初的想法不同，我最初的想法是这样的（这将允许使用^ and $在你的wildcard_constraints):

# python3, pseudo-code-ish

output = 'some.{pattern}.txt'
pattern = '[a-z_]+'

target = 'some.tar_get.txt'

# First test: does the target file name match the output (without the constraint)?
m = re.search('some\.(?P<pattern>.+)\.txt', target)
if not m:
    raise MissingInputException

# Second test: does the wildcard satisfy user-supplied constraint?
m = re.search(pattern, m.group('pattern'))
if not m:
    raise MissingInputException

run_rule()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

无法让此正则表达式适用于 Snakemake 中的 wildcard_constraints 的相关文章

在 django ORM 中查询时如何将 char 转换为整数？

最近开始使用 Django ORM 我想执行这个查询 select student id from students where student id like 97318 order by CAST student id as UNSIG
如何使用 opencv.omnidir 模块对鱼眼图像进行去扭曲

我正在尝试使用全向模块 http docs opencv org trunk db dd2 namespacecv 1 1omnidir html用于对鱼眼图像进行扭曲处理Python 我正在尝试适应这一点C 教程 http docs op
删除flask中的一对一关系

我目前正在使用 Flask 开发一个应用程序并且在删除一对一关系中的项目时遇到了一个大问题我的模型中有以下结构 class User db Model tablename user user id db Column db String
Pandas 日期时间格式

是否可以用零后缀表示 pd to datetime 似乎零被删除了 print pd to datetime 2000 07 26 14 21 00 00000 format Y m d H M S f 结果是 2000 07 26 14
使用 kivy textinput 的 'input_type' 属性的问题

您好我在使用 kivy 的文本输入小部件的 input type 属性时遇到问题问题是我制作了两个自定义文本输入其中一个称为 StrText 其中设置了 input type text 然后是第二个文本输入名为 NumText 其
datetime.datetime.now() 返回旧值

我正在通过匹配日期查找 python 中的数据存储条目我想要的是每天选择今天的条目但由于某种原因当我将代码上传到 gae 服务器时它只能工作一天第二天它仍然返回相同的值例如当我上传代码并在 07 01 2014 执行它时它
使用 xlrd 打开 BytesIO (xlsx)

我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格使用 xlrd 应该可以但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置本例中的起点是一个带有上传输入和提交按钮的网页提交后文件被捕获req
为什么 PyYAML 花费这么多时间来解析 YAML 文件？

我正在解析一个大约 6500 行的 YAML 文件格式如下 foo1 bar1 blah name john age 123 metadata whatever1 whatever whatever2 whatever stuff thi
“隐藏”内置类对象、函数、代码等的名称和性质[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我很好奇模块中存在的类builtins无法直接访问的例如 type lambda 0 name function of module
如何通过索引列表从 dask 数据框中选择数据？

我想根据索引列表从 dask 数据框中选择行我怎样才能做到这一点 Example 假设我有以下 dask 数据框 dict A 1 2 3 4 5 6 7 B 2 3 4 5 6 7 8 index x1 a2 x3 c4 x5 y6 x
如何使用 pybrain 黑盒优化训练神经网络来处理监督数据集？

我玩了一下 pybrain 了解如何生成具有自定义架构的神经网络并使用反向传播算法将它们训练为监督数据集然而我对优化算法以及任务学习代理和环境的概念感到困惑例如我将如何实现一个神经网络例如 1 以使用 pybrain 遗传算法
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
import matplotlib.pyplot 给出 AttributeError: 'NoneType' 对象没有属性 'is_interactive'

我尝试在 Pycharm 控制台中导入 matplotlib pyplt import matplotlib pyplot as plt 然后作为回报我得到 Traceback most recent call last File D Pr
如何使用原始 SQL 查询实现搜索功能

我正在创建一个由 CS50 的网络系列指导的应用程序这要求我仅使用原始 SQL 查询而不是 ORM 我正在尝试创建一个搜索功能用户可以在其中查找存储在数据库中的书籍列表我希望他们能够查询书籍表中的 ISBN 标题作者列目前它
扩展 RegExp 以获取文件扩展名

我知道已经有很多基于 RegExp 的解决方案但是我找不到适合我需求的解决方案我有以下函数来获取 URL 的各个部分但我还需要文件扩展名 var getPathParts function url var m url match w
Python：XML 内所有标签名称中的字符串替换（将连字符替换为下划线）

我有一个格式不太好的 XML 标签名称内有连字符我想用下划线替换它以便能够与 lxml objectify 一起使用我想替换所有标签名称包括嵌套的子标签示例 XML
在本地网络上运行 Bokeh 服务器

我有一个简单的 Bokeh 应用程序名为app py如下 contents of app py from bokeh client import push session from bokeh embed import server do
python import inside函数隐藏现有变量

我在我正在处理的多子模块项目中遇到了一个奇怪的 UnboundLocalError 分配之前引用的局部变量问题并将其精简为这个片段使用标准库中的日志记录模块 import logging def foo logging info fo
Pandas 每周计算重复值

我有一个Dataframe包含按周分组的日期和 ID df date id 2022 02 07 1 3 5 4 2022 02 14 2 1 3 2022 02 21 9 10 1 2022 05 16 我想计算每周有多少 id 与上周重
使用随机放置的 NaN 创建示例 numpy 数组

出于测试目的我想创建一个M by Nnumpy 数组与c随机放置的 NaN import numpy as np M 10 N 5 c 15 A np random randn M N A mask np nan 我在创建时遇到问题mas

随机推荐

Hadoop HDFS 中块的概念

我对 Hadoop 中的块有一些疑问我读到 Hadoop 使用 HDFS 来创建特定大小的块第一个问题这些块是否物理存在于普通文件系统如 NTFS 的硬盘上即我们可以看到托管文件系统 NTFS 上的块还是只能使用 hadoop 命令
Perl 就地编辑：在 X12850 格式的文件中查找和替换

我是 Perl 新手无法弄清楚这一点我有一个名为Test ISA 00 00 01 SupplyScan 01 NOVA 180815 0719 U 00204 000000255 0 P GS PO SupplyScan NOVA 2
如何在 Android Studio 中删除代码格式中不必要的空白行

是否可以在 Android Studio 中删除代码格式中不必要的空白行 Yes It is possible to configure the number of blank lines in the settings menu File
Oracle JET：淘汰赛未更新变量

我有以下 oracle jet 和淘汰赛 html 文件
以编程方式设置 type="file" 输入 HTML 元素的值？ [复制]

这个问题在这里已经有答案了 Note 下面的答案反映了 2009 年旧版浏览器的状态现在您实际上可以在 2017 年使用 JavaScript 动态编程地设置文件输入元素的值有关详细信息以及演示请参阅此问题中的答案如何以编程方式
为自定义驱动程序创建 GraphicsDevice

我正在开发一个在嵌入式系统中使用 Java 的项目我有用于屏幕和触摸输入的驱动程序以及用于文本输入的虚拟键盘我的屏幕驱动程序有一个Graphics2D您可以绘制的对象和repaint Rectangle 更新方法类似地触摸驱动器能
将所有函数保存在txt文件中

我通常会运行大量模拟R 在模拟之间 R 的某些部分代码会改变通常情况下我会站在旁边模拟结果包含以下内容的 txt 文件其中使用的每个函数的定义模拟为了制作该 txt 文件我只需运行这一行 for j in 1 length
开始学习 JavaFX 之前需要了解什么？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我读到了 JavaFX 相对于 Swing 的优势这不是讨论的重点我想学习 JavaFX 但后来我对 JavaFX 脚本和 XML
Android Square Picasso 无法加载土耳其字符图像 url

我尝试使用 square picasso 一个网络应用程序但是如果我的图片网址包含土耳其字符毕加索未加载该网址正在运行 http www bulenttiras com wp content uploads 2014 02 kokhu
虚拟类中的抽象方法

我有一个 C 类它有很多虚拟方法其中一些方法本质上是抽象的它们在子类中完全实现基类是空的为了让它编译我在基类中抛出一个 InvalidOperationException 并注释应该做什么这只是感觉很脏有更好的方法来设计我的
Android，日文字符文件名比较问题

我正在尝试将搜索字符串与文件名与 Android 上的递归目录搜索相匹配问题是字符是日语在某些情况下不匹配例如我尝试匹配文件名开头的搜索字符串是呼当我从 file getName 打印文件名时这会准确反映例如打印到控制台的文
Oracle中如何进行条件插入？

我读了here http psoug org snippet INSERT WHEN 588 htm语法如下所示 INSERT WHEN Condition THEN INTO TableName ColumnName VALUES VAL
使用 Polly 断路器处理多种服务的正确方法

我有一个应用程序我们可以在其中与数百个 HTTP 端点进行通信该应用程序是某种代理在使用 polly 进行测试时我注意到如果一个端点比如说api endpoint1 com失败调用api endpoint2 com and ap
如何使用SQL查询来定义dbtable中的表？

In JDBC 到其他数据库 http spark apache org docs latest sql programming guide html jdbc to other databases我找到了以下解释dbtable范围应读取
当单元格内容被截断时，将 VB.Net DataGridView 中的三个点（省略号）(...) 更改为自定义字符

我正在 VB Net 中开发一个项目并且使用古吉拉特语字体非 Unicode 我放置了一个 DaraGridView DGV 并在 DGV 中显示数据库中存储的数据在 DGV 中如果单元格的内容被截断则 DGV 显示椭圆三个点
iPhone 应用程序和 Web 应用程序之间的双向同步

我有一个依赖于 MySQL 数据库的 Web 应用程序我正在考虑为其构建一个 iPhone 应用程序该应用程序将允许用户在网络应用程序上浏览插入更新删除其帐户的数据最简单的方法是将 iPhone 应用程序简单地构建为 Web 应
java.lang.IllegalStateException：凭证加密存储中的 SharedPreferences 在用户解锁之前不可用

Google Pixel 设备 OS 9 0 pie 上的 cashlytics 中不会记录崩溃 Playstore 将 ANR Crashes 报告为 java lang IllegalStateException 凭证加密存储中的 Sh
C# catch(FileNotFoundException) 和 CA1031

所以这段代码会触发CA1031 try logic catch FileNotFoundException exception type handle error 虽然这个没有 try logic catch FileNotFoundExc
密码确认验证 CakePHP

我进行了广泛的搜索尝试了书中的每一个技巧但我仍然无法让我的 CakePHP 应用程序执行简单的密码确认验证我尝试创建一个自定义验证规则如下所示 passwordequal gt array rule gt checkpassword
无法让此正则表达式适用于 Snakemake 中的 wildcard_constraints

我有一个用 Snakemake 编写的工作流程用于分析生物测序数据工作流程期望对所有数据文件进行组织以便每个原始读取文件都以检测类型 RNASeq DNaseSeq 等开头并且在工作流程生成的所有文件中都保持此文件名约定我有一个

无法让此正则表达式适用于 Snakemake 中的 wildcard_constraints

无法让此正则表达式适用于 Snakemake 中的 wildcard_constraints 的相关文章

随机推荐

热门标签