如何在 Snakemake 表格配置中使用列表，用于描述生物信息学管道的测序单元

2024-02-11

如何在 Snakemake 表格配置中使用列表。

我使用 Snakemake Tabular（与 BWA mem 映射）配置来描述我的测序单元（在单独的行上测序的文库）。在分析的下一阶段，我必须合并测序单元（映射的 .bed 文件）并获取合并的 .bam 文件（每个样本一个）。现在我使用 YAML 配置来描述哪些单元属于哪些样本。但我希望为此目的使用表格配置，

我不清楚如何从制表符分隔文件的单元格中编写和调用列表（包含示例信息）。

这就是我的单位表格配置的样子：

Unit    SampleSM    LineID  PlatformPL  LibraryLB   RawFileR1   RawFileR2
sample_001.lane_L1  sample_001  lane_L1 ILLUMINA    sample_001  /user/data/sample_001.lane_L1.R1.fastq.gz   /user/data/sample_001.lane_L1.R2.fastq.gz
sample_001.lane_L2  sample_001  lane_L2 ILLUMINA    sample_001  /user/data/sample_001.lane_L2.R1.fastq.gz   /user/data/sample_001.lane_L2.R2.fastq.gz
sample_001.lane_L8  sample_001  lane_L8 ILLUMINA    sample_001  /user/data/sample_001.lane_L8.R1.fastq.gz   /user/data/sample_001.lane_L8.R2.fastq.gz
sample_002.lane_L1  sample_002  lane_L1 ILLUMINA    sample_002  /user/data/sample_002.lane_L1.R1.fastq.gz   /user/data/sample_002.lane_L1.R2.fastq.gz
sample_002.lane_L2  sample_002  lane_L2 ILLUMINA    sample_002  /user/data/sample_002.lane_L2.R1.fastq.gz   /user/data/sample_002.lane_L2.R2.fastq.gz

这是我的示例 YAML 配置的样子：

samples:
 "sample_001": ["sample_001.lane_L1", "sample_001.lane_L2", "sample_001.lane_L8"]
 "sample_002": ["sample_002.lane_L1", "sample_002.lane_L2"]

我的 Snakemake 代码：

import pandas as pd
import os

workdir: "/user/data/snakemake/"

configfile: "Samples.yaml"

units_table = pd.read_table("Units.tsv").set_index("Unit", drop=False)

rule all:
    input:
        expand('map_folder/{unit}.bam', unit=units_table.Unit),
        expand('merge_bam_folder/{sample}.bam', sample=config["samples"]),

rule map_paired_end:
    input:
        r1 = lambda wildcards: expand(units_table.RawFileR1[wildcards.unit]),
        r2 = lambda wildcards: expand(units_table.RawFileR2[wildcards.unit])
    output:
        bam = 'map_folder/{unit}.bam'
    params: 
        bai = 'map_folder/{unit}.bam.bai',
        ref='/user/data/human_g1k_v37.fasta.gz',
        SampleSM = lambda wildcards: units_table.SampleSM[wildcards.unit],
        LineID = lambda wildcards: units_table.LineID[wildcards.unit],
        PlatformPL = lambda wildcards: units_table.PlatformPL[wildcards.unit],
        LibraryLB = lambda wildcards: units_table.LibraryLB[wildcards.unit]
    threads:
        16  
    shell:
            r"""
                    seqtk mergepe {input.r1} {input.r2}\
                    | bwa mem -M -t {threads} -v 3 \
                    {params.ref} - \
                    -R "@RG\tID:{params.LineID}\tSM:{params.SampleSM}\tPL:{params.PlatformPL}\tLB:{params.LibraryLB}"\
                    | samtools view -u -Sb - \
                    | samtools sort - -m 4G -o {output.bam} 

                    samtools index {output.bam}
                    """

rule samtools_merge_bam:
    input:  
        lambda wildcards: expand('map_folder/{file}.bam', file=config['samples'][wildcards.sample])
    output:
        bam = 'merge_bam_folder/{sample}.bam'
    threads:
        1
    shell:  
                    r"""
                    samtools merge {output.bam} {input}

                    samtools index {output.bam}
                    """

下面这个呢？

我已排除 Samples.yaml，因为我认为鉴于您的示例表，没有必要这样做。

In rule samtools_merge_bam您收集共享同一 SampleSM 的所有 unit-bam 文件。这些unit-bam文件创建于map_paired_end其中 lambda 表达式收集每个单元的 fastq 文件。

另请注意，我已从所有规则中删除了 unit-bam 文件，因为（我认为）这些只是中间文件，可以使用以下命令将它们标记为临时文件：temp() https://snakemake.readthedocs.io/en/stable/snakefiles/rules.html#protected-and-temporary-files flag.

import pandas as pd
import os

workdir: "/output/dir" 

units_table = pd.read_table("Units.tsv")
samples= list(units_table.SampleSM.unique())

rule all:
    input:
        expand('merge_bam_folder/{sample}.bam', sample= samples),

rule map_paired_end:
    input:
        r1 = lambda wildcards: units_table.RawFileR1[units_table.Unit == wildcards.unit],
        r2 = lambda wildcards: units_table.RawFileR2[units_table.Unit == wildcards.unit],
    output:
        bam = 'map_folder/{unit}.bam'
    params: 
        bai = 'map_folder/{unit}.bam.bai',
        ref='/user/data/human_g1k_v37.fasta.gz',
        SampleSM = lambda wildcards: list(units_table.SampleSM[units_table.Unit == wildcards.unit]),
        LineID = lambda wildcards: list(units_table.LineID[units_table.Unit == wildcards.unit]),
        PlatformPL = lambda wildcards: list(units_table.PlatformPL[units_table.Unit == wildcards.unit]),
        LibraryLB = lambda wildcards: list(units_table.LibraryLB[units_table.Unit == wildcards.unit]),
    threads:
        16  
    shell:
        r"""
        seqtk mergepe {input.r1} {input.r2}\
        | bwa mem -M -t {threads} -v 3 \
        {params.ref} - \
        -R "@RG\tID:{params.LineID}\tSM:{params.SampleSM}\tPL:{params.PlatformPL}\tLB:{params.LibraryLB}"\
        | samtools view -u -Sb - \
        | samtools sort - -m 4G -o {output.bam} 

        samtools index {output.bam}
        """

rule samtools_merge_bam:
    input:  
        lambda wildcards: expand('map_folder/{unit}.bam',
            unit= units_table.Unit[units_table.SampleSM == wildcards.sample])
    output:
        bam = 'merge_bam_folder/{sample}.bam'
    threads:
        1
    shell:  
        r"""
        samtools merge {output.bam} {input}

        samtools index {output.bam}
        """

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Snakemake 表格配置中使用列表，用于描述生物信息学管道的测序单元的相关文章

如何在 Google App Engine 的 Python 中获取 StringProperty 的值？

如何获取 nbd Model 的值我想返回由多个字段组成的描述但我无法让它工作这是我的班级代码 class User ndb Model name ndb StringProperty email ndb StringProperty
Tipfy：如何在模板中显示blob？

鉴于在 gae 上使用tipfy http www tipfy org python 以下模型 greeting avatar db Blob avatar 显示 blob 此处为图像的模板标签是什么在这种情况下斑点是一个图像这很棒
使用 pandas 将字符串对象转换为 int/float

import pandas as pd path1 home supertramp Desktop 100 life 180 data csv mydf pd read csv path1 numcigar Never 0 1 5 Ciga
使用多级解决方案计算二维网格中的最近邻

我有一个问题在 x y 大小的网格中我提供了一个点并且我需要找到最近的邻居在实践中我试图在 pygame 中找到距离光标最近的点该点跨越颜色距离阈值计算如下 sqrt rgb1 0 rgb2 0 2 rgb1 1 rgb2 1
numpy：大量线段/点的快速规则间隔平均值

我沿着一维线有许多约 100 万个不规则间隔的点 P 这些标记线段这样如果点是 0 x a x b x c x d 则线段从 0 gt x a x a gt x b x b gt x c x c gt x d 等我还有每个段的 y
如何使用 i18n 切换器将“LANGUAGE_CODE”保存到数据库，以便在 Django 中的不同浏览器中语言不会更改？

有什么办法可以改变它的值LANGUAGE CODE单击按钮发送请求时 settings py 中的变量会动态变化吗我希望用户设置自己的默认语言他们的帐户现在用户可以使用下拉列表选择他们的首选语言并且网站会得到完美的翻译并且
通用详细视图 ProfileView 必须使用对象 pk 或 slug 调用

我是 Django 2 0 的新手在访问我的个人资料页面视图时收到此错误它适用于像这样的网址path users
对于相同的查询，MySQL Workbench 比 Python 快得多

MySQL Workbench 中的以下查询需要 0 156 秒才能完成 SELECT date time minute price id FROM minute prices WHERE contract id 673 AND TIMES
在 iPython/pandas 中绘制多条线会生成多个图

我试图了解 matplotlib 的状态机模型但在尝试在单个图上绘制多条线时遇到错误据我了解以下代码应该生成包含两行的单个图 import pandas as pd import pandas io data as web aapl
在谷歌云上训练神经网络时出现“无法获取路径的文件系统”错误

我正在使用 Google Cloud 在云上训练神经网络如下例所示 https cloud google com blog big data 2016 12 how to classify images with tensorflow u
如何使用 Celery 多工作人员启用自动缩放？

命令celery worker A proj autoscale 10 1 loglevel info启动具有自动缩放功能的工作人员当创建多个工人时 me mypc projects x celery multi start mywork
使用 WSGI 在 Windows XAMPP 中设置 Python 路径

我正在 Webfaction 上设置实时服务器的开发版本在本地计算机上的虚拟 Apache 服务器环境运行没有任何错误中运行 Django 应用程序 XP 使用 Python 2 6 运行 XAMPP Lite 我可以提交更改通过 G
PyArmor - 打包为一个可执行文件

当我执行此命令时您好使用 PyArmor pyarmor pack main py 它将它打包到一个名为的文件夹中dist里面包含我的 exe 以及许多 Python 扩展文件据我所知 PyArmor 使用 PyInstaller 来
如何正确导入主代码和模块中同时使用的模块？

假设我有一个主脚本 main py 它导入另一个 python 文件import coolfunctions另一个 import chores 现在假设 Coolfunctions 也使用家务活中的东西因此我声明import chore
为什么 __instancecheck__ 没有被调用？

我有以下 python3 代码 class BaseTypeClass type def new cls name bases namespace kwd result type new cls name bases namespace p
Selenium 不会在新选项卡中打开新 URL（Python 和 Chrome）

我想使用 Selenium WebDriver 和 Python 在不同的选项卡中打开相当多的 URL 我不确定出了什么问题 driver webdriver Chrome driver get url1 time sleep 5 driv
如何分析组合的 python 和 c 代码

我有一个由多个 python 脚本组成的应用程序其中一些脚本正在调用 C 代码该应用程序现在的运行速度比以前慢得多因此我想对其进行分析以查看问题所在是否有工具软件包或只是一种分析此类应用程序的方法有一个工具可以将 python
根据列索引重命名 Dataframe 列

是否有内置函数可以按索引重命名 pandas 数据框我以为我知道列标题的名称但事实证明第二列中有一些十六进制字符根据我接收数据的方式我将来可能会在第 2 列中遇到这个问题因此我无法将这些特定的十六进制字符硬编码到 datafram
如何使用 Pandas Series 绘制两个不同长度/开始日期的时间序列？

我正在绘制每周总事件的几个熊猫系列对象系列中的数据events per week看起来像这样 Datetime 1995 10 09 45 1995 10 16 63 1995 10 23 83 1995 10 30 91 1995
使用 SERVER_NAME 时出现 Flask 404

在我的 Flask 配置中我将 SERVER NAME 设置为 app example com 之类的域我这样做是因为我需要使用url for with external网址如果未设置 SERVER NAME Flask 会认为服务器

随机推荐

抖动问题：RenderFlex 右侧溢出 248 像素

我在一列中使用了三个文本其中一个文本很长然后我收到此错误 RenderFlex 右侧溢出了 248 像素我在一列中使用了三个文本其中一个文本字段很长然后我收到此错误 RenderFlex 右侧溢出了 248 像素如何修复它 Th
Vue Router 转到新页面顶部

现在在我的 Vue 应用程序中当我单击
当工作线程是事件驱动时，BackgroundService.ExecuteAsync 应该返回什么？

Worker Service 是在 NET Core 3 x 中编写 Windows 服务的新方法工人阶级扩大Microsoft Extensions Hosting BackgroundService https learn micro
有没有一种简单的方法可以告诉 SpaCy 在使用 .similarity 方法时忽略停用词？

所以现在我有一个非常简单的程序它将获取一个句子并在给定的书中找到语义最相似的句子并打印出该句子以及接下来的几个句子 import spacy nlp spacy load en core web lg load alice in wo
随着 AsyncTaskLoader 的存在，AsyncTask 是否已被弃用？

尽我所知 AsyncTaskLoader不仅拥有所有的能力AsyncTask而且还结合了最佳实践例如避免内置的重复线程和过早死亡使用有任何理由吗AsyncTask不再或者我应该一直使用AsyncTaskLoader盲目地我问这个问题
如何使用Java反射获取参数名称[重复]

这个问题在这里已经有答案了如何使用 Java 反射获取方法签名 EDIT 我实际上需要参数 NAMES 而不是方法的类型要获取您调用的类 C 的方法 iC class getMethods i toString EDIT 获得参数名称
App Engine：NDB 和数据存储之间的区别

我现在正在浏览 Google App Engine 文档 Python 发现了两种不同类型的存储 NDB 数据存储数据库数据存储两个配额限制免费似乎相同它们的数据库设计也相同然而NDB会自动将数据缓存在Memcache中我实际
Quartz：不实现接口成员

我正在使用 Quartz 并使用示例代码并收到错误 CS0738 EmailJob 未实现接口成员IJob Execute IJobExecutionContext EmailJob Execute IJobExecutionContext
在 SignalR Hub 上使用通用方法

我正在为我的 SignalR 服务器创建一个 Hub 类并希望使用一种通用方法这将使我免于编写大量代码但是当我尝试从 Xamarin iOS 客户端也是 C 语言调用下面的服务器代码时 SignalR 给了我错误服务器代码您
Java：ExecutorService 在达到一定队列大小后阻塞提交[重复]

这个问题在这里已经有答案了我正在尝试编写一个解决方案其中单个线程生成可以并行执行的 I O 密集型任务每个任务都有重要的内存数据所以我希望能够限制当前待处理的任务数量如果我像这样创建 ThreadPoolExecutor Thre
给定三角形顶点坐标，求 3D 三角形的旋转角度

我尝试在 3D 中旋转和平移一个等边三角形直到他的顶点到达某个坐标顶点坐标F G H and F G H 已知我能够找到新的质心c 坐标是这样的 c x F x G x H x 3 c y F y G y H y 3 c z F z
Android 外部库项目出现 NoClassDefFoundError

我使用 eclipse 进行 Google Android 开发我创建了一个图书馆项目 x Is Library在 Android 设置中其中包括外部 jar 文件参考库该库项目在另一个项目将使用该库项目的实际项目中引用这是通
错误 - 未标记为可序列化

我收到的错误是 Type OrgPermission in Assembly App Code ptjvczom Version 0 0 0 0 Culture neutral PublicKeyToken null is not mark
根据父子数据绘制树形图或组织图

我在带有 GroupID TreeID 的表中有父子信息从这张表中我想得出这样的结果画树的目的只是为了观看该表有数千个组ID 树结构我正在使用 NET 平台我应该如何进行 create table parent child Gro
XXX_* 输入生成的 *.pb.go 文件

我正在研究一个tutorial https ewanvalentine io microservices in golang part 1 关于 gRPC 当我生成 pb go文件我得到一些XXX 输入我的结构这是我的consignme
Eclipse > Javascript > 代码高亮不能使用对象表示法

我在用Eclipse Helios 使用 PDT 以及当我使用默认值编辑 JavaScript 文件时JavaScript Editor JSDT 代码高亮 Mark Occurrences 不适用于 JSON style or Objec
嵌套 vue.js 实例/元素

这可能听起来像一个真正的菜鸟问题但我对 MVVM 甚至 JS 中的 MVC 都很陌生所以提前抱歉我正在使用 vue js 并且到目前为止很喜欢它的简单性但对于我想做的事情我认为我需要以不同的方式去做我想将 Vue 实例元素嵌套
从两个多态类继承

给出以下代码 class T public virtual T virtual void foo 0 class U public U U void bar std cout lt lt bar lt lt std endl class A
如何在 join linq 语法中比较 null

处理 EF 4 C Face join 中的问题 SQL语法 Select a Code b Name from DepartmentMaster a Join DepartmentDetail b on isnull a ID 0 isn
如何在 Snakemake 表格配置中使用列表，用于描述生物信息学管道的测序单元

如何在 Snakemake 表格配置中使用列表我使用 Snakemake Tabular 与 BWA mem 映射配置来描述我的测序单元在单独的行上测序的文库在分析的下一阶段我必须合并测序单元映射的 bed 文件并获取合并的

如何在 Snakemake 表格配置中使用列表，用于描述生物信息学管道的测序单元

如何在 Snakemake 表格配置中使用列表，用于描述生物信息学管道的测序单元 的相关文章

随机推荐

热门标签

如何在 Snakemake 表格配置中使用列表，用于描述生物信息学管道的测序单元的相关文章