HISAT2 - StringTie - DESeq2 pipeline 进行bulk RNA-seq

2023-05-16

软件官网：

Hisat2： Manual | HISAT2

StringTie：StringTie

文章：Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown | Nature Protocols

建议看保姆级教程：

1. RNA-seq : Hisat2+Stringtie+DESeq2 – 恒诺新知

2. RNA-seq用hisat2、stringtie、DESeq2分析 - 简书

基本用法：

1. 构建参考基因组索引

# 提取剪接位点和外显子信息
extract_splice_sites.py Mus_musculus.GRCm39.104.gtf > Mus_musculus.ss
extract_exons.py Mus_musculus.GRCm39.104.gtf > Mus_musculus.exon
# 建立索引
# 最后的 Mus_musculus.GRCm39_tran 为索引文件前缀
hisat2-build --ss Mus_musculus.ss --exon Mus_musculus.exon              Mus_musculus.GRCm39.dna.primary_assembly.fa \
               Mus_musculus.GRCm39_tran
# 时间超长，大于12h，建议晚上跑

2. 参考基因组比对

# -x跟索引名前缀，-1，-2跟双端测序文件，-U跟单端测序文件，-S输出为sam格式的文件,-p线程数量
# 我们直接输出为排序好的bam文件
# --dta输出为转录本组装的reads，--summary-file输出比对信息
hisat2 -p 10 --dta -x path/to/Mus_musculus.GRCm39_tran 
         --summary-file test1_summary.txt 
         -1 1.fastq-data/test1_R1_rep1.fq.gz 
         -2 1.fastq-data/test1_R2_rep1.fq.gz 
         -S test1.sam

3. samtools 对输出 sam 文件排序并转为 bam 文件

# -@为samtools的线程数
samtools sort -@ 10 -o test1.sorted.bam test.sam

4. 转录本组装

# 组装转录本，-p为线程数，-G为组装参考注释文件，-l为输出文件名前缀
# 单个样本运行
stringtie -p 10 -G Mus_musculus.GRCm38.102.gtf 
                -l test1 
                -o test1.gtf 
                test1.sorted.bam

5. 注释文件合并

# 创建 mergelist.txt 文件，指明组装后注释文件的路径
path/to/test1.gtf
path/to/test2.gtf
path/to/test3.gtf

# 合并gtf文件
$ stringtie --merge -p 10 -G ./Mus_musculus.GRCm38.102.gtf 
                    -o stringtie_merged.gtf 
                    mergelist.txt

6. 利用生成的注释文件对转录本进行定量

# 创建一个新的 test1 文件夹，转录本定量结果保存到文件夹中
mkdir test1/
stringtie  -p 10 -e -G ./stringtie_merged.gtf 
             -o test1/test1.gtf 
             -A test1/gene_abundances.tsv 
             test1.sorted.bam
# 相应文件夹下生成样本名.gtf和gene_abundances.tsv的两个文件，对应每个样本的 count 值定量结果，我们需要合并到一个文件里。

7. 提取基因定量结果

prepDE.py 需要一个 sample_list，第一列为样本名，第二列为 gtf 文件路径

# sample_list.txt 文件内容如下
test1 path/to/test1/test1.gtf
test2 path/to/test1/test2.gtf
test3 path/to/test1/test3.gtf
test4 path/to/test1/test4.gtf

# 提取合并count结果，-i为输入sample_list
prepDE.py -i sample_list.txt

# 生成gene_count_matrix.csv和transcript_count_matrix.csv文件

8. 选做：提取 FPKM/TPM 或 coverage 结果

需要用到stringtie_expression_matrix.pl，下载地址如下：

rnaseq_tutorial/stringtie_expression_matrix.pl at master · griffithlab/rnaseq_tutorial · GitHub

# 提取TPM
$ ./stringtie_expression_matrix.pl --expression_metric=TPM 
                                   --result_dirs='test1_rep1,test1_rep2,test2_rep1,test2_rep2' 
                                   --transcript_matrix_file=transcript_tpms_all_samples.tsv 
                                   --gene_matrix_file=gene_tpms_all_samples.tsv

# 提取FPKM
./stringtie_expression_matrix.pl --expression_metric=FPKM 
                                   --result_dirs='test1_rep1,test1_rep2,test2_rep1,test2_rep2' 
                                   --transcript_matrix_file=transcript_fpkms_all_samples.tsv 
                                   --gene_matrix_file=gene_fpkms_all_samples.tsv

# 提取coverage
./stringtie_expression_matrix.pl --expression_metric=coverage 
                                   --result_dirs='test1_rep1,test1_rep2,test2_rep1,test2_rep2' 
                                   --transcript_matrix_file=transcript_coverage_all_samples.tsv 
                                   --gene_matrix_file=gene_coverage_all_samples.tsv
# 在当前目录就会生成相应的基因和转录本的tpm、fpkm、coverage 结果

9. DESeq2 差异分析

# 安装DESeq2包
BiocManager::install('DESeq2')
# 加载包
library(DESeq2)
# 设置工作路径
setwd('D:rnaseq')
# 读入counts矩阵
gene_count_matrix <- read.csv("D:/rnaseq/gene_count_matrix.csv",row.names = 1)
count <- gene_count_matrix[rowSums(gene_count_matrix)>0,]
# 构建表型矩阵
colData <- data.frame(row.names = colnames(count),
                      condition = factor(c(rep('control',2),rep('treat',2)),
                                           levels=c('control','treat'))
                      )
# 查看
colData
#            condition
# test1_rep1   control
# test1_rep2   control
# test2_rep1     treat
# test2_rep2     treat

dds <- DESeqDataSetFromMatrix(countData = count, colData = colData,design = ~ condition)
dds <- DESeq(dds)
res <- results(dds)
diff_res <- as.data.frame(res)
diff_res$gene_name <- rownames(diff_res)
# 输出差异结果
write.table(diff_res,file = 'DESeq2_diff_results.csv',quote = F,sep = ',',row.names = F,col.names = T)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

HISAT2

StringTie

deseq2

pipeline

bulk

HISAT2 - StringTie - DESeq2 pipeline 进行bulk RNA-seq 的相关文章

Powershell Get-ChildItem 进度问题

所以我在一个文件夹中有一组目录 00 99 每个目录都有 100 个子目录 00 99 每个子目录都有数千张图像我想做的基本上是在计算平均文件大小时获得进度报告但我无法让它发挥作用这是我当前的查询 get childitem
如何使用 write() 或 fwrite() 将数据写入终端（stdout）？

我正在尝试加快我的 C 程序的速度以便更快地输出数据目前我正在使用printf 向外界提供一些数据它是连续的数据流因此我无法使用 return data 我该如何使用write or fwrite 将数据提供给console而不是文
Reasonml 中 -> 和 |> 有什么区别？

经过一段时间的激烈谷歌搜索我得到了一些例子人们在一个代码中使用两种类型的运算符但通常它们看起来就像做一件事的两种方式它们甚至具有相同的名称 tl dr 决定性的区别在于 gt 管道到第一个参数同时 gt 管道到最后那是 x gt
管道中何时进行路由？

ASP NET MVC 管道中何时进行路由 IIS 7 0 的 ASP NET 应用程序生命周期概述 http msdn microsoft com en us library bb470252 aspx 是否在第 2 步执行 URL 映
Gitlab CI：仅在工件存在时运行作业

我有 monorepo 我想根据已更改的目录内容运行子管道在工作中prepare config我检查最新更改在哪里我创建子配置 yml 并在下一阶段的工作中run child我从运行子管道问题是如果model gitlab ci
如何修复“kex_exchange_identification：读取：对等方重置连接”？

我想复制数据scp在使用 PRIVATE KEY 的 GitLab 管道中错误是 kex exchange identification read Connection reset by peer Connection reset by
如何在 Powershell cmdlet 中将 CSV 文件的内容处理为管道输入

我想使用 CSV 文件来提供 powershell cmdlet 的参数 Role email fname lname Admin email protected cdn cgi l email protection John Smith
为什么 du 或 echo 流水线不起作用？

我正在尝试对当前目录中的每个目录使用 du 命令所以我尝试使用这样的代码 ls du sb 但它没有按预期工作它仅输出当前的大小目录仅此而已 echo 也是同样的情况 ls echo 输出空行为什么会发生这种情况使用管道发送输出
如何从标准输入中提取 tar 存档？

我有一个很大的 tar 文件split 是否有可能cat并使用管道解压文件就像是 cat largefile tgz aa largefile tgz ab tar xz 代替 cat largefile tgz aa largfile
使用 Batchblock.Triggerbatch() 在 TPL 数据流管道中进行数据传播

在我的生产者消费者场景中我有多个消费者每个消费者都向外部硬件发送一个操作这可能需要一些时间我的管道看起来有点像这样 BatchBlock gt TransformBlock gt BufferBlock gt 几个 ActionB
如何在 Python 中创建迭代器管道？

是否有库或推荐的方法在 Python 中创建迭代器管道例如 gt gt gt all items get created by location surrounding cities 我还希望能够访问迭代器中对象的属性在上面的例子中 a
MongoDB 中的批量更新/更新插入？

是否可以在 MongoDB 中进行批量更新更新插入而不是插入如果是请指出与此相关的任何文档 Thanks 您可以使用命令行程序蒙戈进口公司它应该在你的 MongoDB bin 目录中您需要考虑使用两个选项upsert upsert
通知所有组成员 GitLab 中失败的管道

目标是让每个人都能收到每个失败管道的通知由他们自行决定目前我们任何人都可以在这个项目分支上运行管道并且管道的创建者会收到一封电子邮件而其他人则不会我尝试将通知级别设置为watch and custom with failed p
我们可以使用 nlmrt 包中的 nlxb 进行预测吗？

我问这个问题是因为我不明白为什么nlxb拟合函数不能与 Predict 函数一起使用我一直在寻找解决这个问题的方法但到目前为止还没有运气 I use dplyr对数据进行分组并使用do适合每个组使用nlxb from nlmrt包裹这
IIS、Asp.NET 管道和并发性

我想知道 Web 应用程序中的并发实际上是如何工作的我读过几篇文章据我了解 HttpApplication 的多个实例将同时工作现在我创建了一个简单的 Web 应用程序来测试并发性并将以下内容放入 global asax prot
IIS7 集成与经典管道 - 哪个使用更多 ASP.NET 线程？

通过集成管道所有请求都通过 ASP NET 传递包括图像 CSS 而在经典管道中默认情况下仅通过 ASP NET 传递对 ASPX 页面的请求集成管道会对线程使用产生负面影响吗假设我从 IIS 服务器请求 500 MB 二进制文件
C# - 管道式事件模型

在 ASP NET Web 应用程序中事件按特定顺序触发为了简单起见加载 gt 验证 gt 回发 gt 渲染假设我想开发这样的管道式事件例子活动1 观众正在聚集各位活动2和活动3请等待直到我发出信号事件 1 完成任务后活
在获得响应之前发出多个请求

当并行发送多个请求时在获得响应之前我无法理解 HTTP 的工作原理有两种情况 1 With Connection Keep Alive 根据HTTP规范 http www w3 org Protocols rfc2616 rfc261
属性错误：未找到下层；在 scikit-learn 中使用带有 CountVectorizer 的 Pipeline

我有一个这样的语料库 X train this is an dummy example in reality this line is very long here is a last text in the training set 和一
从 azure pipeline.yml 将变量组参数传递到模板时出现问题

我已经声明了一个变量组Agile Connections 如下所示该组对任何管道没有任何限制我正在使用另一个名为 vars yml 的模板来存储一些其他变量 variables group Agile Connections name

随机推荐

[错误日志]ArchLinux: libpangox-1.0.so.0 =＞ not found

错误日志 ArchLinux libpangox 1 0 so 0 61 gt not found 前言解决过程前言今天在运行程序时遇到了缺少 so依赖的情况 xff0c 而度娘没能给出arch的解决方案 xff08 主要是缺源 xff
Android Studio 手机调试

我手机是小米9 CC xff0c 找了很多博主的文章都是没有讲不显示 34 Run 34 app 34 34 的问题解决方案安装好Android studio 配置环境打开Android studio File Settings 选中A
xtigerVNC systemd失败提示 Unrecoverable failure in required component org.gnome.Shell.desktop

Unrecoverable failure in required component org gnome Shell desktop 2月 23 09 47 36 jiudao HP Z230 Tower Workstation gnom
浅谈Android指纹识别技术

浅谈Android指纹识别技术当今时代 xff0c 随着移动智能手机的普及 xff0c 指纹解锁早已是手机不可或缺的一个功能除了现在比较新款的iPhone或者部分手机采用了Face ID之外 xff0c 人们几乎天天都会用到指纹解锁技术
安装ubuntu分区建议

前言 xff1a 备份用 xff0c 非原创 Step1 xff1a Start the installation Proceed to Step 4 and choose Something else Step2 xff1a Create
为贝尔吉比特电信G-120W-B光猫添加自动重启功能

定时重启光猫 xff0c 有利于清除光猫进行中产生的垃圾提升光猫的运行速度 xff0c 还能防止遭受黑客的GPT攻击 xff08 家用光猫重启后会重新分配IP地址 xff09 xff0c 既然有这么多好处 xff0c 快来把我们的光猫设置为
使用yolo-v5训练测试自己的数据

使用环境 xff1a python3 6 8 CUDA10 0 Centos7 5 目录一前言 1 1下载yolov5代码 1 2安装yolov5运行时需要的包 1 3下载预训练模型和测试二制作自己的训练数据集 2 1使用Label
ImportError: libSM.so.6: cannot open shared object file: No such file or directory一系列错误解决方式

Centos7系统出现 xff1a ImportError libSM so 6 cannot open shared object file No such file or directory的解决方式 xff1a 错误1 xff1a 解
Centos7开放和关闭某个端口

1 开放端口 firewall cmd zone 61 public add port 61 8688 tcp permanent 开放8688端口 firewall cmd reload 使配置立刻生效 2 关闭端口 firewall c
解决error C2059: 语法错误:“::”问题

错误代码提示 xff1a 1 gt f opencv opencv build include opencv2 flann lsh table h 266 error C2059 语法错误 f opencv opencv build inc
C++ string字符串的UTF-8与GBK(GB2312)编码相互转换转换

UTF8 GBK Tools hpp内容如下 xff1a pragma once include lt iostream gt include lt string gt include lt fstream gt include lt wi
Ubuntu卸载protobuf并安装3.6.0版本的protobuf

1 卸载Ubuntu自带的protobuf xff1b sudo apt get remove libprotobuf dev which protoc 运行完 which protoc 会显示一个protoc的路径 xff0c 如果没有显
python 图片上添加中文文字

1 在 C Windows Fonts Microsoft YaHei UI 目录下搜索找到 msyh ttc xff0c 复制到工程目录 2 编写代码 xff1a from PIL import Image from PIL import
移除数组中某个数

移除数组中某个数 span class token macro property span class token directive keyword include span span class token string lt stdi
Ubuntu系统修改用户名，主机名

0 Ubuntu是一个Linux操作系统 xff0c 修改密码和用户名是有危险的动作 xff0c 请谨慎修改提示 xff1a 如果你要修改密码和用户名的话 xff0c 请先修改密码 xff0c 重启后 xff0c 再修改用户名 xff0c
Ubuntu 多用户管理及 SSH 远程连接

目录 1 Ubuntu 多用户管理的场景 2 多用户管理理解 3 多用户管理 1 创建用户组 2 创建用户 3 给用户分配权限 4 SSH远程连接 1 Ubuntu 多用户管理的场景多人需要远程登录服务器完成各自的任务 xff0c 同时各
如何使用Typora快速高效的写Csdn博客

最近终于有时间写点东西了 xff0c 准备写一些技术博客 xff0c 一是为了记录自己学习工作中的一些心得 xff0c 二是多年来自己的知识几乎都是从别的大牛那里白嫖来的 xff0c 现在有时间了也想把自己的一些感想贡献给爱好学习的年经人
keil5工程重命名

有一个简单的办法假设原来的工程文件名是first xff0c 在工程文件目录中 xff0c 你可以看到很多主文件名为first的文件 xff0c 其中有两个文件分别叫做 first uvopt和first uvproj 你只要把这两个文件
由ModuleNotFoundError: No module named ‘_ssl‘引发的一场血案

本人需要在服务器上 xff08 用户 xff09 安装cutadapt软件 xff0c 安装该软件需要用到下面这个命令 xff0c 非常明显使用python软件 xff0c 通过pip插件线上安装cutadapt软件 xff0c 于是开始了
HISAT2 - StringTie - DESeq2 pipeline 进行bulk RNA-seq

软件官网 xff1a Hisat2 xff1a Manual HISAT2 StringTie xff1a StringTie 文章 xff1a Transcript level expression analysis of RNA seq

HISAT2 - StringTie - DESeq2 pipeline 进行bulk RNA-seq

HISAT2 - StringTie - DESeq2 pipeline 进行bulk RNA-seq 的相关文章

随机推荐

热门标签