edger和deseq2_转录组分析（二）Hisat2+DESeq2/EdgeR

2023-05-16

一、序列比对

在2016年的一篇综述A survey of best practices for RNA-seq data analysis，提到目前有三种RNA数据分析的策略。那个时候的工具也主要用的是TopHat,STAR和Bowtie.其中TopHat目前已经被它的作者推荐改用HISAT进行替代。

1. Hisat2教程

1.1 下载安装

#conda直接安装

conda install hisat2

#源码下载安装

wget wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-source.zip

unzip hisat2-2.1.0-source.zip

make

1.2 构建index

直接下载现有的insex或通过Hisat2的方法进行创建

# 其实hisat2-buld在运行的时候也会自己寻找exons和splice_sites，但是先做的目的是为了提高运行效率

extract_exons.py gencode.v26lift37.annotation.sorted.gtf > hg19.exons.gtf &

extract_splice_sites.py gencode.v26lift37.annotation.gtf > hg19.splice_sites.gtf &

# 建立index，必须选项是基因组所在文件路径和输出的前缀

hisat2-build --ss hg19.splice_sites.gtf --exon hg19.exons.gtf genome/hg19/hg19.fa hg19

1.3正式比对

hisat2基本用法就是hisat2 [options]* -x {-1 -2 | -U } [-S ]，基本就是提供index的位置，PE数据或者是SE数据存放位置。然而其他可选参数却是进阶的一大名堂。新手就用默认参数呗。

hisat2 --dta -p 6 --max-intronlen 5000000 -x Oryza_sativa.IRGSP-1.0.genome -1 C1-1_good_1.fq -2 C1-1_good_2.fq -S C1-1.HISAT_aln.sam >hisat2_running.log 2>&1

1.4 Hisat2输出结果

比对之后会输出如下结果，解读一下就是全部数据都是100%的，2.88%的配对数据一次都没有比对，94.20%的数据比是唯一比对，2.92%是多个比对。然后如果不按照顺序来，有4.96%的比对。之后把剩下的部分用单端数据进行比对的话，65.57%数据没比对上，33.23%的数据比对一次，1.20%比对超过一次。零零总总的加起来是98.20%的比对。

20182824 reads; of these:

20182824 (100.00%) were paired; of these:

581893 (2.88%) aligned concordantly 0 times

19011569 (94.20%) aligned concordantly exactly 1 time

589362 (2.92%) aligned concordantly >1 times

----

581893 pairs aligned concordantly 0 times; of these:

28886 (4.96%) aligned discordantly 1 time

----

553007 pairs aligned 0 times concordantly or discordantly; of these:

1106014 mates make up the pairs; of these:

725197 (65.57%) aligned 0 times

367552 (33.23%) aligned exactly 1 time

13265 (1.20%) aligned >1 times

98.20% overall alignment rate

2. SAMtools三板斧

SAM(sequence Alignment/mapping)数据格式是目前高通量测序中存放比对数据的标准格式，当然他可以用于存放未比对的数据。而目前处理SAM格式的工具主要是SAMTools

view: BAM-SAM/SAM-BAM 转换和提取部分比对

sort: 比对排序

merge: 聚合多个排序比对

index: 索引排序比对

faidx: 建立FASTA索引，提取部分序列

tview: 文本格式查看序列

#最常用的三板斧就是格式转换，排序，索引。

samtools view -S SRR35899${i}.sam -b > SRR35899${i}.bam

samtools sort SRR35899${i}.bam -o SRR35899${i}_sorted.bam

samtools index SRR35899${i}_sorted.bam

3. BAM/SAM文件格式

SAM文件主要由两个部分构成:

header：标记了该SAM文件的一些基本信息，比如版本、按照什么方式排序的、Reference信息等等。

本体：每行为一个reads，不同列记录了不同的信息，列与列之间通过tab分隔。

每列的含义：

MAPQ值：

表示为mapping的质量值，mapping Quality, It equals -10log10Pr{mapping position is wrong}, rounded to the nearest integer, A value 255 indicates that the mapping quality is not available. 该值的计算方法是mapping的错误率的-10log10值，之后四舍五入得到的整数，如果值为255表示mapping值是不可用的，如果是unmapped read则MAPQ为0，一般在使用bwa mem或bwa aln(bwa 0.7.12-r1039版本)生成的sam文件，第五列为60表示mapping率最高，一般结果是这一列的数值是从0到60，且0和60这两个数字出现次数最多

想把小于2的都丢弃：

samtools view -bSq 2 file.sam > filtered.bam

flag的含义：

1 ：代表这个序列采用的是PE双端测序

2：代表这个序列和参考序列完全匹配，没有插入缺失

4：代表这个序列没有mapping到参考序列上

8：代表这个序列的另一端序列没有比对到参考序列上，比如这条序列是R1,它对应的R2端序列没有比对到参考序列上

16：代表这个序列比对到参考序列的负链上

32 ：代表这个序列对应的另一端序列比对到参考序列的负链上

64 ：代表这个序列是R1端序列， read1;

128 : 代表这个序列是R2端序列，read2；

256：代表这个序列不是主要的比对，一条序列可能比对到参考序列的多个位置，只有一个是首要的比对位置，其他都是次要的

512：代表这个序列在QC时失败了，被过滤不掉了(# 这个标签不常用)

1024: 代表这个序列是PCR重复序列(#这个标签不常用)

2048: 代表这个序列是补充的比对(#这个标签具体什么意思，没搞清楚，但是不常用)

cigar的含义:

cigar中会包含数字，代表了特定match持续了多少nt；以及不同的字符，代表了不同的match情况。

30S512M216N12S (30nt soft clip -> 512nt exact match -> 216nt skipped region -> 12nt soft clip)

30S (30nt soft clip)

40M (40nt exact match)

其中不同的字符及其含义如下：

参考：

https://www.jianshu.com/p/a584d31418f3

https://www.jianshu.com/p/9c87bba244d8

二、htseq-count的使用

HTSeq作为一款可以处理高通量数据的python包，由Simon Anders, Paul Theodor Pyl, Wolfgang Huber等人携手推出HTSeq — A Python framework to work with high-throughput sequencing data。自发布以来就备受广大分析人员青睐，其提供了许多功能给那些熟悉python的大佬们去自信修改使用，同时也兼顾着给小白们提供了两个可以拿来可用的可执行文件 htseq-count(计数) 和 htseq-qa(质量分析)。

具体参考：

https://www.cnblogs.com/triple-y/p/9338890.html

https://blog.csdn.net/herokoking/article/details/78257714

三、基因差异表达分析

1. DESeq2(DESeq2不支持无生物学重复的数据)

library("DESeq2")

#directory

edger和deseq2_转录组分析（二）Hisat2+DESeq2/EdgeR 的相关文章

用户名或用户域名_给自己的Hexo+GitHub静态博客绑定自己的专属域名

前言 GitHub 43 Hexo静态博客详细教程 xff0c 介绍 xff1b 对比 xff1b 部署 xff1b 发布听海的博客 www tsingsea com 以上是Hexo 43 GitHub静态博客超级详细搭建教程的正文部分
电脑记事本在哪_再见“电脑弹窗”：3个小设置，让电脑桌面干净如新机

我的电脑桌面经常自动出现各种牛皮癣弹窗 xff0c 一关还卡住了 xff0c 是太旧性能太差了吗 xff1f 不瞒大家说 xff0c 其实我也曾经饱受煎熬 xff01 并且一度觉得自己是个电脑白痴 xff0c 连这么简单的问题都解决不了 x
android读取多个usb摄像头,Android中多USB摄像头解决方案——UVCCamera源码分析（三）...

前面几章我们分析了UVCCamera的初始化预览相关的准备工作 xff0c 本章我们则来看看startPreview的整个流程按照惯例我们先大概看下调用的时序图 xff1a startPreview 接着之前开启预览过程最终走到Abst

随机推荐

ssd recommended_【信诺IT小知识】延缓SSD降速小技巧

昨天呢小诺和亲们讲了SSD降速的原因 xff0c 其实避免降速小诺还有一些偏方下面看小诺一一道来小诺讲了导致SSD固态硬盘变慢的原因有写入放大具体的原因呢还没有给亲们说其实SSD固态硬盘中最小的读写单位为4KB xff0c 亲们都知
powershell上传文件到服务器,使用PowerShell将文件上传到SFTP

当前没有用于执行SFTP部分的内置PowerShell方法您必须使用像psftp exe或PowerShell模块如Posh SSH 这里使用一个例子Posh SSH xff1a Set the credentials Password
python networkx 求图中的环_使用Networkx进行图形遍历（Python）

只有当你有一个DAG 有向无环图时 xff0c 这才有效如果是这样的话 xff0c 你也可以画出你想要的树像这样 xff1a import uuid import networkx as nx import matplotlib py
java collections max,Java泛型：Collections.max（）签名和比较器

I understand the get and put principle for collections if a method takes in a collection that it will write a type T to
计算机软件开发标准 gb9386-88_Java EE计算机软件设计与开发及应用研究

JavaEE软件设计构架技术在软件开发的过程中需要采取多层架构 xff0c 主要是将软件的设计划分为了四个层次 xff0c 分别是客户端显示逻辑 xff0c 业务逻辑以及数据库这四个方面在客户端主要包括浏览器 xff0c 桌面应用等组件
有序的Map集合实现整理（1）——LinkedHashMap

1 Map集合的特点是无序的 xff0c 可重复的而要想保证Map的有序 xff0c 如何实现 xff1f Map结构下有多个实现类 xff0c HashMap是无序的 xff0c 而LinkedHashMap是按照插入顺序排序 xff0
空间统计分析_新版白话空间统计（14）：空间关系概念化综述

在前面的文章里面 xff0c 我们反复强调 xff0c 我们做任意空间分布的判定 xff0c 都是由空间关系和属性关系共同作用所得到的最终结果所以 xff0c 空间统计分析与传统的统计分析 xff0c 最大的区别就在于空间统计学把样本数据
基于Java的“多功能五子棋”游戏的设计和实现

源码地址 xff1a http download csdn net detail clx55555 9718406 下载或转载使用请声明原著 xff1a 但求心安基于 Java的多功能五子棋游戏的设计和实现引言随着经济社会的迅速发
web.xml超时时间不生效_HttpClient三个超时时间详解

最近看线上问题发现异常日志有几种超时时间 xff0c 有点疑惑各自的含义 xff0c 于是决定一探究竟 HttpClient有三种超时时间设置 xff0c 在RequestConfig配置类中定义的 xff0c 分别为connectionR
python编写程序输出诗句_闲来无事能干嘛用Python来玩诗歌接龙

闲来无事能干嘛用Python来玩诗歌接龙作为一个懂Python爬虫的运维狗 xff0c 闲来无事的时候总要找点乐子 xff08 睡觉不香么 xff09 xff0c 哈哈 xff0c 就是这么的敬业 xff08 其实是无聊 xff09 今
如何写一个脚本语言_零基础小白如何学会写文案？文案写作技巧之一：如何写一个吸引读者的文案开头...

我文笔不好怎样才能够写出优质的文案 xff1f 很多人都有这个疑问 xff0c 包括我自己在学习新媒体运营之前 xff0c 这也是我最大的困惑现在是内容为王的时代 xff0c 你的文章质量决定了你的KPI 后来我学习了文章的写作结构和技巧
python对浏览器的常用操作_Selenium2+python自动化-操作浏览器基本方法

前言从这篇开始 xff0c 正式学习selenium的webdriver框架我们平常说的 selenium自动化 xff0c 其实它并不是类似于QTP之类的有GUI界面的可视化工具 xff0c 我们要学的是webdriver框架的API
android 虚拟键背景,Android 设置应用的底部导航栏(虚拟按键)背景颜色

Android手机机型种类繁多但是虚拟按键也就是底部的导航栏不外乎两种设计方式一种是作为虚拟按键设计到屏幕内部一种是作为系统按键设计到屏幕外面对于按键在屏幕内部的机型因为虚拟按键也是屏幕内容的一部分它也实际占据屏幕一定的高度
怎么改linux中软件标志,Ubuntu修改系统及软件托盘相关图标

找到usr share pixmaps下相关图标文件 xff0c 修改相关图标即可如修改pidgin托盘图标 xff1a 找到 usr share pixmaps pidgin tray下相应图标修改即可修改应用程序图标 xff1a 找
python 定时-Python3.x：定时任务实现方式

Python3 x xff1a 定时任务实现方式 Python3 x下实现定时任务的方式有很多种方式一循环sleep xff1a 最简单的方式 xff0c 在循环里放入要执行的任务 xff0c 然后sleep一段时间再执行缺点是 xf
bind+mysql_bind+dlz+mysql实现区域记录动态更新

bind 43 dlz 43 mysql实现区域记录动态更新 BIND DLZ实验 http bind dlz sourceforge net 实验环境 RHEL4 BIND 9 5 0 P2 tar gz 9 4 0以上版本都已含DLZ补
mariadb mysql版本对应_弹指神通MariaDB——MariaDB与MySQL各版本的区别

1 MariaDB的性质 MariaDB从MySQL衍生而来 xff0c 作为完全开源的一款数据库产品关于MariaDB更详细的信息其实是在MariaDB org中在MariaDB download中也做了详细的说明了MariaDB的性
计算机音乐数字谱抖音,抖音计算器谱子有哪些？计算器音乐乐谱大全

抖音上最近出了不少的关于简易谱子 xff0c 很多人都用计算器来演绎歌曲 xff0c 那么抖音计算器谱子有哪些 xff1f 来看下计算器音乐乐谱大全抖音音乐数字简谱汇总体面 xff1a 89 43 89 43 8 43 98 8678
蓝桥杯生日蜡烛

某君从某年开始每年都举办一次生日party xff0c 并且每次都要吹熄与年龄相同根数的蜡烛现在算起来 xff0c 他一共吹熄了236根蜡烛请问 xff0c 他从多少岁开始过生日party的 xff1f 请填写他开始过生日party的年
edger和deseq2_转录组分析（二）Hisat2+DESeq2/EdgeR

一序列比对在2016年的一篇综述A survey of best practices for RNA seq data analysis xff0c 提到目前有三种RNA数据分析的策略那个时候的工具也主要用的是TopHat STAR和

edger和deseq2_转录组分析（二）Hisat2+DESeq2/EdgeR

edger和deseq2_转录组分析（二）Hisat2+DESeq2/EdgeR 的相关文章

随机推荐

热门标签