Ribo-seq的下游分析方法2---RibORF

2023-05-16

文献：RibORF: Identifying genome-wide translated open reading frames using ribosome profiling
是按照这个文献的方法进行分析的过程，如果在步骤中有什么不能运行，可以看文献作者的git hub：https://github.com/zhejilab/RibORF
1.软件及数据下载

软件

使用conda进行下载

 star hisat2 Perl fastqc gtfToGenePred bowtie

Download RibORF software

在这个网站里面下载脚本:https://github.com/zhejilab/RibORF/.
“ORFannotate.pl”,
“removeAdapter.pl”,
“readDist.pl”,
“offsetCorrect.pl”
“ribORF.pl”.

从GENCODE下载基因组数据

wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_28/gencode.v28.annotation.gtf.gz

wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_28/GRCh38.primary_assembly.genome.fa.gz

2.把GTF文件转化成GenePred

gtfToGenePred gencode.v28.annotation.gtf gencode.v28.annotation.genePred.txt

3.运行“ORFannotate.pl”并生成genePred格式的候选ORF。

mkdir outputDir
perl ORFannotate.pl -g GRCh38.primary_assembly.genome.fa -t
gencode.v28.annotation.genePred.txt -o outputDir

得到的两个文件如下

-rw-r--r-- 1 med-zhouh med-chenh 11G Jul 15 00:53 candidateORF.fa
-rw-r--r-- 1 med-zhouh med-chenh 10G Jul 15 00:53 candidateORF.genepred.txt

打开之后是这样：

(riboseq) [xx@login01 outputDir]$ head candidateORF.fa
>ENST00000456328.2:chr1:+|1|1657:7:67|noncoding|TTG
TTGCCGTCAGCCTTTTCTTTGACCTCTTCTTTCTGTTCATGTGTATTTGCTGTCTCTTAG
>ENST00000456328.2:chr1:+|2|1657:25:67|noncoding|TTG
TTGACCTCTTCTTTCTGTTCATGTGTATTTGCTGTCTCTTAG
>ENST00000456328.2:chr1:+|3|1657:39:150|noncoding|CTG
CTGTTCATGTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCCACCGGGCCTTTGAGAGGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGA
>ENST00000456328.2:chr1:+|4|1657:45:150|noncoding|ATG
ATGTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCCACCGGGCCTTTGAGAGGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGA
>ENST00000456328.2:chr1:+|5|1657:47:326|noncoding|GTG
GTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCCACCGGGCCTTTGAGAGGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGACTTCCAGCAACTGCTGGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTTTCCTGTGGAGAGGAGCCATGCCTAGAGTGGGATGGGCCATTGTTCATCTTCTGGCCCCTGTTGTCTGCATGTAACTTAATACCACAACCAGGCATAGGGGAAAGATTGGAGGAAAGATGA
(riboseq) [xx@login01 outputDir]$ head candidateORF.genepred.txt
ENST00000456328.2:chr1:+|1|1657:7:67|noncoding|TTG      chr1    +       11868   14409   11874   11934   3       11868,12612,13220,      12227,12721,14409,
ENST00000456328.2:chr1:+|2|1657:25:67|noncoding|TTG     chr1    +       11868   14409   11892   11934   3       11868,12612,13220,      12227,12721,14409,
ENST00000456328.2:chr1:+|3|1657:39:150|noncoding|CTG    chr1    +       11868   14409   11906   12017   3       11868,12612,13220,      12227,12721,14409,
ENST00000456328.2:chr1:+|4|1657:45:150|noncoding|ATG    chr1    +       11868   14409   11912   12017   3       11868,12612,13220,      12227,12721,14409,
ENST00000456328.2:chr1:+|5|1657:47:326|noncoding|GTG    chr1    +       11868   14409   11914   12193   3       11868,12612,13220,      12227,12721,14409,
ENST00000456328.2:chr1:+|6|1657:53:326|noncoding|TTG    chr1    +       11868   14409   11920   12193   3       11868,12612,13220,      12227,12721,14409,
ENST00000456328.2:chr1:+|7|1657:56:326|noncoding|CTG    chr1    +       11868   14409   11923   12193   3       11868,12612,13220,      12227,12721,14409,
ENST00000456328.2:chr1:+|8|1657:79:103|noncoding|GTG    chr1    +       11868   14409   11946   11970   3       11868,12612,13220,      12227,12721,14409,
ENST00000456328.2:chr1:+|9|1657:99:150|noncoding|TTG    chr1    +       11868   14409   11966   12017   3       11868,12612,13220,      12227,12721,14409,
ENST00000456328.2:chr1:+|10|1657:117:150|noncoding|TTG  chr1    +       11868   14409   11984   12017   3       11868,12612,13220,      12227,12721,14409,

4.绘制围绕 mRNA 的规范 ORF 的起始和终止密码子的核糖体分析读取分布，并检查核糖体分析数据质量

perl readDist.pl -f /xx/SRR2433794.sam -g
gencode.v28.annotation.genePred.txt -o outputDir1 -d 28,29 -l 40 -r 70

建议sam文件用bowtie进行比对。
一般的长度可以从25到34，根据自己的样品情况选择所需的长度、
-
从这张图可以看出我的样品里面28，29的比较好。

生成文件如下：


-rw-r--r-- 1 med-zhouh med-chenh 6.7K Jul 15 01:00 plot.readDist.28.pdf
-rw-r--r-- 1 med-zhouh med-chenh 6.6K Jul 15 01:07 plot.readDist.29.pdf
-rw-r--r-- 1 med-zhouh med-chenh  998 Jul 15 01:00 readDist.plot.28.R
-rw-r--r-- 1 med-zhouh med-chenh  998 Jul 15 01:07 readDist.plot.29.R
-rw-r--r-- 1 med-zhouh med-chenh 2.2K Jul 15 01:00 read.dist.sample.28.txt
-rw-r--r-- 1 med-zhouh med-chenh 2.2K Jul 15 01:07 read.dist.sample.29.txt
-rw-r--r-- 1 med-zhouh med-chenh  116 Jul 15 01:07 sta.read.dist.28,29.txt
-rw-r--r-- 1 med-zhouh med-chenh 4.9K Jul 15 01:07 sta.readDist.plot.28,29.pdf
-rw-r--r-- 1 med-zhouh med-chenh  310 Jul 15 01:07 sta.readDist.plot.28,29.R

看起来好多文件，理论上就三种文件“plot.readDist..pdf” ，“sta.read.dist..txt” ，“read.dist.sample.*.txt”

5.将读取映射位置分配给核糖体 A 位点

perl offsetCorrect.pl -r /xx/SRR2433794.sam -p
offset.correction.parameters.txt -o corrected.SRR2433794.sam

offset.correction.parameters.txt是需要自己在excel里面写好，然后保存成制表符隔开的txt文件格式，然后上传到linux系统里面用的。
一般28nt的偏移矫正是15nt,29nt的偏移矫正是16nt，这些值是默认值。所以按照文章里面的生成一个txt文件，比如这样：

|28| 15|
|29|16|
| 30 | 16 |

运行完成的结果如下：

-rw-r--r-- 1 med-zhouh med-chenh 564M Jul 15 01:09 corrected.Ribo-KO-21.sam
-rw-r--r-- 1 med-zhouh med-chenh 4.2G Jul 15 00:21 Ribo-KO-21.sam

打开corrected.Ribo-KO-21.sam文件

(riboseq) [x@login01 pl]$ head corrected.Ribo-KO-21.sam
@HD     VN:1.0  SO:unsorted
@SQ     SN:chr1 LN:248956422
@SQ     SN:chr2 LN:242193529
@SQ     SN:chr3 LN:198295559
@SQ     SN:chr4 LN:190214555
@SQ     SN:chr5 LN:181538259
@SQ     SN:chr6 LN:170805979
@SQ     SN:chr7 LN:159345973
@SQ     SN:chr8 LN:145138636
@SQ     SN:chr9 LN:138394717

6.检查

perl readDist.pl -f corrected.Ribo-KO-21.sam -g ./gencode.v40.annotation.genePred.txt -o outputDir -d 1

生成文件

-rw-r--r-- 1 med-zhouh med-chenh 6.2K Jul 15 01:14 plot.readDist.1.pdf
-rw-r--r-- 1 med-zhouh med-chenh  994 Jul 15 01:14 readDist.plot.1.R
-rw-r--r-- 1 med-zhouh med-chenh 1.7K Jul 15 01:14 read.dist.sample.1.txt
-rw-r--r-- 1 med-zhouh med-chenh   80 Jul 15 01:14 sta.read.dist.1.txt
-rw-r--r-- 1 med-zhouh med-chenh  302 Jul 15 01:14 sta.readDist.plot.1.R

7.Run RibORF to identify translated ORFs

perl ribORF.pl -f corrected.Ribo-KO-21.sam -c ./outputDir/candidateORF.genepred.txt -o outputDir -l 6 -r 11 -p 0.7

得到结果如下：

-rw-r--r-- 1 med-zhouh med-chenh 594M Jul 15 05:39 input.parameters.txt
-rw-r--r-- 1 med-zhouh med-chenh 5.9K Jul 15 05:40 plot.ROC.curve.pdf
-rw-r--r-- 1 med-zhouh med-chenh 611M Jul 15 05:41 pred.pvalue.parameters.txt
-rw-r--r-- 1 med-zhouh med-chenh  17M Jul 15 05:43 repre.valid.ORF.genepred.txt
-rw-r--r-- 1 med-zhouh med-chenh 6.9M Jul 15 05:41 repre.valid.pred.pvalue.parameters.txt
-rw-r--r-- 1 med-zhouh med-chenh 1.5K Jul 15 05:39 ribORF.learning.R
-rw-r--r-- 1 med-zhouh med-chenh  12K Jul 15 05:40 stat.cutoff.txt

原文翻译：(A) 具有训练参数和预测的翻译 P 值的示例候选 ORF。这些值显示在文件“pred.pvalue.parameters.txt”和“repre.valid.pred.pvalue.parameters.txt”中。 (B) 预测的翻译P值截止值和真阳性、假阳性、真阴性、假阴性、假阳性率和真阳性率的相关统计量，如“stat.cutoff.txt”文件所示。 © ROC 曲线显示 RibORF 程序在识别翻译的 ORF 方面的性能。该图显示在“plot.ROC.curve.pdf”中。 AUC 值显示在图中。

完成！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Ribo-seq的下游分析方法2---RibORF 的相关文章

各种seq ribo-seq rna-seq pipelines

SPR WorkFlow Collection sysPipe
RNA-Seq比对软件HISAT2的用法

参考网址 xff1a http blog sciencenet cn blog 759995 990471 html 感谢原作者转载于 https www cnblogs com lmt921108 p 7442839 html
Ribo-seq的下游分析方法2---RibORF

文献 xff1a RibORF Identifying genome wide translated open reading frames using ribosome profiling 是按照这个文献的方法进行分析的过程 xff0c
Ribo-seq的上游分析以及数据准备

找到一个文献 xff1a Detecting actively translated open reading frames in ribosome profiling data 跟着他的步骤开始运行 1 下载数据及软件找到文章中的数据下
RNA-seq数据上游分析流程（从原始数据开始）

数据分析的基本思路 xff08 1 xff09 从ncbi的geo或者其它数据库中查找自己感兴趣的RNASeq数据 xff0c 至少要求给出如下信息 xff1a xff08 2 xff09 对芯片数据进行质量控制评价及处理 xff08 如果
RNA-seq：转录组数据分析处理（上）

RNA seq xff1a 转录组数据分析处理 xff08 上 xff09 目录 RNA seq xff1a 转录组数据分析处理 xff08 上 xff09 一流程概括二准备工作1 fastq测序文件2 注释文件和基因组文件的获取三
RNA-seq流程学习笔记（4）-使用FastQC软件对fastq格式的数据进行质量控制

今天开始学习使用FastQC软件对范例SRA测序文件的质量进行分析主要参考文章 xff1a RNA seq 3 sra到fastq格式转换并进行质量控制转录组入门 xff08 3 xff09 xff1a 了解fastq测序数据用Fas
RNA-seq流程学习笔记（15）-使用DESeq2进行差异基因分析

参考文章 xff1a RNA seq 7 DEseq2筛选差异表达基因并注释转录组入门7 用DESeq2进行差异表达分析 Analyzing RNA seq data with DESeq2 RNA seq练习第三部分 xff08 DE
CHIP-seq流程学习笔记（8）-使用MACS2 bdgdiff提取非生物学重复样本间差异peak进行注释

参考文章 xff1a 使用MACS2进行差异peak分析重点推荐 xff1a Call differential binding events MACS2作为使用最广泛的peak calling软件 xff0c 在v2版本中添加了差异pe
RNA-seq流程学习笔记（18）- Heatmap图

1 准备感兴趣基因集 xff08 genelist xff09 并进行适当格式转换 span class token comment 对基因list进行整理 span span class token comment 设置工作目录 span
TCP的Ack和Seq和len的关系

详细可以看不抓包如何学得了 TCP这篇文章关系发送数据包数据的序号Seq和数据的长度Len 发送seq len 确认包 Ack 收到的数据包的序号Seq Len ack seq len 发送数据包的
为什么 Seq.iter 和 Seq.map 慢这么多？

考虑 F 中的以下代码 let n 10000000 let arr Array init n fun gt 0 let rec buildList n acc i if i n then acc else buildList n 0 ac
为什么我不能使用 seq 强制执行 IO 操作？

鉴于此代码片段 someFunction x print x seq 1 main do print someFunction test 为什么不print x print test代码什么时候执行 seq test 1 如果我把它替换为e
R——按组将日期范围扩展为面板数据

我的日期范围由两个变量分组 id and type 当前存储在名为的数据框中data 我的目标是扩大日期范围以便我在日期范围内的每一天都有一行其中包括相同的id and type 以下是重现数据框示例的片段 data lt struct
R重复序列每次重复加1

我的 R 类作业簿有一个问题我无法解决我需要编写一个使用rep 创建一个包含元素1 2 3 4 2 3 4 5 3 4 5 6 4 5 6 7的向量的R命令它似乎是一个 1 到 4 的重复序列重复 4 次并且每次重复时向起始元素
如何在parallel.for中强制执行有序执行序列？

我有一个简单的并行循环来做一些事情然后我将结果保存到文件中 object items array with all items object resultArray new object numItems Parallel For 0 n
F# 中序列表达式的类型推断

我想我不太明白 F 如何推断序列表达式中的类型以及为什么即使我直接从 seq 指定元素的类型也无法正确识别类型在以下 F 代码中我们有一个基类 A 和两个派生类 B 和 C type A x member a X x type B x
无可用服务器时的 Serilog 和 seq

当使用 Serilog 和 Seq 的应用程序找不到将日志发送到的服务器时预期的行为是什么每次尝试记录都会抛出异常吗我希望我的应用程序使用 Seq 服务器如果可用但如果不可用仍继续运行并记录到文件当使用 Serilog 和 S
seq 和 list 之间的区别

Clojure 语言中的 seq 和列表有什么区别 list 1 2 3 gt 1 2 3 seq 1 2 3 gt 1 2 3 这两种形式似乎被评估为相同的结果首先它们可能看起来相同但实际上并非如此 class list 1 2 3
如何生成具有指定增量步骤的列表？

如何生成具有指定增量步长例如 2 的向量例如我如何生成以下内容 0 2 4 6 8 10 执行中seq 1 10 1 做什么1 10做您可以更改最后一个参数seq i e by 任意大小的台阶 gt a vector of even

随机推荐

arm芯片存储服务器,arm存储服务器

arm存储服务器内容精选换一换当您的保护实例规格无法满足业务需要时 xff0c 可参考本章节变更保护实例中弹性云服务器的规格 xff0c 包括vCPU 内存的变更变更保护实例的规格具体包括如下几种场景 xff1a 同时变更生产站点服
挂载system.img android linux,Android系统System.img逆向工程

目的 Android Rom打包后 xff0c 根据类型 xff0c 粗略分为固件包和普通卡刷包 xff1b 不管是固件包如 xff1a 三星Odin固件包 xff0c 还是卡刷包如 xff1a GSI通刷包为了操作方便 xff0c
电影推荐系统的设计与实现（论文+系统）_kaic

本文采用结构化分析的方法 xff0c 详细阐述了一个功能比较强大的在线影院电影推荐系统的前后台开发操作流程和涉及的一些关键技术首先进行了可行性分析 xff0c 然后是系统分析 xff0c 通过实际的业务流程调研 xff0c 分析业务流程
电影推荐系统的设计与实现(论文+源码)_kaic

摘要本文采用结构化分析的方法 xff0c 详细阐述了一个功能比较强大的在线影院电影推荐系统的前后台开发操作流程和涉及的一些关键技术首先进行了可行性分析 xff0c 然后是系统分析 xff0c 通过实际的业务流程调研 xff0c 分析
VC++ 14.0依赖

链接 xff1a https pan baidu com s 1X Z0lzUPUY919wd6a7zIyg 提取码 xff1a x886 复制这段内容后打开百度网盘手机App xff0c 操作更方便哦
雨林木风系统封装工具封装xp_U盘安装最新版WIN10系统

今天终于搞定了U盘安装最新版Win10系统由于我的DELL笔记本是UEFI引导 xff0c U盘烧镜像文件时 xff0c 需格式化为FAT32格式 NTFS格式不能引导最新版Win10 2019年12月版镜像中有一个install w
远程桌面要登录远程计算机,win7远程登录提示“要登录到这台远程计算机你必须被授”怎么办...

windows7系统登录远程主机出现如下错误 xff1a 要登录到这台远程计算机 xff0c 您必须被授予允许通过终端服务登录的权限默认情况下 xff0c 34 远程桌面用户 34 组的成员拥有该权限如果您不是 34 远程桌面用户 34
数字孪生智慧运维系统方案

作者朱金灿来源 clever101的专栏为什么大多数人学不会人工智能编程 gt gt gt 1 前言注意该解决方案都有具体的软硬件实现代码有需要者请加我的wx explorer101
2010版计算机一级考试模拟题,计算机一级考试EXCEL2010模拟题.docx

文档介绍 xff1a 1 打开工作薄文件EXCEL XLSX 将工作表sheet1的A1 D1单元格合并为一个单元格内容水平居中计算 34 增长比例 34 列的内容增长比例 61 当年人数去年人数去年人数将工作表命名为 34 招
cmd快捷键_如何美化你的cmd（Windows Terminal）窗口

本文仅仅介绍如何把你的cmd窗口变得更加好看炫酷 xff08 仅此而已 xff09 具备条件 xff1a windows 10 xff08 Microsoft Store功能完整 xff09 开搞 gt 1 在win10应用商店里搜索win
苹果手机屏幕镜像搜索不到电视_手机自带的无线投屏总说找不到设备？

手机自带的无线投屏总说找不到设备 xff1f 爱奇艺的视频可以投屏到电视但手机自带的无线投屏总说找不到设备 xff1f 这是一位网友在知乎上的咨询经过详细了解 xff0c 它的电视是海信液晶电视 xff0c 手机是魅族的 xff1b 平
word中图片为嵌入式格式时显示不全_“word嵌入式图片不显示的解决办法”的解决方案...

解决方案方案一 xff1a 1 使用word时 xff0c 很多时候都会需要插入图片时显示不出来的问题 xff0c 如图 xff1a 2 如果只有一张图片的话 xff0c 可以设置图片版式 xff0c 只要不是嵌入型即可 xff0c 比如
用python去掉最高分最低分求平均值_招标评分必备，去掉最高最低分求平均值

有朋友问起 xff0c 招标评分中 xff0c 如何去掉最高最低分求平均值 xff0c 现将实际工作中可能遇到的这类问题小小总结一下此类问题用到的函数 xff1a TRIMMEAN TRIMMEAN 61 trim 43 mean 英文释
怎么做空间杜宾模型_空间杜宾面板异方差模型

第5章扩展的空间计量经济学模型本章介绍的空间计量经济学的扩展模型有空间离散模型 xff0c 空间分位数回归模型 xff0c 空间联立方程模型 xff0c 空间向量自回归模型 xff0c 全局向量自回归模型空间离散模型相比于一般的离散模
怎么获取计算机用户名和密码,电脑的用户名和密码怎么查看

大家好 xff0c 我是时间财富网智能客服时间君 xff0c 上述问题将由我为大家进行解答以windows7为例 xff0c 电脑的用户名和密码的查看方法是 xff1a 1 找到我的电脑或计算机 xff1b 2 单击鼠标右键 xff0
完美世界手游服务器维护时间表,完美世界手游新区开服表新区开服时间分享[视频][图]...

完美世界手游新区什么时候会开 xff0c 多久能开一次 xff0c 具体的时间是几点呢 xff1f 下面来一起看看吧 xff01 完美世界手游新区开服表每天都会持续更新 xff0c 点击上面的按钮 xff0c 可以进入到开服时间表的具体位
文件传输到远程服务器,文件传输到远程服务器

文件传输到远程服务器内容精选换一换一 IDEA连接SSH 确认你的密码输对了 xff0c 还好我保存了我的远程服务器的密码 xff0c 原先我一直以为我输对了 xff0c 导致一直报错Auth fail 点击ok xff0c 连接上了
虚拟化四路服务器,虚拟化强健平台四款主流四路服务器精选

推荐产品 xff1a 戴尔PowerEdge R910 Xeon E7520 416GB 5300GB 参考售价 xff1a 6万产品特点 xff1a 外观靓丽高端配置戴尔PowerEdge R910 Xeon E7520 416GB
应用windows批处理嵌套复制文件夹

作者 xff1a 朱金灿来源 xff1a clever101的专栏为什么大多数人学不会人工智能编程 xff1f gt gt gt 应用windows批处理文件将一个文件夹下的多个子文件夹复制到另一个文件夹下 xff0c 代码如下 xff
Ribo-seq的下游分析方法2---RibORF

文献 xff1a RibORF Identifying genome wide translated open reading frames using ribosome profiling 是按照这个文献的方法进行分析的过程 xff0c

Ribo-seq的下游分析方法2---RibORF

Ribo-seq的下游分析方法2---RibORF 的相关文章

随机推荐

热门标签