Ribo-seq的下游分析方法2---RibORF

2023-05-16

文献:RibORF: Identifying genome-wide translated open reading frames using ribosome profiling
是按照这个文献 的方法进行分析的过程,如果在步骤中有什么不能运行,可以看文献作者的git hub:https://github.com/zhejilab/RibORF
1.软件及数据下载

  • 软件

使用conda进行下载

 star hisat2 Perl fastqc gtfToGenePred bowtie
  • Download RibORF software

在这个网站里面下载脚本:https://github.com/zhejilab/RibORF/.
“ORFannotate.pl”,
“removeAdapter.pl”,
“readDist.pl”,
“offsetCorrect.pl”
“ribORF.pl”.

  • 从GENCODE下载基因组数据
wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_28/gencode.v28.annotation.gtf.gz

wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_28/GRCh38.primary_assembly.genome.fa.gz

2.把GTF文件转化成GenePred

gtfToGenePred gencode.v28.annotation.gtf gencode.v28.annotation.genePred.txt

3.运行“ORFannotate.pl”并生成genePred格式的候选ORF。

mkdir outputDir
perl ORFannotate.pl -g GRCh38.primary_assembly.genome.fa -t
gencode.v28.annotation.genePred.txt -o outputDir

得到的两个文件如下

-rw-r--r-- 1 med-zhouh med-chenh 11G Jul 15 00:53 candidateORF.fa
-rw-r--r-- 1 med-zhouh med-chenh 10G Jul 15 00:53 candidateORF.genepred.txt

打开之后是这样:

(riboseq) [xx@login01 outputDir]$ head candidateORF.fa
>ENST00000456328.2:chr1:+|1|1657:7:67|noncoding|TTG
TTGCCGTCAGCCTTTTCTTTGACCTCTTCTTTCTGTTCATGTGTATTTGCTGTCTCTTAG
>ENST00000456328.2:chr1:+|2|1657:25:67|noncoding|TTG
TTGACCTCTTCTTTCTGTTCATGTGTATTTGCTGTCTCTTAG
>ENST00000456328.2:chr1:+|3|1657:39:150|noncoding|CTG
CTGTTCATGTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCCACCGGGCCTTTGAGAGGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGA
>ENST00000456328.2:chr1:+|4|1657:45:150|noncoding|ATG
ATGTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCCACCGGGCCTTTGAGAGGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGA
>ENST00000456328.2:chr1:+|5|1657:47:326|noncoding|GTG
GTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCCACCGGGCCTTTGAGAGGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGACTTCCAGCAACTGCTGGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTTTCCTGTGGAGAGGAGCCATGCCTAGAGTGGGATGGGCCATTGTTCATCTTCTGGCCCCTGTTGTCTGCATGTAACTTAATACCACAACCAGGCATAGGGGAAAGATTGGAGGAAAGATGA
(riboseq) [xx@login01 outputDir]$ head candidateORF.genepred.txt
ENST00000456328.2:chr1:+|1|1657:7:67|noncoding|TTG      chr1    +       11868   14409   11874   11934   3       11868,12612,13220,      12227,12721,14409,
ENST00000456328.2:chr1:+|2|1657:25:67|noncoding|TTG     chr1    +       11868   14409   11892   11934   3       11868,12612,13220,      12227,12721,14409,
ENST00000456328.2:chr1:+|3|1657:39:150|noncoding|CTG    chr1    +       11868   14409   11906   12017   3       11868,12612,13220,      12227,12721,14409,
ENST00000456328.2:chr1:+|4|1657:45:150|noncoding|ATG    chr1    +       11868   14409   11912   12017   3       11868,12612,13220,      12227,12721,14409,
ENST00000456328.2:chr1:+|5|1657:47:326|noncoding|GTG    chr1    +       11868   14409   11914   12193   3       11868,12612,13220,      12227,12721,14409,
ENST00000456328.2:chr1:+|6|1657:53:326|noncoding|TTG    chr1    +       11868   14409   11920   12193   3       11868,12612,13220,      12227,12721,14409,
ENST00000456328.2:chr1:+|7|1657:56:326|noncoding|CTG    chr1    +       11868   14409   11923   12193   3       11868,12612,13220,      12227,12721,14409,
ENST00000456328.2:chr1:+|8|1657:79:103|noncoding|GTG    chr1    +       11868   14409   11946   11970   3       11868,12612,13220,      12227,12721,14409,
ENST00000456328.2:chr1:+|9|1657:99:150|noncoding|TTG    chr1    +       11868   14409   11966   12017   3       11868,12612,13220,      12227,12721,14409,
ENST00000456328.2:chr1:+|10|1657:117:150|noncoding|TTG  chr1    +       11868   14409   11984   12017   3       11868,12612,13220,      12227,12721,14409,

4.绘制围绕 mRNA 的规范 ORF 的起始和终止密码子的核糖体分析读取分布,并检查核糖体分析数据质量

perl readDist.pl -f /xx/SRR2433794.sam -g
gencode.v28.annotation.genePred.txt -o outputDir1 -d 28,29 -l 40 -r 70
  • 建议sam文件用bowtie进行比对。
  • 一般的长度可以从25到34,根据自己的样品情况选择所需的长度、
    -在这里插入图片描述
    从这张图可以看出我的样品里面28,29的比较好。

生成文件如下:


-rw-r--r-- 1 med-zhouh med-chenh 6.7K Jul 15 01:00 plot.readDist.28.pdf
-rw-r--r-- 1 med-zhouh med-chenh 6.6K Jul 15 01:07 plot.readDist.29.pdf
-rw-r--r-- 1 med-zhouh med-chenh  998 Jul 15 01:00 readDist.plot.28.R
-rw-r--r-- 1 med-zhouh med-chenh  998 Jul 15 01:07 readDist.plot.29.R
-rw-r--r-- 1 med-zhouh med-chenh 2.2K Jul 15 01:00 read.dist.sample.28.txt
-rw-r--r-- 1 med-zhouh med-chenh 2.2K Jul 15 01:07 read.dist.sample.29.txt
-rw-r--r-- 1 med-zhouh med-chenh  116 Jul 15 01:07 sta.read.dist.28,29.txt
-rw-r--r-- 1 med-zhouh med-chenh 4.9K Jul 15 01:07 sta.readDist.plot.28,29.pdf
-rw-r--r-- 1 med-zhouh med-chenh  310 Jul 15 01:07 sta.readDist.plot.28,29.R

看起来好多文件,理论上就三种文件“plot.readDist..pdf” ,“sta.read.dist..txt” ,“read.dist.sample.*.txt”

5.将读取映射位置分配给核糖体 A 位点

perl offsetCorrect.pl -r /xx/SRR2433794.sam -p
offset.correction.parameters.txt -o corrected.SRR2433794.sam
  • offset.correction.parameters.txt是需要自己在excel里面写好,然后保存成制表符隔开的txt文件格式,然后上传到linux系统里面用的。
  • 一般28nt的偏移矫正是15nt,29nt的偏移矫正是16nt,这些值是默认值。所以按照文章里面的生成一个txt文件,比如这样:

|28| 15|
|29|16|
| 30 | 16 |

运行完成的结果如下:

-rw-r--r-- 1 med-zhouh med-chenh 564M Jul 15 01:09 corrected.Ribo-KO-21.sam
-rw-r--r-- 1 med-zhouh med-chenh 4.2G Jul 15 00:21 Ribo-KO-21.sam

打开corrected.Ribo-KO-21.sam文件

(riboseq) [x@login01 pl]$ head corrected.Ribo-KO-21.sam
@HD     VN:1.0  SO:unsorted
@SQ     SN:chr1 LN:248956422
@SQ     SN:chr2 LN:242193529
@SQ     SN:chr3 LN:198295559
@SQ     SN:chr4 LN:190214555
@SQ     SN:chr5 LN:181538259
@SQ     SN:chr6 LN:170805979
@SQ     SN:chr7 LN:159345973
@SQ     SN:chr8 LN:145138636
@SQ     SN:chr9 LN:138394717

6.检查

perl readDist.pl -f corrected.Ribo-KO-21.sam -g ./gencode.v40.annotation.genePred.txt -o outputDir -d 1

生成文件

-rw-r--r-- 1 med-zhouh med-chenh 6.2K Jul 15 01:14 plot.readDist.1.pdf
-rw-r--r-- 1 med-zhouh med-chenh  994 Jul 15 01:14 readDist.plot.1.R
-rw-r--r-- 1 med-zhouh med-chenh 1.7K Jul 15 01:14 read.dist.sample.1.txt
-rw-r--r-- 1 med-zhouh med-chenh   80 Jul 15 01:14 sta.read.dist.1.txt
-rw-r--r-- 1 med-zhouh med-chenh  302 Jul 15 01:14 sta.readDist.plot.1.R

7.Run RibORF to identify translated ORFs

perl ribORF.pl -f corrected.Ribo-KO-21.sam -c ./outputDir/candidateORF.genepred.txt -o outputDir -l 6 -r 11 -p 0.7

得到结果如下:

-rw-r--r-- 1 med-zhouh med-chenh 594M Jul 15 05:39 input.parameters.txt
-rw-r--r-- 1 med-zhouh med-chenh 5.9K Jul 15 05:40 plot.ROC.curve.pdf
-rw-r--r-- 1 med-zhouh med-chenh 611M Jul 15 05:41 pred.pvalue.parameters.txt
-rw-r--r-- 1 med-zhouh med-chenh  17M Jul 15 05:43 repre.valid.ORF.genepred.txt
-rw-r--r-- 1 med-zhouh med-chenh 6.9M Jul 15 05:41 repre.valid.pred.pvalue.parameters.txt
-rw-r--r-- 1 med-zhouh med-chenh 1.5K Jul 15 05:39 ribORF.learning.R
-rw-r--r-- 1 med-zhouh med-chenh  12K Jul 15 05:40 stat.cutoff.txt

原文翻译:(A) 具有训练参数和预测的翻译 P 值的示例候选 ORF。 这些值显示在文件“pred.pvalue.parameters.txt”和“repre.valid.pred.pvalue.parameters.txt”中。 (B) 预测的翻译P值截止值和真阳性、假阳性、真阴性、假阴性、假阳性率和真阳性率的相关统计量,如“stat.cutoff.txt”文件所示。 © ROC 曲线显示 RibORF 程序在识别翻译的 ORF 方面的性能。 该图显示在“plot.ROC.curve.pdf”中。 AUC 值显示在图中。

完成!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Ribo-seq的下游分析方法2---RibORF 的相关文章

随机推荐