继师兄详细地讲述这个思路之后,我进行一个归纳总结(师兄说,首先要建立一个思想上的流程,再来纠结软件、命令这些细节!!!!!!)
首先你得了解 raw_data / 参考基因组 .fa / 注释文件 .gtf / 索引文件 indexes (通过hisat2-build
,根据基因组文件新建索引文件)
raw_data 原始数据
参考基因组 .fa 1——— ————— —————— ——————— ———————— ————— —————
2————— —————— ——————— —————— ————————
3———— ————— ———— —————— ——————— ————— ——— —
注释文件 .gtf 1chr
基因 转录本1/2/3…… 内含子……
索引文件
从公司拿到的raw_data开始:
一、 **质控数据** (fastqc)——根据质控数据的好坏,进行筛选,数据不行的用trim去掉(具体什么软件也没听清楚)
二、 **再次质控** ,最后的数据叫clean_data,此时的数据里都是短 reads
三、hisat2 把这些reads **比对到基因组上** (这个过程要包括输出文件的格式转换和排序)
四、进行 **序列的初组装** (把上面比对上的零散的reads 组装起来)
五、把所有的 **转录本合并**
————————————— ———————— —————————————— ————— 这就是合并的转录本
—— —— ———— —— —— —— —— —— —————— —— 这就是组装的,散的但是有序
—— —— —— ——— ——— ———— ———— —— —— —— ——
相当于把散的转录本 取并集
现在就可以对这些 转录本进行定量 ,FPKM差异 / htseq-
count,(一个是计算reads落在merge上的概率;一个是计数——但这都是把表达量通过reads来量化)
如果做转录组分析,就拿着这个定量的结果进行分析,lncRNA就继续,怎么得到lincRNA??
lincRNA 基因间——长链——非编码
一、基因间
把merge的结果和参考基因组(上面的基因,我们已知)比较
参考基因组 ———— ———— —————— ——————————————
merge **— ——— —— —— ———— ———————— **
如上,黄色部分为基因间的,截取下来
二、长链
long >= 200 exon >= 2(外显子为什么要大于等于2,这个算法不清楚)
三、非编码 (也就是能转录,但是不能翻译成蛋白质——那就是把序列 预测 蛋白 ,如果蛋白库里有,那就不是我们的目标)
位置 >>>> 序列 >>>> 蛋白
这里有很多办法,或者cpc……
一段序列有6中氨基酸序列的可能性
得到lincRNA后,做什么?进行差异分析,富集通路,也就是找lincRNA和功能的关系
**一、 功能预测**
cis—— 往往都是从上下游去找基因,然后找这些基因的共性
trans——找lincRNA和已知gene之间的相关性,横向纵向都很多,全部都要两两对比,| 相关 | >0.7/0.8 , p < 0.05/0.01
然后从相关性系数,去找规律
**二、 差异分析** (上调,下调)
**三、 QTL** (把lincRNA拿到QTL上去对应性状)
但是整个过程都只是一个概率,去预测lincRNA,那为什么有的实验室lincRNA能发高分,能做一套完整的流程,我们只能停留在找到lincRNA,做一个定量,这个问题比较重要!!!!
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)