虽然一直在接触FPKM/RPKM以及TPM,但是仅仅是知道它们是转录本定量的值,并未究其根本。最近看了几篇文献,对其深层次的含义有了进一步的理解,因而在这里记录下来。
首先来看FPKM/RPKM的起源:
在RNA-Seq中,最简单的定量基因表达量(gene expression)的方法就是将RNA-Seq数据比对到相应的参考序列上时,会有比对到各个基因的read数量,称为raw read counts。但是如果要比较不同样本中基因的表达量,光有raw counts是远远不够的,因为raw cread counts受到很多因素的影响,如目标基因的转录本长度(transcript length)、总的有效比对的read数量(即测序深度 sequencing depth)以及测序的偏差(sequencing bias)等等,这些因素是如何影响raw read counts的后面会有解释。那么为了将不同样本的基因表达量归一化到一个能够量化比较的标准上,科学家们采取的措施是将raw counts同时除以目标基因的外显子长度之和(也就是目标基因转录本长度)和总的有效比对的read总数。这就是RPKM的定义
RPKM = (10^6 * nr) / (L * N)
其中 nr 代表比对至目标基因的read数量;L代表目标基因的外显子长度之和除以1000,单位是Kb,不