【转录组】文库数据标准化方法RPKM FPKM TPM CPM RPM(理论篇)
发布网友
发布时间:2023-01-09 12:17
我来回答
共1个回答
热心网友
时间:2023-10-23 09:20
RNA-seq每个基因的长度和深度均不相同,所以需要对基因的长度和测序深度进行Normalize
一个Read Count的数据矩阵(行为基因,列为样本)。
total exon reads:某个样本mapping到特定基因的外显子上的所有的reads;
mapped reads (Millions) :某个样本的所有reads总和;
exon length(KB):某个基因的长度(外显子的长度的总和,以KB为单位)
FPKM(Fragments PerKilobase Million): Fragments Per Kilobase of exon model per Million mapped fragments
FPKM和RPKM的计算方法基本一致,只不过把reads换成了Fragments。
TPM(Transcripts PerKilobase Million):Transcripts Per Kilobase of exon model per Million mapped reads
一个样本中某基因的TPM值的计算方法:先对每个基因的read数用基因的长度进行校正,之后再用校正后的这个基因read数(Ni/Li)与校正后的这个样本的所有read数(sum(Ni/Li+……..+ Nm/Lm))求商
在计算TPM是先对基因长度进行标准化,之后再对列进行标准化。
这样使得最终的TPM矩阵的每列总和都相同(等于1000000),也就是说每个样本中的TPM的总和都是一样的。理论上,这使得我们更容易比较不同样本中所占同一基因的read数的比例。
学术界已经不再推荐RPKM、FPKM, 比较基因的表达丰度,例如哪个基因在哪个组织里高表达,用TPM做均一化处理;
Counts per million
用途:在某些情况下,只想了解每个基因被覆盖到的相对reads数,而不希望对其做长度校正,就会使用这个指标。
CPM只对read count相对总reads数做了数量的均一化。当如果想进行表达量的基因间比较,则不得不考虑基因长度的不同。如果进一步做长度的均一化,就用RPKM。
与CPM相似