RPKM数据和TPM有什么区别？

RPKM和TPM都考虑基因长度和测序深度，但标准化顺序不同；TPM更适合跨样本比较。

RPKM数据可以直接用于差异分析吗？

不建议。RPKM更适合表达展示和筛选，差异分析通常应使用原始count。

count转RPKM需要哪些信息？

至少需要每个基因的count矩阵和基因长度，且基因ID与注释文件必须一致。

RPKM数据怎么用？7项专业指南

作者：Dr.Sheng

2026-05-13｜原创

引言Introduction

RPKM数据是RNA-seq分析里最常见的表达量单位之一，但很多医学生和科研人员在使用时，常会卡在“能不能比较”“何时该换TPM”“如何从count转换”这些问题上。如果标准化方法选错，后续差异分析和可视化都可能偏离真实生物学信号。

RNA-seq数据分析流程图，突出count、RPKM、FPKM、TPM之间的转换关系，以及不同样本的标准化对比。

1.RPKM数据是什么，为什么要先标准化

1.1 RPKM的核心作用

RPKM数据本质上是对转录组读段数做标准化后的结果。它同时校正了两个因素，基因长度和测序深度。这也是为什么不能直接用原始reads数比较不同基因或不同样本。

如果只看reads数，长基因往往天然更容易获得更多比对片段。测序深度更高的样本，也会整体读段数偏多。RPKM数据的价值，就是把这两个偏差尽量压平，让表达量更可比。

1.2 RPKM和FPKM的关系

在常规表达定量里，RPKM一般用于单端测序，FPKM用于双端测序。从公式和标准化逻辑上看，两者本质非常接近。 实务中，很多分析思路也会把它们放在同一类标准化表达值里讨论。

对医学生和科研人员来说，更关键的不是争论名词，而是确认你的数据类型、下游任务和分析平台是否一致。只要前提统一，RPKM数据就能用于后续展示、筛选和解释。

2.什么时候适合使用RPKM数据

2.1 适合做基因表达展示

RPKM数据最常见的用途，是展示基因表达水平。比如绘制热图、比较不同组织的表达趋势、观察候选基因在样本中的相对丰度。在这类场景中，RPKM数据比原始count更直观。

如果你的目的是看一个基因在多个样本中是否“高表达”或“低表达”，RPKM通常比未标准化数据更有说服力。因为它已经考虑了基因长度和测序深度。

2.2 适合做初步筛选

在一些探索性分析中，RPKM数据可用于筛选高表达基因、低表达基因或候选标志物。尤其是在样本量不大、目标是快速建立生物学印象时，RPKM数据很实用。

但要注意，RPKM数据更适合描述表达趋势，不应直接替代统计建模中的原始count。 如果后续要做严谨的差异表达分析，通常仍要回到适合模型输入的count矩阵。

3.RPKM数据和count、TPM怎么区分

3.1 count是原始计数，RPKM是校正后表达量

count表示比对到基因上的原始读段数。它没有做长度和测序深度校正。RPKM数据则是在此基础上进一步标准化后的表达值。

因此，count更适合统计模型和差异分析输入，RPKM更适合表达展示和横向比较。这两个层级不能混用。

3.2 RPKM和TPM的关键差异

RPKM和TPM都考虑了基因长度和测序深度，但标准化顺序不同。RPKM是先按样本总reads归一化，再按基因长度校正。TPM则是先按基因长度校正，再对样本内总量归一化。

从课程知识库的思路看，TPM目前更常用于跨样本比较。如果你的目的是提高样本间可比性，TPM通常更受推荐。 但在已有RPKM数据的场景下，不必强行重做，只要前后口径统一即可。

4.如何从count转换为RPKM数据

4.1 先准备两个核心信息

要把count转成RPKM数据，至少需要两类信息。第一是每个基因的count矩阵。第二是每个基因的长度。没有基因长度，就无法完成长度校正。

在课程示例里，基因长度来自GTF注释文件。通常会先提取每个基因的外显子区域，再用reduce去掉重叠部分，得到更准确的基因长度。这一步很重要，因为重叠区不去除会导致长度估计偏大。

4.2 再做标准化计算

RPKM数据的计算逻辑可概括为两步。先按样本总reads做归一化，再按基因长度做归一化。课程中的示意也强调了这一点：先得到总read数，再对样本值做标准化，最后再考虑基因长度。

如果你自己处理数据，核心原则是保持输入一致。基因ID、样本名、注释版本都要对齐。否则就算公式正确，结果也可能不可用。

5.使用RPKM数据时最常见的3个坑

5.1 基因ID对不上

很多人拿到表达矩阵后，直接做标准化，却忽略了基因ID和注释文件是否一致。课程知识库中明确提到，表达矩阵和GTF文件必须取交集。如果ID不匹配，基因长度无法映射，RPKM数据就算不出来。

实操中要先检查：

表达矩阵里的基因ID格式
GTF中的基因命名方式
是否存在版本号后缀
是否需要去掉点号后的版本信息

5.2 外显子长度计算不准确

RPKM数据依赖基因长度。如果长度估计错了，后续标准化就会偏。尤其是一个基因存在多个外显子时，必须先合并重叠区，再计算有效长度。

课程中的处理方法是先用exonsBy提取外显子，再用reduce去冗余。这类细节直接决定RPKM数据是否可信。

5.3 把RPKM当作差异分析输入

这是最常见的误用之一。RPKM数据适合展示，不适合直接替代原始count进入需要离散分布假设的统计模型。很多差异分析框架仍然建议使用count，并在模型内部完成标准化。

所以，RPKM数据更像“表达语言”，不是“建模原料”。 这一点要区分清楚。

6.如何判断RPKM数据是否可用

6.1 看分布是否合理

拿到RPKM数据后，第一步可以先看数值分布。通常表达量会呈现明显长尾，少数基因高表达，大量基因低表达，这是正常现象。若全部数值异常接近，或出现大量不合理的极端值，就要回查流程。

建议优先检查：

是否完成了长度标准化
是否样本总量校正正确
是否有异常样本主导整体分布

6.2 看样本间是否可比

RPKM数据的一个目标，就是让不同样本具有可比性。你可以先做简单的箱线图、密度图或PCA观察样本整体分布。若批次效应远大于生物差异，单靠RPKM数据通常还不够，还需要进一步处理。

如果你的研究目标是跨队列整合或模型构建，通常还要考虑更一致的标准化策略。 这时TPM或其他统一口径会更稳妥。

7.实际项目里怎么用RPKM数据更稳妥

7.1 建议的使用流程

一个更稳妥的使用思路是：

先确认样本类型和测序类型。
读取count矩阵和基因注释。
计算准确的基因长度。
将count转换为RPKM数据。
检查分布和样本一致性。
再用于展示、筛选和结果汇报。

这个流程看似简单，但每一步都决定结果可靠性。尤其是基因长度和ID匹配，往往是出错高发区。

7.2 什么时候考虑直接用TPM

如果你的任务是跨样本表达比较，或者想让结果更适合与其他平台数据整合，TPM往往更合适。课程知识库也提到，目前主流观点更倾向TPM，尤其在需要提高样本间比较一致性的情况下。

但这不意味着RPKM数据没有价值。对于已有数据、历史项目和特定流程，RPKM依然常用。关键是你要知道它适合什么，不适合什么。

总结Conclusion

RPKM数据的核心价值，是把原始count转化为可比较的表达量，校正基因长度和测序深度带来的偏差。它更适合表达展示、候选基因筛选和趋势分析，不建议直接替代count进入差异分析模型。真正决定RPKM数据是否可靠的，不只是公式，而是注释版本、基因长度和样本一致性。

如果你希望更高效地处理RNA-seq标准化、count转FPKM/RPKM/TPM、基因长度提取等流程，可以关注【解螺旋】品牌提供的科研支持工具与方法服务。它能帮助你减少重复劳动，提升数据处理一致性，让你把更多时间放在结果解读和论文产出上。

科研人员在电脑前查看RNA-seq表达矩阵、热图和标准化流程图，画面突出“RPKM/TPM结果输出”和“科研效率提升”。