引言Introduction

TPM表达矩阵是转录组分析里最常见的数据形式之一,但很多医学生和科研人员在解读时容易踩坑。它适合做展示,不等于适合所有统计分析。 本文结合表达量转换逻辑,拆解TPM表达矩阵的4类常见误区,帮助你更准确地看懂数据。
一张RNA测序数据分析流程图,突出COUNT、FPKM、TPM三种表达量类型及转换关系

1.TPM表达矩阵到底是什么

1.1 先理解它的计算逻辑

TPM表达矩阵的核心思想是先按基因长度校正,再按样本内总量标准化。根据常用定义,先计算每个基因的“reads数除以基因长度”,再将所有基因的结果求和,最后换算成每百万单位。

这意味着TPM表达矩阵反映的是“同一样本内,不同基因之间的相对表达占比”。 它本质上是一个归一化矩阵,而不是原始测序计数。

1.2 它和COUNT、FPKM有什么区别

在实际分析中,COUNT数据最常作为差异分析的输入,因为主流差异分析工具更接受原始计数。TPM更常用于画图和展示,因为它已经做了长度和测序深度校正,便于不同基因在同一样本中的横向比较。

而FPKM、RPKM虽然也做了校正,但不同样本之间总和不一致 ,所以不适合直接用于跨样本表达量比较。TCGA相关数据里,TPM通常也是由FPKM进一步换算得到。

2.误区一:TPM表达矩阵可以直接做所有差异分析

2.1 为什么这是常见错误

很多人看到TPM已经标准化,就会直接拿来做差异分析。这个做法并不严谨。差异分析需要尽量保留原始计数分布的信息,而TPM表达矩阵已经经过转换,统计分布被改变。

主流流程通常建议:差异分析用COUNT,展示和可视化用TPM。 这是最稳妥的分工方式。

2.2 正确做法是什么

如果你要比较肿瘤和正常样本,建议优先使用原始COUNT进入DESeq2、edgeR等工具。
如果你只是想画箱线图、小提琴图、热图或做样本间表达展示,TPM表达矩阵更合适。

可以简单记住:

  • 差异检验,优先COUNT。
  • 表达展示,优先TPM。
  • 不要把“归一化”直接等同于“适合差异分析”。

3.误区二:TPM表达矩阵可以直接比较不同样本的绝对表达

3.1 TPM的比较边界要分清

TPM表达矩阵经过样本内标准化后,适合看同一样本里不同基因谁高谁低。
但它不是绝对表达量。跨样本比较时,要先确认研究设计和数据处理是否一致。

从原理上看,TPM把每个样本都压缩到同一个总量尺度,因此它更强调相对比例,而不是原始分子数。很多时候,样本间差异变化还会受到组织构成、肿瘤纯度、批次效应影响。

3.2 实操中该怎么看

如果你要比较两个分组,建议关注以下几点:

  1. 是否来自同一批测序流程。
  2. 是否使用相同的基因注释版本。
  3. 是否对极端值做了适度处理,例如可视化前进行log2(TPM+1)转换。
  4. 是否明确比较的是“相对表达变化”,而不是绝对分子数量。

一句话:TPM表达矩阵能帮助你比较趋势,但不能替代严谨的实验设计。

4.误区三:TPM表达矩阵越大,样本间越可比

4.1 数值大小不是唯一标准

有些人会把TPM数值理解为“表达越高越可信”。其实不完全对。TPM的数值受样本内总量、基因长度和转录本组成影响。一个基因在不同样本中TPM升高,可能代表真实上调,也可能只是该样本中其他基因整体占比变化。

TPM表达矩阵更适合做相对比较,不适合脱离上下文解读单个数值。

4.2 建议结合哪些信息一起看

更稳妥的做法是把TPM与以下信息联合解读:

  • 分组信息,如肿瘤、正常、配对样本。
  • 统计检验结果,如Wilcoxon秩和检验。
  • 可视化图形,如箱线图、小提琴图、散点配对图。
  • 基因功能背景,如是否属于高表达结构基因或低丰度调控基因。

在实际演示中,常见做法是先将TPM取log2(TPM+1),再进行组间比较,这样更利于观察分布差异,也更适合图形展示。

5.误区四:TPM表达矩阵转换后就不需要关注来源

5.1 来源信息决定可重复性

TPM表达矩阵并不是天然统一的。它依赖于:

  • 原始COUNT数据。
  • 基因长度注释。
  • 计算公式。
  • 是否按外显子长度或转录本长度处理。

如果来源不一致,TPM结果就可能不可直接互比。尤其在不同数据库之间,注释版本差异会影响基因长度,进而影响最终TPM数值。

5.2 从COUNT到TPM时要注意什么

根据常见转换逻辑,可以从COUNT数据出发,先按基因长度做校正,再进行样本内标准化。若你已经有FPKM,也可以直接换算成TPM。常见公式思路是用FPKM乘以10的6次方,再除以所有FPKM之和。

所以,TPM表达矩阵不是“下载后直接结束”,而是要确认它的生成链路。 这一步决定了后续分析是否可靠。

6.解读TPM表达矩阵的实用步骤

6.1 先看数据层级

在正式分析前,先确认你手里的矩阵是什么:

  • 原始COUNT。
  • FPKM或RPKM。
  • TPM表达矩阵。

如果是TPM表达矩阵,优先明确用途是展示、筛选,还是辅助描述。不要混用分析目标。

6.2 再看分组方式

如果是肿瘤和正常的比较,常见图形包括:

  • 箱线图。
  • 小提琴图。
  • 配对散点图。

对于非配对样本,常用Wilcoxon检验。对于配对样本,检验方式和作图方式都要体现配对关系。图形和统计方法必须匹配实验设计。

6.3 最后看变换方式

TPM数值跨度通常很大。直接画图容易被极端值影响,因此常见做法是:

  • log2(TPM+1)转换。
  • 再进行组间比较。
  • 必要时配合中位数和四分位数展示。

这样更符合读图习惯,也更利于发现真实差异。

7.如何把TPM表达矩阵用对

7.1 一个简单判断标准

你可以用下面这个标准快速判断:

  • 想做差异分析,优先不要用TPM。
  • 想做图展示和表达趋势观察,TPM很合适。
  • 想跨样本严谨比较,必须结合设计和统计方法。

TPM表达矩阵的价值,不在于替代所有表达数据,而在于把表达结果讲清楚。

7.2 适合哪些场景

TPM特别适合:

  • 文章作图。
  • 候选基因表达展示。
  • 不同样本的表达趋势比较。
  • 基因集层面的可视化。

它不适合:

  • 直接替代原始计数做差异分析。
  • 脱离批次和注释背景做绝对解释。
  • 用单个数值断言生物学结论。

总结Conclusion

TPM表达矩阵是转录组分析中非常实用的数据形式,但前提是你要知道它能做什么、不能做什么。最重要的4个误区是:把TPM当原始数据、把TPM当绝对表达、忽视样本来源、忽视分析场景。
如果你希望把TPM表达矩阵真正用对,建议在数据整理、标准化、可视化和统计分析之间建立清晰流程。解螺旋品牌可为你提供更系统的生信数据挖掘支持,帮助你更高效地完成表达矩阵解读、图表制作和结果呈现。
一张科研人员在电脑前分析转录组热图和箱线图的场景图,旁边展示TPM表达矩阵、差异分析和可视化结果