TPM表达矩阵是什么？

TPM表达矩阵是经过基因长度和样本内总量标准化后的表达数据，主要反映同一样本内不同基因的相对表达水平。

TPM表达矩阵可以直接做差异分析吗？

一般不建议。差异分析更适合使用原始COUNT数据，TPM更适合用于表达展示和可视化。

TPM表达矩阵能直接比较不同样本的绝对表达吗？

不能直接当作绝对表达量比较。TPM更适合看趋势和相对变化，跨样本比较时还需结合分组设计、注释版本和统计方法。

TPM表达矩阵如何解读？4类常见误区

作者：Dr.Sheng

2026-05-11｜原创

引言Introduction

TPM表达矩阵是转录组分析里最常见的数据形式之一，但很多医学生和科研人员在解读时容易踩坑。它适合做展示，不等于适合所有统计分析。 本文结合表达量转换逻辑，拆解TPM表达矩阵的4类常见误区，帮助你更准确地看懂数据。
一张RNA测序数据分析流程图，突出COUNT、FPKM、TPM三种表达量类型及转换关系

1.TPM表达矩阵到底是什么

1.1 先理解它的计算逻辑

TPM表达矩阵的核心思想是先按基因长度校正，再按样本内总量标准化。根据常用定义，先计算每个基因的“reads数除以基因长度”，再将所有基因的结果求和，最后换算成每百万单位。

这意味着TPM表达矩阵反映的是“同一样本内，不同基因之间的相对表达占比”。 它本质上是一个归一化矩阵，而不是原始测序计数。

1.2 它和COUNT、FPKM有什么区别

在实际分析中，COUNT数据最常作为差异分析的输入，因为主流差异分析工具更接受原始计数。TPM更常用于画图和展示，因为它已经做了长度和测序深度校正，便于不同基因在同一样本中的横向比较。

而FPKM、RPKM虽然也做了校正，但不同样本之间总和不一致 ，所以不适合直接用于跨样本表达量比较。TCGA相关数据里，TPM通常也是由FPKM进一步换算得到。

2.误区一：TPM表达矩阵可以直接做所有差异分析

2.1 为什么这是常见错误

很多人看到TPM已经标准化，就会直接拿来做差异分析。这个做法并不严谨。差异分析需要尽量保留原始计数分布的信息，而TPM表达矩阵已经经过转换，统计分布被改变。

主流流程通常建议：差异分析用COUNT，展示和可视化用TPM。 这是最稳妥的分工方式。

2.2 正确做法是什么

如果你要比较肿瘤和正常样本，建议优先使用原始COUNT进入DESeq2、edgeR等工具。
如果你只是想画箱线图、小提琴图、热图或做样本间表达展示，TPM表达矩阵更合适。

可以简单记住：

差异检验，优先COUNT。
表达展示，优先TPM。
不要把“归一化”直接等同于“适合差异分析”。

3.误区二：TPM表达矩阵可以直接比较不同样本的绝对表达

3.1 TPM的比较边界要分清

TPM表达矩阵经过样本内标准化后，适合看同一样本里不同基因谁高谁低。
但它不是绝对表达量。跨样本比较时，要先确认研究设计和数据处理是否一致。

从原理上看，TPM把每个样本都压缩到同一个总量尺度，因此它更强调相对比例，而不是原始分子数。很多时候，样本间差异变化还会受到组织构成、肿瘤纯度、批次效应影响。

3.2 实操中该怎么看

如果你要比较两个分组，建议关注以下几点：

是否来自同一批测序流程。
是否使用相同的基因注释版本。
是否对极端值做了适度处理，例如可视化前进行log2(TPM+1)转换。
是否明确比较的是“相对表达变化”，而不是绝对分子数量。

一句话：TPM表达矩阵能帮助你比较趋势，但不能替代严谨的实验设计。

4.误区三：TPM表达矩阵越大，样本间越可比

4.1 数值大小不是唯一标准

有些人会把TPM数值理解为“表达越高越可信”。其实不完全对。TPM的数值受样本内总量、基因长度和转录本组成影响。一个基因在不同样本中TPM升高，可能代表真实上调，也可能只是该样本中其他基因整体占比变化。

TPM表达矩阵更适合做相对比较，不适合脱离上下文解读单个数值。

4.2 建议结合哪些信息一起看

更稳妥的做法是把TPM与以下信息联合解读：

分组信息，如肿瘤、正常、配对样本。
统计检验结果，如Wilcoxon秩和检验。
可视化图形，如箱线图、小提琴图、散点配对图。
基因功能背景，如是否属于高表达结构基因或低丰度调控基因。

在实际演示中，常见做法是先将TPM取log2(TPM+1)，再进行组间比较，这样更利于观察分布差异，也更适合图形展示。

5.误区四：TPM表达矩阵转换后就不需要关注来源

5.1 来源信息决定可重复性

TPM表达矩阵并不是天然统一的。它依赖于：

原始COUNT数据。
基因长度注释。
计算公式。
是否按外显子长度或转录本长度处理。

如果来源不一致，TPM结果就可能不可直接互比。尤其在不同数据库之间，注释版本差异会影响基因长度，进而影响最终TPM数值。

5.2 从COUNT到TPM时要注意什么

根据常见转换逻辑，可以从COUNT数据出发，先按基因长度做校正，再进行样本内标准化。若你已经有FPKM，也可以直接换算成TPM。常见公式思路是用FPKM乘以10的6次方，再除以所有FPKM之和。

所以，TPM表达矩阵不是“下载后直接结束”，而是要确认它的生成链路。 这一步决定了后续分析是否可靠。

6.解读TPM表达矩阵的实用步骤

6.1 先看数据层级

在正式分析前，先确认你手里的矩阵是什么：

原始COUNT。
FPKM或RPKM。
TPM表达矩阵。

如果是TPM表达矩阵，优先明确用途是展示、筛选，还是辅助描述。不要混用分析目标。

6.2 再看分组方式

如果是肿瘤和正常的比较，常见图形包括：

箱线图。
小提琴图。
配对散点图。

对于非配对样本，常用Wilcoxon检验。对于配对样本，检验方式和作图方式都要体现配对关系。图形和统计方法必须匹配实验设计。

6.3 最后看变换方式

TPM数值跨度通常很大。直接画图容易被极端值影响，因此常见做法是：

log2(TPM+1)转换。
再进行组间比较。
必要时配合中位数和四分位数展示。

这样更符合读图习惯，也更利于发现真实差异。

7.如何把TPM表达矩阵用对

7.1 一个简单判断标准

你可以用下面这个标准快速判断：

想做差异分析，优先不要用TPM。
想做图展示和表达趋势观察，TPM很合适。
想跨样本严谨比较，必须结合设计和统计方法。

TPM表达矩阵的价值，不在于替代所有表达数据，而在于把表达结果讲清楚。

7.2 适合哪些场景

TPM特别适合：

文章作图。
候选基因表达展示。
不同样本的表达趋势比较。
基因集层面的可视化。

它不适合：

直接替代原始计数做差异分析。
脱离批次和注释背景做绝对解释。
用单个数值断言生物学结论。

总结Conclusion

TPM表达矩阵是转录组分析中非常实用的数据形式，但前提是你要知道它能做什么、不能做什么。最重要的4个误区是：把TPM当原始数据、把TPM当绝对表达、忽视样本来源、忽视分析场景。
如果你希望把TPM表达矩阵真正用对，建议在数据整理、标准化、可视化和统计分析之间建立清晰流程。解螺旋品牌可为你提供更系统的生信数据挖掘支持，帮助你更高效地完成表达矩阵解读、图表制作和结果呈现。
一张科研人员在电脑前分析转录组热图和箱线图的场景图，旁边展示TPM表达矩阵、差异分析和可视化结果