表达矩阵标准化难吗？7个要点

作者：Dr.Feng

2026-05-14｜原创

引言Introduction

表达矩阵标准化 并不难，难的是选对方法。做差异分析、相关性检验或可视化时，如果直接用原始表达值，结果很容易受量纲、极端值和批次差影响。
一张RNA测序表达矩阵从原始值到标准化后热图对比图，突出“前后变化明显”

1. 为什么要做表达矩阵标准化

1.1 原始表达值不适合直接比较

表达矩阵里的数值，常见来源包括 counts、FPKM、TPM 或已处理后的表达量。它们的分布差异很大。
如果不先处理，基因之间、样本之间的比较就可能失真。尤其在绘图和相关性分析中，标准化几乎是必需步骤。

1.2 标准化的核心目标

表达矩阵标准化的目标，不是“美化数据”，而是让数据更可比。
常见目的有三类。

消除量纲差异
缓解极端值影响
让不同样本或基因处于同一分析尺度

对科研人员来说，这一步直接影响后续图形解释和统计结论。

2. 先分清你手里的数据类型

2.1 counts、FPKM、TPM 不能混用

不同表达矩阵的标准化思路不一样。counts 更接近原始测序信号，适合做进一步统计建模。FPKM 和 TPM 已经过长度校正，但仍不等于可直接比较的“最终答案”。
如果输入数据类型都没分清，后面的标准化就可能用错方向。

2.2 是否已经做过预处理

有些公共数据库导出的表达矩阵，已经做过 log 转换或中心化处理。此时再重复标准化，可能会放大偏差。
建议先确认三点。

数据是否为原始 counts。
是否做过 log2 转换。
是否已经按样本或基因缩放过。

这一步看似基础，但能避免很多重复劳动。

3. 最常见的标准化方式

3.1 log 转换适合压缩极端值

当表达矩阵跨度很大时，常用 log2(x + 1)。
它的作用是压缩高表达基因的巨大差异，让低表达信号更容易被观察到。

在热图、箱线图和散点图中，log 转换非常常见。
尤其当数据呈右偏分布时，图形会明显更稳定。

3.2 Z-score 适合看相对变化

如果你关心的是“某个基因在不同样本中的相对高低”，可以做 Z-score 标准化。
常见做法是对每一行基因计算均值和标准差，再进行转换。
这样处理后，数据中心会靠近 0，便于比较上调和下调趋势。

这也是很多文章在热图和箱线图中常见的做法。
如果你看到图上的表达值集中在 0 附近，往往就是做过这类处理。

3.3 按样本或按基因缩放要区分

按行标准化和按列标准化，含义完全不同。

按行：比较同一基因在不同样本中的变化
按列：比较同一样本中不同基因的分布

如果目标是看分期相关基因在不同样本中的变化，通常更关注按行处理。
标准化方向选错，图就会“看起来对”，但解释是错的。

4. 表达矩阵标准化时要注意的3个细节

4.1 有重复值时，相关性方法要谨慎

做表达矩阵标准化后，很多人会继续做相关性分析。这里要注意数据类型。
如果分组变量是有序因子，像分期这种信息，通常需要先转成合适的顺序，再选择 Spearman 或 Kendall。
Spearman 更适合单调关系，且对非正态数据更稳健。

4.2 不同算法对结果影响很大

标准化不是单一步骤，而是一套流程。
例如先做 log 转换，再做 Z-score，和直接做 Z-score，结果会不同。
因此，分析前最好明确流程。

原始矩阵如何获得。
是否需要过滤低表达基因。
是否需要先 log 转换。
是否再进行缩放或中心化。

4.3 结果要能回溯

标准化后的表达矩阵必须保留处理记录。
这不仅是科研规范，也关系到可重复性。
写论文或做补充材料时，最好说明：

使用了哪种表达矩阵
是否进行了 log2 转换
是否做了 Z-score
相关性检验采用了什么方法

这类信息看似简单，但能显著提升可信度。

5. 图形展示中常见的两个场景

5.1 热图中常用标准化表达值

热图最能体现标准化的价值。
当不同基因表达范围差异很大时，直接画原始值，图会被高表达基因“压扁”。
做过表达矩阵标准化后，图形层次更清楚，样本聚类也更容易观察。

对于医学生和科研人员来说，热图不是“好看就行”，而是要能支持结论。

5.2 箱线图和分组比较更依赖尺度统一

在分组比较中，标准化后的表达值更容易呈现组间差异。
如果数据来源不同，或者不同样本测序深度不一，直接比原始值风险很高。
这时标准化能让图更接近真实趋势。

如果还要标注显著性，建议同时报告统计方法和 p 值。
这样图才完整。

6. 一个实用的判断标准

6.1 什么时候必须标准化

通常在以下场景中，表达矩阵标准化几乎是必做项。

画热图
做样本聚类
做相关性分析
比较不同样本的相对表达趋势
观察分组间模式变化

6.2 什么时候不应过度处理

如果你的目标是做严格的差异表达分析，很多情况下应使用适合模型输入的原始或归一化计数，而不是随意再做多次标准化。
不要把“适合可视化”的处理，直接当成“适合统计建模”的输入。

这也是新手最容易混淆的地方。
标准化服务于分析目标，不是固定模板。

7. 解螺旋如何帮助你少走弯路

7.1 把表达矩阵标准化做成可复用流程

实际工作里，真正耗时间的不是“会不会做”，而是“每次都要从头整理”。
解螺旋的工具和内容体系，适合把表达矩阵标准化、绘图、统计分析整合成更清晰的流程。
这样你能更快判断该用 log 转换、Z-score，还是直接进入后续分析。

7.2 让数据处理和论文表达同步

很多人数据做完了，图也画了，但文章描述不规范。
解螺旋的思路可以帮助你同时处理两件事。

规范表达矩阵标准化步骤
提升图表可重复性
统一方法描述和结果呈现

对医学生、医生和科研人员来说，这能明显减少返工。

总结Conclusion

表达矩阵标准化并不复杂，关键是先明确数据类型，再选择合适方法。
记住这7个要点：分清数据来源、确认预处理状态、选择合适变换、注意标准化方向、区分可视化与建模需求、保留处理记录、让结果可重复。
这样做，表达矩阵标准化就不再是负担，而是可靠分析的起点。

如果你希望把表达矩阵标准化、绘图和论文结果表达做得更规范，可以关注解螺旋。
一位研究者在电脑前查看标准化后的热图、箱线图和代码脚本，画面强调“流程清晰、结果规范”