引言Introduction

表达矩阵标准化 并不难,难的是选对方法。做差异分析、相关性检验或可视化时,如果直接用原始表达值,结果很容易受量纲、极端值和批次差影响。
一张RNA测序表达矩阵从原始值到标准化后热图对比图,突出“前后变化明显”

1. 为什么要做表达矩阵标准化

1.1 原始表达值不适合直接比较

表达矩阵里的数值,常见来源包括 counts、FPKM、TPM 或已处理后的表达量。它们的分布差异很大。
如果不先处理,基因之间、样本之间的比较就可能失真。尤其在绘图和相关性分析中,标准化几乎是必需步骤。

1.2 标准化的核心目标

表达矩阵标准化的目标,不是“美化数据”,而是让数据更可比。
常见目的有三类。

  • 消除量纲差异
  • 缓解极端值影响
  • 让不同样本或基因处于同一分析尺度

对科研人员来说,这一步直接影响后续图形解释和统计结论。

2. 先分清你手里的数据类型

2.1 counts、FPKM、TPM 不能混用

不同表达矩阵的标准化思路不一样。counts 更接近原始测序信号,适合做进一步统计建模。FPKM 和 TPM 已经过长度校正,但仍不等于可直接比较的“最终答案”。
如果输入数据类型都没分清,后面的标准化就可能用错方向。

2.2 是否已经做过预处理

有些公共数据库导出的表达矩阵,已经做过 log 转换或中心化处理。此时再重复标准化,可能会放大偏差。
建议先确认三点。

  1. 数据是否为原始 counts。
  2. 是否做过 log2 转换。
  3. 是否已经按样本或基因缩放过。

这一步看似基础,但能避免很多重复劳动。

3. 最常见的标准化方式

3.1 log 转换适合压缩极端值

当表达矩阵跨度很大时,常用 log2(x + 1)
它的作用是压缩高表达基因的巨大差异,让低表达信号更容易被观察到。

在热图、箱线图和散点图中,log 转换非常常见。
尤其当数据呈右偏分布时,图形会明显更稳定。

3.2 Z-score 适合看相对变化

如果你关心的是“某个基因在不同样本中的相对高低”,可以做 Z-score 标准化。
常见做法是对每一行基因计算均值和标准差,再进行转换。
这样处理后,数据中心会靠近 0,便于比较上调和下调趋势。

这也是很多文章在热图和箱线图中常见的做法。
如果你看到图上的表达值集中在 0 附近,往往就是做过这类处理。

3.3 按样本或按基因缩放要区分

按行标准化和按列标准化,含义完全不同。

  • 按行:比较同一基因在不同样本中的变化
  • 按列:比较同一样本中不同基因的分布

如果目标是看分期相关基因在不同样本中的变化,通常更关注按行处理。
标准化方向选错,图就会“看起来对”,但解释是错的。

4. 表达矩阵标准化时要注意的3个细节

4.1 有重复值时,相关性方法要谨慎

做表达矩阵标准化后,很多人会继续做相关性分析。这里要注意数据类型。
如果分组变量是有序因子,像分期这种信息,通常需要先转成合适的顺序,再选择 Spearman 或 Kendall。
Spearman 更适合单调关系,且对非正态数据更稳健。

4.2 不同算法对结果影响很大

标准化不是单一步骤,而是一套流程。
例如先做 log 转换,再做 Z-score,和直接做 Z-score,结果会不同。
因此,分析前最好明确流程。

  1. 原始矩阵如何获得。
  2. 是否需要过滤低表达基因。
  3. 是否需要先 log 转换。
  4. 是否再进行缩放或中心化。

4.3 结果要能回溯

标准化后的表达矩阵必须保留处理记录。
这不仅是科研规范,也关系到可重复性。
写论文或做补充材料时,最好说明:

  • 使用了哪种表达矩阵
  • 是否进行了 log2 转换
  • 是否做了 Z-score
  • 相关性检验采用了什么方法

这类信息看似简单,但能显著提升可信度。

5. 图形展示中常见的两个场景

5.1 热图中常用标准化表达值

热图最能体现标准化的价值。
当不同基因表达范围差异很大时,直接画原始值,图会被高表达基因“压扁”。
做过表达矩阵标准化后,图形层次更清楚,样本聚类也更容易观察。

对于医学生和科研人员来说,热图不是“好看就行”,而是要能支持结论。

5.2 箱线图和分组比较更依赖尺度统一

在分组比较中,标准化后的表达值更容易呈现组间差异。
如果数据来源不同,或者不同样本测序深度不一,直接比原始值风险很高。
这时标准化能让图更接近真实趋势。

如果还要标注显著性,建议同时报告统计方法和 p 值。
这样图才完整。

6. 一个实用的判断标准

6.1 什么时候必须标准化

通常在以下场景中,表达矩阵标准化几乎是必做项。

  • 画热图
  • 做样本聚类
  • 做相关性分析
  • 比较不同样本的相对表达趋势
  • 观察分组间模式变化

6.2 什么时候不应过度处理

如果你的目标是做严格的差异表达分析,很多情况下应使用适合模型输入的原始或归一化计数,而不是随意再做多次标准化。
不要把“适合可视化”的处理,直接当成“适合统计建模”的输入。

这也是新手最容易混淆的地方。
标准化服务于分析目标,不是固定模板。

7. 解螺旋如何帮助你少走弯路

7.1 把表达矩阵标准化做成可复用流程

实际工作里,真正耗时间的不是“会不会做”,而是“每次都要从头整理”。
解螺旋的工具和内容体系,适合把表达矩阵标准化、绘图、统计分析整合成更清晰的流程。
这样你能更快判断该用 log 转换、Z-score,还是直接进入后续分析。

7.2 让数据处理和论文表达同步

很多人数据做完了,图也画了,但文章描述不规范。
解螺旋的思路可以帮助你同时处理两件事。

  • 规范表达矩阵标准化步骤
  • 提升图表可重复性
  • 统一方法描述和结果呈现

对医学生、医生和科研人员来说,这能明显减少返工。

总结Conclusion

表达矩阵标准化并不复杂,关键是先明确数据类型,再选择合适方法。
记住这7个要点:分清数据来源、确认预处理状态、选择合适变换、注意标准化方向、区分可视化与建模需求、保留处理记录、让结果可重复。
这样做,表达矩阵标准化就不再是负担,而是可靠分析的起点。

如果你希望把表达矩阵标准化、绘图和论文结果表达做得更规范,可以关注解螺旋。
一位研究者在电脑前查看标准化后的热图、箱线图和代码脚本,画面强调“流程清晰、结果规范”