引言Introduction
表达矩阵标准化 并不难,难的是选对方法。做差异分析、相关性检验或可视化时,如果直接用原始表达值,结果很容易受量纲、极端值和批次差影响。

1. 为什么要做表达矩阵标准化
1.1 原始表达值不适合直接比较
表达矩阵里的数值,常见来源包括 counts、FPKM、TPM 或已处理后的表达量。它们的分布差异很大。
如果不先处理,基因之间、样本之间的比较就可能失真。尤其在绘图和相关性分析中,标准化几乎是必需步骤。
1.2 标准化的核心目标
表达矩阵标准化的目标,不是“美化数据”,而是让数据更可比。
常见目的有三类。
- 消除量纲差异
- 缓解极端值影响
- 让不同样本或基因处于同一分析尺度
对科研人员来说,这一步直接影响后续图形解释和统计结论。
2. 先分清你手里的数据类型
2.1 counts、FPKM、TPM 不能混用
不同表达矩阵的标准化思路不一样。counts 更接近原始测序信号,适合做进一步统计建模。FPKM 和 TPM 已经过长度校正,但仍不等于可直接比较的“最终答案”。
如果输入数据类型都没分清,后面的标准化就可能用错方向。
2.2 是否已经做过预处理
有些公共数据库导出的表达矩阵,已经做过 log 转换或中心化处理。此时再重复标准化,可能会放大偏差。
建议先确认三点。
- 数据是否为原始 counts。
- 是否做过 log2 转换。
- 是否已经按样本或基因缩放过。
这一步看似基础,但能避免很多重复劳动。
3. 最常见的标准化方式
3.1 log 转换适合压缩极端值
当表达矩阵跨度很大时,常用 log2(x + 1)。
它的作用是压缩高表达基因的巨大差异,让低表达信号更容易被观察到。
在热图、箱线图和散点图中,log 转换非常常见。
尤其当数据呈右偏分布时,图形会明显更稳定。
3.2 Z-score 适合看相对变化
如果你关心的是“某个基因在不同样本中的相对高低”,可以做 Z-score 标准化。
常见做法是对每一行基因计算均值和标准差,再进行转换。
这样处理后,数据中心会靠近 0,便于比较上调和下调趋势。
这也是很多文章在热图和箱线图中常见的做法。
如果你看到图上的表达值集中在 0 附近,往往就是做过这类处理。
3.3 按样本或按基因缩放要区分
按行标准化和按列标准化,含义完全不同。
- 按行:比较同一基因在不同样本中的变化
- 按列:比较同一样本中不同基因的分布
如果目标是看分期相关基因在不同样本中的变化,通常更关注按行处理。
标准化方向选错,图就会“看起来对”,但解释是错的。
4. 表达矩阵标准化时要注意的3个细节
4.1 有重复值时,相关性方法要谨慎
做表达矩阵标准化后,很多人会继续做相关性分析。这里要注意数据类型。
如果分组变量是有序因子,像分期这种信息,通常需要先转成合适的顺序,再选择 Spearman 或 Kendall。
Spearman 更适合单调关系,且对非正态数据更稳健。
4.2 不同算法对结果影响很大
标准化不是单一步骤,而是一套流程。
例如先做 log 转换,再做 Z-score,和直接做 Z-score,结果会不同。
因此,分析前最好明确流程。
- 原始矩阵如何获得。
- 是否需要过滤低表达基因。
- 是否需要先 log 转换。
- 是否再进行缩放或中心化。
4.3 结果要能回溯
标准化后的表达矩阵必须保留处理记录。
这不仅是科研规范,也关系到可重复性。
写论文或做补充材料时,最好说明:
- 使用了哪种表达矩阵
- 是否进行了 log2 转换
- 是否做了 Z-score
- 相关性检验采用了什么方法
这类信息看似简单,但能显著提升可信度。
5. 图形展示中常见的两个场景
5.1 热图中常用标准化表达值
热图最能体现标准化的价值。
当不同基因表达范围差异很大时,直接画原始值,图会被高表达基因“压扁”。
做过表达矩阵标准化后,图形层次更清楚,样本聚类也更容易观察。
对于医学生和科研人员来说,热图不是“好看就行”,而是要能支持结论。
5.2 箱线图和分组比较更依赖尺度统一
在分组比较中,标准化后的表达值更容易呈现组间差异。
如果数据来源不同,或者不同样本测序深度不一,直接比原始值风险很高。
这时标准化能让图更接近真实趋势。
如果还要标注显著性,建议同时报告统计方法和 p 值。
这样图才完整。
6. 一个实用的判断标准
6.1 什么时候必须标准化
通常在以下场景中,表达矩阵标准化几乎是必做项。
- 画热图
- 做样本聚类
- 做相关性分析
- 比较不同样本的相对表达趋势
- 观察分组间模式变化
6.2 什么时候不应过度处理
如果你的目标是做严格的差异表达分析,很多情况下应使用适合模型输入的原始或归一化计数,而不是随意再做多次标准化。
不要把“适合可视化”的处理,直接当成“适合统计建模”的输入。
这也是新手最容易混淆的地方。
标准化服务于分析目标,不是固定模板。
7. 解螺旋如何帮助你少走弯路
7.1 把表达矩阵标准化做成可复用流程
实际工作里,真正耗时间的不是“会不会做”,而是“每次都要从头整理”。
解螺旋的工具和内容体系,适合把表达矩阵标准化、绘图、统计分析整合成更清晰的流程。
这样你能更快判断该用 log 转换、Z-score,还是直接进入后续分析。
7.2 让数据处理和论文表达同步
很多人数据做完了,图也画了,但文章描述不规范。
解螺旋的思路可以帮助你同时处理两件事。
- 规范表达矩阵标准化步骤
- 提升图表可重复性
- 统一方法描述和结果呈现
对医学生、医生和科研人员来说,这能明显减少返工。
总结Conclusion
表达矩阵标准化并不复杂,关键是先明确数据类型,再选择合适方法。
记住这7个要点:分清数据来源、确认预处理状态、选择合适变换、注意标准化方向、区分可视化与建模需求、保留处理记录、让结果可重复。
这样做,表达矩阵标准化就不再是负担,而是可靠分析的起点。
如果你希望把表达矩阵标准化、绘图和论文结果表达做得更规范,可以关注解螺旋。

- 引言Introduction
- 1. 为什么要做表达矩阵标准化
- 2. 先分清你手里的数据类型
- 3. 最常见的标准化方式
- 4. 表达矩阵标准化时要注意的3个细节
- 5. 图形展示中常见的两个场景
- 6. 一个实用的判断标准
- 7. 解螺旋如何帮助你少走弯路
- 总结Conclusion






