基因表达量化前为什么要先做ID转化？

因为不同数据库和分析工具使用的基因ID可能不一致，先转化ID再提取目标基因表达值，更稳妥也更准确。

单基因表达量化时为什么常按中位数分高低表达组？

中位数分组简单稳定，能把疾病组样本分成高表达和低表达两组，便于后续做KM曲线、PCA和差异分析。

RNA-seq、TPM和UMI counts的量化方式有什么区别？

RPKM/FPKM会考虑测序深度和基因长度，TPM更适合样本间比较，UMI counts更常用于单细胞转录组数据。

基因表达量化怎么做？3步搞定

作者：Dr.Xin

2026-05-13｜原创

引言Introduction

实验台上放着测序数据表、基因表达矩阵、电脑屏幕上的PCA图和热图，突出“数据整理到量化分析”的流程感。
基因表达量化是转录组分析的第一步，也是最容易出错的一步。很多医学生和科研人员拿到表达矩阵后，会卡在ID转化、样本分组和标准化这三件事上。如果前处理不规范，后面的差异分析、热图和生存分析都会偏。 下面用3步讲清基因表达量化怎么做。

1. 先把表达数据整理成可分析格式

1.1 统一样本、分组和基因ID

做基因表达量化前，先确认数据类型。常见的是芯片数据、RNA测序数据、FPKM、TPM或UMI counts。不同平台，处理逻辑不完全一样。

第一步是整理表格。 通常要有三类信息。

样本名。
分组信息，如正常组、疾病组、高表达组、低表达组。
基因ID和表达值。

如果是单基因分析，还要先做ID转化。知识库里提到，研究基因时先做ID转化，再把目标基因的表达矩阵提取出来，会更稳妥。 可以用代码，也可以用在线工具完成。

1.2 单基因量化时，先去掉不需要的样本

如果你做的是单基因高低表达分组，通常只保留疾病组样本，剔除正常样本。然后按表达值排序，再用中位数分组。中位数上方为高表达组，下方为低表达组。

这个分组方式很常见。 很多文章里的KM曲线、PCA图和分组比较图，都是先按中位数完成基因表达量化，再进入下游分析。
如果你研究多个基因，还是建议先把样本信息和表达矩阵整理成统一格式，再进入后续步骤。

2. 选对量化方法，避免“数值看起来对，结果其实错”

2.1 RNA-seq常见表达量指标要分清

基因表达量化不是一个单一指标。不同数据类型，对应不同表达量定义。

知识库给出的核心点很明确。

RPKM和FPKM都要考虑测序深度和基因长度。
TPM强调每百万转录本中的相对丰度。
UMI counts更适合单细胞数据。

举个简单理解。RPKM和FPKM会把基因长度标准化，因为长基因更容易测到reads。TPM则更适合做样本间比较，单细胞里常用UMI counts或TPM表达表。

2.2 单细胞和常规转录组的量化逻辑不同

在单细胞转录组里，知识库提到一个关键点。由于只测到转录本片段，通常不再按全长做长度标准化，而是用UMI总数做归一化。
做法是将每个基因的UMI数除以该细胞总UMI数，再乘以100万，得到TPM或类似的标准化表达表。

这一步的意义很直接。

让不同细胞之间可比较。
降低测序深度差异带来的偏差。
让后续差异分析更可靠。

2.3 表达量化前一定要检查是否已归一化

很多数据文件看起来能直接用，但其实已经做过归一化。NetworkAnalyst教程里提到，可以先看箱线图和分布。如果芯片数据log2FC均值通常小于16，测序数据小于20，往往说明已经归一化过。 这时可选择不再重复归一化。

这是基因表达量化里很容易忽略的一点。
重复标准化，可能会把真实信号压平。
不做标准化，又会让不同样本不可比。
所以先判断数据状态，再决定方法。

3. 用3步完成基因表达量化实操

3.1 第一步，整理表达矩阵

先把表达矩阵导出成标准表格。第一列是基因名，后面是样本表达值。若有临床信息，也要单独列出分组、分期或生存状态。

建议先检查这3件事。

基因名是否重复。
样本名是否统一。
表达值是否为数值格式。

知识库特别强调过，做回归或下游统计时，表达值必须是数值型，不然可能把每个数当成分类变量，导致结果错误或计算极慢。

3.2 第二步，完成ID转化和分组

如果基因ID和数据库ID不一致，就先做ID转换。转换后再提取目标基因表达量，按中位数分成高低表达组。
对于临床关联分析，还可以按高低表达组去做分组比较图、KM曲线和PCA图。

这里的核心不是“画图”，而是“把表达量变成可分析变量”。
表达量化的本质，是把原始测序信号变成可统计、可比较、可解释的数据。

3.3 第三步，进入标准化分析和下游验证

完成分组后，可以继续做差异分析、热图、GSEA或生存分析。
知识库中提到，差异分析常用筛选条件包括：

p值 < 0.05。
logFC > 1、1.5 或 2。

这类阈值没有绝对统一答案，要结合研究目的和样本规模调整。
但无论阈值怎么设，前提都是前面的表达量化要正确。

如果你要复现文章结果，还要注意数据格式一致性。不同工具对抬头、分组名和文件格式要求不同。新版工具通常要求更严格，上传前最好先检查一遍。

4. 研究者最常踩的3个坑

4.1 直接拿原始值做比较

原始reads、counts、FPKM、TPM不能混着用。
不同指标的生物学含义不同。 如果不分清，后面统计检验可能没有可比性。

4.2 忽略正常样本和重复样本处理

做单基因高低表达分析时，如果正常样本混进去，分组会被污染。
知识库里明确提到，单基因分析时常需剔除正常样本，只保留疾病组进行排序和中位数分组。

4.3 表达值不是数值格式

这是最典型的隐藏错误。
看起来每一列都有数字，但如果导入后是字符型，软件可能无法正确做回归、聚类或差异分析。
所以导入前一定检查数据类型。

总结Conclusion

基因表达量化并不复杂，关键是顺序要对。先整理表达矩阵，再完成ID转化和分组，最后选择合适的标准化方式进入差异分析和验证。只要前处理规范，后面的PCA、热图、KM曲线和功能分析才有可信度。

如果你希望更高效地完成基因表达量化、分组比较和后续作图，可以考虑使用解螺旋 的分析流程和工具支持。它能帮助你把繁琐的数据整理和标准化步骤前置，减少重复劳动，让你把时间更多放在结果解释和论文产出上。

一张从原始测序数据到标准化表达矩阵、再到热图和生存曲线的流程图。