差异基因分析前为什么要先做质检？

因为质检可以发现未归一化数据和离群样本，避免后续统计结果失真。

差异基因分析常用哪些筛选标准？

通常使用调整后P值（如0.05）和log2FC共同筛选差异基因。

芯片和测序数据的差异分析方法一样吗？

不一样。芯片数据常用Limma，测序数据常用EdgeR或DESeq2。

差异基因分析怎么做？7个关键点解析

作者：Dr.Sheng

2026-05-11｜原创

引言Introduction

差异基因分析是转录组研究的第一步，也是最容易出错的一步。样本怎么选，数据怎么质检，归一化是否到位，都会直接影响结果可信度。本文围绕差异基因分析 的7个关键点，帮医学生、医生和科研人员快速建立清晰流程。
科研人员在电脑前查看火山图、热图和PCA质检结果，背景为基因表达矩阵与分析流程示意图

1. 明确差异基因分析的输入数据

1.1 先分清数据来源

差异基因分析可使用两类数据。第一类是自己的芯片或测序数据。第二类是GEO等数据库挖掘数据。常见输入包括带表达值的基因列表，或完整的芯片、测序表达谱。

如果输入数据格式不对，后面的质检、归一化和统计检验都会失效。 这也是很多初学者最早遇到的问题。

1.2 上传前先整理格式

根据教程，自己的数据通常需要先整理成Excel表，再转换为制表符分隔的文本文件，也就是.txt。在NetworkAnalyst中，基因表达谱数据可通过“Gene Expression Table”上传，再点击submit和Proceed继续。

建议首次操作先用示例数据。这样更容易熟悉流程，也能减少格式错误。

2. 质检是差异基因分析的前提

2.1 先看箱线图和密度图

差异基因分析前，先检查数据是否已归一化。箱线图是最常用的判断方式。若各样本中位线大致在同一水平，且数值普遍较低，说明数据可能已经做过log2处理。

密度图可进一步观察各组分布是否一致。分布明显偏移，往往提示需要重新归一化。

2.2 用PCA识别离群样本

PCA的作用是找异常值。若某个样本明显偏离主簇，就要优先检查测量是否正确。若确认无误仍无法纠正，通常需要删除异常样本后重新分析。

教程中提到，NetworkAnalyst还提供计数总和和下载质检结果功能。对研究者来说，这一步不是形式，而是决定结果可靠性的基础。

3. 先做过滤，再做差异分析

3.1 去掉无用基因

差异基因分析前可先过滤低价值数据。常见做法包括方差过滤、低丰度过滤和删除未注释基因。

教程给出的默认建议很明确。

方差过滤可保留变化更明显的基因。
低丰度过滤可去掉表达过低、测量不稳定的基因。
未注释基因通常默认勾选删除。

研究表明，适当过滤后，差异分析结果更稳定。 例如，删除一定比例的低丰度数据，或删除高比例低方差基因，往往能提高分析质量。

3.2 不要盲目保留全部基因

很多人担心“删太多会漏掉信号”。实际上，低表达、低变化基因对统计贡献有限，还可能增加噪音。对差异基因分析而言，先清理数据，通常比一股脑全保留更合理。

4. 归一化方法要和数据类型匹配

4.1 芯片和测序数据不能一刀切

差异基因分析中，归一化方式要结合数据类型。教程中提到，芯片数据常用平均值或中位数进行基因水平总结，测序数据常用总数。

如果质检显示数据已归一化，可直接选择None。若未归一化，则可根据情况选择log2转换、分位数归一化或VSN等方法。

4.2 判断是否需要归一化

判断标准要看箱线图和数值范围，而不是凭感觉。 教程中提到，芯片数据log2FC通常小于16、测序数据通常小于20时，往往提示已做过归一化。此时继续重复归一化，反而可能改变分布。

这一步的核心原则是，先识别数据状态，再选择方法。

5. 统计方法决定差异基因分析的准确性

5.1 芯片和测序要选对算法

NetworkAnalyst中，芯片数据通常用Limma，测序数据常用EdgeR或DESeq2。教程还特别提示，样本数≥50时，不可以用DESeq2。

算法选错，会直接影响差异基因分析的假阳性和假阴性。
所以不要只看功能按钮，要先看数据类型和样本规模。

5.2 多因素设计要考虑阻塞因素

如果实验设计中存在多个变量，需要设置主要因素、次要因素和阻塞因素。阻塞因素适合处理批次、时间点或地点等次要干扰项。

教程中还提到一个常见报错：No residual degrees of freedom。常见原因是样本数不足，尤其在双因素分析中更容易出现。解决思路是先聚焦单因素分析，再逐步增加变量。

6. 比较方式决定你能得到什么结果

6.1 配对比较与时序比较不同

差异基因分析并不是只有一种比较方式。若是三组A、B、C，配对比较会做A-B、A-C、B-C三组对比。时序比较则只看连续组对，如A-B、B-C。

在时间点、剂量梯度、处理持续时间等场景中，时序比较更合适。比较方式选错，结果会偏离你的研究问题。

6.2 双因素研究要看交互效应

教程中还给出了嵌套比较和Interaction only的设置思路。对于双因素设计，研究者应先明确是否只关注组内差异，还是也要分析两因素之间的交互效应。

如果目标是找出“不同条件下变化最明显的基因”，那就要把比较逻辑和研究假设对齐，而不是只看默认输出。

7. 结果筛选要回到研究目的

7.1 常用筛选标准

完成差异基因分析后，通常用两个指标筛选结果。

调整后P值，常用0.05。
log2FC，表示变化倍数。

P值解决“是否显著”，log2FC解决“变化是否足够大”。 两者缺一不可。

7.2 结果要能进一步解释

筛选完成后，常见结果包括火山图、热图和差异基因列表。热图适合看样本分组一致性，火山图适合快速定位上下调基因。

如果研究目标是后续机制探索，差异基因分析不应停留在“列出一堆基因”。还要继续做相关性分析、PPI网络、功能富集或临床表型关联，逐步缩小范围。

8. 单细胞场景下差异基因分析更强调“细胞亚群”

8.1 先分群，再比较

单细胞数据的差异基因分析，重点不是全体细胞，而是特定细胞亚群。课程中提到，可先用subset提取目标细胞，如B细胞，再用findmarkers比较治疗前后或不同状态下的表达差异。

这类分析能帮助研究者找到细胞亚群中的关键分子，更贴近疾病机制。

8.2 交集分析可提高特异性

单细胞中还可对不同细胞类型或不同模块结果做交集分析，提取共同差异基因。教程中提到可用intersect批量求交集，再筛去重复行。

这一步的意义是提高候选基因的特异性，减少“只在某一小群细胞里偶然变化”的噪音。

9. 让差异基因分析更快落地的方法

9.1 先模仿成熟流程

对于医学生和科研人员来说，差异基因分析不必从零摸索。可以先参考成熟文章和教程，按“上传数据, 质检, 过滤, 归一化, 差异分析, 可视化, 筛选候选基因”的顺序执行。

先跑通流程，再优化细节，是最稳妥的路径。

9.2 用工具提高效率

如果你希望少走弯路，可以借助解螺旋的品牌化工具和课程内容，按规范流程完成差异基因分析。这样不仅能减少格式错误和参数误选，也更容易把结果推进到后续机制验证和论文写作阶段。

总结Conclusion

差异基因分析看似简单，实则每一步都影响最终结论。从数据整理、质检、过滤、归一化，到统计方法和比较策略，都需要严谨判断。真正高质量的差异基因分析，不是得到最多基因，而是得到最可信、最能解释研究问题的基因。

研究者整理差异基因结果，屏幕上显示火山图、热图、筛选后的候选基因列表

如果你希望更高效地完成差异基因分析，并把结果快速推进到论文和课题设计，建议结合解螺旋的专业支持，减少试错成本，提升分析效率与研究产出。