做下调差异基因分析前需要先做什么？

需要先整理数据格式、确认分组信息，并进行质检，排除离群样本和脏数据。

筛选下调差异基因时常用哪些阈值？

常用阈值是adj P<0.05，并结合log2FC<0筛选表达显著降低的基因。

下调差异基因怎么挖掘？7步高效法

Q: 什么是下调差异基因？

下调差异基因是指在组间比较中表达显著降低的基因，通常要求log2FC<0且adj P<0.05。

Q: 筛选下调差异基因时常用哪些阈值？

常用阈值是adj P<0.05，并结合log2FC<0筛选表达显著降低的基因。

作者：Dr.Sheng

2026-05-11｜原创

引言Introduction

下调差异基因是转录组研究里最常被检索的结果之一，但很多人卡在数据格式、质检和参数选择。如果流程不规范，最后得到的基因列表往往不稳定，甚至难以复现。 本文用7步讲清楚如何高效挖掘下调差异基因，适合医学生、医生和科研人员直接上手。
转录组差异分析流程示意图，包含数据上传、质检、归一化、差异分析、下调差异基因筛选几个步骤

1. 先明确什么是下调差异基因

1.1 下调差异基因的核心定义

下调差异基因，指的是在两组或多组比较中，表达水平显著降低的基因。常见判定依据是log2FC小于0，并且adj P小于0.05 。在实际分析里，很多人只看倍数变化，但忽略了统计学显著性，这会导致结果噪音很大。

对研究者来说，挖掘下调差异基因的目标，不只是列出“变低了”的基因。更重要的是找到与疾病进展、药物反应、分子机制相关的候选靶点。

1.2 需要准备什么数据

根据知识库，差异分析可使用自己的芯片或测序数据，也可以用GEO等数据库挖掘的数据。输入数据通常有两类。

带有表达值的基因列表
芯片或测序表达谱数据

如果数据格式不标准，后续质检和差异分析会直接受影响。 因此第一步不是跑统计，而是先确认数据结构和分组信息。

2. 第一步：整理数据格式并上传

2.1 推荐的数据整理方式

在NetworkAnalyst中，基因表达谱数据通常需要先整理成Excel表，再转换为制表符分隔的文本文件，后缀为.txt。上传入口是Gene Expression Table 。上传后点击submit，再点击Proceed进入下一步。

初次使用时，建议先用示例数据熟悉流程。这样可以先理解每一步的参数含义，再替换成自己的研究数据。

2.2 上传前要检查的关键信息

上传自己的数据前，需要明确以下内容。

样本物种，平台提供17个物种可选。
数据类型，芯片数据或测序数据。
ID类型，必要时可先转换为Entrez ID等常用ID。
基因水平总结方法，芯片常用平均值或中位数，测序常用总数。
数据文件是否完整，是否包含所有样本列。

这一步决定后续差异分析能否顺利执行。 很多下调差异基因结果不可靠，根源就是分组表或ID类型没有提前统一。

3. 第二步：做质检，先排除脏数据

3.1 质检主要看四类结果

上传后，先看质检结果，再决定是否继续。知识库中提到4类常见质检图。

箱线图，判断数据是否已归一化
计数总和，查看每个样本的总体信号
PCA图，识别离群样本
密度图，观察各组分布是否一致

其中，箱线图和PCA图最关键 。箱线图中，如果各样本中线较整齐，且数值特征符合log2转换特征，通常说明数据已做过归一化。PCA图若出现明显离群点，要先检查样本是否测量错误。

3.2 异常样本怎么处理

如果PCA提示有离群值，先确认样本信息、分组和测量过程是否有误。若确认无法纠正，建议删除异常样本后重新分析。
不要为了保留样本而硬跑差异分析。 异常样本会明显影响下调差异基因的稳定性，尤其在样本量较小的研究中更明显。

4. 第三步：按数据类型选择统计方法

4.1 芯片和测序不能混用方法

在NetworkAnalyst中，差异分析统计方法要按数据类型选择。

芯片数据：通常使用Limma
测序数据：通常使用EdgeR或DESeq2

此外，知识库明确指出，当样本数≥50时，NetworkAnalyst中不能用DESeq2 。这一点在项目设计时要提前考虑。

4.2 如何判断是否需要再归一化

如果质检结果显示数据已经归一化，通常可选择None。若未归一化，则可选择log2转换、方差稳定性归一化、分位数归一化等方法。
常用原则是：不同归一化方法得到的下调差异基因结果可能相似，但不会完全一致。 因此，方法选择要和原始数据类型、分布特征保持一致。

5. 第四步：过滤低质量基因，提高信噪比

5.1 为什么要过滤

在差异分析前，建议先过滤无用数据。知识库中给出的默认思路包括三类。

方差过滤
低丰度过滤
过滤未注释基因

这些步骤的目的很简单。减少低信息量基因，提升下调差异基因的检测效率。

5.2 参数怎么理解

方差过滤反映的是不同样本之间基因表达值的变化。默认值15表示，按方差从低到高排序，删除排在后15%的基因。研究中也有观点认为，可删除最高50%方差相关数据以获得更好结果。
低丰度过滤的逻辑类似。表达过低的基因测量不稳定，生物意义也可能有限。知识库提示，删除10%低丰度数据，常可得到更好的结果。

如果研究目标是寻找稳定的下调差异基因，过滤步骤非常重要。 它能明显减少假阳性。

6. 第五步：设置比较设计，避免分组错误

6.1 单因素、双因素要分清

在差异分析中，首先要明确实验设计。若存在多个变量，需要设置主要因素、次要因素和阻塞因素。
阻塞因素适用于对次要因素的组间差异不感兴趣的情况，例如不同时间点、不同地点的批次变量。这样可以减少干扰，提高结果准确性。

如果出现“Error: No residual degrees of freedom”，常见原因是样本数不足，尤其是在独立双因素分析中。知识库建议，优先聚焦单个因素，先把次要因素设为Not available，再重新分析。

6.2 选择合适的比较方式

比较方式也会影响下调差异基因的筛选结果。常见方式包括：

特异性比较
与共同对照组比较
嵌套比较
配对比较
时序比较

例如三组A、B、C做两两比较时，配对比较会得到A-B、A-C、B-C；时序比较只看连续组对，如A-B、B-C。
组别设置一旦出错，后面得到的下调差异基因就没有解释价值。

7. 第六步：用阈值筛出真正的下调差异基因

7.1 常用筛选标准

差异分析完成后，进入筛选阶段。知识库给出的常用参数是：

adj P通常设为0.05
根据研究目的设置log2FC阈值

对于下调差异基因，通常关注log2FC为负值 的基因，再结合adj P进行筛选。
建议同时看倍数和显著性，不要只按单一指标排序。

7.2 结果要怎么看

筛选后的结果通常会输出：

最终差异基因数量
可下载结果
按log2FC或adj P排序的预览表

在实际阅读结果时，先看排序方式，再看表达变化方向。若目标是下调差异基因，可以优先查看log2FC更小、adj P更显著的基因。

同时，注意极低表达基因的解读。知识库提到，某些基因表达量非常低时，DESeq2可能不会给出矫正后的p值。这说明这类基因需要谨慎解释，不能直接当作高可信下调基因。

8. 第七步：把结果转化为可发表的证据链

8.1 结果不止是基因列表

高质量的下调差异基因分析，不能停留在表格输出。通常还要结合热图、火山图等可视化结果，帮助展示分组差异和核心候选基因。

更进一步，还可以基于差异结果继续做网络分析或二次挖掘。这一步决定你的结果是“分析完成”，还是“可以写进论文”。

8.2 用解螺旋提高效率

如果你需要快速完成从数据上传、质检、归一化到下调差异基因筛选的完整流程，解螺旋的相关生信内容和工具体系可以帮助你更快理清参数逻辑，减少重复试错。 对医学生和科研人员来说，这类标准化流程尤其适合用于课题初筛、机制探索和文章结果整理。

总结Conclusion

下调差异基因的挖掘，本质上是一个“数据规范化、质检、统计设计、阈值筛选、结果解释”的完整流程。真正决定结果质量的，不是最后那一步筛选，而是前面的格式、质检和比较设计。
如果你希望更高效地完成分析，建议按本文7步执行，并结合解螺旋的标准化流程思路，减少参数误判，提高结果可复现性。

科研人员在电脑前查看火山图和热图，旁边展示下调差异基因筛选结果表格与流程总结图