DISGENET富集分析适合哪些研究场景？

适合差异表达基因分析、单细胞亚群功能注释，以及新基因集与疾病关联判断。

做DISGENET富集分析前最重要的准备是什么？

先统一基因ID并确认物种一致，同时去除重复和NA，避免富集结果偏差。

DISGENET富集结果应该怎么看才更可靠？

优先看校正P值、命中基因数和生物学相关性，并结合上下调分组一起解读。

DISGENET富集分析怎么做？最强实操指南

作者：Dr.Xin

2026-05-11｜原创

引言Introduction

DISGENET富集分析常被用于把疾病相关基因与表型、通路和功能联系起来。但很多人卡在两点：基因集怎么来，结果怎么解释。如果只会“跑结果”，不会“读结果”，分析价值会大幅下降。 疾病基因与通路网络图，中心为DisGeNET，周围连接GO、KEGG和疾病表型标签，突出“疾病-基因-功能”关系

1. 先理解DISGENET富集分析的核心逻辑

1.1 DISGENET到底在做什么

DISGENET是一个疾病-基因关联数据库。它把文献、临床和数据库证据整合到一起，帮助研究者找到某个疾病相关的候选基因。做DISGENET富集分析时，本质上是看你的基因列表是否显著偏向某些疾病条目 ，而不是随机分布。

这类分析特别适合三种场景。

差异表达基因后，想找疾病方向。
单细胞分群后，想给亚群补充功能注释。
新基因集筛选后，想判断是否与已知疾病高度相关。

1.2 为什么它比单纯列表更有用

单看基因列表，很难判断生物学意义。DISGENET富集分析能把“基因变化”转成“疾病指向”。这一步非常适合科研写作、课题立项和结果讨论。 如果你的结果同时支持GO、KEGG和DISGENET，证据链会更完整。

不过要注意，数据库富集不是因果证明。它只能说明关联增强，不能直接证明疾病由这些基因导致。这个边界必须保留。

2. 做DISGENET富集分析前，先把输入整理对

2.1 基因ID统一是第一步

无论是RNA-seq、单细胞还是候选基因筛选，第一件事都是统一ID。常见问题是基因名、Entrez ID、Ensembl ID混用。ID不统一，后面的富集结果就会丢失或偏差。

实操中建议先做三件事。

确认物种。人和小鼠数据库不能混用。
统一ID类型。优先使用数据库支持的标准ID。
去除重复和NA。避免一个基因多次入表。

2.2 基因列表的来源要清楚

DISGENET富集分析最常见的输入，是差异基因集合。比如筛选出FDR小于0.05、|log2FC|大于1的基因。也可以输入上调基因和下调基因分别分析，这样更容易看出疾病方向差异。

如果是单细胞数据，建议先按cluster提取marker或差异基因，再做富集。这样更容易解释“哪个细胞群更像某种疾病状态”。

3. DISGENET富集分析的标准流程

3.1 第一步，准备基因集

先得到你要分析的基因列表。建议保持列表简洁。不要把低置信度基因、重复ID和无法映射的基因一起放进去。
如果你手里是全量差异结果，可以先分层处理。

推荐顺序如下。

筛选显著差异基因。
转换为标准ID。
分成上调和下调两组。
分别做DISGENET富集分析。

3.2 第二步，执行富集

DISGENET富集分析通常会输出疾病名称、P值、校正P值、基因命中数和富集得分。这里最重要的是看多重检验后的结果，而不是只看原始P值。FDR更能反映真实稳健性。

如果命中基因数太少，即使P值看起来不错，也要谨慎解读。因为这类结果容易受单个基因驱动，稳定性不足。

3.3 第三步，做结果筛选

建议至少按三个维度筛选。

校正P值。
命中基因数。
生物学相关性。

很多时候，排名最高的不一定最值得写进文章。你更需要的是和研究背景一致的结果。例如肿瘤项目里出现细胞周期、DNA损伤或炎症相关疾病条目，就更容易形成有逻辑的结果链。

4. 结果怎么读，才算真正会用

4.1 看“疾病条目”而不是只看排名

DISGENET富集分析的输出通常会有很多疾病名。不要只盯着前10条。你要先问：这些疾病是否集中在同一疾病系统？是否和实验模型一致？

比如一个免疫相关基因集，如果富集到自身免疫病、感染性疾病和炎症状态，这种结果通常比零散的神经系统疾病更可信。解释时要优先抓住共性。

4.2 看命中基因是否集中

真正有价值的结果，通常不是“很多疾病都沾一点”，而是“某几个关键基因反复出现”。你可以进一步检查这些基因是否也是差异分析中的核心基因。
如果同一批基因同时出现在DISGENET、GO和KEGG中，说明证据更强。

4.3 上下调分开看更有信息量

很多人把所有差异基因混在一起做，这样会掩盖方向性。建议上调和下调分别分析。

上调基因富集到炎症和免疫疾病，提示激活状态。
下调基因富集到代谢或发育相关疾病，提示功能抑制。

这种分层分析，对论文结果部分很有帮助。

5. 常见错误与避坑

5.1 物种注释错误

这是最常见的问题。人类数据库和小鼠数据库的基因映射规则不一样。物种写错，结果就可能完全失真。
提交前一定要确认样本来源、参考注释和数据库版本一致。

5.2 基因数太少

如果输入基因只有十几个，富集结果往往不稳定。建议优先保证足够的基因覆盖度。太少时可先做更宽松的筛选，再结合生物学判断二次收敛。

5.3 只看P值，不看背景

富集分析依赖背景集。背景选得不对，结果就会偏。做论文时尤其要说明使用了什么背景基因集合。这是E-E-A-T里“可信度”的关键部分。

5.4 把富集结果当成结论终点

DISGENET富集分析只是起点。后续还要接验证。比如：

在独立数据集复现。
做表达验证。
做细胞层面的定位。
结合临床信息做相关性分析。

6. 一个更适合发表的分析思路

6.1 从“结果堆砌”转向“证据闭环”

如果你的项目目标是发文章，建议把DISGENET富集分析放到完整链条里。

差异分析找候选基因。
DISGENET判断疾病关联。
GO/KEGG解释功能机制。
PPI或网络分析筛核心节点。
外部队列或实验验证。

这样写出来的结果更像机制研究，不只是数据库展示。

6.2 单细胞项目里怎么用

对于单细胞数据，DISGENET富集分析特别适合给“难注释亚群”找功能线索。前面的知识库内容提到，单细胞分析里常会先做差异基因和功能富集，再反推细胞功能命名。这个思路同样适用于疾病关联判断。
如果一个细胞亚群持续富集到特定疾病相关条目，它就可能代表一个更偏病理状态的亚群。

7. 用解螺旋做DISGENET富集分析更省时间

如果你要快速完成从差异基因到疾病富集的全流程，解螺旋可以把数据库检索、ID整理、富集绘图和结果解读串起来。这样能明显减少反复改表、改ID、改图的时间。对医学生、医生和科研人员来说，效率提升往往比单次跑通更重要。

在实际项目里，最耗时的不是“点击运行”，而是前处理和结果整合。使用解螺旋产品，可以更快完成标准化输入、富集结果可视化和后续报告整理，让你把时间更多放在机制判断和文章写作上。

总结Conclusion

DISGENET富集分析的关键，不是“跑出一张表”，而是把基因列表转成可解释的疾病证据。你要重点抓住三件事：ID统一、分组清晰、结果可验证。 只要流程规范，DISGENET富集分析就能很好地服务于疾病机制研究、单细胞注释和论文结果构建。科研人员在电脑前查看疾病富集结果图，旁边展示基因列表、火山图和疾病网络图，突出“从数据到结论”的工作流

如果你希望更高效地完成这类分析，可以直接使用解螺旋品牌相关工具，把DISGENET富集分析、可视化和结果整理串成一条线，减少重复操作，提高出图和写作效率。