DO富集分析和GO、KEGG有什么区别？

GO看生物过程，KEGG看通路，DO看基因更相关哪些疾病。

做DO富集分析时最重要的注意事项是什么？

最重要的是统一基因ID、选择合理背景集，并结合研究问题解读结果。

DO富集分析是什么？5分钟看懂核心原理

Q: DO富集分析是什么？

DO富集分析是 Disease Ontology 富集分析，用于判断一组基因是否显著关联到某些疾病条目。

作者：Dr.Xin

2026-05-11｜原创

引言Introduction

DO富集分析是疾病研究里常见的一步。很多人做完差异基因后，不知道这些基因到底对应哪些疾病，也不清楚该如何从列表走向生物学解释。DO富集分析 可以把基因和疾病表型联系起来，帮助你更快定位研究方向。
科研人员在电脑前查看基因列表、疾病网络图和富集分析结果的场景，画面简洁专业

1.DO富集分析的定义与作用

1.1 什么是DO富集分析

DO富集分析 ，通常指 Disease Ontology 富集分析。它的核心，是看一组基因是否在某些疾病条目中“过度出现”。与只看单个基因不同，它关注的是基因集合层面的疾病关联。

在实际研究中，DO富集分析常用于差异基因、候选基因集、单细胞亚群标记基因，或多组学筛选后的结果解释。它回答的不是“这个基因有什么用”，而是“这组基因更像和哪些疾病有关”。

1.2 为什么它对医学生和科研人员重要

对实验和临床研究来说，DO富集分析 的价值在于缩短解释路径。你可以快速判断一批基因是否偏向炎症、肿瘤、代谢病，或者某类遗传病。

它尤其适合下面几种场景：

差异基因很多，难以直接人工判断。
已知marker不足，想从疾病角度给细胞亚群命名。
需要把筛到的候选基因放回疾病框架中验证。
论文写作时，需要更有逻辑地说明基因变化与疾病表型的关系。

一句话概括，DO富集分析是“从基因到疾病”的桥梁。

2.DO富集分析的核心原理

2.1 本质上是统计学的过度代表性分析

DO富集分析 的原理和GO、KEGG类似，都是富集思想。简单说，就是比较“你的基因集”和“背景基因集”中，某个疾病条目相关基因是否显著偏多。

如果某个疾病条目对应的基因，在你的输入列表里出现得比随机情况更多，就认为它可能被富集。常见统计方法包括超几何检验或 Fisher 精确检验。结果会给出 P value、调整后 P value、富集到的基因数等指标。

2.2 背景集决定结果可信度

做DO富集分析 时，背景基因集非常关键。背景设置不同，结果可能明显变化。常见背景可以是：

全基因组背景。
你实验中可检测到的基因背景。
某个平台或某个物种注释背景。

如果背景不合理，就容易出现假阳性或偏差。这也是很多新手做完富集分析后，结果“看起来很多，但解释不稳”的主要原因。

2.3 输入基因ID必须统一

在实际操作中，DO富集分析通常要求标准化的基因ID。不同数据库和工具对 ID 格式要求不同。常见问题包括：

SYMBOL 和 Entrez ID 混用。
一部分基因无法映射。
同一个基因重复出现。
物种注释版本不一致。

因此，在做分析前，通常要先完成 ID 转换，再去重，再进入富集步骤。这一步看似基础，但决定后续结果是否能顺利解释。

3.DO富集分析的标准流程

3.1 从差异基因到疾病条目

一个规范的 DO富集分析 流程通常包括以下步骤：

准备差异基因列表。
统一基因ID。
设置背景基因集。
执行富集检验。
对 P 值进行多重校正。
输出结果并可视化。

如果你是做转录组、单细胞，或者整合分析，这个流程基本都适用。它的优点是通用，适合快速批量解释。

3.2 结果怎么看

DO富集分析 结果通常关注三个核心信息：

富集到的疾病名称。
命中基因数。
显著性指标，如 P value 或 FDR。

阅读结果时，不要只看显著性。还要看疾病条目是否和你的研究问题一致。比如你研究的是免疫炎症相关疾病，结果却主要落在代谢病或神经系统疾病上，就需要回到基因列表和背景设置重新检查。

显著，不等于一定有生物学意义。
匹配研究问题，才有解释价值。

3.3 常见可视化方式

为了让结果更直观，DO富集分析常配合图形展示。常见形式包括：

柱状图，适合看前几个疾病条目。
气泡图，适合同时看显著性和基因数。
网络图，适合展示疾病与基因的关联关系。

对于论文和汇报来说，气泡图通常最常用。因为它既能展示统计显著性，也能体现命中基因数量。如果想快速传达主要结论，图形比长表更有效。

4.DO富集分析在实际研究中的应用场景

4.1 差异基因功能解释

在转录组研究中，差异基因往往很多。单看上调或下调基因，很难得出清晰结论。此时做 DO富集分析 ，可以把基因变化直接映射到疾病层面。

比如一批上调基因若集中富集于炎症性疾病条目，说明实验处理可能激活了相关病理过程。若富集于肿瘤相关条目，则可能提示细胞增殖、迁移或信号通路异常。

4.2 单细胞亚群注释

单细胞分析中，很多亚群不能仅靠 marker 完全命名。此时可以对某个亚群的差异基因做 DO富集分析 。如果该亚群显著富集于某类疾病条目，就能为亚群功能命名提供依据。

例如，一些亚群可能更偏向肿瘤相关、免疫异常相关或炎症相关状态。这对新亚群发现和功能注释尤其有帮助。

4.3 候选基因优先级排序

在候选基因筛选中，DO富集分析可以帮助你判断这些基因是否集中指向某类疾病。如果某个候选基因集在特定疾病中持续富集，就说明它更值得进一步做实验验证。

这类分析常作为后续验证前的“筛选加速器”。它不能替代实验，但可以明显提高筛选效率。

5.做DO富集分析时最容易踩的坑

5.1 只看P值，不看背景

很多人以为 P 值显著就够了。其实不然。背景集不合理，结果再显著也可能偏。 尤其在不同平台、不同物种、不同检测深度下，这个问题很常见。

5.2 输入基因太少

如果基因数量太少，DO富集分析容易不稳定。结果可能只出现少数条目，或者完全没有显著结果。遇到这种情况，不一定是分析错了，也可能是输入集太小，统计功效不足。

5.3 物种和注释版本不匹配

人和小鼠的注释不能混用。数据库版本不同，也可能导致映射丢失。分析前最好先确认物种、ID类型和注释库是否一致。

5.4 过度解读结果

DO富集分析是关联分析，不是因果证明。它能说明“更相关”，不能直接证明“导致疾病”。论文写作时建议用“提示”“可能相关”“富集于”这类表述，更严谨。

6.什么时候推荐优先做DO富集分析

6.1 适合的研究类型

如果你的研究目标是从基因层面寻找疾病关联，DO富集分析 通常值得优先考虑。尤其适合：

差异表达分析后的解释。
单细胞亚群功能注释。
候选基因集疾病关联评估。
疾病机制研究中的初筛阶段。

6.2 与GO、KEGG的关系

很多人会把 DO、GO、KEGG 一起做。这个思路是对的，但三者回答的问题不同。

GO回答“基因参与什么生物过程”。
KEGG回答“基因参与什么通路”。
DO回答“基因更相关哪些疾病”。

如果你的研究重点是临床表型和疾病机制，DO富集分析的解释力往往更直接。

6.3 适合在什么时候放进论文

一般来说，DO富集分析适合放在结果部分中段。它可以承接差异分析，也可以作为后续机制分析的起点。逻辑上常见写法是：

先展示差异基因。
再做 DO 富集分析。
进一步结合 GO/KEGG 或网络分析。
最后提出关键候选基因或通路。

这样结构最清晰，也最符合审稿人阅读习惯。

总结Conclusion

DO富集分析 的核心，不是“找出更多疾病名”，而是把基因结果转化成更有临床意义的疾病解释。它本质上是一种统计富集分析，重点在于基因ID统一、背景合理、结果解读严谨。对于医学生、医生和科研人员来说，它能显著提高差异基因分析的可解释性，也能帮助单细胞注释和候选基因筛选更快落地。
DO富集分析结果气泡图、疾病网络图和论文写作场景的组合图，突出专业、清晰、可转化

如果你正在做转录组、单细胞或疾病机制研究，想把基因结果更快转成可发表的结论，可以借助解螺旋 的生信内容与分析思路，少走弯路，提升分析效率与表达质量。