引言Introduction
DO富集分析是疾病研究里常见的一步。很多人做完差异基因后,不知道这些基因到底对应哪些疾病,也不清楚该如何从列表走向生物学解释。DO富集分析 可以把基因和疾病表型联系起来,帮助你更快定位研究方向。

1.DO富集分析的定义与作用
1.1 什么是DO富集分析
DO富集分析 ,通常指 Disease Ontology 富集分析。它的核心,是看一组基因是否在某些疾病条目中“过度出现”。与只看单个基因不同,它关注的是基因集合层面的疾病关联。
在实际研究中,DO富集分析常用于差异基因、候选基因集、单细胞亚群标记基因,或多组学筛选后的结果解释。它回答的不是“这个基因有什么用”,而是“这组基因更像和哪些疾病有关”。
1.2 为什么它对医学生和科研人员重要
对实验和临床研究来说,DO富集分析 的价值在于缩短解释路径。你可以快速判断一批基因是否偏向炎症、肿瘤、代谢病,或者某类遗传病。
它尤其适合下面几种场景:
- 差异基因很多,难以直接人工判断。
- 已知marker不足,想从疾病角度给细胞亚群命名。
- 需要把筛到的候选基因放回疾病框架中验证。
- 论文写作时,需要更有逻辑地说明基因变化与疾病表型的关系。
一句话概括,DO富集分析是“从基因到疾病”的桥梁。
2.DO富集分析的核心原理
2.1 本质上是统计学的过度代表性分析
DO富集分析 的原理和GO、KEGG类似,都是富集思想。简单说,就是比较“你的基因集”和“背景基因集”中,某个疾病条目相关基因是否显著偏多。
如果某个疾病条目对应的基因,在你的输入列表里出现得比随机情况更多,就认为它可能被富集。常见统计方法包括超几何检验或 Fisher 精确检验。结果会给出 P value、调整后 P value、富集到的基因数等指标。
2.2 背景集决定结果可信度
做DO富集分析 时,背景基因集非常关键。背景设置不同,结果可能明显变化。常见背景可以是:
- 全基因组背景。
- 你实验中可检测到的基因背景。
- 某个平台或某个物种注释背景。
如果背景不合理,就容易出现假阳性或偏差。这也是很多新手做完富集分析后,结果“看起来很多,但解释不稳”的主要原因。
2.3 输入基因ID必须统一
在实际操作中,DO富集分析通常要求标准化的基因ID。不同数据库和工具对 ID 格式要求不同。常见问题包括:
- SYMBOL 和 Entrez ID 混用。
- 一部分基因无法映射。
- 同一个基因重复出现。
- 物种注释版本不一致。
因此,在做分析前,通常要先完成 ID 转换,再去重,再进入富集步骤。这一步看似基础,但决定后续结果是否能顺利解释。
3.DO富集分析的标准流程
3.1 从差异基因到疾病条目
一个规范的 DO富集分析 流程通常包括以下步骤:
- 准备差异基因列表。
- 统一基因ID。
- 设置背景基因集。
- 执行富集检验。
- 对 P 值进行多重校正。
- 输出结果并可视化。
如果你是做转录组、单细胞,或者整合分析,这个流程基本都适用。它的优点是通用,适合快速批量解释。
3.2 结果怎么看
DO富集分析 结果通常关注三个核心信息:
- 富集到的疾病名称。
- 命中基因数。
- 显著性指标,如 P value 或 FDR。
阅读结果时,不要只看显著性。还要看疾病条目是否和你的研究问题一致。比如你研究的是免疫炎症相关疾病,结果却主要落在代谢病或神经系统疾病上,就需要回到基因列表和背景设置重新检查。
显著,不等于一定有生物学意义。
匹配研究问题,才有解释价值。
3.3 常见可视化方式
为了让结果更直观,DO富集分析常配合图形展示。常见形式包括:
- 柱状图,适合看前几个疾病条目。
- 气泡图,适合同时看显著性和基因数。
- 网络图,适合展示疾病与基因的关联关系。
对于论文和汇报来说,气泡图通常最常用。因为它既能展示统计显著性,也能体现命中基因数量。如果想快速传达主要结论,图形比长表更有效。
4.DO富集分析在实际研究中的应用场景
4.1 差异基因功能解释
在转录组研究中,差异基因往往很多。单看上调或下调基因,很难得出清晰结论。此时做 DO富集分析 ,可以把基因变化直接映射到疾病层面。
比如一批上调基因若集中富集于炎症性疾病条目,说明实验处理可能激活了相关病理过程。若富集于肿瘤相关条目,则可能提示细胞增殖、迁移或信号通路异常。
4.2 单细胞亚群注释
单细胞分析中,很多亚群不能仅靠 marker 完全命名。此时可以对某个亚群的差异基因做 DO富集分析 。如果该亚群显著富集于某类疾病条目,就能为亚群功能命名提供依据。
例如,一些亚群可能更偏向肿瘤相关、免疫异常相关或炎症相关状态。这对新亚群发现和功能注释尤其有帮助。
4.3 候选基因优先级排序
在候选基因筛选中,DO富集分析可以帮助你判断这些基因是否集中指向某类疾病。如果某个候选基因集在特定疾病中持续富集,就说明它更值得进一步做实验验证。
这类分析常作为后续验证前的“筛选加速器”。它不能替代实验,但可以明显提高筛选效率。
5.做DO富集分析时最容易踩的坑
5.1 只看P值,不看背景
很多人以为 P 值显著就够了。其实不然。背景集不合理,结果再显著也可能偏。 尤其在不同平台、不同物种、不同检测深度下,这个问题很常见。
5.2 输入基因太少
如果基因数量太少,DO富集分析容易不稳定。结果可能只出现少数条目,或者完全没有显著结果。遇到这种情况,不一定是分析错了,也可能是输入集太小,统计功效不足。
5.3 物种和注释版本不匹配
人和小鼠的注释不能混用。数据库版本不同,也可能导致映射丢失。分析前最好先确认物种、ID类型和注释库是否一致。
5.4 过度解读结果
DO富集分析是关联分析,不是因果证明。它能说明“更相关”,不能直接证明“导致疾病”。论文写作时建议用“提示”“可能相关”“富集于”这类表述,更严谨。
6.什么时候推荐优先做DO富集分析
6.1 适合的研究类型
如果你的研究目标是从基因层面寻找疾病关联,DO富集分析 通常值得优先考虑。尤其适合:
- 差异表达分析后的解释。
- 单细胞亚群功能注释。
- 候选基因集疾病关联评估。
- 疾病机制研究中的初筛阶段。
6.2 与GO、KEGG的关系
很多人会把 DO、GO、KEGG 一起做。这个思路是对的,但三者回答的问题不同。
- GO回答“基因参与什么生物过程”。
- KEGG回答“基因参与什么通路”。
- DO回答“基因更相关哪些疾病”。
如果你的研究重点是临床表型和疾病机制,DO富集分析的解释力往往更直接。
6.3 适合在什么时候放进论文
一般来说,DO富集分析适合放在结果部分中段。它可以承接差异分析,也可以作为后续机制分析的起点。逻辑上常见写法是:
- 先展示差异基因。
- 再做 DO 富集分析。
- 进一步结合 GO/KEGG 或网络分析。
- 最后提出关键候选基因或通路。
这样结构最清晰,也最符合审稿人阅读习惯。
总结Conclusion
DO富集分析 的核心,不是“找出更多疾病名”,而是把基因结果转化成更有临床意义的疾病解释。它本质上是一种统计富集分析,重点在于基因ID统一、背景合理、结果解读严谨。对于医学生、医生和科研人员来说,它能显著提高差异基因分析的可解释性,也能帮助单细胞注释和候选基因筛选更快落地。

如果你正在做转录组、单细胞或疾病机制研究,想把基因结果更快转成可发表的结论,可以借助解螺旋 的生信内容与分析思路,少走弯路,提升分析效率与表达质量。
- 引言Introduction
- 1.DO富集分析的定义与作用
- 2.DO富集分析的核心原理
- 3.DO富集分析的标准流程
- 4.DO富集分析在实际研究中的应用场景
- 5.做DO富集分析时最容易踩的坑
- 6.什么时候推荐优先做DO富集分析
- 总结Conclusion






