做生信课题最先应该用哪个数据库？

通常先用GEO或TCGA找公开数据集，再根据研究方向决定下一步分析。

STRING数据库主要有什么用途？

STRING主要用于分析蛋白互作关系，常用来构建PPI网络和筛选核心基因。

GSEA和Enrichr有什么区别？

GSEA更适合做基因集与表型的关联分析，Enrichr更适合快速进行GO、KEGG等功能富集分析。

常用生信数据库有哪些？10个必知平台

作者：Dr.Sheng

2026-05-21｜原创

引言Introduction

做生信课题时，很多人卡在第一步。常用生信数据库怎么选，哪些能直接用于选题、验证、作图和写论文。 如果你是医学生、医生或科研人员，这篇文章会帮你快速建立检索思路，少走弯路。
医学生在电脑前检索数据库，屏幕展示GEO、TCGA、GeneCards、STRING等常见生信平台图标

1. 为什么要先掌握常用生信数据库

1.1 课题设计离不开数据入口

生信研究不是先写结论，而是先找数据。常见流程是先判断某个疾病是否已有公开研究，再看文章用的是不是公共数据集。如果数据来自GEO、TCGA等平台，并且文中写明编号，就有机会复现或继续深挖。 这也是常用生信数据库的第一层价值。

对于课题设计来说，数据库不是“辅助工具”，而是研究起点。它决定你能不能找到差异分子、通路信息、临床变量和互作关系。没有合适的数据库，后面的分析很难展开。

1.2 从“不会做”到“能复现”的关键

很多初学者看到数据库论文会困惑，其实问题不在算法，而在于不熟悉平台组合。你需要知道：

哪里找疾病相关文献。
哪里找公开数据集。
哪里查基因功能和互作。
哪里做富集和临床关联。

掌握常用生信数据库，核心不是记住名字，而是知道每个数据库解决什么问题。

2. 10个必知的常用生信数据库

2.1 GEO，最常用的转录组公共数据入口

GEO是做生信分析最常见的平台之一。它收录了大量转录组和芯片数据，适合寻找疾病相关差异表达数据。如果论文材料和方法里标明数据来自GEO，并给出编号，通常就可以作为后续分析的基础。

使用GEO时，重点看三件事。

样本分组是否清楚。
平台类型是否适合你的研究。
是否能拿到原始数据和临床信息。

2.2 TCGA，肿瘤研究的重要公共资源

TCGA主要用于肿瘤研究，覆盖基因组、转录组和临床信息。它适合做差异分析、预后分析、模型构建和多组学研究。在肿瘤方向，TCGA几乎是绕不开的常用生信数据库。

如果你想做临床关联，TCGA的价值更高。因为它不仅能看表达差异，还能结合分期、生存、年龄、性别等变量进行分析。

2.3 GeneCards，基因信息查询的入口

GeneCards可以理解为“基因身份证”。输入基因名，就能看到这个基因的基本信息、功能注释、相关疾病和表达线索。对新手来说，它非常适合做课题前的快速摸底。想知道一个基因值不值得研究，先查GeneCards。

它也适合反向思考。比如你先有疾病，再从GeneCards中延伸出相关基因，再进一步筛选候选分子。

2.4 STRING，蛋白互作网络分析工具

STRING用于查看蛋白之间的相互作用关系。它能帮助你判断某些基因是否处于同一功能网络中。在常用生信数据库里，STRING非常适合做PPI分析和核心基因筛选。

对于科研写作来说，STRING常用于回答一个问题：这些分子之间是否真的有关联。它能把“孤立的候选基因”连接成网络，提升结果的逻辑性。

2.5 GSEA，做基因集和表型关联分析

GSEA可以用于寻找表型相关的基因集。它不只是看单个基因差异，而是看一组基因是否整体富集到某个功能或通路。这类分析适合展示机制层面的证据。

如果你手里有一组候选基因，或者想围绕某种表型展开机制研究，GSEA是很实用的工具。它能帮助你把“分子变化”提升到“功能变化”。

2.6 UALCAN，适合临床与表达联合分析

UALCAN常用于肿瘤研究中的临床相关分析。它可以帮助你查看基因在不同分组中的表达差异，也能做部分多组学分析。对于不会写代码的人，它是非常友好的在线分析平台。

如果你想快速展示某个基因与年龄、分期、分型等临床因素的关系，UALCAN很适合用于初步验证。

2.7 cBioPortal，整合基因组与临床信息

cBioPortal是很多研究者常用的分析平台，适用于转录组、基因组和临床数据整合。它在肿瘤研究中尤其常见。如果你想看突变、拷贝数变化和临床结局的关系，cBioPortal很有价值。

它的优势是整合度高。对于想做多维度解释的课题，cBioPortal能补足单纯表达分析的不足。

2.8 GEPIA，快速查看表达与生存信息

GEPIA常用于快速检索基因在肿瘤和正常组织中的表达差异，也可用于生存分析。它基于公开数据，操作简单，适合在选题初期做快速判断。在常用生信数据库中，它属于上手快、效率高的工具。

如果你正在筛选候选基因，GEPIA可以帮你迅速判断这个基因有没有研究价值。

2.9 Enrichr，做功能富集分析很方便

Enrichr适合功能富集分析，包括GO、KEGG等常见模块。它能帮助你把一批基因放进统一的生物学框架中，快速看到它们可能参与的过程。如果你有差异基因列表，Enrichr能直接提高分析效率。

富集分析的关键不在于“出图”，而在于解释。你要结合疾病背景，说明这些通路为什么重要。

2.10 MSigDB，适合标准化基因集分析

MSigDB是一个很强的基因集数据库，常用于基因集富集、通路分析和标准化参考。它适合和GSEA搭配使用。如果你想让结果更规范，MSigDB是常用生信数据库中必须了解的平台。

它的优势是基因集质量高，分类清楚。对做机制研究的人来说，MSigDB能帮助你建立更稳妥的分析框架。

3. 如何把这些数据库串起来用

3.1 先查文献，再选数据库

课题设计时，建议先检索疾病相关生信文章。看别人用了什么数据集、什么平台、什么分析链路。如果已有同类研究，说明这个方向大概率可以继续做，但重点是找到你的切入点。

如果文章使用的是公共数据集，你就能进一步复现。若是自测数据集，通常无法直接获取，只能学习思路。

3.2 典型分析路径要清楚

常见路径可以这样串联：

用GEO或TCGA找数据。
用GeneCards梳理候选基因。
用STRING看互作网络。
用GSEA、Enrichr、MSigDB做功能解释。
用UALCAN、cBioPortal、GEPIA补充临床和生存证据。

这套组合是很多生信论文的基础框架。 对初学者来说，先掌握这条链路，比零散记忆单个平台更重要。

3.3 工具之外，还要解决学习和检索问题

如果你不熟悉数据库操作，可以先搜索教程，再结合AI辅助理解。英文吃力时，也可以借助谷歌翻译、有道翻译或腾讯翻译。对于需要快速查影响因子、预警和分区的人，还可以借助相关插件提升检索效率。

真正高效的做法，是把数据库、教程和检索工具组合起来用。 这样能明显减少试错时间。

4. 选题时怎么判断数据库够不够用

4.1 看是否有公共数据

一个课题能不能做，先看有没有公开数据。GEO、TCGA这类平台如果能找到合适数据集，通常就具备继续分析的基础。没有数据，后面的统计和作图都无从谈起。

4.2 看是否能连到机制和临床

仅有差异表达还不够。你还要能连接功能、互作和临床变量。也就是说，数据库要能支持从“分子变化”走到“机制解释”和“临床价值”。

4.3 看是否适合你的研究能力

不是所有数据库都要一口气学完。新手可以从GEO、GeneCards、STRING、GEPIA开始，再逐步扩展到TCGA、UALCAN、cBioPortal、GSEA和MSigDB。先建立最小可用工具链，再逐步升级。

总结Conclusion

常用生信数据库的核心作用，是帮助你完成从选题、验证到机制解释的完整链路。GEO、TCGA、GeneCards、STRING、GSEA、UALCAN、cBioPortal、GEPIA、Enrichr和MSigDB，是最值得优先掌握的10个平台。它们不是孤立工具，而是一个可组合的分析体系。

如果你正在做课题设计、文章复现或数据挖掘，建议先建立自己的数据库使用顺序。先找数据，再找机制，最后补临床证据。

想更快把这些平台用到真实课题中，可以结合解螺旋的生信课程和分析服务，直接按课题场景搭建分析路径，减少试错，提升发文效率。
研究人员在多屏电脑前串联GEO、TCGA、STRING、GSEA等数据库流程图，旁边展示论文写作与课题设计场景