药物靶点数据库应该怎么选？

先根据研究场景选择：中药复方常用TCMSP、TCMID、BATMAN-TCM；药物靶点MR优先openGWAS、GTEx；单化合物靶点预测可用HIT、SwissTargetPrediction、DrugBank。

为什么药物靶点数据库要区分验证靶点和预测靶点？

验证靶点证据更强，适合高可信度分析；预测靶点用于扩大候选范围。论文中应明确区分两类靶点，避免影响结果可信度。

选择药物靶点数据库时最重要的标准是什么？

看是否能输出标准基因名和UniProt ID、是否支持批量导出、筛选规则是否透明，以及是否能与其他数据库互补交叉验证。

药物靶点数据库怎么选？3个关键标准

作者：Dr.Sheng

2026-05-21｜原创

引言Introduction

药物靶点数据库怎么选，常让人卡在第一步。面对成百上千条成分、靶点和疾病信息，若数据库来源不清、参数不统一，后续网络药理学、MR分析和富集结果都可能失真。选对药物靶点数据库，是提高研究可重复性和审稿通过率的前提。
一张科研人员在电脑前对比多个数据库界面，旁边显示“成分、靶点、疾病、QTL”四个模块的示意图。

1. 先看数据库是否适配你的研究场景

1.1 研究对象决定数据库优先级

没有“万能”的药物靶点数据库，只有“适合当前研究问题”的数据库。
如果你做的是中药复方研究，TCMSP、TCMID、BATMAN-TCM更常被使用，因为它们能直接提供中药成分、活性分子和相关靶点。TCMSP收录了2010版药典中的500味中药和30,069个化合物，并给出OB、DL、BBB、半衰期等ADME参数，适合做成分筛选和靶点初筛。
如果你做的是药物靶点MR，openGWAS、GTEx这类QTL数据库更关键。前者整合了eQTL、pQTL、metabolite QTL等数据，后者提供54种组织的组织特异性eQTL信息，适合构建工具变量。研究类型不同，数据库选择逻辑完全不同。

1.2 是否覆盖你的样本来源

数据库是否覆盖你的研究对象，直接决定结果能不能用。
例如，TCMSP对常见中药支持较好，但一旦复方中包含动物药，药代参数筛选就可能失效 ，因为相关成分不在库中。此时就需要TCMID、BATMAN-TCM或其他补充数据库。
对于靶点预测，HIT数据库提供的是验证过的靶点，可信度较高，但适合研究基础较好的成分。若研究的是新化合物或文献较少的成分，单靠HIT往往不够，需要联合SwissTargetPrediction、DrugBank、PharmMapper等预测库补足。

1.3 优先选“能直接导出标准化结果”的库

能否快速导出规范数据，比界面是否好看更重要。
TCMSP新版支持筛选后直接导出Excel，适合高频整理。SwissTargetPrediction可以导出CSV，便于统一整理基因名和UniProt ID。GTEx和openGWAS则更适合下载原始文件后进行本地标准化处理。
对医学生、医生和科研人员来说，研究效率很大程度取决于数据整理成本。数据库如果只能截图、复制、手动重命名，后续工作量会非常大。

2. 再看数据库的靶点质量和证据层级

2.1 验证靶点和预测靶点要分开用

靶点来源不同，证据强度完全不同。
验证靶点来自已发表实验或人工整理，适合做高可信度网络构建。HIT数据库就是这一类代表，能直接查到化合物对应的靶点名称、基因简称和UniProt ID。
预测靶点则来自算法推断，适合扩展候选范围。比如SwissTargetPrediction综合2D和3D结构进行匹配，DrugBank也可通过结构相似性辅助预测。
写文章时，建议明确区分“validated targets”和“predicted targets”。如果不区分，审稿人很容易质疑靶点来源的可靠性。

2.2 关注靶点是否能映射到基因和蛋白标准名

很多数据库展示的是target name，但这还不够。
真正进入网络构建和富集分析前，必须统一为Gene Symbol和UniProt ID。
这是因为同一靶点可能有多个别名，不统一会导致交集计算错误、PPI网络重复节点、富集分析偏差。HIT和SwissTargetPrediction通常能较好提供基因简称和UniProt ID，TCMSP则常需要进一步人工整理。
对药物靶点数据库来说，能否输出标准化命名，是判断它是否适合科研的核心指标之一。

2.3 看是否支持“从靶点回溯到疾病”

好的数据库不只是“给靶点”，还要能帮助你形成研究闭环。
TCMSP和部分相关数据库可以展示药物靶点-疾病网络，虽然在很多网络药理学研究中只是辅助信息，但对于验证研究方向、寻找关联疾病还是有价值的。
在MR研究中，靶点数据还要进一步与组织特异性表达结合。GTEx提供不同组织的eQTL信息，能够帮助你判断某个靶点是否在目标组织中真正有表达基础。这一步能显著减少“有靶点、无生物学场景”的假阳性。

3. 最后看数据筛选规则是否透明、可复现

3.1 参数阈值要有依据

数据库再好，如果筛选规则不透明，结果一样不可信。
TCMSP中最常用的筛选标准是OB≥30%、DL≥0.18。课程资料也提到，旧版数据库曾推荐OB≥20%、DL≥0.1，但文献中更常见的是OB≥30%、DL≥0.18。
如果研究的是口服药物，还可以参考Lipinski规则，如MW 180-500、AlogP小于5、HDon不超过5、HAcc不超过10。
这些阈值不是绝对标准，但必须在方法部分写清楚。统一的筛选标准，是保证复现性的关键。

3.2 看数据库是否支持逐项筛选和批量导出

筛选功能越清晰，研究越容易复现。
以TCMSP为例，用户可以按OB、DL等参数逐项筛选，还能直接导出结果。对于中药复方研究，这意味着每味药都可以使用同一套标准处理，避免因药物间标准不一致而被质疑。
如果数据库只支持模糊搜索，无法导出原始结果，后续往往要靠手工整理，误差也会增加。对科研来说，筛选逻辑可追溯，比“结果很多”更重要。

3.3 要注意数据库局限和补库能力

没有任何一个药物靶点数据库是完美的。
TCMSP的局限是部分成分覆盖不全，尤其是动物药。TCMID曾能补足这一点，但部分功能访问不稳定。BATMAN-TCM可补充成分发现和KEGG分析，但通路结果通常不能直接替代正式富集分析。
因此，成熟做法不是只用一个库，而是“主库+补库”联合使用。
例如，中药复方研究可先用TCMSP筛活性成分，再用HIT、SwissTargetPrediction或DrugBank补靶点，最后与疾病靶点取交集。多数据库交叉验证，才能提高结论可信度。

4. 实战建议：按这3步选库更稳妥

4.1 先定研究问题

如果你的问题是“中药复方有哪些活性成分和靶点”，优先选TCMSP、TCMID、BATMAN-TCM。
如果你的问题是“某个药物靶点是否影响疾病发生”，优先选openGWAS、GTEx等QTL数据库。
如果你的问题是“某个化合物可能作用哪些蛋白”，优先选HIT、SwissTargetPrediction、DrugBank、PharmMapper。
先定问题，再选数据库，顺序不能反。

4.2 再定证据层级

做机制探索时，可先用预测库扩大候选靶点，再用验证库收敛结果。
做投稿时，优先保留证据更强、字段更全、可导出标准化数据的数据库。
建议至少保留两个来源交叉验证。 这样无论是网络药理学还是药物靶点MR，都更容易说服审稿人。

4.3 最后检查输出格式

一套可用的药物靶点数据库，至少要满足以下条件。

能检索到目标成分或药物。
能输出标准基因名和UniProt ID。
能导出表格，便于Excel和Cytoscape处理。
能说明筛选阈值和算法来源。
能与其他数据库互补。

满足这5条，才算真正适合科研。

总结Conclusion

药物靶点数据库怎么选，核心不在“哪个最出名”，而在于是否匹配研究场景、是否具备可靠靶点证据、是否支持透明可复现的筛选流程。对中药复方研究，TCMSP常是起点；对药物靶点MR，openGWAS和GTEx更关键；对单化合物靶点预测，则要结合HIT、SwissTargetPrediction、DrugBank等多个库交叉验证。
真正高质量的研究，从来不是只会查数据库，而是会选数据库、会解释数据库、会控制数据库偏差。
如果你希望进一步提升中药网络药理学、药物靶点MR和靶点筛选的效率，可以关注解螺旋品牌的系统课程与工具支持，用更规范的流程少走弯路。
一张整洁的科研流程图，展示“研究问题→数据库选择→靶点筛选→交叉验证→网络分析/发表”的完整路径。