引言Introduction

PPI 网络构建看似只是把基因列表导入数据库,实则容易在数据筛选、参数设定和网络解释三个环节出错。对医学生、医生和科研人员来说,一张PPI网络能不能代表真实生物学关系,关键不在“画出来”,而在“构建对”
科研人员在电脑前查看STRING和Cytoscape界面,旁边展示基因列表、网络节点和连线示意图。

1.PPI网络构建前的数据选择,是第一道门槛

1.1 输入基因集不规范,后续网络会失真

PPI 网络构建的起点,是一份可信的基因列表。知识库中明确提到,常见做法是先从差异分析或RRA整合结果中提取 significant genes,再复制 SYMBOL 列用于建网。这个步骤看似简单,但如果基因筛选标准不统一,网络结果就会偏离研究目标

常见问题包括:

  • 基因名称未统一为标准 SYMBOL。
  • 上下调基因混用,但未区分分析目的。
  • 没有先做显著性筛选,直接把全部基因放入数据库。
  • 输入过多低置信度基因,导致网络噪音增加。

在实际操作中,建议先明确研究问题。是想找核心枢纽基因,还是想看模块关系。不同目标,输入基因集就不同。PPI 网络构建不是“越多越好”,而是“越准越好”

1.2 物种和数据库选择必须一致

知识库中给出的标准流程,是在 STRING 中选择 Multiple proteins,并将物种设为 human。这个细节非常关键。因为数据库匹配的是特定物种的蛋白互作信息,物种一旦选错,整个网络的可信度就会下降。

此外,数据库来源也要统一。STRING 是目前使用较多、操作较方便的方法,但它本质上是基于已知和预测的相互作用数据。也就是说,PPI 网络构建得到的是“证据支持的互作图”,不是实验直接证明的最终结论 。论文写作时必须保持表述严谨,避免把预测关系写成确定因果。

2.参数设定不当,是第二个核心难点

2.1 confidence阈值直接影响网络密度

知识库中明确提到,在 STRING 中常用 confidence > 0.4 构建 PPI 网络。这个阈值不是随便设的,它决定了网络中保留多少互作边。阈值低,网络会更密,但噪音更多。阈值高,网络更可信,但可能漏掉部分潜在关系。

因此,PPI 网络构建时最常见的矛盾是:

  • 想保留更多连接,还是提高证据强度。
  • 想让网络更完整,还是让结果更稳健。

对初学者来说,建议在方法部分明确写出筛选标准,例如 STRING 置信度阈值、是否隐藏孤立节点、是否保留未连接蛋白。参数不透明,是导致结果难以复现的主要原因之一

2.2 孤立节点如何处理,关系到图的可读性

知识库中提到,原始网络里常会出现很多游离点,可以选择隐藏未连接节点,再进行 update。这个步骤主要是为了提升可视化效果,但它也会改变图的呈现方式。

这里要注意两点:

  1. 隐藏孤立节点是美化,不是生物学筛选本身。
  2. 是否删除离散点,必须在方法中说明。

很多文章的问题就在这里。图看起来很漂亮,但读者不知道作者是否删除了重要节点。PPI 网络构建的可读性和完整性,必须平衡 。如果是为了找 hub 基因,适当去除离散点是合理的;如果是为了呈现整体互作格局,则应保留更多背景信息。

3.从网络到Hub基因,解释偏差最容易发生

3.1 Degree高不等于生物学上最重要

知识库中提到,Cytoscape 可用于美化网络,并根据 degree 值识别 hub 基因。Degree 越高,节点越大越亮;结合布局后,可以更直观地看出中心基因,例如示例中 MYC 被认为是重要基因。

但这里必须强调,Hub 基因不等于致病基因,也不等于治疗靶点 。Degree 只是网络拓扑指标,反映的是连接数量,不代表真实功能强度。一个基因在网络中连接很多,可能只是数据库注释更充分,或者处于已知高连接模块中。

因此,PPI 网络构建后,不能只看 degree。更稳妥的做法是结合:

  • 差异表达方向。
  • 文献证据。
  • 其他算法结果,如 MCODE 模块分析。
  • 后续实验验证。

3.2 模块分析和可视化必须服务于科学问题

知识库提到,MCODE 插件可用于筛选关键模块,并创建 cluster network。这个步骤非常适合从复杂网络中提取功能相关子网络。对于科研人员来说,模块分析比单纯看整张图更有解释力

不过,模块筛选同样存在难点。不同插件、不同参数、不同布局,都会影响最终展示结果。Cytoscape 中的 Attribute Circle Layout、Network Analyzer、Visualize Parameters 等设置,会改变节点排列和视觉权重。若没有统一标准,读者很难比较不同研究之间的结果。

所以,PPI 网络构建的输出,不应只停留在“图好不好看”,而应回答三个问题:

  • 这个模块是否与研究表型相关。
  • 这个 hub 是否有独立文献支持。
  • 这个网络能否指导下一步实验。

4.规范流程,才能让PPI网络构建真正可复现

4.1 推荐的标准化思路

结合知识库中的流程,一个较稳妥的 PPI 网络构建路径是:

  1. 先整理标准基因列表,尽量使用 SYMBOL。
  2. 在 STRING 中选择对应物种,常用 human。
  3. 设定合理的置信度阈值,常见为 >0.4。
  4. 导出 text output 供 Cytoscape 二次分析。
  5. 在 Cytoscape 中导入 network file,进行 Network Analyzer。
  6. 按 degree 或其他指标美化网络。
  7. 结合 MCODE 筛选关键模块。
  8. 最后再挑选候选 hub 基因进入验证。

这套流程的核心逻辑是:先保证数据正确,再追求图形美观,最后才做生物学解释

4.2 写论文时最容易被忽视的细节

很多作者会把 PPI 网络构建写得过于简略,只写“通过 STRING 和 Cytoscape 构建 PPI 网络”。这不够。更合格的方法学描述,至少应交代:

  • 数据来源。
  • 物种设置。
  • 置信度阈值。
  • 是否去除孤立节点。
  • 使用了哪些插件。
  • hub 基因筛选标准。

这些信息决定了研究是否可重复。对医学生、医生和科研人员而言,规范的方法描述,本身就是科研可信度的一部分

总结Conclusion

PPI 网络构建的3大关键难点,本质上分别是数据选择、参数设定和结果解释。前者决定网络是否可信,中者决定网络是否稳健,后者决定结论是否成立。只有把基因筛选、STRING 参数、Cytoscape 分析和模块解释串成闭环,PPI 网络构建才真正有科研价值。
如果你希望把这些步骤做得更快、更规范,可以借助解螺旋的生信实操资源,把建网流程标准化,减少重复试错,提高论文产出效率。
STRING到Cytoscape的完整流程图,展示基因输入、PPI网络、模块筛选、Hub基因输出四个步骤。