PPI网络构建时，基因列表应该怎么选择？

应先进行显著性筛选，并使用标准 SYMBOL 基因名，避免把全部基因直接导入数据库。

STRING里构建PPI网络时，物种和置信度阈值为什么重要？

物种必须与研究对象一致，常用 human；置信度阈值会影响网络密度和可靠性，常见设置为 >0.4。

PPI网络中的hub基因是不是最重要的致病基因？

不是。hub基因只表示连接度高，不能直接等同于致病基因或治疗靶点，还需要结合文献和实验验证。

PPI网络构建的3大关键难点是什么？

作者：Dr.Lin

2026-05-15｜原创

引言Introduction

PPI 网络构建看似只是把基因列表导入数据库，实则容易在数据筛选、参数设定和网络解释三个环节出错。对医学生、医生和科研人员来说，一张PPI网络能不能代表真实生物学关系，关键不在“画出来”，而在“构建对” 。
科研人员在电脑前查看STRING和Cytoscape界面，旁边展示基因列表、网络节点和连线示意图。

1.PPI网络构建前的数据选择，是第一道门槛

1.1 输入基因集不规范，后续网络会失真

PPI 网络构建的起点，是一份可信的基因列表。知识库中明确提到，常见做法是先从差异分析或RRA整合结果中提取 significant genes，再复制 SYMBOL 列用于建网。这个步骤看似简单，但如果基因筛选标准不统一，网络结果就会偏离研究目标 。

常见问题包括：

基因名称未统一为标准 SYMBOL。
上下调基因混用，但未区分分析目的。
没有先做显著性筛选，直接把全部基因放入数据库。
输入过多低置信度基因，导致网络噪音增加。

在实际操作中，建议先明确研究问题。是想找核心枢纽基因，还是想看模块关系。不同目标，输入基因集就不同。PPI 网络构建不是“越多越好”，而是“越准越好” 。

1.2 物种和数据库选择必须一致

知识库中给出的标准流程，是在 STRING 中选择 Multiple proteins，并将物种设为 human。这个细节非常关键。因为数据库匹配的是特定物种的蛋白互作信息，物种一旦选错，整个网络的可信度就会下降。

此外，数据库来源也要统一。STRING 是目前使用较多、操作较方便的方法，但它本质上是基于已知和预测的相互作用数据。也就是说，PPI 网络构建得到的是“证据支持的互作图”，不是实验直接证明的最终结论 。论文写作时必须保持表述严谨，避免把预测关系写成确定因果。

2.参数设定不当，是第二个核心难点

2.1 confidence阈值直接影响网络密度

知识库中明确提到，在 STRING 中常用 confidence > 0.4 构建 PPI 网络。这个阈值不是随便设的，它决定了网络中保留多少互作边。阈值低，网络会更密，但噪音更多。阈值高，网络更可信，但可能漏掉部分潜在关系。

因此，PPI 网络构建时最常见的矛盾是：

想保留更多连接，还是提高证据强度。
想让网络更完整，还是让结果更稳健。

对初学者来说，建议在方法部分明确写出筛选标准，例如 STRING 置信度阈值、是否隐藏孤立节点、是否保留未连接蛋白。参数不透明，是导致结果难以复现的主要原因之一 。

2.2 孤立节点如何处理，关系到图的可读性

知识库中提到，原始网络里常会出现很多游离点，可以选择隐藏未连接节点，再进行 update。这个步骤主要是为了提升可视化效果，但它也会改变图的呈现方式。

这里要注意两点：

隐藏孤立节点是美化，不是生物学筛选本身。
是否删除离散点，必须在方法中说明。

很多文章的问题就在这里。图看起来很漂亮，但读者不知道作者是否删除了重要节点。PPI 网络构建的可读性和完整性，必须平衡 。如果是为了找 hub 基因，适当去除离散点是合理的；如果是为了呈现整体互作格局，则应保留更多背景信息。

3.从网络到Hub基因，解释偏差最容易发生

3.1 Degree高不等于生物学上最重要

知识库中提到，Cytoscape 可用于美化网络，并根据 degree 值识别 hub 基因。Degree 越高，节点越大越亮；结合布局后，可以更直观地看出中心基因，例如示例中 MYC 被认为是重要基因。

但这里必须强调，Hub 基因不等于致病基因，也不等于治疗靶点 。Degree 只是网络拓扑指标，反映的是连接数量，不代表真实功能强度。一个基因在网络中连接很多，可能只是数据库注释更充分，或者处于已知高连接模块中。

因此，PPI 网络构建后，不能只看 degree。更稳妥的做法是结合：

差异表达方向。
文献证据。
其他算法结果，如 MCODE 模块分析。
后续实验验证。

3.2 模块分析和可视化必须服务于科学问题

知识库提到，MCODE 插件可用于筛选关键模块，并创建 cluster network。这个步骤非常适合从复杂网络中提取功能相关子网络。对于科研人员来说，模块分析比单纯看整张图更有解释力 。

不过，模块筛选同样存在难点。不同插件、不同参数、不同布局，都会影响最终展示结果。Cytoscape 中的 Attribute Circle Layout、Network Analyzer、Visualize Parameters 等设置，会改变节点排列和视觉权重。若没有统一标准，读者很难比较不同研究之间的结果。

所以，PPI 网络构建的输出，不应只停留在“图好不好看”，而应回答三个问题：

这个模块是否与研究表型相关。
这个 hub 是否有独立文献支持。
这个网络能否指导下一步实验。

4.规范流程，才能让PPI网络构建真正可复现

4.1 推荐的标准化思路

结合知识库中的流程，一个较稳妥的 PPI 网络构建路径是：

先整理标准基因列表，尽量使用 SYMBOL。
在 STRING 中选择对应物种，常用 human。
设定合理的置信度阈值，常见为 >0.4。
导出 text output 供 Cytoscape 二次分析。
在 Cytoscape 中导入 network file，进行 Network Analyzer。
按 degree 或其他指标美化网络。
结合 MCODE 筛选关键模块。
最后再挑选候选 hub 基因进入验证。

这套流程的核心逻辑是：先保证数据正确，再追求图形美观，最后才做生物学解释 。

4.2 写论文时最容易被忽视的细节

很多作者会把 PPI 网络构建写得过于简略，只写“通过 STRING 和 Cytoscape 构建 PPI 网络”。这不够。更合格的方法学描述，至少应交代：

数据来源。
物种设置。
置信度阈值。
是否去除孤立节点。
使用了哪些插件。
hub 基因筛选标准。

这些信息决定了研究是否可重复。对医学生、医生和科研人员而言，规范的方法描述，本身就是科研可信度的一部分 。

总结Conclusion

PPI 网络构建的3大关键难点，本质上分别是数据选择、参数设定和结果解释。前者决定网络是否可信，中者决定网络是否稳健，后者决定结论是否成立。只有把基因筛选、STRING 参数、Cytoscape 分析和模块解释串成闭环，PPI 网络构建才真正有科研价值。
如果你希望把这些步骤做得更快、更规范，可以借助解螺旋的生信实操资源，把建网流程标准化，减少重复试错，提高论文产出效率。
STRING到Cytoscape的完整流程图，展示基因输入、PPI网络、模块筛选、Hub基因输出四个步骤。