引言Introduction
STRING构建PPI网络,是差异基因筛选后最常用的一步。很多人做完富集分析,却卡在“怎么找关键基因、怎么解释网络”。问题不在数据少,而在互作关系没被有效组织。用STRING构建PPI网络,可以把分散的基因连接成可解释的功能模块。

1.STRING构建PPI网络的核心价值
1.1 从“基因列表”到“互作网络”
差异表达分析通常得到的是一串基因名。单看列表,很难判断哪些基因彼此相关,哪些更可能是核心驱动因子。STRING构建PPI网络的意义,就在于把基因间已知或预测的蛋白互作关系显性化。
STRING数据库支持多蛋白检索。常见做法是将显著差异基因直接粘贴到“Multiple proteins”中,选择物种为 Homo sapiens,再进行检索。系统会自动映射蛋白,并生成互作网络。对于医学生和科研人员来说,这一步能快速回答一个关键问题:这些基因是否聚在同一生物学过程里。
1.2 为什么它能提升分析精度
所谓“分析精度”,不是单纯让图更漂亮,而是提高对关键节点的识别能力。网络分析比单基因分析更接近真实生物过程,因为蛋白功能往往通过复合体、通路和调控轴共同实现。
在实际流程中,STRING构建PPI网络后,可以进一步结合:
- 交互置信度,筛掉低可信连接。
- 节点度数,优先关注高度连接节点。
- 聚类分析,识别功能模块。
- GO和KEGG富集结果,解释网络生物学意义。
当网络结构与富集结果相互印证时,结论通常更稳健。
2.STRING构建PPI网络的标准流程
2.1 输入基因前先做两件事
在进入STRING之前,先确认输入基因质量。知识库中的示例流程是基于差异表达结果筛选显著基因,再提交到STRING。常见筛选条件包括:
- P值或校正后P值达到显著。
- logFC达到设定阈值。
- 尽量统一使用 SYMBOL 名称。
这一点很重要。如果基因命名混乱,会直接影响 STRING 构建 PPI 网络 的映射准确率。 GB_ACC 可以识别,但课程资料也明确建议,优先转换成 symbol 后再提交,更利于后续分析和复现。
2.2 STRING官网的操作步骤
根据知识库,标准步骤如下:
- 进入 STRING 官网。
- 选择左侧 Multiple proteins。
- 粘贴基因名到 List of Name。
- 选择物种 Homo sapiens。
- 点击 SEARCH,等待网络映射。
- 点击 CONTINUE 确认匹配蛋白。
- 调整交互数目后点击 UPDATE。
- 下载 string_interactions.tsv。
这套流程的关键不在“点按钮”,而在参数选择。交互数目和置信度会直接影响网络密度。 参数过宽,假阳性上升。参数过严,可能漏掉重要连接。
2.3 结果页面要看什么
STRING结果页通常包含网络图、功能富集和导出选项。对于 PPI 分析,最值得关注的是:
- 节点之间是否形成明显簇。
- 是否存在孤立点过多的问题。
- 是否有明确的高连接节点。
- Analysis 模块是否提示 GO 或 KEGG 富集。
如果某些条目没有富集到,不代表结果无效,而是说明该集合在对应模块中没有显著信号。这类信息能帮助你避免过度解读。
3.如何用参数控制来提高可靠性
3.1 置信度不是越低越好
知识库明确提示,调低 confidence 会让网络变大,但假阳性也会增加。实际分析中,常见做法是根据研究目的平衡灵敏度与特异性。
一般建议:
- 机制探索:可适度降低阈值,保留更多连接。
- 关键基因筛选:应提高阈值,优先保留高可信边。
- 发表图表:参数设定要稳定,便于复现。
提高分析精度的本质,是减少噪声对核心结构的干扰。
3.2 关注“网络是否可解释”
一个好的PPI网络,不只是节点多,而是结构清晰。你需要判断:
- 是否能形成中心簇。
- 是否有功能一致的子模块。
- 网络是否与前期差异分析方向一致。
- 是否存在与疾病机制相关的枢纽基因。
在课程案例中,分析者还会进一步通过 Analysis 了解输入基因集合富集到的 GO 和 KEGG 通路。这一步能把“互作关系”转化为“通路解释”。这也是 STRING构建 PPI 网络 比单纯画图更有价值的地方。
4.结合Cytoscape,进一步放大分析精度
4.1 为什么要导入Cytoscape
STRING可以直接出图,但Cytoscape更适合做精细化可视化。知识库中的流程是:
- 从 STRING 下载 string_interactions.tsv。
- 打开 Cytoscape。
- 通过 File > Import > Network from File 导入。
- 再导入 gene_diff.txt 注释表。
- 在 Style 中设置 Fill color 和 Shape。
- 用 logFC 显示颜色,用 P值映射节点大小。
这样做的好处,是把统计信息和网络结构放到同一张图里。
4.2 可视化如何帮助判断关键节点
当节点颜色对应 logFC,节点大小对应 P值或显著性时,研究者可以更快识别:
- 上调或下调最明显的基因。
- 连接度高且变化显著的枢纽。
- 可能参与相同生物过程的模块。
知识库还提到,可通过 Cytoscape 的 App Manager 安装 stringApp,并从公共数据库再次导入网络。随后可用 network expansion 扩展连接蛋白,或调整 confidence 改变网络规模。这类迭代式优化,能让 STRING构建 PPI 网络 更接近真实调控关系。
4.3 模块识别比单点判断更重要
很多初学者只盯着中心节点。其实,PPI分析更重要的是模块。因为疾病机制往往不是单个蛋白决定,而是多个蛋白协同变化。
结合课程提纲中的思路,可以继续使用:
- Clusters 或 MCODE 寻找功能模块。
- NetworkAnalyzer 评估 degree 等网络指标。
- 导出结果用于后续统计或图表整理。
模块化分析的优势,是减少偶然连接带来的误判。
5.提升分析精度的实用建议
5.1 输入前统一标准化
建议在提交 STRING 前完成以下处理:
- 统一基因命名格式。
- 去除重复项。
- 优先保留显著差异基因。
- 若数据量过大,先分层筛选。
这能显著提升映射效率,也减少无效节点。对于大规模数据集,STRING会自动匹配可能蛋白,但如果输入过杂,网络解释难度会明显增加。
5.2 结果解读要回到研究问题
STRING构建PPI网络不是终点。它的价值在于帮助你回答研究问题,例如:
- 哪些差异基因可能是核心调控因子。
- 哪些蛋白处于同一功能模块。
- 哪些通路最能解释表型变化。
只有把网络图和实验设计、分组信息、富集结果放在一起,结论才有说服力。
5.3 适合医学生、医生和科研人员的使用场景
这个流程特别适用于:
- 疾病机制探索。
- 生物标志物优先级排序。
- 药物靶点初筛。
- 论文结果图构建。
- 课题组汇报中的机制示意。
对于转化医学研究而言,STRING构建 PPI 网络 的价值是把“统计显著”进一步推进到“生物学相关”。
总结Conclusion
STRING构建PPI网络之所以能提升分析精度,核心在于它把分散的差异基因组织成可解释的互作模块,并通过置信度、聚类、通路富集和Cytoscape可视化,帮助研究者更准确地识别关键节点与核心机制。它不是简单作图,而是从结果走向机制的重要步骤。
如果你希望更高效地完成差异基因筛选、STRING构建 PPI 网络、Cytoscape美化与结果导出,可以结合解螺旋的生信内容与工具资源,减少重复操作,把时间更多投入到科学问题本身。

- 引言Introduction
- 1.STRING构建PPI网络的核心价值
- 2.STRING构建PPI网络的标准流程
- 3.如何用参数控制来提高可靠性
- 4.结合Cytoscape,进一步放大分析精度
- 5.提升分析精度的实用建议
- 总结Conclusion






