引言Introduction

共表达网络图是WGCNA分析的核心结果之一。但很多人卡在数据清理、离群样本处理和软阈值选择上,导致网络不稳定,模块也不可信。本文用5步拆解共表达网络图 的构建流程,帮助你快速掌握实战逻辑。
实验室科研人员在电脑前查看基因表达热图和网络模块聚类图,画面突出“共表达网络图构建流程”

1. 数据清理是共表达网络图的起点

1.1 先做高变基因筛选

构建共表达网络图 前,第一步不是直接跑网络,而是先清理数据。常见做法是按标准差筛选高变基因,也可以用绝对中位差。知识库中推荐后两种,尤其是绝对中位差,因为它对极端值更稳健。

实战中,常见做法是先取前5000个高变基因。样本量较大时,这种筛选方式能明显减少后续计算压力,也能提高网络构建效率。高变基因不是越多越好,关键是保留能反映样本差异的信息。

1.2 去除离群样本,避免网络偏移

离群样本会显著影响共表达网络图 的拓扑结构。常用方法是先对样本做层次聚类,再观察聚类树中是否有明显分离的样本分支。

知识库示例中,通过 hclust 聚类后,可在切割高度约120处识别并去除离群样本,再用 cutreeStatic 完成样本切割。保留主群体样本,删除明显偏离的样本,是保证网络稳定的前提。

1.3 清理后的数据再进入建网

完成基因筛选和离群样本处理后,数据才适合进入WGCNA。此时输入矩阵更干净,后续模块划分更清晰。对于医学生和科研人员来说,这一步往往决定了后面网络图是否“像论文里的图”。


2. 软阈值选择决定网络是否符合无尺度特征

2.1 为什么必须选软阈值

共表达网络图 不是简单相关性矩阵,而是要先把相关性转成邻接关系。这个转换需要软阈值,也就是 beta 值。它决定了网络连接强度的加权程度。

知识库中提到,软阈值筛选要以无尺度网络为标准。常用函数是 pickSoftThreshold。通常会先给出一组候选值,例如1到10,再加12到20,形成15个测试值。

2.2 如何判断合适的beta值

选择软阈值时,要同时看两个指标。

  • 一是无尺度拟合指数,也就是 R²。
  • 二是平均连接度。

R²越高,越接近无尺度网络。
但如果 beta 过大,连接度会迅速下降,网络会变得过于稀疏。

知识库中的经验是,R²最好不低于0.8 。例如 beta=7 时,往往能在拟合度和连接度之间取得平衡。beta=8 虽然相关性更高,但平均连接度可能过低,不利于后续模块识别。

2.3 还要看斜率和连接度分布

验证共表达网络图 是否符合无尺度分布时,还要看斜率是否为负。因为无尺度网络中,节点连接数 k 与其出现概率通常呈反比关系。斜率为负,说明网络更符合生物网络的常见结构。


3. 一步法构建网络模块,效率更高

3.1 一步法适合大规模数据

当表达矩阵较大时,推荐使用一步法直接构建模块。知识库中使用的是 blockwiseModules。它能把邻接矩阵、拓扑矩阵、模块识别等步骤整合在一起,适合快速得到共表达网络图

这一方法对医学生和科研人员很实用。因为它减少了手动中间步骤,也降低了出错概率。尤其在处理几千个基因时,效率优势更明显。

3.2 关键参数要设置合理

一步法里常用的核心参数包括:

  • 表达矩阵。
  • 软阈值 beta。
  • 网络类型,常用 unsigned
  • 模块最小基因数,常设为30。
  • 模块合并高度,常设为0.25。

如果基因数较少,可以把最小模块基因数降到20。
这些参数直接影响模块数量和模块边界,不能随意照搬。

3.3 一步法的结果就是模块颜色

一步法跑完后,会得到不同颜色的模块。颜色代表不同的基因共表达群。也就是说,共表达网络图的核心不是“画得复杂”,而是“模块分得合理”。
模块越稳定,后续做功能富集、临床相关性分析的价值越高。


4. 分步法更适合理解网络构建逻辑

4.1 先算邻接矩阵,再算拓扑矩阵

如果你想真正理解共表达网络图 是怎么来的,分步法更适合。知识库中的流程是先根据表达矩阵和软阈值计算邻接矩阵,再进一步得到拓扑矩阵。

随后计算相异度,一般用 1 减去拓扑矩阵。这个过程的本质是,把基因间相关性转换为网络中的“邻近程度”。邻接矩阵和拓扑矩阵,是共表达网络图的底层基础。

4.2 动态剪切树识别初始模块

有了相异度矩阵后,就可以进行层次聚类,并用动态剪切树识别模块。知识库中指出,每个模块至少要包含30个基因。这样做可以避免出现太多碎片化的小模块。

初步模块识别后,还要把颜色标签和聚类结果对应起来。这样可以直观看到每个分支属于哪个模块。模块边界清楚,后续分析才有意义。

4.3 合并相似模块,降低复杂度

初始模块常常过多,需要进一步合并。知识库中采用的是模块特征向量聚类,并根据相异程度小于0.25的标准合并模块。换句话说,相关性高于0.75的模块,通常可以考虑合并。

合并后,模块数会减少,结构也更稳定。比如示例中最终得到12个模块。这个结果更利于后续做模块-表型相关分析。


5. 可视化决定共表达网络图是否真正可读

5.1 先看树状图和模块颜色

共表达网络图 最终不只是一个计算结果,还要能被人看懂。常见可视化方式包括动态剪切树和模块颜色图。plotDendroAndColors 可以把基因聚类结果和模块颜色同时展示出来。

这种图最适合论文和汇报。读者能快速看到哪些基因聚成一类,哪些模块边界清晰。图像越直观,网络越容易被验证。

5.2 再看模块相关性热图

模块之间并不是完全独立的。知识库中提到,可以绘制模块相关性热图,观察不同模块之间的相关强弱。热图中颜色越红,说明相关性越高;越接近冷色,说明相关性越弱。

这一步对筛选关键模块很重要。你可以先锁定与临床表型相关度更高的模块,再进一步做基因筛选、PPI分析或实验验证。

5.3 网络拓扑图要控制节点数量

当基因很多时,直接画完整网络会非常吃计算资源。知识库建议随机挑选400到500个基因做拓扑展示,把5000×5000矩阵降到约400×400。这样既能保留结构信息,也能保证图形清晰。

拓扑图里,如果某个模块内部聚类明显,说明该模块的内部一致性较强。这类模块通常更值得优先分析。

5.4 用解螺旋产品提高建图效率

如果你希望更高效地完成共表达网络图 分析,可以借助解螺旋品牌的生信课程与实操资源。它能帮助你把数据清理、软阈值筛选、模块构建和可视化步骤串起来,少走弯路。对于需要快速复现WGCNA流程的医学生、医生和科研人员,这类标准化工具能明显提升效率。

总结Conclusion

构建共表达网络图 ,核心就是5步。先清理数据,再选软阈值,然后构建模块,接着合并和验证,最后完成可视化。每一步都影响网络是否稳定,模块是否可信。对科研工作者来说,真正重要的不是“跑出图”,而是跑出能解释生物学问题的图。
WGCNA共表达网络模块热图与树状图组合展示,旁边放置“数据清理-软阈值-模块识别-可视化”流程示意图
如果你想更系统地掌握WGCNA和共表达网络图 的实战方法,可以进一步了解解螺旋的相关课程与工具,帮助你把分析流程标准化、结果可复现。