引言Introduction
共表达网络图是WGCNA分析的核心结果之一。但很多人卡在数据清理、离群样本处理和软阈值选择上,导致网络不稳定,模块也不可信。本文用5步拆解共表达网络图 的构建流程,帮助你快速掌握实战逻辑。

1. 数据清理是共表达网络图的起点
1.1 先做高变基因筛选
构建共表达网络图 前,第一步不是直接跑网络,而是先清理数据。常见做法是按标准差筛选高变基因,也可以用绝对中位差。知识库中推荐后两种,尤其是绝对中位差,因为它对极端值更稳健。
实战中,常见做法是先取前5000个高变基因。样本量较大时,这种筛选方式能明显减少后续计算压力,也能提高网络构建效率。高变基因不是越多越好,关键是保留能反映样本差异的信息。
1.2 去除离群样本,避免网络偏移
离群样本会显著影响共表达网络图 的拓扑结构。常用方法是先对样本做层次聚类,再观察聚类树中是否有明显分离的样本分支。
知识库示例中,通过 hclust 聚类后,可在切割高度约120处识别并去除离群样本,再用 cutreeStatic 完成样本切割。保留主群体样本,删除明显偏离的样本,是保证网络稳定的前提。
1.3 清理后的数据再进入建网
完成基因筛选和离群样本处理后,数据才适合进入WGCNA。此时输入矩阵更干净,后续模块划分更清晰。对于医学生和科研人员来说,这一步往往决定了后面网络图是否“像论文里的图”。
2. 软阈值选择决定网络是否符合无尺度特征
2.1 为什么必须选软阈值
共表达网络图 不是简单相关性矩阵,而是要先把相关性转成邻接关系。这个转换需要软阈值,也就是 beta 值。它决定了网络连接强度的加权程度。
知识库中提到,软阈值筛选要以无尺度网络为标准。常用函数是 pickSoftThreshold。通常会先给出一组候选值,例如1到10,再加12到20,形成15个测试值。
2.2 如何判断合适的beta值
选择软阈值时,要同时看两个指标。
- 一是无尺度拟合指数,也就是 R²。
- 二是平均连接度。
R²越高,越接近无尺度网络。
但如果 beta 过大,连接度会迅速下降,网络会变得过于稀疏。
知识库中的经验是,R²最好不低于0.8 。例如 beta=7 时,往往能在拟合度和连接度之间取得平衡。beta=8 虽然相关性更高,但平均连接度可能过低,不利于后续模块识别。
2.3 还要看斜率和连接度分布
验证共表达网络图 是否符合无尺度分布时,还要看斜率是否为负。因为无尺度网络中,节点连接数 k 与其出现概率通常呈反比关系。斜率为负,说明网络更符合生物网络的常见结构。
3. 一步法构建网络模块,效率更高
3.1 一步法适合大规模数据
当表达矩阵较大时,推荐使用一步法直接构建模块。知识库中使用的是 blockwiseModules。它能把邻接矩阵、拓扑矩阵、模块识别等步骤整合在一起,适合快速得到共表达网络图 。
这一方法对医学生和科研人员很实用。因为它减少了手动中间步骤,也降低了出错概率。尤其在处理几千个基因时,效率优势更明显。
3.2 关键参数要设置合理
一步法里常用的核心参数包括:
- 表达矩阵。
- 软阈值 beta。
- 网络类型,常用
unsigned。 - 模块最小基因数,常设为30。
- 模块合并高度,常设为0.25。
如果基因数较少,可以把最小模块基因数降到20。
这些参数直接影响模块数量和模块边界,不能随意照搬。
3.3 一步法的结果就是模块颜色
一步法跑完后,会得到不同颜色的模块。颜色代表不同的基因共表达群。也就是说,共表达网络图的核心不是“画得复杂”,而是“模块分得合理”。
模块越稳定,后续做功能富集、临床相关性分析的价值越高。
4. 分步法更适合理解网络构建逻辑
4.1 先算邻接矩阵,再算拓扑矩阵
如果你想真正理解共表达网络图 是怎么来的,分步法更适合。知识库中的流程是先根据表达矩阵和软阈值计算邻接矩阵,再进一步得到拓扑矩阵。
随后计算相异度,一般用 1 减去拓扑矩阵。这个过程的本质是,把基因间相关性转换为网络中的“邻近程度”。邻接矩阵和拓扑矩阵,是共表达网络图的底层基础。
4.2 动态剪切树识别初始模块
有了相异度矩阵后,就可以进行层次聚类,并用动态剪切树识别模块。知识库中指出,每个模块至少要包含30个基因。这样做可以避免出现太多碎片化的小模块。
初步模块识别后,还要把颜色标签和聚类结果对应起来。这样可以直观看到每个分支属于哪个模块。模块边界清楚,后续分析才有意义。
4.3 合并相似模块,降低复杂度
初始模块常常过多,需要进一步合并。知识库中采用的是模块特征向量聚类,并根据相异程度小于0.25的标准合并模块。换句话说,相关性高于0.75的模块,通常可以考虑合并。
合并后,模块数会减少,结构也更稳定。比如示例中最终得到12个模块。这个结果更利于后续做模块-表型相关分析。
5. 可视化决定共表达网络图是否真正可读
5.1 先看树状图和模块颜色
共表达网络图 最终不只是一个计算结果,还要能被人看懂。常见可视化方式包括动态剪切树和模块颜色图。plotDendroAndColors 可以把基因聚类结果和模块颜色同时展示出来。
这种图最适合论文和汇报。读者能快速看到哪些基因聚成一类,哪些模块边界清晰。图像越直观,网络越容易被验证。
5.2 再看模块相关性热图
模块之间并不是完全独立的。知识库中提到,可以绘制模块相关性热图,观察不同模块之间的相关强弱。热图中颜色越红,说明相关性越高;越接近冷色,说明相关性越弱。
这一步对筛选关键模块很重要。你可以先锁定与临床表型相关度更高的模块,再进一步做基因筛选、PPI分析或实验验证。
5.3 网络拓扑图要控制节点数量
当基因很多时,直接画完整网络会非常吃计算资源。知识库建议随机挑选400到500个基因做拓扑展示,把5000×5000矩阵降到约400×400。这样既能保留结构信息,也能保证图形清晰。
拓扑图里,如果某个模块内部聚类明显,说明该模块的内部一致性较强。这类模块通常更值得优先分析。
5.4 用解螺旋产品提高建图效率
如果你希望更高效地完成共表达网络图 分析,可以借助解螺旋品牌的生信课程与实操资源。它能帮助你把数据清理、软阈值筛选、模块构建和可视化步骤串起来,少走弯路。对于需要快速复现WGCNA流程的医学生、医生和科研人员,这类标准化工具能明显提升效率。
总结Conclusion
构建共表达网络图 ,核心就是5步。先清理数据,再选软阈值,然后构建模块,接着合并和验证,最后完成可视化。每一步都影响网络是否稳定,模块是否可信。对科研工作者来说,真正重要的不是“跑出图”,而是跑出能解释生物学问题的图。

如果你想更系统地掌握WGCNA和共表达网络图 的实战方法,可以进一步了解解螺旋的相关课程与工具,帮助你把分析流程标准化、结果可复现。
- 引言Introduction
- 1. 数据清理是共表达网络图的起点
- 2. 软阈值选择决定网络是否符合无尺度特征
- 3. 一步法构建网络模块,效率更高
- 4. 分步法更适合理解网络构建逻辑
- 5. 可视化决定共表达网络图是否真正可读
- 总结Conclusion






