构建共表达网络图前为什么要先做数据清理？

因为高变基因筛选和离群样本去除能减少噪音，避免网络结构偏移，让后续模块更稳定可信。

共表达网络图的软阈值beta值怎么选？

通常根据无尺度拟合指数R²和平均连接度综合判断，优先选择R²较高且网络不过于稀疏的beta值。

一步法和分步法构建共表达网络图有什么区别？

一步法更适合快速处理大规模数据，分步法更适合理解邻接矩阵、拓扑矩阵和模块合并的构建逻辑。

共表达网络图怎么构建？5步详解

作者：Dr.Lin

2026-05-15｜原创

引言Introduction

共表达网络图是WGCNA分析的核心结果之一。但很多人卡在数据清理、离群样本处理和软阈值选择上，导致网络不稳定，模块也不可信。本文用5步拆解共表达网络图 的构建流程，帮助你快速掌握实战逻辑。
实验室科研人员在电脑前查看基因表达热图和网络模块聚类图，画面突出“共表达网络图构建流程”

1. 数据清理是共表达网络图的起点

1.1 先做高变基因筛选

构建共表达网络图 前，第一步不是直接跑网络，而是先清理数据。常见做法是按标准差筛选高变基因，也可以用绝对中位差。知识库中推荐后两种，尤其是绝对中位差，因为它对极端值更稳健。

实战中，常见做法是先取前5000个高变基因。样本量较大时，这种筛选方式能明显减少后续计算压力，也能提高网络构建效率。高变基因不是越多越好，关键是保留能反映样本差异的信息。

1.2 去除离群样本，避免网络偏移

离群样本会显著影响共表达网络图 的拓扑结构。常用方法是先对样本做层次聚类，再观察聚类树中是否有明显分离的样本分支。

知识库示例中，通过 hclust 聚类后，可在切割高度约120处识别并去除离群样本，再用 cutreeStatic 完成样本切割。保留主群体样本，删除明显偏离的样本，是保证网络稳定的前提。

1.3 清理后的数据再进入建网

完成基因筛选和离群样本处理后，数据才适合进入WGCNA。此时输入矩阵更干净，后续模块划分更清晰。对于医学生和科研人员来说，这一步往往决定了后面网络图是否“像论文里的图”。

2. 软阈值选择决定网络是否符合无尺度特征

2.1 为什么必须选软阈值

共表达网络图 不是简单相关性矩阵，而是要先把相关性转成邻接关系。这个转换需要软阈值，也就是 beta 值。它决定了网络连接强度的加权程度。

知识库中提到，软阈值筛选要以无尺度网络为标准。常用函数是 pickSoftThreshold。通常会先给出一组候选值，例如1到10，再加12到20，形成15个测试值。

2.2 如何判断合适的beta值

选择软阈值时，要同时看两个指标。

一是无尺度拟合指数，也就是 R²。
二是平均连接度。

R²越高，越接近无尺度网络。
但如果 beta 过大，连接度会迅速下降，网络会变得过于稀疏。

知识库中的经验是，R²最好不低于0.8 。例如 beta=7 时，往往能在拟合度和连接度之间取得平衡。beta=8 虽然相关性更高，但平均连接度可能过低，不利于后续模块识别。

2.3 还要看斜率和连接度分布

验证共表达网络图 是否符合无尺度分布时，还要看斜率是否为负。因为无尺度网络中，节点连接数 k 与其出现概率通常呈反比关系。斜率为负，说明网络更符合生物网络的常见结构。

3. 一步法构建网络模块，效率更高

3.1 一步法适合大规模数据

当表达矩阵较大时，推荐使用一步法直接构建模块。知识库中使用的是 blockwiseModules。它能把邻接矩阵、拓扑矩阵、模块识别等步骤整合在一起，适合快速得到共表达网络图 。

这一方法对医学生和科研人员很实用。因为它减少了手动中间步骤，也降低了出错概率。尤其在处理几千个基因时，效率优势更明显。

3.2 关键参数要设置合理

一步法里常用的核心参数包括：

表达矩阵。
软阈值 beta。
网络类型，常用 unsigned。
模块最小基因数，常设为30。
模块合并高度，常设为0.25。

如果基因数较少，可以把最小模块基因数降到20。
这些参数直接影响模块数量和模块边界，不能随意照搬。

3.3 一步法的结果就是模块颜色

一步法跑完后，会得到不同颜色的模块。颜色代表不同的基因共表达群。也就是说，共表达网络图的核心不是“画得复杂”，而是“模块分得合理”。
模块越稳定，后续做功能富集、临床相关性分析的价值越高。

4. 分步法更适合理解网络构建逻辑

4.1 先算邻接矩阵，再算拓扑矩阵

如果你想真正理解共表达网络图 是怎么来的，分步法更适合。知识库中的流程是先根据表达矩阵和软阈值计算邻接矩阵，再进一步得到拓扑矩阵。

随后计算相异度，一般用 1 减去拓扑矩阵。这个过程的本质是，把基因间相关性转换为网络中的“邻近程度”。邻接矩阵和拓扑矩阵，是共表达网络图的底层基础。

4.2 动态剪切树识别初始模块

有了相异度矩阵后，就可以进行层次聚类，并用动态剪切树识别模块。知识库中指出，每个模块至少要包含30个基因。这样做可以避免出现太多碎片化的小模块。

初步模块识别后，还要把颜色标签和聚类结果对应起来。这样可以直观看到每个分支属于哪个模块。模块边界清楚，后续分析才有意义。

4.3 合并相似模块，降低复杂度

初始模块常常过多，需要进一步合并。知识库中采用的是模块特征向量聚类，并根据相异程度小于0.25的标准合并模块。换句话说，相关性高于0.75的模块，通常可以考虑合并。

合并后，模块数会减少，结构也更稳定。比如示例中最终得到12个模块。这个结果更利于后续做模块-表型相关分析。

5. 可视化决定共表达网络图是否真正可读

5.1 先看树状图和模块颜色

共表达网络图 最终不只是一个计算结果，还要能被人看懂。常见可视化方式包括动态剪切树和模块颜色图。plotDendroAndColors 可以把基因聚类结果和模块颜色同时展示出来。

这种图最适合论文和汇报。读者能快速看到哪些基因聚成一类，哪些模块边界清晰。图像越直观，网络越容易被验证。

5.2 再看模块相关性热图

模块之间并不是完全独立的。知识库中提到，可以绘制模块相关性热图，观察不同模块之间的相关强弱。热图中颜色越红，说明相关性越高；越接近冷色，说明相关性越弱。

这一步对筛选关键模块很重要。你可以先锁定与临床表型相关度更高的模块，再进一步做基因筛选、PPI分析或实验验证。

5.3 网络拓扑图要控制节点数量

当基因很多时，直接画完整网络会非常吃计算资源。知识库建议随机挑选400到500个基因做拓扑展示，把5000×5000矩阵降到约400×400。这样既能保留结构信息，也能保证图形清晰。

拓扑图里，如果某个模块内部聚类明显，说明该模块的内部一致性较强。这类模块通常更值得优先分析。

5.4 用解螺旋产品提高建图效率

如果你希望更高效地完成共表达网络图 分析，可以借助解螺旋品牌的生信课程与实操资源。它能帮助你把数据清理、软阈值筛选、模块构建和可视化步骤串起来，少走弯路。对于需要快速复现WGCNA流程的医学生、医生和科研人员，这类标准化工具能明显提升效率。

总结Conclusion

构建共表达网络图 ，核心就是5步。先清理数据，再选软阈值，然后构建模块，接着合并和验证，最后完成可视化。每一步都影响网络是否稳定，模块是否可信。对科研工作者来说，真正重要的不是“跑出图”，而是跑出能解释生物学问题的图。
WGCNA共表达网络模块热图与树状图组合展示，旁边放置“数据清理-软阈值-模块识别-可视化”流程示意图
如果你想更系统地掌握WGCNA和共表达网络图 的实战方法，可以进一步了解解螺旋的相关课程与工具，帮助你把分析流程标准化、结果可复现。