加权基因共表达网络在转录组中怎么用？

作者：Dr.Chuang

2026-05-15｜原创

引言Introduction

加权基因共表达网络 常用于转录组数据中，帮助研究者从海量基因里找出协同变化的模块，再进一步关联表型、筛选核心基因。对医学生、医生和科研人员来说，真正的痛点不是“有没有数据”，而是“怎么把表达矩阵变成可解释的生物学结论”。转录组表达矩阵、基因模块树状图和性状热图组合示意，突出从数据到模块再到表型关联的流程。

1. 加权基因共表达网络的核心用途

1.1 从单基因思维转向模块思维

加权基因共表达网络的目标，不是盯住单个差异基因，而是识别表达模式相近的基因模块 。这些模块往往反映同一生物过程或同一调控轴。相比只看DEG列表，这种方式更适合复杂疾病、发育过程和感染应答。

在课程知识库中，WGCNA的核心目的包括三点。

寻找协同表达的基因模块。
探索基因网络与表型的关联。
进一步锁定核心基因。

1.2 适合什么样的转录组场景

加权基因共表达网络 更适合样本量相对充足、表型信息明确的数据。知识库明确提到，通常建议有5组或15个样品以上 ，样本越多，模块稳定性通常越好。

常见应用场景包括。

不同器官或组织的发育调控。
同一组织不同发育阶段比较。
病原菌侵染后的时间序列表达响应。
与临床分组相关的分子模块筛选。

1.3 为什么它适合转录组

转录组数据本质上是高维数据。单纯做差异分析，容易得到大量基因，但难以直接解释通路层面的协同变化。加权基因共表达网络 通过基因间相关性构网，把“离散基因”组织成“功能模块”，更利于后续做机制阐释和标志物筛选。

2. 转录组里怎么搭建加权基因共表达网络

2.1 输入数据要先准备好

加权基因共表达网络 既适用于测序数据，也适用于芯片数据。
转录组分析时，建议使用RPKM、TPM或其他归一化后的表达量 。如果是芯片数据，则使用常规归一化矩阵。

知识库中的示例数据包含407例样本、8840个基因 。这说明WGCNA不是针对少量样本的简单聚类，而是面向较大规模表达矩阵的网络分析。

2.2 先做数据检查，再做网络构建

第一步是数据转置和质量检查。课程中使用goodSamplesGenes函数检查缺失条目。
如果返回TRUE，说明没有低质量样品或基因。这个步骤很关键，因为异常值会直接影响后续模块识别。

随后要做样品聚类。

使用dist函数计算样品间欧式距离。
通过层次聚类识别异常样品。
再根据剪切高度去除离群点。

知识库示例中，剪切高度设为155 ，最终保留406例样品 。这类处理能明显提高网络稳定性。

2.3 临床信息要和表达矩阵对齐

如果要做模块与表型关联，就必须准备临床信息表。
常用做法是先整理样品分组，再用intersect筛出表达矩阵和临床表中的共同样品名，保证两者一一对应。

知识库中还提到，可使用number2colors把临床信息转成颜色，再用plotDendroAndColors绘制样品聚类树和性状图。这样能直观看到样本分组是否与表达模式一致。

3. 网络构建的关键参数怎么选

3.1 软阈值决定网络是否接近无尺度特征

在加权基因共表达网络 里，最关键的参数之一是软阈值，也叫power。课程给出的候选范围是1到20 ，并使用pickSoftThreshold评估不同power值。

选择原则不是盲目追求最大值，而是让网络尽量符合无尺度网络 特征。知识库示例中，通常会选择3或4 作为较合适的结果。这个步骤决定后续邻接矩阵的构建质量。

3.2 从相关性到拓扑矩阵

WGCNA的基本逻辑是。

先计算基因表达相似性。
再通过软阈值加权，得到邻接矩阵。
进一步计算拓扑重叠矩阵，TOM。
最后用TOM进行基因聚类。

TOM的意义在于，它不仅考虑两个基因是否相关，还考虑它们与其他基因的共同连接情况。因此，加权基因共表达网络 比单纯相关系数网络更稳健。

3.3 模块识别靠动态剪切

在得到基因聚类树后，使用cutreeDynamic进行动态剪切，识别不同模块。知识库示例中，最终得到13个不同的基因模块 ，再用labels2colors为模块赋色。

这一步的输出，通常是后续分析的核心图之一。它告诉你，哪些基因属于同一共表达模块。

4. 如何把模块和临床性状联系起来

4.1 模块不是终点，关联表型才是重点

加权基因共表达网络 真正有价值的地方，在于模块与临床性状的相关性分析。
做法通常是计算每个模块的特征基因与表型之间的相关系数和P值，再用热图展示结果。

课程知识库明确指出，模块与临床性状相关性分析要同时看相关系数和P值 。
这能帮助你判断哪些模块更值得进入后续机制研究。

4.2 先筛模块，再筛核心基因

当热图显示某个模块与目标表型高度相关时，就可以进一步分析模块内基因与性状的关系。知识库中提到，还可以计算模块与基因之间的相关性矩阵，并批量输出感兴趣模块的散点图。

这一步的逻辑是。

先找与表型相关的模块。
再找模块内与表型最相关的基因。
最后聚焦可能的hub基因。

4.3 输出模块基因便于后续验证

课程最后一步是输出每个颜色模块的基因，选择最相关模块开展后续分析。
实际研究中，这些基因常被进一步用于GO、KEGG富集分析，或结合qPCR、蛋白实验、数据库验证进行功能确认。

对于科研人员来说，这一阶段的目标不是“画完图”，而是形成可验证的候选基因列表 。

5. 转录组中使用加权基因共表达网络的实操建议

5.1 不要直接把所有基因都扔进去

虽然官网推荐可用全部表达基因，但知识库也提醒，实际操作中通常更推荐选取变异程度较大的基因 。例如可基于方差、中位数绝对偏差等指标排序，取前5000个基因 左右。

原因很直接。

基因太少，网络不稳定。
基因太多，计算压力大。
低变异基因通常对模块贡献有限。

5.2 先保证样本质量，再谈生物学解释

加权基因共表达网络 对离群样本很敏感。
如果样本聚类图里存在明显异常点，应该优先处理，而不是直接进入模块分析。否则，模块和性状的相关性可能会被噪音拉低。

5.3 结果解读要避免过度推断

WGCNA给出的只是共表达关系 ，不是因果关系。
模块相关，不代表直接调控。
hub基因重要，也不等于就是致病基因。
因此，最好结合差异表达、富集分析、公开数据库和实验验证一起判断。

6. 研究者最关心的结果应该怎么看

6.1 先看模块颜色，再看性状热图

在标准流程中，研究者一般先看模块树状图，再看模块-性状热图。
如果某个模块与疾病分组、分期、时间点或组织类型显著相关，这个模块就是优先研究对象。

6.2 再看模块内基因的生物学一致性

高质量的加权基因共表达网络 模块，通常会呈现相对一致的生物学功能。
比如免疫相关模块、代谢相关模块、细胞周期相关模块，内部基因往往具有相近的功能注释。

6.3 最后锁定候选hub基因

从相关模块中筛出hub基因后，常见后续路径包括。

与差异基因取交集。
做功能富集。
结合临床预后分析。
设计实验验证表达和功能。

总结Conclusion

加权基因共表达网络 是转录组分析中非常实用的模块化方法。它能把高维表达数据转成可解释的基因模块，再进一步连接临床性状和核心基因。对医学生和科研人员来说，关键不是只会跑流程，而是理解数据清理、软阈值选择、模块识别和性状关联这四个核心环节。

如果你希望少走弯路，可以直接参考解螺旋 的标准化分析思路和课程资源，把WGCNA从“会做”提升到“做对”。加权基因共表达网络 分析的价值，最终体现在可重复、可解释、可验证。
模块-性状热图、候选hub基因列表和实验验证流程示意图，突出从网络分析到科研转化的闭环。