引言Introduction

ceRNA 网络构建常见的问题,不是“怎么画图”,而是“该用哪类数据”。很多研究卡在样本不足、分子类型不全、交集筛选过严或过松。本文按真实分析流程,拆解 ceRNA 网络构建中4类数据的选择逻辑,帮助医学生、医生和科研人员少走弯路。
一张科研流程图,展示circRNA、miRNA、mRNA、临床样本四类数据流向ceRNA网络的构建路径。

1. 先明确,ceRNA 网络构建到底依赖什么数据

1.1 不是“有数据就能做”

ceRNA 不是一种新RNA,而是一种调控机制。核心是 RNA 之间通过 miRNA 发生竞争性结合。因此,ceRNA 网络构建至少要有可用于筛选和交叉验证的分子数据。

从实践看,常见思路有两种。
一种是同时获得 mRNA、lncRNA、miRNA。
另一种是从 mRNA 出发,结合数据库预测上游 miRNA,再继续扩展到 lncRNA 或 circRNA。

1.2 数据选择决定网络可信度

ceRNA 网络构建的可信度,主要取决于三个层面。
第一,差异分析是否可靠。
第二,数据库预测是否有实验支持。
第三,筛选阈值是否合理。

如果只追求节点多,网络往往会很“热闹”,但解释价值会下降。
如果筛得过严,又可能剩不下足够的边。

2. 4类数据分别怎么选

2.1 第一类:表达数据

表达数据是 ceRNA 网络构建的起点。常见来源包括转录组测序、芯片数据和公共数据库下载数据。

在文章流程中,通常先做差异分析。知识库中给出的常用标准是:

  • P < 0.05
  • |logFC| ≥ 1,或更严格地使用 |logFC| > 1.5

表达数据的作用不是直接建网,而是先缩小候选范围。
这一步决定后续交集分析是否干净。

如果是临床样本,建议优先保证样本配对和分组清晰。
如果是公共数据,需检查平台一致性、批次效应和注释版本。

2.2 第二类:miRNA 数据

miRNA 是 ceRNA 网络构建的桥梁。没有 miRNA,ceRNA 只剩“表达相关”,难以体现机制特征。

知识库给出两种做法。

  • 传统做法:同时检测 miRNA,并与差异分子取交集。
  • 纯生信做法:从 mRNA 出发,用数据库反推 miRNA,再继续筛选。

如果研究条件允许,最好保留 miRNA 表达数据。
因为这可以用表达方向来过滤预测结果,提升网络可信度。

如果没有 miRNA 数据,也可以用 multiMiR 等工具进行预测。
但要注意,这类结果是“预测”,不是“实测”。
因此后续最好使用已被实验验证的数据库条目,如 Luciferase reporter assay 支持的互作。

2.3 第三类:mRNA 数据

mRNA 是 ceRNA 网络构建中最常见、也最容易获得的数据。
它不仅用于建网,也承担功能解释任务。

知识库中提到,从 mRNA 出发时,可以先得到差异表达基因,再利用 multiMiR 进行 miRNA 预测。筛选后还可继续导入 lncRNA 相关数据库,整理出完整互作关系。

mRNA 数据的重要性在于,它决定了网络最后能否落到生物学功能。
如果只有上游 RNA,没有下游 mRNA,网络很难解释通路和表型。

建议在实际项目中,mRNA 数据至少满足以下要求:

  • 差异分析结果明确
  • 基因ID注释统一
  • 可追溯到功能富集分析结果

2.4 第四类:lncRNA 或 circRNA 数据

lncRNA 或 circRNA 是 ceRNA 网络构建中最能体现创新性的部分。
两者都可作为竞争性内源 RNA 参与调控。

知识库中提到,circRNA 不是必需项,但对课题创新性很重要。
如果做肿瘤相关研究,至少建议保留 circRNA 或 lncRNA 其中一种非编码 RNA。

实际选择时可参考下面的思路。

  • 想突出新机制,优先考虑 circRNA。
  • 想和临床表型结合,lncRNA 也常有较成熟的分析路径。
  • 若经费有限,可用数据库预测替代部分实验检测,但准确性会下降。

3. ceRNA 网络构建时,4类数据如何组合更合理

3.1 最完整的组合

最理想的 ceRNA 网络构建组合是:
circRNA、miRNA、mRNA、临床信息。

这个组合适合样本量较足的研究。
它的优势很明显。

  • 可以做差异分析
  • 可以做交集筛选
  • 可以做临床相关分析
  • 可以进一步做预后模型

如果再配合 WGCNA,还能先筛出感兴趣模块,再构建更聚焦的 ceRNA 网络。

3.2 只有三类分子时怎么办

很多课题并不能同时测到全部分子。
这时 ceRNA 网络构建仍然可行,但策略要调整。

例如,若缺少 miRNA 实测数据,可以:

  1. 先做 mRNA 或 circRNA 差异分析。
  2. 再用数据库预测候选 miRNA。
  3. 用已验证互作进一步筛选。
  4. 最后整理网络并做验证。

这种方案能做,但证据链会比完整测序方案弱。
因此,文章里应更强调“预测”和“验证”边界,避免过度推断。

3.3 最简方案的适用边界

知识库中提到,样本量不足时,甚至可用三对三的最简方案。
它的优点是成本低,适合方法学探索。
但缺点也很明显。

  • 样本少
  • 稳定性差
  • 临床分析意义有限

所以,若研究目标是发表机制文章,最好不要只停留在最简方案。
ceRNA 网络构建不是“越少越好”,而是“证据链越完整越好”。

4. 数据筛选的关键规则:别让网络失真

4.1 交集筛选要有方向感

ceRNA 网络构建最常用的方法是取交集。
先把差异表达分子与数据库预测结果交叉,再逐步缩小候选集。

例如,知识库中的流程包括:

  • 差异基因与数据库预测结果取交集
  • 再按实验验证等级筛选
  • 最终保留可靠互作

交集不是越多越好,关键是保留生物学合理的连接。
如果不做交集过滤,网络会混入大量噪音。

4.2 相关性阈值要与研究目的匹配

在转录调控网络中,知识库给出的常用阈值是:

  • |cor| > 0.4 且 P < 0.001
    或更严格的
  • |cor| > 0.5 且 P < 0.001

虽然这是转录调控网络的参数,但同样提示我们:相关性分析必须服务于机制假设,而不是单纯追求数量。

对于 ceRNA 网络构建而言,也应避免只看相关性不看机制。
miRNA 中介关系、数据库证据和表达方向,三者要同时考虑。

4.3 数据库优先级要清楚

在数据库选择上,建议优先顺序如下。

  • 实验验证数据库
  • 多数据库交叉支持
  • 单一预测数据库

知识库中提到 multiMiR 结合了 14 个数据库,可用于 miRNA 预测。
也提到 mirtarbase 中可进一步筛选出经过 Luciferase reporter assay 验证的条目。

对于高质量 ceRNA 网络构建,最好优先使用有实验支持的互作。
这样更符合 E-E-A-T,也更容易通过审稿。

5. 一套更稳妥的实操思路

5.1 推荐流程

如果你正在做 ceRNA 网络构建,可以按下面流程走。

  1. 获取差异表达分子。
  2. 统一基因注释。
  3. 预测上游 miRNA。
  4. 与表达结果取交集。
  5. 再预测 lncRNA 或 circRNA。
  6. 筛选高可信互作。
  7. 导入 Cytoscape 可视化。
  8. 做临床相关分析或预后分析。

这套流程的核心,不是“网络画得大”,而是“每一步都有证据”。

5.2 最后要补验证

ceRNA 网络构建完成后,最好继续做验证。
包括表达验证、临床相关分析、单因素/多因素分析,或生存曲线分析。

如果条件允许,还可以结合公共数据集进行二次验证。
这一步对提升可信度非常重要。
因为它能回答一个问题:你的网络是否可外推。

总结Conclusion

ceRNA 网络构建的关键,不在于工具多,而在于数据选得对。表达数据负责缩小范围,miRNA 负责连接机制,mRNA 负责落地功能,lncRNA 或 circRNA 负责体现创新性。四类数据配合得越合理,网络越稳,文章越容易成立。

如果你希望用更少试错完成 ceRNA 网络构建,建议直接使用解螺旋的研究思路框架和分析资源,把数据筛选、数据库交叉验证和 Cytoscape 可视化整合到同一条路径中,能明显提高效率和结果可信度。
一张最终成型的ceRNA网络示意图,旁边配有数据筛选、数据库验证和Cytoscape可视化三个模块。