引言Introduction
ceRNA 网络构建常见的问题,不是“怎么画图”,而是“该用哪类数据”。很多研究卡在样本不足、分子类型不全、交集筛选过严或过松。本文按真实分析流程,拆解 ceRNA 网络构建中4类数据的选择逻辑,帮助医学生、医生和科研人员少走弯路。

1. 先明确,ceRNA 网络构建到底依赖什么数据
1.1 不是“有数据就能做”
ceRNA 不是一种新RNA,而是一种调控机制。核心是 RNA 之间通过 miRNA 发生竞争性结合。因此,ceRNA 网络构建至少要有可用于筛选和交叉验证的分子数据。
从实践看,常见思路有两种。
一种是同时获得 mRNA、lncRNA、miRNA。
另一种是从 mRNA 出发,结合数据库预测上游 miRNA,再继续扩展到 lncRNA 或 circRNA。
1.2 数据选择决定网络可信度
ceRNA 网络构建的可信度,主要取决于三个层面。
第一,差异分析是否可靠。
第二,数据库预测是否有实验支持。
第三,筛选阈值是否合理。
如果只追求节点多,网络往往会很“热闹”,但解释价值会下降。
如果筛得过严,又可能剩不下足够的边。
2. 4类数据分别怎么选
2.1 第一类:表达数据
表达数据是 ceRNA 网络构建的起点。常见来源包括转录组测序、芯片数据和公共数据库下载数据。
在文章流程中,通常先做差异分析。知识库中给出的常用标准是:
- P < 0.05
- |logFC| ≥ 1,或更严格地使用 |logFC| > 1.5
表达数据的作用不是直接建网,而是先缩小候选范围。
这一步决定后续交集分析是否干净。
如果是临床样本,建议优先保证样本配对和分组清晰。
如果是公共数据,需检查平台一致性、批次效应和注释版本。
2.2 第二类:miRNA 数据
miRNA 是 ceRNA 网络构建的桥梁。没有 miRNA,ceRNA 只剩“表达相关”,难以体现机制特征。
知识库给出两种做法。
- 传统做法:同时检测 miRNA,并与差异分子取交集。
- 纯生信做法:从 mRNA 出发,用数据库反推 miRNA,再继续筛选。
如果研究条件允许,最好保留 miRNA 表达数据。
因为这可以用表达方向来过滤预测结果,提升网络可信度。
如果没有 miRNA 数据,也可以用 multiMiR 等工具进行预测。
但要注意,这类结果是“预测”,不是“实测”。
因此后续最好使用已被实验验证的数据库条目,如 Luciferase reporter assay 支持的互作。
2.3 第三类:mRNA 数据
mRNA 是 ceRNA 网络构建中最常见、也最容易获得的数据。
它不仅用于建网,也承担功能解释任务。
知识库中提到,从 mRNA 出发时,可以先得到差异表达基因,再利用 multiMiR 进行 miRNA 预测。筛选后还可继续导入 lncRNA 相关数据库,整理出完整互作关系。
mRNA 数据的重要性在于,它决定了网络最后能否落到生物学功能。
如果只有上游 RNA,没有下游 mRNA,网络很难解释通路和表型。
建议在实际项目中,mRNA 数据至少满足以下要求:
- 差异分析结果明确
- 基因ID注释统一
- 可追溯到功能富集分析结果
2.4 第四类:lncRNA 或 circRNA 数据
lncRNA 或 circRNA 是 ceRNA 网络构建中最能体现创新性的部分。
两者都可作为竞争性内源 RNA 参与调控。
知识库中提到,circRNA 不是必需项,但对课题创新性很重要。
如果做肿瘤相关研究,至少建议保留 circRNA 或 lncRNA 其中一种非编码 RNA。
实际选择时可参考下面的思路。
- 想突出新机制,优先考虑 circRNA。
- 想和临床表型结合,lncRNA 也常有较成熟的分析路径。
- 若经费有限,可用数据库预测替代部分实验检测,但准确性会下降。
3. ceRNA 网络构建时,4类数据如何组合更合理
3.1 最完整的组合
最理想的 ceRNA 网络构建组合是:
circRNA、miRNA、mRNA、临床信息。
这个组合适合样本量较足的研究。
它的优势很明显。
- 可以做差异分析
- 可以做交集筛选
- 可以做临床相关分析
- 可以进一步做预后模型
如果再配合 WGCNA,还能先筛出感兴趣模块,再构建更聚焦的 ceRNA 网络。
3.2 只有三类分子时怎么办
很多课题并不能同时测到全部分子。
这时 ceRNA 网络构建仍然可行,但策略要调整。
例如,若缺少 miRNA 实测数据,可以:
- 先做 mRNA 或 circRNA 差异分析。
- 再用数据库预测候选 miRNA。
- 用已验证互作进一步筛选。
- 最后整理网络并做验证。
这种方案能做,但证据链会比完整测序方案弱。
因此,文章里应更强调“预测”和“验证”边界,避免过度推断。
3.3 最简方案的适用边界
知识库中提到,样本量不足时,甚至可用三对三的最简方案。
它的优点是成本低,适合方法学探索。
但缺点也很明显。
- 样本少
- 稳定性差
- 临床分析意义有限
所以,若研究目标是发表机制文章,最好不要只停留在最简方案。
ceRNA 网络构建不是“越少越好”,而是“证据链越完整越好”。
4. 数据筛选的关键规则:别让网络失真
4.1 交集筛选要有方向感
ceRNA 网络构建最常用的方法是取交集。
先把差异表达分子与数据库预测结果交叉,再逐步缩小候选集。
例如,知识库中的流程包括:
- 差异基因与数据库预测结果取交集
- 再按实验验证等级筛选
- 最终保留可靠互作
交集不是越多越好,关键是保留生物学合理的连接。
如果不做交集过滤,网络会混入大量噪音。
4.2 相关性阈值要与研究目的匹配
在转录调控网络中,知识库给出的常用阈值是:
- |cor| > 0.4 且 P < 0.001
或更严格的 - |cor| > 0.5 且 P < 0.001
虽然这是转录调控网络的参数,但同样提示我们:相关性分析必须服务于机制假设,而不是单纯追求数量。
对于 ceRNA 网络构建而言,也应避免只看相关性不看机制。
miRNA 中介关系、数据库证据和表达方向,三者要同时考虑。
4.3 数据库优先级要清楚
在数据库选择上,建议优先顺序如下。
- 实验验证数据库
- 多数据库交叉支持
- 单一预测数据库
知识库中提到 multiMiR 结合了 14 个数据库,可用于 miRNA 预测。
也提到 mirtarbase 中可进一步筛选出经过 Luciferase reporter assay 验证的条目。
对于高质量 ceRNA 网络构建,最好优先使用有实验支持的互作。
这样更符合 E-E-A-T,也更容易通过审稿。
5. 一套更稳妥的实操思路
5.1 推荐流程
如果你正在做 ceRNA 网络构建,可以按下面流程走。
- 获取差异表达分子。
- 统一基因注释。
- 预测上游 miRNA。
- 与表达结果取交集。
- 再预测 lncRNA 或 circRNA。
- 筛选高可信互作。
- 导入 Cytoscape 可视化。
- 做临床相关分析或预后分析。
这套流程的核心,不是“网络画得大”,而是“每一步都有证据”。
5.2 最后要补验证
ceRNA 网络构建完成后,最好继续做验证。
包括表达验证、临床相关分析、单因素/多因素分析,或生存曲线分析。
如果条件允许,还可以结合公共数据集进行二次验证。
这一步对提升可信度非常重要。
因为它能回答一个问题:你的网络是否可外推。
总结Conclusion
ceRNA 网络构建的关键,不在于工具多,而在于数据选得对。表达数据负责缩小范围,miRNA 负责连接机制,mRNA 负责落地功能,lncRNA 或 circRNA 负责体现创新性。四类数据配合得越合理,网络越稳,文章越容易成立。
如果你希望用更少试错完成 ceRNA 网络构建,建议直接使用解螺旋的研究思路框架和分析资源,把数据筛选、数据库交叉验证和 Cytoscape 可视化整合到同一条路径中,能明显提高效率和结果可信度。

- 引言Introduction
- 1. 先明确,ceRNA 网络构建到底依赖什么数据
- 2. 4类数据分别怎么选
- 3. ceRNA 网络构建时,4类数据如何组合更合理
- 4. 数据筛选的关键规则:别让网络失真
- 5. 一套更稳妥的实操思路
- 总结Conclusion






