ICGC数据挖掘适合做什么研究？

ICGC更适合用于候选分子筛选、突变分析、预后分析和验证性研究，常与TCGA配合使用。

ICGC数据下载后为什么还需要清洗？

因为不同数据类型分析逻辑不同，需先按样本ID整理、分组并匹配临床信息，才能保证后续差异和生存分析正确。

ICGC在线功能可以直接替代正式分析吗？

不可以。ICGC在线功能更适合前期筛选和初步判断，正式发表通常还需要用R等专业工具做进一步分析。

如何做好ICGC数据挖掘？4个核心要点

作者：Dr.Sheng

2026-05-20｜原创

引言Introduction

ICGC数据挖掘看似简单，真正上手时却常卡在数据来源、在线功能、下载清洗和结果验证四个环节。对医学生、医生和科研人员来说，选错切入点，后续分析会浪费大量时间 。本文围绕ICGC数据挖掘的4个核心要点，帮你快速建立清晰的方法框架。
科研人员在电脑前查看肿瘤数据库界面，旁边显示数据筛选、突变分析和生存曲线示意图。

1. 先明确ICGC数据挖掘的目标

1.1 先定研究问题，再选数据库功能

做ICGC数据挖掘前，第一步不是点开页面，而是先回答一个问题：你想筛分子，还是做验证，还是做生信文章。这个顺序很重要。因为ICGC更适合从公共肿瘤数据中提取线索，再用于后续分析或验证。

知识库中提到，ICGC常用于从肿瘤数据中筛选目标分子，尤其适合与TCGA配合使用。TCGA更全更丰富，ICGC常作为辅助验证集。 如果研究目标是找候选基因、比较突变组与野生组差异，ICGC数据挖掘就很有价值。

1.2 明确ICGC的数据库边界

ICGC是全球多国家和地区共同上传数据形成的泛癌资源，但其数据量和数据类型少于TCGA。更关键的是，ICGC数据库已不再接收新的数据更新，最后更新日期为2019年11月。 这意味着在做ICGC数据挖掘时，要接受数据的历史边界，不能把它当作持续更新的平台。

对科研人员来说，这一点直接影响课题设计。适合做回顾性分析、验证性分析和公共数据整合，但不适合依赖最新提交数据的研究设计。

2. 用好ICGC在线功能，提高筛选效率

2.1 快速检索适合前期探索

ICGC首页提供快速检索框，可以检索基因、捐赠者ID、突变位点、表型、药物等信息。对于刚进入ICGC数据挖掘的人，这一步最省时。比如输入TP53，就可以快速查看相关肿瘤项目和数据提示。

这类检索适合“先看一眼全局，再决定是否下载数据”。 如果只是想确认某个基因是否在特定肿瘤中有信息，在线检索就足够了，不必一开始就下载大文件。

2.2 在线分析功能适合做初步判断

ICGC的在线分析功能主要包括4类：富集分析、Venn图、分组比较、oncogrid展示。知识库中特别强调，这些功能适合快速判断，但功能强度有限。

其中，分组比较是最实用的功能之一。示例中提到，可以把KRAS突变组和非突变组分开做生存分析，看到OS和DFS存在明显差异。如果你的研究问题是“某个突变是否影响预后”，ICGC在线功能可以先帮你建立方向感。

不过要注意，ICGC在线富集结果和可视化并不总是最理想。如果是正式发文，GO和KEGG等分析通常还是建议用专业工具完成，ICGC更多承担初筛和辅助定位的角色。

3. 下载与清洗是ICGC数据挖掘的关键环节

3.1 下载数据前先看数据类型

ICGC数据挖掘真正的难点，通常不在检索，而在下载和清洗。知识库明确提到，数据库主页可查看 data release 28，对应86个肿瘤项目、22个原发部位以及大量样本和突变数据。实际操作时，应该先判断你需要的是转录组、突变数据，还是临床信息。

不同数据类型，后续分析逻辑完全不同。 如果是转录组，重点在表达矩阵和样本匹配。如果是突变数据，则要先处理MAF相关格式，再进行可视化和分组分析。

3.2 R语言是清洗数据的核心工具

在ICGC数据挖掘中，R语言几乎是绕不开的。知识库中的实操重点就是用R读取转录组和突变数据，再完成清洗、整理和分析。尤其是突变数据，文件体积大，直接打开非常慢，使用R处理更高效。

一个典型思路是：

下载原始数据。
用R读取文件。
按样本ID清洗。
按研究目的分组。
导出可用于下游分析的数据。

如果没有清洗，后面的差异分析、生存分析和多组学整合都会出错。 这也是为什么ICGC数据挖掘不能只停留在网页操作层面。

3.3 突变数据清洗要特别注意分组

知识库给出的示例说明，ICGC突变数据可以用ICGCsimpletomaf等思路进行整理，然后绘制瀑布图，提取TP53突变和非突变样本。随后，这些样本可以继续用于转录组差异分析、拷贝数分析或蛋白组分析。

这一步的本质是建立分组标签。先确定“突变组”和“野生组”，再做下游比较，才符合肿瘤生信分析的逻辑。 很多ICGC数据挖掘失败，不是因为数据不够，而是因为分组没做好。

4. 把ICGC数据挖掘结果用于验证和扩展

4.1 ICGC更适合作为验证集

从知识库内容看，TCGA是主流，ICGC常作为辅助验证。这个定位非常重要。也就是说，ICGC数据挖掘不是孤立完成的，最好与前期发现结合起来使用。

例如，先在TCGA中筛出候选基因，再用ICGC验证其突变频率、表达差异或生存相关性。这种“两步走”策略更符合论文写作和科研逻辑。 它能提升结果可信度，也更符合E-E-A-T中的专业性和可验证性。

4.2 结果解读要回到临床问题

ICGC数据挖掘的最终价值，不是图做得多漂亮，而是能否回答临床问题。比如：

某基因是否高频突变。
突变是否与不良预后相关。
突变组与野生组是否存在表达差异。
是否存在可进一步做实验验证的候选靶点。

如果结果不能回到疾病机制或临床意义，就只是数据展示。 对医生和科研人员而言，真正重要的是把公共数据变成可解释的生物学问题。

4.3 解螺旋的价值在于把流程做顺

对于很多刚接触ICGC数据挖掘的人，难点并不是“有没有数据”，而是“怎么把数据用起来”。这正是解螺旋课程与工具的价值所在。它把ICGC的在线检索、下载、清洗和后续分析拆成可执行步骤，降低了R语言门槛，也减少了重复试错。

当你需要从ICGC中快速筛选候选分子、提取突变分组、整理可分析数据时，解螺旋的系统教程和实操思路可以显著提升效率。 对于科研人员来说，这意味着更快进入分析阶段，更早形成可发表的结果框架。

总结Conclusion

ICGC数据挖掘的核心，不是把所有功能都用一遍，而是抓住4个关键点：先明确研究目标，再用好在线功能，接着完成数据下载与清洗，最后把结果用于验证和扩展。对医学生、医生和科研人员来说，ICGC最适合做候选分子筛选、突变分析和验证性研究。
一张流程图展示ICGC数据挖掘四步法，包含目标设定、在线检索、数据清洗、验证分析四个模块。