ICGC突变数据为什么要先用R读取，而不是直接打开文件？

因为ICGC突变文件通常很大，直接打开会很慢甚至卡顿；用R和`maftools`更稳定，便于后续分析。

ICGC突变数据读入后，最常用的可视化是什么？

最常用的是突变瀑布图，它可以展示整体突变谱、高频突变基因和主要突变类型。

ICGC突变数据如何与表达数据整合用于后续分析？

先统一样本ID，再用`merge()`合并表达矩阵和临床信息，最终整理成“行是基因、列是样本”的标准矩阵。

ICGC突变数据怎么做？专业指南5问

作者：Dr.Xin

2026-05-19｜原创

引言Introduction

ICGC突变数据使用，是很多医学生、医生和科研人员做肿瘤研究时最容易卡住的一步。数据文件大、格式复杂、在线工具和本地清洗都要会，尤其是突变矩阵整理，常常直接决定后续分析能否继续。
RStudio中读取ICGC突变文件的界面，旁边标注“maftools”“ICGCsimpletomaf”与突变瀑布图示意。

1. 为什么ICGC突变数据最先要解决“读取”问题？

1.1 突变文件大，直接打开效率很低

ICGC突变文件体积可达900MB以上，普通电脑直接打开会非常慢。课程中明确提到，配置为16G内存、I5处理器的电脑已经会明显卡顿。因此，ICGC突变数据使用的第一原则，不是先看图，而是先用R语言稳定读取。

在实际处理里，推荐先确认是否安装maftools包。随后用library()加载，再用ICGCsimpletomaf()函数读取体细胞突变文件。这个步骤是核心。很多人卡在突变数据整理，本质上就是卡在这一步。

1.2 读取成功后，才能进入标准分析流程

突变数据一旦读入，就能进入后续的可视化和分组分析。常见结果包括：

全样本突变概览。
基因层面的突变频率统计。
指定基因突变样本提取。
突变位点展示。
突变组与野生组对比。

如果读取失败，后面所有分析都无法展开。 这也是为什么课程把这一行函数视为最重要的起点。

2. ICGC突变数据使用时，如何快速做出标准瀑布图？

2.1 先看总体突变图，再看重点基因

突变数据读入后，最先生成的是瀑布图。它可以直接展示整个队列的突变谱。课程中提到，乳腺癌数据集中，错义突变比例最大，且主要为SNP类型。这个结果说明，突变数据使用的第一层价值，是快速把握队列整体特征。

从基因层面看，常见高频突变基因包括：

PI3K相关基因。
TTN。
TP53。

这类结果适合用于后续分层分析，也适合帮助研究者筛选重点候选基因。

2.2 颜色和展示方式可以按研究需要调整

默认瀑布图通常是绿色配色，但课程中也演示了通过自定义colors改变配色。这一步不是美化而已，而是为了让图形更符合论文展示规范。

在实际科研写作中，建议你关注三点：

突变类型是否清晰。
颜色区分是否足够稳定。
读者能否一眼看出高频基因。

如果是投稿级图形，建议统一全篇配色，避免前后图风格不一致。

3. ICGC突变数据使用时，怎样提取感兴趣基因？

3.1 以TP53为例，先看频率，再看样本

课程中以TP53为例，突变频率约为15%，对应11个样本。这个步骤非常关键，因为它说明一个事实：不是所有高频基因都要整体研究，先锁定你真正感兴趣的基因，再做深挖。

提取方式通常是先找到目标基因对应的突变样本，再根据样本ID进行筛选。课程中用到了%in%进行样本提取，这是突变分组最常见的方法之一。

3.2 突变样本和非突变样本，后面可以做多组学对照

一旦把TP53突变组和非突变组分开，就能继续做更深层的比较。课程中明确指出，这些样本可以直接用于：

转录组差异分析。
拷贝数变异分析。
蛋白组学分析。
临床分层比较。

这就是ICGC突变数据使用的真正意义。 它不是只为了画图，而是为了构建可以继续延展的分子分组。

如果你已经有转录组或临床数据，就可以把突变状态作为分组变量。这样更适合做机制研究和文章复现。

4. 如何把ICGC突变数据和表达数据合并成可分析矩阵？

4.1 突变分析最后要落到样本匹配

课程后半部分重点讲了数据整理。表达矩阵原始文件很大，读取后通常要提取出：

基因ID。
表达值。
样本ID。
标本ID。

然后再读取临床信息，区分肿瘤和正常样本。这里常用ifelse()把primary tumor标记为cancer，其余标记为normal。这一步看似基础，却是后续整合分析的前提。

4.2 合并的关键是统一ID

在ICGC突变数据使用中，合并最重要的是统一样本ID。课程中使用merge()按icgc specimen ID进行合并，最终把表达矩阵整理成“行是基因、列是样本”的标准形式。

整理完成后，数据会更接近以下结构：

行名：gene symbol。
列名：sample ID。
单元格：表达量。

这个格式后续可以直接用于差异分析、聚类分析和分型分析。

如果你做的是论文级研究，这一步尤其重要。因为突变状态、表达状态和临床状态必须能对应到同一个样本。

5. ICGC突变数据使用时，最容易忽略的是什么？

5.1 不同项目的测序深度会影响结果

课程里提醒得很明确。不同项目、不同国家队列、不同测序深度，都会影响突变检出数和突变位点数量。也就是说，你看到的突变频率，不一定只代表生物学差异，也可能受到测序策略影响。

这对科研人员很重要。因为在比较不同ICGC项目时，不能只看结果，还要看项目来源、平台和深度。

5.2 在线功能和下载清洗，要按目的选择

课程最后总结得很清楚。ICGC数据库使用主要分两类：

在线功能。
数据下载与清洗。

如果你的目标只是快速找一个分子，做后续实验验证，在线功能已经足够，速度快，也不需要写太多代码。
如果你要做生信文章、TCGA验证集、GEO验证集或多组学分析，就必须掌握数据下载和清洗，至少要会处理转录组和突变数据。

这也是很多研究者真正需要补齐的能力。

总结Conclusion

ICGC突变数据使用的关键，不是单纯“看突变”，而是把突变文件稳定读入、完成标准瀑布图、筛选目标基因、再与表达和临床数据整合。对医学生、医生和科研人员来说，真正有价值的是把突变状态转化为可比较的分组变量，从而进入差异分析和机制研究。

如果你想更高效地完成这套流程，建议结合解螺旋 的科研技能教程和数据处理方案，把ICGC突变数据使用、转录组清洗、样本匹配一步步打通。这样不仅能少走弯路，也更接近论文级分析标准。
ICGC突变分析全流程示意图，包含读取文件、绘制瀑布图、提取TP53突变样本、与表达矩阵合并的四步流程。