ICGC数据注释的主要目的是什么？

将原始突变文件整理成可用于后续分析的标准化样本矩阵或分组文件。

ICGC体细胞突变文件通常用什么工具处理？

通常使用R语言配合maftools包，常用函数是ICGCsimpletomaf。

ICGC数据注释后可以做哪些下游分析？

可以进行突变组与野生组比较、转录组差异分析、临床分层分析和瀑布图可视化。

ICGC数据注释怎么做？5步详解

作者：Dr.Sheng

2026-05-20｜原创

引言Introduction

ICGC数据注释是很多医学生、医生和科研人员在项目初期最容易卡住的一步。原始突变文件体积大，格式复杂，直接打开慢，还容易出错。掌握标准化的ICGC数据注释流程，才能把突变信息转成可分析的样本矩阵。
RStudio中读取ICGC突变文件、注释基因并生成样本矩阵的流程示意图，旁边配有瀑布图和突变分类图标

1. 为什么ICGC数据注释是分析起点

1.1 原始突变文件不能直接用

ICGC下载的体细胞突变文件通常体积较大。知识库中的案例提示，900多兆的数据在普通电脑上直接打开会非常慢。这类文件不适合先用表格软件硬开，R语言处理更稳妥。

对于后续分析来说，难点不只是“读入文件”，而是把突变记录整理成可用于分组、可视化、比较的标准格式。很多人卡住的地方，实际上就在这里。

1.2 数据注释的目标很明确

ICGC数据注释的核心，不是做复杂模型，而是先完成三件事。

读入突变文件。
提取你需要的样本和基因信息。
转成后续分析能直接使用的矩阵或分组文件。

如果这一步做对了，后面的瀑布图、突变频率统计、突变组和野生组比较，都会顺很多。

2. 第一步，先把ICGC突变文件读进来

2.1 用R和maftools更高效

知识库中明确提到，处理ICGC体细胞突变文件时，建议使用R语言，并先安装 maftools 包。读取ICGC文件时，关键函数是 ICGCsimpletomaf。
这个函数的作用，就是把ICGC格式的突变数据整理成更标准的MAF样式，便于后续分析。

在实际操作中，建议先确认包是否已安装，再加载包，然后读取文件。这样可以避免重复报错，也能节省调试时间。

2.2 先确认文件类型和分析对象

ICGC数据注释前，最好先明确三点。

你下载的是体细胞突变文件。
你要分析的是全样本，还是某个基因突变亚组。
你最终需要的是突变总览，还是某个基因的突变分组。

这一步决定了后面注释和提取的粒度。

3. 第二步，完成基础注释和格式整理

3.1 提取关键字段

数据读入后，第一件事是看列名，再提取真正有用的信息。
知识库中关于表达矩阵清洗的思路同样适用于这里。核心原则是：保留分析必需字段，去掉冗余字段。

在ICGC突变数据中，常见目标包括：

样本ID。
基因名或基因符号。
突变类型。
突变位点信息。

如果文件里存在需要进一步标准化的字段，就先整理成统一命名，再继续分析。这样能减少后续合并临床信息时的错误。

3.2 让数据能被后续函数识别

做ICGC数据注释时，最重要的是“格式统一”。
知识库中的实践说明，整理好的数据可以直接用于绘图和样本分组。一旦样本ID和基因信息整理到位，后续就可以继续做突变频率计算和分组筛选。

如果你的项目还要整合转录组或临床信息，这一步更关键。因为突变样本ID必须和其他组学数据一一匹配，否则无法做多组学联合分析。

4. 第三步，按研究目的提取突变样本

4.1 先做整体突变概览

完成基础整理后，可以先看全队列的突变情况。
知识库中的结果显示，在乳腺癌数据集中，错义突变比例最大，且整体突变中以SNP为主。这类概览图能快速判断数据质量和突变构成。

常见观察重点包括：

突变类型分布。
突变基因的总体频率。
不同碱基替换模式。
样本中高频突变基因。

这些信息能帮助你判断研究方向是否值得继续深入。

4.2 以TP53为例提取突变组

知识库中用TP53做了示范。结果显示，TP53突变频率为15%，对应11个样本。
这类分析的价值在于，可以把TP53突变患者和TP53野生型患者区分开。

提取突变组后，常见用途包括：

比较突变组和野生组的转录组差异。
比较两组的拷贝数变异。
结合蛋白组学做多组学验证。
进行临床分层分析。

这也是ICGC数据注释最常见的落地方向之一。

5. 第四步，构建突变分组并用于下游分析

5.1 用样本ID建立positive和negative分组

知识库中明确提到，通过 %in% 函数提取样本后，可以形成突变阳性和阴性两类样本。
这一步就是典型的ICGC数据注释结果应用场景。 你不只是“看到突变”，而是能把突变状态变成分组变量。

常见写法是：

positive，表示携带目标基因突变的样本。
negative，表示不携带该突变的样本。

这种分组方式适合后续转录组差异分析，也适合临床特征比较。

5.2 让注释结果服务于多组学研究

知识库强调，如果你已经有临床数据或转录组数据，就可以把这些样本和突变分组进行匹配。
这正是ICGC数据注释的真正意义。

注释之后，你可以回答更具体的问题：

TP53突变是否影响某些基因表达。
突变组是否具有不同的免疫特征。
不同突变状态是否与预后相关。

对科研人员来说，这一步比单纯画图更重要，因为它直接决定研究能不能进入统计分析阶段。

6. 第五步，完成可视化和结果解释

6.1 瀑布图是最常用的输出

知识库中提到，完成读取和整理后，就可以绘制瀑布图。
默认情况下，图中会显示标准配色，但也可以自定义颜色。颜色调整不是装饰，而是为了让图更符合论文和汇报要求。

瀑布图通常展示：

每个样本的突变负荷。
高频突变基因。
突变类型分布。
不同样本的突变模式。

这类图在文章结果部分很常见，也容易被审稿人理解。

6.2 关注突变位点和突变类型

知识库还提到，可以进一步绘制特定基因的突变位点图。
例如TP53位点图中，绿色点代表错义突变，红色点代表无义突变。这能帮助你从“有没有突变”走向“突变发生在哪里”。

需要注意的是，不同数据集的测序深度不同，检测到的突变位点数量也会不同。
因此，结果解释时必须结合项目来源和测序深度，而不能只看图面数字。

7. 写文章时，ICGC数据注释要怎么写才规范

7.1 方法部分要写清楚三个层面

结合知识库中关于方法部分写作的要求，ICGC数据注释在论文里至少要写清楚：

数据来源。
处理工具和R包。
注释与分组方法。

如果你使用了 maftools，或使用了 ICGCsimpletomaf 函数，就应当在方法部分明确说明。
这不仅是规范要求，也是保证可重复性的基础。

7.2 结果部分要写清楚数据结论

结果部分不要只写“完成了注释”。
更好的写法应该包括：

总体突变类型特征。
高突变频率基因。
目标基因突变频率。
突变组与野生组的样本数。

这样读者才能快速理解你的分析框架，也能判断后续统计是否合理。

总结Conclusion

ICGC数据注释的核心流程并不复杂，关键是顺序要对。先读入文件，再做基础整理，然后提取目标样本，接着构建分组，最后完成可视化和结果解释。只要把样本ID、基因信息和突变状态整理清楚，后续多组学分析就能顺利展开。

如果你希望把ICGC数据注释做得更快、更稳、更适合论文写作，可以直接借助解螺旋的生信工具和教程体系，把读取、清洗、分组和可视化一步到位。对医学生、医生和科研人员来说，这会显著降低ICGC分析门槛，也更容易把结果推进到文章和课题中。

科研人员在电脑前查看ICGC瀑布图、TP53突变分组和论文方法部分示意图，突出“注释-分组-分析-写作”的完整流程