TCGA数据提取最推荐用哪个平台？

如果想快速获取整理好的数据，优先用 UCSC Xena；如果需要原始或更细粒度数据，优先用 GDC 或 TCGAbiolinks。

TCGA RNA测序数据里，Counts、FPKM和FPKM UQ有什么区别？

Counts更适合差异分析和统计建模；FPKM和FPKM UQ更适合展示、比较和部分探索性分析。

为什么TCGA数据下载后还要做清洗？

因为需要去除重复样本、过滤低表达基因、统一基因ID，并检查临床信息完整性，才能保证后续分析准确可靠。

TCGA数据提取难吗？4大陷阱须避开

作者：Dr.Xin

2026-05-18｜原创

引言Introduction

TCGA数据提取看似简单，真正上手时却常卡在下载路径、样本重复、格式混乱和临床信息缺失。对医学生、医生和科研人员来说，TCGA数据提取的关键不是“会不会下载”，而是“能不能拿到可直接分析的数据” 。
一张TCGA数据流程示意图，展示从GDC/UCSC Xena/Firehose到R语言整理的完整链路，突出下载、清洗、分析三个环节

1. 为什么TCGA数据提取常常“看起来容易，做起来难”

1.1 数据入口多，容易选错平台

TCGA并不是只有一个下载入口。常见路径包括 GDC、UCSC Xena、Firehose，以及 R 包 TCGAbiolinks。它们都能获取数据，但适用场景不同。

例如，UCSC Xena 提供了多个癌种队列和数据集，常见数据包括 RNA、DNA甲基化、临床、SNP、CNV、MicroRNA 等。Firehose 也能覆盖 TCGA 的多种癌种数据。如果目标是快速拿到已整理好的表达矩阵，UCSC Xena 往往更省时。 如果要做更细粒度的原始数据分析，GDC 和 TCGAbiolinks 更适合。

1.2 数据类型很多，别把“能下载”当成“能分析”

TCGA数据提取时，RNA测序数据就可能有 Counts、FPKM、FPKM UQ 三种常见形式。临床数据也有简化版和补充版之分。不同格式对应不同分析目标。

Counts 更适合差异分析等下游统计建模。 FPKM 或标准化表达矩阵更适合展示和部分探索性分析。临床数据则需要确认字段完整性，避免只拿到简版信息，影响生存分析、分层分析和多组学整合。

2. 第一大陷阱：下载入口选错，拿到的数据不适合你的研究

2.1 UCSC Xena适合快速提取整理后数据

UCSC Xena 提供了便捷的数据下载通道。以肝癌为例，可找到 GDC TCGA Liver Cancer 数据集，进一步选择 RNA、甲基化或临床数据。它的优势在于下载通道清晰，且常有整理过的数据版本。

如果你的研究重点是表达差异、临床关联或多组学初筛，UCSC Xena 是高效率入口。 它还能提供基因ID注释文件，方便把 Ensembl ID 转成基因名，减少后续处理成本。

2.2 Firehose适合查看标准化后的TCGA数据

Firehose 是 Broad 提供的 TCGA 在线分析和下载网站，可覆盖 TCGA 全部 33 种癌症数据。其优点是数据类别明确，适合下载标准化后的表达数据。

但它也有局限。有时页面不易打开，链接层级较深。因此，Firehose 更适合作为补充渠道，而不是唯一依赖。 实际工作中，常需要结合多个入口验证同一数据是否一致。

3. 第二大陷阱：只会下载，不会用GDC和R包做可重复提取

3.1 GDC查询参数决定你拿到什么数据

如果使用 TCGAbiolinks，GDCquery 的参数非常关键。常见设置包括 project、category、data type、workflow type。以肝癌为例，可设置为 TCGA-LIHC、Transcriptome Profiling、Gene Expression Quantification、HTSeq - Counts。

这些参数不是形式，而是结果的边界条件。 设错一个，下载到的数据类型可能完全不同。完成查询后，再运行 GDCdownload 即可下载。

3.2 R包提取更适合批量和可复现研究

对于需要大样本、可重复、可审计的研究，R 语言中的 TCGAbiolinks 更实用。它不仅能下载 RNA 数据，还能处理临床信息。下载临床数据时，可先查询 clinical，再下载并整理。

科研写作中，方法学的可重复性很重要。 相比手工网页逐个点击，R 包方式更适合保存代码、复现结果、重新跑批次数据。对准备发文章的研究者尤其重要。

4. 第三大陷阱：忽略样本ID、重复样本和FFPE样本

4.1 样本ID本身包含类型信息

TCGA样本ID不是随机编号。它包含组织类型信息，通常可从特定位数提取。做样本筛选时，不能只看文件名，还要看样本编码和注释表。

样本层面的误判，会直接影响统计结果。 比如肿瘤样本、正常样本、转移样本混在一起，结果会被严重污染。

4.2 重复样本必须做筛选

TCGA中可能存在 replicate samples。官网资料中提到，可通过 analyte replicate filter 和 sort replicate filter 处理。前者先按样本类型筛选，后者再根据重复规则保留更合适的样本。

有时同一患者会出现多个样本，甚至因为重复测序而保留多个条目。实践中要检查 plate、center、FFPE 等信息。如果不做重复样本过滤，后续差异分析和生存分析都可能偏移。

5. 第四大陷阱：下载后不清洗，直接做差异分析

5.1 基因ID转换和注释文件不可省

RNA测序数据下载后，常见的还是 Ensembl ID 或其他编号。此时需要注释文件，把 ID 转换为基因名。UCSC Xena 提供 ID 注释文件，TCGA 流程中也可使用注释版本完成转换。

没有统一基因名，后续画图、富集分析、结果汇报都会出问题。 这是很多初学者最容易忽略的一步。

5.2 低表达基因和异常样本要先过滤

TCGA数据提取后，通常要做两类过滤。第一类是样本过滤，剔除不符合分析目标的样本。第二类是基因过滤，删除不表达或表达量极低的基因。

课程知识库中明确提到，过滤低表达基因可以提高差异分析的敏感性和准确度。 这一步虽然基础，但对结果稳定性非常关键。若直接进入统计建模，噪音会明显上升。

6. 临床数据提取的常见误区

6.1 简化临床信息不一定够用

临床数据既可以通过 GDC query 获取，也可以用更简化的接口直接提取。简化版更快，但字段有限。补充版和 XML 临床信息更全面，包含治疗、随访、放疗、消融、药物等多个维度。

做生存分析、疗效分析或多变量回归时，建议优先检查完整临床数据。 只看简化字段，容易漏掉关键变量。

6.2 表格字段要逐项核对

临床文件中信息量大，常常有几十列甚至更多。实际操作中，应逐项核对变量名和缺失情况。课程中也强调过，临床信息最好从头到尾检查一遍，避免遗漏。

对科研人员来说，临床数据的质量常决定论文能否站得住。提取阶段多花10分钟，后面可能少返工10小时。

7. TCGA数据提取的实用流程

7.1 推荐的标准路径

如果你希望减少返工，可以按这个顺序做：

明确研究目标，先定数据类型。
选择合适入口，优先用 UCSC Xena、GDC 或 TCGAbiolinks。
下载表达矩阵、临床信息和注释文件。
检查样本ID、重复样本和异常样本。
完成基因ID转换。
过滤低表达基因。
再进入差异分析、聚类分析或生存分析。

这套流程的核心是先保证“数据可用”，再谈“结果漂亮”。

7.2 什么时候该用哪种方式

想快速拿到整理好的数据，选 UCSC Xena。
想下载标准化的多癌种数据，选 Firehose。
想做可重复、可批量、可追溯分析，选 TCGAbiolinks。
想处理临床信息与表达数据整合，优先走 GDC + R 流程。

不同入口没有绝对优劣，关键是与你的研究目标匹配。

总结Conclusion

TCGA数据提取并不难，难的是避开四个常见陷阱。它们分别是：入口选错、方法不稳、样本筛选不严、下载后不清洗。对医学生、医生和科研人员而言，真正高质量的TCGA数据提取，必须同时满足可重复、可解释、可分析。

如果你想把 TCGA 数据从“下载下来”真正变成“能用于发表的分析数据”，可以借助解螺旋品牌的生信内容与工具体系，减少重复操作，提升提取效率，让数据整理更标准、分析起步更稳。
一张科研工作台配图，包含笔记本电脑上的TCGA数据表、R代码窗口和临床信息表，强调从下载到清洗再到分析的规范流程