TCGA数据清洗时，临床分期应该优先用哪种？

通常优先使用 pathological stage，因为它基于病理标本确认，更适合研究分组。

TCGA样本barcode重复时应该怎么处理？

应按官方规则判断重复样本，结合barcode层级、plate、center和analyte信息，保留更规范的记录。

TCGA分析中为什么要区分 legacy 和 harmonized 数据？

因为两者在参考基因组、比对和质控策略上不同，直接合并可能造成批次差异和结果不可比。

TCGA数据清洗指南：4类常见错误解析

作者：Dr.Xin

2026-05-18｜原创

引言Introduction

一张TCGA临床数据表、样本barcode和清洗流程并列展示的示意图，突出“分期、重复样本、文件格式、批次差异”四个问题。
做TCGA数据分析时，很多人不是败在算法，而是败在tcga数据清洗 。样本ID重复、分期字段混乱、XML解析麻烦、重复测序样本难以取舍，这些问题会直接影响分组、统计和下游结果。本文用4类常见错误，帮你快速建立可靠的清洗思路。

1. 分期字段混乱，最容易选错研究对象

1.1 Clinical stage 和 pathological stage 不要混用

TCGA临床信息里，分期常见两种来源。一个是临床医生根据表现判断的 clinical stage。另一个是基于病理标本确认的 pathological stage。做研究时，优先关注 pathological stage。

在肿瘤分层分析里，很多队列只需要明确的病理分期。上游知识库中提到，stage 3 可能还细分为 3A、3B、3C。TNM 也一样，T、N、M 都可能出现更细颗粒度。如果不先统一字段，会导致分组不一致，甚至样本误纳入。

1.2 推荐先定规则，再做筛选

清洗前，先把纳入标准写清楚。比如：

只保留 pathological stage 为 stage 3 的样本。
TNM 中，关注 T3、N x、M0 这类组合时，要先确认字段定义。
不要直接把 XML 或临床表中的原始字符串拿来分组。

分期字段的核心不是“看起来像”，而是“是否按同一标准定义”。
对医学生和科研人员来说，这一步决定了队列是否可信。

2. 样本ID和barcode重复，导致一人多条记录

2.1 TCGA barcode 不是普通编号

TCGA 的 barcode 是样本识别的核心。它能反映项目来源、组织来源点、样本类型、板号、分析类型等信息。知识库中提到，sample 部分最常用。比如 01 到 09 通常代表 tumor，10 到 19 代表 normal。

如果只看前几位ID，很容易把同一个病人的不同测序记录当成不同样本。
这会直接造成样本数虚高，统计偏差明显。

2.2 重复样本要按规则筛选

TCGA 中常见的重复问题包括：

同一病人有多个管子或多个板子测序。
同一样本在不同中心、不同 plate 出现。
FFPE 样本和非 FFPE 样本并存。

上游知识库提到，处理重复样本时，可以参考官方的 replicate filter 思路。一般会结合 analyte replicate filter 和 sort replicate filter。原则是保留更合理、更新、更符合规范的记录。

在实际 tcga数据清洗中，建议优先检查：

barcode 前四位或更高层级是否一致。
plate、center、analyte 是否不同。
是否存在重复测序或后者更合适的记录。

不要简单按“先来先得”处理重复样本。
对同一病例，错误保留会破坏样本独立性。

3. XML 文件信息太细，临床字段难以标准化

3.1 XML 能提取很多信息，但代价高

TCGA 的 XML 临床文件包含较多细节，像 stage、TNM、随访、生存信息等都可能在里面。但问题也很明显。知识库指出，XML 格式会出现非常多细分类，比如 stage 3 下面还有 3A、3B、3C，N 分期也可能有更多细项。这会增加解析难度，也让字符串切割更容易出错。

对需要批量分析的人来说，XML 并不是最省事的方案。尤其当你要同时处理多个项目时，字段名、层级和缺失值都可能不统一。

3.2 优先使用 TCGA 推荐的 tab 格式

知识库明确提到，TCGA 工作人员更推荐使用 tab 格式。它把文件细致归类，常见的包括：

clinic patient 文件
follow up 文件
放疗治疗文件
用药文件

这类文件把临床信息整理得更规整。比如 clinic patient 文件中，能直接看到病人 ID、分期、性别、种族、TNM、CT 分期和生存信息。它和 XML 的信息一致，但读取和整理更方便。

对于 tcga数据清洗来说，推荐做法是：

先用 tab 文件建立主临床表。
再按研究目的补充随访或治疗信息。
最后统一字段命名和分级标准。

这样可以显著减少代码复杂度，也能降低手工错误。

4. 版本差异和批次问题，容易被忽略

4.1 legacy 和 harmonized 不能直接等同

TCGA 数据还有一个常见问题，就是版本不同。知识库提到，legacy 数据和 GDC 的 harmonized 数据在参考基因组、比对软件、质控策略上都有差异。比如 harmonized 数据会清除质控失败的 reads，而 legacy 数据未必会做同样处理。这会影响后续比对、表达定量和变异分析。

对转录组数据来说，新版本常用 STAR 重新比对。对突变数据，也可能从旧 caller 切换到 Mutect2。参考基因组还可能从 hg19 升级到 hg38。版本不同，结果可比性就不能默认成立。

4.2 合并 TCGA 和 GTEx 时要特别小心

在队列整合中，批次效应是另一个高频错误。知识库建议，若要合并 TCGA 和 GTEx，优先下载 UCSC 网站上重新计算好的数据，这样技术差异和批次效应更小。

具体到 tcga数据清洗，建议按以下顺序检查：

明确数据来源，是 legacy 还是 harmonized。
统一参考基因组版本。
统一表达量或突变注释体系。
去除低质量样本和不表达基因。

如果版本没统一，再漂亮的统计图也可能是伪结论。

4.3 基因过滤同样重要

除了样本层面，基因层面的清洗也不能省。上游知识库提到，通常会过滤掉不表达或低表达基因，以提高差异分析的敏感性和准确度。这个步骤很基础，但很关键。

常见做法包括：

去除全 0 或极低表达基因。
保留在足够样本中表达的基因。
对 NA 值做统一处理。

样本没清干净，基因再多也没意义。

5. 一套更稳妥的 TCGA 清洗流程

5.1 先临床，后表达，最后整合

如果你想降低出错率，可以按这个顺序做：

下载官方最新临床信息。
统一 stage、TNM、性别、种族等字段。
按 barcode 识别重复样本。
清理重复测序和低质量记录。
再进入表达矩阵或突变数据分析。

这个顺序的好处，是先保证分组正确，再谈统计建模。

5.2 关注官方更新和下载来源

TCGA 临床信息会更新。知识库中提到，某些项目在网页中输入临床信息时，曾出现不准确情况，后来通过更新得到修复。因此，尽量从官网或权威镜像下载最新版本，不要长期复用旧表。

对科研工作来说，数据来源越标准，后续审稿和复现越容易。

5.3 借助成熟工具减少人工误差

如果你在做 tcga数据清洗，不必所有步骤都手工完成。可以借助标准化流程、R 包和公开注释表。关键是保持规则一致，并保留清洗日志。这样在后续论文、汇报或复现时，能说明每一步如何处理。

清洗不是删数据，而是让数据可解释、可追踪、可复现。

总结Conclusion

TCGA 数据分析的难点，往往不是不会建模，而是前期清洗不到位。本文总结了4类常见错误：分期字段混用、barcode 和重复样本处理不当、XML 解析和临床字段标准化困难、版本差异与批次效应被忽视。只有把 tcga数据清洗做规范，后续差异分析、生存分析和分子分型才有可信基础。

如果你希望减少重复劳动，提升 TCGA 数据整理效率，可以借助解螺旋 的专业内容和工具思路，按标准化流程快速完成清洗、筛选与整合。这样不仅更省时，也更利于科研复现。

一张简洁的TCGA数据清洗流程图，展示“下载临床表—统一分期—去重barcode—版本校验—进入分析”的完整路径。