引言Introduction

做TCGA数据分析时,很多人不是败在算法,而是败在tcga数据清洗 。样本ID重复、分期字段混乱、XML解析麻烦、重复测序样本难以取舍,这些问题会直接影响分组、统计和下游结果。本文用4类常见错误,帮你快速建立可靠的清洗思路。
1. 分期字段混乱,最容易选错研究对象
1.1 Clinical stage 和 pathological stage 不要混用
TCGA临床信息里,分期常见两种来源。一个是临床医生根据表现判断的 clinical stage。另一个是基于病理标本确认的 pathological stage。做研究时,优先关注 pathological stage。
在肿瘤分层分析里,很多队列只需要明确的病理分期。上游知识库中提到,stage 3 可能还细分为 3A、3B、3C。TNM 也一样,T、N、M 都可能出现更细颗粒度。如果不先统一字段,会导致分组不一致,甚至样本误纳入。
1.2 推荐先定规则,再做筛选
清洗前,先把纳入标准写清楚。比如:
- 只保留 pathological stage 为 stage 3 的样本。
- TNM 中,关注 T3、N x、M0 这类组合时,要先确认字段定义。
- 不要直接把 XML 或临床表中的原始字符串拿来分组。
分期字段的核心不是“看起来像”,而是“是否按同一标准定义”。
对医学生和科研人员来说,这一步决定了队列是否可信。
2. 样本ID和barcode重复,导致一人多条记录
2.1 TCGA barcode 不是普通编号
TCGA 的 barcode 是样本识别的核心。它能反映项目来源、组织来源点、样本类型、板号、分析类型等信息。知识库中提到,sample 部分最常用。比如 01 到 09 通常代表 tumor,10 到 19 代表 normal。
如果只看前几位ID,很容易把同一个病人的不同测序记录当成不同样本。
这会直接造成样本数虚高,统计偏差明显。
2.2 重复样本要按规则筛选
TCGA 中常见的重复问题包括:
- 同一病人有多个管子或多个板子测序。
- 同一样本在不同中心、不同 plate 出现。
- FFPE 样本和非 FFPE 样本并存。
上游知识库提到,处理重复样本时,可以参考官方的 replicate filter 思路。一般会结合 analyte replicate filter 和 sort replicate filter。原则是保留更合理、更新、更符合规范的记录。
在实际 tcga数据清洗 中,建议优先检查:
- barcode 前四位或更高层级是否一致。
- plate、center、analyte 是否不同。
- 是否存在重复测序或后者更合适的记录。
不要简单按“先来先得”处理重复样本。
对同一病例,错误保留会破坏样本独立性。
3. XML 文件信息太细,临床字段难以标准化
3.1 XML 能提取很多信息,但代价高
TCGA 的 XML 临床文件包含较多细节,像 stage、TNM、随访、生存信息等都可能在里面。但问题也很明显。知识库指出,XML 格式会出现非常多细分类,比如 stage 3 下面还有 3A、3B、3C,N 分期也可能有更多细项。这会增加解析难度,也让字符串切割更容易出错。
对需要批量分析的人来说,XML 并不是最省事的方案。尤其当你要同时处理多个项目时,字段名、层级和缺失值都可能不统一。
3.2 优先使用 TCGA 推荐的 tab 格式
知识库明确提到,TCGA 工作人员更推荐使用 tab 格式。它把文件细致归类,常见的包括:
- clinic patient 文件
- follow up 文件
- 放疗治疗文件
- 用药文件
这类文件把临床信息整理得更规整。比如 clinic patient 文件中,能直接看到病人 ID、分期、性别、种族、TNM、CT 分期和生存信息。它和 XML 的信息一致,但读取和整理更方便。
对于 tcga数据清洗 来说,推荐做法是:
- 先用 tab 文件建立主临床表。
- 再按研究目的补充随访或治疗信息。
- 最后统一字段命名和分级标准。
这样可以显著减少代码复杂度,也能降低手工错误。
4. 版本差异和批次问题,容易被忽略
4.1 legacy 和 harmonized 不能直接等同
TCGA 数据还有一个常见问题,就是版本不同。知识库提到,legacy 数据和 GDC 的 harmonized 数据在参考基因组、比对软件、质控策略上都有差异。比如 harmonized 数据会清除质控失败的 reads,而 legacy 数据未必会做同样处理。这会影响后续比对、表达定量和变异分析。
对转录组数据来说,新版本常用 STAR 重新比对。对突变数据,也可能从旧 caller 切换到 Mutect2。参考基因组还可能从 hg19 升级到 hg38。版本不同,结果可比性就不能默认成立。
4.2 合并 TCGA 和 GTEx 时要特别小心
在队列整合中,批次效应是另一个高频错误。知识库建议,若要合并 TCGA 和 GTEx,优先下载 UCSC 网站上重新计算好的数据,这样技术差异和批次效应更小。
具体到 tcga数据清洗,建议按以下顺序检查:
- 明确数据来源,是 legacy 还是 harmonized。
- 统一参考基因组版本。
- 统一表达量或突变注释体系。
- 去除低质量样本和不表达基因。
如果版本没统一,再漂亮的统计图也可能是伪结论。
4.3 基因过滤同样重要
除了样本层面,基因层面的清洗也不能省。上游知识库提到,通常会过滤掉不表达或低表达基因,以提高差异分析的敏感性和准确度。这个步骤很基础,但很关键。
常见做法包括:
- 去除全 0 或极低表达基因。
- 保留在足够样本中表达的基因。
- 对 NA 值做统一处理。
样本没清干净,基因再多也没意义。
5. 一套更稳妥的 TCGA 清洗流程
5.1 先临床,后表达,最后整合
如果你想降低出错率,可以按这个顺序做:
- 下载官方最新临床信息。
- 统一 stage、TNM、性别、种族等字段。
- 按 barcode 识别重复样本。
- 清理重复测序和低质量记录。
- 再进入表达矩阵或突变数据分析。
这个顺序的好处,是先保证分组正确,再谈统计建模。
5.2 关注官方更新和下载来源
TCGA 临床信息会更新。知识库中提到,某些项目在网页中输入临床信息时,曾出现不准确情况,后来通过更新得到修复。因此,尽量从官网或权威镜像下载最新版本,不要长期复用旧表。
对科研工作来说,数据来源越标准,后续审稿和复现越容易。
5.3 借助成熟工具减少人工误差
如果你在做 tcga数据清洗,不必所有步骤都手工完成。可以借助标准化流程、R 包和公开注释表。关键是保持规则一致,并保留清洗日志。这样在后续论文、汇报或复现时,能说明每一步如何处理。
清洗不是删数据,而是让数据可解释、可追踪、可复现。
总结Conclusion
TCGA 数据分析的难点,往往不是不会建模,而是前期清洗不到位。本文总结了4类常见错误:分期字段混用、barcode 和重复样本处理不当、XML 解析和临床字段标准化困难、版本差异与批次效应被忽视。只有把 tcga数据清洗 做规范,后续差异分析、生存分析和分子分型才有可信基础。
如果你希望减少重复劳动,提升 TCGA 数据整理效率,可以借助解螺旋 的专业内容和工具思路,按标准化流程快速完成清洗、筛选与整合。这样不仅更省时,也更利于科研复现。

- 引言Introduction
- 1. 分期字段混乱,最容易选错研究对象
- 2. 样本ID和barcode重复,导致一人多条记录
- 3. XML 文件信息太细,临床字段难以标准化
- 4. 版本差异和批次问题,容易被忽略
- 5. 一套更稳妥的 TCGA 清洗流程
- 总结Conclusion






