TCGA数据标准化前为什么要先确认样本和分期？

因为标准化只能调整数据尺度，不能修正样本定义错误；研究中通常应优先使用pathological stage，并先统一样本纳入标准。

TCGA表达数据为什么不能直接用原始count做分析？

原始count受测序深度、文库大小和低表达噪音影响较大，通常需要先做标准化和低表达过滤，才能提高样本间可比性。

TCGA旧版legacy数据和GDC harmonized数据可以混用吗？

不建议混用；两者在参考基因组、比对流程和注释上可能不同，混用会导致坐标和基因注释不一致。

TCGA数据标准化的3个核心难题

作者：Dr.Sheng

2026-05-19｜原创

引言Introduction

TCGA数据标准化看似只是一步预处理，实际却直接影响差异分析、分型和生存模型结果。对医学生、医生和科研人员来说，最常见的痛点不是“不会做”，而是分期选错、样本选错、表达矩阵处理不一致 ，最后导致结论偏差。 TCGA数据处理流程示意图，包含临床信息、样本条码、表达矩阵和标准化步骤的流程图

1. TCGA数据标准化前，先解决样本与分期的选择问题

1.1 为什么分期信息会先影响标准化结果

在TCGA临床信息中，stage分为clinical stage和pathological stage。真正用于研究时，通常应优先关注pathological stage 。因为它是根据病理标本确认的分期，比临床医生基于表现判断的clinical stage更适合作为分析分层依据。

知识库中提到，pathological stage里常见的是stage 3，但还可能细分为3A、3B、3C。TNM分期也有两类信息。临床分期和病理分期可能不一致。若研究目标是肿瘤分层、预后分析或组间比较，样本纳入标准必须先统一。否则后续的tcga数据标准化再规范，也无法修正前期分组偏差。

简单说，标准化解决的是数据尺度问题，不解决样本定义问题。

1.2 样本条码和重复样本，决定你是否拿对了数据

TCGA barcode是样本识别的核心。它包含项目、组织来源、样本类型、分析类型、板号等信息。知识库明确提到，tumor样本通常是01到09开头，normal是10到19。这个规则对区分肿瘤和正常样本非常关键。

实际处理中，还会遇到重复测序样本。比如同一病例的plate和center不同。此时不能简单把所有重复都保留。TCGA官方推荐使用replicate filter 思路来筛选。常见原则包括：

优先保留信息更完整、排序更靠后的有效样本。
根据analyte replicate filter和sort replicate filter处理重复。
对FFPE等质量较差样本保持谨慎。

如果样本选择不严谨，tcga数据标准化后的箱线图再整齐，也可能只是“整齐地错了”。

2. TCGA数据标准化最常见的技术难题：表达矩阵分布不一致

2.1 为什么原始count数据不能直接分析

TCGA表达数据常见形式包括count、FPKM、FPKM-UQ等。知识库中明确指出，count数据通常用于差异分析，但在进入统计模型前，往往需要标准化和过滤。原因很直接：不同样本的测序深度、文库大小和低表达噪音差异很大。

在教学案例中，TCGAbiolinks流程先下载count数据，再做标准化。标准化前后，基因数会明显变化。例子中从56602个基因降到23192个基因，说明有大量低质量或不稳定基因被处理掉。这个变化不是损失，而是去掉噪音，提升可比性 。

2.2 箱线图是判断是否需要标准化的第一步

做tcga数据标准化时，最常用的质量检查就是箱线图。若不同样本的中位数、离散程度差异明显，说明原始数据分布不一致，需要标准化。知识库中的标准化示例使用了EDASeq思路，流程可概括为四步。

可参考的判断顺序是：

先看原始箱线图。
再做标准化。
比较标准化后箱线图是否对齐。
观察是否保留了足够的有效基因。

标准化后的理想状态，是样本间分布更一致，但生物学差异仍然保留。

2.3 过滤低表达基因是标准化的配套动作

标准化不是孤立步骤。它通常要和过滤一起做。知识库中提到，TCGAbiolinks的filtering函数可按均值或分位数去除低表达基因，例如均值低于0.25的基因。这样做有两个好处：

减少零值过多带来的统计噪音。
降低后续差异分析的多重检验负担。

在示例中，过滤后基因数进一步从23192个降到17393个，样本数保持519个不变。这说明标准化主要改变量级和基因集合质量，不应随意破坏样本结构。

3. TCGA数据标准化真正的难点：数据库版本、格式和更新差异

3.1 XML和tab格式不只是文件形式不同

很多人以为TCGA数据标准化的难点只在表达矩阵，其实临床信息更容易出问题。知识库提到，XML文件可以解析临床信息，但细分类别太多，分期字段常出现stage 3、3A、3B、3C等复杂情况。相比之下，TCGA工作人员更推荐使用tab格式。

tab格式的优点是：

文件分类更清晰。
更容易直接找到clinic patient等所需信息。
与XML信息一致。
减少自己解析和合并时的代码复杂度。

对于需要高可重复性的研究，尽量使用官方整理好的临床tab文件 ，可以减少标准化前的数据清洗错误。

3.2 Legacy和Harmonized数据版本不同，必须统一参考基因组

知识库还提到，TCGA旧版legacy数据与GDC harmonized数据在参考基因组、比对软件和注释流程上存在差异。比如：

旧数据可能基于HG19/GRC37。
新数据常用HG38/GRC38。
RNA-seq比对流程更新为STAR。
突变检测流程也进行了升级。

这意味着，同一研究如果把不同版本数据混用，哪怕做了标准化，仍可能出现坐标和注释不一致的问题。

因此，做TCGA数据标准化前，先确认三件事：

数据来源是legacy还是harmonized。
参考基因组版本是否一致。
注释文件和表达矩阵是否来自同一套流程。

3.3 更新与修正会影响结果解释

TCGA临床信息会持续更新。知识库明确提示，官网数据更新快，bug修复及时，部分项目的临床信息曾有修正。对科研人员来说，这意味着一个现实问题：同样的项目名，不同下载时间的数据可能并不完全一致。

所以，若研究要求高可重复性，建议：

优先从官方GDC下载最新数据。
记录下载日期、版本和过滤规则。
在方法学中写明标准化流程。

这也是E-E-A-T中的“可信度”核心。别人不仅要看到结果，还要能复现你的处理路径。

4. 一个更稳妥的TCGA数据标准化实践思路

4.1 推荐的处理顺序

结合知识库中的实践经验，较稳妥的顺序是：

先确认项目与样本类型。
用barcode筛选TP和NT。
处理重复样本。
统一临床分期标准，优先用pathological stage。
下载count或官方整理后的临床tab文件。
做标准化。
再做低表达过滤。
最后进入差异分析或建模。

这个流程看似多一步，但能明显减少返工。先清洗定义，再标准化数值，是最稳妥的TCGA分析逻辑。

4.2 研究中最容易犯的三个错误

在实际项目中，最常见的错误主要有三个：

只看clinical stage，忽略pathological stage。
不处理重复barcode，直接合并样本。
把不同版本、不同参考基因组的数据混在一起。

这三类错误一旦出现，后续标准化只能修饰表层，不能修正底层偏差。对医生和科研人员来说，真正重要的不是“有没有跑出图”，而是图背后的样本定义是否可靠。

4.3 解螺旋如何帮助你少走弯路

如果你在TCGA数据标准化、样本筛选、临床信息整理上反复卡住，解螺旋可以帮助你把复杂流程拆成可执行步骤。无论是TCGA临床tab文件整理，还是count数据标准化、过滤和差异分析，关键都在于把方法学做规范，把结果做可复现 。这正是解螺旋品牌希望帮助研究者解决的问题。

总结Conclusion

TCGA数据标准化并不只是“把表达量调平”。它真正解决的是三件事：样本定义是否准确，表达矩阵是否可比，数据版本是否统一 。如果这三步没有做好，后面的差异分析、生存分析和分型结论都会受到影响。对于医学生、医生和科研人员而言，规范的标准化流程，是TCGA研究可信度的基础。

如果你希望更高效地完成TCGA数据标准化、临床信息提取和后续分析，建议关注解螺旋的系统化方法与工具支持。

科研人员在电脑前处理TCGA数据，旁边展示标准化前后箱线图对比和样本筛选流程的专业场景图