TCGA数据筛选第一步应该先做什么？

先查看Metadata并建立样本ID与文件名的对应关系，再开始后续分析。

TCGA barcode里哪些信息最适合用来区分肿瘤和正常样本？

第14、15位字符最关键，通常可区分原发肿瘤和正常组织。

TCGA和GTEx合并分析前为什么要先处理批次效应？

因为不同来源数据存在技术差异，若不先校正，批次效应可能掩盖真实生物差异。

TCGA数据筛选怎么做？7个实用技巧

作者：Dr.Xin

2026-05-18｜原创

引言Introduction

TCGA数据筛选做不好，后面的差异分析、分组比较和批次校正都会被放大误差。很多问题不是模型不行，而是样本注释、barcode、基因过滤没处理对。想让TCGA分析更稳，第一步就是把筛选规则做对。 TCGA样本筛选流程图，包含metadata、barcode、批次效应、基因过滤四个环节，风格简洁专业。

1. 先从Metadata入手，别直接下载就分析

1.1 先建立样本与文件名的对应关系

TCGA数据筛选的第一步，不是看表达矩阵，而是看Metadata。Metadata里通常包含样本名字、样本ID、组织类型等信息。课程中强调，先下载JSON格式文件，再用R里的 jsonlite 包读取，能把文件名和sample ID准确对应起来。

这一步的核心价值，是避免“拿错样本还不自知”。 例如同一项目里，原始文件名和样本ID可能并不是一一直观看出来的。先整理对应关系，后续筛选才有依据。

1.2 manifest文件和注释表要一起用

做TCGA数据筛选时，单看表达矩阵远远不够。manifest文件能帮助整理样本与文件名的关系，annotation表格则能提示哪些样本应该保留，哪些样本需要剔除。

常见做法是：

下载Metadata JSON。
提取样本ID、文件名、组织来源。
用manifest补齐文件对应关系。
再进入后续筛选。

如果样本来源不清楚，后续所有统计都会受影响。

2. 读懂TCGA barcode，才能筛对样本

2.1 第14、15位字符最关键

TCGA barcode 不是简单编号，而是包含项目名称、样本来源代码、患者编码等信息。课程里明确提到，样本组织学类型可从第14、15字符提取。比如，01代表原发肿瘤，11代表正常组织 。

这意味着，做TCGA数据筛选时，你可以直接依据barcode快速区分肿瘤和正常样本。对于差异分析，这一步尤其重要。

2.2 analyte、plate、center也会影响筛选

barcode 里还包含 analyte、plate 和 center 等信息。analyte 可提示样本类型，例如 D 代表DNA，R 代表RNA 。plate 和 center 则与测序板和数据分析中心有关。

同一个患者出现多个样本时，不代表都应该保留。 还要结合重复样本规则和批次信息判断。否则很容易把技术重复当成生物重复，造成偏差。

3. 处理重复样本，避免一人多样本干扰结果

3.1 先看重复样本定义

TCGA中常见问题是一个病例存在多个样本或多个测序版本。课程提到，TCGA对重复样本有明确处理标准，常见筛选依据包括 analyte replicate filter 和 sort replicate filter。

这类规则的意义在于：先按样本类型筛，再按排序规则保留最合适的一条记录。 这比人工凭感觉删样本更可靠。

3.2 样本筛选要结合注释表核查

在实际筛选中，建议优先检查 annotation 表格，确认样本是否存在 FFPE、重复测序、异常来源或不适合纳入分析的情况。

可以按以下顺序做：

先确认样本类型。
再确认是否重复。
最后检查是否存在异常技术因素。

TCGA数据筛选的关键，不是“删得多”，而是“删得准”。

4. TCGA和GTEx合并前，先解决批次效应问题

4.1 推荐统一使用重新计算过的数据

如果要做癌旁或正常组织比较，经常会遇到 TCGA 和 GTEx 合并的问题。课程建议，优先下载 UCSC 网站上重新计算好的数据，这样技术差异会更小，合并时更稳。

这是非常实用的策略。因为不同来源的数据，测序流程、处理流程、注释版本都可能不同。不先统一处理，后面做差异分析时，批次效应可能比生物差异还大。

4.2 批次效应要提前识别

课程中提到，可结合 phenotypes 文件中的 batch number、TSS 编码和测序板批次信息识别批次效应。常用工具包括 RUVSeq、SVA 等 R 包。

实际操作中，建议：

先看样本来源分布。
再看批次是否和分组高度重合。
若重合明显，先处理批次，再做差异分析。

这是TCGA数据筛选里最容易被低估的一步。

5. 基因筛选要做，但标准不必过度复杂

5.1 先去掉不表达或低表达基因

RNA-seq分析中，基因过滤几乎是必做步骤。课程给出的原则很清楚：去掉表达量为0的基因，或者保留在至少一半样本中表达量大于0的基因，也可以保留中位数大于0的基因。

这些方法的目的都一致：减少噪音，提高差异分析的敏感性和准确度。

5.2 平均值过滤要谨慎

平均值过滤看起来简单，但不一定最稳。因为少数极高表达值可能拉高均值，掩盖大部分样本中的低表达事实。相比之下，中位数和“在多少样本中表达”这类标准，更适合初步筛选。

常见可执行标准有：

去除全部为0的基因。
保留至少50%样本中表达量大于0的基因。
保留中位数大于0的基因。

具体标准可以灵活，但原则必须一致。

6. ID转换不要神化，但版本要统一

6.1 先看基因组版本差异

TCGA数据筛选常涉及ID转换。课程提到，GRCh38与早期版本存在差异，基因注释也会更新。常见做法是下载 GTF 或 GFF 文件，按注释信息完成转换。

这里最重要的不是追求“绝对完美”，而是确保同一分析流程前后一致。版本混用会让基因ID对应关系变得混乱。

6.2 V22和V34的差异通常不是最致命问题

课程中还指出，TCGA与GTEx数据存在版本差异，例如 V23 与最新 V34。对最终分析结果可能有影响，但通常不是决定性问题。真正决定分析质量的，往往还是样本筛选、批次控制和过滤逻辑。

所以，ID转换要做，但不要本末倒置。先保证样本和批次正确，再处理版本统一。

7. 用“筛选三步法”提高TCGA数据筛选效率

7.1 先筛样本，再筛分组，最后筛基因

结合课程内容，TCGA数据筛选可以归纳成三步：

样本筛选。 看Metadata、barcode、注释表，排除异常样本。
分组筛选。 区分原发肿瘤、正常组织、重复样本，以及TCGA与GTEx来源差异。
基因筛选。 去掉低表达、无表达、噪音过高的基因。

这个顺序很重要。先样本，后分组，再基因。 反过来做，容易把错误放大到下游结果里。

7.2 让筛选规则服务于研究问题

不同研究问题，筛选标准不完全一样。做差异表达分析时，样本纯度和分组准确性优先。做队列分层时，批次信息和来源一致性更重要。做预后模型时，低表达过滤和重复样本去重更关键。

所以，TCGA数据筛选没有唯一答案，但有共同原则：

先保证样本真实。
再保证分组清晰。
最后保证基因质量。

这也是为什么规范的筛选流程，比单纯拿到大数据更重要。

总结Conclusion

TCGA数据筛选的核心，不是复杂技巧，而是流程严谨。先从Metadata建立样本对应关系，再读懂barcode，处理重复样本，识别批次效应，完成基因过滤与ID统一，才能让后续分析更可靠。真正高质量的TCGA分析，始于高质量筛选。

如果你想少走弯路，建议直接参考解螺旋的标准化生信学习路径，把TCGA数据筛选、预处理和差异分析串成完整流程。这样不仅能提高分析效率，也更容易产出可复现、可发表的结果。科研人员在电脑前整理TCGA数据分析流程，风格专业简洁。