引言Introduction

TCGA数据筛选做不好,后面的差异分析、分组比较和批次校正都会被放大误差。很多问题不是模型不行,而是样本注释、barcode、基因过滤没处理对。想让TCGA分析更稳,第一步就是把筛选规则做对。 TCGA样本筛选流程图,包含metadata、barcode、批次效应、基因过滤四个环节,风格简洁专业。

1. 先从Metadata入手,别直接下载就分析

1.1 先建立样本与文件名的对应关系

TCGA数据筛选的第一步,不是看表达矩阵,而是看Metadata。Metadata里通常包含样本名字、样本ID、组织类型等信息。课程中强调,先下载JSON格式文件,再用R里的 jsonlite 包读取,能把文件名和sample ID准确对应起来。

这一步的核心价值,是避免“拿错样本还不自知”。 例如同一项目里,原始文件名和样本ID可能并不是一一直观看出来的。先整理对应关系,后续筛选才有依据。

1.2 manifest文件和注释表要一起用

做TCGA数据筛选时,单看表达矩阵远远不够。manifest文件能帮助整理样本与文件名的关系,annotation表格则能提示哪些样本应该保留,哪些样本需要剔除。

常见做法是:

  1. 下载Metadata JSON。
  2. 提取样本ID、文件名、组织来源。
  3. 用manifest补齐文件对应关系。
  4. 再进入后续筛选。

如果样本来源不清楚,后续所有统计都会受影响。

2. 读懂TCGA barcode,才能筛对样本

2.1 第14、15位字符最关键

TCGA barcode 不是简单编号,而是包含项目名称、样本来源代码、患者编码等信息。课程里明确提到,样本组织学类型可从第14、15字符提取。比如,01代表原发肿瘤,11代表正常组织

这意味着,做TCGA数据筛选时,你可以直接依据barcode快速区分肿瘤和正常样本。对于差异分析,这一步尤其重要。

2.2 analyte、plate、center也会影响筛选

barcode 里还包含 analyte、plate 和 center 等信息。analyte 可提示样本类型,例如 D 代表DNA,R 代表RNA 。plate 和 center 则与测序板和数据分析中心有关。

同一个患者出现多个样本时,不代表都应该保留。 还要结合重复样本规则和批次信息判断。否则很容易把技术重复当成生物重复,造成偏差。

3. 处理重复样本,避免一人多样本干扰结果

3.1 先看重复样本定义

TCGA中常见问题是一个病例存在多个样本或多个测序版本。课程提到,TCGA对重复样本有明确处理标准,常见筛选依据包括 analyte replicate filter 和 sort replicate filter。

这类规则的意义在于:先按样本类型筛,再按排序规则保留最合适的一条记录。 这比人工凭感觉删样本更可靠。

3.2 样本筛选要结合注释表核查

在实际筛选中,建议优先检查 annotation 表格,确认样本是否存在 FFPE、重复测序、异常来源或不适合纳入分析的情况。

可以按以下顺序做:

  1. 先确认样本类型。
  2. 再确认是否重复。
  3. 最后检查是否存在异常技术因素。

TCGA数据筛选的关键,不是“删得多”,而是“删得准”。

4. TCGA和GTEx合并前,先解决批次效应问题

4.1 推荐统一使用重新计算过的数据

如果要做癌旁或正常组织比较,经常会遇到 TCGA 和 GTEx 合并的问题。课程建议,优先下载 UCSC 网站上重新计算好的数据,这样技术差异会更小,合并时更稳。

这是非常实用的策略。因为不同来源的数据,测序流程、处理流程、注释版本都可能不同。不先统一处理,后面做差异分析时,批次效应可能比生物差异还大。

4.2 批次效应要提前识别

课程中提到,可结合 phenotypes 文件中的 batch number、TSS 编码和测序板批次信息识别批次效应。常用工具包括 RUVSeq、SVA 等 R 包。

实际操作中,建议:

  • 先看样本来源分布。
  • 再看批次是否和分组高度重合。
  • 若重合明显,先处理批次,再做差异分析。

这是TCGA数据筛选里最容易被低估的一步。

5. 基因筛选要做,但标准不必过度复杂

5.1 先去掉不表达或低表达基因

RNA-seq分析中,基因过滤几乎是必做步骤。课程给出的原则很清楚:去掉表达量为0的基因,或者保留在至少一半样本中表达量大于0的基因,也可以保留中位数大于0的基因。

这些方法的目的都一致:减少噪音,提高差异分析的敏感性和准确度。

5.2 平均值过滤要谨慎

平均值过滤看起来简单,但不一定最稳。因为少数极高表达值可能拉高均值,掩盖大部分样本中的低表达事实。相比之下,中位数和“在多少样本中表达”这类标准,更适合初步筛选。

常见可执行标准有:

  1. 去除全部为0的基因。
  2. 保留至少50%样本中表达量大于0的基因。
  3. 保留中位数大于0的基因。

具体标准可以灵活,但原则必须一致。

6. ID转换不要神化,但版本要统一

6.1 先看基因组版本差异

TCGA数据筛选常涉及ID转换。课程提到,GRCh38与早期版本存在差异,基因注释也会更新。常见做法是下载 GTF 或 GFF 文件,按注释信息完成转换。

这里最重要的不是追求“绝对完美”,而是确保同一分析流程前后一致。版本混用会让基因ID对应关系变得混乱。

6.2 V22和V34的差异通常不是最致命问题

课程中还指出,TCGA与GTEx数据存在版本差异,例如 V23 与最新 V34。对最终分析结果可能有影响,但通常不是决定性问题。真正决定分析质量的,往往还是样本筛选、批次控制和过滤逻辑。

所以,ID转换要做,但不要本末倒置。先保证样本和批次正确,再处理版本统一。

7. 用“筛选三步法”提高TCGA数据筛选效率

7.1 先筛样本,再筛分组,最后筛基因

结合课程内容,TCGA数据筛选可以归纳成三步:

  1. 样本筛选。 看Metadata、barcode、注释表,排除异常样本。
  2. 分组筛选。 区分原发肿瘤、正常组织、重复样本,以及TCGA与GTEx来源差异。
  3. 基因筛选。 去掉低表达、无表达、噪音过高的基因。

这个顺序很重要。先样本,后分组,再基因。 反过来做,容易把错误放大到下游结果里。

7.2 让筛选规则服务于研究问题

不同研究问题,筛选标准不完全一样。做差异表达分析时,样本纯度和分组准确性优先。做队列分层时,批次信息和来源一致性更重要。做预后模型时,低表达过滤和重复样本去重更关键。

所以,TCGA数据筛选没有唯一答案,但有共同原则:

  • 先保证样本真实。
  • 再保证分组清晰。
  • 最后保证基因质量。

这也是为什么规范的筛选流程,比单纯拿到大数据更重要。

总结Conclusion

TCGA数据筛选的核心,不是复杂技巧,而是流程严谨。先从Metadata建立样本对应关系,再读懂barcode,处理重复样本,识别批次效应,完成基因过滤与ID统一,才能让后续分析更可靠。真正高质量的TCGA分析,始于高质量筛选。

如果你想少走弯路,建议直接参考解螺旋的标准化生信学习路径,把TCGA数据筛选、预处理和差异分析串成完整流程。这样不仅能提高分析效率,也更容易产出可复现、可发表的结果。科研人员在电脑前整理TCGA数据分析流程,风格专业简洁。