引言Introduction

测序数据预处理是生信分析里最容易出错的一步。TCGA这类公开数据常见文件多、样本杂、ID复杂,若不先清洗,后续差异分析、富集分析和分组都会偏移。想把数据做对,先把测序数据预处理做规范。
TCGA测序数据从下载、metadata整理到样本过滤的流程图,强调清洗前后的对比

1. 为什么测序数据预处理是第一道门槛

1.1 预处理决定后续分析能否复现

在生信研究中,预处理不是简单整理文件,而是把原始测序数据转成可分析的数据集。课程内容明确提到,方法部分必须交代数据来源、分析对象、处理步骤和排除标准,才能保证可重复性。如果这一步不清楚,后面的结果就很难被审稿人接受。

TCGA数据尤其如此。下载后的内容通常包含metadata、表达矩阵、样本注释和多个子文件。样本类型、患者ID、文件名、MD5值都要先对应起来,再进入分析。

1.2 预处理要解决的核心问题

测序数据预处理主要解决四类问题。

  • 合并数据,统一文件结构。
  • 提取样本分组信息,区分 tumor 和 normal。
  • 过滤不合适样本,如转移性样本或不相关亚型。
  • 做ID转换,把基因ID、样本ID和注释信息对齐。

这四步做不好,表达矩阵再完整也没有意义。

2. 第1步,读取metadata并理解数据结构

2.1 先看JSON里的关键信息

课程里提到,TCGA下载后的metadata通常存放在JSON文件中。读取时一般要提取三类信息:注册信息、barcode信息和sample type信息。实际操作中常用 jsonlite 包读取JSON,再整理出文件名、MD5值和TCGA ID。

这一步的目的很直接。你要先知道每个文件对应哪个样本,属于什么类型,能不能用于研究。

2.2 样本类型要先转成可用分组

在TCGA里,sample type ID 常用编码表示样本来源,例如 01 表示原发肿瘤。课程提纲还强调要把样本类型整理成 normaltumor 这类分组信息,方便后续比较分析。

分组先清楚,统计才成立。
如果一开始就混入不明样本,后续差异表达结果会失真。

3. 第2步,整理文件路径并匹配样本ID

3.1 统一路径,避免文件错配

下载后的测序文件往往散落在不同文件夹中。预处理时要先定义文件路径,再列出文件并按 pattern 过滤目标文件,比如只保留 CT 文件或 CONS 文件。这样可以避免把无关文件误读进来。

课程中还强调要把文件名、TCGA ID、患者ID整理到同一张表里。这一步本质上是在建立“文件-样本-患者”的映射关系。

3.2 用barcode和患者ID完成对照

TCGA barcode 里通常包含患者和样本信息。预处理时可先提取前几位作为患者ID,再与metadata对照。这样可以检查是否存在文件命名不一致、样本重复或缺失的问题。

建议在这一阶段就做一次完整核对:

  1. 文件名是否和metadata一致。
  2. MD5值是否匹配,确认下载无误。
  3. 样本类型是否与研究设计一致。
  4. 分组是否已经正确标注。

4. 第3步,验证MD5并确保文件完整

4.1 MD5校验不是形式

课程提纲明确提到,要验证下载的 CONS 文件的 MD5 值与 metadata 一致性。MD5 的作用是确认文件在下载或传输过程中没有损坏。

对大规模公共数据库数据来说,这一步很重要。因为一个损坏文件就可能导致整批样本读取失败,或者产生隐性错误。

4.2 预处理阶段就要排除异常文件

如果 MD5 不一致,建议直接剔除或重新下载。不要把“疑似损坏文件”带入后续矩阵合并。预处理的目标不是凑齐样本数,而是保证数据可靠。

5. 第4步,批量读取表达文件并合并矩阵

5.1 读取CONS或计数文件

课程中使用 readr 包批量读取 CONS 文件。每个文件通常包含基因ID和count数据。读取后要把多个文件整合成一个数据框,形成统一的表达矩阵。

这一步最容易出现列名混乱和顺序不一致的问题,所以要在读取后立即检查:

  • 行名是否为基因ID。
  • 列是否为样本ID。
  • 数据类型是否为数值型。
  • 是否存在重复基因或重复样本。

5.2 合并前先处理NA和空值

后续课程提到,在miRNA整理中需要检查NA并替换为0。这个原则同样适用于表达矩阵处理。如果缺失值不符合分析要求,要在方法中写明处理方式。

对于原始测序数据,空白、未知或异常值不能默认保留。必须明确记录处理策略。

6. 第5步,样本过滤与注释信息清洗

6.1 只保留研究需要的样本

课程案例中提到,需要下载并读取样本注释TSV文件,提取肝脏相关注释信息,同时剔除不合适的样本,比如胆管癌样本、转移性肿瘤样本等。最后再生成新的TSV文件保存过滤后的样本信息。

这说明一个关键原则。测序数据预处理不是简单合并,而是按研究问题做定向筛选。

6.2 过滤标准要写清楚

方法部分要明确写出排除规则。常见内容包括:

  • 去除不相关疾病样本。
  • 去除转移灶样本。
  • 去除缺少临床或注释信息的样本。
  • 去除无法完成ID映射的样本。

如果是肿瘤与正常对照研究,通常只保留这两类样本。这样才能保证分组清晰,统计检验有效。

7. 第6步,ID转换与基因注释整理

7.1 把基因ID转成可读注释

课程中提到,要下载基因ID与基因名称的TSV文件,并提取基因ID与样本ID的交集,整理成最终数据集。这样做的好处是,后续分析不只看到一串ID,还能识别具体基因名称。

对于医学生和科研人员来说,这一步非常重要。因为很多下游解释都要依赖基因符号,而不是原始编号。

7.2 按基因类型拆分表达矩阵

课程提纲还包含lncRNA、mRNA和miRNA的整理。处理时通常先做基因类型统计,再按注释结果拆分:

  • 提取 mRNA 表达矩阵。
  • 提取 lncRNA 表达矩阵。
  • 整理 miRNA 前体或成熟体数据。

不同分子类型不要混在同一张矩阵里。
否则下游差异分析和富集分析都不成立。

8. 第7步,完成数据评估与保存结果

8.1 先做基础质量评估

课程提纲中给出了完整的数据评估思路,包括箱线图、密度图、PCA图和距离聚类图。实际做法是先检查原始数据分布,再看样本是否存在离群值,最后确认 tumor 与 normal 是否能合理分离。

常见检查项包括:

  • 原始箱线图是否整齐。
  • 密度图是否存在明显偏移。
  • PCA 是否能区分分组。
  • 聚类树状图是否出现异常样本。

质量评估的目的,是在正式分析前尽早发现问题。

8.2 保存可追溯的数据版本

预处理完成后,要把结果保存成规范格式,例如整理后的 TSV、矩阵文件或 R 对象。这样后续差异分析、可视化和写作都能直接调用。

从论文写作角度看,方法部分至少要交代:

  1. 数据来源。
  2. 过滤规则。
  3. ID转换方式。
  4. 保存的数据格式。
  5. 缺失值处理方式。

这些信息越清楚,研究越可信。

9. 测序数据预处理的写作要点

9.1 方法部分要写到可复现

课程强调,方法部分的核心是“别人能不能照着做出来”。所以在写测序数据预处理时,建议明确说明:

  • 使用了哪些 R 包。
  • 读取了哪些文件类型。
  • 如何匹配样本与基因ID。
  • 过滤了哪些样本。
  • 如何处理NA和重复值。

写方法不是写概念,而是写操作细节。

9.2 常见问题要提前说明

如果样本量因为过滤而减少,要说明原因。如果某些数据没有临床信息,也要写明是否剔除。如果存在成熟体 miRNA 与前体 miRNA 的不同整理方式,也需要交代清楚。

这些细节看似琐碎,但正是E-E-A-T所要求的信任度来源。

总结Conclusion

测序数据预处理的本质,是把混乱的原始测序文件变成可分析、可复现、可写入论文的方法数据。标准流程包括读取 metadata、匹配样本ID、校验 MD5、批量合并表达矩阵、过滤样本、完成ID转换,以及做基础质量评估。只有把这7步做扎实,后续差异分析和生信写作才站得住。

如果你希望把 TCGA、miRNA、lncRNA 或 mRNA 数据整理流程做得更规范,可以直接使用解螺旋 的生信课程与方法支持,减少试错时间,提升分析效率和论文可复现性。

一张干净的生信分析流程总结图,包含metadata、过滤、ID转换、质控、保存结果五个模块