什么是测序数据预处理？

测序数据预处理是将原始测序文件整理、清洗、过滤并转换为可用于后续分析的标准化数据集的过程。

TCGA测序数据预处理为什么重要？

因为TCGA数据文件多、样本杂、ID复杂，若不先清洗和匹配，后续差异分析、分组和富集结果容易偏移且难以复现。

测序数据预处理通常包括哪些步骤？

通常包括读取metadata、匹配样本ID、校验MD5、合并表达矩阵、过滤异常样本、进行ID转换和基础质量评估。

测序数据预处理怎么做？7步详解

作者：Dr.Xin

2026-05-13｜原创

引言Introduction

测序数据预处理是生信分析里最容易出错的一步。TCGA这类公开数据常见文件多、样本杂、ID复杂，若不先清洗，后续差异分析、富集分析和分组都会偏移。想把数据做对，先把测序数据预处理做规范。
TCGA测序数据从下载、metadata整理到样本过滤的流程图，强调清洗前后的对比

1. 为什么测序数据预处理是第一道门槛

1.1 预处理决定后续分析能否复现

在生信研究中，预处理不是简单整理文件，而是把原始测序数据转成可分析的数据集。课程内容明确提到，方法部分必须交代数据来源、分析对象、处理步骤和排除标准，才能保证可重复性。如果这一步不清楚，后面的结果就很难被审稿人接受。

TCGA数据尤其如此。下载后的内容通常包含metadata、表达矩阵、样本注释和多个子文件。样本类型、患者ID、文件名、MD5值都要先对应起来，再进入分析。

1.2 预处理要解决的核心问题

测序数据预处理主要解决四类问题。

合并数据，统一文件结构。
提取样本分组信息，区分 tumor 和 normal。
过滤不合适样本，如转移性样本或不相关亚型。
做ID转换，把基因ID、样本ID和注释信息对齐。

这四步做不好，表达矩阵再完整也没有意义。

2. 第1步，读取metadata并理解数据结构

2.1 先看JSON里的关键信息

课程里提到，TCGA下载后的metadata通常存放在JSON文件中。读取时一般要提取三类信息：注册信息、barcode信息和sample type信息。实际操作中常用 jsonlite 包读取JSON，再整理出文件名、MD5值和TCGA ID。

这一步的目的很直接。你要先知道每个文件对应哪个样本，属于什么类型，能不能用于研究。

2.2 样本类型要先转成可用分组

在TCGA里，sample type ID 常用编码表示样本来源，例如 01 表示原发肿瘤。课程提纲还强调要把样本类型整理成 normal 与 tumor 这类分组信息，方便后续比较分析。

分组先清楚，统计才成立。
如果一开始就混入不明样本，后续差异表达结果会失真。

3. 第2步，整理文件路径并匹配样本ID

3.1 统一路径，避免文件错配

下载后的测序文件往往散落在不同文件夹中。预处理时要先定义文件路径，再列出文件并按 pattern 过滤目标文件，比如只保留 CT 文件或 CONS 文件。这样可以避免把无关文件误读进来。

课程中还强调要把文件名、TCGA ID、患者ID整理到同一张表里。这一步本质上是在建立“文件-样本-患者”的映射关系。

3.2 用barcode和患者ID完成对照

TCGA barcode 里通常包含患者和样本信息。预处理时可先提取前几位作为患者ID，再与metadata对照。这样可以检查是否存在文件命名不一致、样本重复或缺失的问题。

建议在这一阶段就做一次完整核对：

文件名是否和metadata一致。
MD5值是否匹配，确认下载无误。
样本类型是否与研究设计一致。
分组是否已经正确标注。

4. 第3步，验证MD5并确保文件完整

4.1 MD5校验不是形式

课程提纲明确提到，要验证下载的 CONS 文件的 MD5 值与 metadata 一致性。MD5 的作用是确认文件在下载或传输过程中没有损坏。

对大规模公共数据库数据来说，这一步很重要。因为一个损坏文件就可能导致整批样本读取失败，或者产生隐性错误。

4.2 预处理阶段就要排除异常文件

如果 MD5 不一致，建议直接剔除或重新下载。不要把“疑似损坏文件”带入后续矩阵合并。预处理的目标不是凑齐样本数，而是保证数据可靠。

5. 第4步，批量读取表达文件并合并矩阵

5.1 读取CONS或计数文件

课程中使用 readr 包批量读取 CONS 文件。每个文件通常包含基因ID和count数据。读取后要把多个文件整合成一个数据框，形成统一的表达矩阵。

这一步最容易出现列名混乱和顺序不一致的问题，所以要在读取后立即检查：

行名是否为基因ID。
列是否为样本ID。
数据类型是否为数值型。
是否存在重复基因或重复样本。

5.2 合并前先处理NA和空值

后续课程提到，在miRNA整理中需要检查NA并替换为0。这个原则同样适用于表达矩阵处理。如果缺失值不符合分析要求，要在方法中写明处理方式。

对于原始测序数据，空白、未知或异常值不能默认保留。必须明确记录处理策略。

6. 第5步，样本过滤与注释信息清洗

6.1 只保留研究需要的样本

课程案例中提到，需要下载并读取样本注释TSV文件，提取肝脏相关注释信息，同时剔除不合适的样本，比如胆管癌样本、转移性肿瘤样本等。最后再生成新的TSV文件保存过滤后的样本信息。

这说明一个关键原则。测序数据预处理不是简单合并，而是按研究问题做定向筛选。

6.2 过滤标准要写清楚

方法部分要明确写出排除规则。常见内容包括：

去除不相关疾病样本。
去除转移灶样本。
去除缺少临床或注释信息的样本。
去除无法完成ID映射的样本。

如果是肿瘤与正常对照研究，通常只保留这两类样本。这样才能保证分组清晰，统计检验有效。

7. 第6步，ID转换与基因注释整理

7.1 把基因ID转成可读注释

课程中提到，要下载基因ID与基因名称的TSV文件，并提取基因ID与样本ID的交集，整理成最终数据集。这样做的好处是，后续分析不只看到一串ID，还能识别具体基因名称。

对于医学生和科研人员来说，这一步非常重要。因为很多下游解释都要依赖基因符号，而不是原始编号。

7.2 按基因类型拆分表达矩阵

课程提纲还包含lncRNA、mRNA和miRNA的整理。处理时通常先做基因类型统计，再按注释结果拆分：

提取 mRNA 表达矩阵。
提取 lncRNA 表达矩阵。
整理 miRNA 前体或成熟体数据。

不同分子类型不要混在同一张矩阵里。
否则下游差异分析和富集分析都不成立。

8. 第7步，完成数据评估与保存结果

8.1 先做基础质量评估

课程提纲中给出了完整的数据评估思路，包括箱线图、密度图、PCA图和距离聚类图。实际做法是先检查原始数据分布，再看样本是否存在离群值，最后确认 tumor 与 normal 是否能合理分离。

常见检查项包括：

原始箱线图是否整齐。
密度图是否存在明显偏移。
PCA 是否能区分分组。
聚类树状图是否出现异常样本。

质量评估的目的，是在正式分析前尽早发现问题。

8.2 保存可追溯的数据版本

预处理完成后，要把结果保存成规范格式，例如整理后的 TSV、矩阵文件或 R 对象。这样后续差异分析、可视化和写作都能直接调用。

从论文写作角度看，方法部分至少要交代：

数据来源。
过滤规则。
ID转换方式。
保存的数据格式。
缺失值处理方式。

这些信息越清楚，研究越可信。

9. 测序数据预处理的写作要点

9.1 方法部分要写到可复现

课程强调，方法部分的核心是“别人能不能照着做出来”。所以在写测序数据预处理时，建议明确说明：

使用了哪些 R 包。
读取了哪些文件类型。
如何匹配样本与基因ID。
过滤了哪些样本。
如何处理NA和重复值。

写方法不是写概念，而是写操作细节。

9.2 常见问题要提前说明

如果样本量因为过滤而减少，要说明原因。如果某些数据没有临床信息，也要写明是否剔除。如果存在成熟体 miRNA 与前体 miRNA 的不同整理方式，也需要交代清楚。

这些细节看似琐碎，但正是E-E-A-T所要求的信任度来源。

总结Conclusion

测序数据预处理的本质，是把混乱的原始测序文件变成可分析、可复现、可写入论文的方法数据。标准流程包括读取 metadata、匹配样本ID、校验 MD5、批量合并表达矩阵、过滤样本、完成ID转换，以及做基础质量评估。只有把这7步做扎实，后续差异分析和生信写作才站得住。

如果你希望把 TCGA、miRNA、lncRNA 或 mRNA 数据整理流程做得更规范，可以直接使用解螺旋 的生信课程与方法支持，减少试错时间，提升分析效率和论文可复现性。

一张干净的生信分析流程总结图，包含metadata、过滤、ID转换、质控、保存结果五个模块