引言Introduction
测序数据预处理是生信分析里最容易出错的一步。TCGA这类公开数据常见文件多、样本杂、ID复杂,若不先清洗,后续差异分析、富集分析和分组都会偏移。想把数据做对,先把测序数据预处理做规范。

1. 为什么测序数据预处理是第一道门槛
1.1 预处理决定后续分析能否复现
在生信研究中,预处理不是简单整理文件,而是把原始测序数据转成可分析的数据集。课程内容明确提到,方法部分必须交代数据来源、分析对象、处理步骤和排除标准,才能保证可重复性。如果这一步不清楚,后面的结果就很难被审稿人接受。
TCGA数据尤其如此。下载后的内容通常包含metadata、表达矩阵、样本注释和多个子文件。样本类型、患者ID、文件名、MD5值都要先对应起来,再进入分析。
1.2 预处理要解决的核心问题
测序数据预处理主要解决四类问题。
- 合并数据,统一文件结构。
- 提取样本分组信息,区分 tumor 和 normal。
- 过滤不合适样本,如转移性样本或不相关亚型。
- 做ID转换,把基因ID、样本ID和注释信息对齐。
这四步做不好,表达矩阵再完整也没有意义。
2. 第1步,读取metadata并理解数据结构
2.1 先看JSON里的关键信息
课程里提到,TCGA下载后的metadata通常存放在JSON文件中。读取时一般要提取三类信息:注册信息、barcode信息和sample type信息。实际操作中常用 jsonlite 包读取JSON,再整理出文件名、MD5值和TCGA ID。
这一步的目的很直接。你要先知道每个文件对应哪个样本,属于什么类型,能不能用于研究。
2.2 样本类型要先转成可用分组
在TCGA里,sample type ID 常用编码表示样本来源,例如 01 表示原发肿瘤。课程提纲还强调要把样本类型整理成 normal 与 tumor 这类分组信息,方便后续比较分析。
分组先清楚,统计才成立。
如果一开始就混入不明样本,后续差异表达结果会失真。
3. 第2步,整理文件路径并匹配样本ID
3.1 统一路径,避免文件错配
下载后的测序文件往往散落在不同文件夹中。预处理时要先定义文件路径,再列出文件并按 pattern 过滤目标文件,比如只保留 CT 文件或 CONS 文件。这样可以避免把无关文件误读进来。
课程中还强调要把文件名、TCGA ID、患者ID整理到同一张表里。这一步本质上是在建立“文件-样本-患者”的映射关系。
3.2 用barcode和患者ID完成对照
TCGA barcode 里通常包含患者和样本信息。预处理时可先提取前几位作为患者ID,再与metadata对照。这样可以检查是否存在文件命名不一致、样本重复或缺失的问题。
建议在这一阶段就做一次完整核对:
- 文件名是否和metadata一致。
- MD5值是否匹配,确认下载无误。
- 样本类型是否与研究设计一致。
- 分组是否已经正确标注。
4. 第3步,验证MD5并确保文件完整
4.1 MD5校验不是形式
课程提纲明确提到,要验证下载的 CONS 文件的 MD5 值与 metadata 一致性。MD5 的作用是确认文件在下载或传输过程中没有损坏。
对大规模公共数据库数据来说,这一步很重要。因为一个损坏文件就可能导致整批样本读取失败,或者产生隐性错误。
4.2 预处理阶段就要排除异常文件
如果 MD5 不一致,建议直接剔除或重新下载。不要把“疑似损坏文件”带入后续矩阵合并。预处理的目标不是凑齐样本数,而是保证数据可靠。
5. 第4步,批量读取表达文件并合并矩阵
5.1 读取CONS或计数文件
课程中使用 readr 包批量读取 CONS 文件。每个文件通常包含基因ID和count数据。读取后要把多个文件整合成一个数据框,形成统一的表达矩阵。
这一步最容易出现列名混乱和顺序不一致的问题,所以要在读取后立即检查:
- 行名是否为基因ID。
- 列是否为样本ID。
- 数据类型是否为数值型。
- 是否存在重复基因或重复样本。
5.2 合并前先处理NA和空值
后续课程提到,在miRNA整理中需要检查NA并替换为0。这个原则同样适用于表达矩阵处理。如果缺失值不符合分析要求,要在方法中写明处理方式。
对于原始测序数据,空白、未知或异常值不能默认保留。必须明确记录处理策略。
6. 第5步,样本过滤与注释信息清洗
6.1 只保留研究需要的样本
课程案例中提到,需要下载并读取样本注释TSV文件,提取肝脏相关注释信息,同时剔除不合适的样本,比如胆管癌样本、转移性肿瘤样本等。最后再生成新的TSV文件保存过滤后的样本信息。
这说明一个关键原则。测序数据预处理不是简单合并,而是按研究问题做定向筛选。
6.2 过滤标准要写清楚
方法部分要明确写出排除规则。常见内容包括:
- 去除不相关疾病样本。
- 去除转移灶样本。
- 去除缺少临床或注释信息的样本。
- 去除无法完成ID映射的样本。
如果是肿瘤与正常对照研究,通常只保留这两类样本。这样才能保证分组清晰,统计检验有效。
7. 第6步,ID转换与基因注释整理
7.1 把基因ID转成可读注释
课程中提到,要下载基因ID与基因名称的TSV文件,并提取基因ID与样本ID的交集,整理成最终数据集。这样做的好处是,后续分析不只看到一串ID,还能识别具体基因名称。
对于医学生和科研人员来说,这一步非常重要。因为很多下游解释都要依赖基因符号,而不是原始编号。
7.2 按基因类型拆分表达矩阵
课程提纲还包含lncRNA、mRNA和miRNA的整理。处理时通常先做基因类型统计,再按注释结果拆分:
- 提取 mRNA 表达矩阵。
- 提取 lncRNA 表达矩阵。
- 整理 miRNA 前体或成熟体数据。
不同分子类型不要混在同一张矩阵里。
否则下游差异分析和富集分析都不成立。
8. 第7步,完成数据评估与保存结果
8.1 先做基础质量评估
课程提纲中给出了完整的数据评估思路,包括箱线图、密度图、PCA图和距离聚类图。实际做法是先检查原始数据分布,再看样本是否存在离群值,最后确认 tumor 与 normal 是否能合理分离。
常见检查项包括:
- 原始箱线图是否整齐。
- 密度图是否存在明显偏移。
- PCA 是否能区分分组。
- 聚类树状图是否出现异常样本。
质量评估的目的,是在正式分析前尽早发现问题。
8.2 保存可追溯的数据版本
预处理完成后,要把结果保存成规范格式,例如整理后的 TSV、矩阵文件或 R 对象。这样后续差异分析、可视化和写作都能直接调用。
从论文写作角度看,方法部分至少要交代:
- 数据来源。
- 过滤规则。
- ID转换方式。
- 保存的数据格式。
- 缺失值处理方式。
这些信息越清楚,研究越可信。
9. 测序数据预处理的写作要点
9.1 方法部分要写到可复现
课程强调,方法部分的核心是“别人能不能照着做出来”。所以在写测序数据预处理时,建议明确说明:
- 使用了哪些 R 包。
- 读取了哪些文件类型。
- 如何匹配样本与基因ID。
- 过滤了哪些样本。
- 如何处理NA和重复值。
写方法不是写概念,而是写操作细节。
9.2 常见问题要提前说明
如果样本量因为过滤而减少,要说明原因。如果某些数据没有临床信息,也要写明是否剔除。如果存在成熟体 miRNA 与前体 miRNA 的不同整理方式,也需要交代清楚。
这些细节看似琐碎,但正是E-E-A-T所要求的信任度来源。
总结Conclusion
测序数据预处理的本质,是把混乱的原始测序文件变成可分析、可复现、可写入论文的方法数据。标准流程包括读取 metadata、匹配样本ID、校验 MD5、批量合并表达矩阵、过滤样本、完成ID转换,以及做基础质量评估。只有把这7步做扎实,后续差异分析和生信写作才站得住。
如果你希望把 TCGA、miRNA、lncRNA 或 mRNA 数据整理流程做得更规范,可以直接使用解螺旋 的生信课程与方法支持,减少试错时间,提升分析效率和论文可复现性。

- 引言Introduction
- 1. 为什么测序数据预处理是第一道门槛
- 2. 第1步,读取metadata并理解数据结构
- 3. 第2步,整理文件路径并匹配样本ID
- 4. 第3步,验证MD5并确保文件完整
- 5. 第4步,批量读取表达文件并合并矩阵
- 6. 第5步,样本过滤与注释信息清洗
- 7. 第6步,ID转换与基因注释整理
- 8. 第7步,完成数据评估与保存结果
- 9. 测序数据预处理的写作要点
- 总结Conclusion






