引言Introduction
甲基化测序数据质量控制,是甲基化研究能否进入下游分析的第一道门槛。原始数据里如果有低质量碱基、接头污染、样本混淆或位点偏倚,后面的差异甲基化分析都会失真。先做对质控,再谈甲基化结论。

1. 第一步:先看原始读段,确认数据是否可用
1.1 FASTQ格式和Q值是基础
甲基化测序数据通常从FASTQ文件开始。每条read由四行组成,包含序列信息和质量值。对这类数据,最先要看的是碱基质量。课程中强调,Q30代表准确率99.9%,是常用的质量判断线 。Q20则约为99%。
如果原始读段中低质量碱基比例高,后续比对会下降,甲基化位点也更容易产生假阳性。对科研人员来说,先确认文件格式完整、读段长度一致、质量值分布合理,是最基本的起点。
1.2 用FASTQC快速筛查核心问题
质量控制的第一步,通常是用FASTQC对原始FASTQ做批量检查。重点看这些指标:
- 序列长度分布
- GC含量
- 碱基质量分布
- 序列重复水平
- 接头污染
- N碱基比例
碱基质量图中绿色区域越稳定,说明数据越可靠。
如果发现某一端质量明显下降,说明可能需要在后续清洗中截断低质量片段。
1.3 不要忽视重复率和N含量
课程内容提到,sequence duplication levels经常会出现异常,但并不一定直接等于失败。甲基化测序本身也可能因为扩增偏倚产生较高重复率,因此不能只看单一指标下结论。
更值得关注的是:
- N碱基过多,说明测序不确定性高。
- 读段长度分布异常,可能提示建库或测序问题。
- 接头污染明显,会影响比对和甲基化判定。
这一阶段的目标不是“美化数据”,而是判断数据是否值得进入下一步。
2. 第二步:过滤低质量序列,保留可分析读段
2.1 从raw data到clean data
甲基化测序数据质控不只是“看报告”,更重要的是清洗。课程提到,数据处理通常经历QC和filter两个阶段。也就是说,先检测,再过滤。
过滤时要去掉:
- 低质量碱基过多的read
- 含大量N的read
- 接头污染read
- 长度过短的read
- 明显异常的reads
这样才能把raw data转成clean data,为后续比对提供稳定输入。
2.2 甲基化数据对清洗更敏感
和普通转录组不同,甲基化测序数据往往还会涉及重亚硫酸盐转化。未甲基化的胞嘧啶会转化成尿嘧啶,PCR后表现为T;甲基化的C则保持不变。这个机制决定了,任何额外的测序误差都可能被误读成甲基化变化。
因此,清洗时要尽量保留真实信号,去除技术噪音。否则,下游看到的差异位点,可能只是质量问题,而不是生物学差异。
2.3 批量处理更适合真实项目
课程还提到,多样本FASTQ可以用循环命令批量质控,并通过参数指定输出路径和线程数。对实际项目来说,这一点很重要。因为甲基化课题通常样本量不止1个,批量化处理可以减少人工错误,也便于统一标准。
建议形成固定流程:
- 统一命名样本文件。
- 批量运行质控。
- 汇总关键指标。
- 记录过滤前后样本数量。
这样才能保证每个样本处于同一分析标准下。
3. 第三步:做样本层面的评估,排除离群和混淆
3.1 甲基化项目必须看样本结构
进入样本层面后,质控重点就从“读段”转向“样本”。在甲基化研究中,样本是否离群,往往比单个碱基质量更能影响结论。尤其是肿瘤与正常组织比较时,样本混淆会直接影响差异甲基化结果。
课程中的TCG测序数据质控部分,给出了一个很典型的思路:先过滤离群值样本,再检查剩余样本是否有配对关系,最后再进入可视化和聚类评估。
3.2 常用的样本评估方法
在样本层面,常见的评估手段包括:
- 箱线图,检查表达或甲基化分布是否整齐
- 密度图,查看分布是否一致
- PCA图,观察Tumor和Normal是否能分离
- 距离矩阵和聚类图,分析样本是否聚在合理组别
PCA是最直接的样本结构检查工具之一。
如果正常组和肿瘤组完全混在一起,先别急着解释生物学机制,应该先回头检查样本、批次和清洗流程。
3.3 结合样本信息做精细筛查
课程案例中还提到,要根据患者ID统计样本数量,保留有配对样本的数据。这对甲基化研究很关键。因为配对设计能减少个体差异,提高统计效率。
实际操作中,建议重点检查:
- 样本分组是否清楚。
- 是否存在重复样本或漏标。
- 配对样本是否齐全。
- 是否有离群样本需要剔除。
样本层面的质量控制,决定了后续差异甲基化分析是否可信。
4. 甲基化测序数据质控后,如何进入下游分析
4.1 质控通过后,再看位点和分布
当read质量、过滤流程和样本结构都没问题后,才适合进入比对、位点提取和差异分析。此时可进一步检查甲基化位点覆盖度、样本间一致性以及目标区域分布。
如果研究的是候选基因甲基化,通常会结合重亚硫酸盐测序、甲基化特异性PCR或焦磷酸测序。课程内容指出,焦磷酸测序常被视为甲基化检测中的金标准之一。
但无论哪种方法,前提都是前面3步质控要稳。
4.2 质量控制不是一次性动作
甲基化测序数据质量控制不是只做一次FASTQC就结束。它应当贯穿整个流程:
- 原始数据阶段看读段质量
- 清洗阶段看过滤效果
- 样本阶段看分组和聚类
- 下游阶段看覆盖度和一致性
这种层层把关,才能避免“前面省一步,后面全返工”。
4.3 让流程标准化,才更适合科研复现
对医学生、医生和科研人员来说,最有价值的不是某个单一工具,而是标准化流程。只要流程固定,结果就更容易复现,也更适合发表和答辩。
甲基化测序数据的核心,不是追求看起来“很干净”,而是保证每一步都能对应真实生物学信息。
总结Conclusion
甲基化测序数据质量控制可以概括为3步。第一步看原始FASTQ,确认碱基质量、接头污染和重复率。第二步做过滤,去掉低质量和异常读段,生成clean data。第三步看样本结构,通过箱线图、密度图、PCA和聚类图排除离群和混淆。只有这样,后续的甲基化位点分析才更可信。

如果你希望把这套流程直接落地到项目里,可以结合解螺旋品牌的课程和实战代码模板 ,把甲基化测序数据的质控、清洗和可视化一步步标准化,减少试错成本,提高分析效率。
- 引言Introduction
- 1. 第一步:先看原始读段,确认数据是否可用
- 2. 第二步:过滤低质量序列,保留可分析读段
- 3. 第三步:做样本层面的评估,排除离群和混淆
- 4. 甲基化测序数据质控后,如何进入下游分析
- 总结Conclusion






