引言Introduction

VCF过滤是WES分析里最容易出错的一步。VCF里会混入低质量、污染、重复扩增和群体高频变异。若不处理好,后续注释和解读都会偏离临床与科研目标。掌握VCF过滤,决定你能否把真实突变从噪音里筛出来。 全外显子组WES流程示意图,重点突出bam到VCF再到过滤与注释的环节,旁边标注coverage、MAPQ、PASS等关键指标

1.VCF过滤前,先确认输入数据质量

1.1 先看bam文件,再谈变异

VCF过滤不是孤立步骤。上游bam质量会直接影响最终结果。常看三个指标。

  • coverage ,即平均覆盖度,反映外显子区域被reads覆盖的深度。
  • mapping rate ,反映reads中有多少能比对到参考基因组。
  • MAPQ ,反映reads的比对质量。

如果coverage不足、mapping rate偏低,后面的VCF过滤再严格,也只能得到“干净但不完整”的结果。

1.2 变异检测软件本身会影响过滤压力

不同variant calling软件的策略不同。GATK通常更严格,假阳性少,但可能漏掉部分真实变异。其他软件可能更“宽松”,召回更多候选位点,但噪音也更高。
因此,VCF过滤前要先知道:你的VCF是从什么调用流程来的。 这决定了后续阈值是否需要更保守或更宽松。

2.第一步:按VCF内置质量标记过滤

2.1 先保留PASS位点

VCF文件里通常会有质量标记。调用软件会根据内部规则给位点打标。最基础的做法是:

  1. 优先保留标记为PASS 的位点。
  2. 剔除明确被判定为低可信的记录。
  3. 对保留边界位点时,结合下游注释一起看。

这一步是VCF过滤的“第一道门”。它不解决全部问题,但能快速去掉明显不合格的候选。

2.2 关注clustered mutations

如果某一小段区域内,比如20 bp附近,突然聚集了很多变异,通常不正常。GATK会把这类情况标成clustered mutations
这类位点常提示局部测序误差、比对异常或文库问题。如果变异密度异常升高,应优先排查,而不是直接纳入解读。

3.第二步:排除比对质量差和边界异常位点

3.1 MAPQ低的位点要谨慎

MAPQ表示reads比对到参考基因组是否唯一、是否可靠。若reads存在多重比对,或者落在重复区域,MAPQ会下降。
在VCF过滤中,这类位点要重点关注,因为它们更容易出现假阳性。尤其是在复杂基因家族、重复序列和结构复杂区域,低MAPQ位点的解释价值明显下降。

3.2 read边界效应不能忽视

当变异位于read的两端边界附近时,更容易出现错误。即便测序质量看起来不差,边界位点仍可能受末端误差影响。
这也是为什么VCF过滤不能只看单一质量值。位点在read中的位置,本身就是一个重要风险信号。

4.第三步:去除污染与PCR假阳性

4.1 污染样本会制造“假变异”

污染可能来自样本之间交叉污染,也可能来自其他物种污染。对于肿瘤样本和混样样本,这个问题尤其要警惕。
如果污染存在,VCF里会出现不属于真实样本的变异信号。此时,简单提高阈值并不够,必须结合污染评估结果重新筛位点。

4.2 PCR重复引起的伪变异也要剔除

有些变异看似真实,实际上来源于PCR重复或扩增偏倚。尤其是局部重复序列、低复杂度区域,更容易出现这类问题。
在VCF过滤中,这类位点应优先排除。真实突变应该在独立reads中稳定出现,而不是被扩增过程放大。

5.第四步:结合群体频率过滤常见无害变异

5.1 高频人群变异通常优先过滤

VCF过滤离不开群体数据库。常见数据库包括千人基因组、gnomAD等群体频率资源。
如果某个位点在人群中频率较高,通常更可能是germline变异,或者对疾病没有明显贡献。
因此,分析肿瘤或遗传病相关数据时,高频位点通常应优先下调优先级或直接过滤。

5.2 阈值要随研究目的调整

不是所有高频位点都一定要删除。

  • 做罕见病或肿瘤驱动突变分析时,通常更倾向过滤群体高频位点。
  • 做药物反应或人群关联研究时,部分常见变异反而有意义。

所以,VCF过滤不是固定模板。阈值必须服务于研究问题。

6.第五步:区分肿瘤体细胞变异和胚系变异

6.1 配对样本模式更可靠

对于体细胞突变,最好使用肿瘤-正常配对模式。这样可以通过正常样本排除胚系变异。
如果某个位点在正常样本中也存在,就要高度怀疑它不是体细胞突变。
这是VCF过滤中最关键的生物学约束之一。

6.2 Tumor-only模式要更严格

如果没有正常对照,只能用Tumor-only模式。此时过滤压力更大,因为胚系变异更难去除。
通常需要结合:

  • 群体频率数据库。
  • Panel of Normals, PON。
  • 位点深度与变异丰度。
  • 已知肿瘤热点位点。

Tumor-only分析中,VCF过滤必须更谨慎,否则假阳性会明显升高。

7.第六步:用PON和数据库去除系统性伪位点

7.1 PON是去伪的重要工具

PON,panel of normals,指正常样本集合。它能帮助去除在正常样本里反复出现的系统性噪音位点。
这在SNV、CNV和SV分析中都很常见。
如果某个位点总是在正常样本中出现,就不应轻易当作真实突变。

7.2 数据库比对要做交叉验证

除了PON,还应参考ClinVar、ClinGen等临床数据库,以及项目相关的内部知识库。
对于致病性判断,数据库能帮助识别哪些变异更值得保留。
但要注意,数据库是证据,不是结论。 过滤时要结合样本类型、疾病背景和检测平台综合判断。

8.第七步:过滤后再做注释和人工复核

8.1 先过滤,再注释,效率更高

经过前面几轮VCF过滤后,保留下来的位点数量会明显下降。
这时再进行VEP、Annovar或SnpEff等注释,效率更高,结果也更清晰。
注释后可重点看:

  • missense、frameshift、stop gain等功能类型。
  • 致病性数据库证据。
  • 与肿瘤或遗传病相关的基因。

8.2 关键位点必须回到原始比对图验证

再好的过滤规则,也不能替代人工复核。对临床相关位点,最好回看IGV。
重点检查:

  • 是否有稳定的双链支持。
  • 是否位于重复区。
  • 是否存在明显偏倚。
  • 是否与正常样本矛盾。

真正高质量的VCF过滤,最后一定要回到证据本身。

9.把VCF过滤做成可复用流程

9.1 建议的实操顺序

一个更稳妥的VCF过滤顺序通常是:

  1. 检查bam质量。
  2. 保留PASS位点。
  3. 过滤低MAPQ、边界异常、clustered mutations。
  4. 去除污染和PCR伪阳性。
  5. 按群体频率过滤。
  6. 用PON和正常样本排除系统性噪音。
  7. 结合注释和IGV复核。

这个顺序的核心原则是,先去技术噪音,再看生物学意义。

9.2 自动化比手工更适合大规模项目

WES报告和VCF分析常常涉及大量位点,人工逐条处理不现实。
对科研和临床项目来说,最好把VCF过滤写成标准化流程,统一参数、统一阈值、统一输出格式。
这样更利于重复分析、版本管理和结果追踪。

总结Conclusion

VCF过滤的本质,不是“删掉更多位点”,而是把技术噪音、系统伪影和常见无害变异尽可能分离出来 。真正有效的流程,通常包括7个关键步骤:先看bam质量,再筛PASS位点,处理比对异常,排除污染和PCR伪阳性,结合群体频率过滤,借助PON与正常样本去噪,最后再注释和人工复核。
如果你希望把这套流程做得更稳、更快、更适合临床或科研场景,可以借助解螺旋 的标准化分析与报告能力,把复杂的VCF过滤步骤串成可复用流程,减少漏检和误判,提升分析效率。
实验室科研人员在电脑前查看IGV与VCF注释结果的场景,画面中展示过滤流程图、PASS标记、PON和数据库图标,突出标准化分析与报告输出