VCF过滤前为什么要先检查BAM文件质量？

因为BAM的coverage、mapping rate和MAPQ会直接影响变异检测结果，输入质量差会导致后续过滤再严格也难以得到完整可靠的VCF。

VCF过滤时为什么要优先保留PASS位点？

PASS位点通常是调用软件判定为高可信的变异，先保留它们可以快速去掉明显不合格的候选，提高后续分析效率。

Tumor-only模式下VCF过滤为什么要更严格？

因为没有正常样本对照时，胚系变异更难排除，必须结合群体频率、PON、深度和变异丰度等信息来降低假阳性。

VCF过滤7大关键步骤是什么？

作者：Dr.Xin

2026-05-13｜原创

引言Introduction

VCF过滤是WES分析里最容易出错的一步。VCF里会混入低质量、污染、重复扩增和群体高频变异。若不处理好，后续注释和解读都会偏离临床与科研目标。掌握VCF过滤，决定你能否把真实突变从噪音里筛出来。 全外显子组WES流程示意图，重点突出bam到VCF再到过滤与注释的环节，旁边标注coverage、MAPQ、PASS等关键指标

1.VCF过滤前，先确认输入数据质量

1.1 先看bam文件，再谈变异

VCF过滤不是孤立步骤。上游bam质量会直接影响最终结果。常看三个指标。

coverage ，即平均覆盖度，反映外显子区域被reads覆盖的深度。
mapping rate ，反映reads中有多少能比对到参考基因组。
MAPQ ，反映reads的比对质量。

如果coverage不足、mapping rate偏低，后面的VCF过滤再严格，也只能得到“干净但不完整”的结果。

1.2 变异检测软件本身会影响过滤压力

不同variant calling软件的策略不同。GATK通常更严格，假阳性少，但可能漏掉部分真实变异。其他软件可能更“宽松”，召回更多候选位点，但噪音也更高。
因此，VCF过滤前要先知道：你的VCF是从什么调用流程来的。 这决定了后续阈值是否需要更保守或更宽松。

2.第一步：按VCF内置质量标记过滤

2.1 先保留PASS位点

VCF文件里通常会有质量标记。调用软件会根据内部规则给位点打标。最基础的做法是：

优先保留标记为PASS 的位点。
剔除明确被判定为低可信的记录。
对保留边界位点时，结合下游注释一起看。

这一步是VCF过滤的“第一道门”。它不解决全部问题，但能快速去掉明显不合格的候选。

2.2 关注clustered mutations

如果某一小段区域内，比如20 bp附近，突然聚集了很多变异，通常不正常。GATK会把这类情况标成clustered mutations 。
这类位点常提示局部测序误差、比对异常或文库问题。如果变异密度异常升高，应优先排查，而不是直接纳入解读。

3.第二步：排除比对质量差和边界异常位点

3.1 MAPQ低的位点要谨慎

MAPQ表示reads比对到参考基因组是否唯一、是否可靠。若reads存在多重比对，或者落在重复区域，MAPQ会下降。
在VCF过滤中，这类位点要重点关注，因为它们更容易出现假阳性。尤其是在复杂基因家族、重复序列和结构复杂区域，低MAPQ位点的解释价值明显下降。

3.2 read边界效应不能忽视

当变异位于read的两端边界附近时，更容易出现错误。即便测序质量看起来不差，边界位点仍可能受末端误差影响。
这也是为什么VCF过滤不能只看单一质量值。位点在read中的位置，本身就是一个重要风险信号。

4.第三步：去除污染与PCR假阳性

4.1 污染样本会制造“假变异”

污染可能来自样本之间交叉污染，也可能来自其他物种污染。对于肿瘤样本和混样样本，这个问题尤其要警惕。
如果污染存在，VCF里会出现不属于真实样本的变异信号。此时，简单提高阈值并不够，必须结合污染评估结果重新筛位点。

4.2 PCR重复引起的伪变异也要剔除

有些变异看似真实，实际上来源于PCR重复或扩增偏倚。尤其是局部重复序列、低复杂度区域，更容易出现这类问题。
在VCF过滤中，这类位点应优先排除。真实突变应该在独立reads中稳定出现，而不是被扩增过程放大。

5.第四步：结合群体频率过滤常见无害变异

5.1 高频人群变异通常优先过滤

VCF过滤离不开群体数据库。常见数据库包括千人基因组、gnomAD等群体频率资源。
如果某个位点在人群中频率较高，通常更可能是germline变异，或者对疾病没有明显贡献。
因此，分析肿瘤或遗传病相关数据时，高频位点通常应优先下调优先级或直接过滤。

5.2 阈值要随研究目的调整

不是所有高频位点都一定要删除。

做罕见病或肿瘤驱动突变分析时，通常更倾向过滤群体高频位点。
做药物反应或人群关联研究时，部分常见变异反而有意义。

所以，VCF过滤不是固定模板。阈值必须服务于研究问题。

6.第五步：区分肿瘤体细胞变异和胚系变异

6.1 配对样本模式更可靠

对于体细胞突变，最好使用肿瘤-正常配对模式。这样可以通过正常样本排除胚系变异。
如果某个位点在正常样本中也存在，就要高度怀疑它不是体细胞突变。
这是VCF过滤中最关键的生物学约束之一。

6.2 Tumor-only模式要更严格

如果没有正常对照，只能用Tumor-only模式。此时过滤压力更大，因为胚系变异更难去除。
通常需要结合：

群体频率数据库。
Panel of Normals, PON。
位点深度与变异丰度。
已知肿瘤热点位点。

Tumor-only分析中，VCF过滤必须更谨慎，否则假阳性会明显升高。

7.第六步：用PON和数据库去除系统性伪位点

7.1 PON是去伪的重要工具

PON，panel of normals，指正常样本集合。它能帮助去除在正常样本里反复出现的系统性噪音位点。
这在SNV、CNV和SV分析中都很常见。
如果某个位点总是在正常样本中出现，就不应轻易当作真实突变。

7.2 数据库比对要做交叉验证

除了PON，还应参考ClinVar、ClinGen等临床数据库，以及项目相关的内部知识库。
对于致病性判断，数据库能帮助识别哪些变异更值得保留。
但要注意，数据库是证据，不是结论。 过滤时要结合样本类型、疾病背景和检测平台综合判断。

8.第七步：过滤后再做注释和人工复核

8.1 先过滤，再注释，效率更高

经过前面几轮VCF过滤后，保留下来的位点数量会明显下降。
这时再进行VEP、Annovar或SnpEff等注释，效率更高，结果也更清晰。
注释后可重点看：

missense、frameshift、stop gain等功能类型。
致病性数据库证据。
与肿瘤或遗传病相关的基因。

8.2 关键位点必须回到原始比对图验证

再好的过滤规则，也不能替代人工复核。对临床相关位点，最好回看IGV。
重点检查：

是否有稳定的双链支持。
是否位于重复区。
是否存在明显偏倚。
是否与正常样本矛盾。

真正高质量的VCF过滤，最后一定要回到证据本身。

9.把VCF过滤做成可复用流程

9.1 建议的实操顺序

一个更稳妥的VCF过滤顺序通常是：

检查bam质量。
保留PASS位点。
过滤低MAPQ、边界异常、clustered mutations。
去除污染和PCR伪阳性。
按群体频率过滤。
用PON和正常样本排除系统性噪音。
结合注释和IGV复核。

这个顺序的核心原则是，先去技术噪音，再看生物学意义。

9.2 自动化比手工更适合大规模项目

WES报告和VCF分析常常涉及大量位点，人工逐条处理不现实。
对科研和临床项目来说，最好把VCF过滤写成标准化流程，统一参数、统一阈值、统一输出格式。
这样更利于重复分析、版本管理和结果追踪。

总结Conclusion

VCF过滤的本质，不是“删掉更多位点”，而是把技术噪音、系统伪影和常见无害变异尽可能分离出来 。真正有效的流程，通常包括7个关键步骤：先看bam质量，再筛PASS位点，处理比对异常，排除污染和PCR伪阳性，结合群体频率过滤，借助PON与正常样本去噪，最后再注释和人工复核。
如果你希望把这套流程做得更稳、更快、更适合临床或科研场景，可以借助解螺旋 的标准化分析与报告能力，把复杂的VCF过滤步骤串成可复用流程，减少漏检和误判，提升分析效率。
实验室科研人员在电脑前查看IGV与VCF注释结果的场景，画面中展示过滤流程图、PASS标记、PON和数据库图标，突出标准化分析与报告输出