引言Introduction

单细胞数据质控决定后续分析是否可信。很多项目不是“不会分析”,而是前期低质量细胞混入太多 ,导致聚类偏移、差异基因失真,甚至结论错误。本文围绕单细胞数据质控 的5大关键指标,帮助医学生、医生和科研人员快速建立全局判断框架。
单细胞测序数据流程示意图,突出质控、降维、聚类三个节点,背景为细胞与测序矩阵的简洁科研风格插图

1. 为什么单细胞数据质控是第一步

1.1 质控的目标不是“删数据”,而是保留可信细胞

单细胞实验常见问题有两类。第一类是低质量细胞,表现为测到的基因少、转录本少,或比对率异常低。第二类是混入异常细胞,例如双细胞或多细胞油滴,会直接扭曲表达矩阵。

单细胞数据质控的核心目标,是尽早排除会污染后续分析的细胞。
这一步做得好,后面的降维、聚类和差异分析才有意义。

1.2 质控结果会直接影响下游分析

上游课程案例中,原始数据为2,579个细胞,经过基础过滤后保留2,210个细胞,保留率约86%。这说明质控并不是少删越好,而是要按数据分布设置合理阈值。

如果低质量细胞保留过多,常见后果包括:

  • PCA、t-SNE或UMAP图出现“噪音尾巴”。
  • 聚类边界模糊,亚群不稳定。
  • marker基因表达被稀释。
  • 差异分析出现假阳性或假阴性。

2. 关键指标一:每个细胞检测到的基因数

2.1 基因数反映细胞信息完整度

在单细胞数据质控中,基因数是最直观的指标之一。一个细胞检测到的基因越少,说明捕获到的转录信息越有限,往往提示细胞质量差、RNA降解,或者建库效率不足。

课程中给出的经验阈值是2,000个基因
对于该胚胎数据,这是合理的,因为胚胎细胞和干性较强的生殖细胞本身转录活性高。

2.2 阈值不能照搬,要结合样本类型

2,000个基因不是通用标准。
不同体系差异很大。

例如:

  • 胚胎组织、干性细胞,通常基因数更高。
  • 成体组织、低RNA含量细胞,阈值可能需要下调。
  • 10x或Drop-seq数据,某些场景下200到500个基因也可能用于初筛。

因此,判断时要看整体分布,而不是只盯着单个数值。
单细胞数据质控的关键,是依据样本背景设阈值。

3. 关键指标二:每个细胞的转录本数或UMI数

3.1 转录本数反映测序深度和捕获效率

转录本数,或UMI count,代表一个细胞被捕获到的分子总量。它既能反映测序深度,也能间接反映建库质量。

课程案例中,设置了10万转录本数 作为阈值。
原因是该数据整体质量很好,且研究对象是胚胎生殖细胞,表达量本来就高。

3.2 过低和过高都要警惕

转录本数过低,常见于:

  • 细胞破裂。
  • RNA降解。
  • 捕获失败。

转录本数异常过高,则要怀疑:

  • 不是单细胞,而是双细胞或多细胞。
  • 存在异常高背景信号。
  • 文库复杂度异常。

单细胞数据质控不是只看“低值剔除”,高异常值同样重要。

4. 关键指标三:比对率或Mapping rate

4.1 比对率反映测序内容是否可靠

比对率是指测序reads中成功比对到参考基因组的比例。
如果一个细胞的reads大多比不到参考序列,说明它的文库可能存在问题,或者样本质量本身就差。

这类细胞继续保留,会把技术噪音带入后续分析。
比对率低,是单细胞数据质控中非常重要的报警信号。

4.2 适合用于排查系统性问题

比对率异常时,往往不只是单个细胞的问题,还可能提示:

  • 组织解离不充分。
  • RNA质量差。
  • 文库构建失败。
  • 参考基因组或注释文件不匹配。

因此,比对率不仅用于过滤细胞,也可用于回头检查实验流程。
这是E-E-A-T意义上的“经验判断”:质控既看结果,也看原因。

5. 关键指标四:总reads数和异常高值细胞

5.1 总reads数能提示非单细胞风险

课程中提到,单细胞总reads数也值得关注。
如果某个细胞的reads总数异常偏高,不能简单认为它“质量很好”。它也可能是双细胞甚至多细胞混合进入同一油滴。

这类细胞在表达矩阵中会表现为:

  • 基因数偏高。
  • UMI偏高。
  • marker混杂。
  • 聚类位置异常。

5.2 为什么高reads细胞会污染分析

高reads细胞会让聚类算法误判相似性。
比如两个原本独立的细胞类型,被一个混合细胞“桥接”,就可能在图上形成错误过渡。

因此,单细胞数据质控要同时排除低值和高异常值。
只删低质量细胞,远远不够。

6. 关键指标五:高变基因或高抑制性基因的选择

6.1 不是所有基因都适合用于后续分析

单细胞转录组通常有2万多个基因,但真正能区分细胞类型的只是其中一部分。
大多数基因在不同细胞之间表达差异不明显,另一些则可能受测序技术影响,噪音较大。

因此,后续分析通常要筛选能体现细胞差异的基因。
课程中将其描述为高抑制性基因 ,本质上是挑出更能代表不同细胞类型特征的信号。

6.2 这一步关系到聚类和注释质量

如果特征基因筛选不合理,常见问题包括:

  • 细胞亚群分不开。
  • 聚类结果不稳定。
  • marker基因信号不突出。
  • 注释偏差增大。

从分析流程看,单细胞数据质控不止是过滤细胞,也包括筛选用于建模的特征基因。
这一步会显著影响后续降维和聚类的可解释性。

7. 实战中如何建立一套可复用的质控流程

7.1 先看分布,再定阈值

建议按以下顺序处理:

  1. 查看每个细胞的基因数分布。
  2. 查看UMI或转录本数分布。
  3. 查看比对率分布。
  4. 排查异常高reads细胞。
  5. 再决定是否进一步保留高变基因。

不要先设固定阈值,再强行套到所有项目。

7.2 阈值要结合组织来源和实验平台

胚胎样本、成体样本、肿瘤样本、免疫细胞样本,质控阈值都可能不同。
10x Genomics、Drop-seq、Smart-seq2的信号特征也不同。

因此,真正规范的做法是:

  • 先看全局分布。
  • 再结合样本生物学背景。
  • 最后确定过滤策略。

这也是高质量单细胞数据质控的标准思路。

7.3 建议把质控和结果回看结合起来

质控不应是一次性动作。
完成聚类后,还要回看:

  • 是否存在明显低质量簇。
  • 是否某个簇以高线粒体或低基因为特征。
  • 是否存在疑似双细胞群。

质控是贯穿全流程的,而不是只发生在最开始。

总结Conclusion

单细胞数据质控决定了后续分析的可信度。真正需要关注的,不只是“删掉低质量细胞”,还包括基因数、转录本数、比对率、总reads数和特征基因筛选这5个关键环节。
先看分布,再定阈值,再结合样本背景调整策略 ,这是更稳妥的分析逻辑。

如果你希望把这些步骤标准化,减少重复摸索,可以借助解螺旋的单细胞分析内容与工具支持,把质控、筛选和下游分析串成一条清晰流程。这样,单细胞数据质控就不再是经验猜测,而是可复用、可追踪、可解释的规范流程。
科研人员在电脑前查看单细胞质控图表的场景,屏幕展示基因数分布、UMI分布和比对率曲线,整体风格专业简洁