引言Introduction

表达矩阵质控是单细胞转录组分析的第一道门槛。做不好,后续聚类、分群、差异分析都会偏。常见问题包括低质量细胞、双细胞、环境 RNA 污染和批次波动。想得到可信结果,表达矩阵质控必须先做严谨筛查,再进入下游分析。
1. 先理解表达矩阵质控的核心目标
1.1 质控不是“删数据”,而是筛除噪声
表达矩阵质控的目的,不是简单减少细胞数,而是保留真实生物信号。对于单细胞 RNA 测序,矩阵中的每一列通常代表一个细胞,每一行代表一个基因。若原始矩阵含有大量低质量条目,下游分析会被噪声拉偏。
常见的质控对象包括三类:
- 低 UMI 或低基因数细胞,通常提示捕获失败或 RNA 量过低。
- 高线粒体比例细胞,常与细胞受损或应激有关。
- 极高转录本负载细胞,可能是双细胞或多细胞混入。
表达矩阵质控的关键,是在保留真实细胞异质性的同时,最大限度去除技术伪影。
1.2 质控指标要结合样本场景解释
不同组织、不同平台、不同实验设计,阈值不能照搬。比如,肿瘤样本、纤维化组织、解离应激较强的样本,线粒体比例偏高并不罕见。若机械套用统一阈值,可能误删目标细胞。
因此,表达矩阵质控应先看分布,再定阈值。建议优先检查:
- 每个细胞的检测基因数。
- 每个细胞的 UMI 总数。
- 线粒体基因占比。
- 样本间分布差异。
只有把指标放回实验背景中解释,质控才有意义。
2. 3步完成表达矩阵质控
2.1 第一步:做基础分布检查
第一步是看全局分布,而不是急着过滤。常用图形包括小提琴图、直方图和散点图。它们可以快速暴露异常样本和极端细胞。
建议重点观察以下关系:
- 基因数与 UMI 数是否高度一致。
- 线粒体比例是否有长尾分布。
- 是否存在明显离群点。
- 不同样本之间是否整体偏移。
如果一个样本的 UMI 总数普遍偏低,先判断是否来自文库质量问题,而不是立即删细胞。 这一步能避免把系统性问题误判为单个细胞问题。
2.2 第二步:设定筛选阈值并执行过滤
第二步才进入阈值筛选。实践中常见做法是结合分位数、经验范围和数据分布共同设定,而不是只靠固定数值。对于大多数单细胞表达矩阵质控,常见过滤方向是:
- 去除基因数过低的细胞。
- 去除 UMI 过少的细胞。
- 去除线粒体比例过高的细胞。
- 去除检测基因数异常偏高的细胞。
如果研究对象是免疫细胞、外周血细胞或代谢活跃组织,线粒体比例阈值往往需要更谨慎。若样本来源于损伤组织,阈值还应结合实验记录来调。
重要原则是:过滤规则要可追溯、可复现、可解释。 论文和报告中应写清楚所用指标、阈值和筛选逻辑,避免后续无法复核。
2.3 第三步:识别双细胞、污染和批次异常
第三步是进一步清理“看起来正常、其实不可靠”的条目。表达矩阵质控做到这一步,结果通常会更稳健。
重点检查三类问题:
- 双细胞。表现为检测基因数和 UMI 数异常升高,且同时出现两个细胞类型标记。
- 环境 RNA 污染。某些高丰度基因在低质量细胞中异常出现。
- 批次异常。不同样本的指标分布明显不同,提示建库或测序过程不一致。
这一步决定了表达矩阵质控的上限。 只做基础过滤,往往只能去掉明显坏细胞;加入双细胞和污染识别,才能显著提升矩阵纯度。
3. 提升表达矩阵质控质量的实操建议
3.1 先统一质控逻辑,再比较样本
如果有多个样本,建议先对每个样本单独看分布,再统一分析筛选策略。不要在合并后才做质控,否则异常样本可能掩盖其他样本的真实问题。
可以按以下顺序执行:
- 单样本查看 QC 指标。
- 记录异常分布和可疑样本。
- 制定统一筛选规则。
- 保留必要的样本特异性调整。
这样更利于后续整合分析,也方便方法学写作。
3.2 保留质控前后对比记录
表达矩阵质控不是黑箱操作。建议记录每一步过滤前后的细胞数、基因数中位数、UMI 中位数和线粒体比例变化。这样既便于审稿,也便于排查问题。
建议至少保留以下信息:
- 原始细胞数。
- 过滤后细胞数。
- 各阈值的具体数值。
- 删除细胞的比例。
- 可疑双细胞或污染的处理方式。
完整记录能显著提高结果可信度,也能让研究过程符合 E-E-A-T 中的可验证性要求。
3.3 结合下游目标调整严格程度
不同研究目标,对表达矩阵质控的严格程度也不同。若目标是识别稀有细胞群,过滤过严会丢失关键细胞。若目标是构建高可信参考图谱,则可以适度提高筛选强度。
常见取舍如下:
- 发现稀有群体,优先保留边缘细胞,但要加强污染识别。
- 做机制研究,优先保证细胞纯度。
- 做大规模整合分析,优先保证不同样本质控逻辑一致。
质控的标准不是越严越好,而是与研究目的匹配。
4. 表达矩阵质控常见误区
4.1 只看线粒体比例
很多人把线粒体比例当成唯一标准,这不够。低 UMI、低基因数、双细胞、环境 RNA 都会影响结果。只看一个指标,容易留下大量假阳性细胞。
4.2 阈值完全照搬文献
文献可以参考,但不能直接复制。组织类型、平台版本、测序深度不同,阈值就会变。最稳妥的方式,是基于自己的数据分布设定边界。
4.3 过滤后不复核
过滤并不等于结束。应重新查看质控分布,确认异常是否已经消除。若过滤后仍有明显长尾或离群点,说明阈值或方法还需要调整。
结论Conclusion
表达矩阵质控的本质,是用清晰、可复现的规则,把技术噪声和真实信号区分开。最稳妥的方法,就是先看分布,再设阈值,再做双细胞和污染排查。只有把这三步做扎实,后续聚类、注释和差异分析才更可靠。

如果你希望更高效地完成表达矩阵质控,并减少人工整理和反复排查成本,可以考虑借助解螺旋的专业分析支持。解螺旋可帮助你规范质控流程、梳理关键指标、提升单细胞数据整理效率,让表达矩阵质控更稳、更快、更可复现。
- 引言Introduction
- 1. 先理解表达矩阵质控的核心目标
- 2. 3步完成表达矩阵质控
- 3. 提升表达矩阵质控质量的实操建议
- 4. 表达矩阵质控常见误区
- 结论Conclusion






