表达矩阵质控的主要目的是什么？

主要是筛除低质量细胞、双细胞和污染噪声，保留真实生物信号，为后续分析提供可靠数据。

表达矩阵质控时应该重点看哪些指标？

重点看每个细胞的检测基因数、UMI总数、线粒体基因占比，以及样本之间的分布差异。

为什么不能直接照搬文献中的质控阈值？

因为不同组织、平台和测序深度会导致数据分布不同，阈值需要结合自己的样本场景调整。

表达矩阵质控如何做？3步严谨方法

作者：Dr.Sheng

2026-05-11｜原创

引言Introduction

实验室中科研人员查看单细胞测序结果和质控图，屏幕上显示表达矩阵、UMI分布和基因检测数统计图。

表达矩阵质控是单细胞转录组分析的第一道门槛。做不好，后续聚类、分群、差异分析都会偏。常见问题包括低质量细胞、双细胞、环境 RNA 污染和批次波动。想得到可信结果，表达矩阵质控必须先做严谨筛查，再进入下游分析。

1. 先理解表达矩阵质控的核心目标

1.1 质控不是“删数据”，而是筛除噪声

表达矩阵质控的目的，不是简单减少细胞数，而是保留真实生物信号。对于单细胞 RNA 测序，矩阵中的每一列通常代表一个细胞，每一行代表一个基因。若原始矩阵含有大量低质量条目，下游分析会被噪声拉偏。

常见的质控对象包括三类：

低 UMI 或低基因数细胞，通常提示捕获失败或 RNA 量过低。
高线粒体比例细胞，常与细胞受损或应激有关。
极高转录本负载细胞，可能是双细胞或多细胞混入。

表达矩阵质控的关键，是在保留真实细胞异质性的同时，最大限度去除技术伪影。

1.2 质控指标要结合样本场景解释

不同组织、不同平台、不同实验设计，阈值不能照搬。比如，肿瘤样本、纤维化组织、解离应激较强的样本，线粒体比例偏高并不罕见。若机械套用统一阈值，可能误删目标细胞。

因此，表达矩阵质控应先看分布，再定阈值。建议优先检查：

每个细胞的检测基因数。
每个细胞的 UMI 总数。
线粒体基因占比。
样本间分布差异。

只有把指标放回实验背景中解释，质控才有意义。

2. 3步完成表达矩阵质控

2.1 第一步：做基础分布检查

第一步是看全局分布，而不是急着过滤。常用图形包括小提琴图、直方图和散点图。它们可以快速暴露异常样本和极端细胞。

建议重点观察以下关系：

基因数与 UMI 数是否高度一致。
线粒体比例是否有长尾分布。
是否存在明显离群点。
不同样本之间是否整体偏移。

如果一个样本的 UMI 总数普遍偏低，先判断是否来自文库质量问题，而不是立即删细胞。 这一步能避免把系统性问题误判为单个细胞问题。

2.2 第二步：设定筛选阈值并执行过滤

第二步才进入阈值筛选。实践中常见做法是结合分位数、经验范围和数据分布共同设定，而不是只靠固定数值。对于大多数单细胞表达矩阵质控，常见过滤方向是：

去除基因数过低的细胞。
去除 UMI 过少的细胞。
去除线粒体比例过高的细胞。
去除检测基因数异常偏高的细胞。

如果研究对象是免疫细胞、外周血细胞或代谢活跃组织，线粒体比例阈值往往需要更谨慎。若样本来源于损伤组织，阈值还应结合实验记录来调。

重要原则是：过滤规则要可追溯、可复现、可解释。 论文和报告中应写清楚所用指标、阈值和筛选逻辑，避免后续无法复核。

2.3 第三步：识别双细胞、污染和批次异常

第三步是进一步清理“看起来正常、其实不可靠”的条目。表达矩阵质控做到这一步，结果通常会更稳健。

重点检查三类问题：

双细胞。表现为检测基因数和 UMI 数异常升高，且同时出现两个细胞类型标记。
环境 RNA 污染。某些高丰度基因在低质量细胞中异常出现。
批次异常。不同样本的指标分布明显不同，提示建库或测序过程不一致。

这一步决定了表达矩阵质控的上限。 只做基础过滤，往往只能去掉明显坏细胞；加入双细胞和污染识别，才能显著提升矩阵纯度。

3. 提升表达矩阵质控质量的实操建议

3.1 先统一质控逻辑，再比较样本

如果有多个样本，建议先对每个样本单独看分布，再统一分析筛选策略。不要在合并后才做质控，否则异常样本可能掩盖其他样本的真实问题。

可以按以下顺序执行：

单样本查看 QC 指标。
记录异常分布和可疑样本。
制定统一筛选规则。
保留必要的样本特异性调整。

这样更利于后续整合分析，也方便方法学写作。

3.2 保留质控前后对比记录

表达矩阵质控不是黑箱操作。建议记录每一步过滤前后的细胞数、基因数中位数、UMI 中位数和线粒体比例变化。这样既便于审稿，也便于排查问题。

建议至少保留以下信息：

原始细胞数。
过滤后细胞数。
各阈值的具体数值。
删除细胞的比例。
可疑双细胞或污染的处理方式。

完整记录能显著提高结果可信度，也能让研究过程符合 E-E-A-T 中的可验证性要求。

3.3 结合下游目标调整严格程度

不同研究目标，对表达矩阵质控的严格程度也不同。若目标是识别稀有细胞群，过滤过严会丢失关键细胞。若目标是构建高可信参考图谱，则可以适度提高筛选强度。

常见取舍如下：

发现稀有群体，优先保留边缘细胞，但要加强污染识别。
做机制研究，优先保证细胞纯度。
做大规模整合分析，优先保证不同样本质控逻辑一致。

质控的标准不是越严越好，而是与研究目的匹配。

4. 表达矩阵质控常见误区

4.1 只看线粒体比例

很多人把线粒体比例当成唯一标准，这不够。低 UMI、低基因数、双细胞、环境 RNA 都会影响结果。只看一个指标，容易留下大量假阳性细胞。

4.2 阈值完全照搬文献

文献可以参考，但不能直接复制。组织类型、平台版本、测序深度不同，阈值就会变。最稳妥的方式，是基于自己的数据分布设定边界。

4.3 过滤后不复核

过滤并不等于结束。应重新查看质控分布，确认异常是否已经消除。若过滤后仍有明显长尾或离群点，说明阈值或方法还需要调整。

结论Conclusion

表达矩阵质控的本质，是用清晰、可复现的规则，把技术噪声和真实信号区分开。最稳妥的方法，就是先看分布，再设阈值，再做双细胞和污染排查。只有把这三步做扎实，后续聚类、注释和差异分析才更可靠。

研究人员在电脑前整理单细胞分析流程图，旁边展示质控前后细胞数量变化、阈值筛选流程和最终高质量表达矩阵结果。

如果你希望更高效地完成表达矩阵质控，并减少人工整理和反复排查成本，可以考虑借助解螺旋的专业分析支持。解螺旋可帮助你规范质控流程、梳理关键指标、提升单细胞数据整理效率，让表达矩阵质控更稳、更快、更可复现。