引言Introduction

测序深度数据评估,决定了下游分析是否可靠。深度不够,低表达基因会漏检。深度过高但质量差,也会放大噪音。对于医学生、医生和科研人员来说,先看清样本质量,再谈差异分析,才是标准流程。
实验室场景下的RNA-seq测序数据质控流程图,包含原始数据、过滤、VST转换、PCA和聚类分析几个节点

1. 先看样本是否“干净”:离群值和过滤

1.1 数据加载后,先排除明显异常样本

在TCGA肝癌数据的评估流程中,第一步是加载metadata和基因表达数据,再检查离群值是否需要过滤。课程案例中,运行样本过滤代码后,去除了23个样本,保留401个样本 。这一步很关键。

如果异常样本不先处理,后面的PCA、聚类图和差异分析都可能被带偏。测序深度数据不是单看总reads数量,而是要结合样本整体分布判断。
常见问题包括:

  • 样本测序量明显偏低。
  • 表达分布与其他样本差异过大。
  • 个别样本在箱线图或密度图中呈现明显偏移。

1.2 用箱线图和密度图快速判断

课程中先看原始数据箱线图,再看密度图。箱线图能直观看到样本中位数和离散程度。密度图则更适合观察整体分布峰值是否一致。

如果多数样本分布接近,说明测序深度和数据质量相对稳定。
如果某些样本峰值明显偏左或偏右,就要警惕文库质量、上机波动或样本污染。

1.3 关注配对样本信息

在肝癌数据中,还需要提取配对样本信息。课程中通过患者ID统计样本数量,并保留有配对样本的数据。这样做的意义是减少个体差异干扰,让后续比较更可信。

对于临床转化研究来说,配对样本的完整性,往往比单纯追求更高测序深度更重要。

2. 再看“够不够用”:基因覆盖和表达有效性

2.1 不是深度越高越好,关键是有效覆盖

测序深度数据评估的第二个要点,是判断测序量是否真正覆盖到需要分析的基因。课程中先抽取424个样本,其中01为癌症样本,11为正常样本,再整理Ctrl数据,把基因ID变为行名,构建矩阵。

随后进行基因过滤:每个基因的表达量大于0的样本至少有50个 。最后保留了26,135个基因 。这说明评估深度时,不能只看测到多少reads,还要看这些reads是否有效落到目标基因上。

2.2 低表达基因要过滤

低表达基因在RNA-seq分析中常见,但它们对统计稳定性贡献有限。若在大多数样本中表达接近0,会增加噪音,降低差异分析效率。

常用做法是:

  1. 先统计每个基因在多少个样本中表达量大于0。
  2. 设定阈值,例如课程中的50个样本。
  3. 保留满足条件的基因进入后续分析。

这一步本质上是在衡量测序深度是否足以支撑基因层面的分析。
深度不足时,低表达基因最先暴露问题。

2.3 VST转换帮助判断数据是否可比

课程中使用DESeq2的VST函数进行方差稳定转换。先构建DDS对象,再提取VST对象。这样做的目的,是让不同表达水平的基因在同一尺度上更便于比较。

VST前后,数据分布通常会更平稳。对于深度评估来说,如果原始数据波动很大,而VST后趋于稳定,说明后续PCA和聚类分析更适合在转换后的数据上进行。

3. 最后看“分不分得开”:PCA和聚类验证

3.1 PCA是判断数据质量的核心图

课程中使用自定义函数绘制PCA图,重点观察Normal与Tumor是否分离。PCA的价值在于,它能把高维表达数据压缩到少数主成分,快速显示样本间的整体关系。

如果癌症样本和正常样本能清晰分开,说明数据结构合理。
如果混杂严重,就要考虑:

  • 测序深度不均。
  • 批次效应。
  • 个别样本污染或标签错误。

对于测序深度数据评估,PCA不是附加步骤,而是结果验证步骤。

3.2 层次聚类能发现样本归类是否一致

课程中还将数据转成Matrix,计算样本距离,再用hclust和FVIZ绘制DND树状图。结果显示,01样本和01样本聚在一起,11样本也大多聚在一起 ,说明整体分组较稳定。

但图中也提示了一个细节:有个别01样本与癌旁样本更接近。这个现象并不罕见。少量偏离样本未必影响整体分析,但偏离样本过多时,就需要重新审视测序深度与样本质量。

3.3 评估逻辑要连起来看

测序深度数据评估不是单一指标判断,而是组合判断。建议按以下顺序做:

  1. 看原始箱线图和密度图,排除明显异常样本。
  2. 进行样本过滤,保留可分析数据。
  3. 做基因过滤,确保表达信号有效。
  4. 做VST转换,降低方差差异。
  5. 用PCA和层次聚类验证分组是否合理。

只有这五步连贯完成,测序深度数据才算真正通过基础质量评估。

总结Conclusion

测序深度数据评估,核心不是“读数越多越好”,而是看样本是否干净、基因是否有效覆盖、分组是否能稳定区分。对于TCGA或其他RNA-seq数据,先做过滤,再做VST,再看PCA和聚类,是更稳妥的分析路径。

如果你希望把这些步骤快速落地到自己的项目中,可以借助解螺旋 的生信课程与代码框架,少走弯路,直接把测序深度数据评估流程跑通。
一张整合式生信质控总结图,展示样本过滤、基因过滤、VST转换、PCA分离和层次聚类结果,风格专业简洁