为什么测序数据可视化不能直接从火山图开始？

因为火山图依赖前期的数据整理、标准化和质量评估；如果样本有批次效应或离群值，火山图结果可能不可靠。

测序数据可视化前需要做哪些数据准备？

通常需要整理表达矩阵、样本分组信息和基因注释信息，并进行缺失值处理、低表达过滤和标准化转换。

PCA图在测序数据可视化中主要看什么？

主要看同组样本是否聚集、不同组是否分开，以及是否存在明显离群样本或批次效应。

测序数据可视化怎么做？3步搞定严谨分析

作者：Dr.Feng

2026-05-14｜原创

引言Introduction

测序数据可视化是差异分析前的关键一步。很多人直接做火山图或PCA，却忽略了样本质量、批次效应和离群值，最后导致结果不稳。想把测序数据可视化做得严谨，先看数据，再谈结论。
RNA-seq分析流程示意图，突出质量评估、差异分析和可视化三个环节，配上火山图、PCA图、箱线图缩略图

1. 为什么测序数据可视化不能跳过

1.1 先做质量评估，再做差异分析

在真实项目中，测序数据可视化不是“美化结果”，而是分析质量控制的一部分。常用的图包括箱线图、密度图、PCA图和层次聚类图。它们的作用很直接。看分布是否一致，判断样本是否偏离，检查批次效应是否明显。

如果样本分布差异很大，后续差异分析的可信度会下降。
例如，在肝癌TCGA数据中，原始数据的Normal与Tumor中心值可能并不一致。经过VST等方差稳定转换后，分布往往更接近统一。这个变化本身就说明，标准化处理对测序数据可视化非常重要。

1.2 数据不整理，图也画不好

很多初学者以为作图难，其实真正耗时的是数据整理。上游知识库中明确提到，数据清洗可能占到80%的时间。原因很简单。绘图包通常要求特定的数据结构，而原始表达矩阵往往需要先转成长数据，再合并样本信息和注释信息。

常见准备步骤包括：

导入表达矩阵、metadata和基因注释。
将基因ID转换成可读的gene symbol。
合并分组信息。
过滤缺失值和低表达基因。
统一表达量尺度后再作图。

只有数据结构正确，测序数据可视化才有分析价值。

2. 第一步：先把数据整理到可视化标准

2.1 建立完整的数据框

做测序数据可视化前，先把分析对象整理成标准数据框。通常需要三类信息。第一类是表达量数据。第二类是样本分组信息。第三类是基因注释信息。三者合并后，才能进入后续绘图。

以DESeq2差异分析结果为例，常见做法是先将结果转为data.frame，再把基因ID从行名提取为一列，随后与GTF注释文件进行join合并。这样可以把基因symbol放到结果中，便于后续标签标注和解读。

这一步的目标，不是追求复杂，而是确保每一列都能解释清楚。

2.2 统一表达尺度，减少假信号

测序原始count数据通常偏离正态分布，且受测序深度影响明显。用于可视化时，建议先做标准化或方差稳定转换。课程中提到的VST，就是常见的处理方式之一。它常用于下游聚类分析和富集分析，也有助于让箱线图和密度图更稳定。

可视化前常见的筛选原则包括：

保留表达量足够的基因。
去除明显缺失值。
排除异常样本。
在需要时校正batch effect。

标准化不是可选项，而是测序数据可视化的基础。

2.3 先看分布，再看样本关系

在正式画PCA或火山图前，建议先从最基础的分布图开始。箱线图能看每个样本的整体表达范围。密度图能看表达值是否存在双峰或整体偏移。若原始数据与标准化后数据差异明显，说明数据处理确实改善了分布一致性。

这一步的核心是找问题，不是找“好看的图”。
分布图越早做，越容易在前期发现离群样本。

3. 第二步：用4类图完成严谨的测序数据可视化

3.1 箱线图，先看每个样本是否整齐

箱线图适合检查样本间表达范围是否一致。若多个样本的中位数相差明显，或者四分位距差异很大，说明存在批次效应、测序深度差异或样本异常。

在肿瘤与癌旁分析中，箱线图常用于比较Normal和Tumor是否整体偏移。
如果一个组整体偏高或偏低，先检查数据处理流程，再考虑生物学解释。

3.2 密度图，看表达值是否集中

密度图比箱线图更适合观察分布峰值。课程中提到，count数据常在低表达区和高表达区出现多个峰。经过VST后，峰形通常更集中，极端低值也会被一定程度压缩。

密度图特别适合做以下判断：

样本是否整体左移或右移。
是否存在明显双峰。
标准化后分布是否趋于一致。
是否有离群样本脱离主群。

密度图的价值在于，它能把“看起来正常”变成“分布上正常”。

3.3 PCA图，看组间分离是否合理

PCA图是测序数据可视化中最常用的样本关系图之一。它可以直观展示样本是否按分组聚集，是否存在批次驱动的分离。课程中提到，DESeq2、factoextra、ggfortify等包都可以绘制PCA图。

PCA图重点看三件事：

同组样本是否靠近。
不同组是否分开。
是否有明显离群点。

如果Normal和Tumor在PCA图上明显分离，说明分组信号较强。
如果样本按批次而不是按分组聚集，就要优先处理batch effect。
PCA不是为了证明假设，而是为了检验数据是否支持假设。

3.4 层次聚类图，看样本是否自然成簇

层次聚类图适合进一步验证样本结构。它把样本之间的距离转化成树状分支，能快速发现哪些样本更接近。课程案例中，正常样本和肿瘤样本大体可以分开，但也可能出现少数混杂样本。这类样本要特别注意。

层次聚类图适合回答：

样本是否与预期分组一致。
是否存在混淆样本。
离群样本是否独立成枝。
分组结构是否稳定。

当PCA和层次聚类都支持分组时，数据可信度会更高。

4. 第三步：把可视化结果转成可解释结论

4.1 火山图不是第一步，而是最后一步

很多人一上来就画火山图，但火山图应该建立在前面质量评估通过之后。它的前提是数据已经完成整理、标准化和差异分析。课程中提到，绘制火山图时通常会基于log2FC和校正后的P值筛选显著基因，例如设置adj.P.Val < 0.001且|log2FC| > 2。

火山图的作用很明确：

展示显著上调和下调基因。
标记重点基因。
快速呈现差异方向和强度。

没有质量控制的火山图，往往只是“漂亮的错误结果”。

4.2 用统一标准标记显著基因

在实际分析中，标记基因要有统一标准。不要只凭视觉挑选。课程中给出的做法是先定义方向，再筛选显著基因。这样能避免主观性过强，也方便复现。

建议把以下信息写清楚：

log2FC阈值。
P值或校正P值阈值。
标注的基因数量。
是否去除缺失值。

可复现性，是测序数据可视化的重要组成部分。

4.3 结果要能回到生物学问题

可视化最终不是为了图本身，而是为了回答研究问题。比如，肝癌数据中，Normal与Tumor是否可分。某个候选基因在分组间是否符合预期。批次效应是否已经被控制。异常样本是否需要剔除。

如果图能帮助你回答这些问题，它就有分析价值。
如果图只能展示结果，却不能支持判断，它的价值就有限。

5. 实操中最容易踩的3个坑

5.1 直接拿原始count画图

原始count常受测序深度影响，分布偏态明显。直接拿来画箱线图或密度图，容易误判。建议先做标准化或VST转换，再进入测序数据可视化。

5.2 把离群样本当成正常波动

课程中提到，个别样本可能明显偏离主群。这些样本可能来自样本混淆、批次问题，甚至是不同类型组织混入。不能简单忽略。
离群样本越多，越要优先排查。

5.3 只看图，不看数据结构

图形只是展示形式。真正决定结果的是数据整理是否到位。表达矩阵、样本分组、注释信息、过滤规则，这些都要在作图前明确。否则即便图看起来“很好”，结论也可能站不住。

总结Conclusion

测序数据可视化的核心，不是把图画出来，而是把数据质量、样本结构和差异信号讲清楚。标准流程可以概括为三步：先整理数据，再做质量评估，最后输出差异结果图。箱线图、密度图、PCA图和层次聚类图，分别回答分布、偏差、分组和聚类四类问题。只有前面的检查通过，火山图和后续结论才更可靠。

如果你希望把这套流程做得更规范，可以借助解螺旋 的生信学习与分析资源，把数据整理、可视化和差异分析串成完整闭环。先把测序数据可视化做扎实，再谈发表和转化。
科研人员在电脑前查看PCA图、聚类树和火山图的分析界面，旁边有数据质控流程清单，整体风格专业简洁