TCGA差异分析中，分组为什么必须先定义清楚？

因为分组不清会混入复发、治疗后或配对关系错误的样本，直接影响差异分析结论的准确性。

TCGA差异分析的阈值应该怎么设置？

阈值应参考文献并与图表一致，常用如 |logFC| > 1 且 P < 0.05 或 adj.P < 0.05。

TCGA差异分析为什么要注意数据类型和统计方法匹配？

不同数据类型和样本设计需要不同方法，例如count数据常用DESeq2，配对样本不能直接用非配对检验。

TCGA数据差异分析：7个常见误区与对策

Q: TCGA差异分析为什么要注意数据类型和统计方法匹配？

不同数据类型和样本设计需要不同方法，例如count数据常用DESeq2，配对样本不能直接用非配对检验。

作者：Dr.Xin

2026-05-18｜原创

引言Introduction

TCGA数据差异分析看似流程固定，但实际最容易在分组、阈值、注释和结果一致性上出错。很多稿件不是分析做错，而是细节不一致导致被审稿人质疑。 下面结合常见流程，梳理7个高频误区与对策，帮助你少走弯路。
科研人员在电脑前检查TCGA火山图、热图和样本分组表，突出“差异分析一致性检查”的场景

1. 分组定义不清，样本纳入排除随意

1.1 先明确研究对象，再谈差异分析

TCGA数据差异分析的第一步不是跑DESeq2或limma，而是先定义清楚组别。常见问题是把临床样本、配对样本、复发样本、治疗后样本混在一起。这样会直接影响结论。

正确做法是先设定纳入和排除标准。 例如，只保留原发肿瘤和正常组织，排除加药组、重复测序样本和注释不完整样本。若研究配对样本，要先确认同一患者的肿瘤和正常配对关系。

1.2 TCGA barcode和样本类型必须核对

TCGA样本类型通常可通过barcode判断。常见做法是根据样本编号区分肿瘤和正常。文章中如果写的是“tumor vs normal”，图表里就不能把复发样本或旁癌组织混入其中。

分组信息必须贯穿全文。 方法部分、结果图、图注和表格都要一致。否则即使统计学显著，也会被认为数据来源不清。

2. 阈值选择随意，缺少文献依据

2.1 logFC和P值不能“拍脑袋”

TCGA数据差异分析中，最常见的问题之一就是阈值设置随意。比如logFC设为1、1.5、2，甚至0.4，却没有任何依据。知识库中已经明确提醒，阈值选择要参考文献，不能随心所欲。

常用写法包括：

|logFC| > 1，P < 0.05
|log2FC| > 1，adj.P < 0.05
更严格时使用FDR校正后的P值

但无论采用哪种标准，都必须和图中的筛选线一致。

2.2 方法、图和结果必须统一

很多稿件的方法部分写的是“校正后P值<0.05”，结果表格却展示原始P值。或者方法写logFC > 1，火山图却画成logFC > 2。这种不一致会让审稿人立刻怀疑分析是否重新跑过。

建议你在投稿前逐项核对：

方法中的阈值。
火山图和热图使用的阈值。
结果表格的筛选标准。
统计描述中的P值类型。

3. 术语、符号和基因名不一致

3.1 同一篇文章里不要反复改写术语

TCGA数据差异分析常见的隐性错误，是术语前后不统一。比如同一个基因，图里写别名，正文写正式名，方法里又换成另一个缩写。审稿人未必会逐一核对，但会直接感受到“不专业”。

建议全文统一使用一个标准名称。 尤其是基因名、组名、P值、FDR、logFC等术语，要保持一致。

3.2 基因别名要先查证

知识库提到，TCGA中有些基因名可能因别名问题搜索不到。处理方式不是随意改名，而是先查官方符号和别名映射。否则会出现图中基因与正文基因不一致的问题。

可操作步骤：

先查HGNC或NCBI Gene官方符号。
再确认表达矩阵中的ID类型。
最后统一输出到图和正文。

4. 方法和结果混写，论文结构失衡

4.1 方法部分只写“怎么做”

很多初学者会把差异分析结果直接写进方法部分，比如“筛选出XXX个差异基因”。这会让方法和结果混在一起。方法部分应只说明包、参数、数据来源和分析流程。

例如可以写：

使用DESeq2进行差异分析。
以校正后P值和logFC作为筛选标准。
采用ggplot2绘制火山图。

不要在方法里提前下结论。

4.2 结果部分只写“发现了什么”

结果部分应围绕发现展开，而不是重复代码流程。比如先给出样本数，再给出差异基因数量，再展示关键基因表达变化。结构清楚，读者才容易跟上。

结果写作的核心是结论前置，过程后置。 先讲发现，再用图和表支撑。

5. 可视化细节粗糙，影响论文可信度

5.1 图例、颜色、字体要统一

知识库中多次提到，图表字体大小、线条粗细和配色不一致，是生信文章常见问题。比如红色在一张图里代表肿瘤，另一张图里却代表正常，这会严重影响理解。

建议统一规范：

肿瘤组固定一种颜色。
正常组固定一种颜色。
全文图例命名一致。
字体、字号、线宽统一。

5.2 图中每个元素都要被描述

有些稿件的小图有5个面板，但正文只写了4个。这种遗漏在返修时很容易被指出。 因此，结果描述时要逐图核对，确保没有漏掉任何面板、任何统计比较、任何注释信息。

6. 统计方法与数据类型不匹配

6.1 不同数据类型要用不同流程

TCGA数据差异分析不是一套代码走天下。RNA-seq、TPM、FPKM、count数据适用的方法不同。知识库中的课程示例也强调了，差异分析前要先确认数据是否已标准化，是否需要VST或其他转换。

常见原则：

count数据适合DESeq2。
已标准化表达量常用于可视化和分组比较。
作图前必要时进行log2转换。

6.2 配对与非配对不能混用

配对样本和独立样本的统计检验不同。配对样本常用配对Wilcoxon检验或配对t检验，非配对样本则不能直接套用配对检验。
这类错误会直接影响P值解释。

在TCGA中，如果同一患者的肿瘤和正常被配对分析，就要保证每一对样本都来自同一患者，并在图中保留配对连线。

7. 忽视临床信息和分期细节

7.1 差异分析不等于只看表达

很多研究只做肿瘤和正常的差异表达，但没有结合临床分期、病理分期或TNM信息。对于TCGA数据，这会限制结果解释深度。

知识库中提到，pathological stage比clinical stage更值得关注。 如果研究目标与肿瘤进展相关，建议优先提取病理分期，并明确stage 3、T3、N x、M0等信息来源。

7.2 临床注释更新要以官方数据为准

TCGA临床数据会更新，且不同版本之间存在差异。若你直接使用过时版本，可能与当前结果不一致。建议优先采用官方整理后的数据格式，减少XML解析和合并错误。

TCGA数据差异分析如何提高通过率

7.1 一套可执行的检查清单

为了减少返工，建议在正式写作前做一次完整核查：

分组是否清晰。
样本纳入排除是否明确。
阈值是否有文献依据。
方法、图和结果是否一致。
术语、基因名和缩写是否统一。
统计方法是否匹配数据类型。
图表格式是否规范。

这一步往往比多跑一次分析更重要。 因为很多返修并不是统计学问题，而是表达和一致性问题。

7.2 让分析更规范，文章更容易发表

如果你在TCGA数据差异分析中反复遇到阈值不统一、分组混乱、图表不规范、结果描述遗漏等问题，可以借助更成熟的写作和分析支持。解螺旋品牌提供的思路，核心就是把数据处理、图表规范和论文表达统一起来，减少低级错误，提高投稿效率。

总结Conclusion

TCGA数据差异分析的关键，不只是找出差异基因，更是保证分组、阈值、统计方法、图表和文字表述全流程一致。真正影响论文质量的，往往是这些看似细小却会被审稿人放大的问题。
如果你希望把TCGA分析做得更规范、更稳妥，可以结合解螺旋的专业支持，系统提升分析质量和论文表达。
整洁的科研工作台，包含TCGA分析流程图、火山图、热图和论文校稿清单，传达“规范化差异分析与投稿准备”