连续变量应该用均值还是中位数？

连续变量若近似正态分布，通常用均值±标准差；若呈偏态分布，通常用中位数和四分位间距表示。

5分钟学会描述性统计，医学生必备！

Q: 什么是描述性统计？

描述性统计是对样本数据基本特征的整理和概括，主要用于描述年龄、性别、病史、检验值等信息，不用于比较差异或推断因果。

Q: 分类变量怎么描述？

分类变量一般用频数和构成比表示，常写为 n（%），如“男性 60 例（60.0%）”。

作者：Dr.Lin

2026-05-08｜原创

引言Introduction

描述性统计是临床研究的起点。 很多医学生和年轻医生做数据分析时，常卡在“该用均值还是中位数”“分类变量怎么写”这些基础问题上。其实，只要先分清数据类型，再选对描述方式，报告就会更规范，也更接近论文发表要求。
医学生在电脑前查看临床数据表，旁边展示均值、中位数、频数等统计指标的简洁图示

1. 什么是描述性统计

1.1 先回答“数据长什么样”

描述性统计的核心任务，是把一组数据的基本特征讲清楚。 它不负责推断因果，也不直接回答“有没有差异”，而是先把样本的年龄、性别、病史、检验值等信息整理出来。

在临床研究里，这一步非常关键。因为后续的统计推断，必须建立在清晰的样本描述基础上。若连数据分布都没搞清楚，后面的检验方法就可能选错。

1.2 描述性统计在临床研究中的作用

临床研究通常先做三件事。

描述样本特征。
比较组间差异。
进一步进行效应量估计。

其中，描述性统计是第一步。它能帮助读者快速判断研究对象是否具有代表性，也能帮助审稿人判断分组是否均衡。

对医学生来说，描述性统计的价值不只是“写表1”，而是建立统计思维。 你需要先知道样本是什么，再谈研究结论。

2. 先分清数据类型，再决定怎么描述

2.1 定量数据与定性数据

描述性统计最重要的前提，是区分数据类型。上游知识库提示，临床数据大致分为两类。

定量数据 ：如年龄、BMI、住院天数、实验室指标。
定性数据 ：如性别、有无高血压、病理分型、分级资料。

定量数据还可分为连续型和离散型。定性数据则常见于二分类、无序多分类和有序多分类。

数据类型选错，描述方式就会错。 这是临床统计最常见的入门错误。

2.2 连续变量怎么描述

对于连续型变量，最常见的判断标准是分布。

正态分布 ：用均值 ± 标准差表示。
非正态分布 ：用中位数和四分位间距表示。

例如，BMI如果近似正态分布，可以写成“21.3 ± 3.5”。如果住院费用明显偏态，就更适合写“中位数（四分位间距）”。

这里要记住一个原则。均值反映集中趋势，标准差反映离散程度。 中位数更适合偏态数据，因为它不容易被极端值拉偏。

2.3 分类变量怎么描述

分类变量通常用频数和构成比表示。
例如：

男性 58 例，女性 42 例。
高血压史 31 例，占 31%。
病理类型为腺癌、鳞癌、其他。

二分类资料看“有或无”，多分类资料看“各类别占比”。 这类数据不需要均值和标准差，因为它本身不是连续测量值。

3. 统计描述的常用写法

3.1 正态分布连续数据的写法

如果数据满足正态分布，论文中常写成“均值 ± 标准差”。这是最常见的描述方式。比如某组患者年龄为 50.2 ± 12.1 岁。

这种写法有两个信息。

平均水平是多少。
个体差异有多大。

标准差越大，说明样本离散程度越高。 这意味着患者之间差别更明显，群体更不均一。

3.2 非正态连续数据的写法

对于偏态分布数据，更适合用中位数和四分位间距。知识库中提到，文献里常见三种写法，需要特别注意注释。

常见表达包括：

中位数（Q1，Q3）。
中位数（IQR）。
中位数（最小值，最大值）。

写论文前，一定要看清括号里到底表示什么。 否则很容易把四分位间距和极值范围混淆。

3.3 分类变量的写法

分类变量一般写成“n（%）”。比如：

男性 60 例（60.0%）。
吸烟史 22 例（22.0%）。
3 级高血压 18 例（18.0%）。

这种写法最简洁，也最符合临床论文常规。

如果是有序分类变量，还可以按等级逐层列出。这样更利于展示疾病严重程度、功能分级或疗效分层。

4. 做描述性统计时最容易犯的错

4.1 不看分布就直接上均值

这是最常见的问题。很多人一看到连续变量，就默认写均值 ± 标准差。实际上，如果数据明显偏态，均值会被极端值影响，容易误导读者。

先看分布，再选指标。 这是描述性统计的基本规则。

4.2 把分类变量写成均值

分类变量不能写均值。比如“性别均值为 0.4”没有临床意义。对于这类数据，应直接报告频数和比例。

4.3 混淆统计描述和统计推断

描述性统计只负责“描述”，不负责“比较”。
如果你要比较两组年龄差异，那已经进入统计推断范畴，常常需要 t 检验或秩和检验。
不要把描述表和检验结果混为一谈。

4.4 盲目模仿文献

上游知识库强调，学习统计不能只靠照搬。别人用高级模型，不代表你的数据也适合。你需要先判断应用场景、适应症和禁忌症，再决定是否使用。

对医学生而言，模仿文献的重点不是“抄方法”，而是“学判断”。

5. 临床研究里怎么快速上手

5.1 第一步，看变量类型

拿到一份数据后，先把变量分成三类。

连续变量。
二分类变量。
多分类变量。

这一步看似简单，却决定了后续所有描述方式。

5.2 第二步，看分布情况

连续变量先判断是否正态分布。常见做法是结合直方图、Q-Q图，或参考统计软件输出结果。
如果近似正态，就用均值 ± 标准差。
如果偏态明显，就用中位数和四分位间距。

5.3 第三步，统一表格格式

临床论文里最常见的是“表1 基线特征”。建议保持格式一致。

连续正态：均值 ± 标准差。
连续偏态：中位数（四分位间距）。
分类变量：n（%）。

统一格式不仅更规范，也更利于审稿和复现。

5.4 第四步，结合软件实操

知识库明确指出，统计学习不能停留在公式层面。对临床医生来说，真正重要的是软件操作。先会导入数据，再会生成描述表，最后学会解释结果。

文献学习 + 软件实操，才是最快的掌握路径。

6. 为什么医学生必须掌握描述性统计

6.1 它是论文写作的第一步

无论是临床回顾性研究、病例对照研究，还是队列研究，第一张表通常都是描述性统计。它帮助你建立样本全貌，也是读者理解研究的入口。

6.2 它是后续分析的基础

如果你连变量类型都没分清，就很难判断后面该用什么统计方法。描述性统计做得好，后续的统计推断和效应量估计才有基础。

6.3 它能反映你的统计思维

很多临床科研能力，不在于会不会高级模型，而在于能不能把基础数据讲明白。会描述数据，才算真正迈入临床研究门槛。

总结Conclusion

描述性统计不是简单的“列数字”，而是临床研究的基本功。 你只要记住三件事，就能快速入门。

先分清定量和定性数据。
连续变量先看分布，再决定用均值 ± 标准差，还是中位数和四分位间距。
分类变量用频数和构成比表示。

对于医学生、医生和科研人员来说，最重要的不是背公式，而是形成稳定的判断框架。先看变量类型，再看数据分布，最后选择正确表达方式。

如果你希望把描述性统计真正用于论文写作、数据整理和结果呈现，可以借助解螺旋 的临床科研学习与工具支持，减少方法误用，提高写作效率，让数据展示更规范、更接近发表标准。
临床科研人员在电脑上整理论文表1，旁边展示标准化统计表格和数据可视化界面