如何判断数据是否近似正态分布？

可结合直方图、Q-Q图和Shapiro-Wilk检验判断；若图形接近钟形、点接近直线且P值大于0.05，通常可认为近似正态。

正态分布和非正态分布在统计描述上有什么区别？

正态分布常用均数±标准差描述，非正态分布通常用中位数和四分位数描述。

正态分布是什么？3分钟掌握核心要点

Q: 什么是正态分布？

正态分布是一种中间高、两边低、左右对称的钟形分布，数据通常集中在均数附近。

作者：Dr.Lin

2026-05-08｜原创

引言Introduction

临床研究里，正态分布 几乎无处不在。连续变量要先看分布，再决定用均数还是中位数，选t检验还是非参数检验。很多人卡在“会看结果，不会判断数据是否正态”。本文用最短路径讲清核心概念，帮助医学生、医生和科研人员快速上手。
临床研究数据分析场景，包含直方图、Q-Q图和SPSS界面元素，突出“判断正态性”主题

1. 正态分布的基本概念

1.1 什么是正态分布

正态分布 也叫常态分布，或高斯分布。它的图形是典型钟形曲线，中间高、两边低，左右对称。峰值位于均数位置，曲线两端逐渐下降，但不与横轴相交。

从数据特征看，它有3个关键词。

集中性，数据最集中在均数附近。
对称性，均数左右两侧形态一致。
均匀变动性，离均数越远，频数越少。

这也是为什么在医学数据描述中，很多“看起来规整”的连续变量，会优先尝试判断是否属于正态分布 。

1.2 正态分布由什么决定

一个正态分布通常由2个参数描述。

均值决定位置。
方差决定离散程度。

方差越大，曲线越矮胖，说明数据更分散。方差越小，曲线越高瘦，说明数据更集中。标准差是方差的平方根，和离散程度密切相关。

对临床数据来说，这一点很重要。比如同样是血压数据，均值相近，但标准差不同，提示人群稳定性不同，后续统计处理也可能不同。

1.3 为什么它在临床研究里重要

很多经典参数检验都要求数据近似服从正态分布 ，例如。

单样本t检验。
独立样本t检验。
配对样本t检验。
方差分析。

先判断正态性，再选统计方法，是连续变量分析的基本流程。 如果这一步错了，后面的P值和结论都可能偏离真实情况。

2. 如何识别正态分布

2.1 直方图是最直观的方法

判断正态分布 时，直方图最容易上手。若数据呈现中间高、两边低的钟形结构，通常可认为近似正态。

在实践中，直方图不可能像教科书那样完美光滑。真实样本会有波动，所以判断重点不是“完全一样”，而是“整体形态是否接近钟形”。

常见的经验判断包括。

主体集中在中间。
两端尾部较少。
左右大致对称。

如果直方图明显偏斜，或出现双峰，就要警惕它未必属于正态分布 。

2.2 Q-Q图和P-P图也很常用

Q-Q图和P-P图属于图示法。它们的核心思路是，把样本分布与理论正态分布进行比较。

当数据接近正态分布 时，图上的点应大致落在45度对角线附近。若点偏离很明显，尤其呈弯曲或系统性散开，说明正态性可能不足。

这类图的优势是直观。缺点是主观性较强。不同研究者对“像不像正态”可能有不同判断。因此，图示法常与检验法一起使用。

2.3 茎叶图能辅助判断

茎叶图也是常用图示法。它能直接保留原始数值的信息，适合样本量较小的数据。若茎叶分布呈现中间密集、两端稀疏，也可作为正态分布 的辅助证据。

不过，茎叶图更适合教学或小样本初筛。正式研究中，通常还是以直方图、Q-Q图和正态性检验为主。

3. 正态性检验怎么做

3.1 常用检验方法

用样本判断总体是否服从正态分布，叫正态性检验。常见方法包括。

Shapiro-Wilk检验，简称SW检验。
Kolmogorov-Smirnov检验，简称KS检验。
偏度系数和峰度系数检验。
Pearson卡方检验。

在实际临床研究中，SW检验和KS检验最常见。它们的原假设是，样本来自的总体与正态分布没有显著差异。

当P值大于0.05时，通常不拒绝原假设，可认为数据近似服从正态分布。

3.2 样本量和检验选择

这里最容易混淆。教材里常说“样本量大于30时一般满足正态分布”，这句话并不等于“30个样本本身就一定正态”。

更准确的理解是，中心极限定理 起作用后，样本均值的分布会趋近正态，用于总体参数估计时更稳定。它不代表原始数据一定是正态的。

另外，检验方法也要看样本量。

SW检验 更适合较小样本，SPSS中常用上限为5000。
KS检验 更适合较大样本，SPSS中常用样本量大于5000。

这意味着，不能只盯着P值，还要结合样本量和图形一起判断。

3.3 一个临床研究中的标准流程

对于连续变量，推荐按这个顺序处理。

先画直方图。
再看Q-Q图或P-P图。
结合SW或KS检验。
最后决定统计描述方式。

如果数据近似正态分布 ，常用均数±标准差描述。
如果不是正态分布，通常改用中位数和四分位数描述。

这个流程能减少误判，也更符合临床统计规范。

4. 常见误区和实用判断

4.1 误区一：样本量大就一定正态

这是最常见的错误。样本量大，不等于原始数据自动正态。 大样本只是让中心极限定理更容易发挥作用，让均值的抽样分布更接近正态。

所以，大样本研究仍要看变量本身是否接近正态分布 ，尤其在描述和建模前。

4.2 误区二：P值大于0.05就完全没问题

也不对。P值只是“没有证据拒绝正态”的提示，不是“百分之百正态”的证明。

临床统计中更稳妥的做法是。

小样本，优先看SW检验和图形。
大样本，适当结合图示法。
结合数据背景和离群值再判断。

判断正态性，本质上是统计证据和临床语境的综合决策。

4.3 误区三：只看一个检验结果

单独看一个P值，风险很大。因为不同检验对样本量、离群值和分布偏移的敏感性不同。最稳妥的方式是图形和检验互证。

如果直方图明显钟形，Q-Q图点也靠近直线，而SW检验P值又大于0.05，那么支持正态分布 的证据就比较一致。

5. 记住这几个核心要点

5.1 一句话总结

正态分布就是中间高、两边低、左右对称的钟形分布。

5.2 三个判断步骤

看直方图是否钟形。
看Q-Q图是否贴近直线。
看SW或KS检验的P值是否大于0.05。

5.3 一个统计原则

正态分布，常用均数±标准差。
非正态分布，常用中位数和四分位数。
先判断分布，再选检验方法。

这3条，基本就能覆盖临床研究里最常见的连续变量分析场景。

总结Conclusion

正态分布不是抽象数学概念，而是临床研究里决定统计方法的第一道门槛。 你只要记住钟形、对称、均值和方差，再掌握直方图、Q-Q图、SW检验这3类工具，就能快速完成初步判断。对于医学生、医生和科研人员来说，这一步做对了，后面的描述统计、t检验和方差分析才更可靠。

如果你希望把正态性判断、数据清洗和统计分析流程做得更标准，可以进一步使用解螺旋 的临床科研内容与工具支持，帮助你更高效地完成选题、数据处理和统计表达。
科研人员在电脑前查看正态性检验结果、直方图和Q-Q图，画面强调“规范分析、提高效率”与品牌支持