SPSS中如何快速发现异常值？

分类变量可用“频率”查看是否有未定义编码；连续变量可用箱式图或Z转换识别离群点和极端值。

发现异常值后应该先怎么处理？

先核对原始病历或调查资料，确认是录入错误还是真实极端值，再决定修正、置缺失、删除或保留。

所有异常值都要删除吗？

不是。只有确认是错误且无法合理保留时才考虑删除；真实的临床极端值通常应保留并谨慎分析。

如何高效做异常值SPSS处理？4步讲清

作者：Dr.Chuang

2026-05-22｜原创

引言Introduction

异常值会直接影响均值、回归和生存分析结果。对医学生、医生和科研人员来说，异常值 SPSS 处理 不是简单删数，而是先识别、再判断、再决定如何处理。下面用SPSS里最常见的4步方法，讲清楚怎么做更稳妥。

临床研究数据表格与SPSS软件界面并列展示，突出异常值筛查、频数分析和箱式图的概念。

1. 先判断异常值类型，再决定方法

1.1 分类变量，先看频数分布

异常值 SPSS 处理的第一步，是先分清变量类型。
分类变量的异常值，常常是逻辑错误。比如性别编码只定义了1和2，却出现0、1.5或3。肿瘤分级只允许1到4，却录入了5或6。这类问题，频数分析最直接。

在SPSS中，可以通过“分析”→“描述统计”→“频率”查看每个取值。若出现不在定义范围内的数值，就要优先核对原始资料。对于吸烟状态和每日吸烟数量这类变量，还要看逻辑是否一致。比如“不吸烟”却填了具体吸烟支数，就是明显冲突。

这类异常值的核心不是“极端”，而是“矛盾”。

1.2 连续变量，重点看分布和离群点

连续变量的异常值，通常表现为极端大或极端小。比如年龄-5岁，身高1.6却被录成1.6厘米，或者收缩压低于舒张压。
这时不能只靠肉眼，要结合统计分布判断。

SPSS里常用两种办法：

箱式图 ，适合快速发现离群点。
Z转换 ，适合标准化后识别偏离均值过远的数据。

一般来说，Z值绝对值大于2，需重点核查 。如果数据明显不符合临床逻辑，即使Z值没超阈值，也可能是异常。

2. 用SPSS快速定位异常值

2.1 频数法找分类变量异常值

在SPSS中，先进入“数据视图”和“变量视图”。
“变量视图”能看到变量定义，比如gender代表性别，1=男性，2=女性。
“数据视图”则是一行一个病例，一列一个变量。

操作路径很简单：
分析 → 描述统计 → 频率 。
把目标分类变量放进分析框，点击确定即可。

输出结果里，如果出现未定义编码，就说明存在异常值。接下来可回到数据视图，结合排序功能快速定位。对于样本量较大时，这一步尤其重要。它能把问题从“疑似存在”变成“具体在哪一行”。

2.2 箱式图找连续变量异常值

连续变量建议用“探索”生成箱式图。
路径是：分析 → 描述统计 → 探索 。
把身高、年龄等变量放入因变量列表，点击确定。

箱式图会显示中位数、四分位数、极值和异常值标记。
超出1.5倍IQR范围的数据，通常要进一步核对。

例如，身高数据中如果出现1.6和1.79，结合临床常识，很可能是单位写错了，应该是160和179。
这类错误在录入过程中很常见。箱式图的价值，不只是找极端值，更是帮助你发现“明显不合理的记录”。

2.3 Z转换找标准化异常值

如果变量接近正态分布，可用Z转换辅助判断。
路径是：分析 → 描述统计 → 描述 ，勾选“将标准化得分另存为变量”。

生成后，数据表会多出一列Z值。
Z值绝对值大于2，通常提示该样本值得重点检查。

这种方法适合年龄、身高、实验室指标等连续变量。
但要注意，Z值是统计学提示，不是最终裁决。最终还要结合临床背景和原始记录。

3. 发现异常值后，怎么处理才规范

3.1 优先核对原始资料

异常值 SPSS 处理的标准原则，是先核对，再修改。
如果能找到原始病历、病例报告表或调查对象，应优先确认真实值。
这是最稳妥的做法。

比如年龄录成-15，核对后发现其实是15。
这类问题直接更正即可。
如果是收缩压和舒张压录反，也应在确认后修正原值，而不是简单删除。

3.2 无法核对时，再考虑删除或置缺失

如果原档案无法追溯，处理方式要看变量重要性。
常见做法有三种：

删除整个个案 ，适用于关键变量无法判断，且该记录无法可信使用。
将异常值改为缺失值 ，适用于只影响某一个变量。
保留异常值并标记 ，适用于需要后续敏感性分析的情况。

不是所有异常值都要删。
有些极端值可能代表真实临床现象。比如某些患者的脉压差较大，未必是错误。
所以处理前一定要判断它是“录入错误”还是“真实极端”。

3.3 关键变量异常，要更谨慎

如果异常出现在分组变量或结局变量中，影响会更大。
例如生存结局只有0和1，却录入了3，这时无法判断该病例属于生存还是死亡。
这种情况通常不能继续纳入分析。

一旦关键变量失真，整条记录的可信度就会下降。
这也是临床研究中最需要谨慎处理的部分。

4. 做完异常值SPSS处理后，还要做这两件事

4.1 记录每一步修改

高质量的数据清洗，不只是改对了，还要可追溯。
建议保留一份清洗日志，记录：

哪个变量出现异常值
异常值是什么
采用了什么方法识别
最终如何处理
是否保留原始值

这样后续写论文方法学部分时，也能清楚说明数据处理流程。
这对提升研究可信度很重要。

4.2 重新检查分析结果是否变化

异常值处理后，建议重新跑一次描述统计和主要模型。
看看均值、标准差、回归系数或P值是否发生明显变化。
如果变化很大，说明异常值对结果影响较强，应在讨论中说明。

异常值 SPSS 处理不是一次性动作，而是一个“识别-核对-修正-复核”的闭环。

总结Conclusion

异常值处理的关键，不在于“发现一个就删一个”，而在于先分清变量类型，再用合适方法识别，再结合临床逻辑判断。对分类变量，先做频数分析。对连续变量，优先用箱式图和Z转换。发现问题后，先核对原始资料，再决定是修正、置缺失、删除还是保留。
如果你希望把这套流程更高效地用在论文、课题和临床数据清洗中，可以进一步了解解螺旋 的临床研究与数据处理支持，帮助你更快完成规范的异常值 SPSS 处理 。

研究者在电脑前核对SPSS输出结果、原始病历和数据清洗记录表，体现规范化异常值处理流程。