引言Introduction

在临床研究中,统计前提异常值校正 做不好,后续模型、分组和结论都可能被带偏。很多人识别出异常值后,仍不知道该删、该改,还是保留。本文用7步讲清临床数据异常值处理思路,帮助医学生、医生和科研人员快速落地。
临床数据清洗流程示意图,包含识别、核查、校正、删除、保留等步骤

1. 先识别异常值,再谈校正

1.1 连续变量与分类变量方法不同

异常值处理的第一步,不是直接改数据,而是先确认它是否真的异常。连续变量常用极大值、极小值、箱式图和 z-score 识别。分类变量可用频数分布法,或个案选择结合频数分布法。

识别准确,校正才有依据。
如果前一步识别有误,后面的统计前提异常值校正就可能变成“过度处理”。

1.2 识别只是起点

识别出异常值,只代表数据清洗进入下一步。真正重要的是判断这个值是否影响研究结论。
在实际分析中,异常值可能来自录入错误、单位错误,也可能是真实但极端的临床观测。

2. 优先核对原始资料

2.1 先查档案,再动数据

发现异常值后,第一反应应是核对原始病历、调查表或电子系统记录。比如身高记录成 280 cm,先不要急着处理,先确认是否是录入单位错误。

能校正原始错误的,优先直接校正。
这类问题通常属于数据录入、书写或抄录错误,修正后对研究最安全。

2.2 核对失败时再进入下一步

在现实研究中,原始资料并不总能追溯。调查对象可能无法联系,或已失访、去世。
这时就不能仅靠猜测判断,而要进入更稳妥的统计前提异常值校正流程。

3. 判断异常值是否影响关键变量

3.1 重要变量要更谨慎

如果异常值出现在分组变量、暴露因素或结局变量上,处理要格外谨慎。
因为这类变量一旦错误,可能导致整个个案无法分组,或者直接改变研究结论。

对关键变量的异常值,不能简单忽略。
必要时可结合专业知识与逻辑规则判断是否属于明显错误。

3.2 逻辑错误可考虑个案删除

例如,17 岁女学生体重记录为 5 kg,这种数值明显不符合常识。如果无法核实原始资料,且该变量对分组或结局至关重要,可考虑删除整个个案。
但要注意,个案删除会损失样本量 ,更适合样本量较大、异常比例较低的研究。

4. 做剔除前后对比分析

4.1 先看结果是否稳定

如果没有充分理由直接删除异常值,可以先做两次统计分析。一次保留异常值,一次剔除异常值。比较两次结果是否一致。

如果前后结果一致,说明异常值影响有限。
如果结果矛盾,就要重新评估该值是否真的应被删除。

4.2 这是临床研究中很实用的一步

这一做法特别适合回顾性研究和真实世界数据分析。它能帮助研究者避免“凭感觉删数据”。
在统计前提异常值校正中,这一步相当于给决策加一道验证。

5. 选择稳健统计方法降低影响

5.1 用中位数替代均数

当数据中存在极大值或极小值时,均数容易被拉高或拉低。此时可优先考虑中位数。
中位数对两端极端值不敏感,更适合描述偏态分布数据。

5.2 对数变换与截尾均数

对于大于 0 的观测值,可考虑对数变换,计算几何均数,以减弱极大值影响。
另一种方法是截尾均数。它会从两端去掉一定比例的极端值,再计算均数。常见做法是两端各去掉 5% 或 10%,但具体比例没有统一标准 ,要结合研究目的和软件设置谨慎使用。

6. 必要时把异常值改为缺失值

6.1 这是常见的折中方案

如果异常值无法核实,也不适合直接删除,可以先将其改为缺失值,再按缺失值的原则处理。
这样做的好处是,保留了这条记录的主体信息,同时避免错误数值干扰分析。

6.2 后续再选择合适的缺失值方法

改为缺失值后,可继续采用均值/众数填补、回归法、多重填补等方式处理。
这种方式比直接硬改数值更稳妥。
特别是在样本量有限、研究变量重要时,往往更值得优先考虑。

7. 保留并标记异常值,也是一种策略

7.1 不是所有异常值都要删

有些值虽然极端,但可能是真实观测。比如某些临床指标在少数患者中确实异常升高。
如果判断其真实存在,就不应随意剔除,而应保留并标记。

7.2 分析时主动考虑其影响

保留异常值后,研究者要在统计分析阶段评估其对结果的影响。
这类做法适用于需要保留真实临床异质性的研究。不处理本身,也是一种处理方式。

8. 让统计前提异常值校正更规范的3个原则

8.1 原则一,先核实,再修改

不要在没有证据的情况下直接删改。核实优先级永远最高。

8.2 原则二,围绕研究问题决策

如果异常值影响的是分组或结局,处理要更严格。
如果只是描述性指标,稳健统计方法往往就足够。

8.3 原则三,保留处理记录

无论是删除、修正、改为缺失值,还是保留标记,都要记录理由。
这对论文写作、审稿回复和后续复现都很重要。

总结Conclusion

统计前提异常值校正的核心,不是“删掉所有异常值”,而是根据数据类型、变量重要性和研究目的,做出可解释、可追溯的处理。优先核对原始资料,再判断是否删除、改为缺失值、采用稳健统计,或直接保留标记。
如果你正在做临床数据清洗、论文统计或真实世界研究,建议把异常值处理流程标准化。解螺旋可以帮助你把数据清洗、统计分析和论文结果写作串成一条完整路径,让前提异常值校正更高效、更规范。
科研人员在电脑前处理临床数据,旁边展示异常值处理决策树和论文统计分析流程