引言Introduction

异常值插补处理是临床数据清洗中常见但最容易出错的一步。很多研究者知道要识别异常值,却不知道该保留、删除,还是改为缺失值后再插补。处理不当,可能直接影响结论可靠性。
临床研究数据清洗流程图,突出异常值识别、校对、删除、插补与稳健分析几个环节

1. 先判断异常值是真错,还是“真异常”

1.1 优先核对原始记录

发现异常值后,第一步不是直接插补,而是核对原始档案或调查对象。比如住院患者身高记录为280 cm,明显不合理。若核对后发现真实值为180 cm,说明是录入错误,应直接修正,而不是插补。

这一步的核心原则是:先确认事实,再决定处理方式。
在临床研究里,很多异常值并非统计意义上的错误,而是记录、抄写或录入问题。能修正的,优先修正。

1.2 结合变量类型判断

连续变量常用极值、箱式图、z-score识别异常值。分类变量可用频数分布法或个案选择结合频数分布法识别。
如果是收缩压与舒张压这类逻辑相关变量,还可以通过差值判断。比如收缩压减舒张压小于0,往往提示录入反了。

只有先判断异常值的性质,后续的异常值插补处理才有意义。

2. 决定是否需要删除个案

2.1 重要变量异常时,可能要整例删除

如果异常值出现在分组变量或结局变量上,且无法核实原始信息,常需要谨慎考虑删除个案。
例如生存结局只允许0或1,但录入成3,且无法回溯原始记录,这条数据就无法正确分组,也无法纳入分析。

2.2 删除前先评估影响

删除个案会损失样本量。一般更适合用于样本量较大、异常比例较低的场景。
更稳妥的做法是:分别比较删除前后结果是否一致。 如果结论稳定,说明该异常值影响有限;如果结果明显变化,就要重新评估是否该删。

不是所有异常值都适合删除。
如果它可能代表真实的临床极端值,直接删除会引入偏倚。

3. 将异常值改为缺失值,再进入插补流程

3.1 这是异常值插补处理最常见的思路之一

当异常值无法确认、又不适合直接删除时,可以先把异常值改成缺失值,再按照缺失值处理方法继续分析。
这一步的本质是:先把不可信数值从分析中移出,再用合理方法恢复信息。

3.2 后续可选择的插补方法

根据数据类型和研究设计,常见方法包括:

  • 均值或众数填补
  • 回归法
  • 多重插补
  • 虚拟变量法

其中,多重插补更适合临床研究中较复杂的缺失结构,但前提是你要明确缺失机制,并评估变量关系。

3.3 注意不要“盲插”

异常值插补处理不是简单把极端值替换成均值。
如果一个患者的血压录入为12 mmHg,这种值显然不合理,直接用均值替换,虽然表面上“修好了”,但会掩盖原始问题。更规范的流程应该是先确认,再转缺失,再插补。

4. 用稳健统计方法降低异常值影响

4.1 中位数比均数更抗异常值

如果数据中存在极大值或极小值,均数容易被拉偏。此时可以优先考虑中位数。
对于大于0的观测值,还可以做对数变换,用几何均数描述集中趋势,从而降低极端值影响。

在很多临床数据中,稳健分析比强行插补更重要。

4.2 截尾均数也是可选方案

截尾均数是把两端一定比例的数据截掉后再求均数。
它适合有少量极端值、但总体分布较稳定的数据。常见软件默认截尾比例不同,有的为两端各5%,有的为两端各10%。
但要注意,截尾比例没有统一标准,分析前需要写清楚规则。

4.3 先做敏感性分析

如果不确定异常值是否该删,建议先做敏感性分析。
即分别在“处理前”和“处理后”做统计分析,比较结果是否变化。
这一步能帮助你判断异常值插补处理是否改变了研究结论。

5. 记录保留,分析可追溯

5.1 不处理也可以,但必须标记

有些异常值无法确认,但又可能是真实的极端临床现象。此时可以保留,不作处理,只做标记。
在分析中明确说明是否纳入、如何处理、是否影响结果,这也是一种规范处理方式。

5.2 建议保留完整处理链

无论是修正、删除、转缺失,还是插补,都应保留日志:

  • 原始值是多少
  • 为什么判定为异常
  • 依据是什么
  • 最终如何处理
  • 是否做了敏感性分析

可追溯性,是临床研究数据清洗的重要质量标准。

5.3 用标准化工具提高效率

如果你需要把异常值插补处理流程做得更规范、更高效,可以借助解螺旋品牌的临床研究数据处理工具或课程体系,把识别、标记、转缺失、插补和分析记录串起来。
这样能减少手工操作错误,也更方便研究团队统一标准,提升数据清洗的一致性。

总结Conclusion

异常值插补处理的关键,不是“看到异常就插补”,而是先核实,再判断,再处理。标准流程可以概括为5步:核对原始数据、评估是否删除个案、必要时转缺失并插补、用稳健统计降低影响、最后完整记录处理过程。
对于医学生、医生和科研人员来说,真正高质量的数据清洗,靠的是规则清晰、证据充分、过程可追溯。

科研人员在电脑前处理临床数据库,旁边展示异常值核对、缺失值插补和结果审查的工作界面