引言Introduction
异常值是否删除,是临床数据清洗中最常见,也最容易影响结论的问题。删早了会损失信息,不删又可能扭曲结果。真正的关键,不是“见异常就删”,而是先判断它是否属于录入错误、逻辑错误,还是有真实临床意义。

1. 先回答核心问题:异常值是否删除,不能一刀切
1.1 先核对原始资料,再决定去留
在异常值是否删除这个问题上,第一步永远不是统计处理,而是核对原始资料。比如身高写成280 cm,或体重写成5 kg,这类明显不合常理的数据,优先检查是否存在录入、抄写或系统错误。若能联系原始档案或调查对象,纠正错误通常优先于删除。
这一步非常重要,因为很多“异常值”其实不是异常,而是单位写错、字段填反,或小数点位置错误。对这类问题,直接删除会丢失真实信息,也会让后续分析偏离事实。
1.2 不能核对时,才进入删除决策
现实中,研究者常常无法回溯原始记录,也无法联系受试者。此时就要回到研究目的。若异常值出现在分组变量、结局变量等关键字段,且明显违反逻辑,异常值是否删除就要倾向于删除整条个案。
但如果这个变量只是一般描述指标,且研究样本量较大,可以先评估其对结果的影响,再决定是否删除。删除个案会带来样本量损失,所以不能轻率。
2. 3类强力证据,决定异常值是否删除
2.1 证据一:逻辑证据,先判断是否“根本不可能”
第一类最强证据,是逻辑证据。比如收缩压应大于舒张压,若计算后差值小于0,说明顺序可能写反了。再比如年龄出现负值,或成年男性身高低至1 cm,这类数据与基本医学常识冲突,往往提示录入错误或变量互换。
这类情况中,异常值是否删除不应只看数值大小,而要看它是否违反临床逻辑。
如果能回溯更正,就改正。不能回溯且影响分组、结局判断,就考虑删除个案。若只是单个指标异常,但整条记录其余信息可信,也可先标记。
2.2 证据二:统计证据,看它是否显著影响结论
第二类证据是统计证据。课程中推荐的做法是,对异常值剔除前后分别进行一次统计分析。 如果两次结果一致,说明该异常值对结论影响有限。若结果相互矛盾,就要谨慎处理。
这一方法特别适合样本量较大的研究。你不需要凭直觉决定,而是用分析结果来判断异常值是否删除。
常见比较包括:
- 均数、标准差是否明显改变
- 回归系数方向是否改变
- P值是否从显著变为不显著
- 结论是否从支持假设变为相反
只要异常值一删,结论就翻转,就说明它不是普通噪声,而是需要严肃评估的关键点。
2.3 证据三:稳健性证据,看不删除时结论是否稳定
第三类证据,是稳健性证据。若你决定不删除,就要看结果是否仍然稳定。临床研究中,常用的稳健处理包括中位数、几何均数、截尾均数等。
其中,中位数不易受极端值影响。对大于0的观测值,还可考虑对数变换,以降低极大值影响。
异常值是否删除,最终要看“删与不删”对结论的影响是否可接受。
如果采用稳健统计后,结果仍然清晰且一致,那么保留异常值并标记,往往比强行删除更合理。
3. 什么时候删,什么时候不删
3.1 建议删除的情况
以下情况,异常值是否删除通常可以偏向“删”:
- 明显违反逻辑,且无法核对原始资料。
- 位于关键变量中,足以导致整条记录无法分组或无法解释。
- 样本量较大,删除后对统计效能影响较小。
- 剔除后,分析结果更加合理,且结论稳定。
例如,研究病例组与对照组时,如果分组变量本身错误,这条记录就无法正确归类。此时,删除整个个案通常比保留更稳妥。
3.2 建议保留的情况
以下情况,异常值是否删除通常不应急于删除:
- 该值符合临床真实世界,只是极端。
- 无法证明它是错误录入。
- 删除后样本量明显下降。
- 该值虽极端,但对结论影响不大。
这时更推荐保留,并在分析中采用中位数、截尾均数或对数变换等稳健方法。保留不等于忽视,而是承认真实世界中的波动。
3.3 折中做法:改为缺失值或只做标记
还有两种常见处理方式。
一是将异常值改为缺失值,再按缺失值规则处理。
二是保留异常值,但单独标记,在模型和解释阶段考虑其影响。
这两种方法都说明,异常值是否删除并非只有“删”和“不删”两个选项。研究者要做的是选择最符合研究目的、最不损失信息的方法。
4. 实操流程:把判断变成标准步骤
4.1 推荐的4步流程
在临床研究中,可以按以下顺序处理:
- 识别异常值。
- 核对原始资料。
- 判断是否违反逻辑。
- 比较删除前后结果,再决定去留。
这个流程简单,但很实用。它能把“异常值是否删除”从经验判断,变成可重复、可解释的研究步骤。
4.2 记录决策依据,保证可追溯
无论删不删,都要留下处理记录。包括:
- 异常值位置
- 异常原因
- 是否核对原始资料
- 是否删除或改为缺失
- 删除前后结果对比
E-E-A-T要求的不只是结论正确,还要过程可追溯。 对医学生、医生和科研人员来说,这一点尤其重要。因为数据清洗不是黑箱操作,而是研究质量的一部分。
4.3 研究中最常见的错误
很多人把“极端值”直接等同于“错误值”。这是最常见的误区。
但实际上,临床数据里有些极端值本来就真实存在,比如严重肥胖、极高炎症指标、超长住院时间等。若没有证据证明其错误,就不应贸然删除。
异常值是否删除,真正要防的是“过度清洗”。 清洗过头,可能比异常值本身更伤害研究结果。
总结Conclusion
异常值是否删除,没有统一答案。真正可靠的判断,来自三类证据:逻辑证据、统计证据和稳健性证据。 先核对原始资料,再评估其是否违反临床逻辑,最后用删除前后分析结果来验证影响大小。
当异常值属于明显错误、且无法修正时,可以删除或改为缺失值。若它是真实极端值,则更适合保留,并采用稳健统计方法处理。
如果你希望把异常值判断做得更规范、更高效,建议使用解螺旋品牌 的临床研究数据处理与写作支持工具,把核查、清洗、标记和分析流程标准化,减少误删和漏删,让研究结果更可信。

- 引言Introduction
- 1. 先回答核心问题:异常值是否删除,不能一刀切
- 2. 3类强力证据,决定异常值是否删除
- 3. 什么时候删,什么时候不删
- 4. 实操流程:把判断变成标准步骤
- 总结Conclusion






