如何识别研究中的选择偏倚？

重点看样本是否代表目标人群、入组者与未入组者是否不同，以及失访是否改变了结局分布。

如何减少选择偏倚？

在设计阶段规范抽样和纳入标准，研究中统一招募并减少失访，分析时比较基线特征并报告偏倚影响。

选择偏倚：3步识别与纠正的关键方法

Q: 什么是选择偏倚？

选择偏倚是由于研究对象选择不当，导致研究结果偏离真实情况的系统误差。

作者：Dr.Lin

2026-05-20｜原创

引言Introduction

选择偏倚 是临床研究里最常见、也最容易被低估的系统误差之一。它会让研究对象不代表真实人群，直接扭曲暴露与结局的关系。对医学生、医生和科研人员来说，先识别，再纠正，是保证研究可信度的第一步。
临床研究场景示意图，左侧为暴露组与对照组，右侧为“真实人群”，中间有偏离箭头，突出选择偏倚会让样本偏离总体。

1. 选择偏倚是什么，为什么必须重视

1.1 选择偏倚的核心定义

选择偏倚 是由于研究对象选择不当，导致研究结果偏离真实情况的系统误差。它的本质，不是随机波动，而是“选错了人”。
在队列研究中，常见问题包括暴露组不能代表暴露人群，对照组不能代表非暴露人群，或者两组本身就缺乏可比性。

1.2 它为什么会严重影响结论

如果样本本身有偏，后续的统计分析再精细，结论也可能失真。比如，志愿者往往更健康，或具有某种特殊倾向。历史性队列研究中，档案丢失、记录不全，也会让纳入人群和真实目标人群不一致。
所以，选择偏倚不是“小误差”，而是会直接改变研究方向的系统问题。

1.3 常见出现场景

选择偏倚常出现在以下环节。

纳入标准过宽或过窄。
抽样方法不严格。
研究对象拒绝参加。
历史性研究中资料缺失。
随访过程中退出人群过多。

这些情况在病例对照研究和队列研究中都很常见。尤其在医院基础研究中，样本来源更容易偏向特定人群。

2. 选择偏倚如何识别，3个关键判断点

2.1 第一步，看样本是否代表目标人群

判断选择偏倚，先问一个问题：被纳入的人，能否代表我真正想研究的人群。
如果暴露组、对照组，或病例组、对照组，来自不同来源，且基线特征差异明显，就要警惕偏倚。

例如，医院病人不能简单代表社区总体。多个医院中不同科室的病人，也未必适合作为统一对照。研究者必须检查样本来源是否一致，是否存在系统性筛选。

2.2 第二步，看入组与未入组者是否不同

很多选择偏倚并不发生在“研究开始后”，而是发生在“谁被选进来”这一步。
如果有人拒绝参加，或者某些人因为资料不全被排除，剩下的人可能和被排除者存在系统差异。这个差异如果与暴露或结局有关，就会产生偏倚。

在历史性队列研究中，档案是否完整尤为重要。若记录缺失超过一定限度，就不应轻易解释研究结果。

2.3 第三步，看失访是否改变了结局分布

队列研究中，失访偏倚本质上也属于选择偏倚 。
如果暴露组和对照组失访比例不同，或失访者和未失访者的发病风险不同，结果就可能被歪曲。
知识库提示，若失访率超过5%，就应进一步分析；若达到20%以上，研究真实性就值得怀疑。

这意味着，识别选择偏倚，不能只看“最终样本量”，还要看“样本是怎么留下来的”。

3. 选择偏倚如何纠正，最实用的3步方法

3.1 第一步，设计阶段先预防

对选择偏倚来说，最有效的方法不是事后补救，而是前期预防。
具体做法包括：

采用正确的抽样方法。
尽量遵守随机化原则。
严格按纳入和排除标准选择对象。
尽量提高应答率和依从性。

如果是历史性队列研究，必须确保档案资料齐全，且缺失记录在可接受范围内。设计越规范，选择偏倚越容易被压低。

3.2 第二步，比较关键基线特征

如果研究对象中有人拒绝参加，或存在失访，不能只记录数量，还要比较他们的基本特征。
例如，可比较年龄、性别、疾病史、暴露史、主要危险因素等。如果这些特征差异不大，选择偏倚可能较小。
若差异明显，就要谨慎解释结果，必要时在论文中明确说明局限性。

这一步的意义在于：先判断偏倚是否可能存在，再决定能否继续分析。

3.3 第三步，针对具体研究类型进行优化

不同研究设计，纠正方法不同。

在队列研究中：

尽量选择稳定人群。
提高随访依从性。
减少退出和失访。
失访后尽量查询死亡情况及原因。
结合基线特征推测失访者与未失访者的差异。

在病例对照研究中：

尽量在社区人群中选择病例和对照。
若为医院研究，应尽量在多个医院、多个科室、多个病种中选对照。
已知与暴露因素有关的病种，不宜作为对照。
优先选择新发病例，减少由病程带来的系统性误差。

在诊断试验中：
虽然重点不完全相同，但志愿者偏倚也会影响样本代表性。参与试验的人群常更关注健康，可能高估试验效果。

4. 研究中最容易忽视的几个选择偏倚信号

4.1 志愿者偏倚

志愿者往往比一般人群更健康，更愿意配合研究，也可能有更强的健康意识。
如果研究样本主要来自自愿报名者，就要考虑这种人群是否过于“理想化”。

4.2 入院率偏倚

在以医院为基础的病例对照研究中，病例和对照都不是总体的随机样本。由于就诊和住院本身受多种因素影响，研究对象容易偏向某些特定特征。
这会让病例组和对照组在社会经济、居住地区、疾病谱上出现系统差异。

4.3 失访偏倚

失访并不只是“少了几个样本”。如果失访和结局相关，结果方向都会变。
例如，若高风险者更容易失访，研究观察到的发病率可能被低估。

临床研究里，真正危险的往往不是明显错误，而是看起来“很正常”的偏差。

5. 让选择偏倚降到最低的实操清单

5.1 设计前

明确目标人群。
设定可执行的纳入排除标准。
选用合适的抽样框架。
尽量随机化或限制入组条件。

5.2 研究中

统一招募流程。
记录拒绝参加者信息。
跟踪失访原因。
强化依从性管理。
保证不同组别的招募方式一致。

5.3 分析和写作时

比较基线特征。
报告失访率。
说明样本来源。
讨论偏倚对结果方向的影响。
对结论保持克制。

如果研究已经发生选择偏倚，最重要的不是“掩盖”，而是清楚说明其可能影响。

6. 结尾：把选择偏倚控制在研究起点

6.1 结论回顾

选择偏倚的关键，不在于统计软件，而在于研究设计。
它通常来自样本选择不当、基线不均衡、失访、档案缺失或志愿者效应。
识别它，要看代表性、入组差异和失访模式。纠正它，要靠设计前预防、研究中控制、分析时说明。

6.2 给科研人员的最后建议

如果你正在做队列研究、病例对照研究或诊断试验，建议从一开始就建立规范的数据采集和样本管理流程。这样，选择偏倚更容易被发现，也更容易被控制。
在课题设计、文献解读和论文撰写中，借助解螺旋 的临床研究与论文支持产品，可以帮助你更系统地梳理研究对象选择、偏倚识别和方法学表达，减少因设计疏漏带来的返工，提升课题质量与发表效率。
研究设计流程图，从“目标人群”到“纳入样本”，标出纳入排除标准、随机抽样、失访控制、基线比较等步骤。