病例对照研究为什么需要做匹配？

因为匹配可以减少年龄、性别等混杂因素带来的干扰，提高病例组和对照组的可比性。

病例对照研究应该匹配哪些变量？

优先匹配与结局有关、且容易在病例组和对照组之间失衡的关键混杂因素，如年龄、性别、地区和入院时间。

病例对照研究匹配后还需要注意什么？

需要采用与匹配设计相对应的统计分析方法，并检查匹配后的基线平衡，避免忽略配对结构导致偏倚。

病例对照研究匹配设计的3大核心原则

作者：Dr.Lin

2026-05-20｜原创

引言Introduction

病例对照研究匹配设计，是减少混杂偏倚、提高可比性的关键环节。对医学生和研究者来说，难点不在“做不做匹配”，而在“匹配什么、匹配到什么程度、如何分析”。病例组与对照组在时间、年龄、性别等因素上进行匹配的研究示意图，背景为临床病历和统计图表

1. 病例对照研究匹配设计为什么重要

1.1 匹配的本质，是让组间更可比

病例对照研究属于观察性研究，核心是回溯暴露史，再比较病例组和对照组的暴露差异。问题在于，真实世界里两组往往天然不平衡。年龄、性别、就诊来源、社会经济状态，都可能影响暴露分布和结局风险。

病例对照研究匹配设计的目标，不是让两组“完全一样”，而是尽量排除已知重要混杂因素的干扰。 这样，研究者才能更接近暴露与疾病之间的真实关联。

1.2 匹配不是越多越好

匹配能提高组间均衡性，也能提升统计效率。但匹配过多，会带来两个问题。

增加病例和对照的筛选难度。
可能造成过度匹配，掩盖真实关联。

尤其当某些变量实际上与暴露相关、但不是混杂因素时，盲目纳入匹配，可能削弱研究效应值。所以，病例对照研究匹配设计的前提，是先判断这个变量是否值得匹配。

1.3 先区分“混杂因素”和“匹配因素”

不是所有基线变量都适合匹配。匹配因素应满足两个条件。

与结局有关。
不是暴露与结局之间路径上的中间变量。

例如，年龄和性别常是经典匹配因素，因为它们既影响很多疾病风险，也常影响暴露模式。相反，如果某变量本身就是暴露后果，就不应纳入匹配。

2. 病例对照研究匹配设计的3大核心原则

2.1 原则一，优先匹配关键混杂因素

病例对照研究匹配设计的第一原则，是只匹配对结果影响大、且在病例组和对照组之间容易失衡的变量。常见包括年龄、性别、地区、入院时间、就诊机构类型等。

匹配变量的选择，应围绕研究假说和病因学逻辑，而不是追求变量数量。 如果某变量对暴露和结局都有关联，且在设计阶段能可靠识别，就值得纳入。

举个例子。若研究某药物与结直肠癌风险的关系，年龄和性别通常优先考虑。因为这两项既影响癌症发生，也可能影响药物使用模式。若不控制，病例组和对照组的暴露差异，可能部分来自年龄结构差异，而不是药物本身。

2.2 原则二，匹配要可操作、可验证

病例对照研究匹配设计不是理论游戏。真正落地时，匹配条件必须能从病历、数据库或随访资料中稳定获取，并且定义清楚。

匹配时要明确三件事：

匹配变量的定义。
匹配窗口或允许误差。
匹配是否一对一，还是一对多。

例如，年龄匹配不能只写“年龄相近”，而要写成“±2岁”或“5岁分层”。时间匹配也不能笼统写“同期”，应明确为“同一入院年度”或“同一季度”。只有可量化、可复核的匹配，才符合高质量病例对照研究匹配设计。

此外，还要注意数据来源的一致性。病例与对照最好来自同源人群，同一地区、同一时段、相似医疗环境。这样可以减少选择偏倚，让匹配更有意义。

2.3 原则三，匹配后必须正确分析

很多研究在设计时做了匹配，但分析时仍按普通成组比较处理。这会导致偏倚，甚至错误估计效应值。

病例对照研究匹配设计一旦成立，统计分析也要与之对应。 常见做法是采用配对分析方法，或在回归模型中纳入匹配变量。若是个体匹配，还要考虑配对结构，不能忽略同一匹配组内的相关性。

另外，匹配后要检查平衡性。不能只看是否“配上了”，还要看配得是否合理。对于基线变量，最好报告匹配前后差异，必要时用标准化差异评估平衡。这样更符合临床研究报告规范，也更便于读者判断研究质量。

3. 病例对照研究匹配设计常见误区

3.1 把所有变量都拿来匹配

这是最常见的错误。研究者担心混杂，就尽量多匹配，结果反而把研究做窄了。可选对照越来越少，招募成本越来越高，最终样本代表性下降。

匹配应服务于研究目的，而不是代替统计控制。 对于很多次要混杂因素，更合适的做法是在多因素模型中调整，而非在设计阶段强行匹配。

3.2 选择了与暴露有关的变量作为匹配因素

如果对照的选择与暴露本身相关，就会扭曲暴露率。比如在研究NSAID与结肠癌关系时，如果选因关节炎住院者做对照，NSAID使用率可能异常升高，容易低估效应。反过来，若选消化性溃疡患者，又可能高估效应。

这说明，病例对照研究匹配设计必须保证对照的选择独立于研究暴露。 否则，匹配非但不能纠偏，反而会引入系统误差。

3.3 匹配后忽略回忆偏倚和信息偏倚

病例对照研究是回顾性研究，暴露信息常来自病史、访谈或数据库。病例和对照对既往暴露的回忆能力可能不同，导致信息偏倚。即使匹配做得很好，也不能自动消除这一问题。

因此，研究中要尽量使用客观记录，如病历、检验结果、处方记录，并统一资料收集流程。匹配解决的是“可比性”，不是“真实性”。

4. 让病例对照研究匹配设计真正可发表的3个操作建议

4.1 先定研究问题，再定匹配方案

研究目的不同，匹配策略也不同。若目的是广泛探索危险因素，可采用较少匹配或频数匹配。若目的是验证病因假说，尤其在样本量较小、病例构成特殊时，可考虑个体匹配。

在正式实施前，建议先写清楚：

暴露因素是什么。
主要结局是什么。
计划匹配哪些变量。
每个变量的定义和范围。

这一点决定了病例对照研究匹配设计是否有逻辑闭环。

4.2 优先保证对照来源清晰

对照可来自医院、社区、邻居、朋友或亲属，但不同来源的代表性和偏倚风险不同。医院对照最方便，但可能不代表总体基础暴露率。社区对照代表性更好，但组织成本更高。

如果对照来源不清，匹配再精细，也难以避免偏倚。对照的核心要求是未患病、能代表可能发病人群、且选择过程独立于暴露。

4.3 报告时写清楚匹配细节

高质量论文不仅要做匹配，还要报告匹配过程。至少应交代：

匹配变量。
匹配比例。
匹配方式。
是否成功匹配全部对象。
统计分析方法是否考虑匹配结构。

这样，读者才能判断结果是否可靠。对于计划投稿的临床研究，规范的设计与报告，往往比单纯追求样本量更重要。

总结Conclusion

病例对照研究匹配设计的核心，不是“尽可能多匹配”，而是“围绕混杂控制精准匹配”。第一，优先匹配真正重要的混杂因素。第二，匹配条件必须清晰、可操作、可复核。第三，设计和分析必须一致，避免忽略匹配结构。

对于医学生、医生和科研人员来说，真正高质量的病例对照研究匹配设计，既要服务研究假说，也要兼顾代表性和可发表性。若你希望把匹配设计、数据收集和结果报告做得更规范，可以借助解螺旋的研究设计与论文写作产品，进一步提升课题质量和投稿成功率。研究者在电脑前整理病例对照研究数据，旁边展示匹配流程图、基线表和统计分析结果的学术场景