观察性研究样本量不足会怎样？4大风险

作者：Dr.Lin

2026-05-21｜原创

引言Introduction

观察性研究样本量不足，是很多医学生、医生和科研人员最常遇到的问题。样本太少，不只是“结果不显著”这么简单，还会直接影响偏倚、稳定性和结论可信度。如果你正在做观察性研究样本量设计，这4个风险必须先想清楚。
科研人员在电脑前查看样本量计算表、队列数据和统计图，画面突出“样本不足”与“研究设计”

1. 统计效能下降，真正的关联也可能检不出来

1.1 结果不显著，不等于没有关系

观察性研究样本量不足时，最直接的问题就是统计效能下降。效能不够，意味着即使真实存在关联，也可能因为事件数太少而检不出来。最后出现的往往是“阴性结果”，但这个阴性并不可靠。

样本少时，P值受随机波动影响更大。 研究结论会更不稳定。一次分析不显著，换一批样本可能就变成显著。这种不确定性会让结果很难被同行接受。

1.2 事件数比总样本更关键

对于回归模型、队列研究和病例对照研究，真正决定分析质量的，不只是总样本量，而是结局事件数。特别是在预测模型研究中，样本量研究更关注发生结局的研究对象数。若事件数过少，就容易出现估计不稳。

常见后果包括：

回归系数波动大。
置信区间变宽。
结论对个别样本极度敏感。
变量加入或删除后，结果明显改变。

这也是为什么观察性研究样本量设计，不能只看“总人数够不够”，还要看“事件够不够”。

2. 混杂控制变差，结论更容易偏

2.1 样本少时，分层和调整都会变弱

观察性研究天然要面对混杂。样本量不足时，研究者往往无法对关键混杂因素做充分分层，也难以在多变量模型中稳定调整。结果是，暴露和结局之间的关系更容易被混杂因素扭曲。

比如吸烟、饮酒、BMI、年龄、基础疾病，这些因素常常同时影响暴露和结局。样本太少时，一旦纳入多个协变量，模型就容易变得不稳定，甚至出现过度调整或调整不足。

2.2 变量越多，越考验数据承载能力

在观察性研究中，很多人会想把所有相关变量都放进模型。但如果样本量不足，这种做法反而会增加偏倚风险。统计上常用的经验是，当结局事件太少时，模型很容易出现不可靠估计。尤其是二分类结局、少数事件结局，更要谨慎。

样本量不足时，不是“能调的混杂因素越多越好”，而是“模型越容易崩”。
这会直接影响因果解释，也会降低文章说服力。

3. 估计不稳定，容易出现假阳性或假阴性

3.1 小样本下的结果更受偶然性影响

观察性研究样本量不足，最危险的地方不只是“不显著”，还包括“看起来很显著但不稳”。小样本中，少数极端值就能明显拉动效应量，导致假阳性。

同样，真实存在的关联也可能被偶然误差掩盖，形成假阴性。两种情况都会误导读者，甚至影响后续机制研究、临床决策和课题方向。

3.2 置信区间往往更宽

样本不足时，效应量的估计精度会明显下降。最直观的表现就是置信区间变宽。即使方向一致，也难以说明问题。审稿人通常会直接质疑：

结果是否稳定。
是否受个别样本影响。
是否具备外推价值。

如果你的观察性研究样本量偏小，文章最常见的问题不是“有没有结果”，而是“这个结果能不能信”。

3.3 容易高估效应大小

小样本研究常常会高估真实效应，这是医学研究里很常见的现象。因为只有在“碰巧更强”的样本中，结果才更容易显著，最终发表出来的效应值就可能偏大。
这会导致：

后续重复研究难以验证。
临床意义被夸大。
研究者对真实效应形成错误预期。

4. 代表性和外推性变差，审稿更容易被质疑

4.1 样本少，往往伴随选择偏倚

观察性研究样本量不足时，研究者常常不得不缩小纳入范围，或者延长纳入时间。这样做未必一定错，但会让研究对象更特殊。
如果样本来自单中心，或者纳入标准过严，代表性会进一步下降。

代表性不足，意味着结论未必能推广到更广泛人群。
这对临床研究尤其重要。因为医生关心的不是“这个小样本里发生了什么”，而是“这个结论能不能用于真实患者”。

4.2 研究设计的局限会被放大

样本量不足会放大观察性研究本身的局限。比如：

暴露测量不精确。
结局定义不统一。
缺失值比例偏高。
难以进行亚组分析。

这些问题在大样本下可能还能被部分抵消，但在小样本下会更明显。审稿人和读者通常会把这类问题归结为一句话：证据强度不够。

4.3 文章更容易被要求补充分析

当观察性研究样本量不足时，常见的补救方式包括敏感性分析、补充外部数据库、做多中心验证，或者用更稳健的统计策略。但如果原始样本太少，这些补救措施往往效果有限。
特别是在高水平期刊审稿中，样本量不足常常会直接影响文章定位。

5. 怎么尽量降低观察性研究样本量不足的影响

5.1 先按研究目的决定样本量逻辑

不同研究类型，样本量逻辑不同。描述性研究、病例对照研究、队列研究、预测模型研究，关注点都不一样。
不要只凭经验估人数。 应该根据主要结局、事件率、效应量和分析方法综合判断。

5.2 优先保证关键事件数

如果无法无限扩大总样本，至少要保证核心结局事件足够。对于回归分析，尤其要避免“变量很多，事件很少”的情况。
建议优先保留最关键的变量，减少不必要的模型复杂度。

5.3 预先规划分析方案

在数据收集前，就应明确：

主要结局是什么。
主要暴露是什么。
需要调整哪些混杂因素。
哪些亚组分析是必须做的。

这样可以减少后期因样本不足导致的临时调整，也能提高研究的可重复性。

5.4 需要时考虑数据库整合

如果单中心样本有限，可以考虑与公开数据库结合，或进行多中心合作。对于科研投稿而言，单一小样本往往不如“原始研究加外部数据验证”更有说服力。
这也是解螺旋常强调的思路之一。通过规范的研究设计、数据库整合和方法优化，可以在样本有限的情况下，尽量提高观察性研究样本量带来的证据质量，而不是被动接受“小样本低可信度”的结果。

总结Conclusion

观察性研究样本量不足，最常见的4个风险是：统计效能下降、混杂控制变差、估计不稳定、代表性和外推性受限。 这些问题会直接影响结果可信度，也会增加审稿质疑。
对于医学生、医生和科研人员来说，真正重要的不是“先做出来”，而是“做得能解释、能重复、能发表”。如果你正在规划课题，建议尽早评估观察性研究样本量，必要时结合数据库、联合研究或方法优化，提高研究质量。
研究者在会议室讨论样本量计算、数据库整合和论文投稿策略，画面体现“降低偏倚、提高证据质量”