队列研究样本量计算前，最先要明确什么？

先明确研究结局和效应指标，再根据事件率估算样本量。

队列研究为什么要把失访率算进去？

因为失访会减少有效样本，通常需要在理论样本量基础上增加一定比例来补偿。

哪些课题不太适合用队列研究？

发病率极低、随访多年仍难积累足够事件的课题，通常不适合队列研究。

队列研究样本量计算难吗？4个要点

作者：Dr.Chuang

2026-05-20｜原创

引言Introduction

队列研究样本量计算看似公式复杂，真正难点却在于研究目的、失访率和事件发生率。对医学生、医生和科研人员来说，队列研究样本量计算难吗？难在细节，不难在思路 。只要抓住4个要点，就能把方案做得更稳。医学研究者在电脑前查看队列研究流程图，旁边展示样本量计算公式、随访时间轴和失访提示标识

1. 先判断：队列研究是否适合你的课题

1.1 研究问题决定设计，不是反过来

队列研究的核心，是观察暴露组和非暴露组的结局差异。它适合研究因果链条较清晰、暴露因素明确、结局可随时间出现 的课题。比如，手机使用时间与肥胖风险，饮酒与肝硬化发病，午睡时长与脑卒中风险，都属于适合用队列研究回答的问题。

但如果研究的是发病率极低的疾病 ，队列研究往往不合适。因为即使随访20年或30年，也可能只出现极少数病例。此时样本量会被事件稀少拖垮，研究效率很低。这类题目通常更适合病例对照研究。

1.2 基线越接近，结果越可信

队列研究开始时要调查基线情况。两组在年龄、性别、疾病状态、生活方式等方面越接近，后续结局比较越可信。换句话说，样本量不是唯一问题，可比性同样重要 。如果基线差异太大，哪怕样本量充足，结果也容易被混杂因素影响。

因此，在进入样本量计算前，先明确以下内容：

研究对象是谁。
暴露因素是什么。
结局指标是什么。
随访时长多长。
预计事件发生率大概多少。

这一步不清楚，后面的计算就没有意义。

2. 第1个要点：明确结局事件和效应指标

2.1 先选终点，再谈样本量

队列研究样本量计算，第一步不是套公式，而是定义结局。 结局可以是发病、死亡、复发，或某个连续型指标的变化，但最常见的是二分类结局，如是否患病、是否发生并发症。

如果研究的是发病结局，就要关注两组的发病率差异。此时常用的效应指标包括：

RR，相对风险。
HR，风险比，常用于生存分析。
发病率差异。

不同终点，样本量估算方法不同。终点不清，样本量就会算错。

2.2 事件发生率直接影响样本量

队列研究依赖随访，依赖事件积累。事件越少，需要的样本量越大。 这是最关键的现实约束之一。

例如，研究发病率很低的疾病时，样本量会迅速膨胀。即使你设计得很规范，随访多年仍然难以获得足够事件数。相反，如果研究的结局较常见，样本量压力会小很多。

实际操作中，很多研究者会先根据文献或预实验估计暴露组和非暴露组的事件率，再决定需要多少样本。这里最重要的是：估计值要来自可信来源，不能凭感觉写。

3. 第2个要点：把失访率算进去

3.1 随访研究的真实损耗，常常被低估

队列研究的核心环节是随访。随访中会出现失访，比如搬家、联系方式变化、拒绝继续参与等。失访会直接降低有效样本，削弱研究效能。

上游知识库已经明确指出，为了应对失访，通常可在设计中适当增加约20%的样本量 。这不是固定标准，但在很多常见课题中，是一个实用的经验值。若研究周期更长、对象更分散、随访难度更大，失访率还可能更高。

3.2 计算时要用“实际可获得样本”倒推

不少人只算了理论样本量，忘了加失访。最后看似达标，实际分析时却样本不足。正确做法是先得到理论样本量，再按失访率倒推入组数。

例如：

理论需要100例。
预计失访20%。
那么实际入组应大于100例，通常按125例左右准备。

样本量不是纸面数字，而是最终能完成分析的有效样本。 这点在队列研究中尤其重要，因为失访会直接影响因果推断质量。

3.3 降低失访，比盲目加样本更有效

增加样本量只能部分对冲损失，真正提高研究质量的方式，是减少失访。可行措施包括：

建立多渠道联系方式。
设定固定随访节点。
提前说明研究周期和配合要求。
对高风险失访人群加强追踪。

当失访率不可控时，才考虑通过增加样本量来补偿。

4. 第3个要点：暴露差异要足够大

4.1 暴露组和非暴露组差异越明显，把握度越高

队列研究的本质，是比较暴露与非暴露两组的结局差异。如果两组暴露水平差异太小，样本量需求会明显增加。相反，差异越清楚，越容易观察到结果。

例如，研究“每天玩手机时间与肥胖风险”时，如果暴露定义过于模糊，比如“偶尔玩手机”和“经常玩手机”混在一起，研究效应会被稀释。暴露定义越清晰，样本量计算越可靠。

4.2 基线均衡能减少额外样本消耗

上游知识库强调，队列研究开始时应尽量让基线情况接近。因为基线差异会增加噪音，降低效能。研究者可能被迫用更大样本去抵消混杂影响。

所以，在设计阶段应尽量做到：

暴露定义明确。
结局判定标准统一。
纳入排除标准清楚。
分组后基线可比。

这不是统计技巧问题，而是研究设计问题。 设计越规范，样本量越不容易被浪费。

5. 第4个要点：用合适工具算，而不是只靠经验

5.1 计算工具很多，关键是输入参数要正确

在实际研究中，队列研究样本量计算可以借助多种工具。上游知识库提到的方式包括：

在线计算软件。
统计软件，如 PASS。
微信公众号工具。
Excel。

这些工具都能帮助完成基础计算，但前提是你已经明确了研究设计参数。工具只能计算，不能替你定义科学问题。

5.2 计算前必须准备的参数

通常需要先明确：

研究类型，是前瞻性队列还是回顾性队列。
主要结局是什么。
暴露组和非暴露组的预期事件率。
预期效应量，如RR或HR。
显著性水平和把握度。
失访率。
随访时间。

参数缺一项，计算结果就可能偏离真实需要。 这也是很多初学者觉得队列研究样本量计算难的真正原因。

5.3 课题不同，思路相同

不管是研究饮酒与肝硬化，还是研究午睡时间与脑卒中风险，计算逻辑都一致：先定义结局，再估事件率，再估效应，再补失访。差别只在具体参数。

如果研究问题本身不适合队列设计，比如极低发病率疾病，继续硬算样本量也没有意义。此时应先调整研究设计，而不是继续堆公式。

总结Conclusion

队列研究样本量计算难吗？本质上不难，但前提是设计清楚。 你只需要记住4个要点：先判断课题是否适合队列研究，再明确终点事件和效应指标，接着把失访率算进去，最后用合适工具完成计算。对临床研究而言，真正决定研究质量的，不只是数字，更是设计逻辑和随访管理。

如果你正在准备课题、标书或SCI研究方案，建议把样本量计算和研究设计一起优化。解螺旋 可以帮助你把队列研究思路、样本量估算和方案撰写串起来，减少返工，让课题更快进入可执行阶段。科研团队在会议桌前讨论队列研究方案，画面中有样本量计算表、随访日历和品牌化研究支持场景