队列研究样本量最关键的因素是什么？

最关键的是结局事件数，不只是总样本数；事件越少，统计效能越弱。

队列研究样本量要不要考虑失访？

要考虑。方案设计时应预留失访率，否则实际有效样本会不足。

队列研究样本量计算公式：4个核心参数

Q: 队列研究样本量怎么算？

通常先确定主要终点，再结合α、效能、效应量和结局事件发生率进行估算，并预留失访率。

作者：Dr.Lin

2026-05-19｜原创

引言Introduction

医学生或研究者在电脑前查看队列研究设计图、样本量计算表和统计软件界面，画面突出“样本量不足会影响结论可信度”

做队列研究时，最常见的难题不是“有没有数据”，而是队列研究样本量怎么算才合理 。样本太少，效能不足，结果不稳。样本太多，又浪费时间和经费。本文用4个核心参数，帮你快速抓住计算逻辑。

1. 队列研究样本量的基本思路

1.1 为什么样本量会直接影响结论

队列研究关注的是暴露与结局的时间顺序。样本量不足时，常见问题有两类。第一，终点事件太少，无法稳定估计效应。第二，置信区间太宽，结论不够精确。样本量本质上是在精度、效能和可行性之间做平衡。

从上游知识库看，基础设计类型的样本量计算中，容许误差越小，所需样本量越大。这个原则同样适用于队列研究。你越希望结果精确，样本量就越要增加。对于分类资料，常用比例、率或风险差来估计；对于连续资料，则要结合标准差和误差范围。

1.2 队列研究常见的计算场景

队列研究里，样本量常围绕以下目标展开。

比较暴露组与非暴露组的结局发生率。
估计相对危险度或风险差。
进行多因素分析，如Cox回归。
预防失访后样本不足。

如果研究设计涉及时间结局，真正决定统计质量的，往往不是“总人数”，而是“有效事件数”。

2. 队列研究样本量计算公式里的4个核心参数

2.1 参数1：检验水准α

α表示第一类错误概率，常用0.05。它决定你愿意接受多大的“误报风险”。在双侧检验中，95%置信度对应α=0.05。α越小，要求越严格，样本量通常越大。

对于医学生和科研人员来说，最常见的做法是先按0.05设定，再结合研究目的决定单侧还是双侧。若是探索性研究，可结合文献和预实验进一步调整。

2.2 参数2：效能1-β

效能是检验发现真实差异的能力，常用80%或90%。β越小，漏检风险越低。效能越高，样本量需求越大。

这点在队列研究里尤其重要。因为结局事件往往不是每个受试者都会发生。比如慢病进展、复发、死亡等结局，都需要足够的观察人数和随访时间。若效能设得太低，即使真实存在关联，也可能检不出来。

2.3 参数3：效应量

效应量是计算样本量的核心。它回答的问题是，暴露组和非暴露组之间，你预期差多少。

队列研究里常见的效应量包括：

相对危险度，RR。
风险差，RD。
比值比，在某些分析框架中使用。
Cox回归中的危险比，HR。

效应量越小，说明你要检测的差异越细微，样本量就越大。 这是所有样本量计算中最容易被忽略的一点。很多研究不是统计方法不对，而是预期效应设得过于乐观。

2.4 参数4：结局事件发生率

队列研究和横断面研究不同。它不仅看“有多少人”，还看“有多少人发生了结局”。上游知识库在Cox回归样本量估计中明确指出，应关注终点事件发生率。经验上，若按多因素分析，常参考自变量个数的5、10或20倍；若为Cox回归，则要按发生终点事件的数量来估计。

对队列研究来说，事件数往往比总样本数更关键。 如果结局发生率低，即使总样本数看起来不少，实际可用信息仍然有限。

3. 公式背后的计算逻辑

3.1 暴露组与非暴露组的对比

队列研究最常见的模型，是比较两组结局发生率。此时样本量计算会同时受到以下因素影响。

暴露组事件率。
非暴露组事件率。
组间样本分配比例。
α和效能。

如果你已经知道对照组基线风险，就可以根据预期RR或HR反推暴露组风险。然后再估算所需样本量。这一步的关键，不是机械套公式，而是先把临床问题转换成可计算的统计参数。

3.2 多因素队列分析的经验性估计

当研究要进入多因素回归，PASS软件并不是所有场景都能直接给出稳妥答案。知识库中提到，多因素分析的样本量常采用经验性估计，通常按自变量个数的5、10或20倍来粗略估计。

例如，如果模型中计划放入10个自变量，按1:10，至少需要100例；按1:20，至少需要200例。若是Cox回归，还要看事件数，而不只是总例数。因此，队列研究做方案阶段时，最好先明确最终进入模型的变量数。

3.3 失访率要提前预留

队列研究有一个现实问题，失访。失访会直接削弱有效样本量。方案设计时，通常要把失访率加回去。若预计失访10%，则初始纳入量应按目标样本量再除以0.9。

这一步很重要。因为真正进入分析的人数，往往少于最初纳入人数。不预留失访率，前期计算再准确，最后也可能功亏一篑。

4. 如何把4个核心参数用于实际设计

4.1 第一步，明确主要终点

队列研究样本量的第一步，不是打开软件，而是定义主要终点。是发病、复发、死亡，还是某个实验室指标变化。终点不同，所需事件数不同，样本量逻辑也不同。

如果终点是时间结局，优先考虑HR和事件数。如果终点是二分类结局，则重点看两组发生率。先定终点，再定参数，最后算样本量，顺序不能反。

4.2 第二步，查文献或做预实验

上游知识库强调，容许误差、标准差、总体比例等参数，很多时候需要通过文献或预实验获得。队列研究也一样。你可以从既往研究中提取事件率、RR、HR或标准差。

实操上建议：

优先查系统评价或高质量原始研究。
其次参考同地区、同人群数据。
若文献不足，可做小样本预实验。
对关键参数做保守估计，避免高估效应量。

参数来源越可靠，样本量越有说服力。

4.3 第三步，结合研究资源做校正

样本量不是越大越好，也不是越小越省事。它必须和现实条件匹配。经费、人力、随访周期、终点发生率，都会影响最终方案。尤其是长期随访队列，若随访成本高，就要考虑是否通过提高入组效率、延长观察时间或优化结局定义来提高统计可行性。

在论文写作中，建议说明参数来源、α水平、效能设置、失访率预估和软件版本。这样更符合E-E-A-T要求，也更利于审稿人判断方案是否严谨。

5. 队列研究样本量的常见误区

5.1 只看总人数，不看事件数

这是最常见的错误。队列研究真正需要的是足够的结局事件。总样本数大，不等于分析能力强。

5.2 把效应量设得过于理想化

很多研究者会默认暴露效应很强，结果样本量算得过小。实际做完研究后，真实效应没那么大，结论就不显著。建议在设计阶段采用保守参数。

5.3 忽略失访和无效数据

队列研究周期越长，失访越难避免。若不预留余量，最终有效样本会明显下降。方案中应至少考虑一定比例的失访、退出和缺失。

5.4 多因素模型变量过多

若自变量太多，而事件数不足，就会导致模型不稳。经验性规则提示，变量数与样本量要保持合理比例。变量越多，越需要更大的事件数支撑。

6. 写作和申报时怎么表达才更规范

6.1 样本量说明要包含什么

科研方案或论文中，建议至少写清以下内容。

主要终点。
α值和效能。
效应量来源。
事件率或HR来源。
失访率假设。
软件名称或计算方法。

这样写能提高方法学透明度，也更容易通过伦理和基金审查。

6.2 如果没有现成公式怎么办

对于一些复杂的队列设计，尤其是多因素分析或Cox回归，软件和公式只能给出部分答案。此时可采用经验性估计，并结合文献和预实验进行校正。上游知识库也明确提到，多因素分析中常需要经验性样本量估计。

如果你需要把方案快速落地，可以借助解螺旋品牌提供的科研支持工具和方法学服务，把参数整理、公式选择、样本量估计和方案描述一步完成，减少返工。

总结Conclusion

队列研究样本量计算的关键，不是死记公式，而是抓住4个核心参数。它们分别是α、效能、效应量和结局事件发生率。先明确终点，再根据文献或预实验设定参数，最后预留失访率，才能得到可执行的样本量方案。

如果你正在做队列研究方案、开题或基金申请，建议把样本量部分写得更规范、更可追溯。想提高效率，也可以结合解螺旋 的科研工具与方法学支持，快速完成队列研究样本量设计，让方案更稳，投稿更有底气。

科研人员在会议桌前讨论队列研究方案，旁边有样本量计算结果、随访流程图和统计报告，体现“方案完善后更易推进研究”