样本量计算公式？5个关键公式详解

作者：Dr.Lin

2026-05-21｜原创

引言Introduction

很多医学生和科研人员在做课题时，最先卡住的就是样本量计算公式 。公式看似很多，其实核心只有一点。先明确研究设计，再选对应公式。 如果设计没定，样本量就没有依据。
一位研究者在电脑前查看流行病学研究设计和样本量计算表格，旁边有统计公式与数据库界面

1. 为什么样本量计算公式必须先看研究设计

样本量不是先算再定题目。正确顺序是先定研究问题，再定设计类型，最后选公式。知识库中反复强调，样本量计算依赖研究问题和研究设计类型 。这也是很多人一上来只问“病例研究怎么计算”却得不到答案的原因。

不同设计对应不同公式。横断面研究常用来估计患病率或均数。病例对照研究、队列研究、成组或配对设计，公式都不同。设计不同，参数就不同。 例如，横断面研究更关注总体率、均数、容许误差和标准差。

样本量还和现实可行性有关。临床研究中，常见问题不是“想不想算”，而是“手头只有100例怎么办”。这时不能只说样本有限，还要说明理论样本量是多少，现实样本量为何低于或高于理论值 。这才符合论文写作和审稿要求。

1.1 核心原则

先明确研究类型。
再确定主要结局指标。
最后代入对应公式。
若设计不清，公式无从选择。

2. 公式一：横断面研究中总体率的样本量计算公式

横断面研究最常见的目标，是估计某人群患病率。知识库给出的思路非常清晰。当研究目标是总体率时，样本量主要由预估率、容许误差和α值决定。 例如，预计乙肝表面抗原携带率为10%，希望误差不超过1%，就需要较大的样本量。

总体率的经典公式本质上反映了三件事。第一，预估率越接近50%，样本量往往越大。第二，容许误差越小，样本量越大。第三，置信水平越高，样本量越大。知识库中给出的例子显示，若预计患病率10%，允许误差1%，样本量可达3458例。这说明小误差要求会显著抬高样本需求 。

这类公式适合以下场景：

调查患病率。
调查携带率。
估计某类事件发生比例。
做基础横断面描述性研究。

2.1 适用参数

预计比例 p。
容许误差 d。
显著性水平 α。
置信度通常取95%。

2.2 写作时要注意

误差范围要写清楚是双侧还是单侧。 知识库中提到，1%误差对应的是9%到11%，不是9.5%到11.5%。这一点很容易写错，审稿人也很容易注意到。

3. 公式二：横断面研究中总体均数的样本量计算公式

如果研究目标不是率，而是均数，比如身高、白细胞计数、血清硒水平，就要用总体均数的样本量公式。这里最关键的参数不是均数本身，而是标准差和容许误差 。知识库明确指出，估计均数时，关注的是总体变异度，也就是标准差。

这个公式的逻辑很直接。标准差越大，个体差异越大，样本量越大。 容许误差越小，要求越严格，样本量越大。比如，若想估计某工厂白细胞平均水平，已知标准差为0.95×10^9/L，误差希望控制在0.1×10^9/L，样本量就会明显增加。

这类公式适合：

估计平均身高。
估计某指标平均值。
估计实验室连续变量水平。
做横断面连续变量调查。

3.1 关键参数

预计标准差 S。
容许误差 δ。
α值，常取0.05。
置信度，通常95%。

3.2 实践建议

连续变量研究最常依赖文献或预实验来获取标准差。 没有标准差，样本量就很难准确估计。因此，查阅同类研究非常重要。

4. 公式三：病例对照研究的样本量计算公式

病例对照研究的核心不是估计率，而是比较暴露比例差异。知识库强调，病例对照研究可分为成组设计和配对设计，两者样本量公式不同 。这也是很多人写方案时最容易混淆的地方。

成组设计通常比较病例组和对照组的暴露率差异。此时需要的信息包括：预期暴露率、病例组与对照组比例、效应量、α值和把握度。若暴露差异越大，所需样本量越小。反之，差异越小，样本量越大。

配对设计则要看“不一致对子数”。知识库中提到，这类设计不是简单比较两组人数，而是比较配对后差异是否存在。因此，配对病例对照研究的样本量计算，重点在于不一致配对比例。

4.1 适用场景

疾病危险因素分析。
暴露与结局的关联研究。
既往资料回顾性分析。
需要匹配病例和对照的研究。

4.2 关键提醒

病例对照研究不能只说“我有100个病例”。 审稿人通常会问，为什么不是200个，为什么不是150个。合理做法是先用公式估算，再说明现实中样本来源的限制。

5. 公式四：队列研究的样本量计算公式

队列研究关注的是不同暴露组在随访后结局发生率上的差异。它和病例对照研究的方向相反。病例对照是“从结局看暴露”，队列研究是“从暴露看结局”。因此，队列研究的样本量公式本质上也是比较两组率的差异 ，但参数设置更贴近发病风险和随访结局。

知识库虽然没有展开完整公式，但已经明确指出，基础设计类型中，队列研究的样本量计算与病例对照、横断面研究并列，属于常见分析性研究中的核心内容。实际写方案时，常要提供：

暴露组和非暴露组结局率。
预期相对危险度或风险差异。
随访时间。
失访率。

5.1 什么时候优先考虑队列研究

研究暴露后的发病风险。
需要时间顺序支持因果推断。
有较完整随访条件。
可接受一定失访。

5.2 写作重点

一定要预留失访率。 因为随访研究中，最后真正纳入分析的人数往往少于计划样本量。

6. 公式五：软件计算与手算公式的对应关系

知识库提到PASS软件是常见工具，但也明确指出，软件计算的逻辑仍然建立在研究设计和公式基础之上 。软件只是把公式参数化，并给出更便捷的计算结果。对于横断面总体率、总体均数，PASS可以直接选择对应模块。

例如，总体率计算时，软件会要求输入：

置信度。
容许误差。
预计比例。
计算方法。

总体均数计算时，则会要求输入：

标准差。
容许误差。
置信度。
总体规模等参数。

知识库还提到，不同计算方法如精确法、威尔逊法、简单渐近法，结果可能略有差别。对大样本研究而言，这种差异通常不影响最终方案。 但研究者在论文中应写明所用软件、版本、公式和参数。

6.1 什么时候用软件更合适

参数较多。
设计较复杂。
需要反复比较不同假设。
需要生成论文中的方法学描述。

6.2 什么时候优先手算

公式简单。
研究为基础横断面调查。
需要快速验证软件结果是否合理。

7. 论文写作中最容易忽略的3个问题

第一，样本量计算必须与研究设计同步写入方案。 不要在数据收完后再补。这样说服力弱，也不符合规范。

第二，容许误差要与研究目的匹配。若只做初步探索，可以适当放宽；若用于临床决策或政策判断，误差应更严格。

第三，文献来源要充分。知识库多次强调，很多参数来自前人研究或专家经验。没有依据的参数是假设，不是证据。

7.1 写作清单

研究类型。
主要结局指标。
公式来源。
参数来源。
软件版本。
是否考虑失访或无应答。

总结Conclusion

样本量计算公式并不神秘。关键在于先定研究设计，再选对应公式。横断面研究常用总体率和总体均数公式，病例对照和队列研究则更关注组间差异与效应量。真正决定样本量的，不是公式本身，而是研究问题、参数假设和设计类型。

如果你正在写开题、伦理或论文方法学部分，建议把样本量计算提前做扎实。这样不仅更容易通过评审，也能提高研究可信度。若你希望少走弯路，可以借助解螺旋 的专业方法与工具支持，把设计、参数和写作一次性理顺。

科研团队在讨论研究方案，屏幕上展示样本量计算公式、PASS软件界面和论文方法学章节