引言Introduction

很多医学生和科研人员在做课题时,最先卡住的就是样本量计算公式 。公式看似很多,其实核心只有一点。先明确研究设计,再选对应公式。 如果设计没定,样本量就没有依据。
一位研究者在电脑前查看流行病学研究设计和样本量计算表格,旁边有统计公式与数据库界面

1. 为什么样本量计算公式必须先看研究设计

样本量不是先算再定题目。正确顺序是先定研究问题,再定设计类型,最后选公式。知识库中反复强调,样本量计算依赖研究问题和研究设计类型 。这也是很多人一上来只问“病例研究怎么计算”却得不到答案的原因。

不同设计对应不同公式。横断面研究常用来估计患病率或均数。病例对照研究、队列研究、成组或配对设计,公式都不同。设计不同,参数就不同。 例如,横断面研究更关注总体率、均数、容许误差和标准差。

样本量还和现实可行性有关。临床研究中,常见问题不是“想不想算”,而是“手头只有100例怎么办”。这时不能只说样本有限,还要说明理论样本量是多少,现实样本量为何低于或高于理论值 。这才符合论文写作和审稿要求。

1.1 核心原则

  • 先明确研究类型。
  • 再确定主要结局指标。
  • 最后代入对应公式。
  • 若设计不清,公式无从选择。

2. 公式一:横断面研究中总体率的样本量计算公式

横断面研究最常见的目标,是估计某人群患病率。知识库给出的思路非常清晰。当研究目标是总体率时,样本量主要由预估率、容许误差和α值决定。 例如,预计乙肝表面抗原携带率为10%,希望误差不超过1%,就需要较大的样本量。

总体率的经典公式本质上反映了三件事。第一,预估率越接近50%,样本量往往越大。第二,容许误差越小,样本量越大。第三,置信水平越高,样本量越大。知识库中给出的例子显示,若预计患病率10%,允许误差1%,样本量可达3458例。这说明小误差要求会显著抬高样本需求

这类公式适合以下场景:

  • 调查患病率。
  • 调查携带率。
  • 估计某类事件发生比例。
  • 做基础横断面描述性研究。

2.1 适用参数

  • 预计比例 p。
  • 容许误差 d。
  • 显著性水平 α。
  • 置信度通常取95%。

2.2 写作时要注意

误差范围要写清楚是双侧还是单侧。 知识库中提到,1%误差对应的是9%到11%,不是9.5%到11.5%。这一点很容易写错,审稿人也很容易注意到。

3. 公式二:横断面研究中总体均数的样本量计算公式

如果研究目标不是率,而是均数,比如身高、白细胞计数、血清硒水平,就要用总体均数的样本量公式。这里最关键的参数不是均数本身,而是标准差和容许误差 。知识库明确指出,估计均数时,关注的是总体变异度,也就是标准差。

这个公式的逻辑很直接。标准差越大,个体差异越大,样本量越大。 容许误差越小,要求越严格,样本量越大。比如,若想估计某工厂白细胞平均水平,已知标准差为0.95×10^9/L,误差希望控制在0.1×10^9/L,样本量就会明显增加。

这类公式适合:

  • 估计平均身高。
  • 估计某指标平均值。
  • 估计实验室连续变量水平。
  • 做横断面连续变量调查。

3.1 关键参数

  • 预计标准差 S。
  • 容许误差 δ。
  • α值,常取0.05。
  • 置信度,通常95%。

3.2 实践建议

连续变量研究最常依赖文献或预实验来获取标准差。 没有标准差,样本量就很难准确估计。因此,查阅同类研究非常重要。

4. 公式三:病例对照研究的样本量计算公式

病例对照研究的核心不是估计率,而是比较暴露比例差异。知识库强调,病例对照研究可分为成组设计和配对设计,两者样本量公式不同 。这也是很多人写方案时最容易混淆的地方。

成组设计通常比较病例组和对照组的暴露率差异。此时需要的信息包括:预期暴露率、病例组与对照组比例、效应量、α值和把握度。若暴露差异越大,所需样本量越小。反之,差异越小,样本量越大。

配对设计则要看“不一致对子数”。知识库中提到,这类设计不是简单比较两组人数,而是比较配对后差异是否存在。因此,配对病例对照研究的样本量计算,重点在于不一致配对比例。

4.1 适用场景

  • 疾病危险因素分析。
  • 暴露与结局的关联研究。
  • 既往资料回顾性分析。
  • 需要匹配病例和对照的研究。

4.2 关键提醒

病例对照研究不能只说“我有100个病例”。 审稿人通常会问,为什么不是200个,为什么不是150个。合理做法是先用公式估算,再说明现实中样本来源的限制。

5. 公式四:队列研究的样本量计算公式

队列研究关注的是不同暴露组在随访后结局发生率上的差异。它和病例对照研究的方向相反。病例对照是“从结局看暴露”,队列研究是“从暴露看结局”。因此,队列研究的样本量公式本质上也是比较两组率的差异 ,但参数设置更贴近发病风险和随访结局。

知识库虽然没有展开完整公式,但已经明确指出,基础设计类型中,队列研究的样本量计算与病例对照、横断面研究并列,属于常见分析性研究中的核心内容。实际写方案时,常要提供:

  • 暴露组和非暴露组结局率。
  • 预期相对危险度或风险差异。
  • 随访时间。
  • 失访率。

5.1 什么时候优先考虑队列研究

  • 研究暴露后的发病风险。
  • 需要时间顺序支持因果推断。
  • 有较完整随访条件。
  • 可接受一定失访。

5.2 写作重点

一定要预留失访率。 因为随访研究中,最后真正纳入分析的人数往往少于计划样本量。

6. 公式五:软件计算与手算公式的对应关系

知识库提到PASS软件是常见工具,但也明确指出,软件计算的逻辑仍然建立在研究设计和公式基础之上 。软件只是把公式参数化,并给出更便捷的计算结果。对于横断面总体率、总体均数,PASS可以直接选择对应模块。

例如,总体率计算时,软件会要求输入:

  • 置信度。
  • 容许误差。
  • 预计比例。
  • 计算方法。

总体均数计算时,则会要求输入:

  • 标准差。
  • 容许误差。
  • 置信度。
  • 总体规模等参数。

知识库还提到,不同计算方法如精确法、威尔逊法、简单渐近法,结果可能略有差别。对大样本研究而言,这种差异通常不影响最终方案。 但研究者在论文中应写明所用软件、版本、公式和参数。

6.1 什么时候用软件更合适

  • 参数较多。
  • 设计较复杂。
  • 需要反复比较不同假设。
  • 需要生成论文中的方法学描述。

6.2 什么时候优先手算

  • 公式简单。
  • 研究为基础横断面调查。
  • 需要快速验证软件结果是否合理。

7. 论文写作中最容易忽略的3个问题

第一,样本量计算必须与研究设计同步写入方案。 不要在数据收完后再补。这样说服力弱,也不符合规范。

第二,容许误差要与研究目的匹配。若只做初步探索,可以适当放宽;若用于临床决策或政策判断,误差应更严格。

第三,文献来源要充分。知识库多次强调,很多参数来自前人研究或专家经验。没有依据的参数是假设,不是证据。

7.1 写作清单

  • 研究类型。
  • 主要结局指标。
  • 公式来源。
  • 参数来源。
  • 软件版本。
  • 是否考虑失访或无应答。

总结Conclusion

样本量计算公式并不神秘。关键在于先定研究设计,再选对应公式。横断面研究常用总体率和总体均数公式,病例对照和队列研究则更关注组间差异与效应量。真正决定样本量的,不是公式本身,而是研究问题、参数假设和设计类型。

如果你正在写开题、伦理或论文方法学部分,建议把样本量计算提前做扎实。这样不仅更容易通过评审,也能提高研究可信度。若你希望少走弯路,可以借助解螺旋 的专业方法与工具支持,把设计、参数和写作一次性理顺。

科研团队在讨论研究方案,屏幕上展示样本量计算公式、PASS软件界面和论文方法学章节