引言Introduction
很多医学生和科研人员在做课题时,最先卡住的就是样本量计算公式 。公式看似很多,其实核心只有一点。先明确研究设计,再选对应公式。 如果设计没定,样本量就没有依据。

1. 为什么样本量计算公式必须先看研究设计
样本量不是先算再定题目。正确顺序是先定研究问题,再定设计类型,最后选公式。知识库中反复强调,样本量计算依赖研究问题和研究设计类型 。这也是很多人一上来只问“病例研究怎么计算”却得不到答案的原因。
不同设计对应不同公式。横断面研究常用来估计患病率或均数。病例对照研究、队列研究、成组或配对设计,公式都不同。设计不同,参数就不同。 例如,横断面研究更关注总体率、均数、容许误差和标准差。
样本量还和现实可行性有关。临床研究中,常见问题不是“想不想算”,而是“手头只有100例怎么办”。这时不能只说样本有限,还要说明理论样本量是多少,现实样本量为何低于或高于理论值 。这才符合论文写作和审稿要求。
1.1 核心原则
- 先明确研究类型。
- 再确定主要结局指标。
- 最后代入对应公式。
- 若设计不清,公式无从选择。
2. 公式一:横断面研究中总体率的样本量计算公式
横断面研究最常见的目标,是估计某人群患病率。知识库给出的思路非常清晰。当研究目标是总体率时,样本量主要由预估率、容许误差和α值决定。 例如,预计乙肝表面抗原携带率为10%,希望误差不超过1%,就需要较大的样本量。
总体率的经典公式本质上反映了三件事。第一,预估率越接近50%,样本量往往越大。第二,容许误差越小,样本量越大。第三,置信水平越高,样本量越大。知识库中给出的例子显示,若预计患病率10%,允许误差1%,样本量可达3458例。这说明小误差要求会显著抬高样本需求 。
这类公式适合以下场景:
- 调查患病率。
- 调查携带率。
- 估计某类事件发生比例。
- 做基础横断面描述性研究。
2.1 适用参数
- 预计比例 p。
- 容许误差 d。
- 显著性水平 α。
- 置信度通常取95%。
2.2 写作时要注意
误差范围要写清楚是双侧还是单侧。 知识库中提到,1%误差对应的是9%到11%,不是9.5%到11.5%。这一点很容易写错,审稿人也很容易注意到。
3. 公式二:横断面研究中总体均数的样本量计算公式
如果研究目标不是率,而是均数,比如身高、白细胞计数、血清硒水平,就要用总体均数的样本量公式。这里最关键的参数不是均数本身,而是标准差和容许误差 。知识库明确指出,估计均数时,关注的是总体变异度,也就是标准差。
这个公式的逻辑很直接。标准差越大,个体差异越大,样本量越大。 容许误差越小,要求越严格,样本量越大。比如,若想估计某工厂白细胞平均水平,已知标准差为0.95×10^9/L,误差希望控制在0.1×10^9/L,样本量就会明显增加。
这类公式适合:
- 估计平均身高。
- 估计某指标平均值。
- 估计实验室连续变量水平。
- 做横断面连续变量调查。
3.1 关键参数
- 预计标准差 S。
- 容许误差 δ。
- α值,常取0.05。
- 置信度,通常95%。
3.2 实践建议
连续变量研究最常依赖文献或预实验来获取标准差。 没有标准差,样本量就很难准确估计。因此,查阅同类研究非常重要。
4. 公式三:病例对照研究的样本量计算公式
病例对照研究的核心不是估计率,而是比较暴露比例差异。知识库强调,病例对照研究可分为成组设计和配对设计,两者样本量公式不同 。这也是很多人写方案时最容易混淆的地方。
成组设计通常比较病例组和对照组的暴露率差异。此时需要的信息包括:预期暴露率、病例组与对照组比例、效应量、α值和把握度。若暴露差异越大,所需样本量越小。反之,差异越小,样本量越大。
配对设计则要看“不一致对子数”。知识库中提到,这类设计不是简单比较两组人数,而是比较配对后差异是否存在。因此,配对病例对照研究的样本量计算,重点在于不一致配对比例。
4.1 适用场景
- 疾病危险因素分析。
- 暴露与结局的关联研究。
- 既往资料回顾性分析。
- 需要匹配病例和对照的研究。
4.2 关键提醒
病例对照研究不能只说“我有100个病例”。 审稿人通常会问,为什么不是200个,为什么不是150个。合理做法是先用公式估算,再说明现实中样本来源的限制。
5. 公式四:队列研究的样本量计算公式
队列研究关注的是不同暴露组在随访后结局发生率上的差异。它和病例对照研究的方向相反。病例对照是“从结局看暴露”,队列研究是“从暴露看结局”。因此,队列研究的样本量公式本质上也是比较两组率的差异 ,但参数设置更贴近发病风险和随访结局。
知识库虽然没有展开完整公式,但已经明确指出,基础设计类型中,队列研究的样本量计算与病例对照、横断面研究并列,属于常见分析性研究中的核心内容。实际写方案时,常要提供:
- 暴露组和非暴露组结局率。
- 预期相对危险度或风险差异。
- 随访时间。
- 失访率。
5.1 什么时候优先考虑队列研究
- 研究暴露后的发病风险。
- 需要时间顺序支持因果推断。
- 有较完整随访条件。
- 可接受一定失访。
5.2 写作重点
一定要预留失访率。 因为随访研究中,最后真正纳入分析的人数往往少于计划样本量。
6. 公式五:软件计算与手算公式的对应关系
知识库提到PASS软件是常见工具,但也明确指出,软件计算的逻辑仍然建立在研究设计和公式基础之上 。软件只是把公式参数化,并给出更便捷的计算结果。对于横断面总体率、总体均数,PASS可以直接选择对应模块。
例如,总体率计算时,软件会要求输入:
- 置信度。
- 容许误差。
- 预计比例。
- 计算方法。
总体均数计算时,则会要求输入:
- 标准差。
- 容许误差。
- 置信度。
- 总体规模等参数。
知识库还提到,不同计算方法如精确法、威尔逊法、简单渐近法,结果可能略有差别。对大样本研究而言,这种差异通常不影响最终方案。 但研究者在论文中应写明所用软件、版本、公式和参数。
6.1 什么时候用软件更合适
- 参数较多。
- 设计较复杂。
- 需要反复比较不同假设。
- 需要生成论文中的方法学描述。
6.2 什么时候优先手算
- 公式简单。
- 研究为基础横断面调查。
- 需要快速验证软件结果是否合理。
7. 论文写作中最容易忽略的3个问题
第一,样本量计算必须与研究设计同步写入方案。 不要在数据收完后再补。这样说服力弱,也不符合规范。
第二,容许误差要与研究目的匹配。若只做初步探索,可以适当放宽;若用于临床决策或政策判断,误差应更严格。
第三,文献来源要充分。知识库多次强调,很多参数来自前人研究或专家经验。没有依据的参数是假设,不是证据。
7.1 写作清单
- 研究类型。
- 主要结局指标。
- 公式来源。
- 参数来源。
- 软件版本。
- 是否考虑失访或无应答。
总结Conclusion
样本量计算公式并不神秘。关键在于先定研究设计,再选对应公式。横断面研究常用总体率和总体均数公式,病例对照和队列研究则更关注组间差异与效应量。真正决定样本量的,不是公式本身,而是研究问题、参数假设和设计类型。
如果你正在写开题、伦理或论文方法学部分,建议把样本量计算提前做扎实。这样不仅更容易通过评审,也能提高研究可信度。若你希望少走弯路,可以借助解螺旋 的专业方法与工具支持,把设计、参数和写作一次性理顺。

- 引言Introduction
- 1. 为什么样本量计算公式必须先看研究设计
- 2. 公式一:横断面研究中总体率的样本量计算公式
- 3. 公式二:横断面研究中总体均数的样本量计算公式
- 4. 公式三:病例对照研究的样本量计算公式
- 5. 公式四:队列研究的样本量计算公式
- 6. 公式五:软件计算与手算公式的对应关系
- 7. 论文写作中最容易忽略的3个问题
- 总结Conclusion






