横断面研究的样本量怎么计算？

先区分分类资料还是计量资料；分类资料常用预计率和容许误差，计量资料常用标准差和容许误差，再代入公式或软件计算。

病例对照研究和队列研究样本量最重要的参数是什么？

最重要的是效应量、组间差异、暴露比例、病例/对照比例以及把握度，不能只知道研究类型就直接计算。

样本量计算时为什么还要考虑无应答率或失访率？

因为理论样本量不等于最终可分析样本量，通常需要按应答率、合格率或失访率进行修正，避免实际样本不足。

样本量计算统计基础怎么做？3步搞懂

作者：Dr.Lin

2026-05-21｜原创

引言Introduction

样本量算不准，研究就可能被审稿人质疑。太少，结论不稳；太多，浪费时间和经费。样本量计算统计基础 并不神秘，核心就是先明确研究类型，再选择参数，最后代入公式或软件计算。
医学生在电脑前查看统计软件界面，旁边有研究设计和样本量公式示意图，突出“样本量估计”的专业场景

1. 先判断研究类型，公式才不会选错

1.1 横断面研究，先看“率”还是“均值”

样本量计算统计基础的第一步，是先分清研究设计。
横断面研究最常见的目标，是估计患病率、构成比，或总体均数。前者属于分类资料，后者属于计量资料。两者的样本量公式不同，不能混用。

对于分类资料，常用参数是预计率和容许误差。
对于计量资料，常用参数是标准差和容许误差。容许误差越小，所需样本量越大。 这是因为误差通常在公式分母中，要求越精细，样本就必须越多。

例如，若研究某病患病率，已有文献提示患病率约为30%，希望误差控制在3%，那么就需要按率的公式估算。若研究某人群血清指标平均值，则要先找到该指标的标准差，再按均数公式计算。

1.2 病例对照和队列研究，关键是效应量

如果研究目标不是“估计一个总体参数”，而是比较暴露与结局之间的差异，就要进入分析性研究的框架。
病例对照研究和队列研究的样本量计算，重点不在率本身，而在组间差异、暴露比例、效应量和把握度。

这也是很多初学者最容易出错的地方。只说“我是病例对照研究”，还不足以计算样本量。还需要补充：病例组和对照组的比例、预期暴露率、预期差异、α值、把握度等。没有这些信息，任何样本量都只能是粗略猜测。

2. 把参数找全，样本量才有依据

2.1 分类资料：患病率、置信度、容许误差

在分类资料的样本量计算中，最常见的参数有3类。

预计总体率。通常来自文献、预实验或专业经验。
置信度。临床研究中常用95%，对应α=0.05。
容许误差。也就是你能接受的估计偏差。

容许误差本质上接近置信区间半宽。
如果没有明确的专业标准，文献中常会根据研究目的设定一个可接受范围。比如，当预计患病率为30%时，可尝试把误差设为3%，即相对较严格的精度要求。误差越小，样本越大，这是样本量计算中最基本的逻辑。

在软件中，很多人容易把“容许误差”与“置信区间宽度”混淆。要记住，双侧区间的总宽度通常是误差的2倍。这个细节不弄清楚，最终结果会差一倍。

2.2 计量资料：标准差比均值更关键

对于连续变量，样本量计算统计基础里最重要的参数不是均值本身，而是标准差。
标准差反映个体差异，越大说明人群波动越大，所需样本量也越大。

举例来说，如果研究某工厂职工的白细胞平均水平，均值只是帮助理解结果，真正进入公式的是标准差和容许误差。若希望误差不超过0.1×10^9/L，而标准差约为0.95×10^9/L，则可据此估计样本量。若再考虑无应答率，还要进一步放大样本。

这一步很重要。很多研究设计书只写“计划纳入100例”，却没说明为什么是100例。审稿人最关注的，恰恰是这个数字是如何来的。

2.3 无应答率和合格率，必须预留余量

理论样本量不是最终样本量。
临床和流调研究中，常见的修正因素包括无应答率、失访率和问卷合格率。比如，理论上需要5619例，若预估无应答率为10%，就要除以0.9；若问卷合格率再按90%计算，还要继续修正。

因此，最终样本量通常是“理论值÷应答率÷合格率”。
这一步看似简单，但非常关键。因为真正进入统计分析的数据，往往比计划值更少。

3. 用公式或PASS计算，结果要能解释

3.1 公式计算，先理解Z值

样本量计算统计基础离不开Z值。
Z值来源于标准正态分布。临床研究里常用95%置信度，因此Zα/2通常取1.96。这个值在很多基础样本量公式中都是固定项。

对于横断面研究的分类资料，核心逻辑是“预计率 × 1-预计率 ÷ 容许误差平方”。
对于连续变量，则是“标准差平方 ÷ 容许误差平方”。
这也是为什么误差一旦减小，样本量会明显上升，因为误差在分母并且平方放大了影响。

3.2 软件计算，更适合多种场景

在实际工作中，PASS软件是常用工具。
它的优势是能按研究目的直接选模型。
比如单率估计、单均数估计、病例对照、队列研究、成组比较等，都有对应模块。你只需要输入α、效应量、容许误差、把握度等参数，软件就能给出结果。

但软件不是“自动答案机”。
如果参数设错，结果再精确也没有意义。
所以建议先懂统计逻辑，再用软件验证。对医学生、医生和科研人员来说，这样更稳妥，也更容易在论文方法部分写清楚。

3.3 写进论文时，至少交代4件事

在论文或开题报告中，样本量计算至少要交代以下内容。

研究设计类型。
采用的公式或软件名称与版本。
参数来源，如文献、预实验或专家经验。
最终样本量及修正方式。

这4项写清楚，方法部分才完整。
也更符合E-E-A-T要求中的专业性和可验证性。

4. 3步实操法，快速搭建样本量思路

4.1 第一步，明确问题

先问自己：我是要估计患病率，还是比较组间差异。
如果是估计总体参数，多半属于横断面设计。
如果要探索暴露与结局关系，就更接近病例对照或队列设计。

4.2 第二步，找参数

从文献、预实验或已有数据库中，找出预计率、标准差、效应量和容许误差。
没有参数，就没有可靠样本量。
这是样本量计算最现实的一条原则。

4.3 第三步，算理论值并修正

先得到理论样本量，再根据无应答率、失访率、合格率做修正。
最后再结合经费、人力和伦理条件判断是否可行。
样本量不是越大越好，而是要在统计学和现实条件之间取得平衡。

总结Conclusion

样本量计算统计基础，本质上就是“先定研究设计，再定参数，最后算样本”。
对横断面研究，要分清分类资料和计量资料。对分析性研究，要关注效应量和组间差异。只要把研究类型、参数来源和修正逻辑说清楚，样本量就不再是难题。

如果你正在写开题、方法学或论文，建议直接使用解螺旋相关工具和课程内容，按研究设计快速完成样本量估计。先把统计基础打牢，再去写文章，效率会高很多。
研究者整理开题报告和统计计算结果，桌面上有PASS软件界面、论文方法部分和“样本量估计”字样，突出解决方案与转化场景