横断面研究样本量计算需要先明确什么？

先明确研究目的和结局变量类型，是比例问题还是均数问题。

估计患病率和估计均数时，样本量公式一样吗？

不一样。估计患病率用比例公式，估计连续变量均数用均数公式。

为什么横断面研究样本量不能等到研究结束后再算？

因为样本量应在研究设计阶段确定，事后补算不规范，也会影响研究可信度。

横断面研究样本量计算：3步快速搞定

作者：Dr.Lin

2026-05-21｜原创

引言Introduction

横断面研究样本量计算，是很多医学生、医生和科研人员最容易卡住的一步。样本太少，结果不稳，审稿人会质疑。样本太多，又浪费时间和资源。真正关键的，不是“算出一个数字”，而是先明确研究目的，再选对公式。
医学研究者在电脑前查看统计公式和样本量计算表，旁边有论文与数据库界面

1. 先搞清楚：横断面研究到底要算什么

1.1 先区分“患病率”和“均数”

横断面研究最常见的目标有两类。第一类是估计患病率、检出率或构成比。第二类是估计连续变量的总体均数，比如血糖、身高、白细胞计数。

这一步很重要。因为横断面研究样本量计算的公式，取决于你的结局变量类型。
如果是分类变量，用比例公式。如果是连续变量，用均数公式。研究问题不同，样本量就不同。

1.2 为什么不能只说“我要做横断面研究”

样本量估计不能脱离研究设计单独谈。只说“我要做一个病的研究，需要多少人”，答案一定不准确。你必须提供三个信息。

研究目的。
结局变量类型。
预估参数来源，比如文献、预实验或同类研究。

横断面研究样本量计算的本质，是在研究开始前，基于已有信息，估计“需要多少样本才能代表总体”。

1.3 样本太少和样本太多，都会出问题

样本量过小，抽样误差大。比如只调查2个人，患病率可能是0%、50%或100%，完全不能代表总体。
样本量过大，则会增加成本、时间和组织难度。所以样本量不是越大越好，而是“足够且合理”最好。

2. 横断面研究样本量计算的两种核心公式

2.1 估计患病率时，用比例公式

如果你的目标是估计某疾病患病率、携带率或阳性率，常用公式为：

n = (Zα/2² × π × (1-π)) / d²

其中：

π 是预估患病率。
d 是容许误差。
Zα/2 在 α=0.05 时通常取 1.96。

举例来说，如果你预计某人群高血压患病率约为30%，并希望误差控制在3%，就可以带入公式估算。知识库中给出的案例显示，这类设定下样本量大约需要900例左右。

2.2 估计连续变量时，用均数公式

如果你的结局是连续变量，比如血糖、身高、血清指标，常用公式为：

n = (Zα/2² × σ²) / d²

其中：

σ 是标准差。
d 是容许误差。
Zα/2 在 α=0.05 时仍为 1.96。

知识库中的例子提到，如果某职工群体血糖标准差约为2，容许误差为0.5，那么所需样本量大约是62例。这说明连续变量研究并不一定需要特别大的样本，但前提是误差设定合理。

2.3 误差越小，样本量越大

这是样本量计算最核心的规律之一。
容许误差放得越小，样本量就会明显增加。
因为你要求结果更精确，就必须用更多样本去压缩随机误差。

在横断面研究样本量计算中，这个关系最直观。比如患病率从允许误差3%降到1%，样本量会显著上升。科研设计时，必须平衡精度、经费和可行性。

3. 3步快速搞定横断面研究样本量计算

3.1 第一步，确定研究类型和结局变量

先问自己两个问题。

我研究的是比例，还是均数。
我的设计是不是横断面研究。

如果你要做的是某地区高尿酸血症患病率调查，那就属于比例问题。
如果你要做的是某工厂员工血清指标平均水平调查，那就属于均数问题。

这一步决定你后面选什么公式。选错了，后面的计算都没有意义。

3.2 第二步，找到可用的参数

横断面研究样本量计算，不能凭空算。你至少要有下面这些参数：

预估患病率，或预估标准差。
容许误差。
显著性水平，通常取0.05。
必要时考虑无应答率或问卷合格率。

参数来源最好来自同类研究、文献回顾或预实验。知识库强调，脱离研究设计和目的去计算样本量，结果往往不准确。

3.3 第三步，把理论样本量修正为实际样本量

理论样本量算出来以后，还要考虑现实损耗。常见修正包括：

无应答率。
问卷不合格率。
随访缺失率，虽然横断面研究通常较少涉及。

例如，如果理论样本量是5619例，无应答率按10%估计，则实际样本量应再除以0.9。若问卷合格率也按90%计算，还要继续修正。这一步是很多人忽略的，但审稿人往往会看。

4. 横断面研究样本量计算里，最容易踩的3个坑

4.1 事后补样本量，不建议

很多人等数据分析完、文章写完，才反过来补样本量估计。知识库明确提到，样本量估计应该在研究设计开始阶段进行。
事后补写，不是规范做法。更合理的是在设计阶段就把公式、参数和依据写清楚。

4.2 不要为了“怼审稿人”硬做一个很小样本量

如果你把效应量设得过大，样本量就会被人为压得很小。但这不一定能说服审稿人。因为审稿人会看你的假设是否合理。
比如你假设两组身高差20厘米，这个前提本身就不科学，样本量再小也站不住。

横断面研究样本量计算不是技巧题，而是科学设计题。

4.3 不同抽样方式，公式可能不同

基础教学中常讲的是简单随机抽样。但现实研究中，可能会用分层抽样、整群抽样或多阶段抽样。
这时样本量会受到设计效应影响，计算会更复杂。如果你的抽样设计不是简单随机抽样，就不能直接套最基础公式。

5. 一篇规范论文，样本量部分应该怎么写

5.1 研究设计书里要写清楚

对于横断面研究样本量计算，建议在方案中写明以下内容：

研究设计类型。
结局变量类型。
参数来源文献。
公式。
α值、容许误差和标准差或患病率。
最终样本量及修正方式。

这样做的好处是，研究逻辑清楚，审稿时也更容易被接受。

5.2 统计学不是“最后补一段”

样本量计算不是论文里可有可无的附属内容。它是研究设计的一部分。
如果前期样本量设计不合理，后面的统计分析再漂亮，也可能削弱结论可信度。

这也是为什么横断面研究样本量计算，必须放在研究启动阶段。先定问题，再定方法，再定样本，这是正确顺序。

5.3 合理使用工具，但不要只依赖工具

知识库提到，PASS 软件常用于样本量估计。软件可以快速完成计算，但前提是你已经明确了研究设计、参数和公式。
工具解决的是“怎么算”，不是“该不该这么设”。真正决定质量的，还是你前面的研究假设。

总结Conclusion

横断面研究样本量计算并不复杂，关键是分三步走。第一步，明确结局变量是比例还是均数。第二步，选择对应公式并确定参数。第三步，结合无应答率等现实因素修正样本量。只要研究设计清楚，样本量就能算得规范、算得有依据。

如果你正在准备横断面研究方案，或者想把样本量部分写得更规范、更容易通过伦理和审稿，建议直接结合解螺旋的研究设计与统计支持思路来优化。把研究问题、公式选择和参数依据一次性做对，后面的论文写作会轻松很多。

科研人员整理研究方案，旁边显示横断面研究样本量公式、文献和统计软件界面，体现专业论文写作场景