引言Introduction
横断面研究样本量计算,是很多医学生、医生和科研人员最容易卡住的一步。样本太少,结果不稳,审稿人会质疑。样本太多,又浪费时间和资源。真正关键的,不是“算出一个数字”,而是先明确研究目的,再选对公式。

1. 先搞清楚:横断面研究到底要算什么
1.1 先区分“患病率”和“均数”
横断面研究最常见的目标有两类。第一类是估计患病率、检出率或构成比。第二类是估计连续变量的总体均数,比如血糖、身高、白细胞计数。
这一步很重要。因为横断面研究样本量计算的公式,取决于你的结局变量类型。
如果是分类变量,用比例公式。如果是连续变量,用均数公式。研究问题不同,样本量就不同。
1.2 为什么不能只说“我要做横断面研究”
样本量估计不能脱离研究设计单独谈。只说“我要做一个病的研究,需要多少人”,答案一定不准确。你必须提供三个信息。
- 研究目的。
- 结局变量类型。
- 预估参数来源,比如文献、预实验或同类研究。
横断面研究样本量计算的本质,是在研究开始前,基于已有信息,估计“需要多少样本才能代表总体”。
1.3 样本太少和样本太多,都会出问题
样本量过小,抽样误差大。比如只调查2个人,患病率可能是0%、50%或100%,完全不能代表总体。
样本量过大,则会增加成本、时间和组织难度。所以样本量不是越大越好,而是“足够且合理”最好。
2. 横断面研究样本量计算的两种核心公式
2.1 估计患病率时,用比例公式
如果你的目标是估计某疾病患病率、携带率或阳性率,常用公式为:
n = (Zα/2² × π × (1-π)) / d²
其中:
- π 是预估患病率。
- d 是容许误差。
- Zα/2 在 α=0.05 时通常取 1.96。
举例来说,如果你预计某人群高血压患病率约为30%,并希望误差控制在3%,就可以带入公式估算。知识库中给出的案例显示,这类设定下样本量大约需要900例左右。
2.2 估计连续变量时,用均数公式
如果你的结局是连续变量,比如血糖、身高、血清指标,常用公式为:
n = (Zα/2² × σ²) / d²
其中:
- σ 是标准差。
- d 是容许误差。
- Zα/2 在 α=0.05 时仍为 1.96。
知识库中的例子提到,如果某职工群体血糖标准差约为2,容许误差为0.5,那么所需样本量大约是62例。这说明连续变量研究并不一定需要特别大的样本,但前提是误差设定合理。
2.3 误差越小,样本量越大
这是样本量计算最核心的规律之一。
容许误差放得越小,样本量就会明显增加。
因为你要求结果更精确,就必须用更多样本去压缩随机误差。
在横断面研究样本量计算中,这个关系最直观。比如患病率从允许误差3%降到1%,样本量会显著上升。科研设计时,必须平衡精度、经费和可行性。
3. 3步快速搞定横断面研究样本量计算
3.1 第一步,确定研究类型和结局变量
先问自己两个问题。
- 我研究的是比例,还是均数。
- 我的设计是不是横断面研究。
如果你要做的是某地区高尿酸血症患病率调查,那就属于比例问题。
如果你要做的是某工厂员工血清指标平均水平调查,那就属于均数问题。
这一步决定你后面选什么公式。选错了,后面的计算都没有意义。
3.2 第二步,找到可用的参数
横断面研究样本量计算,不能凭空算。你至少要有下面这些参数:
- 预估患病率,或预估标准差。
- 容许误差。
- 显著性水平,通常取0.05。
- 必要时考虑无应答率或问卷合格率。
参数来源最好来自同类研究、文献回顾或预实验。知识库强调,脱离研究设计和目的去计算样本量,结果往往不准确。
3.3 第三步,把理论样本量修正为实际样本量
理论样本量算出来以后,还要考虑现实损耗。常见修正包括:
- 无应答率。
- 问卷不合格率。
- 随访缺失率,虽然横断面研究通常较少涉及。
例如,如果理论样本量是5619例,无应答率按10%估计,则实际样本量应再除以0.9。若问卷合格率也按90%计算,还要继续修正。这一步是很多人忽略的,但审稿人往往会看。
4. 横断面研究样本量计算里,最容易踩的3个坑
4.1 事后补样本量,不建议
很多人等数据分析完、文章写完,才反过来补样本量估计。知识库明确提到,样本量估计应该在研究设计开始阶段进行。
事后补写,不是规范做法。更合理的是在设计阶段就把公式、参数和依据写清楚。
4.2 不要为了“怼审稿人”硬做一个很小样本量
如果你把效应量设得过大,样本量就会被人为压得很小。但这不一定能说服审稿人。因为审稿人会看你的假设是否合理。
比如你假设两组身高差20厘米,这个前提本身就不科学,样本量再小也站不住。
横断面研究样本量计算不是技巧题,而是科学设计题。
4.3 不同抽样方式,公式可能不同
基础教学中常讲的是简单随机抽样。但现实研究中,可能会用分层抽样、整群抽样或多阶段抽样。
这时样本量会受到设计效应影响,计算会更复杂。如果你的抽样设计不是简单随机抽样,就不能直接套最基础公式。
5. 一篇规范论文,样本量部分应该怎么写
5.1 研究设计书里要写清楚
对于横断面研究样本量计算,建议在方案中写明以下内容:
- 研究设计类型。
- 结局变量类型。
- 参数来源文献。
- 公式。
- α值、容许误差和标准差或患病率。
- 最终样本量及修正方式。
这样做的好处是,研究逻辑清楚,审稿时也更容易被接受。
5.2 统计学不是“最后补一段”
样本量计算不是论文里可有可无的附属内容。它是研究设计的一部分。
如果前期样本量设计不合理,后面的统计分析再漂亮,也可能削弱结论可信度。
这也是为什么横断面研究样本量计算,必须放在研究启动阶段。先定问题,再定方法,再定样本,这是正确顺序。
5.3 合理使用工具,但不要只依赖工具
知识库提到,PASS 软件常用于样本量估计。软件可以快速完成计算,但前提是你已经明确了研究设计、参数和公式。
工具解决的是“怎么算”,不是“该不该这么设”。真正决定质量的,还是你前面的研究假设。
总结Conclusion
横断面研究样本量计算并不复杂,关键是分三步走。第一步,明确结局变量是比例还是均数。第二步,选择对应公式并确定参数。第三步,结合无应答率等现实因素修正样本量。只要研究设计清楚,样本量就能算得规范、算得有依据。
如果你正在准备横断面研究方案,或者想把样本量部分写得更规范、更容易通过伦理和审稿,建议直接结合解螺旋的研究设计与统计支持思路来优化。把研究问题、公式选择和参数依据一次性做对,后面的论文写作会轻松很多。

- 引言Introduction
- 1. 先搞清楚:横断面研究到底要算什么
- 2. 横断面研究样本量计算的两种核心公式
- 3. 3步快速搞定横断面研究样本量计算
- 4. 横断面研究样本量计算里,最容易踩的3个坑
- 5. 一篇规范论文,样本量部分应该怎么写
- 总结Conclusion






