为什么不能只看 P 值判断医学研究是否可靠？

因为 P 值只反映在零假设下数据出现的概率，不能代表临床意义、因果关系或研究质量。

预测模型研究中，单变量 P 值显著就一定有用吗？

不一定。变量是否有用还要看测量可靠性、临床意义、适用性以及多变量分析后的表现。

评价预测模型时，除了 P 值还要看什么？

还要看样本量、偏倚风险、结局定义、区分度、校准度，以及是否进行了内部或外部验证。

过度依赖P值：7个被忽视的风险

作者：Dr.Lin

2026-05-13｜原创

引言Introduction

在医学研究和模型评价中，过度依赖 P 值 很容易让人忽视研究设计、样本量和偏倚风险。结果看似“显著”，结论却未必可靠。对医学生、医生和科研人员来说，真正的问题不是 P 值本身，而是把它当成唯一标准。
医学科研论文、统计图表和显著性标记P<0.05叠加的学术场景，突出“结果显著但证据未必可靠”的主题

1. 过度依赖 P 值，为什么会误导研究判断

1.1 P 值只能回答“在零假设下有多罕见”

P 值的作用很明确。它用于衡量在零假设成立时，当前或更极端数据出现的概率。它不等于临床意义，也不等于因果关系。

在预测模型研究中，这一点尤其重要。一个变量即使 P 值显著，也不代表它一定适合进入模型。还要看测量是否稳定，是否能在应用时获取，是否符合时间逻辑。

1.2 显著不代表可靠

过度依赖 P 值 的最大问题，是把“统计显著”误读为“结果可信”。实际上，样本量、变量筛选方式、结局定义、数据质量，都会影响结果。

例如，在模型开发中，如果结局事件太少，或者事件数与待筛选变量数比值过低，就容易过拟合。此时即使某些变量 P 值很漂亮，模型也可能只是“记住了样本”，而不是学到了规律。

2. 风险一：忽略研究设计，P 值再小也可能偏倚

2.1 研究对象不代表目标人群

PROBAST强调，研究对象是否具有代表性，会直接影响预测模型能否反映源人群中的真实关系。如果纳入和排除标准过窄，P 值显著也难以推广。

比如诊断预测模型，不应排除合并其他疾病者，也不应把已经明确有结局事件的人纳入疑似病例研究。预后模型则不应纳入基线已患疾病但尚未确诊者。否则，统计结果再显著，外推价值也有限。

2.2 传统病例对照设计并不适合做结论

在某些场景里，研究设计本身就会放大关联强度。传统病例对照研究并不推荐用于这类判断。
当设计存在先天局限时，P 值只能说明“样本内相关”，不能证明“真实世界可用”。

3. 风险二：把变量筛选交给单一 P 值，容易漏掉关键因子

3.1 单变量显著，不等于多变量重要

很多研究习惯先做单变量分析，再按 P 值筛变量。这个做法风险很高。
单变量显著的变量，进入多变量后可能不再重要。单变量不显著的变量，也可能在临床上具有重要价值。

PROBAST明确提示，变量筛选应结合临床知识、测量可靠性、一致性、适用性、可及性和成本，而不是只看 P 值。

3.2 连续变量临时二分类，会放大假阳性

把连续变量为了“好解释”而临时二分类，是常见错误。这样会损失信息，降低分析质量。若没有内部验证和收缩回归系数调整，这类处理通常会增加高偏倚风险。
很多看似显著的 P 值，其实是变量粗暴处理后的假象。

4. 风险三：样本量不足时，P 值稳定性很差

4.1 结局事件数比总样本更关键

预测模型研究更关注的是发生结局事件的样本数，而不是总样本量。若 EPV 低于 10，通常需要内部验证，并考虑收缩回归系数进行调整。
样本越少，P 值越容易受偶然波动影响。

4.2 过拟合会让显著性“看起来很美”

当事件太少、变量太多、自动筛选过度依赖数据本身时，模型会过拟合。此时训练集中的 P 值往往更好看，但一到外部数据就失效。
这也是为什么不能只盯着“是否显著”，还要看区分度、校准度和验证结果。

5. 风险四：结局定义不清，P 值会被“错误结局”放大

5.1 结局错分会直接扭曲统计结果

临床结局必须在研究开始前预先定义。不能在数据分析后再根据结果反推结局。否则会形成选择性报告。
结局定义不一致，P 值就会失真。

如果结局判定依赖人工判断，还会受到研究者经验影响。若结局测量时又受到预测因子的干扰，关联强度可能被高估。这样得到的显著性，临床上并不可信。

5.2 测量时点也会影响结果

诊断模型中，预测因子和结局通常应尽量在同一时间点测量。预后模型则要依赖随访。
随访太短，结局太少。随访太长，结局性质可能变化。这些问题都会改变 P 值的意义。

6. 风险五：忽视适用性，统计显著不等于临床可用

6.1 预测因子定义不同，结果不可直接比较

适用性评价关注的是，原始研究是否匹配系统评价要回答的问题。
如果预测因子的定义、测量方法或测量时间不同，即使 P 值都显著，也未必能放在同一框架下比较。

6.2 临床结局不同，模型外推会失真

结局定义、测量方法和测量时间不同，会造成适用性风险。同一个模型在一个队列里显著，不代表换到另一种人群仍然成立。
这也是很多研究“统计上成功，临床上失败”的根源。

7. 风险六：忽略偏倚风险，P 值会掩盖方法学缺陷

7.1 四个领域决定证据质量

PROBAST从研究对象、预测因子、临床结局、数据和分析四个领域评估偏倚风险。只要其中一个领域存在明显问题，整体风险就可能升高。
P 值无法替代偏倚风险评估。

7.2 “没有信息”不等于“低风险”

很多论文只报告了显著结果，却没交代数据处理、盲法、缺失值处理和模型验证。
在PROBAST框架里，信息不足不能自动等于低风险。研究若缺少关键方法说明，读者就不能仅凭 P 值下结论。

8. 风险七：忽视模型性能指标，错把显著当作可用

8.1 区分度和校准度比单个 P 值更重要

预测模型的核心不是某个变量是否显著，而是整体模型是否能正确区分风险高低，是否能把预测概率和真实概率对应起来。
区分度和校准度，才是模型是否可用的核心。

8.2 外部验证比“显著结果”更有说服力

模型开发研究只是第一步。验证研究才更接近真实应用。若没有外部验证，即便开发阶段 P 值漂亮，也不能说明模型稳健。
对于临床决策而言，可重复、可验证、可推广，远比单次显著更重要。

9. 如何避免过度依赖 P 值

9.1 按步骤检查，而不是只看结果

建议按下面顺序判断一项预测研究：

先看研究对象是否代表目标人群。
再看预测因子是否定义一致、测量可靠。
然后看结局是否预先设定、测量是否规范。
最后看数据分析是否恰当，是否存在过拟合、缺失值处理不当或自动筛选变量。

9.2 用综合证据替代单点判断

一个稳健的研究，至少应同时回答这些问题：

P 值是否稳定。
样本量是否足够。
变量筛选是否合理。
结局定义是否清楚。
是否做了内部或外部验证。
模型的区分度和校准度如何。

只有把这些问题一起看，统计结论才有临床价值。

9.3 科研写作要避免“显著性叙事”

写作时不要把“P<0.05”当作主要卖点。
更好的表达是：研究设计是否合理，数据质量是否可靠，模型性能是否稳定，结论是否能推广到目标人群。这样更符合 E-E-A-T，也更符合医学研究的真实逻辑。

总结Conclusion

过度依赖 P 值，会让研究者忽视设计、样本量、偏倚风险、适用性和模型性能。 在预测模型和临床研究中，P 值只能作为证据的一部分，不能替代整体判断。对于医学生、医生和科研人员来说，真正重要的是综合评估研究质量，而不是追逐一个“显著”结果。
如果你希望更高效地完成预测模型评价、文献筛选和方法学判断，可以关注解螺旋品牌，使用其专业工具和内容支持，把研究从“看起来显著”提升到“真正可用”。
研究者在电脑前同时查看P值、模型性能曲线、偏倚风险评估表和外部验证结果的学术工作场景