引言Introduction

卡方检验适用条件,常被初学者忽略。结果一旦选错,P值就可能失真,论文结论也会受影响。对于医学生、医生和科研人员来说,先判断能不能用,比直接跑结果更重要。
临床研究场景下的统计分析示意图,包含交叉表、卡方符号和论文写作元素,风格简洁专业

1. 卡方检验到底适合什么数据

1.1 先看数据类型

卡方检验主要用于分类资料的组间比较 。也就是说,变量必须是分类型数据,而不是连续型数据。

常见场景包括:

  • 两组或多组率的比较
  • 构成比的比较
  • 交叉表资料分析

例如,三种药物的有效率是否不同,或者病例组与对照组吸烟比例是否不同,都属于这类问题。如果你的结局变量是“有效/无效”“有/无”“阳性/阴性”这类分类变量,卡方检验才可能适用。

1.2 行列表资料是核心场景

在实际研究中,卡方检验常见于R×C行列表资料。知识库中的示例显示,三种药物治疗肺癌的有效率比较,就是一个典型的3×2列联表。

这类分析的逻辑很简单。先比较观察频数和理论频数,再判断各组是否来自同一总体。
所以,卡方检验适用条件的第一步,不是看P值,而是先看数据是不是“分类资料”。

2. 3类必须避开的情况

2.1 避开样本量太小

知识库明确指出,总体样本量必须大于40 ,这是卡方检验能够有效进行的重要前提。

如果样本太少,列联表中的频数分布会很稀疏,统计量的近似性质会变差。这样即使软件能算出结果,结论也未必可靠。
临床研究中,很多人只看“软件能不能输出”,却忽略了这个前提。其实这是常见错误。

2.2 避开期望频数过低

这是最关键的卡方检验适用条件之一。知识库给出的标准是:

  • 单元格期望频数必须大于1
  • 至少80%的单元格期望频数要超过5

也就是说,不能只看总样本量。还要看每个格子的“理论频数”是否足够。

如果某些格子的期望频数太低,Pearson卡方检验的近似就不稳定。尤其在稀有病、罕见结局、分组过多时,这种问题很常见。
当最小期望频数<1时,应该优先考虑Fisher精确概率法。

2.3 避开“看起来能用,其实不稳”的情况

知识库还提示,若超过20%的理论频数<5 ,同样需要考虑Fisher精确概率法,而不是直接使用Pearson卡方检验。

这类情况最容易出现在:

  • 分组过多
  • 结局事件太少
  • 某些组样本极不平衡

例如,三组药物里一组样本很多,另一组很少,且事件数极低,就容易让列联表失衡。
这时即便总样本量看起来不小,卡方检验适用条件也未必满足。

3. 怎么快速判断能不能用

3.1 三步判断法

实际做统计时,可以按下面三步走:

  1. 先确认变量类型
    必须是分类资料。

  2. 再看样本量
    总样本量是否大于40。

  3. 最后查期望频数
    最小期望频数是否大于1,且是否至少80%的单元格期望频数超过5。

这套判断顺序很重要。先筛掉明显不适合的情况,再决定是否使用卡方检验或Fisher精确概率法。
不要把“软件默认输出卡方结果”误认为“卡方检验一定适用”。

3.2 2×2表和R×C表都要看条件

2×2四格表和R×C行列表都可以做卡方检验,但判断标准并不只是表格大小不同,核心仍然是频数条件。

知识库中提到,R×C卡方检验同样要检查:

  • 总样本量是否超过40
  • 期望频数是否满足要求
  • 是否需要改用Fisher精确概率法

换句话说,表越复杂,越要先看理论频数是否够稳。

4. 不满足卡方检验适用条件时怎么办

4.1 首选Fisher精确概率法

当以下任一情况出现时,应考虑Fisher精确概率法:

  • 最小期望频数<1
  • 超过20%的单元格期望频数<5
  • 小样本列联表

知识库明确说明,在这类情况下,Fisher精确概率法比普通卡方检验更可靠。
在SPSS里,如果R×C卡方检验没有自动输出精确检验结果,记得勾选“精确”选项。

4.2 不要只盯着P值

很多人做完分析只关注P值是否小于0.05,但真正专业的做法是先判断方法是否选对。
方法错了,P值再漂亮也没有意义。

临床研究、论文投稿、毕业设计中,统计方法是否符合适用条件,往往比“结果显著不显著”更容易被审稿人追问。
所以,先判断卡方检验适用条件,是保证研究可信度的基础。

5. 一个临床例子帮你记牢

5.1 三种药物有效率比较

知识库中的例子是:A药、B药、C药治疗肺癌的有效率比较。总样本量为102,满足n>40。进一步检查后发现最小期望计数为11.76,且小于5的期望频数比例为0,因此可以使用Pearson卡方检验。

最后得到χ²=32.736,P<0.001,提示三组有效率差异有统计学意义。
这个例子说明,不是所有多组比较都不能用卡方检验,关键看是否满足卡方检验适用条件。

5.2 结果显著,不等于条件合格

同一个例子还提醒我们一件事。即便软件输出了很小的P值,也要先确认样本量和期望频数是否满足要求。
先看条件,再看结果,这是统计分析的基本顺序。

总结Conclusion

卡方检验适用条件并不复杂,但很容易被忽略。核心就三点。数据必须是分类资料,总样本量要大于40,单元格期望频数要满足要求。 当最小期望频数<1,或超过20%的理论频数<5时,应优先考虑Fisher精确概率法。

对于医学生、医生和科研人员来说,真正专业的统计分析,不是“能跑出P值”,而是“先选对方法”。如果你希望把卡方检验、列联表分析、SPSS操作和论文结果报告一次学透,可以关注并使用解螺旋 的临床统计学习资源,帮助你更高效地完成科研和论文写作。
科研人员在电脑前查看SPSS交叉表结果和论文图表,画面突出“卡方检验适用条件”与“精确检验”两个信息点