引言Introduction

行×列列表卡方检验 是临床研究里最常见的分类资料分析方法之一。很多医学生和科研人员都会卡在“能不能用、怎么用、结果怎么解释”这三步上。本文用7个关键问题,帮你快速判断适用条件、统计思路和SPSS操作要点。
临床研究者在电脑前查看行列表交叉表和卡方检验结果,旁边有论文数据表格与统计软件界面

1. 什么是行×列表卡方检验

1.1 它解决什么问题

行×列表卡方检验主要用于比较多个组的分类结局是否存在差异。
例如,3种药物治疗后的有效率是否不同,3个年龄组的并发症构成是否不同,这类问题都可考虑行×列表卡方检验。

它本质上比较的是实际频数和理论频数之间的偏离程度。
偏离越大,卡方值越大,组间差异越可能有统计学意义。

1.2 和2×2卡方检验的关系

2×2卡方检验是行×列列表卡方检验的特例。
当行数和列数都为2时,就是经典的四格表。
当行数或列数超过2时,就进入R×C行列表资料分析。

这也是很多人容易混淆的地方。
本质上方法相同,差别只在表格维度更复杂。

2. 哪些数据适合用它

2.1 数据类型必须是分类变量

行×列表卡方检验适用于计数资料。
自变量通常是分组变量,因变量通常是二分类或多分类变量。
例如,组别是A药、B药、C药,结局是有效或无效。

如果结局变量是连续型数据,比如血压、BMI、住院天数,就不应直接用卡方检验。
这类数据应优先考虑t检验、方差分析或秩和检验。

2.2 分组变量和结局变量要先理清

做分析前,先问自己两个问题。
一是分组变量有几个水平。
二是结局变量是什么性质。

只有把“谁是行,谁是列”先定义清楚,后续统计才不会出错。
在SPSS中,通常把分组变量放入行或列,再结合研究目的解读百分比。

3. 什么时候能用卡方检验

3.1 样本量和期望频数是核心

行×列表卡方检验的前提,不只是看总样本量,还要看期望频数。
常用判断标准包括:

  • 总样本量通常要求大于40。
  • 所有单元格期望频数应大于1。
  • 80%以上单元格期望频数应大于5。

这些条件来自卡方分布近似的前提。
如果频数太小,Pearson卡方的近似会变差。

3.2 期望频数怎么理解

期望频数就是在“各组分布无差异”的假设下,每个格子理论上应出现的次数。
它反映的是理论值,不是实际观察值。

实际频数和期望频数差得越远,卡方值通常越大。
这也是卡方检验的基本逻辑。

4. 不满足条件怎么办

4.1 可以考虑Fisher精确概率法

如果超过20%的单元格期望频数小于5,或者至少有1个单元格期望频数小于1,
就应优先考虑Fisher精确概率法。

这一点在R×C行列表中尤其重要。
有些软件默认不自动给出精确概率结果,做分析时要注意勾选“精确”。

4.2 不能只盯着P值

很多初学者只看P值。
但如果前提条件不满足,即使P值出来了,也未必可信。

先看适用条件,再看检验结果,这是标准流程。
这比直接跑软件更重要。

5. 如何建立假设

5.1 原假设和备择假设

行×列表卡方检验通常这样设定:

  • 原假设H0:各组总体分布相同。
  • 备择假设H1:各组总体分布不全相同。

例如3种药物的有效率比较,原假设就是三组有效率相等。
如果P<0.05,就拒绝原假设。

5.2 统计学显著不等于临床意义

P值显著,只说明组间存在差异。
它不自动告诉你差异有多大,也不说明哪组最好。

如果要回答“哪一组更优”,还需要结合有效率、风险差、OR值,甚至进一步做两两比较。
这一步不能省略。

6. SPSS里怎么做

6.1 基本操作路径

在SPSS中,可按以下步骤操作:

  1. 进入“分析”。
  2. 选择“描述统计”。
  3. 打开“交叉表”。
  4. 将分组变量和结局变量分别放入行、列。
  5. 勾选“卡方”。
  6. 在“单元格”中勾选“实测”“期望”及相应百分比。
  7. 必要时勾选“精确”。

如果要看有效率,通常要关注行百分比或列百分比。
具体看变量放在行还是列。

6.2 结果表怎么看

SPSS输出通常至少有3类信息:

  • 个案处理摘要。
  • 交叉表。
  • 卡方检验表。

其中最关键的是卡方检验表中的χ²值和P值。
交叉表中的计数、期望计数、百分比,则用于理解差异来源。

例如,某研究中A药、B药、C药的有效率分别为87.5%、66.7%和21.9%,
最终Pearson卡方检验结果为χ²=32.736,P<0.001,说明三组疗效差异有统计学意义。

7. 结果怎么写才规范

7.1 推荐报告要素

结果写作时,建议至少包含以下内容:

  • 研究对象和分组。
  • 使用的统计方法。
  • χ²值、自由度和P值。
  • 必要时补充各组频数和百分比。

例如:
三组药物治疗有效率比较差异有统计学意义,Pearson χ²=32.736,P<0.001。

7.2 常见错误

常见问题有三类:

  • 只写P值,不写χ²值。
  • 不报告各组频数和百分比。
  • 把“差异有统计学意义”误写成“因果关系成立”。

卡方检验只能说明关联或分布差异,不能证明因果。
这是写论文时必须守住的边界。

8. 最后再回答一个常被忽略的问题

8.1 能不能说明哪两组之间不同

行×列列表卡方检验只能告诉你“整体有差异”,不能直接指出具体哪两组不同。
如果需要进一步明确差异来源,应做两两比较,并注意多重比较校正。

这一点在多组药物比较、多个年龄段比较中尤其常见。
只做总体卡方,结论还不够完整。

8.2 你可以怎么提高效率

对于临床研究初学者,最容易出错的不是计算,而是判断。
如果你经常在“该不该用卡方”“该看Pearson还是Fisher”“结果怎么写”上反复卡住,
可以借助解螺旋的统计学习资源和实操模板,快速建立标准化分析思路,减少返工。

总结Conclusion

行×列列表卡方检验的核心,不是公式,而是判断。
先看变量类型,再看频数条件,再看检验结果,最后再决定如何解释和报告。
只要把这7个关键问题理顺,分类资料的组间差异分析就会清晰很多。

如果你正在做临床论文、课题或数据分析,建议把这套流程固定下来。
需要更高效的统计学习路径和实操支持,可以关注解螺旋,让统计分析更规范、更省时。
医学科研人员整理统计结果并撰写论文,画面包含交叉表、卡方检验输出和“方法-结果-结论”结构示意