横断面研究中，连续变量相关分析通常用什么统计指标？

通常优先用 Pearson 相关系数；若数据偏态或关系非线性，可用 Spearman 秩相关。

分类变量之间的关联强度，应该看什么指标？

常用 Cramer's V、Phi 系数或列联系数；其中多分类名义变量更常用 Cramer's V。

什么时候应该用 Kappa，而不是相关系数？

当研究重点是两种方法或两位评估者的一致性时，应使用 Kappa；它衡量的是一致程度，不是相关性。

横断面研究变量统计：5大核心指标怎么选？

作者：Dr.Chuang

2026-05-20｜原创

引言Introduction

横断面研究变量统计选不对，结果就会失真。医学生、医生和科研人员常见的痛点是，变量类型不同，却用了同一种统计指标，导致解释困难、投稿被退回。先分清变量类型，再选指标，才是横断面研究变量统计的第一步。
一张临床研究数据分析示意图，包含连续变量、分类变量、等级变量和列联表，突出“选择统计指标”的决策场景。

1. 先看变量类型，再谈指标

1.1 横断面研究最常见的变量分法

横断面研究变量统计，核心不是“用哪个软件”，而是“变量属于哪一类”。按知识库内容，临床研究中的变量可概括为定量、定性、等级和生存数据。实际横断面研究中，最常见的是连续变量、分类变量和有序变量。

变量类型决定了统计指标的适用边界。 例如，连续变量常用 Pearson 相关系数，但前提是线性相关且服从正态分布。若不满足条件，可考虑 Spearman 秩相关。

1.2 为什么不能一把尺子量到底

不同变量的统计指标，计算逻辑不同。有些基于 χ2 值，有些侧重预测效果，有些是对称性的，有些是非对称性的。对称性指互换变量位置后结果不变。非对称性则会改变。

这意味着，横断面研究变量统计不能只看“相关”两个字，还要看研究目的。 你是想描述关联强度，还是想评估预测能力，或者比较一致性，答案不同，指标也不同。

2. 5大核心指标怎么选

2.1 连续变量相关，优先看 Pearson 或 Spearman

如果两个变量都是连续变量，Pearson 相关系数通常是首选。但它有明确前提，必须满足线性相关且正态分布。若数据偏态，或关系不是线性的，Spearman 更稳妥。

这类选择最适合横断面研究变量统计中的“最常见场景”。 比如年龄与某项实验室指标，BMI 与血压，先判断分布，再决定用哪一种。不要直接默认 Pearson。

2.2 有序变量相关，看 Gamma、Kendall’s Tau-b、Tau-c 和 Somers’ D

当变量是有序分类资料时，重点是“一致对子”和“不一致对子”。知识库中提到，P 代表一致对子，Q 代表不一致对子。由此可以构建一组适合有序变量的相关指标。

常见指标包括：

Gamma 统计量 ，用于描述有序分类数据联系强度，取值在 -1 到 1。
Kendall’s Tau-b ，适用于两个变量均为有序分类时，且对相同等级较多的情况进行了校正。
Kendall’s Tau-c ，在 Tau-b 基础上进一步考虑整张列联表大小。
Somers’ D ，属于不对称调整指标，更适合有自变量和因变量区分的场景。

如果研究问题强调方向性，就要优先考虑非对称指标。 这在横断面研究变量统计中很重要，因为不是所有“相关”都只是双向关系。

2.3 分类变量关联，看 Cramer’s V、Phi、列联系数

对于分类变量，χ2 检验只能告诉你“有没有关联”，不能告诉你“关联有多强”。这时就需要关联强度指标。知识库明确提到，列联系数、Phi、Cramer’s V 都是从 χ2 值衍生来的。

其中：

列联系数 ，取值 0 到 1，值越大，相关性越强。
Phi 系数 ，适用于 2×2 列联表，其他列联表时理论上没有上限。
Cramer’s V ，对 Phi 做了调整，取值范围稳定在 0 到 1，更便于不同列联表之间比较。

在横断面研究变量统计里，如果你的变量是多分类名义变量，Cramer’s V 往往比 Phi 更实用。 因为它更保守，也更容易解释。

2.4 预测效果怎么看，Lambda 和不确定系数更合适

如果研究目标不是单纯看“有关联吗”，而是想知道“知道自变量后，能否更好预测因变量”，那就要看预测型指标。知识库中给出的代表是 Lambda 和不确定系数。

Lambda 系数 ，衡量知道自变量后，因变量预测误差减少了多少。
不确定系数 ，也是 0 到 1 之间，反映知道自变量后，不确定性下降的比例。

这类指标在横断面研究变量统计中很有价值。尤其当临床问题更偏向分层预测时，它比单纯的相关系数更贴近实际。

2.5 需要比较一致性时，用 Kappa

如果你研究的不是相关，而是两种方法或两位评估者的一致程度，那么应选择 Kappa。知识库明确指出，Kappa 检验用于评价两种方法结果的一致程度。

一致性不等于相关性。 这是横断面研究变量统计里最容易混淆的点。两个评分高度相关，并不代表它们一致。医生读片、量表评分、病理判定，都属于常见的一致性分析场景。

3. 选指标前，先回答这3个问题

3.1 你的变量是什么类型

先分清楚变量类型，再决定统计指标。连续变量、二分类变量、有序变量、多分类变量，对应的分析路径不同。这个顺序不能反过来。

如果把连续变量强行分成二分类，临床解释确实更容易，但信息会损失。知识库也明确提到，分类化有利于解释，但会带来信息减少。在横断面研究变量统计中，能保留原始信息时尽量保留。

3.2 你想回答的是相关、预测，还是一致

相关强度、预测效果、一致性，是三类不同问题。相关性回答“是否有关”。预测性回答“是否有帮助”。一致性回答“是否相同”。

横断面研究变量统计最怕的就是问题和指标不匹配。比如你要评估两种方法是否一致，却用了相关系数。这样结果再漂亮，也不是你真正想回答的问题。

3.3 数据结构是否支持指标前提

不是所有指标都“通用”。Pearson 需要线性和正态。Gamma、Tau-b、Somers’ D 更适合有序变量。Phi 更适合 2×2 表。Cramer’s V 更适合更广泛的列联表。

前提不满足时，换指标比硬套模型更重要。 这是高质量横断面研究变量统计的基本原则。

4. 实战中如何快速决策

4.1 一个简化判断流程

你可以按下面的顺序快速判断：

先判定变量类型。
再明确研究目的，是相关、预测还是一致。
最后检查分布和表格结构。

这个流程适用于大多数横断面研究变量统计场景。先结构化思考，再进入软件操作，效率会高很多。

4.2 常见误区要避开

常见错误主要有三类：

把分类变量直接当连续变量分析。
把一致性问题误用成相关性问题。
忽视对称性和非对称性的区别。

真正专业的横断面研究变量统计，不是公式背得多，而是能准确匹配研究问题。 这也是论文方法学部分最容易被审稿人关注的地方。

总结Conclusion

横断面研究变量统计的关键，不是“有什么指标”，而是“该用什么指标”。连续变量优先看 Pearson 或 Spearman。有序变量可考虑 Gamma、Tau-b、Tau-c 和 Somers’ D。分类变量常用 Cramer’s V、Phi 和列联系数。若关注预测，用 Lambda 或不确定系数。若关注一致性，用 Kappa。

把变量类型、研究目的和数据结构三者对齐，才是横断面研究变量统计的正确路径。 如果你希望更高效地完成变量选择、结果解释和论文撰写，可以借助解螺旋的临床研究方法与统计支持，把复杂问题转成可执行方案。
一张临床科研工作台场景图，展示研究者在电脑前选择统计指标，旁边有列联表、相关矩阵和论文初稿。