KM生存分析中的删失数据是什么？

删失数据是指在随访结束前，个体未发生研究终点事件，或因失访、退出而无法观察到结局的数据。

KM生存曲线为什么是阶梯形？

因为相邻两个事件之间生存率保持不变，只有事件发生时曲线才向下跳一步，所以曲线呈阶梯状。

KM生存分析常用什么方法比较组间差异？

通常使用log-rank检验比较组间生存曲线是否存在统计学差异。

KM生存分析究竟怎么做？4步详解超实用

作者：Dr.Xin

2026-05-11｜原创

引言Introduction

KM生存分析是临床研究里最常用的生存方法之一。很多医学生和科研人员会卡在数据整理、删失处理和曲线解读上，导致结果做不对、图也画不好。其实，KM生存分析的核心只有4步：整理时间与结局、估计生存率、绘制曲线、比较组间差异。

临床研究场景下的KM生存曲线示意图，包含阶梯状生存曲线、时间轴、生存概率和删失标记。

1. 先理解KM生存分析研究的到底是什么

1.1 生存时间和结局事件

生存分析不是只看“活没活着”。它研究的是某个因素与结局事件之间的关系，同时考虑时间 。结局事件可以是死亡、复发、进展、转移，具体取决于研究目的。

在KM生存分析里，最重要的变量通常有两个。一个是生存时间，一个是结局状态。生存时间是从入组到事件发生，或随访结束的时间。状态变量一般用0和1表示。1代表事件发生，0代表删失或未发生事件。

1.2 什么是删失数据

删失并不等于无效数据。它表示在观察结束前，个体没有出现研究设定的结局，或者失访、退出。KM生存分析的优势就在于，它可以充分利用删失信息，而不是简单丢弃。

这也是KM法比普通比例统计更适合随访研究的原因。临床真实世界里，很少每个患者都能完整观察到终点。删失是常态，不是异常。

1.3 为什么KM法常用于小样本

KM法是非参数估计方法 ，也叫乘积极限法。它常用于未分组或样本量不大的随访资料。上游知识库提示，KM法能逐个时间点估计生存概率，并通过概率乘法得到累计生存率。

一句话概括：KM生存分析就是把每个时间点的生存概率连乘起来，得到随时间变化的生存曲线。

2. 第一步，整理KM生存分析所需数据

2.1 数据结构要先标准化

做KM生存分析前，先把数据整理成两列核心信息。

生存时间。
生存状态。

如果你做的是分组比较，还要再加一列分组变量，比如高表达组和低表达组，或治疗组和对照组。数据格式清晰，后面软件才能正确识别。

2.2 时间变量和状态变量要定义清楚

时间变量必须是同一单位，常用天、月或年。状态变量要事先定义好。比如在很多临床研究中，Alive记为0，Dead记为1。定义必须前后一致，否则曲线和P值都会出错。

如果原始数据里有频数资料，可以先加权，再进行KM分析。这样相当于把同类样本按次数展开，便于软件计算。

2.3 失访率要注意

在真实研究里，失访不可避免。上游知识库提到，失访率小于20%通常可接受，超过20%就要警惕研究质量问题。
这不是KM法本身的问题，而是随访设计和数据管理的问题。若失访过高，曲线解释会受影响，审稿人也会追问。

3. 第二步，按KM原理计算累计生存率

3.1 先算每个时间点的生存概率

KM生存分析的核心是逐时点估计。具体做法是先按生存时间从小到大排序，再统计每个时间点的死亡例数、删失例数和期初人数。

某一时间点的死亡概率，等于该时段死亡例数除以期初人数。生存概率 = 1 - 死亡概率。
删失对应的死亡例数为0，所以该时间点的生存概率为1，累计生存率不变。

3.2 再用乘法原理得到累计生存率

KM法的关键公式很简单。累计生存率等于各时间点生存概率的连乘。
也就是说，后一个时间点的生存率，要建立在前一个时间点仍然存活的基础上。

例如，t1时点生存概率为0.9，t2时点为0.8，那么t2时点累计生存率就是0.9×0.8=0.72。这个方法能自然处理删失数据，也是KM曲线能逐步下降的原因。

3.3 中位生存时间怎么读

KM生存分析常报告一个指标，叫中位生存时间 。它指累计生存率降到0.5时对应的时间。简单说，就是还有50%个体存活的时间点。

如果曲线没有刚好等于0.5，可以用插值法估计。临床论文里，中位生存时间常用于描述预后水平，尤其适合比较两组疗效差异。中位生存时间越长，通常提示预后越好。

4. 第三步，绘制KM曲线并做组间比较

4.1 KM曲线为什么是阶梯形

KM生存曲线不是平滑线，而是阶梯形。原因很直接。相邻两个事件之间，生存率保持不变。
只有在事件发生的时间点，曲线才会向下跳一步。

如果曲线下降很陡，说明事件发生快，生存期短。如果下降平缓，说明结局出现得更慢，整体预后更好。

4.2 两组KM曲线怎么比较

做组间比较时，最常用的是log-rank检验。它适合比较两组或多组生存曲线是否存在统计学差异。上游知识库指出，log-rank对远期差异更敏感 ，因此在很多医学研究中更常用。

如果你关注的是早期差异，也可以考虑Breslow或Wilcoxon方法。但对于大多数临床文章，log-rank仍是首选。

4.3 曲线交叉时要谨慎

如果两条KM曲线发生交叉，说明不同时间段的风险效应可能不一致。这种情况下，单纯用log-rank可能不够稳妥。上游知识库提到，后续分析中可考虑two-stage或landmark方法。

结论很明确：KM生存分析适合曲线趋势清晰、组间差异稳定的情况。 若曲线交叉，不能只盯着P值，还要回到临床机制和统计前提去判断。

5. 第四步，正确解读KM生存分析结果

5.1 先看曲线，再看P值

很多人一上来只盯着P值，这是常见误区。正确顺序应该是：

看曲线是否分离。
看分离是否持续。
看P值是否支持差异。
再结合临床背景解释。

P值只能说明差异是否有统计学意义，不能直接说明因果关系。 这点在临床论文中尤其重要。

5.2 再看样本量和删失情况

KM生存分析的可靠性，和样本量、随访完整度关系很大。样本太少，曲线会很不稳定。删失太多，后期曲线的可信度也会下降。
因此，报告结果时最好同时交代：总样本数、事件数、删失数、随访时间范围。

5.3 最后再和Cox分析配合

KM生存分析适合做组间生存曲线比较，但它不能同时调整多个混杂因素。若要控制年龄、分期、治疗方式等变量，通常还要接着做Cox回归。
KM负责“看差异”，Cox负责“校正差异”。 这是生存分析里最常见的组合。

6. KM生存分析常见错误，建议提前避开

6.1 时间和状态编码混乱

这是最常见的问题。时间单位不统一，或者把结局状态编码反了，都会直接导致曲线错误。做图前一定要核对原始字段。

6.2 把失访当成结局

失访不是事件发生。它属于删失。如果把删失当作死亡或复发，KM生存分析会被严重扭曲。

6.3 只报图，不报方法

论文里不能只放一张曲线图。至少要说明：使用的是KM法还是乘积极限法，组间比较用了什么检验，结局事件如何定义。这样才符合E-E-A-T中的专业性和可重复性要求。

总结Conclusion

KM生存分析本质上并不复杂。先整理生存时间和状态，再按时间点计算生存概率，随后绘制阶梯状生存曲线，最后用log-rank检验比较组间差异。掌握这4步，你就能读懂大多数临床生存曲线，也能独立完成基础分析。

如果你希望把KM生存分析做得更快、更规范，建议借助成熟工具和标准化流程。解螺旋 可帮助你更高效地完成生存分析、图形输出和论文结果整理，减少编码和统计细节上的低级错误。
科研人员在电脑前查看KM生存曲线结果图，旁边配有数据表、P值和中位生存时间摘要。