生存分析的Cox回归模型(比例风险模型)
案例库 https://www.spsspro.com/ · 2047浏览 · 2022-07-21 09:40
=

COX 回归模型,又称“比例风险回归模型,是在生存分析中的一个重要的模型。该模型以最终结局和生存时间为因变量,同时分析众多因素对生存时间的影响,目前在医疗,金融和市场研究等专业领域中广泛使用。如医学研究中,药物 X 的使用是否增加或减少病人的存活时间等等。

举一个例子

假如你现在要研究一个罪犯第一次被逮捕后,到t时刻时再次犯罪的概率为多大。那么它会受什么影响呢?直观的来看:

一方面,它会受时间推移的影响;另一方面,它会受一些客观因素影响,比如年龄、人种、是否有工作、是否结婚、是否假释、先前的逮捕次数等。

综上所述,我们抽象出了两部分的因素,一部分受时间的影响,你可以理解为是理想情况下、不受任何外界影响下的死亡的概率、是一个基准;另一部分受客观因素的影响,这些因素会影响整体的概率,使得它在基准上增加或减少。

上面所说的 “t时刻再次犯罪的概率” 是不易量化的,为了从统计意义上去计算,现在提出新的指标:危险率。

时刻 t 的危险率= t 时刻将要死去的人数/t 时刻依然存活的总人数

可以理解为 “某一个时刻危险人群的比例”,比如:假设在 t 时刻前,原有10人,t 时刻后有3人死亡,此时的危险率为0.3。

在此我们要建模的,就是这个危险率 与‘时间和客观因素’关系。

1 模型假设

Cox 比例风险回归模型见下式:

image.png

X :与生存时间可能有关的自变量(即影响因素),其中的自变量或影响因素可能是定量的或定性的,在整个观察期内不随时间的变化而变化

h(t):具有自变量 X 的个体在 t 时刻的风险函数,h0(t)为所有自变量为 0 时 t 时刻的风险函数,称为基准风险函数,是未知的

β:各自变量的偏回归系数,是一组未知的参数,需要根据实际的数据来估计。

生存函数:客观因素为X时,在t时刻仍然存活的概率

死亡函数:客观因素为X时,在t时刻已经死亡的概率

Cox 模型不直接考察生存函数 S(t)与自变量的关系,而是利用生存函数 S(t)与风险函数 h(t)的关系,将风险函数 h(t)作为因变量,间接反映自变量与生存函数 S(t)的关系。该模型右侧可分为两个部分:一部分为 h0(t),它没有明确的定义,分布无明确的假定,为非参数部分;另一部分是以 p 个自变量的线性组合为指数的指数函数,具有参数模型形式,其中回归系数反映自变量的效应,可通过样本实际观测值来估计。

Cox回归分析的步骤

1.进行模型系数的Ominbus检验,检查COX回归模型是否有效。

2.汇总展示COX回归系数,观察模型是否有效,并重点关注HR(风险比)值,以揭示该变量对阳性事件发生的作用。

3.展示总体生存函数图,以直观得到样本随着时间的推移的生存情况,并简单检验是否满足比例风险建设(既生存函数曲线未交叉则满足),如果设置了画图变量则额外展示以画图变量区分的生存函数图。

2 案例介绍

根据罪犯第一次被逮捕后的周数和人种、是否已婚等变量,分析不同因素对罪犯是否再次犯罪以及之后再犯时间的影响情况。

image.png

3 软件操作及结果解读

3.1 软件操作

image.png

输入:时间变量,状态变量,自变量 X 至为少一项或以上的变量,如有分层或者绘图需求则输入对应变量。

输出:不同因素对生存期的影响情况。

3.2 结果解读

1)Ominbus 全局性检验

image.png

上表展示了样本 Ominbus 全局性检验的结果,包括-2 倍对数极大似然值、卡方值等,用于检验模型中所有变量的回归系数是否全为零。-2 倍对数极大似然值用于检验模型的拟合情况,其值越小,表示模型拟合的越好。

Ominbus 全局性检验的显著性 P 值为 0.000***,水平上呈现显著性,拒绝原假设,因此数据至少存在一个变量的风险比率不为零,模型有效。

2)回归系数汇总情况

image.png

  • P 值用于判断是否显著影响,回归系数的大小与正负判断是正向还是负向影响。
  • Wald 是一个卡方值,用于对回归系数进行检验,考察回归系数是否等于 0。
  • HR 值为风险函数值比值,简称风险比,其意义如下:
  1. HR 值大于 1,提示是阳性事件发生的促进因素;
  2. HR 值小于 1,提示是阳性事件发生的阻碍因素;
  3. HR 值等于 1,提示对阳性事件的发生无影响。

年龄和先前的逮捕次数对是否累犯有显著性影响。其中年龄是被再次逮捕的阻碍因素(年级越大越不容易累犯),先前的逮捕次数和是否黑人是促进因素(先前被逮捕的次数越多或者是黑人越容易累犯)。

3)生存曲线图

image.png

上图展示了样本总体随着时间的推移的生存情况。其中横轴是时间,纵轴是累计生存率。

注意:

状态变量只能是二分类 0、1 变量,并且 1 代表是事件发生(如死亡/阳性等) PH 假定可以通过看各组的生存曲线是否交叉简单判断,复杂判断可以使用 Schoenfeld 残差图、累计风险函数法和 Score 残差图等判断。 如果某个分类性质的混杂因素不满足风险比例假设,可以将其作为分层变量进行分层分析,用以控制混杂(该变量将作为分层项,没有结果); 绘图变量可以对比不同类型的生存曲线情况(将绘制按照该变量分类的多条生存曲线)

4 总结

生存分析的主要目的是估计生存函数,常用的方法还有有Kaplan-Meier法,对于分组数据,在不考虑其他混杂因素的情况下,可以用这种方法对生存函数进行组间比较,例如医院需要研究一种新药的疗效情况,可以使用 Kaplan-Meier 曲线得到是否使用新药对患者总生存时间的影响

如果考虑其他影响生存时间分布的因素,可以使用Cox回归模型,利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度。这里的前提是影响因素的作用不随时间改变,如果不满足这个条件,则应使用含有时间依存协变量的Cox回归模型。

相关推荐

默认标签 数据分析达人
SPSSPRO数据分析课程强势上线!学完可拿证

数据分析师认证学习与考核方案

会员专题 SPSSPRO · 697浏览 · 03-14 04:19
2024年第三届全国大学生数据分析科普竞赛纸质证书免费领

无需邀请好友,全国大学生数据分析知识科普竞赛纸质证书免费包邮寄送! 撰写小红书及知乎文章,推广第二届全国大学生数据分析科

知识竞赛 原创 · 4450浏览 · 03-06 03:28
0 条评论
    某人
    可输入 255
    SPSSPRO社区 扫码访问移动端