生存分析的Cox回归模型(比例风险模型)-文章-SPSSPRO社区

COX 回归模型，又称“比例风险回归模型，是在生存分析中的一个重要的模型。该模型以最终结局和生存时间为因变量，同时分析众多因素对生存时间的影响，目前在医疗，金融和市场研究等专业领域中广泛使用。如医学研究中，药物 X 的使用是否增加或减少病人的存活时间等等。

举一个例子

假如你现在要研究一个罪犯第一次被逮捕后，到t时刻时再次犯罪的概率为多大。那么它会受什么影响呢？直观的来看：

一方面，它会受时间推移的影响；另一方面，它会受一些客观因素影响，比如年龄、人种、是否有工作、是否结婚、是否假释、先前的逮捕次数等。

综上所述，我们抽象出了两部分的因素，一部分受时间的影响，你可以理解为是理想情况下、不受任何外界影响下的死亡的概率、是一个基准；另一部分受客观因素的影响，这些因素会影响整体的概率，使得它在基准上增加或减少。

上面所说的 “t时刻再次犯罪的概率” 是不易量化的，为了从统计意义上去计算，现在提出新的指标：危险率。

时刻 t 的危险率= t 时刻将要死去的人数/t 时刻依然存活的总人数

可以理解为 “某一个时刻危险人群的比例”，比如：假设在 t 时刻前，原有10人，t 时刻后有3人死亡，此时的危险率为0.3。

在此我们要建模的，就是这个危险率与‘时间和客观因素’关系。

1 模型假设

Cox 比例风险回归模型见下式：

X ：与生存时间可能有关的自变量（即影响因素），其中的自变量或影响因素可能是定量的或定性的，在整个观察期内不随时间的变化而变化

h(t)：具有自变量 X 的个体在 t 时刻的风险函数，h0(t)为所有自变量为 0 时 t 时刻的风险函数，称为基准风险函数，是未知的

β：各自变量的偏回归系数，是一组未知的参数，需要根据实际的数据来估计。

生存函数：客观因素为X时，在t时刻仍然存活的概率

死亡函数：客观因素为X时，在t时刻已经死亡的概率

Cox 模型不直接考察生存函数 S(t)与自变量的关系，而是利用生存函数 S(t)与风险函数 h(t)的关系，将风险函数 h(t)作为因变量，间接反映自变量与生存函数 S(t)的关系。该模型右侧可分为两个部分：一部分为 h0(t)，它没有明确的定义，分布无明确的假定，为非参数部分；另一部分是以 p 个自变量的线性组合为指数的指数函数，具有参数模型形式，其中回归系数反映自变量的效应，可通过样本实际观测值来估计。

Cox回归分析的步骤

1.进行模型系数的Ominbus检验，检查COX回归模型是否有效。

2.汇总展示COX回归系数，观察模型是否有效，并重点关注HR（风险比）值，以揭示该变量对阳性事件发生的作用。

3.展示总体生存函数图，以直观得到样本随着时间的推移的生存情况，并简单检验是否满足比例风险建设（既生存函数曲线未交叉则满足），如果设置了画图变量则额外展示以画图变量区分的生存函数图。

2 案例介绍

根据罪犯第一次被逮捕后的周数和人种、是否已婚等变量，分析不同因素对罪犯是否再次犯罪以及之后再犯时间的影响情况。

3 软件操作及结果解读

3.1 软件操作

输入：时间变量，状态变量，自变量 X 至为少一项或以上的变量，如有分层或者绘图需求则输入对应变量。

输出：不同因素对生存期的影响情况。

3.2 结果解读

1）Ominbus 全局性检验

上表展示了样本 Ominbus 全局性检验的结果，包括-2 倍对数极大似然值、卡方值等，用于检验模型中所有变量的回归系数是否全为零。-2 倍对数极大似然值用于检验模型的拟合情况，其值越小，表示模型拟合的越好。

Ominbus 全局性检验的显著性 P 值为 0.000***，水平上呈现显著性，拒绝原假设，因此数据至少存在一个变量的风险比率不为零,模型有效。

2）回归系数汇总情况

P 值用于判断是否显著影响，回归系数的大小与正负判断是正向还是负向影响。
Wald 是一个卡方值，用于对回归系数进行检验，考察回归系数是否等于 0。
HR 值为风险函数值比值，简称风险比，其意义如下：

HR 值大于 1，提示是阳性事件发生的促进因素；
HR 值小于 1，提示是阳性事件发生的阻碍因素；
HR 值等于 1，提示对阳性事件的发生无影响。

年龄和先前的逮捕次数对是否累犯有显著性影响。其中年龄是被再次逮捕的阻碍因素（年级越大越不容易累犯），先前的逮捕次数和是否黑人是促进因素（先前被逮捕的次数越多或者是黑人越容易累犯）。

3）生存曲线图

上图展示了样本总体随着时间的推移的生存情况。其中横轴是时间，纵轴是累计生存率。

注意：

状态变量只能是二分类 0、1 变量，并且 1 代表是事件发生（如死亡/阳性等） PH 假定可以通过看各组的生存曲线是否交叉简单判断，复杂判断可以使用 Schoenfeld 残差图、累计风险函数法和 Score 残差图等判断。如果某个分类性质的混杂因素不满足风险比例假设，可以将其作为分层变量进行分层分析，用以控制混杂（该变量将作为分层项，没有结果）；绘图变量可以对比不同类型的生存曲线情况（将绘制按照该变量分类的多条生存曲线）

4 总结

生存分析的主要目的是估计生存函数，常用的方法还有有Kaplan-Meier法，对于分组数据，在不考虑其他混杂因素的情况下，可以用这种方法对生存函数进行组间比较，例如医院需要研究一种新药的疗效情况，可以使用 Kaplan-Meier 曲线得到是否使用新药对患者总生存时间的影响

如果考虑其他影响生存时间分布的因素，可以使用Cox回归模型，利用数学模型拟合生存分布与影响因子之间的关系，评价影响因子对生存函数分布的影响程度。这里的前提是影响因素的作用不随时间改变，如果不满足这个条件，则应使用含有时间依存协变量的Cox回归模型。