生存分析(二)-- Cox比例风险模型(Cox proportional-hazards model)

如题所述

第1个回答  2022-06-04

Cox比例风险模型 (考克斯,1972年)是常用的统计在医学研究调查的患者和一个或多个预测变量的存活时间之间的关联回归模型。

在上一章 生存分析基础 中,我们描述了生存分析的基本概念以及生存数据的分析和汇总方法,包括:

上述方法-Kaplan-Meier曲线和logrank检验-是 单变量分析的 示例。他们根据调查中的一个因素描述了生存情况,但忽略了其他因素的影响。

此外,仅当预测变量为分类变量时(例如:治疗A与治疗B;男性与女性),Kaplan-Meier曲线和对数秩检验才有用。对于定量预测指标(例如基因表达,体重或年龄),它们并不容易工作。

一种替代方法是Cox比例风险回归分析,它既适用于定量预测变量也适用于类别变量。此外,Cox回归模型扩展了生存分析方法,可以同时评估几种风险因素对生存时间的影响。

在本文中,我们将描述Cox回归模型并提供使用R软件的实际示例。

内容

在临床研究中,有许多情况,其中几个已知量(称为 协变量covariates )可能会影响患者的预后。

例如,假设比较了两组患者:有和没有特定基因型的患者。如果其中一组还包含较年长的个体,则生存率的任何差异都可能归因于基因型或年龄,或两者都有。因此,在调查与任何一个因素相关的生存率时,通常需要针对其他因素的影响进行调整。

统计模型是一种常用工具,可以同时分析多个因素的生存率。此外,统计模型还提供了每个因素的影响大小。

考克斯比例风险模型是用于对生存分析数据进行建模的最重要方法之一。下一节介绍Cox回归模型的基础。

该模型的目的是同时评估几个因素对生存的影响。换句话说,它允许我们检查特定因素如何影响特定时间点特定事件(例如,感染,死亡)的发生率。该比率通常称为风险比率。预测变量(或因子)在生存分析文献中通常称为 协变量 covariates 。

Cox模型由 h(t) 表示的 风险函数 表示。简而言之,危险函数可以解释为在时间t死亡的风险。可以估计如下:

其中:

Cox模型可以被写为变量 x(i)的 危险对数的多元线性回归,而基线危险是随时间变化的“截距”项。

系数 bi 称为危险比率(HR,hazard ratio)。 bi 值大于零,或相当于风险比率大于1,表明随着第 i 个协变量值的增加,事件风险增加,因此生存时间缩短。

换句话说,风险比大于1表示协变量与事件概率正相关,因此与存活时间负相关。
总之,
HR=1:无影响
HR<1:危害降低
HR>1:危险增加

在癌症研究中:

Cox模型的关键假设是观察组(或患者)的危险曲线应成比例,并且不能交叉。

假设两个x值不同的患者k和k'。相应的风险函数可以简单地写成如下:

因此,Cox 模型是一个比例风险模型:任何一组事件的风险都是其他任何一组事件风险的常数倍。这一假设意味着,如上所述,各组的危险曲线应成比例,不能交叉。

换言之,如果一个人在某个初始时间点的死亡风险是另一个人的两倍,那么在以后的任何时候,死亡风险仍然是另一个人的两倍。

这种比例风险的假设应该得到检验。我们将在本系列的下一篇文章中讨论评估比例性的方法: Cox模型假设 。

我们将使用两个R包:

函数 coxph ()[在 survival 包中]可用于计算R中的Cox比例风险回归模型。

简化格式如下:

我们将在生存R数据包中使用肺癌数据。

我们将使用以下协变量来拟合Cox回归:年龄,性别,ph.ecog和wt.loss。

我们首先为所有这些变量计算单变量Cox分析。然后我们将使用两个变量来拟合多元Cox分析,以描述这些因素如何共同影响生存。

单变量Cox分析的计算公式如下:

Cox模型的功能 摘要 ()产生更完整的报告:

Cox回归结果可以解释为:

要将单变量coxph函数一次应用于多个协变量,请输入以下命令:

上面的输出显示了每个变量相对于总生存率的回归beta系数,效应大小(以危险比给出)和统计显着性。通过单独的单变量Cox回归评估每个因素。

从上面的输出中,

现在,我们要描述这些因素如何共同影响生存。为了回答这个问题,我们将执行多元Cox回归分析。由于变量ph.karno在单变量Cox分析中不重要,因此在多变量分析中将其跳过。我们将3个因素(性别,年龄和ph.ecog)纳入多元模型。

时间常数协变量的死亡时间的Cox回归指定如下:

所有三个总体测试(似然性,Wald和得分)的p值均显着,表明该模型具有显著性。这些测试评估了所有beta的综合零假设为0。在上面的示例中,检验统计量非常一致,并且完全拒绝了综合零假设。

在多变量Cox分析中,协变量性别和ph.ecog保持显着性(p <0.05)。但是,协变量年龄不显着(p = 0.23,大于0.05)。

性别的p值为0.000986,危险比HR = exp(coef)= 0.58,表明患者的性别与死亡风险降低之间有很强的关系。协变量的危险比可解释为对危险的倍增效应。例如,保持其他协变量不变(女性(性别= 2))可将危险降低0.58或42%。我们得出结论,成为女性与良好的预后相关。

同样,ph.ecog的p值为4.45e-05,危险比HR = 1.59,表明ph.ecog值与死亡风险增加之间有很强的关系。保持其他协变量不变,ph.ecog的值越高,生存率越低。

相比之下,年龄的p值现在为p = 0.23。危险比HR = exp(coef)= 1.01,95%置信区间为0.99至1.03。由于HR的置信区间为1,因此这些结果表明,在调整phog值和患者的性别之后,年龄对HR差异的贡献较小,并且仅趋于显着。例如,在其他协变量保持不变的情况下,再增加一岁会引起每日死亡危险,其系数为expβ= 1.01或1%,这并不是一个重要的贡献。

将Cox模型拟合到数据后,就可以可视化特定风险组在任何给定时间点的预测生存率。函数 survfit ()估计生存比例,默认情况下为协变量的平均值。

我们不妨展示估计的生存率如何取决于目标协变量的值。

考虑到这一点,我们想评估性别对估计生存率的影响。在这种情况下,我们用两行构造一个新的数据帧,每一行代表性别。其他协变量固定为其平均值(如果是连续变量)或最低水平(如果它们是离散变量)。对于伪协变量,平均值为数据集中编码为1的比例。该数据帧通过 newdata 参数传递给 survfit ():

在本文中,我们描述了Cox回归模型,用于同时评估多种风险因素与患者生存时间之间的关系。我们演示了如何使用 生存 包计算Cox模型。此外,我们描述了如何使用 survminer 软件包来可视化分析结果。

相似回答