当前位置:首页 > 培训职业 > 正文

生存分析中的非参数方法

欢迎关注公众号:用python学机器学习。

在对生存数据进行建模之前,常常会先对数据做一些简单的描述性分析。本文就来介绍一下如何用样本数据对生存函数、风险函数、累积风险函数进行估计。本文介绍的方法都不会预先假定生存数据服从何种分布,故而为非参数方法。

生存函数的点估计

已知生存函数描述的是个体活过时间的概率,其大小等与分布函数。在没有删失数据的情况下,分布函数可以使用经验分布函数来估计,经验分布函数很容易得到。为了估计包含删失数据时的生存函数,一般使用Kaplan-Meier法。Kaplan-Meier法可以计算出任意时间点,生存函数的表达式。这个估计量称为Kaplan-Meier估计量,简称KM估计量。从这个式子中容易发现,当没有删失数据时,在做连乘的时候一些项的分子和分母会错项相消,最终结果将等于1。

风险函数的点估计

在有了生存函数的估计之后,理论上可以使用其他方法将生存函数转换为风险函数、累积风险函数。实际上这些转换后的估计量效果并不好,常常采用其他方法来估计风险函数和累积风险函数。

可以用条件死亡概率作为风险函数估计。这个估计量可以由最大似然估计得出,因而具有一致性和渐进正态性。累积风险函数则是风险函数的累加。

生存函数的渐进方差

除了得到生存函数的估计值,还想知道生存函数估计值的置信区间,因此还需要估计生存函数的方差。在估计生存函数的方差时会用到delta方法。Greenwood方法可以用来推导KM估计量的渐进方差。

生存函数的组间比较

在得到生存函数的样本估计值之后,我们可能想对生存函数做一下组间比较。常用的假设检验方法有log-rank检验。log-rank检验主要用来比较两个样本生存时间是否有相同的分布。超几何分布是推导log-rank检验时需要用到的一种概率分布。log-rank检验的基本思想为:如果两组有相等的风险函数,对于任意一组,在任意时间点的死亡人数将服从超几何分布。可以构造统计量,根据超几何分布的期望和方差公式,对于任意一组,在任意一个时间点的死亡人数的期望和方差估计值为。如果两组有相等的风险函数,那么在大样本下统计量将服从渐进正态分布。

加权log-rank检验

log-rank检验是生存分析中做组间比较最常用的方法,但是这个检验只有在比例风险假定成立的条件下才有最大的功效,否则检验效能偏低。针对这个问题,又有几种log-rank检验的变体方法被提出,如Wilcoxon检验、Tarone-Ware检验等。他们的主要区别在于在构造检验统计量时对不同时间点的偏差和方差赋予了不同的权重。

Wilcoxon检验将每个时间点的权重设为1,检验统计量为。由于早期数据权重较高,Wilcoxon法比log-rank检验更能检验出早期的差异。

Tarone-Ware检验将每个时间点的权重设为,检验统计量为。Tarone-Ware检验和Wilcoxon法类似,比log-rank检验更能检验出早期的差异,效果介于Wilcoxon检验和log-rank检验。

Peto检验将每个时间点的权重设为,为Peto修正的生存函数估计量。该检验同前两种方法一样,也更能检验出早期的差异,不过它比Wilcoxon检验和Tarone-Ware检验更加稳健一些,尤其是删失数据较多时。

多重随机标签

猜你喜欢文章