CHAPITRE 4 : Le modèle de Cox 1. Approche par la régression Le modèle de Cox est un modèle à hasards proportionnels de la forme: t Z 0 t. expz où la fonction 0 t n est pas spécifiée paramétriquement Lorsque la k-ième covariable est continue, le k-ième coefficient de vérifie pour tout t: k lnt z Z k 1
Donc k mesure l élasticité du taux de hasard par rapport à la k-ième covariable Z k qui est supposée ne pas varier dans le temps Le modèle de Cox peut se ré-écrire sous forme linéaire: où W suit une loi de Gumbel ln 0 t Z Z W La théorie classique des MCO ne peut s appliquer ici parce que: la loi de W n est pas centrée : où est la constante d Euler, et EW 0. 5772 varw 2 /6 on ne connaît pas en général 0 on observe en général des données non complètes 2
Le premier obstacle peut être levé en posant: W W où W est une variable centrée. On modifie le paramètre en introduisant une composante égale à 1 pour capter la constante Si on connaît 0 et si les données sont complètes, i.e. si on dispose d un échantillon i.i.d. T i,z i i1,...,n, on peut estimer le paramètre par la procédure classique des moindres carrés Si R p et si Z i R p, alors n n Z i Z i1 i 1 n i1 Z i ln 0 T i 3
En présence de données complètes, une procédure de moindres carrés non linéaires du type arg min 0 X i exp Z i1 i fournit également un estimateur convergent de n 2 2. Estimation paramétrique Supposons que l on connaisse 0, éventuellement à un paramètre de dimension finie près La log-vraisemblance s écrit: n i1 i lnfx i Z i 1 i lnsx i Z i 4
soit lnl n i1 n n i lnx i Z i lnsx i Z i i Z i1 i ln 0 X i expz i 0 X i d où la fonction score: lnl n n Z i i expz i1 i 0 X i où n i1 Z i expz i r i r i 0 X i i expz i Dans le cas d un modèle sans censure ( i 1 pour tout i), r i serait le résidu théorique du modèle, c est-à-dire r i 0 X i expz i 5
On appelle les r i les résidus généralisés L EMV de, noté, est donc racine de l équation exprimant l orthogonalité entre les résidus et une fonction des covariables: n i1 Z i expz i r i 0 En dérivant une seconde fois lnl n, on obtient l information de Fisher I n E 2 lnl Z n Z i Z i1 i expz i.e 0 X i Z i La quantité E 0 X i Z i est peu maniable car elle fait intervenir explicitement la loi de C. Mais comme 0 est croissante, E 0 X i Z i E 0 T i Z i 6
De plus, lorsque lim u 0 u E 0 T i Z i 0 tst Z i dt Z i expz i t Z i expt Z i dt Z i expz i Donc pour tout i, il existe un facteur i 0, 1 tel que On a alors E 0 X i Z i expz i i n I n i1 Z i Z i i 7
En l absence de censure, l information de Fisher correspondant au modèle latent I n serait n I n i1 n Z i Z i i1 n Z i Z i i i1 Z i Z i 1 i I n I n I n Le fait d avoir des observations censurées introduit une perte d information qui s exprime par la présence de la matrice positive I n Cette diminution de l information de Fisher a pour conséquence l accroissement de la borne de Cramer-Rao pour l estimation de La théorie usuelle des tests asymptotiques peut être utilisée avec lnl n et son maximisateur : tests de Wald, du score, du rapport des vraisemblances, etc., pour tester la nullité de certains éléments de 8
3. Vraisemblance partielle Soit un couple U,V de v.a. admettant des fonctions de densité marginale f u et conditionnelle f u Vv. v Supposons que l on observe un échantillon de réalisations u i, v i i1,...m qui ne sont a priori ni indépendantes, ni identiquement distribuées Vraisemblance des observations: Lu 1,v 1 ;... ;u n,v n Lu 1,v 1.Lu 2,v 2 ;... ;u m, v m u 1, v 1 m j1 où u j u 1,...,u j et v j v 1,...,v j Lu j,v j u j1, v j1 9
On peut alors écrire: Lu 1,v 1 ;... ;u n,v n j1 Le second terme L p u 1,v 1 ;... ;u n,v n j1 m Lu j u j1,v j1 Lv j u j,v j1 m Lv j u j,v j1 est appelée vraisemblance partielle de v dans u,v Lorsque toutes les lois conditionnelles admettent des densités, la vraisemblance partielle s écrit L p u 1,v 1 ;... ;u n,v n j1 m f Vj U j,v j1v j u j,v j1 10
En général, la vraisemblance partielle n est ni une vraisemblance totale, ni une vraisemblance conditionnelle (vraisemblance des observations conditionnellement à d autres variables considérées alors comme fixes). Dans certains cas, on peut utiliser L p comme s il s agissait de la vraisemblance totale des observations La méthode divise l information présente dans la vraisemblance en deux parties: l information pertinente pour estimer les paramètres du modèle et un bruit que l on peut négliger (ce bruit est ici apporté par U Pour pouvoir résumer la vraisemblance totale par la vraisemblance partielle, il faut que la partie bruitée ne fasse pas intervenir les paramètres que l on cherche à estimer 11
Notons toutefois que ces derniers apparaissent dans la partie m j1 via le conditionnement par v j1 Lu j u j1,v j1 Mais, dans bien des cas, la vraisemblance partielle se comporte comme une véritable vraisemblance, c est-à-dire qu on peut lui appliquer la théorie asymptotique standard Cette bonne propriété dépend du choix des variables U, V Soit p arg max L p l estimateur du maximum de la vraisemblance partielle 12
Pour obtenir la consistance de p, il faut d abord vérifier que l argument maximum de la log-vraisemblance partielle, ou de son espérance E m 1 lnlvj u j,v j1 ; j1 tend bien vers lorsque m m Il faut également que la log-vraisemblance partielle converge uniformément par rapport au paramètre dans un voisinage de Ces deux conditions dépendent de la forme retenue pour L p et ne peuvent être davantage précisées dans ce cadre général Si on suppose la consistance de p, on peut montrer que cet estimateur est asymptotiquement normal (cf. polycopié) 13
4. Application au modèle de Cox Soit le modèle à hasards proportionnels suivant, valable pour tout t et tout z : t Z t 0 t. expz t Ici, le processus de covariables peut dépendre du temps On suppose que la durée d intérêt est continue et que les sorties (ou décès) ont lieu à des instants distincts: t 1... t m, avec t 0 0 14
On note: R j l ensemble des individus à risque juste avant l instant t j u j toute l histoire du processus entre les dates t j1 et t j, plus le fait qu une sortie est observée en t j v j j l indice de l individu qui sort en t j, ou encore l indice de la j-ième statistique d ordre des durées observées Alors: soit: m L p j1 Pr jsort dans l intervalle t j,t j j u 1,v 1 ;.. ;u j1, v j1 ; u j m L p j1 PrT j t j,t j j R j,, u j 15
soit encore: m L p j1 ce qui implique: PrT j t j,t j j T j t j ; PrT k t j,t j j T k t j ; kr j m L p j1 m j1 t j z j t j ; t j z k t j ; kr j 0 t j exp z j t j 0 t j exp z k t j kr j 16
donc: m L p j1 exp z j t j exp z k t j kr j Pour un échantillon de taille fixe n, incluant les données censurées à droite, et non de taille m variable comme précédemment, Andersen et Gill (1982) ont montré que, sous certaines hypothèses de régularité, l estimateur du maximum de la vraisemblance partielle de, noté p, tend en probabilité vers quand n De plus, p est asymptotiquement normal: n loi p N0, 1 n 17
On montre par ailleurs que n 1 I n tend en probabilité vers, où I n 2 lnl p p L inverse de la matrice I n fournit donc un estimateur de la variance asymptotique de p La vraisemblance partielle L p permet de construire des tests asymptotiques de l hypothèses nulle: contre H 0 : 0 H 1 : 0 comme pour une vraisemblance classique. Ainsi, la statistique du score sous l hypothèse nulle s écrit lnl n p 1 lnl I n p 0 0 0 18
Sous H 0, n tend en loi vers un chi-deux à q degrés de liberté, où dim q 5. Estimation de la survie de base S 0 Reprenons l approche par le maximum de vraisemblance en dimension infinie introduite pour l estimateur de Kaplan-Meier (au chapitre 2) Notons comme alors: D i l ensemble des indices des individus qui sortent en X i C i les indices des individus censurés dans l intervalle R i l ensemble des individus à risque à la date X i X i,x i1 19
La vraisemblance approchée s écrit alors : k L app S 0 i1 expz S 0 X l ii S 0 X ii ld i c i l i 1 expz l S 0 X i,li exp z li Par un raisonnement identique à celui utilisé dans le chapitre 2, on montre que, pour maximiser cette quantité sur l espace des fonctions de survie, toute solution doit être constante par morceaux, avec des sauts aux instants des durées complètes X i On pose alors : S 0 X i i j1 j, j 0, 1 pour tout i et j 20
Les constantes j doivent maximiser: k L app S 0 i1 ld i expz 1 l i i1 j1 j expz l i j1 j c j lj 1 exp z lj soit: k L app S 0 i1 ld i expz l 1 i k i1 i j1 expz ldi C l i j i j1 expz l ldi i 21
soit encore: k L app S 0 j1 ld j expz l 1 j expz l lr j j j expz l ld j Si on suppose connu, i est solution de l équation L app S 0 0 i soit ld i expz l expz 1 l i lr i expz l En remplaçant par un estimateur p, on peut trouver numériquement une solution i 22
Dans le cas particulier où il n existe pas d ex-aequo, D i est réduit à un singleton, et l équation précédente devient: i 1 exp z i lri expz l exp z i en notant z i la covariable relative à l individu i prise à la date X i Dans tous les cas, on estime les survies de base et conditionnelles par S 0 t i et St z ix i ix i t t i expz en remplaçant le paramètre par un estimateur consistant 23
Remarques: 1. Si z 0 pour chaque individu de l échantillon, on retrouve l estimateur de Kaplan-Meier; en effet: 1 1 n ld i 1 i i 1 m i i n i lr i 2. La fonction de hasard intégrée de base 0 s estime généralement par l estimateur dit de Breslow : 0 t i ix i t jri exp z j X i p 3. On peut estimer la fonction de hasard de base 0 en lissant l estimateur 0 t : 0 t 1 h n K t u h n 0 du 1 h n n i1 K t X i h n i jri exp z j X i p 24
6. Le modèle de Cox en temps discret Cas avec nombreux ex-aequo Supposons que les données sont regroupées en intervalles I j de la forme: I j a j1,a j si j 2,...,k avec I 1 0,a 1 et I k1 a k, Les durées exactes sont donc inconnues Seule est disponible l information sur l indice de l intervalle I j dans lequel l individu sort ou est censuré 25
Hypothèses: 1. Une durée censurée dans l intervalle I j ne peut correspondre à une sortie au cours de cet intervalle, i.e. T a j 2. Le processus zt des covariables est constant dans chaque intervalle I j et égal à z j Le modèle à hasards proportionnels s écrit ici, pour tout j : où PrT I j T a j1,z 1 1 j exp z j a j 1 j exp aj1 0 udu 26
Preuve: PrT I j T a j1,z PrT I j z PrT a j1 z Sa j1 z Sa j z Sa j1 z a j 1 exp aj1 a j 1 exp aj1 u zdu 0 u expz udu en posant: 1 1 j exp z j a j j 1 exp aj1 0 udu 27
Remarque: j PrT I j T a j1,z 0 C est la probabilité de décéder dans l intervalle I j pour un individu de référence (tel que z 0) sachant qu il n a pas encore décédé Cette quantité s assimile à un taux de hasard en temps discret Vraisemblance du modèle en temps discret : k L j1 PrT I j z l PrT a j z l ld j lc j en notant comme précédemment: D j l ensemble des indices des individus sortant dans l intervalle I j C j l ensemble des indices des individus censurés dans l intervalle I j R j l ensemble à risque dans l intervalle I j (les individus toujours présents dans l échantillon en a j1 n j cardr j et d j cardd j 28
Convention: les durées appartenant à I k1 a k, sont supposées être censurées et leur indice appartient donc à C k : on sait seulement que ces durées sont supérieures à a k Posons : j ld j PrT a j T a j1,z l Alors : j ld j 1 PrT I j T a j1,z l 1 j expzl a j ld j 29
En remarquant que et que on obtient alors: k L j1 j PrT a j z l PrT a j1 z l j PrT a j z l 1 p expz l p1 ld j Pr T I j T a j1, z l PrT a j1 z l lc j PrT a j z l 30
soit: k L j1 j 1 ld j Pr T I j T a j1, z l lc j D j PrT a j z l k j1 j 1 ld j 1 1 j expzl a j k p1 k jp 1 p expzl a p lc j D j 31
soit encore: L k j1 j 1 ld j 1 1 j expz l a j k p1 1 p expzl a p lr p k j1 ld j 1 1 j expzl a j 1 j expzl a j lr p \D j 32
En effectuant le changement de variables on obtient k lnl j1 j lnln1 j, j 1,...,k ln1 expexp j z l a j ld j exp j z l a j lr j \D j En dérivant une fois cette identité par rapport aux j et à, on obtient les équations de vraisemblance (non linéaires) On montre que les racines, de ces équations sont asymptotiquement normales, de matrice de covariances asymptotique estimée par l inverse de 2 ln L,,,, 33