CHAPITRE 4 : Le modèle de Cox 1. Approche par la régression

Documents pareils
Continuité et dérivabilité d une fonction

Probabilités sur un univers fini

Probabilités III Introduction à l évaluation d options

Comparaison de fonctions Développements limités. Chapitre 10

Probabilités sur un univers fini

Le modèle de Black et Scholes

MODELES DE DUREE DE VIE

3 Approximation de solutions d équations

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Les indices à surplus constant

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Limites finies en un point

Fonctions de plusieurs variables

Méthodes de Simulation

Analyse des durées de vie avec le logiciel R

Quantification Scalaire et Prédictive

Chapitre 2 Le problème de l unicité des solutions

Exercices - Nombres complexes : corrigé. Formes algébriques et trigonométriques, module et argument

Simulation de variables aléatoires

Correction de l examen de la première session

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Chapitre 3. Les distributions à deux variables

Chapitre 1. L intérêt. 2. Concept d intérêt. 1. Mise en situation. Au terme de ce chapitre, vous serez en mesure de :

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Modélisation aléatoire en fiabilité des logiciels

EXERCICE 4 (7 points ) (Commun à tous les candidats)

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Chapitre 7 : Intégration sur un intervalle quelconque

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Correction du Baccalauréat S Amérique du Nord mai 2007

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

TABLE DES MATIERES. C Exercices complémentaires 42

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Commun à tous les candidats

Exo7. Limites de fonctions. 1 Théorie. 2 Calculs

Données longitudinales et modèles de survie

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Amphi 3: Espaces complets - Applications linéaires continues

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Texte Agrégation limitée par diffusion interne

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

La mesure de Lebesgue sur la droite réelle

Théorème du point fixe - Théorème de l inversion locale

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Programmes des classes préparatoires aux Grandes Ecoles

Fiche PanaMaths Calculs avec les fonctions sous Xcas

1 Systèmes triphasés symétriques

Dérivation : cours. Dérivation dans R

Modélisation des risques

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

MCMC et approximations en champ moyen pour les modèles de Markov

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

I. Polynômes de Tchebychev

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Calcul différentiel sur R n Première partie

VI. Tests non paramétriques sur un échantillon

Correction du baccalauréat S Liban juin 2007

Suites numériques 4. 1 Autres recettes pour calculer les limites

Planche n o 22. Fonctions de plusieurs variables. Corrigé

CAPTEURS - CHAINES DE MESURES

PROBABILITES ET STATISTIQUE I&II

Développements limités, équivalents et calculs de limites

Suites numériques 3. 1 Convergence et limite d une suite

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

Continuité en un point

Moments des variables aléatoires réelles

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Premier ordre Expression de la fonction de transfert : H(p) = K

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Fibonacci et les paquerettes

ÉVALUATION FORMATIVE. On considère le circuit électrique RC représenté ci-dessous où R et C sont des constantes strictement positives.

SYSTEMES LINEAIRES DU PREMIER ORDRE

aux différences est appelé équation aux différences d ordre n en forme normale.

Sur certaines séries entières particulières

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Image d un intervalle par une fonction continue

Chapitre VI - Méthodes de factorisation

INTRODUCTION. 1 k 2. k=1

Variables Aléatoires. Chapitre 2

Chapitre 1 Régime transitoire dans les systèmes physiques

Travaux dirigés d introduction aux Probabilités

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Théorie de l estimation et de la décision statistique

Fonctions Analytiques

Introduction à la statistique non paramétrique

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

= 1 si n = m& où n et m sont souvent des indices entiers, par exemple, n, m = 0, 1, 2, 3, 4... En fait,! n m

Projet Etienne Marceau Méthodes statistiques en assurance non vie

Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies

Résolution de systèmes linéaires par des méthodes directes

COURS CALCULS FINANCIERS STATISTIQUE

Continuité d une fonction de plusieurs variables

Analyse des Systèmes Asservis

NON-LINEARITE ET RESEAUX NEURONAUX

Transcription:

CHAPITRE 4 : Le modèle de Cox 1. Approche par la régression Le modèle de Cox est un modèle à hasards proportionnels de la forme: t Z 0 t. expz où la fonction 0 t n est pas spécifiée paramétriquement Lorsque la k-ième covariable est continue, le k-ième coefficient de vérifie pour tout t: k lnt z Z k 1

Donc k mesure l élasticité du taux de hasard par rapport à la k-ième covariable Z k qui est supposée ne pas varier dans le temps Le modèle de Cox peut se ré-écrire sous forme linéaire: où W suit une loi de Gumbel ln 0 t Z Z W La théorie classique des MCO ne peut s appliquer ici parce que: la loi de W n est pas centrée : où est la constante d Euler, et EW 0. 5772 varw 2 /6 on ne connaît pas en général 0 on observe en général des données non complètes 2

Le premier obstacle peut être levé en posant: W W où W est une variable centrée. On modifie le paramètre en introduisant une composante égale à 1 pour capter la constante Si on connaît 0 et si les données sont complètes, i.e. si on dispose d un échantillon i.i.d. T i,z i i1,...,n, on peut estimer le paramètre par la procédure classique des moindres carrés Si R p et si Z i R p, alors n n Z i Z i1 i 1 n i1 Z i ln 0 T i 3

En présence de données complètes, une procédure de moindres carrés non linéaires du type arg min 0 X i exp Z i1 i fournit également un estimateur convergent de n 2 2. Estimation paramétrique Supposons que l on connaisse 0, éventuellement à un paramètre de dimension finie près La log-vraisemblance s écrit: n i1 i lnfx i Z i 1 i lnsx i Z i 4

soit lnl n i1 n n i lnx i Z i lnsx i Z i i Z i1 i ln 0 X i expz i 0 X i d où la fonction score: lnl n n Z i i expz i1 i 0 X i où n i1 Z i expz i r i r i 0 X i i expz i Dans le cas d un modèle sans censure ( i 1 pour tout i), r i serait le résidu théorique du modèle, c est-à-dire r i 0 X i expz i 5

On appelle les r i les résidus généralisés L EMV de, noté, est donc racine de l équation exprimant l orthogonalité entre les résidus et une fonction des covariables: n i1 Z i expz i r i 0 En dérivant une seconde fois lnl n, on obtient l information de Fisher I n E 2 lnl Z n Z i Z i1 i expz i.e 0 X i Z i La quantité E 0 X i Z i est peu maniable car elle fait intervenir explicitement la loi de C. Mais comme 0 est croissante, E 0 X i Z i E 0 T i Z i 6

De plus, lorsque lim u 0 u E 0 T i Z i 0 tst Z i dt Z i expz i t Z i expt Z i dt Z i expz i Donc pour tout i, il existe un facteur i 0, 1 tel que On a alors E 0 X i Z i expz i i n I n i1 Z i Z i i 7

En l absence de censure, l information de Fisher correspondant au modèle latent I n serait n I n i1 n Z i Z i i1 n Z i Z i i i1 Z i Z i 1 i I n I n I n Le fait d avoir des observations censurées introduit une perte d information qui s exprime par la présence de la matrice positive I n Cette diminution de l information de Fisher a pour conséquence l accroissement de la borne de Cramer-Rao pour l estimation de La théorie usuelle des tests asymptotiques peut être utilisée avec lnl n et son maximisateur : tests de Wald, du score, du rapport des vraisemblances, etc., pour tester la nullité de certains éléments de 8

3. Vraisemblance partielle Soit un couple U,V de v.a. admettant des fonctions de densité marginale f u et conditionnelle f u Vv. v Supposons que l on observe un échantillon de réalisations u i, v i i1,...m qui ne sont a priori ni indépendantes, ni identiquement distribuées Vraisemblance des observations: Lu 1,v 1 ;... ;u n,v n Lu 1,v 1.Lu 2,v 2 ;... ;u m, v m u 1, v 1 m j1 où u j u 1,...,u j et v j v 1,...,v j Lu j,v j u j1, v j1 9

On peut alors écrire: Lu 1,v 1 ;... ;u n,v n j1 Le second terme L p u 1,v 1 ;... ;u n,v n j1 m Lu j u j1,v j1 Lv j u j,v j1 m Lv j u j,v j1 est appelée vraisemblance partielle de v dans u,v Lorsque toutes les lois conditionnelles admettent des densités, la vraisemblance partielle s écrit L p u 1,v 1 ;... ;u n,v n j1 m f Vj U j,v j1v j u j,v j1 10

En général, la vraisemblance partielle n est ni une vraisemblance totale, ni une vraisemblance conditionnelle (vraisemblance des observations conditionnellement à d autres variables considérées alors comme fixes). Dans certains cas, on peut utiliser L p comme s il s agissait de la vraisemblance totale des observations La méthode divise l information présente dans la vraisemblance en deux parties: l information pertinente pour estimer les paramètres du modèle et un bruit que l on peut négliger (ce bruit est ici apporté par U Pour pouvoir résumer la vraisemblance totale par la vraisemblance partielle, il faut que la partie bruitée ne fasse pas intervenir les paramètres que l on cherche à estimer 11

Notons toutefois que ces derniers apparaissent dans la partie m j1 via le conditionnement par v j1 Lu j u j1,v j1 Mais, dans bien des cas, la vraisemblance partielle se comporte comme une véritable vraisemblance, c est-à-dire qu on peut lui appliquer la théorie asymptotique standard Cette bonne propriété dépend du choix des variables U, V Soit p arg max L p l estimateur du maximum de la vraisemblance partielle 12

Pour obtenir la consistance de p, il faut d abord vérifier que l argument maximum de la log-vraisemblance partielle, ou de son espérance E m 1 lnlvj u j,v j1 ; j1 tend bien vers lorsque m m Il faut également que la log-vraisemblance partielle converge uniformément par rapport au paramètre dans un voisinage de Ces deux conditions dépendent de la forme retenue pour L p et ne peuvent être davantage précisées dans ce cadre général Si on suppose la consistance de p, on peut montrer que cet estimateur est asymptotiquement normal (cf. polycopié) 13

4. Application au modèle de Cox Soit le modèle à hasards proportionnels suivant, valable pour tout t et tout z : t Z t 0 t. expz t Ici, le processus de covariables peut dépendre du temps On suppose que la durée d intérêt est continue et que les sorties (ou décès) ont lieu à des instants distincts: t 1... t m, avec t 0 0 14

On note: R j l ensemble des individus à risque juste avant l instant t j u j toute l histoire du processus entre les dates t j1 et t j, plus le fait qu une sortie est observée en t j v j j l indice de l individu qui sort en t j, ou encore l indice de la j-ième statistique d ordre des durées observées Alors: soit: m L p j1 Pr jsort dans l intervalle t j,t j j u 1,v 1 ;.. ;u j1, v j1 ; u j m L p j1 PrT j t j,t j j R j,, u j 15

soit encore: m L p j1 ce qui implique: PrT j t j,t j j T j t j ; PrT k t j,t j j T k t j ; kr j m L p j1 m j1 t j z j t j ; t j z k t j ; kr j 0 t j exp z j t j 0 t j exp z k t j kr j 16

donc: m L p j1 exp z j t j exp z k t j kr j Pour un échantillon de taille fixe n, incluant les données censurées à droite, et non de taille m variable comme précédemment, Andersen et Gill (1982) ont montré que, sous certaines hypothèses de régularité, l estimateur du maximum de la vraisemblance partielle de, noté p, tend en probabilité vers quand n De plus, p est asymptotiquement normal: n loi p N0, 1 n 17

On montre par ailleurs que n 1 I n tend en probabilité vers, où I n 2 lnl p p L inverse de la matrice I n fournit donc un estimateur de la variance asymptotique de p La vraisemblance partielle L p permet de construire des tests asymptotiques de l hypothèses nulle: contre H 0 : 0 H 1 : 0 comme pour une vraisemblance classique. Ainsi, la statistique du score sous l hypothèse nulle s écrit lnl n p 1 lnl I n p 0 0 0 18

Sous H 0, n tend en loi vers un chi-deux à q degrés de liberté, où dim q 5. Estimation de la survie de base S 0 Reprenons l approche par le maximum de vraisemblance en dimension infinie introduite pour l estimateur de Kaplan-Meier (au chapitre 2) Notons comme alors: D i l ensemble des indices des individus qui sortent en X i C i les indices des individus censurés dans l intervalle R i l ensemble des individus à risque à la date X i X i,x i1 19

La vraisemblance approchée s écrit alors : k L app S 0 i1 expz S 0 X l ii S 0 X ii ld i c i l i 1 expz l S 0 X i,li exp z li Par un raisonnement identique à celui utilisé dans le chapitre 2, on montre que, pour maximiser cette quantité sur l espace des fonctions de survie, toute solution doit être constante par morceaux, avec des sauts aux instants des durées complètes X i On pose alors : S 0 X i i j1 j, j 0, 1 pour tout i et j 20

Les constantes j doivent maximiser: k L app S 0 i1 ld i expz 1 l i i1 j1 j expz l i j1 j c j lj 1 exp z lj soit: k L app S 0 i1 ld i expz l 1 i k i1 i j1 expz ldi C l i j i j1 expz l ldi i 21

soit encore: k L app S 0 j1 ld j expz l 1 j expz l lr j j j expz l ld j Si on suppose connu, i est solution de l équation L app S 0 0 i soit ld i expz l expz 1 l i lr i expz l En remplaçant par un estimateur p, on peut trouver numériquement une solution i 22

Dans le cas particulier où il n existe pas d ex-aequo, D i est réduit à un singleton, et l équation précédente devient: i 1 exp z i lri expz l exp z i en notant z i la covariable relative à l individu i prise à la date X i Dans tous les cas, on estime les survies de base et conditionnelles par S 0 t i et St z ix i ix i t t i expz en remplaçant le paramètre par un estimateur consistant 23

Remarques: 1. Si z 0 pour chaque individu de l échantillon, on retrouve l estimateur de Kaplan-Meier; en effet: 1 1 n ld i 1 i i 1 m i i n i lr i 2. La fonction de hasard intégrée de base 0 s estime généralement par l estimateur dit de Breslow : 0 t i ix i t jri exp z j X i p 3. On peut estimer la fonction de hasard de base 0 en lissant l estimateur 0 t : 0 t 1 h n K t u h n 0 du 1 h n n i1 K t X i h n i jri exp z j X i p 24

6. Le modèle de Cox en temps discret Cas avec nombreux ex-aequo Supposons que les données sont regroupées en intervalles I j de la forme: I j a j1,a j si j 2,...,k avec I 1 0,a 1 et I k1 a k, Les durées exactes sont donc inconnues Seule est disponible l information sur l indice de l intervalle I j dans lequel l individu sort ou est censuré 25

Hypothèses: 1. Une durée censurée dans l intervalle I j ne peut correspondre à une sortie au cours de cet intervalle, i.e. T a j 2. Le processus zt des covariables est constant dans chaque intervalle I j et égal à z j Le modèle à hasards proportionnels s écrit ici, pour tout j : où PrT I j T a j1,z 1 1 j exp z j a j 1 j exp aj1 0 udu 26

Preuve: PrT I j T a j1,z PrT I j z PrT a j1 z Sa j1 z Sa j z Sa j1 z a j 1 exp aj1 a j 1 exp aj1 u zdu 0 u expz udu en posant: 1 1 j exp z j a j j 1 exp aj1 0 udu 27

Remarque: j PrT I j T a j1,z 0 C est la probabilité de décéder dans l intervalle I j pour un individu de référence (tel que z 0) sachant qu il n a pas encore décédé Cette quantité s assimile à un taux de hasard en temps discret Vraisemblance du modèle en temps discret : k L j1 PrT I j z l PrT a j z l ld j lc j en notant comme précédemment: D j l ensemble des indices des individus sortant dans l intervalle I j C j l ensemble des indices des individus censurés dans l intervalle I j R j l ensemble à risque dans l intervalle I j (les individus toujours présents dans l échantillon en a j1 n j cardr j et d j cardd j 28

Convention: les durées appartenant à I k1 a k, sont supposées être censurées et leur indice appartient donc à C k : on sait seulement que ces durées sont supérieures à a k Posons : j ld j PrT a j T a j1,z l Alors : j ld j 1 PrT I j T a j1,z l 1 j expzl a j ld j 29

En remarquant que et que on obtient alors: k L j1 j PrT a j z l PrT a j1 z l j PrT a j z l 1 p expz l p1 ld j Pr T I j T a j1, z l PrT a j1 z l lc j PrT a j z l 30

soit: k L j1 j 1 ld j Pr T I j T a j1, z l lc j D j PrT a j z l k j1 j 1 ld j 1 1 j expzl a j k p1 k jp 1 p expzl a p lc j D j 31

soit encore: L k j1 j 1 ld j 1 1 j expz l a j k p1 1 p expzl a p lr p k j1 ld j 1 1 j expzl a j 1 j expzl a j lr p \D j 32

En effectuant le changement de variables on obtient k lnl j1 j lnln1 j, j 1,...,k ln1 expexp j z l a j ld j exp j z l a j lr j \D j En dérivant une fois cette identité par rapport aux j et à, on obtient les équations de vraisemblance (non linéaires) On montre que les racines, de ces équations sont asymptotiquement normales, de matrice de covariances asymptotique estimée par l inverse de 2 ln L,,,, 33