Modèles pour des durées de survie.



Documents pareils
MODELES DE DUREE DE VIE

Analyse des durées de vie avec le logiciel R

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Chapitre 2 Le problème de l unicité des solutions

Modélisation aléatoire en fiabilité des logiciels

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Le modèle de Black et Scholes

Probabilités III Introduction à l évaluation d options

4. Martingales à temps discret

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

La fonction exponentielle

Moments des variables aléatoires réelles

Simulation de variables aléatoires

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

3 Approximation de solutions d équations

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Continuité et dérivabilité d une fonction

Correction de l examen de la première session

Méthodes de Simulation

Texte Agrégation limitée par diffusion interne

TSTI 2D CH X : Exemples de lois à densité 1

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

4 Distributions particulières de probabilités

Estimation et tests statistiques, TD 5. Solutions

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Théorème du point fixe - Théorème de l inversion locale

Précision d un résultat et calculs d incertitudes

PROBABILITES ET STATISTIQUE I&II

Programmes des classes préparatoires aux Grandes Ecoles

Les indices à surplus constant

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

I. Polynômes de Tchebychev

CCP PSI Mathématiques 1 : un corrigé

3. Conditionnement P (B)

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Processus aléatoires avec application en finance

Correction du Baccalauréat S Amérique du Nord mai 2007

Que faire lorsqu on considère plusieurs variables en même temps?

Variables Aléatoires. Chapitre 2

Résolution d équations non linéaires

Chapitre 0 Introduction à la cinématique

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Fonctions de plusieurs variables

Correction du baccalauréat ES/L Métropole 20 juin 2014

Limites finies en un point

Travaux dirigés d introduction aux Probabilités

M2 IAD UE MODE Notes de cours (3)

Probabilités sur un univers fini

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

CAPTEURS - CHAINES DE MESURES

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

MATHS FINANCIERES. Projet OMEGA

TABLE DES MATIERES. C Exercices complémentaires 42

Probabilités sur un univers fini

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Rappels sur les suites - Algorithme

PRIME D UNE OPTION D ACHAT OU DE VENTE

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Cours d Analyse. Fonctions de plusieurs variables

Développements limités, équivalents et calculs de limites

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Chapitre 1. L intérêt. 2. Concept d intérêt. 1. Mise en situation. Au terme de ce chapitre, vous serez en mesure de :

F411 - Courbes Paramétrées, Polaires

Espérance conditionnelle

Calcul différentiel sur R n Première partie

3. Caractéristiques et fonctions d une v.a.

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Table des matières. I Mise à niveau 11. Préface

Calcul fonctionnel holomorphe dans les algèbres de Banach

Lagrange, où λ 1 est pour la contrainte sur µ p ).

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Continuité en un point

Chapitre 3. Les distributions à deux variables

Introduction à la théorie des files d'attente. Claude Chaudet

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Complément d information concernant la fiche de concordance

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Exercices - Polynômes : corrigé. Opérations sur les polynômes

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal

Chapitre 6. Fonction réelle d une variable réelle

Baccalauréat ES Amérique du Nord 4 juin 2008

Université Paris-Dauphine DUMI2E 1ère année, Applications

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.


Le modèle de régression linéaire

Transcription:

Survie 1 Modèles pour des durées de survie. Catherine Huber Partie I Introduction 1 Quelques exemples Le terme de durée de survie est employé de manière générale pour désigner le temps qui s écoule jusqu à la survenue d un événement particulier qui n est pas forcément la mort : il peut s agir par exemple d une rechute et la durée de survie est, dans ce cas, un délai de rémission, ou de la guérison, et la durée de survie représente alors le délai qui sépare le diagnostic de la guérison. Dans le domaine biomédical, les deux objectifs principaux de l analyse des durées de survie sont les suivants: 1. Lors d un essai thérapeutique, il s agit de tester l efficacité d un nouveau traitement en comparant les durées de survie qu il permet d obtenir à celles que donne le traitement habituel (ou un placebo). 2. Lors d une étude épidémiologique, il s agit d évaluer la valeur pronostique d un ou plusieurs facteurs, soit sur la durée de survie, soit sur le délai de survenue d une maladie. Dans un cas comme dans l autre, les modèles employés et les méthodes correspondantes sont essentiellement les mêmes. Exemple 1 (Données de Freireich) : Freireich, en 1963, a fait un essai thérapeutique ayant pour but de comparer les durées de rémission, en semaines, de sujets atteints de leucémie selon qu ils ont reçu ou non du 6 M-P (le groupe témoin a reçu un placebo et l essai a été fait en double C. Huber Partie I

1 QUELQUES EXEMPLES Survie 2 aveugle). Durée de rémission, en semaines, selon le traitement: 6M-P 6, 6, 6, 6 +, 7, 9 +, 1, 1 +, 11 +, 13, 16, 17 +, 19 +, 2 +, 22, 23, 25 +, 32 +, 32 +, 34 +, 35 +. Placebo 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8, 11, 11, 12, 12, 15, 17, 22, 23. Les nombres suivis du signe + correspondent à des patients qui ont été perdus de vue àladateconsidérée. Ils sont donc exclus vivants de l étude et on sait donc seulement d eux que leur durée de survie est supérieure à celle indiquée. Par exemple, le quatrième patient traité, par 6 M-P a eu une durée de rémission supérieure à6 semaines, alors que les trois premiers ont eu une durée de rémission égale à 6 semaines. On dit que les perdus de vue ont été censurés, etceproblème de la censure demande un traitement particulier. En effet si l on se contentait d éliminer les observations incomplètes c est-à-dire les 12 patients censurés du groupe traité par le 6 M-P on perdrait beaucoup d information car on ne tiendrait pas compte des patients qui ont justement les durées de rémission les plus longues. Par exemple un test de Wilcoxon appliqué aux 9 patients restants dans le groupe 6 M-P et aux 21 patients du groupe Placebo sous-évaluerait l effet du traitement très visiblement. Exemple 2 (Données de Embury et al: leucémie) : Il s agit d un essai thérapeutique destiné à vérifier l efficacité d un traitement chimiothérapique d entretien pour des patients atteints de leucémie aiguë de la moelle épinière (AML pour Acute Myelogenous Leukemia), conduit à Stanford par Embury et al. Après avoir atteint un stade de rémission grâce à un traitement chimiothérapique, les patients ont été randomisés en deux groupes: l un reçoit un traitement chimiothérapiqe d entretien, l autre un placebo. Les durées de rémission complète, en semaines, sont les suivantes: Groupe traité: 9, 13, 13 +, 18, 23, 28 +, 31, 34, 45 +, 48, 161 + Groupe non traité: 5, 5, 8, 8, 12, 16 +, 23, 27, 3, 33, 43, 45. Exemple 3 (Données de Brown: cancer) : Il s agit de la comparaison de deux traitements contre un cancer: un essai thérapeutique a été mené chez des patients atteints de cancer, assignés aléatoirement à deux groupes, l un traité par A, l autre traité par B: Groupe A : 3 5 7 9 18 Groupe B : 12 33 + 19 2 2 + On remarque que, dans cet exemple il n y a pas d ex-aequo. En principe, le temps étant continu, il ne devrait jamais y avoir d ex-aequo. Cependant, comme la précision avec C. Huber Partie I

2 CINQ FONCTIONS ÉQUIVALENTES Survie 3 laquelle les durées sont données est limitée, l unité de mesure étant le jour, la semaine ou le mois, ou même parfois l année, en pratique, on a souvent des ex-aequo. Comme la théorie mathématique (convergence et normalité asymptotique des estimateurs et des tests), est faite pour le temps continu, il importe de savoir comment traiter ces ex-aequo. Nous verrons qu il y a plusieurs façons de le faire. Deux exemples tests (pour faire les calculs directement) : La présentation des deux jeux de données suivants est différente. C est celle qui permet un traitement mathématique et informatique des données en introduisant une variable qui est l indicateur de censure: quand la variable de censure vaut, c est qu il y a un +, et quand elle vaut 1 c est qu il n y en a pas. Exemple test 1: Dans le premier cas, on a les durées, les indicateurs de censure et les indicateurs de traitement. temps 1 1 6 6 8 9 censure 1 1 1 1 traitement 1 1 1 Exemple test 2: Dansledeuxième cas, on a comme première variable les dates de début et de fin. temps (1, 2] (2, 3] (5, 6] (2, 7] (1, 8] (7, 9] (3, 9] (4, 9] (8, 14] (8, 17] censure 1 1 1 1 1 1 1 traitement 1 1 1 1 1 2 Cinq fonctions équivalentes Cinq fonctions équivalentes définissent la loi de la durée: Supposons que la durée de survie X soit une variable positive ou nulle, et absolument continue. Alors sa loi de probabilité peut être définie par l une des fonctions suivantes: 1. La fonction de survie S Par définition S(t) =P{X t}, t ; (1) Pour t fixé c est la probabilité de survivre jusqu à l instant t. 2. La fonction de répartition F La fonction de répartition (f.r. ou c.d.f en anglais pour cumulative distribution function) est F (t) =P{X <t} =1 S(t) (2) Pour t fixé, c est la probabilité de mourir avant l instant t. C. Huber Partie I

2 CINQ FONCTIONS ÉQUIVALENTES Survie 4 Remarque Il est arbitraire de décider que S(t) =P (X t) ous(t) =P (X >t) entraînant du même coup que F (t) =1 S(t) vautf (t) =P (X <t)ouf (t) =P (X t). Lorsque la loi qui régit X est continue, cela n a aucune importance car ces deux quantités sont égales: P (X > t) = P (X t) et P (X < t) = P (X t). Cependant, dans les cas où S et donc F ont des sauts, ce qui arrive lorsque le temps est discret, compté en mois ou en semaines par exemple, on a quelquefois avantage à adopter la notation suivante qui évite toute ambiguïté: S (t) = P (X t) S + (t) =P (X >t) F (t) = P (X <t) F + (t) =P (X t) les limites à gauche (S et F )etàdroite(s + et F + ) de ces fonctions. On remarque que S S + F F + 3. La densité de probabilité f C est une fonction f(t) telle que pour tout t F (t) = t f(s)ds. (3) Si la fonction de répartition a une dérivée au point t alors P(t X<t+ dt) f(t) = lim = F (t) = S (t). (4) dt dt Pour t fixé, la densité de probabilité caractérise la probabilité demourirdansun petit intervalle de temps après l instant t. 4. Le taux d incidence ou risque instantané )h Le risque instantané est aussi très souvent appelé le taux de hasard (c est un anglicisme) est défini comme h(t) = lim dt P(t X<t+ dt X t) dt = f(t) S(t), (5) pour t fixé, caractérise la probabilité de mourir dans un petit intervalle de temps après l instant t, conditionnellement au fait d avoir survécu jusqu à l instant t. Aussi cela signifie-t-il le risque de mort instantané pour ceux qui ont survécu. 5. Le taux de hasard cumulé H C est l intégrale du taux de hasard h: H(t) = t C. Huber Partie I h(u)du = ln{s(t)}. (6)

3 LES TROIS TYPES DE CENSURE Survie 5 On peut déduire la fonction de survie du taux de hasard cumulégrâce àlarelation: S(t) =exp{ H(t)} =exp{ t h(u)du}. (7) N importe laquelle des fonctions ci-dessus peut être obtenue à partir de l une quelconque des autres. Quelques quantités associées à la loi de la survie: 1. Les quantiles de la durée de survie Pour <p<1, on définit le quantile t p et la fonction q(p) p (, 1) comme t p q(p) =inf{t : F (t) p}. (8) Quand F (t) est strictement croissante et continue alors t p = q(p) =F 1 (p), <p<1. (9) Pour p fixé, le quantile t p est le temps auquel une proportion p de la population adisparu. 2. Moyenne et variance de la durée de survie Le temps moyen de survie E(X) ainsi que sa variance Var(X) sont des quantités importantes: E(X) = S(t)dt, Var(X) =2 ts(t)dt {E(X)} 2. La moyenne et la variance peuvent être déduites de n importe laquelle des cinq fonctions ci-dessus (F, S, f, h, H), mais pas vice versa. 3 Les trois types de censure 1. Censure de type I : fixée Au lieu d observer les variables X 1,...,X n qui nous intéressent, on n observe X i que lorsque X i est inférieur ou égal à une durée fixée C, X i C, sinon on sait seulement que X i est supérieur à C. On note aussi T i = X i C. (le signe signifie : a b =min(a, b), la plus petite des deux valeurs a et b). 2. Censure de type II : attente On décide d observer les durées de survie des n patients jusqu à ce que r d entre eux soient décédés et d arrêter l étude à ce moment là. Si l on ordonne les durées de survie X 1,...,X n,soitx (1) la plus petite, X (i) la ième etc... : X (1) X (2) X (n) C. Huber Partie I

3 LES TROIS TYPES DE CENSURE Survie 6 On dit que les X (i) sont les statistiques d ordre des X i. La date de censure est alors X (r) et on observe: T (1) = X (1) T (2) = X (2) T (r) = X (r) T (r+1) = X (r)... T (n) = X (r) 3. Censure de type III : aléatoire Achaquepatienti, associons non seulement son temps de survie X i mais aussi son temps de censure C i.onn observeraévidemment que le plus petit des deux, c est-à-dire T i = X i C i Mais on peut supposer que, tout comme les Xi, les Ci sont indépendantes et équidistribuées (iid) de fonction de répartition G. On fait l hypothèse que : C i et X i sont indépendantes. Alors pour le ième patient, l information dont on dispose peut être résumée par: - la durée réellement observée T i - un indicateur D i du fait qu à l issue de cette durée d observation le patient est : - mort : D i = 1 - censuré :D i =. La censure aléatoire, lors d un essai thérapeutique peut avoir plusieurs causes: (a) Perte de vue : le patient peut décider d aller se faire soigner ailleurs et on ne le revoit plus. (b) Arrêt du traitement : le traitement peut avoir des effets secondaires si désastreux que l on est obligé d arrêter le traitement. (c) Fin de l étude : l étude se termine alors que certains des patients sont toujours vivants. patients 2 4 6 A1 A2 A3 B1 B3 B2 2 4 6 8 1 12 14 Temps C. Huber Partie I

4 LE PROCESSUS PONCTUEL N(T ) Survie 7 Figure 1: Exemple: 3 patients. La figure 1 représente le suivi de trois patients. Le premier est entré audébut de l étude et il est mort àladatex 1 =6. Ledeuxième était toujours vivant à la fin de l étude, qui a eu lieu au temps 1. Il est donc censuré ent = 1. Et le troisième patient a été perdu de vue avant la fin de l étude. Il a donc été censuré au temps t =7. Remarque : L hypothèse d indépendance de X i et de C i est utile mathématiquement. Il est important de voir si elle se justifie. Dans les cas où la censure est due àun arrêt du traitement, elle n est pas vérifiée. Notation : Par abus de notation, lorsqu on ordonne les durées de survie (T i,d i ) selon les valeurs croissantes des T soit : T (1) T (2) T (n) On notera D (i) l indicateur de censure associé à T (i). 4 le processus ponctuel N(t) L étude des durées de survie peut être abordée d une autre façon: Au lieu de considérer X, la durée étudiée, qui est une variable aléatoire réelle positive, généralement continue, de densité f, fonction de répartition F et fonction de survie S =1 F,onreprésente l expérience par le processus ponctuel associé N(t), qui vaut tant que l événement n a pas eu lieu et 1 après, c est àdire N(t) =1{X t}, t. (1) La considération de ce processus fait intervenir naturellement les deux fonctions h et H quenousavonsintroduitesenplusdef, S et f, qui sont respectivement le taux d incidence instantané ou fonction de risque, h, et la fonction de risque cumulée H h(t) = f(t) S(t) H(t) = t h(u)du. (11) Bien que chacune de ces cinq fonctions (F, S, f, h, H) caractérise à elle seule la loi de N, la plus intéressante est h car elle est une description probabiliste du futur immédiat du sujet encore vivant et reflète des différences entre les modèles souvent moins lisibles sur les fonctions de survie, ou fonctions de répartition. Remarquons que ce taux instantané de mort est déterministe, le taux cumulé H est lui aussi déterministe. C. Huber Partie I

4 LE PROCESSUS PONCTUEL N(T ) Survie 8 Figure 2: Les deux représentations de la durée de survie x. Considérons maintenant la durée de vie sous l aspect d un processus ponctuel, N(t) qui saute d une unité autempst = x lorsque la variable aléatoire X vaut x. P (dn(t) =1 N(t )=) = h(t)dt P (dn(t) =1 N(t )=1) = que l on peut aussi écrire : P (dn(t) =1 N(t )) = h(t)dt avec probabilité S(t) = avec probabilité 1 S(t). L intensité λ(t) du processus à l instant t est aléatoire: où λ(t) =Y (t)h(t) Y (t) =1{t T } est l indicateur de présence du sujet juste avant l instant t. L intensité cumulée du processus ponctuel N est elle aussi une quantité aléatoire qui vaut, en adoptant la notation usuelle min(t, X) =t X : Λ(t) = t λ(u)du = t Y (u)h(u)du = H(t X). (12) A chaque instant t et conditionnellement à l ensemble Ft des événements du passé immédiat, c est à dire ayant eu lieu jusque juste avant t, l accroissement du processus N sur un intervalle de temps infinitésimal ]t, t + dt] est une variable de Bernoulli qui vaut 1 avec la probabilité f(t) =h(t) dt et avec la probabilité q(t) =1 h(t) dt : dn(t) = 1 avec probabilité f(t) = λ(t) dt = Y (t)h(t) dt = avec probabilité q(t) =1 λ(t) dt =1 Y (t)h(t) dt. C. Huber Partie I

4 LE PROCESSUS PONCTUEL N(T ) Survie 9 Conditionnellement à F t, l espérance de dn(t) est donc λ(t) dt et sa variance est aussi λ(t) dt car pq = λ(t) dt(1 λ(t) dt) est équivalent à λ(t) dt. Exemple. Considérons l exemple le plus simple qui est celui d une durée exponentielle de paramètre θ, c est à dire dont le taux instantané est constant et vaut θ.alors, pour tout t f(t) = θe θt S(t) = e θt h(t) = θ H(t) = θt. L intensité cumulée (aléatoire) vaut: Λ(t) =θ(t X) et la différence entre le processus ponctuel N et l intensité cumulée Λ est une martingale M : N(t) Λ(t) =M(t) On appelle Λ le compensateur prévisible de N car il est déterminé parft alors que M(t) est un processus qui, conditionnellement à Ft, est d accroissement nul en moyenne : c est une martingale, E[dM(t) F t ]=E[dN(t) h(t)dt F t ]=. processus -2-1 1 2 3 4 3 2 1-1 theta t H(t) N(t) 1 2 3 M(t) 1 2 3 temps Figure 3: Les trois processus N, M et H dans le cas simple exponentiel. Exemple. Si à l exemple précédenton ajoute unecensuredroitec, c est à dire que l on observe, au lieu de X, la durée T =min(x, C),notée X C, ainsi que l indicatrice de C. Huber Partie I

4 LE PROCESSUS PONCTUEL N(T ) Survie 1 mort D =1{X C}, qui est nulle si c est la censure au lieu de la variable d intérêt qui est observée, alors l indicatrice de présence à risque du sujet est : Y (t) =1 { t X C}. Si de plus on a une troncature gauche U, c est àdirequex n est observée que si X excède U, sinon le sujet n est même pas répertorié, alors l indicatrice de présence à risque devient : Y (t) =1 {U t X C}. Notations Supposons que l on ait n patients, indexés par i =1,,n. A chaque patient correspond un indicateur Y i (t) deprésence àrisqueà l instant t et un processus ponctuel d événement N i (t), Y i (t) =1{T i t} (13) N i (t) =1{T i t, D i =1} (14) Si le taux instantané demorth i (t) dusujeti est le même pour tout i, soit h i (t) =h(t) t, (15) on a un n-échantillon. On note Y la somme des processus Y i (t) deprésence àrisque, et N la somme des processus N i (t) d événement: Y (t) = N(t) = n Y i (t). (16) i=1 n N i (t). (17) i=1 C. Huber Partie I

1 ESTIMATEUR DE NELSON-AALEN Survie 11 Partie II Sans Modèle: Approche Non Paramétrique. Si l on ne fait aucun modèle, les deux estimateurs les plus importants sont: l estimateur de Nelson-Aalen, Ĥ NA du taux de hasard cumulé, l estimateur de Kaplan-Meier ŜKM de la fonction de survie. 1 Estimateur de Nelson-Aalen du taux cumulé: 1.1 Définition Cet estimateur de H est fondé sur la remarque suivante: H(s + ds) H(s) h(s)ds = P (événement dans (s, s + ds) àrisqueens) Il est naturel d estimer cette quantité par[n(s + ds) N(s)]/Y (s). En sommant ces quantités sur les intervalles de (,t] et en faisant tendre ces intervalles vers, de telle sorte que chacun ne contienne qu un seul événement, on obtient l estimateur de Nelson-Aalen: t dn(s) Ĥ(t) = (18) Y (s) qui peut aussi s écrire, puisqu il n y a que des sauts: Ĥ(t) = {i:t i t} N(t i ) Y (t i ) où N(t i ) m(t i ) est le nombre des décès à l instant t i et Y (t i ) r(t i )lenombredes sujets à risque juste avant cet instant. L estimateur de Nelson-Aalen est une fonction en escalier qui a un saut de taille m(t i )/r(t i )à chaque instant de mort t i. On choisira donc la plus simple des trois écritures: Ĥ(t) = {i:t i t} (19) m(t i ) r(t i ). (2) car les trois équations (18), (19), (2) représentent la même quantité. Les deux premières sont utiles lorsqu on utilise l approche des durées de survie par les processus ponctuels. C. Huber Partie II

1 ESTIMATEUR DE NELSON-AALEN Survie 12 1.2 Exemple 4: les données de Nelson-Aalen Exemple N-A (Données de Nelson et Aalen) : Il s agit de la durée de vie de ventilateurs, en nombre de milliers d heure de fonctionnement. La question qui se posait était de savoir si la fonction de risque h était décroissante dans le temps. Les durées sont en milliers d heures. durées 4.5 4.6 11.5 11.5 15.6 16. 16.6 18.5 18.5 18.5 18.5 18.5 2.3 2.3 2.3 2.7 2.7 2.8 22. 3. 3. 3. 3. 31. 32. 34.5 37.5 37.5 41.5 41.5 41.5 41.5 43. 43. 43. 43. 46. 48.5 48.5 48.5 48.5 5. 5. 5. 61. 61. 61. 61. 63. 64.5 64.5 67 74.5 78. 78. 81. 81. 82. 85. 85. 85. 87.5 87.5 87.5 94. 99. 11. 11. 11. 115. censure 1 1 1 1 1 1 1 1 1 1 1 1 Si on appelle t 1 le premier instant de mort (ici: panne), t 2 le second, etc.., on calcule Ĥ(t),pourt supérieur ou égal à la plus grande valeur observée, qui est de 87 5 heures, comme Ĥ(t) = Nombre de pannes en t 1 Nombre de ventilateurs àrisqueent 1 Nombre de pannes en t + 2 Nombre de ventilateurs àrisqueent 2 +etc... = Nombre de pannes en 4.5 Nombre de ventilateurs à risque en 4.5 + + Nombre de pannes en 87.5 Nombre de ventilateurs à risque en 87.5 = 1 7 + 2 68 + + 1 8 =.3368. 1.3 Deux interprétations de l estimateur de Nelson-Aalen On peut interpréter de deux façons différentes l estimateur de Nelson-Aalen: C. Huber Partie II

1 ESTIMATEUR DE NELSON-AALEN Survie 13 1. Ĥ(t) estime le nombre moyen de pannes pour un élément unique perpétuellement à risque sur l intervalle de temps (t]. Pour l exemple des ventilateurs, cela signifie le nombre moyen de pannes attendu lorsqu on fait fonctionner un ventilateur pendant un nombre de milliers d heures égal à t en le remplaçant chaque fois qu il tombe en panne par un autre ventilateur qui a le même taux de panne instantané que celui qui a été remplacé, c est à dire qui a déjà fonctionné exactement le même nombre de milliers d heures que celui qu il remplace. (On appelle cela en fiabilité le protocole de réparation minimale ). 2. La pente de Ĥ(t) estime le risque instantané h. Leproblème posé par l estimation de h est comparable à celui de l estimation d une densité: tout comme la fonction de répartition empirique, l estimateur Ĥ(t) deh est une fonction en escalier. Il faut donc la lisser pour estimer h, qui est la pente de cette fonction. L objectif initial de l étude étaitdesedemandersilerisqueinstantanédécroît au cours du temps. Exercice 1 On fait l hypothèse que la durée de vie des ventilateurs a un risque instantané constant, égal à θ. 1. Estimer θ. 2. Tracer sur un même graphique l estimateur non-paramétrique du risque cumulé des ventilateurs. l estimateur du risque cumulé sous l hypothèse que la durée de vie suit une loi exponentielle. 1.4 Estimation de la variance de l estimateur de Nelson-Aalen L accroissement t N(t) =N(t + t ) N(t), qui est le nombre des événements dans un court intervalle de temps t suit approximativement une loi de Poisson de paramètre h(t)t. Or, pour une variable aléatoire de Poisson, le nombre moyen des événements est le produit du taux par le temps et par le nombre à risque. Conditionnellement au passé, t N(t) est de Poisson de moyenne et de variance toutes les deux égales à Donc t+t t Y (s)h(s)ds Y (t)h(t)t. Var [ t N(t) ] h(t)t Y (t) Y (t) C. Huber Partie II

2 ESTIMATION DE S Survie 14 qui peut être estimée par Var t N(s) Y (s) = t N(s) Y 2 (s) ce qui donne finalement pour estimateur de la variance de Ĥ(t): Var [Ĥ(t]] = N(t i ) i:t i t Y 2 (t i ). (21) qui peut s écrire aussi, en utilisant la notation simplifiée précédente (m(t i )etr(t i )pour les nombres de décès et de sujets àrisqueà l instant t i ): Var [Ĥ(t]] = m(t i ) (22) r 2 (t i ) i:t i t Exemple des durées de rémission de Freireich pour 6-MP: Rechutes Durées t terme Ĥ(t) σ(ĥ(t)) 1-2-3 6 3/21.143 2.571 5 7 1/17.21 3.512 7 1 1/15.268 4.446 1 13 1/12.351 5.362 11 16 1/11.442 6.271 15 22 1/7.585 7.129 16 23 1/6.752 7.962 Exercice 2: Calculer l estimateur de Nelson-Aalen du risque cumulépourlesventilateursdenelson- Aalen et tracer la courbe correspondante en fonction du temps. Faire de même pour les données d Embury et celles de Brown. Exercice 3: Démontrer que l estimateur de Nelson-Aalen du risque cumulé alapropriété suivante: n n Ĥ(T i )= N i. i=1 i=1 2 Estimation de la fonction de survie Si l on ne peut pas supposer a priori que la loi de la durée de survie obéit àunmodèle paramétrique, on peut estimer la fonction de survie S grâce à plusieurs méthodes non-paramétriques dont la plus intéressante est celle de Kaplan-Meier. Nous allons cependant donner d abord l estimateur de Harrington et Fleming car il se déduit immédiatement de l estimation du taux cumulé. C. Huber Partie II

2 ESTIMATION DE S Survie 15 2.1 Estimateur de Harrington et Fleming de S:ŜHF C est l estimateur qui découle de l estimateur de Nelson-Aalen du risque cumulé H en utilisant la relation S = exp( H): Ŝ HF =exp( Ĥ NA ) (23) Grâce à la delta-méthode,on rappelle que, sous des conditions de régularité de la fonction f, Var (f(y )) f 2 (E(Y ))Var (Y )), on peut obtenir un estimateur de la variance de cet estimateur:ici la fonction f est l exponentielle, de dérivée f = f et donc Var (Ŝ) =Ŝ2 Var (Ĥ) Var S NA (t) =exp( 2 i m(t i ) r(t i ) ) i m(t i ) r(t i ) 2. (24) 2.2 Estimateur de Kaplan-Meier de S:ŜKM Cet estimateur est aussi appelé P-L (Produit-Limite) car il s obtient comme la limite d un produit. Il est fondé sur la remarque suivante : si t <t, la probabilité de survivre au-delà de l instant t est égale au produit suivant : S(t + )=P (X >t X >t ).S(t ). Si l on renouvelle l opération en choisissant une date t antérieure à t,onaurade même S(t )=P (X >t X>t )S(t ), et ainsi de suite. Si l on choisit pour les dates où l on conditionne celles où il s est produit un événement, qu il s agisse d une mort ou d une censure, on aura seulement à estimer des quantités de la forme : P (X >T (i) X>T (i 1) )=p i. Or p i est la probabilité de survivre pendant l intervalle de temps I i =]T (i 1) T i ] quand on était vivant au début de cet intervalle. Notant, comme précédemment, R i le nombre des sujets qui sont vivants (donc à risque de mourir) juste avant l instant T (i), ce qui peut aussi s écrire: #vivantsà l instant T (i) ou #sujetsder(t (i) )endésignant par R(t) l ensemble des sujets àrisqueà l instant t. et M i le nombre des morts à l instant T (i), q i =1 p i est la probabilité demourir pendant l intervalle I i sachant que l on était vivant au début de cet intervalle. Alors l estimateur naturel de q i est q i = M i R i. C. Huber Partie II

2 ESTIMATION DE S Survie 16 Supposons qu il n y ait pas d ex-aequo. Si D (i) = 1, c est qu il y a eu un mort en T (i) et donc M i =1. SiD (i) =, c est qu il y a eu une censure en T (i) et donc M i =. Par suite p i = 1 1 R i en cas de mort en T (i) = 1 en cas de censure car il est clair que R i = n i + 1. L estimateur de Kaplan-Meier est donc dans ce cas : Ŝ(t) = 1 (1 n i +1 )D (i). (25) T (i) t Exemple 5: cancer des bronches Sur 1 patients atteints de cancer des bronches on a observé les durées de survie suivantes, exprimées en mois: 1 3 4 + 5 7 + 8 9 1 + 11 13 + L estimateur de Kaplan-Meier de la fonction de survie S(t) se calcule de la manière suivante: temps R i m i Survie Intervalle 1 1 [ 1[ 1 1 1.9 [1 3[ 3 9 1.8 [3 5[ 5 7 1.686 [5 8[ 8 5 1.549 [8 9[ 9 4 1.411 [9 11[ 11 2 1.26 Exercice 4 Comparer cet estimateur de la survie à celui de Fleming et Harrington. Dans cet exemple, il n y a pas d ex-aequo. Cependant la plupart du temps il y en a, comme dans le premier exemple qui est celui des données de Freireich. 2.3 Traitement des ex-aequo Il y a plusieurs configurations possibles pour les ex-aequo: 1. Si ces ex-aequo sont des deux sortes, on considère que les observations non censurées ont lieu juste avant les censurées. 2. Si ces ex-aequo sont tous des morts, la seule différence tient àcequem i n est plus égal à 1 mais au nombre des morts et l estimateur de Kaplan-Meier devient: Ŝ(t) = (1 M i ). (26) R i T (i) t C. Huber Partie II

2 ESTIMATION DE S Survie 17 survie..2.4.6.8 1. 2 4 6 8 1 12 temps Figure 4: Estimateur de Kaplan-Meier de la fonction de survie pour le cancer des bronches C. Huber Partie II

2 ESTIMATION DE S Survie 18 Exercice 5 Calculer l estimateur de Kaplan-Meier de la survie pour les données de Freireich, séparément pour le groupe traité et pour le placebo. Comparer cet estimateur à celui de Fleming et Harrington. 2.4 Estimateur de Breslow du risque cumulé H:ĤBr On peut estimer H à partir de l estimateur de Kaplan-Meier de S en utilisant le fait que H = log(s): Ĥ Br = log(ŝkm). (27) ce qui donne Ĥ Br = log(1 q i ). (28) i:t (i) t Pour estimer la variance de cette somme, on remarque que la variance de chaque terme vaut en première approximation p i q i r i (1 q i = m i(r i m i )r 2 ) 2 i ri 3(r i m i ) 2 m = i r i (r i m i ) De plus, si les q i étaient indépendants, la variance de la somme serait égale àlasomme des variances. Cela donne pour variance de l estimateur de Breslow: Var (Ĥ(t)) = m i r i (r i m i ). (29) i:t (i) t 2.5 Estimateur de Greenwood de la variance de ŜKM: L estimateur de Greenwood de la variance de l estimateur de Kaplan-Meier de la fonction de survie est obtenu à partir de la précédente log(ŝkm(t)) = log(1 q i ) i:t (i) t Cela donne, en employant la delta-méthode qui consiste àconsidérer que si X est approximativement égal à µ + σz,où Z est centré etréduit et σ petit : Var (f(x)) = Var (f(µ + σz)) = Var(f(µ)+σZf (µ)) = σ 2 f (µ) 2,avecf =log: Var (log(ŝ(t))) i:t (i) t C. Huber Partie II m i r i (r i m i ) Var (Ŝ(t)) 1 Ŝ(t) 2

2 ESTIMATION DE S Survie 19 ce qui donne finalement pour variance de Ŝ(t) Var (Ŝ(t)) = Ŝ(t)2 i:t (i) t m i r i (r i m i ). (3) Remarque Nous avons donc deux estimateurs du risque cumulé. On peut démontrer qu ils sont équivalents, et que les estimateurs de leur variance le sont aussi. En fait il existe trois estimateurs de la variance Variance de Greenwood: m(t) Variance de Tsiatis: Variance de Klein: r(t)(r(t) m(t)) m(t) r(t) 2 m(t)(r(t) m(t)) r(t)(r(t)) 3 Nous avons rencontré les deux premiers. Exercice Justifier heuristiquement le troisième estimateur de la variance. C. Huber Partie II

2 DÉFINITION D UNE MARTINGALE Survie 2 Partie III Processus Ponctuels. 1 Modélisation du processus ponctuel: l histoire ou filtration F t Considérons maintenant la durée de vie sous l aspect d un processus ponctuel, N(t) qui saute d une unité autempst = x lorsque la variable aléatoire X vaut x. Pour faire un modèle statistique, on doit préciser sur quelle information il est fondé. Pour un processus de comptage, cela est fait en spécifiant l histoire, souvent appelée filtration, etnotée {F t,t }. Un choix naturel pour {F t,t } est l histoire de l expérience depuis le début (le temps ) jusqu à l instant t inclus. Quand on a un n- échantillon, il faut cependant remarquer que, en fait, ce n est pas le temps chronologique qui est utilisé. En effet, chaque patient a un temps qui est celui du début de la durée qui le concerne. On réaligne donc les processus àrisquey i et de comptage N i sur une origine commune des temps. Jusqu à présent, nous avons supposé que nous avions unéchantillon de patients expérimentant la même loi de durée de survie, donc le mêmerisquecumulé H que nous avons estimé par Nelson-Aalen. Mais il se peut que le risque instantané ne soit pas le même d un individu à l autre car il peut dépendre de certaines caractéristiques du sujet; il peut s agir par exemple de taux biologiques, de traits génétiques ou de conditions environnementales du sujet. On appelle ces caractéristiques des covariables. On modélise alors l effet de ces différentes covariables sur le risque h. 2 Définition d une martingale 2.1 Sommes de variables aléatoires indépendantes: A l origine, les martingales ont été inventées pour généraliser les sommes de variables aléatoires indépendantes et centrées. Supposons que nous ayons une somme de variables aléatoires indépendantes X 1,X 2,..., X k,...,, soits n = n k=1 X k. Alors, on a des théorèmes sur la limite de ces sommes, convenablement normées quand n tend vers l infini : lois des grands nombres (convergence en probabilité oupresquesûre vers un nombre) etthéorèmes limites centraux (approximations normales). Sans restriction de la généralité, on peut supposer que ces variables sont centrées: E(X k ) = pour tout k. Donc on suppose que X 1,X 2,..., X k,..., sont indépendantes et centrées. C. Huber Partie III

2 DÉFINITION D UNE MARTINGALE Survie 21 Alors on a, pour tout n, les trois propriétés suivantes E(X n+1 X 1,X 2,..., X n ) = E(X n+1 ) = E(X n+1 S 1,S 2,..., S n ) = E(S n+1 S 1,S 2,..., S n ) = E(S n + X n+1 S 1,S 2,..., S n ) = S n. (M) 2.2 Définition Définition 1 Lorsque une suite S 1,S 2,..., S n, de variables aléatoires vérifie la propriété, (M) E(S n+1 S 1,S 2,..., S n )=S n, pour tout n. on dit que la suite S 1,S 2,..., S n, est une martingale. Une définition équivalente de la propriété de martingale est la suivante : Définition 2 Un processus (M 1,M 2,..., M n, ) est une martingale à temps discret si pour tout n IN E( M n ) < E[M n+1 F n ] = M n, (M) où F n = σ{m 1,M 2,..., M n } est la tribu du passé jusqu à l instant n, quicroît avec n. Remarque : Si (M) est satisfaite, alors E[M n F k ]=M k pour tous les entiers k<ncar E[M n F k ]= E[E[M n F n 1 ] F k ],cequidonne,deprocheenproche,lerésultat. Définition 3 : Un processus M t est une martingale à temps continu si E( M t ) <, t IR et si de plus Remarques: (M) E[M t F s ]=M s, pour tous <s<t. (31) 1. Une propriété équivalente à(m) est:pourtous<t 1 <t 2 <...<t n+1, E[M tn+1 M t1,...,m tn ]=M tn. 2. La propriété de martingale (M)a pour conséquence que l espérance de l accroissement est nulle, ce qui s écrit : E[M t M s F s ] = pour tous <s<t. ou encore dans sa version infinitésimale : (M ) E[dM t F t ]=. C. Huber Partie III