Prise en compte de la censure informative dans l analyse de survie et application à l asthme. Christel CASTELLI & Philippe SAINT-PIERRE & Pr. Jean-Pierre DAURES Institut Universitaire de Recherche Clinique, 641 av du Doyen Gaston Giraud 34093 Montpellier cedex 5 RÉSUMÉ Dans les études épidémiologiques, des analyses de survie sont souvent réalisées afin de mieux comprendre l apparition d un événement. Les données ont la particularité d être incomplètes à cause des différents phénomènes de censure, et notamment la censure à droite (perdus de vue, exclus vivants...). Les méthodes traditionnelles reposent sur l hypothèse d indépendance entre la censure et l événement étudié, ce qui peut être source de biais quand celle-ci n est pas réalisée. La méthode IPCW adapte les estimateurs de Kaplan- Meier et de la vraisemblance partielle de Cox au cas de censures non indépendantes. De ce fait, l information issue de la censure est utilisée pour modifier la contribution des individus dans les estimateurs. Cette méthode est appliquée dans le cas de l asthme où les thérapeutes pensent que les patients perdus de vue sont des patients qui se portent bien et ne ressentent pas le besoin d aller consulter. La censure dans ce contexte semble donc informative. MOTS-CLES Modèle de Cox à risque proportionnel, censure Informative, analyse de survie, poids, asthme, covariables temps-dépendantes ABSTRACT In epidemiological studies, survey analysis are often realized in order to understand the appearance (arrival) of an event. Data have the characteristic to be incomplete because of the phenomenon of censoring, especially right censoring (lost to follow-up, end to follow-up...). Traditionnal methods make the assumption of the independance between the censoring and the event studied. This assumption can induce bias in estimation if it s not verified. IPCW method adapt the Kaplan-Meier and the Cox partial likelihood estimators for non independent censoring. All the censoring information is used to modify (change) the contribution of individual in the estimators. This method is applied in the case of asthma where clinician think that the patient lost to follow-up se portent bien (are fine?) and don t need to consult. The censoring in this context seems to be informative. KEYWORDS Cox proportional hazards model, Informative censoring, survival analysis, weights, asthma, time-dependent covariates 1
1 Introduction La difficulté dans les bases observationnelles est qu elles sont souvent incomplètes à cause de l irrégularité des visites. Les patients exclus vivants (en vie à la date de point), décédés pour cause de risques compétitifs sont aussi des patients censurés (à droite). On rencontre également des censures à gauche ou par intervalle mais elles sont étudiées moins souvent. Il est raisonnable de penser que la censure issue des patients exclus vivants (gel de la base) et décédés pour risques compétitifs, est indépendante de l événement d intérêt puisqu il n y a apparemment pas de lien avec celui-ci. Par contre, dans bien des cas, les perdus de vue sont des censures informatives. Les méthodes statistiques pour données de survie doivent alors tenir compte des données censurées. Dans les analyses de survie traditionnelles, la censure est dite non informative, puisque quand elle se produit, elle n apporte aucune information sur l événement étudié. L information issue des patients perdus de vue est donc ignorée. Pourtant, les perdus de vue représentent une perte d information et sont source de biais. Dans le cas de patients atteints du VIH pour lequel les traitements sont lourds, les perdus de vue sont souvent les plus malades, ceux qui sont les moins compliants car leur état de santé est mauvais. Ainsi, un grand nombre d individus des bases observationnelles est censuré et une part importante de ces censures est a priori informative. Dans ce contexte de censure dépendante, l utilisation des méthodes traditionnelles conduirait à introduire un biais dans l estimation de la fonction de survie. Une alternative est l utilisation de la méthode IPCW (Inverse Probability Censoring Weighted), souvent citée dans la littérature (Rotnitzky(2003)) qui ajuste le modèle de Cox pour la censure sur les facteurs de risque d événement et de censure. La particularité de la méthode est qu elle repose sur l hypothèse de dépendance entre la censure et l événement. 2 Méthode 2.1 Hypothèses L hypothèse fondamentale de la méthode est que le risque de censure au temps t ne dépend plus du possible temps d événement non observé T. L hypothèse (1) signifie que la connaissance temporelle des covariables apportent suffisamment d information pour que l on puisse se passer de celle de T. Soit λ C le risque de censure: λ C (t V(t), T, T > t) = λ C (t V(t), T > t). (1) V(t) = {V(x); 0 x t} est l histoire des covariables entre 0 et t. Il est important pour que (1) soit vérifiée de disposer d un nombre suffisant de variables dans V(t) et d utiliser le concept de variable Coarsened At Random (CAR) introduit par Heitjan (1991). En effet, si ( V(T ), T ) sont CAR alors: λ C (t V(T ), T, T > t) = λ C (t V(t), T > t). (2) 2
La notion de Coarsening At Random implique que les valeurs des covariables ne varient plus entre le temps t où on veut calculer le risque de censure et le temps T où se serait produit l évènement si le sujet n avait pas été censuré. La validité de l hypothèse de censure indépendante se vérifie en modélisant le risque de censure par un modèle de Cox et en testant la significativité des coefficients de régression associés à V(t). 2.2 Etude du risque de censure Si l hypothèse (1) est vérifiée, le risque de censure en fonction des covariables V(t) prédisant l événement, peut être étudié. On pose pour chaque individu (k = 1,..., n): λ C (t V(t), T > t) = λ 0 (t) exp(α T V(t)). (3) X k = min(t k, C k ) : X k est le temps d événement T ou le temps de censure C qui se produit en premier. Y k (u) = 11 {Xk u} : vaut 1 si l individu k est à risque (non censuré), 0 sinon. τ k = 11 {Tk =X k } : vaut 1 si l individu k subit l événement et 0 s il est censuré. V k (u) les covariables au temps u associées à l individu k. ( V k (T k ), T k ) sont CAR, pour que (1) soit vérifiée. Un estimateur ˆα de α s obtient par maximisation de la vraisemblance partielle suivante: n ( ) exp(α T 1 τj V k (X j )) V p = n k=1 Y k(x j ) exp(α T V k (X j )) j=1 Le risque de base est estimé par un estimateur non paramétrique, pour chaque temps: ˆλ 0 (X j ) = 1 τ j n k=1 Y, j = 1,..., n. k(x j ) exp(ˆα T V k (X j )) 2.3 Estimation de la survie de la censure et calcul des poids Soit K i (t) = Pr(C i > t), la survie de la censure pour l individu i (i.e la probabilité de rester non censuré jusqu au temps t). L estimateur de K i (t) est donné par le produit limite: ˆK i (t) = {j;x j <t,τ j =0} [1 ˆλ C (X j V i (x j ), T > t)] = 3 {j;x j <t} [ 1 (1 τ ] j) exp(ˆα T V i (x j )) n k=1 Y k(x j ) exp(ˆα T V i (x j ))
Soit ˆK 0 (t) l estimateur classique de la survie de la censure de Kaplan-Meier, ˆK 0 (t) = {j;x j <t} [1 (1 τ j) n k=1 Y k(x j ) ]. Les poids spécifiques à chaque individu vont être déterminés à partir du calcul de ces probabilités: Ŵ i (t) = ˆK 0 (t) ˆK i (t), Notons que ˆK 0 (t) est identique pour tous les individus contrairement à ˆK i (t) qui se différencie par l historique des covariables de l individu i. L estimation IPCW repose sur une pondération des estimateurs de Kaplan-Meier et de la vraisemblance partielle. L intégration de ces poids va permettre de modifier le nombre de personnes à risque et le nombre de personnes subissant l événement pour prendre en compte les patients censurés. 2.4 Estimation IPCW de la survie et fonction Score L estimation de la probabilité de rester vivant jusqu au temps t en absence de censure est donc donnée par: [ ] τ j Ŵ j (X j )) Ŝ T (t) = 1 n k=1 Y k(x j )Ŵk(X j ) {j;x j <t} Sous les hypothèses (1) et (3), Robins (1993 & 2000) montre que ŜT (t) est un estimateur consistant de S T (t) = P r(t > t). Le principe de la méthode est d augmenter le poids d un individu qui a subi l événement à une date t pour considérer les censures qui ont eu lieu avant cette date t. La méthode IPCW permet aussi d ajuster des covariables dépendantes du temps dans un modèle de Cox. Ainsi, le modèle suivant, λ T (t Z(.), C > t) = λ 0 (t) e βt Z(t), (4) où λ 0 (.) est le risque de base et β les coefficients de régression associés aux covariables Z(.). Le score IPCW de la vraisemblance partielle, qui permet d estimer β, s écrit tel que: [ n ] n k=1 U(β) = τ j Ŵ j (X j ) Z j Y k(x j )Ŵk(X j )Z k (X j )e βt Z k (X j ) n k=1 Y (5) k(x j )Ŵk(X j )e βt Z k (X j ) j=1 U(β) est appelée fonction score modifiée. Sous les hypothèses (1) et (3), Robins montre que la solution ˆβ de U(β) = 0, est un estimateur consistant de β dans (4). 4
3 Application L asthme est depuis des années un problème majeur de santé publique. En effet, il affecte environ 300 millions de personnes dans le monde. Afin de mieux comprendre cette pathologie, nous disposons d une cohorte de patients asthmatiques suivis dans le temps. Nous avons appliqué la méthode IPCW, à cette base de données afin de comparer les méthodes traditionnelles aux versions IPCW et d observer l impact de l hypothèse de censure dépendante sur l estimation de la courbe de survie. En effet, les patients perdus de vue sont très nombreux et après discussion avec les pneumologues, le phénomène de censure pourrait être informatif. Il semble que les perdus de vue soient essentiellement des patients dont l asthme est bien contrôlé et qui ne ressentent pas le besoin d être suivis régulièrement. L événement modélisé est le passage dans l état de contrôle inacceptable (l état de contrôle le plus grave). Pour cela, nous avsélectionnéonné les facteurs prédictifs du passage dans l état l inacceptable. Cette étape nous a permis de choisir les variables à utiliser dans la modélisation du risque de censure. Puis le risque et la survie de la censure ont été estimés pour déterminer les poids et l impact des covariables sur la censure. D ailleurs, la dépendance entre censure et événement a été mise en évidence. Enfin, la survie de l événement Passage dans l état le plus grave est estimée par la méthode IPCW et comparée aux résultats obtenus par Kaplan-Meier (fig 1). La survie IPCW est supérieure à l estimation de Kaplan-Meier. Ce résultat signifie que l information issue de la censure améliore la survie. Ce résultat est cohérent puisque les cliniciens pensent que les patients les plus censurés sont ceux qui se portent le mieux. La survie est donc améliorée avec la méthode IPCW. Survivival probability 0.0 0.2 0.4 0.6 0.8 1.0 Kaplan Meier IPCW estimate 0 5 10 15 20 25 30 Time (month) Figure 1: Comparaison des estimations de survie de l événement 5
4 Discussion D autres méthodes prennent en compte cette dépendance telles que les modèles de fragilité proposés par Huang (2002) mais elles sont en général moins performantes que la méthode IPCW. Ce travail a permis de modéliser l apparition d un événement dans le cas où la censure était dépendante de cet événement. Les résultats confirment que ce sont les patients qui vont le mieux, qui sont perdus de vue ce qui est cohérent avec l intuition clinique. Ceci implique bien que la censure est dépendante de l événement dans le cas de l asthme. Le fait de prendre en compte l information issue des patients censurés, a amélioré la survie des patients asthmatiques. En effet, si ce sont les patients les plus censurés qui vont le mieux il est logique que la survie soit améliorée en prenant en compte cette information. L originalité de cette méthode repose sur la modélisation du risque de censure, ce qui habituellement n est pas traité dans la littérature. De plus, les estimateurs présentent le très grand avantage de rester consistants même si la censure est indépendante de l événement étudié et convergent vers l estimateur de Kaplan-Meier. Les variables prédisant l événement n auraient pas d impact significatif sur le risque de censure, impliqueraient que ˆK 0 (t) ˆK i (t) et que les poids convergent vers un. Ceci est un atout pour la méthode puisqu il n est pas nécessaire de faire d hypothèses a priori sur la relation entre la censure et l événement Cependant, comme dans toutes études des limites existent. En particulier, l hypothèse (1) est contraignante puisqu elle suppose que la connaissance temporelle des covariables apporte suffisamment d informations pour que l on puisse se passer de celle apportée par le temps d événement. Il est donc important d avoir la majorité des facteurs prédictifs de l événement. Certes la méthode d estimation nous a permis de réduire le biais dû à la censure informative mais de nombreux biais subsistent qui sont inhérents aux bases observationnelles. Ces biais sont très difficiles à éliminer tels que les biais de sélection, de compliance et de confusion. Bibliographie [1] A.Rotnitzky and J.M Robins (2003), Inverse probability weighted estimation in survival analysis, The Encyclopedia of Biostatistics [2] D.Heitjan and D.Rubin (1991), Ignorability and coarse data, The annals of statistics, vol 19 pp2244 53 [3] J.M Robins (1993) Information recovery and bias adjustment in proportionnal hazards regression analysis of randomized trials using surrogate markers, Proceedings of the Biopharmaceutical Section, American Statistical Association, pp24-33 [4] J.M Robins and D.M Finkelstein (2000) Correcting for Noncompliance and Dependent Censoring in an AIDS Clinical Trial with Inverse Probability of Censoring Weighted (IPCW) Log-Rank Tests, Biometrics, vol 56, pp779 788 [5] X. Huang and R.Wolfe (2002), A Frailty Model for informative censoring, Biometrics, vol 258 pp510 520 6