La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg Plan Survie nette : définition, estimation Description des méthodes d estimation Simulation : intérêt, principes et réalisation Résultats Conclusions
Survie nette Concept Survie liée à la maladie d intérêt, les autres causes de décès étant éliminées Traduit la mortalité liée spécifiquement à une maladie Risques compétitifs Compétition : un individu est soumis simultanément à différents risques dont l un aboutit au décès Risque Maladie Autres causes La cause du décès est unique et détermine le temps de survie 2
Taux observé λ o Le taux global ou observé a deux composantes : λ o = λ n + λ a λ n : le taux net lié à la maladie d intérêt λ a : le taux lié aux autres causes Lorsque la cause du décès n est pas recueillie (registre), les deux composantes λ n et λ a sont inconnues Taux relatif λ a : approché par le taux de mortalité de la population générale (âge, sexe, année) Soit λ g cette approximation de λ a Taux relatif λ r = λ o λ g Le taux relatif λ r est une approximation du taux net λ n 3
Du taux relatif à la survie relative λ r = λ o λ g S r = S o / S g S r : survie relative S o : survie observée S g : survie attendue Survie nette actuelle Celle des patients nouvellement diagnostiqués Dépend étroitement des moyens actuels Survie nette actuelle à long terme : difficultés d estimation par les méthodes classiques 4
Survie nette actuelle à 0 ans? 997 2007 207 Suivi Survie nette à 0 ans des patients diagnostiqués en 997 Survie nette à 0 ans des patients diagnostiqués en 2007 Année de diagnostic Valeur à estimer Survie nette actuelle à 0 ans 997 2007? Suivi Survie nette à 0 ans des patients diagnostiqués en 997 Année de diagnostic 5
Méthodes d estimation Méthodes utilisant une approche traditionnelle de type Kaplan-Meier : Méthode par cohortes Méthode complète Analyse par période (Brenner) Méthodes d estimation Méthodes utilisant une modélisation : Méthode régressive d Estève Polynôme dérivé de la méthode d Estève Analyse par période modélisée 6
Base de données 990 99 992 993 994 995 996 997 998 999 2000 200 2002 2003 2004 2005 2006 990 99 992 993 994 995 996 997 998 999 2000 200 2002 Cohorte 2003 2004 2005 2006 Méthode par cohortes 990 99 992 993 994 995 996 997 998 999 2000 200 2002 2003 2004 2005 2006 990 99 992 993 994 995 996 997 998 999 2000 200 2002 2003 Informations analysées 2004 2005 Informations exclues 2006 7
Méthode complète 990 99 992 993 994 995 996 997 998 999 2000 200 2002 2003 2004 2005 2006 990 99 992 993 994 995 996 997 998 999 2000 200 2002 2003 Informations analysées 2004 2005 Informations exclues 2006 Analyse par période (Brenner) Principe : écarter l information a priori trop ancienne Troncature à gauche = élimination des décès et des censures survenus avant une période considérée comme récente 8
Brenner (analyse par période) 990 99 992 993 994 995 996 997 998 999 2000 200 2002 2003 2004 2005 2006 990 99 992 993 994 995 996 997 998 999 2000 200 2002 2003 Informations analysées 2004 2005 Informations exclues 2006 Analyse par période Méthode de Kaplan-Meier S(0) = P () x P(2\) x x P(0\9) 9
Analyse par période P(3\2) Patient A 999 2000 200 2006 2007 Patient B 2004 2005 2006 Année calendaire Suivi Brenner 5 (analyse par période) 990 99 992 993 994 995 996 997 998 999 2000 200 2002 2003 2004 2005 2006 990 99 992 993 994 995 996 997 998 999 2000 200 2002 2003 Informations analysées 2004 2005 Informations exclues 2006 0
Méthode d Estève Méthode régressive modélisant les taux en fonction de l année de diagnostic Chaque année calendaire est une strate Obtention d un coefficient de régression par strate Tous les patients sont inclus Méthode d Estève 990 99 992 993 994 995 996 997 998 999 2000 200 2002 2003 2004 2005 2006 990 99 992 993 994 995 996 997 998 999 2000 200 2002 2003 2004 2005 2006
Polynôme Dérivé de la méthode d Estève Fonction de l année de diagnostic X : β 0 + β X + β 2 X 2 + + β i X i Permet d appréhender l évolution de la survie nette Nombre réduit de coefficients de régression Polynôme 990 99 992 993 994 995 996 997 998 999 2000 200 2002 2003 2004 2005 2006 990 99 992 993 994 995 996 997 998 999 2000 200 2002 2003 2004 2005 2006 2
Analyse par période modélisée Application d un polynôme à des données récentes Période d analyse = 5 ans Analyse par période modélisée 990 99 992 993 994 995 996 997 998 999 2000 200 2002 2003 2004 2005 2006 990 99 992 993 994 995 996 997 998 999 2000 200 2002 2003 Données analysées 2004 2005 Données exclues 2006 3
Survie nette actuelle à long terme Ces méthodes fournissent des résultats différents Question : quelle est l estimation la plus fiable? Évaluation des méthodes Deux problèmes se posent en pratique : Les estimations varient d un échantillon à l autre (fluctuations) La valeur du paramètre à estimer est inconnue 4
Simulation Seul procédé permettant d évaluer une méthode statistique : Grand nombre d échantillons (fluctuations d échantillonnage) Valeur du paramètre à estimer connue Simulation Principes Simulation proprement dite Population fictive Échantillons multiples Sondage aléatoire Analyse Biais = écart entre la moyenne des estimations et la valeur théorique Précision = dispersion des estimations 5
Simulation Principes Simuler = générer des données à partir de lois de probabilité Les données générées sont aléatoires et indépendantes Simulation Méthodologie Identifier les processus à simuler Choisir les lois de probabilité adéquates Générer les données à partir des lois de probabilité choisies 6
Simulation Processus La survie observée dépend de 4 processus simultanés et indépendants : La mortalité liée à la maladie (survie nette) La mortalité liée aux autres causes La guérison La censure : aléatoire et non informative Simulation Lois de probabilité PROCESSUS LOIS DE PROBABILITÉ Maladie Autres causes Guérison Censure Weibull ou log-normale Exponentielle par morceau Bernoulli Uniforme 7
Mortalité nette Durées de survie Variable quantitative continue Fonctions paramétriques du temps : Loi de Weibull Loi log-normale Mortalité nette Loi de Weibull Dépend de deux paramètres : Un paramètre d échelle α Un paramètre de forme ß Les valeurs de ces paramètres déterminent les caractéristiques de la fonction de survie 8
Mortalité nette Loi de Weibull Le paramètre d échelle α permet de simuler une amélioration de la survie nette au cours de périodes successives Le paramètre de forme ß détermine l évolution du risque au cours du temps : Risque décroissant : ß < Risque constant : ß = Risque croissant : ß > Survie nette Loi de Weibull Amélioration de la survie nette ß = 0,8 α = 5 α = 2 9
Mortalité nette Loi log-normale Dépend également de deux paramètres Propriété intéressante : permet d obtenir un risque biphasique Mortalité par autres causes Durées de survie Loi exponentielle par morceau Table de mortalité (âge, sexe, période) Risque constant conditionnellement à l intervalle 20
Mortalité par autres causes Table de mortalité Années calendaires 200 2002 2003 2004 2005 50 0,02 0,03 0,02 0,02 0,0 Age 5 52 0,02 0,03 0,02 0,04 0,04 0,04 0,03 0,05 0,04 0,05 53 0,04 0,05 0,06 0,04 0,02 54 0,04 0,04 0,05 0,05 0,03 Loi exponentielle par morceau Un seul paramètre : taux instantané λ Propriété intéressante : λ est constant au cours du temps, par morceau Morceau = une année calendaire 2
Mortalité par autres causes Exemple 5 individus diagnostiqués à 50 ans début 200 et suivi pendant 3 ans Table de mortalité Données générées Années calendaires 200 2002 Age 50 λ 5 λ 2 52 0,5-0,9 2003 λ 3-0,6 - Données obtenues Durée 3 0,5 2,6 3,9 Statut 0 0 Simulation Guérison Chaque patient guérit ou ne guérit pas Variable binaire Loi de Bernoulli Si guérison : mortalité par autres causes Sinon : compétition 22
Simulation Censure Durées d observation Loi uniforme Toutes les durées sont également probables Simulation Modèle de mélange Patients GUÉRIS NON GUÉRIS AUTRES CAUSES CENSURE COMPÉTITION MALADIE AUTRES CAUSES CENSURE 23
Simulation Échantillons définitifs Données initiales Données définitives N Guérison Maladie Autres causes Censure Durée Statut 2,5 3,5 4,2 3,5 2,2 8,2 5,3 5,3 0 3 0 3,6 5,9 6,2 3,6 Simulation Échantillons définitifs Structure de l échantillon définitif N Durée Statut Age* Année* Sexe 3,5 50 200 2 5,3 0 50 999 3 3,6 5 2002 2 * Au moment du diagnostic 24
Simulation Échantillons définitifs Certaines informations ne seront pas utilisées lors de l analyse : Statut vis-à-vis de la guérison Cause du décès Simulation et analyse Aspects pratiques La simulation et l analyse des données simulées nécessitent une programmation informatique Logiciel R 25
Simulation et analyse Aspects pratiques Cinq types de programmes permettant respectivement : De générer les données pour chaque processus De confronter les données générées afin d obtenir les temps de survie De créer les fichiers contenant l information nécessaire pour chaque méthode D analyser les échantillons par chaque méthode De calculer les 3 critères pour chaque méthode Situations cliniques simulées Cancer du poumon : Survie courte Risque décroissant Cancer du sein : Survie longue Risque croissant puis décroissant Amélioration régulière de la survie nette 26
Échantillons Nombre : 200 Taille : 050 Pourcentage de censure aléatoire : de 0 à 30% Analyse Critère : survie relative actuelle à 0 ans Biais = différence entre la survie théorique et la survie moyenne estimée Variance des estimations (précision) Couverture = proportion d échantillons dont les intervalles de confiance à 95% contiennent la valeur théorique 27
Survie théorique = 0,24 Méthodes Distribution CANCER DU POUMON Survie relative Écart-type Couverture (%) Cohortes 0,084 0,05 0,000 Complète 0,25 0,05 0,000 Brenner 5 0,69 0,023 6,500 Brenner 0,202 0,054 85,500 Estève 0,23 0,074 89,500 Polynôme 0,239 0,047 93,800 Période modélisée 0,252 0,073 95,400 Survie théorique = 0,670 Méthodes Distribution CANCER DU SEIN Survie relative Écart-type Couverture (%) Cohortes 0,490 0,027 0,000 Complète 0,543 0,02 0,000 Brenner 5 0,597 0,028 23,500 Brenner 0,626 0,06 90,500 Estève 0,729 0,8 86,300 Polynôme Période modélisée 0,695 0,67 0,037 0,092 9,000 92,000 28
Cancer du sein Polynôme Période modélisée Proportions d estimations proches de la valeur théorique Différence Polynôme (%) Période modélisée (%) 0,05 0, 73 98 4 72 Influence de la censure Cancer du poumon Méthodes n utilisant pas de modèle : aucune Modèles : sous-estimation à partir de 25% de censure Estève : peu marquée Polynômes : plus marquée 29
Influence de la censure Cancer du poumon Méthodes Censure (%) Estève Polynôme Période modélisée 0 0,23 (0,074) 0,239 (0,047) 0,252 (0,073) 5 0,23 (0,074) 0,239 (0,048) 0,25 (0,074) 0 0,230 (0,074) 0,236 (0,048) 0,249 (0,076) 5 0,23 (0,075) 0,234 (0,049) 0,249 (0,077) 20 0,230 (0,076) 0,235 (0,05) 0,252 (0,079) 25 0,227 (0,077) 0,220 (0,050) 0,224 (0,077) 30 0,226 (0,079) 0,24 (0,050) 0,26 (0,080) Évaluation empirique Registre du Bas-Rhin Estimation de la survie nette à 0 ans des patients diagnostiqués entre 989 et 99 Survie nette réelle fin 2000 30
Évaluation empirique Cancer du poumon Meilleures méthodes : 65-74 ans et 75-84 ans : polynôme utilisant l ensemble des données 45-54 ans et 55-64 ans : analyse par période (5 années) Évaluation empirique Cancer du sein Meilleures méthodes : 35-44 ans et 55-64 ans : polynôme utilisant l ensemble des données 45-54 ans et 65-74 ans et 85 ans : Estève (mais intervalles de confiance plus larges) 3
REGISTRE DU BAS-RHIN Cancer du poumon Cas diagnostiqués entre 975 et 2000 Date de point : 3/2/2000 Registre : cancer du poumon Méthodes 45-54 55-64 65-74 75-84 85 Cohortes Complète Brenner 5 Brenner Estève Polynôme Brenner modélisé 0,094 (0,08) 0,25 (0,05) 0,54 (0,022) 0,27 (0,055) 0,70 (0,07) 0,66 (0,03) 0,59 (0,027) 0,07 (0,03) 0,0 (0,009) 0,68 (0,027) 0,26 (0,050) 0,48 (0,05) 0,44 (0,0) 0,27 (0,022) 0,090 (0,05) 0,06 (0,02) 0,093 (0,022) 0,00 (0,022) 0,09 (0,03) 0,06 (0,0) 0,00 (0,009) 0,053 (0,09) 0,048 (0,05) 0,044 (0,09) 0,034 (0,064) 0,047 (0,008) 0,044 (0,006) 0,034 (0,00) 0 (0) 0 (0) 0 (0) 0 (0) 0,00 (0,004) 0,009 (0,003) 0,007 (0,005) 32
REGISTRE DU BAS-RHIN Cancer du sein Cas diagnostiqués entre 975 et 2000 Date de point : 3/2/2000 Registre : cancer du sein Méthodes 35-44 45-54 55-64 65-74 75-84 85 Cohortes Complète Brenner 5 Brenner Estève Polynôme Brenner modélisé 0,709 (0,022) 0,739 (0.04) 0,765 (0,08) 0,827 (0,038) 0,774 (0,04) 0,802 (0,006) 0,792 (0,020) 0,674 (0,07) 0,70 (0,02) 0,75 (0,05) 0,76 (0,034) 0,748 (0,04) 0,778 (0,006) 0,793 (0,08) 0,605 (0.05) 0,654 (0.0) 0,694 (0,05) 0,84 (0,030) 0,688 (0,06) 0,724 (0,008) 0,78 (0,024) 0,525 (0.09) 0,540 (0.03) 0,558 (0,07) 0,55 (0,037) 0,576 (0,020) 0,62 (0,009) 0,57 (0,030) 0,409 (0.028) 0,435 (0,023) 0,456 (0,030) 0,436 (0,064) 0,442 (0,023) 0,494 (0,08) 0,447 (0,04) 0,9 (0.068) 0,79 (0,077) 0,258 (0,0) 0,95 (0,56) 0,259 (0,026) 0,3 (0,0) 0,200 (0,03) 33
Conclusions Polynôme : méthode la plus performante Méthode souple permettant de capter l évolution de la survie nette Peu de coefficients de régression Utilisation recommandée dans le cadre d un registre 34