Application des courbes ROC à l analyse des facteurs pronostiques binaires



Documents pareils
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Principe d un test statistique

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Le quizz des stats. Xavier Paoletti. Sce de biostatistiques / Inserm U900 Institut Curie

PROGRAMME (Susceptible de modifications)

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Transplantation pulmonaire et mucoviscidose. Optimiser la prise en charge médicale

Exemple PLS avec SAS

Modélisation aléatoire en fiabilité des logiciels

Face Recognition Performance: Man vs. Machine

Introduction à l approche bootstrap

Medication management ability assessment: results from a performance based measure in older outpatients with schizophrenia.

HENDRICH FALL RISK MODEL (HFRM)

Peut-on réduire l incidence de la gastroentérite et ses conséquences dans les écoles primaires à l aide de solution hydro-alcoolique?

Représentation d une distribution

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Validation probabiliste d un Système de Prévision d Ensemble

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

Données longitudinales et modèles de survie

Essai Inter-groupe : FFCD UNICANCER FRENCH - GERCOR

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Cours de méthodes de scoring

INSTITUT MARITIME DE PREVENTION. For improvement in health and security at work. Created in 1992 Under the aegis of State and the ENIM

Validation clinique des marqueurs prédictifs le point de vue du méthodologiste. Michel Cucherat UMR CNRS Lyon

The assessment of professional/vocational skills Le bilan de compétences professionnelles

Cas clinique 2. Florence JOLY, Caen François IBORRA, Montpellier

INF6304 Interfaces Intelligentes

Support Orders and Support Provisions (Banks and Authorized Foreign Banks) Regulations

Analyse des durées de vie avec le logiciel R

Cloud Computing: de la technologie à l usage final. Patrick CRASSON Oracle Thomas RULMONT WDC/CloudSphere Thibault van der Auwermeulen Expopolis

PROJET DE LOI. An Act to Amend the Employment Standards Act. Loi modifiant la Loi sur les normes d emploi

23. Interprétation clinique des mesures de l effet traitement

Analyse de la variance Comparaison de plusieurs moyennes

CALCUL DE LA CONTRIBUTION - FONDS VERT Budget 2008/2009

Contents Windows

Correction du baccalauréat ES/L Métropole 20 juin 2014

Qui et quand opérer. au cours du traitement de l EI?

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Faut-il encore traiter les cancers prostatiques?

QUEL AVENIR POUR LA PHARMACIE HOSPITALIERE EN SUISSE?

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Program

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

Introduction aux Statistiques et à l utilisation du logiciel R

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

EFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE

BNP Paribas Personal Finance

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Stratégie DataCenters Société Générale Enjeux, objectifs et rôle d un partenaire comme Data4

Évaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement

choisir H 1 quand H 0 est vraie - fausse alarme

AIDE FINANCIÈRE POUR ATHLÈTES FINANCIAL ASSISTANCE FOR ATHLETES

Item 169 : Évaluation thérapeutique et niveau de preuve

TSTI 2D CH X : Exemples de lois à densité 1

Document d orientation sur les allégations issues d essais de non-infériorité

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

First Nations Assessment Inspection Regulations. Règlement sur l inspection aux fins d évaluation foncière des premières nations CONSOLIDATION

Scénarios économiques en assurance

CEST POUR MIEUX PLACER MES PDF

Études épidémiologiques analytiques et biais

La physique médicale au service du patient: le rôle de l agence internationale de l énergie atomique

PROJET DE LOI 15 BILL 15. 1st Session, 56th 58th Legislature New Brunswick Elizabeth II, II,

Aide-mémoire de statistique appliquée à la biologie

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Programme

PRECISION - REJET DE PERTURBATIONS T.D. G.E.I.I.

Cours Bases de données 2ème année IUT

Instructions Mozilla Thunderbird Page 1

Nouveautés printemps 2013

Surveillance de Scripts LUA et de réception d EVENT. avec LoriotPro Extended & Broadcast Edition

Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones

ETABLISSEMENT D ENSEIGNEMENT OU ORGANISME DE FORMATION / UNIVERSITY OR COLLEGE:

«Rénovation des curricula de l enseignement supérieur - Kazakhstan»

TARIFS PIETONS SAISON PEDESTRIAN RATES SEASON 2014/2015 TARIFS ASSURANCE CARRE NEIGE CARRE NEIGE INSURANCE RATES 2014/2015

Principe de symétrisation pour la construction d un test adaptatif

Gestion de Portefeuille. Mesures de Performance Ajustées du Risque

L axe 5 du Cancéropole Nord Ouest

SEMIN- Gestion des couleurs sous R. Michel BAYLAC. MNHN Département Systématique et Evolution OSEB

Estimation et tests statistiques, TD 5. Solutions

Chapitre 2/ La fonction de consommation et la fonction d épargne

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

Miroir de presse. International Recruitment Forum 9-10 mars 2015

COMPARAISON DE QUATRE PROTOCOLES DE CHIMIOTHERAPIE POUR DES CANCERS DU POUMON NON A PETITES CELLULES (CBP NAPC) AVANCES

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

MODELES DE DUREE DE VIE

How to Login to Career Page

RULE 5 - SERVICE OF DOCUMENTS RÈGLE 5 SIGNIFICATION DE DOCUMENTS. Rule 5 / Règle 5

Interest Rate for Customs Purposes Regulations. Règlement sur le taux d intérêt aux fins des douanes CONSOLIDATION CODIFICATION

ONTARIO Court File Number. Form 17E: Trial Management Conference Brief. Date of trial management conference. Name of party filing this brief

sur le réseau de distribution

JSIam Introduction talk. Philippe Gradt. Grenoble, March 6th 2015

Archived Content. Contenu archivé

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

PROBABILITES ET STATISTIQUE I&II

PARIS ROISSY CHARLES DE GAULLE

Transcription:

Application des courbes ROC à l analyse des facteurs pronostiques binaires Combescure C (1), Perneger TV (1), Weber DC (2), Daurès J P (3), Foucher Y (4) (1) Service d épidémiologie clinique et Centre de Recherche clinique, Hôpitaux Universitaires de Genève et Université de Genève (2) Service de Radio oncologie, Hôpitaux Universitaires de Genève (3) Laboratoire de Biostatistique, Institut Universitaire de Recherche Clinique, Université Montpellier I (4) Laboratoire de Biostatistique, recherche clinique et mesures subjective en santé. EA4275. Université de Nantes. ITERT, Inserm U643. 1

Plan Introduction Objectif Généralités sur les C index Courbe ROC pronostique (PROC) Problème des survies tronquées Example: Prognostic performance of the Basic Score for Brain Metastases Conclusions Perspective 2

Introduction Evaluation des performances d un facteur pronostique binaire: Analyse statistique Kaplan Meier, modèle de Cox 2 groupes de sujets: absence/présence du facteur L approche par Kaplan Meier permet d estimer les courbes de survie dans les 2 groupes et la comparaison se fait par un test du log rank (détection d une différence), mais ne permet pas de conclure sur la taille de l effet Le modèle de Cox permet d estimer l effet du facteur sous la forme d un hazard ratio (éventuellement ajusté sur des facteurs confondants) Nous nous focalisons sur le non paramétrique 3

Question: comment exprimer la taille de l effet du facteur pronostique?? 4

Pour interpréter la taille de l effet, on peut: 1) Estimer des indicateurs à un temps t donné: survie dans les deux groupes: S 1 (t) et S 2 (t) number needed to treat :NNT(t)=1/[S 1 (t) S 2 (t)] La principale critique est qu on choisit le temps t et que les résultats peuvent être très sensibles à ce choix Ces indicateurs sont pertinents si les courbes de survie sont stables après le temps t (guérison) 5

6

2) Résumer le temps de survie: temps médians de survie dans chaque groupe Critique: résumé très partiel, résultat difficile à communiquer à un patient ou un clinicien non chercheur 7

temps moyens de survie Critique: la différence entre les temps moyens est un gain moyen. Attention, une différence moyenne ne signifie pas que tous les patients vont bénéficier de ce gain. Certain patients avec le nouveau traitement auront une plus mauvaise survie, même si globalement le nouveau traitement améliore la survie. Différence entre les temps de survie moyens 8

Objectif Proposer un cadre pour l estimation d un indicateur captant la taille de l effet: la probabilité que la survie soit améliorée dans le groupe 1 par rapport au groupe 2. Autrement dit: la probabilité que le temps de survenue de l événement pour un patient dans le groupe 1 soit plus grand que le temps de survenue de l événement pour un patient dans le groupe 2 Cette probabilité est l aire sous une courbe ROC, c est un C index Similarité avec une courbe ROC diagnostique: l AUC est la probabilité que le marqueur diagnostique prenne une valeur plus grande chez un malade que chez un non malade Mais en survie, il y a des données censurées et en plus le suivi peut s arrêter avant que tous les patients ne fassent l événement. 9

Généralités sur les C index Le terme «C index» désigne l estimateur d une probabilité de concordance Il existe plusieurs C index, à ne pas confondre: Marqueur diagnostique continu (AUC ROC=index C de Efron, 1963) Marqueur pronostique continu (AUC d une courbe ROC temps dépendante, 2000) Capacité prédictive d un modèle de survie multivarié (index C de Harrell, 1982) 10

Tests diagnostiques: X D (X ND ) est le marqueur X chez les malades (non malades) L aire sous la courbe ROC est une estimation de la probabilité de concordance P[X D >X ND ] (Efron C index) Si C=0.5, X est un marqueur non informatif ROC curve Se(c)=P[X>=c D=1]=1-G(c) F(c) est la cdf de X ND G(c) est la cdf de X D 1-Spe(c)=P[X>=c D=0]=1-F(c) 11

Courbes ROC temps dépendantes: La courbe ROC, notée ROC(t) au temps t représente les sensibilités et les spécificités au temps t et aux différents seuils c: Se=P[X c T t] et Spe(c,t)=P[X<c T>t] (Heagerty 2000) L aire sous une courbe ROC(t) est un estimateur de la probabilité de concordance : AUC(t)= P[X i >X k T i t,t k >t] 12

Capacité prédictive d un modèle de survie multivarié: Probabilité de concordance entre 2 variables continues X et Y est définie par C=P[X i >X k Y i >Y k ] où i et k désignent 2 patients aléatoirement choisis Pour un modèle de survie, la probabilité de concordance C est entre: La partie prédite du modèle X=βZ, Z étant le vecteur des covariables Le temps de survenue de l événement T Ecriture de la probabilité de concordance C : C=P[X i >X k T i <T k ] où i et k désignent 2 patients aléatoirement choisis (Harrell 1982, 1996) Le conditionnement se fait par rapport au temps, donc par rapport à l événement Définition de C «proche» des notions de sensibilité et spécificité C=P[T i >T k X i <X k ] où i et k désignent 2 patients aléatoirement choisis (Gonen 2005) Le conditionnement se fait par rapport au facteur X Définition de C proche des notions de valeurs prédictives, sens clinique intéressant 13

Récemment, une autre utilisation du C a été encouragée (Koziol 2009, Hess 2010): C = mesure de la séparation entre 2 courbes de survie C=P[T 1 >T 2 ]: probabilité que le temps de survenue de l événement soit plus grand dans le groupe 1 que dans le groupe 2 Définition similaire mathématiquement à celle du C index des études diagnostiques mais: Le statut (malade/sain) est remplacé par le bras (1/2) Le marqueur diagnostique X est remplacé par le temps T Dans un essai randomisé, C est la probabilité que le traitement testé améliore la survie par rapport au bras de référence Cet index C est un cas particulier de l index C proposé par Gonen (2005) 14

Courbe ROC pronostique (PROC) Définition: On suppose que la survie est meilleure dans le groupe 1 pour avoir un C index plus grand que 0.5. La courbe PROC est composée des points définis aux temps t: En abscisse: 1 S 1 (t) En ordonnée: 1 S 2 (t) Propriétés: Au temps t=0, PROC(0)=(0;0) Pour t assez grand, PROC(t)=(1;1) (réaliste?) Si les 2 courbes de survie sont identiques, PROC est la bissectrice Si tous les patients du groupe 2 décèdent avant ceux du groupe 1, alors il existe en temps t pour lequel PROC(t)=(0;1) L AUC de la PROC est C=P[T 1 >T 2 ] 15

Survival curves PROC curves 16

L interprétation d une courbe PROC est similaire à celle d une courbe ROC: plus la courbe est proche du coin haut gauche, meilleure est l AUC et meilleures sont les performances du facteur à discriminer les patients qui vont faire l événement avant les autres patients. La courbe PROC peut être obtenue à partir de n importe quel estimateur de la survie: Non paramétrique: Kaplan Meier (classique, stratifié sur un facteur confondant, pondéré pour corriger par rapport à une censure informative, ) Paramétrique: modèle de survie à temps accéléré (Weibull, lognormal, log logistique, ) L AUC d une courbe PROC peut être obtenue par la méthode des trapèzes Cette approche est très souple 17

Avantage par rapport aux résultats d une analyse de survie classique L information fournie par une courbe PROC est fondamentalement différente de celle fournie par des courbes de survie: La surface entre deux courbes de survie représente la différence entre les temps de survie moyens L AUC d une PROC est la probabilité que la survie soit améliorée dans le groupe 1 par rapport au groupe 2 Même si le nouveau traitement (par exemple) améliore en moyenne la survie, certains patients peuvent avoir une survie détérioriée Cette incertitude n est pas clairement apparente sur des courbes de survie La courbe PROC aide àcapterla nature probabiliste de la différence entre deux courbes de survie 18

Exemple: Log rank: p<0.01 Médianes de survie (mois): 2.6 (IC95%: 2.0;3.1) vs 5.4 (IC95%: 4.5;6.8) Temps moyens de survie (mois): 5.1 (SE:0.7) vs 7.4 (SE:0.5) AUC de la PROC = 0.67 : un patient dans le groupe BSBM>0 à 67% de chance de vivre plus longtemps qu un patient dans le groupe BSBM=0 19

Une interpretation complémentaire: number needed to treat Un number needed to treat (NNT) peut être déduit du C index: NNT=1/(C 0.5) Ce NNT représente le nombre de patients à traiter avec le nouveau traitement pour qu un vive plus longtemps qu avec le traitement de référence, au delà du hasard. Par exemple, si le C index vaut 0.6, sur 10 sujets traités avec le nouveau traitement, on s attend à ce que 6 sujets vivent plus logntemps qu avec le traitement de référence mais, même si le nouveau traitement n a pas d effet, 5 sujets devraient vivre plus longtemps. Finalement, 1 sujet devrait vivre plus longtemps audelà de ce que le hasard pourrait expliquer. Si C=0.5 (les 2 courbes de survie sont identiques), le NNT est infini et si C=1, alors NNT=2 20

Problème des survies tronquées En général les courbes de survie sont tronquées (ie n atteignent pas 0) Conséquences: La courbe PROC est incomplète La probabilité de concordance ne peut pas être estimée 21

Survival functions 0 2 4 6 Time t Prognostic ROC curve Cumulative density of T1 Survival functions 0 2 4 6 Time t Prognostic ROC curve Cumulative density of T1 Survival functions 0 2 4 6 Time t Prognostic ROC curve Cumulative density of T1 Survival functions 0 2 4 6 Time t Prognostic ROC curve Cumulative density of T1 Survival functions Time t Cumulative density of T2 Survival S(t) Cumulative density of T2 Survival S(t) Cumulative density of T2 Survival S(t) Cumulative density of T2 Survival S(t) Survival S(t) 0 2 4 6 Prognostic ROC curve Cumulative density of T2 Cumulative density of T1 22

On voit sur la courbe ROC pronostique qu une partie de l AUC est estimable: La partie de A sous la PROC est estimable par la méthode des trapèzes B est entièrement sous la courbe et son aire est S 1 (t)*[1 S 2 (t)] C est entièrement audessus de la courbe Seule la partie de D sous la PROC est inconnue, mais on sait que l AUC dans D est comprise entre 0 et S 1 (t)*s 2 (t) Cumulative density of T2 1-S2(t) Prognostic ROC curve C D A B 0.0 0.2 0.4 1-S1(t) 0.6 0.8 1.0 Cumulative density of T1 23

On peut extrapoler la partie manquante de l AUC de plusieurs manières (notée AUCm). 4 propositions: Extrapolation pessimiste: AUCm=0 Extrapolation non informative: AUCm=0.5*S 1 (t)*s 2 (t) Extrapolation optimiste: AUCm=S 1 (t)*s 2 (t) Séparation constante: AUCm=AUC dans la partie A (en proportion) L amplitude potentielle de l extrapolation est S 1 (t)*s 2 (t) Si S 1 (t) ou S 2 (t) est proche de 0, alors l extrapolation est faible 24

25

Ecriture mathématique de tout ça: Décomposition de la probabilité de concordance C: 26

Ecriture mathématique de tout ça: Décomposition de la probabilité de concordance C: Surface des 4 rectangles A, B, C et D 27

Ecriture mathématique de tout ça: Décomposition de la probabilité de concordance C: Proportion de la surface du rectangle correspondant qui est sous la courbe 28

Ecriture mathématique de tout ça: Décomposition de la probabilité de concordance C: Partie A 29

Ecriture mathématique de tout ça: Décomposition de la probabilité de concordance C: Partie B: vaut 1 30

Ecriture mathématique de tout ça: Décomposition de la probabilité de concordance C: Partie C: vaut 0 31

Ecriture mathématique de tout ça: Décomposition de la probabilité de concordance C: Partie D: inconnue 32

Ecriture mathématique de tout ça: Décomposition de la probabilité de concordance C: =S 1 (t)*s 2 (t) 33

Ecriture mathématique de tout ça: Décomposition de la probabilité de concordance C: inconnue mais varie entre 0 et S 1 (t f )*S 2 (t f ) 34

Potential magnitude of extrapolation (PME): 100* S 1 (t f )*S 2 (t f ) (exprimé en %) Si la survie à t f est proche de 0 dans au moins un des 2 groupes, alors le PME est faible et l estimation du C index est proche de l estimateur de la probabilité de concordance 35

Survival functions 0 2 4 6 Time t Prognostic ROC curve PME= 28.7 % Cumulative density of T1 Survival functions 0 2 4 6 Time t Prognostic ROC curve PME= 8.2 % Cumulative density of T1 Survival functions 0 2 4 6 Time t Prognostic ROC curve PME= 0.7 % Cumulative density of T1 Survival functions 0 2 4 6 Time t Prognostic ROC curve PME= 0 % Cumulative density of T1 Survival functions Time t Cumulative density of T2 Survival S(t) Cumulative density of T2 Survival S(t) Cumulative density of T2 Survival S(t) Cumulative density of T2 Survival S(t) Survival S(t) 0 2 4 6 Prognostic ROC curve Cumulative density of T2 PME= 0 % Cumulative density of T1 36

Prognostic performance of the Basic Score for Brain Metastases We examine here the performance of the Basic Score for Brain Metastases (BSBM). This prognostic score is based on the Karnofsky index (a measure of functional status), the control of the primary tumor, and the presence of extracranial metastases. The BSBM is categorical score ranging from 0 to 3, and in theory, mortality decreases as the score increases. We analysed survival of 255 patients with cerebral metastases, followed at the University Hospitals of Geneva (N=69) and the University Hospital of Barcelona (N=186). In our data, the BSBM was calculated at the time of diagnosis: BSBM=0: N=73, Survie(20 months)=6.1% [1.8;20.9], median=2.6 months BSBM=1: N=91, Survie(20 months)=5.8% [1.8;19.1], median=4.8 months BSBM=2: N=65, Survie(20 months)=14.4% [7.0;29.5], median=5.5 months BSBM=3: N=26, Survie(20 months)=25.0% [12.1;51.6], median=6.8 months The survival were significantly different (p<0.001, log rank test), but p=0.60 between BSBM=1, 2 and 3 Fifty four patients (21.1%) were censored before 20 months. 37

Patients survival curves since diagnosis according to the BSBM score. The survival curves were obtained using the Kaplan-Meier estimator. 38

Prognostic ROC curves for the 6 combinations of BSBM for a follow up of 20 months. The circles represent a 6 months follow up 39

Table 1: Estimates of the pairwise C indexes for 20 and 6 months follow-up. The median survival times are expressed in months. PME is the potential magnitude of the extrapolation. 40

Kaplan-Meier s survival curves and the corresponding prognostic ROC curve when the BSBM score is dichotomized (0 vs 1, 2, 3). The time-points (in months) are represented on the prognostic ROC curve by circles. 41

In conclusion: In our illustrative example, the prognostic performance of the score BSBM was found to be moderate, even if the association between this score and the time-todeath is high. The potential magnitude of the extrapolation was low. A BSBM of 1, 2 or 3 did not discriminate the lifetime. Always using prognostic ROC curve, we found optimal binarization with the cutoff at 1: a patient with a BSM of 0 has 67% of chance to live longer than a patient with a BSBM of 1 or more. 42

Conclusion Les courbes ROC pronostiques apportent une information supplémentaire sur la différence entre 2 courbes de survie (aspect probabiliste) Outil souple car on peut utiliser n importe quel estimateur de la survie L AUC sous une PROC ne doit pas être confondue avec les autres C index. C est une valeur prédictive. Attention: si les courbes de survie sont incomplètes, il faut calculer le PME Lien avec le HR: C=1 1/(1+HR) Un package R sera disponible prochainement 43

Perspective Gain Δ Dans le cas de 2 courbes de survie, étendre la probabilité de concordance à un gain de survie Δ: Pr[T 1 >T 2 +Δ] (méthode non paramétrique: estimateurs à noyau?) Cela permettrait de mieux interpréter la différence entre 2 courbes de survie en terme de gains (en temps de survie) cliniquement significatifs En faisant varier Δ, on pourrait obtenir la fonction de distribution cumulée de la différence T 1 T 2 Pb: Question de la variance et des survies tronquées 44