46 e journées de statistique



Documents pareils
Application des courbes ROC à l analyse des facteurs pronostiques binaires

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Projet de thèse. Intitulé de la thèse. Spécialité du doctorat. Problématique scientifique générale

Apports des modèles de survie relative dans la modélisation des patients transplantés rénaux : Application à la cohorte DIVAT

Introduction à l approche bootstrap

Validation probabiliste d un Système de Prévision d Ensemble

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Analyse des durées de vie avec le logiciel R

INF6304 Interfaces Intelligentes

Gènes Diffusion - EPIC 2010

INFORMATION À DESTINATION DES PROFESSIONNELS DE SANTÉ LE DON DU VIVANT

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Intérêt diagnostic du dosage de la CRP et de la leucocyte-estérase dans le liquide articulaire d une prothèse de genou infectée

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Données longitudinales et modèles de survie

CORRELATION RADIO-ANATOMIQUE DANS LE CARCINOME HEPATOCELLULAIRE TRAITE PAR TRANSPLANTATION HEPATIQUE : IMPACT SUR LA RECIDIVE

Evolution des paramètres de la transplantation rénale depuis 10 ans - Illustration à partir du rapport d activité de DIVAT

Transplantation pulmonaire et mucoviscidose. Optimiser la prise en charge médicale

Principe d un test statistique

ÉTAT DES LIEUX. Niveau de preuve et gradation des recommandations de bonne pratique

Validation clinique des marqueurs prédictifs le point de vue du méthodologiste. Michel Cucherat UMR CNRS Lyon

MCMC et approximations en champ moyen pour les modèles de Markov

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

L axe 5 du Cancéropole Nord Ouest

Coup de Projecteur sur les Réseaux de Neurones

ÉVALUATION DE LA PERSONNE ATTEINTE D HYPERTENSION ARTÉRIELLE

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

Evidence-based medicine en français

Le risque Idiosyncrasique

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Évaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement

Le dropéridol n est pas un traitement à considérer pour le traitement de la migraine à l urgence

Nouveau Barème W.B.F. de points de victoire 4 à 48 donnes

Modélisation aléatoire en fiabilité des logiciels

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

«Cours Statistique et logiciel R»

Etude des propriétés empiriques du lasso par simulations

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

Face Recognition Performance: Man vs. Machine

Études épidémiologiques analytiques et biais

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Objectifs pédagogiques Lecture critique d article

Innovations thérapeutiques en transplantation

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

GUIDE D INFORMATIONS A LA PREVENTION DE L INSUFFISANCE RENALE

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

PROGRAMME (Susceptible de modifications)

Nombre dérivé et tangente

CONSTRUCTION DE COTE :

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Cas clinique 2. Florence JOLY, Caen François IBORRA, Montpellier

NON-LINEARITE ET RESEAUX NEURONAUX

Evaluation de critères res de substitution de la survie globale dans les cancers bronchiques localement avancés

Optimisation des ressources des produits automobile première

QUALITÉ DE L APPRENTISSAGE DE L INTUBATION ORO-TRACHÉALE EN LABORATOIRE DE SIMULATION, SON INTÉRÊT POUR LES PATIENTS.

Aide-mémoire de statistique appliquée à la biologie

Surveillance épidémiologique : application à la détection et la prédiction des épidémies

Montréal, 24 mars David Levine Président et chef de la direction DL Strategic Consulting. DL Consulting Strategies in Healthcare

Corrigé du baccalauréat S Pondichéry 12 avril 2007

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Dossier de presse Conférence sur le don d'organes

Transports sanitaires

Nouveau plan greffe : Axes stratégiques pour l avenir

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

EFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE

Le VIH et votre apparence physique

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones

Medication management ability assessment: results from a performance based measure in older outpatients with schizophrenia.

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

La classification automatique de données quantitatives

LES DIFFERENTS TYPES DE MESURE

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

LES MODELES DE SCORE

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Observation statistique

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Démarrage du prélèvement d organes et de Tissus sur donneurs décédés au Maroc

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

STATISTIQUES. UE Modélisation pour la biologie

Essais précoces non comparatifs : principes et calcul du nombre de sujets nécessaire

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

Méthodes d apprentissage statistique «Machine Learning»

Le quizz des stats. Xavier Paoletti. Sce de biostatistiques / Inserm U900 Institut Curie

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Arbres binaires de décision

Docteur José LABARERE

Un code-barre sur la tête?

Mulford C. (1992). The Mother-Baby Assessment(MBA): An Apgar Score for breastfeeding. Journal of Human Lactation, 8(2),

Donneurs vivants Risques à long terme. Cours de transplantation Univ. Montréal et McGill 5 avril 2013

Gestion obligataire passive

Mesures d influence individuelle pour modèles de régression en épidémiologie clinique

Transcription:

46 e journées de statistique Le 5 juin 2014 à Rennes Construction et estimation des capacités d un score pronostique : intérêts de la pénalisation de LASSO et de l estimateur bootstrap 0.632+ appliqués aux courbes ROC dépendantes du temps Marie-Cécile Fournier a,b, Florence Gillaizeau a,b,c, Awena Le Fur b,c, Jacques Dantal b,c, Yohann Foucher a,c marie-cecile.fournier@univ-nantes.fr a EA 4275 - SPHERE - Biostatistique, Pharmacoépidémiologie et Mesures Subjectives en Santé, Université de Nantes b INSERM UMR1064, Institut Transplantation-Urologie-Néphrologie, Nantes c Centre Hospitalier Universitaire de Nantes 1 / 14

Nombre de variables Nombre individus Ex : construction de signatures à partir de techniques des puces à ADN Données censurées (survie) : faible nombre d évènements observés Ex : cohorte de faible taille, temps de suivi court... Risque de sur-ajustement (overfitting) Objectifs : 1 Construire un score pronostique 2 Estimer correctement ses capacités pronostiques 2 / 14

Le modèle de Cox Modèle de Cox h(t X 1 = x 1,...,X p = x p ) = h 0 (t)exp(β 1 x 1 +... + β p x p ) h 0 (t) risque de base X = (X 1,...,X p ) vecteur des P variables β = (β 1,...,β p ) coefficients de régression estimés par maximisation de la vraisemblance partielle VP : δ j N VP(β) = exp(βx j) j=1 exp(βx i ) i R j R j individus à risque au temps t j δ j =1 si l évènement a eu lieu, 0 sinon. 3 / 14

La pénalisation de LASSO Sélection des variables sur autre critère que p-value Modèle de Cox avec pénalisation de Lasso } P β = argmax β {VP(β) λ β p p=1 λ 0, le paramètre de pénalisation Nous obtenons le score pronostique η = βx Si η j > c ( c R), alors le patient j est dit à haut risque de subir l évènement avant (temps de pronostic). Tibshirani, 1996 4 / 14

Courbes ROC dépendantes du temps 2 catégories d erreurs possibles : Le taux de faux négatifs : TFN (c) = P(η c T ) Le taux de faux positifs : TFP (c) = P(η > c T > ) T : temps d évènement Taux d erreurs estimés non paramétriquement Courbe ROC dépendante du temps (ROCt) : 1-TFN (c) en fonction de TFP (c) pour toutes les valeurs de c. Aire sous la courbe ROCt (AUCt) Haegerty et al., 2000 Akritas, 1994 5 / 14

Evaluation des capacités pronostiques du score (1) B échantillons de taille N avec remise (Bootstrap) Pour les B échantillons de patients inclus, estimation des paramètres β par maximisation de la vraisemblance pénalisée Estimateur apparent TFN (c) = B 1 B b=1 TFN b+ (c) et TFP (c) = B 1 B b=1 TFP b+ (c) = Sur-estimation des capacités pronostiques Bootstrap Cross Validation TFN BCV (c) = B 1 B b=1 TFN b (c) TFP BCV (c) = B 1 B TFP b (c) b=1 = Sous-estimation des capacités pronostiques 6 / 14

Evaluation des capacités pronostiques du score (2) Probabilité qu un individu soit : [ inclus dans l échantillon bootstrap : lim 1 1 1 ] N =0,632 N + N non inclus dans l échantillon bootstrap : lim N + [ 1 1 N ] N =0,368 Bootstrap 0.632 TFN 0.632 TFP 0.632 (c) = 0,368TFN (c) +0,632TFN BCV (c) (c) = 0,368TFP (c) +0,632TFP BCV (c) = Sur-estimation possible des capacités pronostiques Efron, 1983 ; Foucher & Danger, 2012 7 / 14

Evaluation des capacités pronostiques du score (3) Bootstrap 0.632+ TFN 0.632+ (c) = {1 r(c)}tfn (c) + r(c) TFN BCV (c) TFP 0.632+ (c) = {1 r(c)}tfp (c) + r(c) TFP BCV (c) Amélioration de l estimateur 0.632 : pondération variable selon le taux de sur-ajustement r(c) Efron & Tibshirani, 1997 ; Foucher & Danger, 2012 8 / 14

Estimation du paramètre de pénalisation Classiquement : Par Validation croisée réalisée pour chaque échantillon de bootstrap : tout le modèle est réestimé à chaque itération En pratique : Réestimation coûteuse en temps de calcul Estimation a priori de λ sur tout l échantillon Foucher & Danger, 2012 ; Schumacher et al., 2007 9 / 14

Cohorte DIVAT Nantes Patients transplantés rénaux entre 2000 et 2010 Objectif : Proposer un score pronostique de la survenue d un diabète post transplantation. Score à calculer au moment de la greffe. n = 444 et seulement 58 évènements observés 10 / 14

Choix du paramètre de pénalisation Détermination du score pronostique Aire sous la courbe ROCt 0.60 0.65 0.70 0.75 0.80 sur ajustement Nombre de variables retenues Estimation non corrigée Estimation par bootstrap0.632+ sous ajustement 19 14 12 12 8 7 4 4 3 3 2 0 2 4 6 8 10 Valeur du paramètre de pénalisation PACKAGE R : ROC632 disponible sur www.divat.fr 11 / 14

Evaluation des capacités pronostiques Apport de la correction Marqueurs pronostiques du diabète post-transplantation coefficients Taux de vitamine D à la greffe < 10 ng/ml 0,1592 Age du receveur 55 ans 0,3691 Patient traité par corticostéroïdes 0,2590 Patient traité par tacrolimus 0,6283 Indice de Masse Corporelle du receveur normalisé (centré-réduit) 0,3616 Patient ayant des antécédents cardiovasculaires 0,0647 Aire sous la courbe ROCt Patient ayant des antécédents de dyslipidémie -0,0761 1 TFN(t) 0.0 0.2 0.4 0.6 0.8 1.0 0.632+ (AUCt = 0,68) 0.632 (AUCt = 0,69) BCV (AUCt = 0,66) Apparent (AUCt = 0,75) 0.0 0.2 0.4 0.6 0.8 1.0 TFP(t) 12 / 14

Pas de découpage de l échantillon initial, ce qui évite : l aggravation de la faible puissance des intervalles de confiance plus larges la répétition du découpage jusqu à l obtention de bons résultats Sélection sur un autre critère que la p-value LIMITES Détermination du paramètre de pénalisation subjective Absence d intervalle de confiance pour la courbe ROCt corrigée 13 / 14

Akritas. Nearest neighbor estimation of a bivariate distribution under random censoring. The annals of statistics. 1994 Sep ;22(3) :1299-1327. Efron. Estimating the error rate of a prediction rule : improvement on cross validation. Journal of the american statistical association. 1983 Jun ;78(382)n :316-331. Efron, Tibshirani. Improvements on cross validation : the 632+ bootstrap method. Journal of the american statistical association. 1997 ;92(438) :548-560. Foucher, Danger. Time dependant ROC curves for the estimation of true prognostic capacity of microarray. Statistical applications in genetics and molecular biology. 2012 ;11(6). Haegerty, Lumley, Pepe. Time-dependent ROC curves for censored survival data and a diagnostic marker. Biometrics, 2000 Jun ;56(2) :337-344. Schumacher, Binder, Gerds. Assessment of survival prediction models based on microarray data. Bioinformatics, 23 :1768-1774,2007. Tibshirani. Regression shrinkage and selection via the Lasso. Journal of the Royal Statistical Society series B, 1996 Merci de votre attention 14 / 14