Mots-clés. modèle de Cox, pénalisation de LASSO, bootstrap 0.632+, courbes ROC dépendantes du temps, surajustement



Documents pareils
Application des courbes ROC à l analyse des facteurs pronostiques binaires

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Principe de symétrisation pour la construction d un test adaptatif

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Introduction à l approche bootstrap

INF6304 Interfaces Intelligentes

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Medication management ability assessment: results from a performance based measure in older outpatients with schizophrenia.

Modélisation aléatoire en fiabilité des logiciels

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Projet de thèse. Intitulé de la thèse. Spécialité du doctorat. Problématique scientifique générale

Apports des modèles de survie relative dans la modélisation des patients transplantés rénaux : Application à la cohorte DIVAT

NON-LINEARITE ET RESEAUX NEURONAUX

CALCUL DE LA CONTRIBUTION - FONDS VERT Budget 2008/2009

Face Recognition Performance: Man vs. Machine

Evidence-based medicine en français

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Validation clinique des marqueurs prédictifs le point de vue du méthodologiste. Michel Cucherat UMR CNRS Lyon

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

INFORMATION À DESTINATION DES PROFESSIONNELS DE SANTÉ LE DON DU VIVANT

Données longitudinales et modèles de survie

MCMC et approximations en champ moyen pour les modèles de Markov

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

Post-processing of multimodel hydrological forecasts for the Baskatong catchment

Gènes Diffusion - EPIC 2010

CONSTRUCTION DE COTE :

Objectifs pédagogiques Lecture critique d article

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Wealth Effect on Labor Market Transitions

Transplantation pulmonaire et mucoviscidose. Optimiser la prise en charge médicale

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Nouveau Barème W.B.F. de points de victoire 4 à 48 donnes

Analyse des durées de vie avec le logiciel R

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Filtrage stochastique non linéaire par la théorie de représentation des martingales

BNP Paribas Personal Finance

Archived Content. Contenu archivé

TABLE DES MATIERES. C Exercices complémentaires 42

Qui et quand opérer. au cours du traitement de l EI?

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Ordonnancement en temps réel d un jobshop par métaheuristique hybride : étude comparative

Interest Rate for Customs Purposes Regulations. Règlement sur le taux d intérêt aux fins des douanes CONSOLIDATION CODIFICATION

Essais précoces non comparatifs : principes et calcul du nombre de sujets nécessaire

First Nations Assessment Inspection Regulations. Règlement sur l inspection aux fins d évaluation foncière des premières nations CONSOLIDATION

Improving the breakdown of the Central Credit Register data by category of enterprises

Evaluation de critères res de substitution de la survie globale dans les cancers bronchiques localement avancés

BIG Data et R: opportunités et perspectives

Forthcoming Database

PROJET DE LOI 15 BILL 15. 1st Session, 56th 58th Legislature New Brunswick Elizabeth II, II,

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

HENDRICH FALL RISK MODEL (HFRM)

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

Coup de Projecteur sur les Réseaux de Neurones

Calculation of Interest Regulations. Règlement sur le calcul des intérêts CONSOLIDATION CODIFICATION. Current to August 4, 2015 À jour au 4 août 2015

«Cours Statistique et logiciel R»

La recherche clinique au cœur du progrès thérapeutique

IMMED Monitoring vidéo porté

Evolution des paramètres de la transplantation rénale depuis 10 ans - Illustration à partir du rapport d activité de DIVAT

Institut français des sciences et technologies des transports, de l aménagement

FOURTH SESSION : "MRP & CRP"

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

PROGRAF MC Toutes indications

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

Validation probabiliste d un Système de Prévision d Ensemble

Transmission d informations sur le réseau électrique

Mulford C. (1992). The Mother-Baby Assessment(MBA): An Apgar Score for breastfeeding. Journal of Human Lactation, 8(2),

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

LOI SUR LA RECONNAISSANCE DE L'ADOPTION SELON LES COUTUMES AUTOCHTONES ABORIGINAL CUSTOM ADOPTION RECOGNITION ACT

Etude des propriétés empiriques du lasso par simulations

AGROBASE : un système de gestion de données expérimentales

BILL C-452 PROJET DE LOI C-452 C-452 C-452 HOUSE OF COMMONS OF CANADA CHAMBRE DES COMMUNES DU CANADA

Améliorations du schéma de nuage et de EDKF dans AROME/MésoNH

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

EFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE

MANUEL MARKETING ET SURVIE PDF

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

La rencontre du Big Data et du Cloud

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

RETHINKING JACQUES ELLUL AND THE TECHNOLOGICAL SOCIETY IN THE 21ST CENTURY REPENSER JACQUES ELLUL ET LA SOCIETE TECHNICIENNE AU 21EME SIECLE

Modélisation géostatistique des débits le long des cours d eau.

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

CORRELATION RADIO-ANATOMIQUE DANS LE CARCINOME HEPATOCELLULAIRE TRAITE PAR TRANSPLANTATION HEPATIQUE : IMPACT SUR LA RECIDIVE

Exemple PLS avec SAS

Loi sur l aide financière à la Banque Commerciale du Canada. Canadian Commercial Bank Financial Assistance Act CODIFICATION CONSOLIDATION

Bourses d excellence pour les masters orientés vers la recherche

Principe d un test statistique

Monitor LRD. Table des matières

Bill 69 Projet de loi 69

Mesures d influence individuelle pour modèles de régression en épidémiologie clinique

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

23. Interprétation clinique des mesures de l effet traitement

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

Intérêt diagnostic du dosage de la CRP et de la leucocyte-estérase dans le liquide articulaire d une prothèse de genou infectée

Eléments de statistique

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Transcription:

Construction et estimation des capacités d un score pronostique : intérêt de la pénalisation de LASSO et de l estimateur bootstrap 0.632+ appliqués aux courbes ROC dépendantes du temps Marie-Cécile Fournier,,1 & Florence Gillaizeau,,2 & Awena Le Fur,3 & Jacques Dantal,4 & Yohann Foucher,,5 EA4275 Biostatistique, pharmacoépidémiologie et mesures subjectives en santé, 1 rue Gaston Veil, 44035 NANTES ITUN Institut de Transplantation Urologie Néphrologie INSERM UMR1064, 1 Place Alexis Ricordeau, 44093 Nantes cedex 1 E-mail : 1 marie-cecile.fournier@univ-nantes.fr ; 2 florence.gillaizeau@univ-nantes.fr ; 3 awelefur@hotmail.fr ; 4 jacques.dantal@chu-nantes.fr ; 5 yohann.foucher@univ-nantes.fr Résumé. Les données de masse ou big data sont caractérisées par un petit nombre d individus et un grand nombre de variables. Face au risque de surajustement, les méthodes de régression et de sélection classiques ne peuvent plus être utilisées. Une solution est la pénalisation de LASSO qui sélectionne les variables sur la vraisemblance pénalisée. En présence de données censurées, elle peut être appliquée au modèle de Cox pour construire un score pronostique. L estimation des capacités prédictives du score obtenu est réalisée avec des courbes ROC dépendantes du temps et corrigée par un algorithme de rééchantillonnage : le bootstrap 0.632+. Cette méthode, publiée auparavant dans le champ des biopuces et validée par des études de simulations, est présentée ici pour une application alternative sur données cliniques réelles dans le domaine de la transplantation rénale. Mots-clés. modèle de Cox, pénalisation de LASSO, bootstrap 0.632+, courbes ROC dépendantes du temps, surajustement Abstract. Big data are characterized by a few number of individuals and a lot of variables. Given the risk of overfitting, classical methods of regression and selection are no longer adequate. One solution is the LASSO penalization which selects variables using the penalized likelihood. In the presence of censored data, it can be applied to the Cox model to obtain a prognostic score. The estimation of predictive capacities of the score are determined from time dependent ROC curves and corrected with a bootstrap algorithm : the bootstrap 0.632+. This method, published previously in the context of microarray data and validated by simulations, is described here with an application to real clinical data in kidney transplantation study. Keywords. Cox model, LASSO penalization, 0.632+ bootstrap estimator, time dependent ROC curves, overfitting 1

1 Introduction La prédiction du devenir d un individu est d un intérêt primordial pour de nombreuses disciplines, tout particulièrement dans le domaine de la santé. Dans les études de cohorte, de nombreuses variables explicatives peuvent être renseignées au moment de l inclusion d un individu, ce dernier étant suivi jusqu à l occurrence d un certain évènement. Selon le temps de suivi, cet évènement peut ne pas être observé (censure à droite). Les courbes ROC dépendantes du temps développées par Heagerty (2000) permettent d estimer les capacités pronostiques d un score en tenant compte de ce phénomène de censure. L adaptation de l estimateur bootstrap 0.632+ aux courbes ROC dépendantes du temps présentée ici a été motivée initialement pour la construction de signatures à partir de la technique des puces à ADN. Celles-ci sont caractérisées par un nombre de variables explicatives supérieur au nombre d individus, situation de surajustement qui se retrouve dans d autres contextes lorsque peu d évènements sont observés. La validation d un score se fait habituellement sur un échantillon (dit de validation) indépendant de celui qui a servi à sa construction (échantillon d apprentissage). Cela induit une perte de puissance et des intervalles de confiance larges, notamment en présence de surajustement. De plus, pour certains utilisateurs peu scrupuleux, ce découpage peut être répété jusqu à l obtention des résultats souhaités. L intérêt d un échantillon indépendant de validation perd alors son pouvoir de preuve. Ce travail propose l adaptation de l estimateur par bootstrap 0.632+ aux courbes ROC dépendantes du temps publiée par Foucher et Danger (2012). Notre objectif est de montrer l intérêt de cette approche dans des études d épidémiologie clinique classiques pour des chercheurs qui souhaitent proposer un score de pronostic. 2 Modèle de Cox avec pénalisation de LASSO Soient X le vecteur des p covariables potentiellement prédictives de l évènement étudié X = (X 1,..., X P ) et x j = (x j1,..., x jp ) les observations associées à l individu j (j = 1...N). Soient T j le temps d évènement de l individu j et C j le temps de censure, on en déduit l indicatrice de l évènement δ j (δ j = 1 si T j C j, 0 sinon). Posons Y j le temps de dernière information pour le sujet j tel que : Y j = min(t j, C j ). Alors, le modèle de Cox s écrit : h(t x j ) = h 0 (t)exp(βx j) (1) où h 0 (t) est la fonction de risque de base non spécifiée et β = (β 1,..., β P ) est le vecteur des coefficients de régression. L estimation classique est basée sur le maximum de vraisemblance partielle l(β). L approche LASSO (Tibshirani, 1996) permet de restreindre le nombre de paramètres dans un modèle en pénalisant la vraisemblance { partielle du} modèle de Cox telle que : P β = argmax l(β) λ β p (2) où λ est le paramètre de pénalisation positif ou nul. 2 p=1

3 Courbes ROC dépendantes du temps Nous souhaitons à présent évaluer les capacités prédictives de notre index pronostique estimé précédemment ˆη = ˆβx. Les valeurs importantes du score η sont en faveur de l évènement. Soit τ le temps de pronostic, alors le patient est défini à haut risque de subir l évènement avant τ si η > c, c étant le seuil recherché. D après la définition de Heagerty et al. (2000), le taux de faux négatifs (TFN) et le taux de faux positifs (TFP) pour un pronostic au temps τ sont respectivement T F N τ (c) = P (η c T τ) et T F P τ (c) = P (η > c T > τ). Les capacités pronostiques de ˆη sont résumées par la courbe ROC dépendante du temps, notée ROCt : 1 T F N τ (c) est tracé en fonction de T F P τ (c) pour tous les seuils c. L aire sous cette courbe évalue les capacités pronostiques : il s agit de la probabilité qu une personne subissant l évènement avant τ ait une valeur du score supérieure à un individu libre de l évènement au temps τ. Ces taux d erreur peuvent être estimés de manière non paramétrique : T F N τ (c) = {Ĝ(c) Ŝ(, τ) + Ŝ(c, τ)}/{1 Ŝ(, τ)} (3) T F P τ (c) = Ŝ(c, τ)/ŝ(, τ) (4) où Ĝ() est une estimation de la fonction de répartition de η, donnée par N 1 j 1(ˆη j < c), et S(c, τ) = P (η > c, T > τ) est la survie bivariée de η et T. Cette probabilité jointe peut être estimée par la méthode proposée par Akritas (1994) : Ŝ(c, τ) = N 1 N j=1 Ŝ(τ ˆη = ˆη j )1(ˆη j > c) (5) où Ŝ(τ ˆη = ˆη j) est un estimateur de la fonction de survie conditionnelle basée sur un noyau des plus proches voisins. Soit K le noyau des plus proches voisins, le principe étant de choisir les patients éligibles, c est à dire les patients tels que la valeur de leur marqueur soit proche de la valeur ˆη j d intérêt : K π (ˆη j, ˆη l ) = 1( π < Ĝ(ˆη j) Ĝ(ˆη l) < π). 2π représente la proportion de voisins inclus. A partir de cette définition, l estimation de la survie conditionnelle s écrit comme un estimateur de Kaplan Meier pondéré : Ŝ(τ ˆη = ˆη j ) = s τ { 1 K π (ˆη j, ˆη l )1(y l = s)δ l } l K π (ˆη j, ˆη l )1(y l s) Nous obtenons alors les taux d erreur de prédiction pour notre score en incluant le phénomène de censure. Mais, en estimant ces taux sur les individus ayant servis au développement du score, nous surestimons ses capacités prédictives. Pour une estimation correcte, nous proposons l utilisation de la méthode de rééchantillonnage par bootstrap 0.632+, amélioration des méthodes par bootstrap cross-validation (BCV) ou par bootstrap 0.632. 3 l (6)

3.1 Bootstrap Cross Validation Soit B (b = 1,..., B) échantillons de bootstrap de taille N avec remise. Pour les B échantillons, l estimation des coefficients β b est réalisée par maximisation de la vraisemblance pénalisée. Pour les B échantillons des patients non inclus dans les échantillons de bootstrap, les quantités F NR b τ(c) et F P R b τ(c) sont calculées. Ainsi, on obtient par Bootstrap Cross Validation (BCV) les estimations suivantes : F NR BCV τ (c) = B 1 F P R BCV τ (c) = B 1 B F NR b τ(c) (7) b=1 B F P R b τ(c) (8) b=1 La courbe ROCt par BCV est définie par 1 F NR BCV τ (c) en fonction de F P R BCV τ (c) pour toutes les valeurs de c. Cependant, Efron (1983) et Foucher et Danger (2012) ont montré que cette courbe peut-être associée à une sous-estimation des capacités pronostiques. En effet, si N est suffisamment grand (N 40), la probabilité qu un individu soit tiré au sort dans l échantillon de bootstrap est : 1 (1 1/N) N 0.632. Cette proportion est composée d individus pouvant être répliqués alors que la proportion (1 1/N) N 0.368 est composée d individus indépendants entre eux. Cette situation pénalise les capacités pronostiques d un score calculé à partir d individus plus homogènes mais validé sur un échantillon toujours plus hétérogène. 3.2 Bootstrap 0.632 Afin de corriger ce biais, les mêmes auteurs ont proposé l estimateur 0.632 : F NR 0.632 τ (c) = 0.368F NR τ (c) + 0.632 F NR BCV τ (c) (9) F P R 0.632 τ (c) = 0.368F P R τ (c) + 0.632 F P R BCV τ (c) où F NR τ (c) et F P R τ (c) sont les taux apparents, calculés de la même manière que dans (7) et (8) mais en utilisant les individus inclus dans les échantillons de bootstrap. La courbe ROCt bootstrap 0.632 est définie par 1 F NR 0.632 τ (c) en fonction de F P R 0.632 τ (c) pour toutes les valeurs de c. Cette approche peut cependant surestimer la capacité pronostique en présence d un fort sur-ajustement des données où les capacités apparentes de prédiction peuvent être proches de la perfection. Efron et Tibshirani (1997) ont amélioré la correction avec l estimateur 0.632+. 4

3.3 Bootstrap 0.632+ Cet estimateur a été adapté aux données censurées par Foucher et Danger (2012) : F NR 0.632+ τ (c) = {1 ψ( r F NR,τ (c))}f NR τ (c) + ψ( r F NR,τ (c)) F NR BCV τ (c) (10) F P R 0.632+ τ (c) = {1 ψ( r F P R,τ (c))}f P R τ (c) + ψ( r F P R,τ (c)) F P R BCV τ (c) (11) avec ψ(x) = 0.632/(1 0.368x) r F NR,τ (c) = { F NR BCV τ (c) F NR τ (c) } / { γ F NR,τ (c) F NR τ (c) } r F P R,τ (c) = { F P R BCV τ (c) F P R τ (c) } / { γ F P R,τ (c) F P R τ (c) } r sont les taux de surajustement et γ est le taux de non-information associé aux taux de faux négatifs et de faux positifs. Il peut être estimé en utilisant toutes les données et en considérant l indépendance entre η et T : γ F NR,τ (c) = 1 γ F P R,τ (c) La courbe ROCt bootstrap 0.632+ est définie par 1 F NR 0.632+ τ (c) en fonction de F P R 0.632+ τ (c) pour toutes les valeurs de c. 3.4 Estimation du paramètre de pénalisation Le paramètre de pénalisation λ est classiquement estimé par validation croisée, ce qui doit être réalisé pour chaque échantillon bootstrap (ˆλ b ), tout le modèle devant être théoriquement réestimé à chaque itération. Cependant, la convergence de la validation croisée est discutable et cette réestimation est couteuse en temps de calcul. Foucher et Danger (2012) ont par ailleurs montré que l estimation a priori de λ sur tout l échantillon n avait pas d impact sur un éventuel surajustement. C est aussi le choix fait par Schumacher et al. (2007). Nous appliquons ici la même simplification et proposons de fixer ce paramètre dès la première étape. 3.5 Application Notre application a été réalisée à partir de la cohorte prospective DIVAT (Données Informatisées et VAlidée en Transplantation www.divat.fr) de Nantes incluant des patients transplantés rénaux entre 2000 et 2010. L objectif est de proposer un score pronostique de la survenue d un diabète post transplantation. On souhaite déterminer ce score au moment de la greffe afin de pouvoir envisager des modifications de la prise en charge des patients (modalités de suivi, prescriptions médicamenteuses, etc.). L échantillon disponible contient 444 patients mais seulement 58 évènements sont observés. La variable d étude est le délai entre la greffe et la survenue du diabète. Nous censurons les patients à la date du 5

retour en dialyse (perte du greffon), du décès du patient avec son greffon fonctionnel ou à la date des dernières nouvelles. Pour déterminer le score pronostique, nous utilisons le package ROC632 que nous avons implémenté en R. Nous obtenons alors un score comprenant 7 facteurs pronostiques. L apport de la correction de l estimation des capacités prédictives est illustrée dans le graphique suivant. Aire aire sous la courbe ROCt 0.60 0.65 0.70 0.75 0.80 sur ajustement Nombre de variables retenues Estimation non corrigée Estimation par bootstrap0.632+ sous ajustement 19 14 12 12 8 7 4 4 3 3 2 0 2 4 6 8 10 Valeur du paramètre de pénalisation Bibliographie [1] Akritas MG. Nearest neighbor estimation of a bivariate distribution under random censoring. The annals of statistics. 1994 Sep;22(3):1299-1327. [2] Efron B. Estimating the error rate of a prediction rule : improvement on cross validation. Journal of the american statistical association. 1983 Jun;78(382)n:316-331. [3] Efron B, Tibshirani R. Improvements on cross validation : the 632+ bootstrap method. Journal of the american statistical association. 1997;92(438):548-560. [4] Foucher Y, Danger R. Time dependant ROC curves for the estimation of true prognostic capacity of microarray. Statistical applications in genetics and molecular biology. 2012;11(6). [5] Heagerty PJ, Lumley T, Pepe MS. Time dependent ROC curves for censored survival data and a diagnostic marker. Biometrics. 2000 Jun;56(2):337-344. [6] Schumacher M, Binder, Gerds T. Assessment of survival prediction models based on microarray data. Bioinformatics, 23:1768-1774, 2007. [7] Tibshirani R. Regression shrinkage and selection via the Lasso. Journal of the royal statistical society series B. 1996. 6