Mots-clés. modèle de Cox, pénalisation de LASSO, bootstrap , courbes ROC dépendantes du temps, surajustement
|
|
- Christelle Bordeleau
- il y a 1 ans
- Total affichages :
Transcription
1 Construction et estimation des capacités d un score pronostique : intérêt de la pénalisation de LASSO et de l estimateur bootstrap appliqués aux courbes ROC dépendantes du temps Marie-Cécile Fournier,,1 & Florence Gillaizeau,,2 & Awena Le Fur,3 & Jacques Dantal,4 & Yohann Foucher,,5 EA4275 Biostatistique, pharmacoépidémiologie et mesures subjectives en santé, 1 rue Gaston Veil, NANTES ITUN Institut de Transplantation Urologie Néphrologie INSERM UMR1064, 1 Place Alexis Ricordeau, Nantes cedex ; 2 ; 3 ; 4 ; 5 Résumé. Les données de masse ou big data sont caractérisées par un petit nombre d individus et un grand nombre de variables. Face au risque de surajustement, les méthodes de régression et de sélection classiques ne peuvent plus être utilisées. Une solution est la pénalisation de LASSO qui sélectionne les variables sur la vraisemblance pénalisée. En présence de données censurées, elle peut être appliquée au modèle de Cox pour construire un score pronostique. L estimation des capacités prédictives du score obtenu est réalisée avec des courbes ROC dépendantes du temps et corrigée par un algorithme de rééchantillonnage : le bootstrap Cette méthode, publiée auparavant dans le champ des biopuces et validée par des études de simulations, est présentée ici pour une application alternative sur données cliniques réelles dans le domaine de la transplantation rénale. Mots-clés. modèle de Cox, pénalisation de LASSO, bootstrap , courbes ROC dépendantes du temps, surajustement Abstract. Big data are characterized by a few number of individuals and a lot of variables. Given the risk of overfitting, classical methods of regression and selection are no longer adequate. One solution is the LASSO penalization which selects variables using the penalized likelihood. In the presence of censored data, it can be applied to the Cox model to obtain a prognostic score. The estimation of predictive capacities of the score are determined from time dependent ROC curves and corrected with a bootstrap algorithm : the bootstrap This method, published previously in the context of microarray data and validated by simulations, is described here with an application to real clinical data in kidney transplantation study. Keywords. Cox model, LASSO penalization, bootstrap estimator, time dependent ROC curves, overfitting 1
2 1 Introduction La prédiction du devenir d un individu est d un intérêt primordial pour de nombreuses disciplines, tout particulièrement dans le domaine de la santé. Dans les études de cohorte, de nombreuses variables explicatives peuvent être renseignées au moment de l inclusion d un individu, ce dernier étant suivi jusqu à l occurrence d un certain évènement. Selon le temps de suivi, cet évènement peut ne pas être observé (censure à droite). Les courbes ROC dépendantes du temps développées par Heagerty (2000) permettent d estimer les capacités pronostiques d un score en tenant compte de ce phénomène de censure. L adaptation de l estimateur bootstrap aux courbes ROC dépendantes du temps présentée ici a été motivée initialement pour la construction de signatures à partir de la technique des puces à ADN. Celles-ci sont caractérisées par un nombre de variables explicatives supérieur au nombre d individus, situation de surajustement qui se retrouve dans d autres contextes lorsque peu d évènements sont observés. La validation d un score se fait habituellement sur un échantillon (dit de validation) indépendant de celui qui a servi à sa construction (échantillon d apprentissage). Cela induit une perte de puissance et des intervalles de confiance larges, notamment en présence de surajustement. De plus, pour certains utilisateurs peu scrupuleux, ce découpage peut être répété jusqu à l obtention des résultats souhaités. L intérêt d un échantillon indépendant de validation perd alors son pouvoir de preuve. Ce travail propose l adaptation de l estimateur par bootstrap aux courbes ROC dépendantes du temps publiée par Foucher et Danger (2012). Notre objectif est de montrer l intérêt de cette approche dans des études d épidémiologie clinique classiques pour des chercheurs qui souhaitent proposer un score de pronostic. 2 Modèle de Cox avec pénalisation de LASSO Soient X le vecteur des p covariables potentiellement prédictives de l évènement étudié X = (X 1,..., X P ) et x j = (x j1,..., x jp ) les observations associées à l individu j (j = 1...N). Soient T j le temps d évènement de l individu j et C j le temps de censure, on en déduit l indicatrice de l évènement δ j (δ j = 1 si T j C j, 0 sinon). Posons Y j le temps de dernière information pour le sujet j tel que : Y j = min(t j, C j ). Alors, le modèle de Cox s écrit : h(t x j ) = h 0 (t)exp(βx j) (1) où h 0 (t) est la fonction de risque de base non spécifiée et β = (β 1,..., β P ) est le vecteur des coefficients de régression. L estimation classique est basée sur le maximum de vraisemblance partielle l(β). L approche LASSO (Tibshirani, 1996) permet de restreindre le nombre de paramètres dans un modèle en pénalisant la vraisemblance { partielle du} modèle de Cox telle que : P β = argmax l(β) λ β p (2) où λ est le paramètre de pénalisation positif ou nul. 2 p=1
3 3 Courbes ROC dépendantes du temps Nous souhaitons à présent évaluer les capacités prédictives de notre index pronostique estimé précédemment ˆη = ˆβx. Les valeurs importantes du score η sont en faveur de l évènement. Soit τ le temps de pronostic, alors le patient est défini à haut risque de subir l évènement avant τ si η > c, c étant le seuil recherché. D après la définition de Heagerty et al. (2000), le taux de faux négatifs (TFN) et le taux de faux positifs (TFP) pour un pronostic au temps τ sont respectivement T F N τ (c) = P (η c T τ) et T F P τ (c) = P (η > c T > τ). Les capacités pronostiques de ˆη sont résumées par la courbe ROC dépendante du temps, notée ROCt : 1 T F N τ (c) est tracé en fonction de T F P τ (c) pour tous les seuils c. L aire sous cette courbe évalue les capacités pronostiques : il s agit de la probabilité qu une personne subissant l évènement avant τ ait une valeur du score supérieure à un individu libre de l évènement au temps τ. Ces taux d erreur peuvent être estimés de manière non paramétrique : T F N τ (c) = {Ĝ(c) Ŝ(, τ) + Ŝ(c, τ)}/{1 Ŝ(, τ)} (3) T F P τ (c) = Ŝ(c, τ)/ŝ(, τ) (4) où Ĝ() est une estimation de la fonction de répartition de η, donnée par N 1 j 1(ˆη j < c), et S(c, τ) = P (η > c, T > τ) est la survie bivariée de η et T. Cette probabilité jointe peut être estimée par la méthode proposée par Akritas (1994) : Ŝ(c, τ) = N 1 N j=1 Ŝ(τ ˆη = ˆη j )1(ˆη j > c) (5) où Ŝ(τ ˆη = ˆη j) est un estimateur de la fonction de survie conditionnelle basée sur un noyau des plus proches voisins. Soit K le noyau des plus proches voisins, le principe étant de choisir les patients éligibles, c est à dire les patients tels que la valeur de leur marqueur soit proche de la valeur ˆη j d intérêt : K π (ˆη j, ˆη l ) = 1( π < Ĝ(ˆη j) Ĝ(ˆη l) < π). 2π représente la proportion de voisins inclus. A partir de cette définition, l estimation de la survie conditionnelle s écrit comme un estimateur de Kaplan Meier pondéré : Ŝ(τ ˆη = ˆη j ) = s τ { 1 K π (ˆη j, ˆη l )1(y l = s)δ l } l K π (ˆη j, ˆη l )1(y l s) Nous obtenons alors les taux d erreur de prédiction pour notre score en incluant le phénomène de censure. Mais, en estimant ces taux sur les individus ayant servis au développement du score, nous surestimons ses capacités prédictives. Pour une estimation correcte, nous proposons l utilisation de la méthode de rééchantillonnage par bootstrap , amélioration des méthodes par bootstrap cross-validation (BCV) ou par bootstrap l (6)
4 3.1 Bootstrap Cross Validation Soit B (b = 1,..., B) échantillons de bootstrap de taille N avec remise. Pour les B échantillons, l estimation des coefficients β b est réalisée par maximisation de la vraisemblance pénalisée. Pour les B échantillons des patients non inclus dans les échantillons de bootstrap, les quantités F NR b τ(c) et F P R b τ(c) sont calculées. Ainsi, on obtient par Bootstrap Cross Validation (BCV) les estimations suivantes : F NR BCV τ (c) = B 1 F P R BCV τ (c) = B 1 B F NR b τ(c) (7) b=1 B F P R b τ(c) (8) b=1 La courbe ROCt par BCV est définie par 1 F NR BCV τ (c) en fonction de F P R BCV τ (c) pour toutes les valeurs de c. Cependant, Efron (1983) et Foucher et Danger (2012) ont montré que cette courbe peut-être associée à une sous-estimation des capacités pronostiques. En effet, si N est suffisamment grand (N 40), la probabilité qu un individu soit tiré au sort dans l échantillon de bootstrap est : 1 (1 1/N) N Cette proportion est composée d individus pouvant être répliqués alors que la proportion (1 1/N) N est composée d individus indépendants entre eux. Cette situation pénalise les capacités pronostiques d un score calculé à partir d individus plus homogènes mais validé sur un échantillon toujours plus hétérogène. 3.2 Bootstrap Afin de corriger ce biais, les mêmes auteurs ont proposé l estimateur : F NR τ (c) = 0.368F NR τ (c) F NR BCV τ (c) (9) F P R τ (c) = 0.368F P R τ (c) F P R BCV τ (c) où F NR τ (c) et F P R τ (c) sont les taux apparents, calculés de la même manière que dans (7) et (8) mais en utilisant les individus inclus dans les échantillons de bootstrap. La courbe ROCt bootstrap est définie par 1 F NR τ (c) en fonction de F P R τ (c) pour toutes les valeurs de c. Cette approche peut cependant surestimer la capacité pronostique en présence d un fort sur-ajustement des données où les capacités apparentes de prédiction peuvent être proches de la perfection. Efron et Tibshirani (1997) ont amélioré la correction avec l estimateur
5 3.3 Bootstrap Cet estimateur a été adapté aux données censurées par Foucher et Danger (2012) : F NR τ (c) = {1 ψ( r F NR,τ (c))}f NR τ (c) + ψ( r F NR,τ (c)) F NR BCV τ (c) (10) F P R τ (c) = {1 ψ( r F P R,τ (c))}f P R τ (c) + ψ( r F P R,τ (c)) F P R BCV τ (c) (11) avec ψ(x) = 0.632/( x) r F NR,τ (c) = { F NR BCV τ (c) F NR τ (c) } / { γ F NR,τ (c) F NR τ (c) } r F P R,τ (c) = { F P R BCV τ (c) F P R τ (c) } / { γ F P R,τ (c) F P R τ (c) } r sont les taux de surajustement et γ est le taux de non-information associé aux taux de faux négatifs et de faux positifs. Il peut être estimé en utilisant toutes les données et en considérant l indépendance entre η et T : γ F NR,τ (c) = 1 γ F P R,τ (c) La courbe ROCt bootstrap est définie par 1 F NR τ (c) en fonction de F P R τ (c) pour toutes les valeurs de c. 3.4 Estimation du paramètre de pénalisation Le paramètre de pénalisation λ est classiquement estimé par validation croisée, ce qui doit être réalisé pour chaque échantillon bootstrap (ˆλ b ), tout le modèle devant être théoriquement réestimé à chaque itération. Cependant, la convergence de la validation croisée est discutable et cette réestimation est couteuse en temps de calcul. Foucher et Danger (2012) ont par ailleurs montré que l estimation a priori de λ sur tout l échantillon n avait pas d impact sur un éventuel surajustement. C est aussi le choix fait par Schumacher et al. (2007). Nous appliquons ici la même simplification et proposons de fixer ce paramètre dès la première étape. 3.5 Application Notre application a été réalisée à partir de la cohorte prospective DIVAT (Données Informatisées et VAlidée en Transplantation de Nantes incluant des patients transplantés rénaux entre 2000 et L objectif est de proposer un score pronostique de la survenue d un diabète post transplantation. On souhaite déterminer ce score au moment de la greffe afin de pouvoir envisager des modifications de la prise en charge des patients (modalités de suivi, prescriptions médicamenteuses, etc.). L échantillon disponible contient 444 patients mais seulement 58 évènements sont observés. La variable d étude est le délai entre la greffe et la survenue du diabète. Nous censurons les patients à la date du 5
6 retour en dialyse (perte du greffon), du décès du patient avec son greffon fonctionnel ou à la date des dernières nouvelles. Pour déterminer le score pronostique, nous utilisons le package ROC632 que nous avons implémenté en R. Nous obtenons alors un score comprenant 7 facteurs pronostiques. L apport de la correction de l estimation des capacités prédictives est illustrée dans le graphique suivant. Aire aire sous la courbe ROCt sur ajustement Nombre de variables retenues Estimation non corrigée Estimation par bootstrap sous ajustement Valeur du paramètre de pénalisation Bibliographie [1] Akritas MG. Nearest neighbor estimation of a bivariate distribution under random censoring. The annals of statistics Sep;22(3): [2] Efron B. Estimating the error rate of a prediction rule : improvement on cross validation. Journal of the american statistical association Jun;78(382)n: [3] Efron B, Tibshirani R. Improvements on cross validation : the 632+ bootstrap method. Journal of the american statistical association. 1997;92(438): [4] Foucher Y, Danger R. Time dependant ROC curves for the estimation of true prognostic capacity of microarray. Statistical applications in genetics and molecular biology. 2012;11(6). [5] Heagerty PJ, Lumley T, Pepe MS. Time dependent ROC curves for censored survival data and a diagnostic marker. Biometrics Jun;56(2): [6] Schumacher M, Binder, Gerds T. Assessment of survival prediction models based on microarray data. Bioinformatics, 23: , [7] Tibshirani R. Regression shrinkage and selection via the Lasso. Journal of the royal statistical society series B
46 e journées de statistique
46 e journées de statistique Le 5 juin 2014 à Rennes Construction et estimation des capacités d un score pronostique : intérêts de la pénalisation de LASSO et de l estimateur bootstrap 0.632+ appliqués
Marine Lorent, Yohann Foucher, Magali Giral. 13 Décembre 2012. Di at EA-4275
Courbes ROC nettes dépendantes du temps : méthode d évaluation de la capacité d un marqueur à prédire la mortalité liée à l insuffisance rénale terminale chez des patients transplantés rénaux. Marine Lorent,
Test de comparaison de deux modèles de régression non paramétriques basé sur les coefficients de Fourier
Test de comparaison de deux modèles de régression non paramétriques basé sur les coefficients de Fourier Zaher Mohdeb Université Mentouri Département de Mathématiques, Constantine, Algérie E-mail: zaher.mohdeb@umc.edu.dz
Application des courbes ROC à l analyse des facteurs pronostiques binaires
Application des courbes ROC à l analyse des facteurs pronostiques binaires Combescure C (1), Perneger TV (1), Weber DC (2), Daurès J P (3), Foucher Y (4) (1) Service d épidémiologie clinique et Centre
Estimation spline de quantiles conditionnels pour variables explicatives fonctionnelles
Estimation spline de quantiles conditionnels pour variables explicatives fonctionnelles Hervé Cardot 1, Christophe Crambes 2 & Pascal Sarda 2,3 1 INRA Toulouse, Biométrie et Intelligence Artificielle,
geffray@math.unistra.fr Outils pour la statistique avancée Année 2015/2016 TD 1 : Bootstrap
Université de Strasbourg Ségolen Geffray M2 - Statistique geffray@math.unistra.fr Outils pour la statistique avancée Année 2015/2016 TD 1 : Bootstrap Ces exercices seront effectués au moyen du logiciel
Evaluation des outils pronostiques
Evaluation des outils pronostiques Combescure Christophe Centre de recherche clinique, Université de Genève Service d épidémiologie clinique, HUG 1 Evaluation des outils diagnostiques Particularité des
Econométrie des modèles de durée
Econométrie des modèles de durée Guillaume Horny Banque de France et UCLouvain Master 2 MOSEF Guillaume Horny (Banque de France) Econométrie des durées (chap 2) 2009 1 / 59 Chapitre 2 : Temps discret et
Exercice n 9 : Ne pas confondre observer et expérimenter
Le pronostic des cancers du sein dépend de divers facteurs, dont la taille du cancer. En France, au cours d une étude, il a été observé un taux de survie plus important chez les femmes ayant un cancer
Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande
Université de Nantes M2 Ingénierie Mathématiques Rapport de chimiométrie Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de
Statistiques Appliquées Rôle des femmes dans la société
Statistiques Appliquées Rôle des femmes dans la société Denis Schelling Semestre d automne 2012 Résumé A partir de données concernant le rôle des femmes dans la société, nous avons effectué une analyse
Modèle mixte non linéaire. Application à la modélisation de processus dynamiques et prise en compte d effets génotypiques et environnementaux
Modèle mixte non linéaire. Application à la modélisation de processus dynamiques et prise en compte d effets génotypiques et environnementaux Hervé Monod Unité MIA-Jouy en Josas INRA - Dépt Mathématiques
Construction du modèle de Fine et Gray par un modèle de Cox pondéré. Exemple d analyse stratifiée sur des données post-allogreffe.
Construction du modèle de Fine et Gray par un modèle de Cox pondéré. Exemple d analyse stratifiée sur des données post-allogreffe. Benjamin Esterni, Jean-Marie Boher, Aurélie Autret, Roberto Crocchiolo
ÉLÉMENTS D OPTIMISATION. Complément au cours et au livre de MTH 1101 - CALCUL I
ÉLÉMENTS D OPTIMISATION Complément au cours et au livre de MTH 1101 - CALCUL I CHARLES AUDET DÉPARTEMENT DE MATHÉMATIQUES ET DE GÉNIE INDUSTRIEL ÉCOLE POLYTECHNIQUE DE MONTRÉAL Hiver 2011 1 Introduction
Évaluation des capacités pronostiques d un biomarqueur : Une revue des C-index
Évaluation des capacités pronostiques d un biomarqueur : Une revue des C-index Christophe Combescure Service d épidémiologie clinique Centre de recherche clinique 1 Introduction Quelle est la pertinence
Une approche originale pour l évaluation des capacités pronostiques d un marqueur à partir de courbes de survie
Une approche originale pour l évaluation des capacités pronostiques d un marqueur à partir de courbes de survie publiées Etienne Dantan 1, Christophe Combescure 2, Marine Lorent 3, Joanna Ashton-Chess
de Nantes, 30 Bd. Jean Monnet, Nantes.
Courbes ROC nettes dépendantes du temps : une méthode d évaluation de la capacité d un marqueur à prédire la mortalité spécifiquement liée à une maladie. Marine Lorent 1, Magali Giral 2 & Yohann Foucher
Séminaire d Epidémiologie Animale Analyse de données en présence de clusters
Analyse de données en présence de clusters Notion de clusters Conséquences de la non prise en compte des clusters Un exemple, une structure hiérarchique Elevage > Animal Le facteur d inflation de la variance
Volume et température d un gaz
Volume et température d un gaz Par Pascal Rebetez Janvier 7 Introduction Après avoir étudié expérimentalement la relation entre le volume et la température d un gaz (de l air), nous comparons les données
Tests d hypothèses restreintes
Tests d hypothèses restreintes Céline Delmas & Jean-Louis Foulley Station de Génétique Quantitative et Appliquée I.N.R.A., Domaine de Vilvert 7835 Jouy-en-Josas Cedex {delmas,foulley}@dga.jouy.inra.fr
Techniques d estimation : Maximum de Vraisemblance et Méthode des Moments Généralisée
Techniques d estimation : Maximum de Vraisemblance et Méthode des Moments Généralisée Philippe Gagnepain Université Paris 1 Ecole d Economie de Paris Centre d économie de la Sorbonne-UG 4-Bureau 405 philippe.gagnepain@univ-paris1.fr
Statistique. Jean-Yves Tourneret (1) (1) Université of Toulouse, ENSEEIHT-IRIT-TéSA Thème 1 : Analyse et Synthèse de l Information jyt@n7.
Statistique Jean-Yves Tourneret (1) (1) Université of Toulouse, ENSEEIHT-IRIT-TéSA Thème 1 : Analyse et Synthèse de l Information jyt@n7.fr Cours Statistique, 2010 p. 1/52 Plan du cours Chapitre 1 : Estimation
Sélection de variables groupées avec les forêts aléatoires. Application à l analyse des données fonctionnelles multivariées.
Sélection de variables groupées avec les forêts aléatoires. Application à l analyse des données fonctionnelles multivariées. Baptiste Gregorutti 12, Bertrand Michel 2 & Philippe Saint Pierre 2 1 Safety
Méthode d aide à la conception en présence d imprécisions
Méthode d aide à la conception en présence d imprécisions Franck Massa, Thierry Tison, Bertrand Lallemand Laboratoire d'automatique, de Mécanique et d'informatique Industrielles et Humaines, UMR 8530,
Échantillonnage et estimation
Échantillonnage et estimation Dans ce chapitre, on s intéresse à un caractère dans une population donnée dont la proportion est notée. Cette proportion sera dans quelques cas connue (échantillonnage),
Un modèle à risques proportionnels avec détection de ruptures pour l estimation de la demande initiale de tgv
Un modèle à risques proportionnels avec détection de ruptures pour l estimation de la demande initiale de tgv Abdullah Oueslati Université Pierre et Marie Curie - Paris VI SNCF, Innovation & Recherche
Économétrie. Francesco Quatraro M1 EFM 2010/2011
Francesco Quatraro M1 EFM 2010/2011 1 La violation des hypothèses Le modèle des MCO considère que les hypothèses suivantes sont toutes respectées: H1: le modèle est linéaire en x i,t H2: les valeurs x
Les examens de laboratoire : comment les interpreter? Exemple : les marqueurs tumoraux. Michèle BERTHIER : SCOR GLOBAL LIFE
Les examens de laboratoire : comment les interpreter? Exemple : les marqueurs tumoraux Michèle BERTHIER : SCOR GLOBAL LIFE Présentation faite en collaboration avec le Dr Gabriela BUFFET, Médecin-Conseil
TUTORIEL DU LOGICIEL «PRESENCE»
Comment analyser des données STELI? TUTORIEL DU LOGICIEL «PRESENCE» Calcul des probabilités d occupation des sites et des probabilités de détection des espèces Décembre 2013 Anne-Laure Gourmand 1 MNHN/CESCO
Mobilités professionnelles et formation continue
Mobilités professionnelles et continue Pauline GIVORD, Lionel WILNER 7 décembre 2009 Introduction Dans un contexte de flexibilisation accrue du marché du travail (Givord 2006), il est important de comprendre
Analyse de survie appliquée à la modélisation de la transmission des maladies infectieuses : mesurer l impact des interventions
Analyse de survie appliquée à la modélisation de la transmission des maladies infectieuses : mesurer l impact des interventions Génia Babykina 1 & Simon Cauchemez 2 1 Université de Lille, Faculté Ingénierie
Comment calculer la précision des estimateurs composites d Esane
Comment calculer la précision des estimateurs composites d Esane Thomas Deroyon Insee - 18 Bd Adolphe Pinard Paris, thomas.deroyon@insee.fr Résumé. Les statistiques structurelles d entreprise permettent
www.divat.fr Un modèle réussi de personnalisation de la médecine en transplantation rénale au travers de la cohorte DIVAT.
www.divat.fr www.divat.fr Un modèle réussi de personnalisation de la médecine en transplantation rénale au travers de la cohorte DIVAT. Pr Magali Giral, Institut Transplantation Urologie Néphrologie Dr
Statistiques et essais cliniques
Hegel Vol. 3 N 1 2013 DOI : 10.4267/2042/49204 21 Statistiques et essais cliniques François Kohler Laboratoire SPI-EAO, Faculté de Médecine, Vandœuvre-les-Nancy francois.kohler@univ-lorraine.fr Introduction
LMA-Pau, Université de Pau et des Pays de l Adour Infrapôle Paris-Saint-Lazare, SNCF
MODÉLISATION DE LA GÉOMÉTRIE D UNE VOIE FERRÉE PAR UN PROCESSUS GAMMA BIVARIÉ ET APPLICATION À LA MAINTENANCE MODELLING TRACK GEOMETRY BY A BIVARIATE GAMMA WEAR PROCESS, WITH APPLICATION TO MAINTENANCE
A. Chambaz, L. Meyer, P. Tubert-Bitter. 22 juin 2010
Présentation du parcours Biostatistique de la spécialité Recherche en santé publique du Master 2 Santé Publique de l université Paris-Sud, cohabilité Paris Descartes A. Chambaz, L. Meyer, P. Tubert-Bitter
28. Méta-analyse sur données individuelles
28. Méta-analyse sur données individuelles La méta-analyse sur données individuelles regroupe les fichiers de données des essais. La méta-analyse est donc réalisée directement à partir des informations
Introduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
partie a Introduction à la statistique 1
table des matières F AVANT-PROPOS À L ÉDITION AMÉRICAINE Abréviations viii xiv partie a Introduction à la statistique 1 1. Statistique et probabilité ne sont pas intuitives 3 Nous avons tendance à passer
Rapport de Recherche. 1 Estimation fonctionnelle en temps continu. 1.1 Vitesses de convergence pour l estimateur à noyau. (D. Blanke - Mars 2008)
Rapport de Recherche (D. Blanke - Mars 2008) L essentiel de mes activités de recherche porte sur l estimation fonctionnelle ou paramétrique pour des processus. L ensemble de ces travaux peut se diviser
CHAPITRE 1 La nature de l économétrie et la structure des données économiques... 25
TABLE DES MATIÈRES Sommaire... 5 Avant- propos... 9 Remerciements... 19 À propos de l auteur... 23 CHAPITRE 1 La nature de l économétrie et la structure des données économiques... 25 1.1 Qu est- ce que
Le Saux Loïc Tanguy Brewal. Enquête d opinion sur la dégradation de la qualité de la télévision française dans le temps
Le Saux Loïc Tanguy Brewal Enquête d opinion sur la dégradation de la qualité de la télévision française dans le temps Traitement des enquêtes M1 ISC 2007/2008 Sommaire Introduction... 3 I ANALYSE DESCRIPTIVE
Chapitre 8: Inférence, échantillonnage et estimation
Chapitre 8: Inférence, échantillonnage et estimation 1. Echantillonnage aléatoire simple 2. Inférence statistique 3. Estimation 4. Evaluation graphique de l adéquation d un modèle de distribution 1 L inférence
Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL
Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL LINF 2275 Stat. explor. multidim. 1 A.C.P.: Analyse en Composantes Principales Analyse de la structure de la matrice
La survie nette actuelle à long terme Qualités de sept méthodes d estimation
La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg
Implication étiologique du temps d ischémie froide sur le risque de survenue d un échec de greffe ou d un décès chez des patients transplantés rénaux
July 4, 2013 Proposition de stage (Master 2 en Biostatistique/Epidémiologie): Implication étiologique du temps d ischémie froide sur le risque de survenue d un échec de greffe ou d un décès chez des patients
Modèles dichotomiques et Spécification linéaire
Modèles dichotomiques Spécification linéaire One Pager Novembre 2013 Vol. 8 Num. 006 Copyright Laréq 2013 http://www.lareq.com Modèles dichotomiques Spécification linéaire 1 «Le véritable travail, c est
Modélisation de processus multi-états, risques concurrents et évènements récurrents
Modélisation de processus multi-états, risques concurrents et évènements récurrents 17 Octobre 2008 M2 Modélisation en Pharmacologie clinique et Epidémiologie Plan 1 Modélisation de processus multi-états
Résumé du chapitre 8 Ressources et interblocage
Résumé du chapitre 8 Ressources et interblocage Jacques Mossière 12 août 2004 1 Introduction Ce chapitre est consacré à l étude d un problème classique dans les systèmes, l interblocage, c est à dire l
Econométrie des modèles de durée
Econométrie des modèles de durée Guillaume Horny Banque de France et UCLouvain Master 2 MOSEF Guillaume Horny (Banque de France) Econométrie des durées (chap 1) 2009 1 / 70 Introduction Introduction Pourquoi
Estimation de la fonction de distribution conditionnelle à partir de données censurées par intervalle, cas I
Estimation de la fonction de distribution conditionnelle à partir de données censurées par intervalle, cas I Sandra Plancade MAP5 Université Paris 5 5 mai 2010 Plan de l'exposé I) Introduction II) Dénition
PREMIERE ANNEE COMMUNE DES ETUDES DE SANTE. Faculté de Médecine Lyon Est Année Universitaire 2010-2011 UE4. Epreuve du jeudi 16 décembre 2010
PREMIERE ANNEE COMMUNE DES ETUDES DE SANTE Faculté de Médecine Lyon Est Année Universitaire 2010-2011 UE4 Epreuve du jeudi 16 décembre 2010 Dr Claire BARDEL, Dr Marie-Aimée DRONNE, Dr Delphine MAUCORT-BOULCH
Thèse de statistiques dans une PME : La localisation intra-muros WiFi
Thèse de statistiques dans une PME : La localisation intra-muros WiFi Thierry Dumont 1 1 Bureau E 20 Bât.G, Université Paris Ouest, 200 Av. République Nanterre France Résumé. Cet exposé revient sur la
Evaluation d un test diagnostique - Concordance
Evaluation d un test diagnostique - Concordance Michaël Genin Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins michaelgenin@univ-lille2fr Plan 1 Introduction 2 Evaluation
Détection statistique d anomalies en présence de paramètres de nuisance
Détection statistique d anomalies en présence de paramètres de nuisance Lionel Fillatre ENST Bretagne, département Signal & Communication Lionel Fillatre (département SC) Détection d anomalies 1 / 29 Structure
des réapprovisionnements pour système d assemblage à deux niveaux quand les délais d approvisionnement sont aléatoires
Planification des réapprovisionnements pour système d assemblage à deux niveaux quand les délais d approvisionnement sont aléatoires Oussama Ben Ammar, Faicel Hnaien, Hélène Marian, Alexandre Dolgui To
Clustering par quantification en présence de censure
Clustering par quantification en présence de censure Svetlana Gribkova 1 Laboratoire de Statistique Théorique et Appliquée, Université Pierre et Marie Curie Paris 6, 4 place Jussieu, 75005 Paris Résumé.
L analyse ROC en agronomie
RMT Modelia, Paris, 16 novembre 2009 L analyse ROC en agronomie David Makowski makowski@grignon.inra.fr Pourquoi s intéresser aux erreurs des modèles? Pourquoi s intéresser aux erreurs des modèles? i.
Chapitre 2 : Les systèmes d équations récurrentes linéaires. dans
Chapitre 2 : Les systèmes d équations récurrentes linéaires dans Sommaire Sandrine CHARLES 1 Introduction... 3 2 Rappels sur les formes de Jordan réelles dans... 4 2.1 Deux valeurs propres réelles distinctes
MODELISATION DE DONNÉES QUALITATIVES PREMIÈRE PARTIE
MODELISATION DE DONNÉES QUALITATIVES PREMIÈRE PARTIE Pierre-Louis Gonzalez 1 I INTRODUCTION 1 variable qualitative. Tri à plat. Représentations graphiques. Modélisation : loi binomiale loi multinomiale
Détection et isolation de défauts par analyse en composantes principales robuste
Détection et isolation de défauts par analyse en composantes principales robuste Yvon Tharrault, Gilles Mourot, José Ragot, Didier Maquin To cite this version: Yvon Tharrault, Gilles Mourot, José Ragot,
Deuxième partie II. Cours 4 à 6 : Construction d estimateurs, Modèle linéaire, Tests et intervalles de confiance
Deuxième partie II Cours 4 à 6 : Construction d estimateurs, Modèle linéaire, Tests et intervalles de confiance (version corrigée, 4 avril 27) Construction d estimateurs 4 Construction d estimateurs Estimateur
Au menu. Cours 7: Classes Probabilistes. Application : Calcul de la médiane. Sous menu. Retours sur quelques algorithmes.
Au menu Cours 7: Classes Probabilistes Olivier Bournez bournez@lix.polytechnique.fr LIX, Ecole Polytechnique Retours sur quelques algorithmes Quelques résultats INF561 Algorithmes et Complexité 1 2 Sous
Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes
de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz
Cours 2 6 octobre. 2.1 Maximum de vraisemblance pour une loi Gaussienne multivariée
Introduction aux modèles graphiques 2010/2011 Cours 2 6 octobre Enseignant: Francis Bach Scribe: Nicolas Cheifetz, Issam El Alaoui 2.1 Maximum de vraisemblance pour une loi Gaussienne multivariée Soit
«L efficacité des EHPAD en France» auteurs: Brigitte DORMONT et Cécile MARTIN
«L efficacité des EHPAD en France» auteurs: Brigitte DORMONT et Cécile MARTIN JESF 2011 1 er et 2 décembre à Clermont-Ferrand Discutant: Charline Mourgues (CERDI- PhD Student). Introduction 1. Présentation
Estimateur et Estimation Prof Franck Bonnetain Unité de méthodologie & de qualité de vie en cancérologie (EA3181) CHRU Besançon
PACES - APEMK UE 4 Evaluation des méthodes d analyses appliquées aux sciences de la vie et de la santé Estimateur et Estimation Prof Franck Bonnetain Unité de méthodologie & de qualité de vie en cancérologie
Intégration de données multiples générées
Intégration de données multiples générées par les techniques à haut débit (séquençage, CGH, SNP, transcriptome ) Pascal Roy 1 MD-PhD, Caroline Truntzer PhD 2, Delphine Maucort-Boulch 1 MD-PhD 1 Equipe
Série n 5 : Optimisation non linéaire
Université Claude Bernard, Lyon I Licence Sciences & Technologies 43, boulevard 11 novembre 1918 Spécialité Mathématiques 69622 Villeurbanne cedex, France Option: M2AO 2007-2008 Série n 5 : Optimisation
Analyse multi-patients de données génomiques
Analyse multi-patients de données génomiques Quentin Grimonprez 1 & Alain Celisse 2 & Guillemette Marot 3 1 DGA & Inria Lille-Nord Europe, quentin.grimonprez@inria.fr 2 Inria Lille-Nord Europe & Laboratoire
Hétérogénéité pronostique des myélomes à haut risque cytogénétique : rôle de la délétion 1p32 et des trisomies 3, 5 et 21
Hétérogénéité pronostique des myélomes à haut risque cytogénétique : rôle de la délétion 1p32 et des trisomies 3, 5 et 21 Jill Corre Unité de génomique du Myélome (Pr Hervé Avet-Loiseau) IUCT-Oncopole,
Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon
Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon Table des matières 1 Graph Kernels for Molecular Structure-Activity Relationship Analysis
Voici le fruit d une collaboration avec Vivien Mallet (INRIA), publiée par Journal of Geophysical Research.
Voici le fruit d une collaboration avec Vivien Mallet (INRIA), publiée par Journal of Geophysical Research. On veut prédire, jour après jour, les hauteurs des pics d ozone du lendemain (ou les concentrations
Les théorèmes de Gerschgorin et de Hadamard
Localisation des valeurs propres : Quelques propriétés sur les disques de Gerschgorin. Jean-Baptiste Campesato 22 septembre 29 Gerschgorin est parfois retranscrit en Gershgorin, Geršgorin, Hershhornou
Classement de données binaires lorsque les populations d apprentissage et de test sont différentes
Classement de données binaires lorsque les populations d apprentissage et de test sont différentes Julien Jacques, Christophe Biernacki Laboratoire de Statistiques et Analyse des Données, Université Pierre
Approche empirique du test χ 2 d ajustement
Approche empirique du test χ 2 d ajustement Alain Stucki, Lycée cantonal de Porrentruy Introduction En lisant des rapports, on rencontre souvent des raisonnements du style : «le premier groupe est meilleur
Intégration de polynômes Points de Gauss
Intégration de polynômes Points de Gauss Commençons par un exercice classique de premier cycle. Problème 1 Trouver trois réels α, β et γ tels que, pour tout polynôme P de degré au plus 2, on ait : ( )
Simulation de modifications. du mode de calcul du salaire annuel moyen au régime général
CONSEIL D ORIENTATION DES RETRAITES Séance plénière du 25 septembre 2012 à 14 h 30 «I - Avis technique sur la durée d assurance de la génération 1956 II - Réflexions sur les règles d acquisition des droits
Evaluation des procédures diagnostiques. Objectifs pédagogiques. Faculté de Médecine Montpellier-Nîmes. Evaluation des procédures diagnostiques
Evaluation des procédures diagnostiques Objectifs pédagogiques Evaluer un signe, un examen, une décision médicale en calculant leur sensibilité et leur spécificité, leurs valeurs prédictives positives
LOAD PROFILING : ESTIMATION D UNE COURBE DE CONSOMMATION ET PRECISION D ESTIMATION
LOAD PROFILING : ESTIMATION D UNE COURBE DE CONSOMMATION ET PRECISION D ESTIMATION Olivier Chaouy EDF R&D 1, avenue du Général de Gaulle - 92141 Clamart Cedex - France olivier.chaouy@edf.fr Résumé : Le
Eléments de stratégie d échantillonnage à l adresse des diagnostiqueurs amiante.
Eléments de stratégie d échantillonnage à l adresse des diagnostiqueurs amiante. Essai de détermination du nombre de prélèvements à effectuer lors d un diagnostic amiante afin d assurer une représentativité
À propos des limites inductives filtrantes et du théorème de Lazard sur les modules plats
1 À propos des limites inductives filtrantes et du théorème de Lazard sur les modules plats Cette note est écrite comme une section 7 du chapitre VIII du livre Algèbre Commutative. Méthodes Constructives.
Second degré. Christophe ROSSIGNOL. Année scolaire 2008/2009
Second degré Christophe ROSSIGNOL Année scolaire 008/009 Table des matières 1 Polynômes du second degré 1.1 Définition................................................. 1. Forme canonique.............................................
INTRODUCTION A LA RECHERCHE QUANTITATIVE
INTRODUCTION A LA RECHERCHE QUANTITATIVE Deuxième partie : de la base de données aux résultats Juin 2010 Julien Gelly, Caroline Huas, Josselin Le Bel Plan 2 1. Introduction 2. Saisie des données : Epi
Principe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université
Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH
Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Boris Hejblum 1,2,3 & Rodolphe Thiébaut 1,2,3 1 Inserm, U897
Chrystel Jouan-Flahault, Florence Casset-Semanaz et Pascal Minini
Article «Du bon usage des tests dans les essais cliniques» Chrystel Jouan-Flahault, Florence Casset-Semanaz et Pascal Minini M/S : médecine sciences, vol. 20, n 2, 2004, p. 231-235. Pour citer cet article,
Erik PERNOD Calcul Scientifique 3 ème Année RESEAUX DE NEURONES
Erik PERNOD Calcul Scientifique 3 ème Année RESEAUX DE NEURONES 1 TABLE DES MATIERES TABLE DES MATIERES... 2 I PERCEPTRON SIMPLE... 3 I.1 Introduction... 3 I.2 Algorithme... 3 I.3 Résultats... 4 1er exemple
Baccalauréat Série S Métropole, juin 2014
Baccalauréat Série S Métropole, juin 4 Sujet et Corrigé Stéphane PASQUET Disponible sur http://www.mathweb.fr juin 4 Exercice (5 points) - Commun à tous les candidats Partie A Dans le plan muni d un repère
PCA appliqué à la 2D et 3D Dernière mise à jour : avril 2011
Projet 2009 2010 Biométrie 3D PCA appliqué à la 2D et 3D Dernière mise à jour : avril 2011 Département : TIC Mots clés : Biométrie, Analyse d images, Vision, Caméra thermique, Caméra temps de vol, Détection
Le stress au travail chez les prestateurs de soins de santé par Kathryn Wilkins
Le stress au travail chez les prestateurs de soins de santé 35 Le stress au travail chez les prestateurs de soins de santé par Kathryn Wilkins Mots-clés : santé au travail, charge de travail, professions
Corrigé du baccalauréat STMG Centres étrangers 11 juin 2015
Corrigé du baccalauréat STMG Centres étrangers 11 juin 2015 La calculatrice (conforme à la circulaire n o 99-186 du 16 novembre 1999) est autorisée. Le candidat est invité à faire figurer sur la copie
La discrimination sur le marché du travail :
La discrimination sur le marché du travail : Théories et mesures Emmanuel Duguet Université Paris Est-Créteil Novembre 2010 Introduction Définition : situation dans laquelle deux travailleurs identiquement
Génération d une visualisation personnalisée
Génération d une visualisation personnalisée Mohamed Mouine RALI-DIRO Université de montréal mouinemo@iro.umontreal.ca Résumé. Nous présentons une méthode permettant de calculer les besoins et les préférences
Lois de probabilité (2/3) Anita Burgun
Lois de probabilité (2/3) Anita Burgun Contenu des cours Loi binomiale Loi de Poisson Loi hypergéométrique Loi normale Loi du chi2 Loi de Student Loi hypergéométrique La loi du tirage exhaustif Puce à
Passage à l acte des ménages en matière de rénovation énergétique. Réalisation d un outil informatique de modélisation
Passage à l acte des ménages en matière de rénovation énergétique Réalisation d un outil informatique de modélisation Sommaire Schéma d ensemble du dispositif 1 Modélisation des transformations 2 Annexe
Analyse des interactions entre le niveau de motorisation et les choix de nouveaux modes de transport des ménages en France
Analyse des interactions entre le niveau de motorisation et les choix de nouveaux modes de transport des ménages en France Amandine Chevalier (*), Frédéric Lantz(**) (*) Cerma, Direction Technique Territoire
Estimation indirecte en sciences humaines : une méthode bayésienne
Estimation indirecte en sciences humaines : une méthode bayésienne Henri Caussinus, Institut de Mathématiques de Toulouse, en collaboration avec Daniel Courgeau, INED Isabelle Séguy, INED Luc Buchet, CNRS
Choix de modèle en régression linéaire
Master pro Fouille de données Philippe Besse 1 Objectif Choix de modèle en régression linéaire La construction d un score d appétence sur les données bancaires correspond au choix et à l estimation d un