Les données manquantes en statistique

Documents pareils

Introduction à l approche bootstrap

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Principe d un test statistique

Chapitre 3 : INFERENCE

Analyse de la variance Comparaison de plusieurs moyennes

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

données en connaissance et en actions?

Soutenance de stage Laboratoire des Signaux et Systèmes

Méthodes de Simulation

TABLE DES MATIERES. C Exercices complémentaires 42

Estimation et tests statistiques, TD 5. Solutions

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

La nouvelle planification de l échantillonnage

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

La classification automatique de données quantitatives

Santé environnement. Description du budget espace-temps et estimation de l exposition de la population française dans son logement

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

PROBABILITES ET STATISTIQUE I&II

Cours de Tests paramétriques

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Le risque Idiosyncrasique

Vanina Bousquet 24 mars 2015

Introduction aux Statistiques et à l utilisation du logiciel R

Chapitre 3. Les distributions à deux variables

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Package TestsFaciles

Analyse de grandes bases de données en santé

Analyse des risques financiers

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

INTRODUCTION AU DATA MINING

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

INF6304 Interfaces Intelligentes

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Les exploitations de grandes cultures face à la variabilité de leurs revenus : quels outils de gestion des risques pour pérenniser les structures?

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Arbres binaires de décision

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

Modélisation aléatoire en fiabilité des logiciels

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux

LE GRAND ÉCART L INÉGALITÉ DE LA REDISTRIBUTION DES BÉNÉFICES PROVENANT DU FRACTIONNEMENT DU REVENU

Logiciel XLSTAT version rue Damrémont PARIS

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

IBM SPSS Regression 21

Chapitre 2/ La fonction de consommation et la fonction d épargne

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Introduction au datamining

FORMULAIRE DE STATISTIQUES

MCMC et approximations en champ moyen pour les modèles de Markov

Chapitre 1: Introduction à la théorie de l équilibre à prix fixes

FIMA, 7 juillet 2005

Probabilités conditionnelles Loi binomiale

De la mesure à l analyse des risques

De la mesure à l analyse des risques

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

TSTI 2D CH X : Exemples de lois à densité 1

Les risques liés à l activité de l entreprise : quels outils pour les identifier?

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Intérêt du découpage en sous-bandes pour l analyse spectrale

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Chapitre 11 METHODOLOGIE D ENQUÊTES

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Classification non supervisée

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Programmes des classes préparatoires aux Grandes Ecoles

Ordonnancement robuste et décision dans l'incertain

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

NON-LINEARITE ET RESEAUX NEURONAUX

Traitement des données avec Microsoft EXCEL 2010

Probabilités III Introduction à l évaluation d options

Représentation des Nombres

VI. Tests non paramétriques sur un échantillon

Étude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

Processus aléatoires avec application en finance

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Directeur de la publication : André-Michel ventre, Directeur de l INHESJ Rédacteur en chef : Christophe Soullez, chef du département de l ONDRP

Programmation linéaire

Évaluation de la régression bornée

THÈSE DOCTEUR DE L UNIVERSITÉ PARIS XI

Quelle est la meilleure solution :

Annexe commune aux séries ES, L et S : boîtes et quantiles

Simulation de variables aléatoires

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

TP N 57. Déploiement et renouvellement d une constellation de satellites

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Réseau SCEREN. Ce document a été numérisé par le CRDP de Bordeaux pour la. Base Nationale des Sujets d Examens de l enseignement professionnel.

Le financement adossé de l immobilier en gestion de patrimoine : une modélisation simple

Statistique inférentielle TD 1 : Estimation

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Transcription:

Les données manquantes en statistique N. MEYER Laboratoire de Biostatistique -Faculté de Médecine Dép. Santé Publique CHU - STRASBOURG Séminaire de Statistique - 7 novembre 2006

Les données manquantes Importance du problème Fréquentes voire inévitables Concernent toutes les bases de données (BDD)... et toutes les variables de ces BDD.

Donnée manquante Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Définition : Soit une variable aléatoire X quelconque. Une donnée manquante (DM) x m est une donnée pour laquelle la valeur X = x est inconnue. On ne dispose pas de la valeur de X pour le sujet i.

Classification méthodologique des DM Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Origine matérielle des DM : La valeur de x i n a pas été mesurée (oubli...) la valeur mesurée mais perdue ou pas été notée la valeur mesurée, noté considérée comme non utilisable : données jugées aberrantes et erreurs manifeste la donnée mesurée mais pas disponible : Ne Sait Pas censure (1) la valeur < ou > limites de détection de l outil censure (2) des études de survie : à part

Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Classification par rapport à l unité statistique Typologie des DM par rapports aux unités statistiques La donnée est manquante en raison de : non réponse de l unité statistique : aucune mesure n est obtenue pour l unité statistique non réponse pour l item : seule manque la mesure sur la variable X considérée.

Un exemple sur une variable Classification méthodologique des DM Effet des manquants Classification de Little et Rubin variable X, n-échantillon dont m valeurs manquantes taille de l échantillon de n à n m = n p, de m/n % on peut estimer m et s 2 sur les n m présents valide que si n p valeurs sous-échantillon aléatoire des n le fait d être manquant ne dépend pas de la valeur (manquante) Pr(x i : ) = p, i. sinon il y a un biais

Effet des manquants : Un exemple (1) Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Biais Perte de Puissance on tire 1000 valeurs d une v.a. gaussienne centrée réduite on vérifie sa moyenne et sa variance et on trace l histogramme des valeurs on supprime aléatoirement 250 valeurs sur l ensemble des valeurs du vecteur on vérifie que la moyenne et la variance du sous-échantillon sont proches des valeurs de l échantillon de départ

Effet des manquants : Un exemple (2) Classification méthodologique des DM Effet des manquants Classification de Little et Rubin On retire ensuite des valeurs surtout dans les valeurs basses de l échantillon : on retire 225 valeurs parmi les valeurs basses et 25 parmi les valeurs hautes. on calcule la moyenne et la variance de l échantillon et on trace son histogramme. On vérifie que les estimations des paramètres sont biaisés.

Classification méthodologique des DM Effet des manquants Classification de Little et Rubin la forme de la distribution obervée sur les données complètes n est pas forcément la forme de la distribution complète. en présence de données manquantes : biais? importance? la distribution observée sur le sous-échantillon complet est-elle représentative de la forme de la distribution dans la population?

Autres exemple Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Voir simulations sur R. modifications des paramètres selon les manquants.

Situation bivariée : Les éléments Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Soit deux V.A. X et Y, n réalisations. X est complètement observée Y comporte des valeurs manquantes. les deux V.A. X et Y soit qualitative soit quantitative sans perte de généralité.

Situation bivariée Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin sujet X Y 1 x 1 y 1......... i i x i y i......... i + 1 x i+1 *......... n x n * Tab.: Tableau pour la classification de LR

Les trois cas possibles Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin (1) La probabilité d avoir une valeur manquante est indépendante de X et de Y Pr(D : Mqt obs, mqt) = Pr(D : Mqt) (2) La probabilité d avoir une valeur manquante dépend de X mais pas de Y Pr(D : Mqt obs, mqt) = Pr(D : Mqt obs) (3) La probabilité d avoir une valeur manquante dépend de X et de Y Pr(D : Mqt obs, mqt) = Pr(D : Mqt obs, mqt)

Premier cas Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin La probabilité d avoir une valeur manquante est indépendante de X et de Y les valeurs manquantes sont Manquantes Aléatoirement Missing at random : MAR les données observées sont Observées Aléatoirement Observed at random : OAR les données sont manquantes complétement aléatoirement Missing Completely at Random : MCAR les valeurs Y observées : sous-échantillon aléatoire de Y

Deuxième cas Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin La probabilité d avoir une valeur manquante dépend de X mais pas de Y on dit que le données sont manquantes aléatoirement Missing at Random : MAR les valeurs observées de Y ne sont pas forcément un sous-échantillon aléatoire des valeurs échantillonnées de Y mais elles sont un sous-échantillon aléatoire de Y dans des sous-classes définies par les valeurs de X.

Troisième cas Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin La probabilité d avoir une valeur manquante dépend de X et de Y les valeurs ne sont ni manquantes aléatoirement (non MAR) ni obervées aléatoirement (non OAR) les données sont manquants non aléatoire : M Not AR (MNAR)

Classification méthodologique des DM Effet des manquants Classification de Little et Rubin voir exemples de manquants selon X et Y dans R.

Conséquences Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin cas MCAR et MAR le mécanisme des manquants peut être ignoré pour les méthodes d inférence basées sur la vraisemblance. Dans le cas MCAR, il peut-être ignoré à la fois pour les approches basées sur la vraisemblance et pour les approches basées sur l échantillonage. Dans le cas MCAR le mécanisme ne peut pas être ignoré.

Quelques exemples classiques Classification méthodologique des DM Effet des manquants Classification de Little et Rubin le revenu ou le fait de payer des impôt est une information dont la fréquence de réponse varie avec le niveau du revenu ou le fait ou non de payer des impôts. les aidants des personnes âgées dépendantes, pour savoir si la personne aidée représente une charge, la présence d une réponse dépend de la valeur de la réponse consommation d alcool est souvent d autant plus minimisée que cette consommation est forte. dans les dossiers médicaux, la probabilité qu un symptome négatif soit noté est plus faible que la probabilité qu un symptôme positif soit noté.

Encore des exemples Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Soit deux V.A. continues, une est sujette à non-réponse. La variable X complétement observée est l âge et la variable Y incomplétement observée est le revenu. Si la probabilité que le revenu soit manquant est indépendante de l âge et du revenu du sujet, alors les données sont de type MCAR (OAR + MAR).

Encore des exemples Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Si la probabilité que le revenu soit manquant dépend de l âge de la personne interrogée mais pas de son revenu, alors les DM sont manquantes aléatoirement (ne dépendent pas du revenu) mais elles ne sont pas observées aléatoirement (dépendent de l âge) : elles sont donc de type MAR. Si la probabilité que le revenu soit manquant dépend de l âge de la personne et de son revenu, les DM ne sont pas manquantes aléatoirement (dépendent du revenu) et ne sont pas observées aléatoirement (dépendent de l âge) : elles sont donc de type MNAR.

Classification méthodologique des DM Effet des manquants Classification de Little et Rubin L intérêt de cette classification Prendre en compte le mécanisme des manquants dans l analyse. Si on s intéresse uniquement à la distribution marginale de X (l âge), les données de Y et le mécanisme des manquants n a aucune importance. Si on souhaite avoir une estimation conditionnelle de la valeur de Y sachant X (par exemple la répartition des revenus en fonction de l âge), alors l analyse sur les n m valeurs complétes est satisfaisante si les données sont MAR ou si elles sont MCAR. Si on s intéresse à la distribution marginale de Y (moyenne des revenus), alors une analyse basée sur les unités complètes est biaisée sauf si les données sont de type MCAR.

Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Si données MNAR, les estimations portant sur la distribution marginale de Y et sur la distribution conditionnelle de Y sachant X sont biaisées et nécessitent une modélisation des valeurs manquantes. Dans les autres cas, la modélisation n est pas nécessaire même si des méthodes adaptées à l analyse statistique en présence de DM doivent être utilisées.

Classification méthodologique des DM Effet des manquants Classification de Little et Rubin reprendre les exemples sur l impact des manquants dans R.

Méthode d analyse Introduction Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple méthode du cas complet X deux V.A. X 1 et X 2, n-échantillon. m 1 et m 2 valeurs mqt. sur X 1 et X 2. Le nombre m de sujets ayant au moins une donnée manquante max(m 1, m 2 ) m m 1 + m 2 Le nombre n c de sujets complets est égale à n m. Donc en général n c < nombre de sujets complets pour X 1 ou pour X 2 et : la plupart du temps on perd plus de valeurs que le nombre réel de valeurs manquantes

méthode du cas complet : avantages Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple facilite les comparaisons entre analyses uni- et multivariées si on retire les mêmes sujets d une analyse à l autre pas-à-pas ascendants : différents si logiciel ou fait soi-même

Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Méthode du cas complet : inconvénients biais perte de puissance perte de cas rapidement considérable si 10 variables avec 10% de manquants 0, 9 10 cas complets = 34,8%

Méthode du cas disponible Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple on utilise pour chaque sous-analyse l ensemble des cas complets avantage : nb max de sujets à chaque analyse inconvénients : nb variables d une analyse à l autre Y = α 1 + βx 1 et Y = α 1 + βx 2 portent sur des sujets différents ACP : matrice de covariance mal conformée

Les méthodes d imputation Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple méthodes très nombreuses consiste à substituer une valeur à la valeur manquante. méthodes séduisantes et dangereuses (Rubin)

Les méthodes simples Introduction Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple (... et mauvaises) LOCF : Last Observation Caried Forward ajouter une catégorie pour les DM moyenne non conditionnelle moyenne conditionnelle (Buck) (par bloc ou pas) imputation + aléa simples mais inconvénients +++ / overfitting /ad hoc estimations d IC très difficiles

Les méthodes dans les enquêtes Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple cold deck : source exterieur, limites + + + hot deck substitution : tirage au sort d une nouvelle unité difficile si stratification a posteriori

Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Méthodes basées sur une énumération des possibilités Pour des données qualitatives + + : table 1ou2 2 énumerer toute les solutions possibles (liste de p) étude de sensibilité : énumerer toute les possibilités dans un graphique, méthode de Shadish énumerer et combiner : faire une hypothèse sur la répartition des DM on fixe θ = θ m pour chaque combinaison de manquants, queues de distribution (Fisher) on combine les résultats pour avoir une inférence globale

Etude de sensibilité : Shadish Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Angioplasty: % of missing allocated to good outcome (n=30) 0 20 40 60 80 100 Extreme favouring A All allocated to good All allocated to poor Extreme favouring S 0 20 40 60 80 100 Stent: % of missing allocated to good outcome (n=24) Significant difference (p<0.05) No significant difference (p>0.05)

Méthode de Delucchi Introduction Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Pour des données qualitatives : table 2 2 si on a m valeurs manquantes dans l une des deux variables on peut imputer les valeurs de m + 1 manières ce qui donne m + 1 tests à partir desquels on conclut

Méthode de NM : Delucchi pondéré Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Pour des données qualitatives : table 2 2, test de Fisher si on a m valeurs manquantes dans l une des deux variables on peut imputer les valeurs de m + 1 manières avec proba de chaque configuration sous paramètre θ ce qui donne m + 1 tests de Fisher pondéré on conclut par un test pondéré par la Pr(configuration m )

Maximisation de la vraisemblance Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Marche bien pour MAR, moins pour MCAR et pas pour MNAR Voir exemple dans feuille Excel pour une proportion et une table 2 2

Solutions à part Introduction Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple littérature + + + ad hoc + + + algorithme NIPALS voir modèles PLS qui suppose quand même des hypothèses fortes sur les DM! ne pas avoir de DM!!

L Imputation Multiple : la star! Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple l imputation simple est unique la donnée imputée est considéré comme une donnée observée ne tient pas compte de l incertitude sup. liée aux manquants d où l idée de faire plusieurs imputations différentes on substitue plusieurs valeurs à chaque DM on analyse en tenant compte de cette multiplicité

Les étapes d une imputation multiple Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple on analyse la matrice des données pour en déduire un modèle pour les DM on réalise entre M = 3 et 10 imputations pour obtenir 3 à 10 jeux de données complétés on calcule le paramètre d intérêt pour chaque jeu on combine les M imputations pour avoir une inférence qui tienne compte de l incertitude supplémentaire liée aux DM

Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Formules pour l IM M estimations ponctuelles pour le vecteur de paramètre θ. Si gaussien, moyenne et écart-type : et On calcule ensuite : ˆQ (t) = ˆQ(Y obs, Y (t) miss ), t = 1,..., m Û (t) = Û (t) (Y obs, Y (t) miss ), t = 1,..., m Q = 1 m m t=1 ˆQ (t)

Formules pour l IM (suite) Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple La Var. globale a deux composantes : (1) variance intra-imputation Ū = 1 m m t=1 U (t) (2) La variance inter-imputation vaut : La variance totale vaut : B = 1 m 1 m ( ˆQ (t) Q) 2 t=1 T = Ū + (1 + m 1 )B

Formules pour l IM (suite) Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple À partir de ces équations, on peut réaliser des tests : Q Q T 2 t ν avec : [ ] 2 Ū ν = (m 1) 1 + (1 + m 1 )B intervalles de confiances. Ces statistiques tiennent compte de l incertitude suppl. liées aux DM.

Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Exemple : voir feuille Excel

L IM : avantages Introduction Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple souple + + donne des résultats valides robuste aux écarts de spécification du modèle M peut être faible : 3, 5, pas plus de 10.

L IM : inconvénients (limités) Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple le recours à des logiciels repose sur le modèle (mais les autres méthodes aussi) si les effectifs sont faibles variantes particulières Par ailleurs aspects bayesiens utiliser WinBUGS

La solution bayesienne Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Les données manquantes sont issues d une distribution a priori souplesse + + + faire des hypothèses sur les DM mais toute les méthodes en font similitudes avec les données aberrantes voir exemple de prog. Bugs de NM.

Les logiciels Introduction Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple MINITAB : rien pour les DM SPSS : module mais pas dans la base SAS : différentes fonctions + PROC MI S+ / R : CAT,MIX, NORM A part : SIMCA : cartographie des manquants / R WinBUGS

Introduction DM : un problème sans vraie solution il faut toujours faire des hypothèses ou faire une étude de sensibilité qui ne conclut pas le mieux : IM encore mieux : bayesien encore encore mieux : ne pas avoir de DM