Les données manquantes en statistique N. MEYER Laboratoire de Biostatistique -Faculté de Médecine Dép. Santé Publique CHU - STRASBOURG Séminaire de Statistique - 7 novembre 2006
Les données manquantes Importance du problème Fréquentes voire inévitables Concernent toutes les bases de données (BDD)... et toutes les variables de ces BDD.
Donnée manquante Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Définition : Soit une variable aléatoire X quelconque. Une donnée manquante (DM) x m est une donnée pour laquelle la valeur X = x est inconnue. On ne dispose pas de la valeur de X pour le sujet i.
Classification méthodologique des DM Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Origine matérielle des DM : La valeur de x i n a pas été mesurée (oubli...) la valeur mesurée mais perdue ou pas été notée la valeur mesurée, noté considérée comme non utilisable : données jugées aberrantes et erreurs manifeste la donnée mesurée mais pas disponible : Ne Sait Pas censure (1) la valeur < ou > limites de détection de l outil censure (2) des études de survie : à part
Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Classification par rapport à l unité statistique Typologie des DM par rapports aux unités statistiques La donnée est manquante en raison de : non réponse de l unité statistique : aucune mesure n est obtenue pour l unité statistique non réponse pour l item : seule manque la mesure sur la variable X considérée.
Un exemple sur une variable Classification méthodologique des DM Effet des manquants Classification de Little et Rubin variable X, n-échantillon dont m valeurs manquantes taille de l échantillon de n à n m = n p, de m/n % on peut estimer m et s 2 sur les n m présents valide que si n p valeurs sous-échantillon aléatoire des n le fait d être manquant ne dépend pas de la valeur (manquante) Pr(x i : ) = p, i. sinon il y a un biais
Effet des manquants : Un exemple (1) Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Biais Perte de Puissance on tire 1000 valeurs d une v.a. gaussienne centrée réduite on vérifie sa moyenne et sa variance et on trace l histogramme des valeurs on supprime aléatoirement 250 valeurs sur l ensemble des valeurs du vecteur on vérifie que la moyenne et la variance du sous-échantillon sont proches des valeurs de l échantillon de départ
Effet des manquants : Un exemple (2) Classification méthodologique des DM Effet des manquants Classification de Little et Rubin On retire ensuite des valeurs surtout dans les valeurs basses de l échantillon : on retire 225 valeurs parmi les valeurs basses et 25 parmi les valeurs hautes. on calcule la moyenne et la variance de l échantillon et on trace son histogramme. On vérifie que les estimations des paramètres sont biaisés.
Classification méthodologique des DM Effet des manquants Classification de Little et Rubin la forme de la distribution obervée sur les données complètes n est pas forcément la forme de la distribution complète. en présence de données manquantes : biais? importance? la distribution observée sur le sous-échantillon complet est-elle représentative de la forme de la distribution dans la population?
Autres exemple Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Voir simulations sur R. modifications des paramètres selon les manquants.
Situation bivariée : Les éléments Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Soit deux V.A. X et Y, n réalisations. X est complètement observée Y comporte des valeurs manquantes. les deux V.A. X et Y soit qualitative soit quantitative sans perte de généralité.
Situation bivariée Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin sujet X Y 1 x 1 y 1......... i i x i y i......... i + 1 x i+1 *......... n x n * Tab.: Tableau pour la classification de LR
Les trois cas possibles Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin (1) La probabilité d avoir une valeur manquante est indépendante de X et de Y Pr(D : Mqt obs, mqt) = Pr(D : Mqt) (2) La probabilité d avoir une valeur manquante dépend de X mais pas de Y Pr(D : Mqt obs, mqt) = Pr(D : Mqt obs) (3) La probabilité d avoir une valeur manquante dépend de X et de Y Pr(D : Mqt obs, mqt) = Pr(D : Mqt obs, mqt)
Premier cas Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin La probabilité d avoir une valeur manquante est indépendante de X et de Y les valeurs manquantes sont Manquantes Aléatoirement Missing at random : MAR les données observées sont Observées Aléatoirement Observed at random : OAR les données sont manquantes complétement aléatoirement Missing Completely at Random : MCAR les valeurs Y observées : sous-échantillon aléatoire de Y
Deuxième cas Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin La probabilité d avoir une valeur manquante dépend de X mais pas de Y on dit que le données sont manquantes aléatoirement Missing at Random : MAR les valeurs observées de Y ne sont pas forcément un sous-échantillon aléatoire des valeurs échantillonnées de Y mais elles sont un sous-échantillon aléatoire de Y dans des sous-classes définies par les valeurs de X.
Troisième cas Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin La probabilité d avoir une valeur manquante dépend de X et de Y les valeurs ne sont ni manquantes aléatoirement (non MAR) ni obervées aléatoirement (non OAR) les données sont manquants non aléatoire : M Not AR (MNAR)
Classification méthodologique des DM Effet des manquants Classification de Little et Rubin voir exemples de manquants selon X et Y dans R.
Conséquences Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin cas MCAR et MAR le mécanisme des manquants peut être ignoré pour les méthodes d inférence basées sur la vraisemblance. Dans le cas MCAR, il peut-être ignoré à la fois pour les approches basées sur la vraisemblance et pour les approches basées sur l échantillonage. Dans le cas MCAR le mécanisme ne peut pas être ignoré.
Quelques exemples classiques Classification méthodologique des DM Effet des manquants Classification de Little et Rubin le revenu ou le fait de payer des impôt est une information dont la fréquence de réponse varie avec le niveau du revenu ou le fait ou non de payer des impôts. les aidants des personnes âgées dépendantes, pour savoir si la personne aidée représente une charge, la présence d une réponse dépend de la valeur de la réponse consommation d alcool est souvent d autant plus minimisée que cette consommation est forte. dans les dossiers médicaux, la probabilité qu un symptome négatif soit noté est plus faible que la probabilité qu un symptôme positif soit noté.
Encore des exemples Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Soit deux V.A. continues, une est sujette à non-réponse. La variable X complétement observée est l âge et la variable Y incomplétement observée est le revenu. Si la probabilité que le revenu soit manquant est indépendante de l âge et du revenu du sujet, alors les données sont de type MCAR (OAR + MAR).
Encore des exemples Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Si la probabilité que le revenu soit manquant dépend de l âge de la personne interrogée mais pas de son revenu, alors les DM sont manquantes aléatoirement (ne dépendent pas du revenu) mais elles ne sont pas observées aléatoirement (dépendent de l âge) : elles sont donc de type MAR. Si la probabilité que le revenu soit manquant dépend de l âge de la personne et de son revenu, les DM ne sont pas manquantes aléatoirement (dépendent du revenu) et ne sont pas observées aléatoirement (dépendent de l âge) : elles sont donc de type MNAR.
Classification méthodologique des DM Effet des manquants Classification de Little et Rubin L intérêt de cette classification Prendre en compte le mécanisme des manquants dans l analyse. Si on s intéresse uniquement à la distribution marginale de X (l âge), les données de Y et le mécanisme des manquants n a aucune importance. Si on souhaite avoir une estimation conditionnelle de la valeur de Y sachant X (par exemple la répartition des revenus en fonction de l âge), alors l analyse sur les n m valeurs complétes est satisfaisante si les données sont MAR ou si elles sont MCAR. Si on s intéresse à la distribution marginale de Y (moyenne des revenus), alors une analyse basée sur les unités complètes est biaisée sauf si les données sont de type MCAR.
Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Si données MNAR, les estimations portant sur la distribution marginale de Y et sur la distribution conditionnelle de Y sachant X sont biaisées et nécessitent une modélisation des valeurs manquantes. Dans les autres cas, la modélisation n est pas nécessaire même si des méthodes adaptées à l analyse statistique en présence de DM doivent être utilisées.
Classification méthodologique des DM Effet des manquants Classification de Little et Rubin reprendre les exemples sur l impact des manquants dans R.
Méthode d analyse Introduction Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple méthode du cas complet X deux V.A. X 1 et X 2, n-échantillon. m 1 et m 2 valeurs mqt. sur X 1 et X 2. Le nombre m de sujets ayant au moins une donnée manquante max(m 1, m 2 ) m m 1 + m 2 Le nombre n c de sujets complets est égale à n m. Donc en général n c < nombre de sujets complets pour X 1 ou pour X 2 et : la plupart du temps on perd plus de valeurs que le nombre réel de valeurs manquantes
méthode du cas complet : avantages Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple facilite les comparaisons entre analyses uni- et multivariées si on retire les mêmes sujets d une analyse à l autre pas-à-pas ascendants : différents si logiciel ou fait soi-même
Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Méthode du cas complet : inconvénients biais perte de puissance perte de cas rapidement considérable si 10 variables avec 10% de manquants 0, 9 10 cas complets = 34,8%
Méthode du cas disponible Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple on utilise pour chaque sous-analyse l ensemble des cas complets avantage : nb max de sujets à chaque analyse inconvénients : nb variables d une analyse à l autre Y = α 1 + βx 1 et Y = α 1 + βx 2 portent sur des sujets différents ACP : matrice de covariance mal conformée
Les méthodes d imputation Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple méthodes très nombreuses consiste à substituer une valeur à la valeur manquante. méthodes séduisantes et dangereuses (Rubin)
Les méthodes simples Introduction Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple (... et mauvaises) LOCF : Last Observation Caried Forward ajouter une catégorie pour les DM moyenne non conditionnelle moyenne conditionnelle (Buck) (par bloc ou pas) imputation + aléa simples mais inconvénients +++ / overfitting /ad hoc estimations d IC très difficiles
Les méthodes dans les enquêtes Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple cold deck : source exterieur, limites + + + hot deck substitution : tirage au sort d une nouvelle unité difficile si stratification a posteriori
Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Méthodes basées sur une énumération des possibilités Pour des données qualitatives + + : table 1ou2 2 énumerer toute les solutions possibles (liste de p) étude de sensibilité : énumerer toute les possibilités dans un graphique, méthode de Shadish énumerer et combiner : faire une hypothèse sur la répartition des DM on fixe θ = θ m pour chaque combinaison de manquants, queues de distribution (Fisher) on combine les résultats pour avoir une inférence globale
Etude de sensibilité : Shadish Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Angioplasty: % of missing allocated to good outcome (n=30) 0 20 40 60 80 100 Extreme favouring A All allocated to good All allocated to poor Extreme favouring S 0 20 40 60 80 100 Stent: % of missing allocated to good outcome (n=24) Significant difference (p<0.05) No significant difference (p>0.05)
Méthode de Delucchi Introduction Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Pour des données qualitatives : table 2 2 si on a m valeurs manquantes dans l une des deux variables on peut imputer les valeurs de m + 1 manières ce qui donne m + 1 tests à partir desquels on conclut
Méthode de NM : Delucchi pondéré Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Pour des données qualitatives : table 2 2, test de Fisher si on a m valeurs manquantes dans l une des deux variables on peut imputer les valeurs de m + 1 manières avec proba de chaque configuration sous paramètre θ ce qui donne m + 1 tests de Fisher pondéré on conclut par un test pondéré par la Pr(configuration m )
Maximisation de la vraisemblance Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Marche bien pour MAR, moins pour MCAR et pas pour MNAR Voir exemple dans feuille Excel pour une proportion et une table 2 2
Solutions à part Introduction Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple littérature + + + ad hoc + + + algorithme NIPALS voir modèles PLS qui suppose quand même des hypothèses fortes sur les DM! ne pas avoir de DM!!
L Imputation Multiple : la star! Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple l imputation simple est unique la donnée imputée est considéré comme une donnée observée ne tient pas compte de l incertitude sup. liée aux manquants d où l idée de faire plusieurs imputations différentes on substitue plusieurs valeurs à chaque DM on analyse en tenant compte de cette multiplicité
Les étapes d une imputation multiple Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple on analyse la matrice des données pour en déduire un modèle pour les DM on réalise entre M = 3 et 10 imputations pour obtenir 3 à 10 jeux de données complétés on calcule le paramètre d intérêt pour chaque jeu on combine les M imputations pour avoir une inférence qui tienne compte de l incertitude supplémentaire liée aux DM
Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Formules pour l IM M estimations ponctuelles pour le vecteur de paramètre θ. Si gaussien, moyenne et écart-type : et On calcule ensuite : ˆQ (t) = ˆQ(Y obs, Y (t) miss ), t = 1,..., m Û (t) = Û (t) (Y obs, Y (t) miss ), t = 1,..., m Q = 1 m m t=1 ˆQ (t)
Formules pour l IM (suite) Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple La Var. globale a deux composantes : (1) variance intra-imputation Ū = 1 m m t=1 U (t) (2) La variance inter-imputation vaut : La variance totale vaut : B = 1 m 1 m ( ˆQ (t) Q) 2 t=1 T = Ū + (1 + m 1 )B
Formules pour l IM (suite) Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple À partir de ces équations, on peut réaliser des tests : Q Q T 2 t ν avec : [ ] 2 Ū ν = (m 1) 1 + (1 + m 1 )B intervalles de confiances. Ces statistiques tiennent compte de l incertitude suppl. liées aux DM.
Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Exemple : voir feuille Excel
L IM : avantages Introduction Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple souple + + donne des résultats valides robuste aux écarts de spécification du modèle M peut être faible : 3, 5, pas plus de 10.
L IM : inconvénients (limités) Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple le recours à des logiciels repose sur le modèle (mais les autres méthodes aussi) si les effectifs sont faibles variantes particulières Par ailleurs aspects bayesiens utiliser WinBUGS
La solution bayesienne Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Les données manquantes sont issues d une distribution a priori souplesse + + + faire des hypothèses sur les DM mais toute les méthodes en font similitudes avec les données aberrantes voir exemple de prog. Bugs de NM.
Les logiciels Introduction Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple MINITAB : rien pour les DM SPSS : module mais pas dans la base SAS : différentes fonctions + PROC MI S+ / R : CAT,MIX, NORM A part : SIMCA : cartographie des manquants / R WinBUGS
Introduction DM : un problème sans vraie solution il faut toujours faire des hypothèses ou faire une étude de sensibilité qui ne conclut pas le mieux : IM encore mieux : bayesien encore encore mieux : ne pas avoir de DM