Imputation multiple pour variables qualitatives par analyse des correspondances multiples



Documents pareils
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Exemple PLS avec SAS

Principe de symétrisation pour la construction d un test adaptatif

Évaluation de la régression bornée

La classification automatique de données quantitatives

Post-processing of multimodel hydrological forecasts for the Baskatong catchment

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

BNP Paribas Personal Finance

Institut français des sciences et technologies des transports, de l aménagement

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Instructions Mozilla Thunderbird Page 1

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

Gestion des prestations Volontaire

Les défis statistiques du Big Data

Forthcoming Database

CONFERENCE PALISADE. Optimisation robuste d un plan d expériences par simulation Monte-Carlo Concepts de «Design Space» et de «Quality by Design»

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Application Form/ Formulaire de demande

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Introduction à l approche bootstrap

WEB page builder and server for SCADA applications usable from a WEB navigator

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

First Nations Assessment Inspection Regulations. Règlement sur l inspection aux fins d évaluation foncière des premières nations CONSOLIDATION

1.The pronouns me, te, nous, and vous are object pronouns.

Archived Content. Contenu archivé

Scénarios économiques en assurance

HIVER 2004 MÉTHODOLOGIE DE LA RECHERCHE EN MARKETING MRK

Women s State of the Media Democracy 2012 L observatoire international des usages et interactions des médias

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Consultants en coûts - Cost Consultants

RISK-BASED TRANSPORTATION PLANNING PRACTICE: OVERALL METIIODOLOGY AND A CASE EXAMPLE"' RESUME

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Filtrage stochastique non linéaire par la théorie de représentation des martingales

NON-LINEARITE ET RESEAUX NEURONAUX

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

Créé par Goldfing & Pblabla Créé le 02/05/ :49:00. Guide pour la déclaration d impôt

Exercices sur SQL server 2000

Caroline Hurault-Delarue 1, Cécile Chouquet 2, Nicolas Savy 2, Isabelle Lacroix 1, Christine Damase- Michel 1

Notice Technique / Technical Manual

La Recherche du Point Optimum de Fonctionnement d un Générateur Photovoltaïque en Utilisant les Réseaux NEURO-FLOUS

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

Discours du Ministre Tassarajen Pillay Chedumbrum. Ministre des Technologies de l'information et de la Communication (TIC) Worshop on Dot.

Santé environnement. Description du budget espace-temps et estimation de l exposition de la population française dans son logement

RAPID Prenez le contrôle sur vos données

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Bourses d excellence pour les masters orientés vers la recherche

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Face Recognition Performance: Man vs. Machine

Modélisation géostatistique des débits le long des cours d eau.

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

L. Obert, T. Lascar, A. Adam

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

Data issues in species monitoring: where are the traps?

Probabilités Loi binomiale Exercices corrigés

Détection spatiale de données aberrantes. Application à la surveillance de la qualité de l'air.

Once the installation is complete, you can delete the temporary Zip files..

A GRASPxELS approach for the Job Shop with generic time-lags and new statistical determination of the parameters

DOCUMENTATION MODULE BLOCKCATEGORIESCUSTOM Module crée par Prestacrea - Version : 2.0

The assessment of professional/vocational skills Le bilan de compétences professionnelles

Algorithmes de recommandation, Cours Master 2, février 2011

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

ASSURER LA QUALITE DES RESULTATS D ESSAI ET D ETALONNAGE Assuring the quality of test and calibration results

Ordonnancement en temps réel d un jobshop par métaheuristique hybride : étude comparative

VTP. LAN Switching and Wireless Chapitre 4

COMPTABILITÉ. PCG : provisions pour grosses réparations vs amortissements par composants. Cette étude a pour objet. reflexion. Résumé de l article

Cloud Computing: de la technologie à l usage final. Patrick CRASSON Oracle Thomas RULMONT WDC/CloudSphere Thibault van der Auwermeulen Expopolis

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

MANAGEMENT SOFTWARE FOR STEEL CONSTRUCTION

Les Ontariens rejettent catégoriquement le projet de création d une école afrocentriste

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

BIG Data et R: opportunités et perspectives

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Vanina Bousquet 24 mars 2015

Données longitudinales et modèles de survie

How to Login to Career Page

Classification Automatique de messages : une approche hybride

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

TABLE DES MATIERES. C Exercices complémentaires 42

et Active Directory Ajout, modification et suppression de comptes, extraction d adresses pour les listes de diffusion

France SMS+ MT Premium Description

Title Text. Gestion de données de mobilité Mobility data management

DOCUMENTATION - FRANCAIS... 2

UML : Unified Modeling Language

Improving the breakdown of the Central Credit Register data by category of enterprises

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

THE SUBJUNCTIVE MOOD. Twenty-nineth lesson Vingt-neuvième leçon

Tutoriel de formation SurveyMonkey

Sécuristation du Cloud

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

DOCUMENTATION - FRANCAIS... 2

Stratégie DataCenters Société Générale Enjeux, objectifs et rôle d un partenaire comme Data4

Dans ce document, on décrit les indices des prix des biens de la TIC qui sont produits, ainsi que les sources de données et la méthodologie.

MANUEL MARKETING ET SURVIE PDF

Transcription:

Imputation multiple pour variables qualitatives par analyse des correspondances multiples Vincent Audigier & François Husson & Julie Josse Laboratoire de mathématiques appliquées, Agrocampus Ouest 65 rue de Saint Brieuc 35042 RENNES Cedex audigier@agrocampus-ouest.fr ; husson@agrocampus-ouest.fr ; josse@agrocampus-ouest.fr Résumé. Il est très fréquent de rencontrer des données manquantes dans la pratique de la statistique. Or la plupart des méthodes statistiques ne peuvent pas être directement appliquées sur un jeu incomplet. Pour dépasser cette difficulté on peut remplacer les données manquantes par des valeurs plausibles, on parle alors d imputation simple. Cependant, l imputation simple ne permet pas de prendre en compte l incertitude liée aux données imputées. Pour refléter cette incertitude, on peut proposer plusieurs imputations pour chaque donnée manquante. On parle alors d imputation multiple. L objet de cette présentation est de proposer une méthode d imputation multiple dédiée aux variables qualitatives et basée sur l analyse des correspondances multiples (ACM). L emploi d une approche bootstrap va permettre de se doter de M jeux de composantes principales et vecteurs propres. Ces jeux de paramètres sont ensuite utilisés pour construire M imputations du jeu de données permettant de refléter l incertitude sur les paramètres du modèle d imputation. Après avoir rappelé les principes de l imputation multiple, nous présenterons notre méthodologie. La méthode proposée sera ensuite évaluée par simulation et comparée aux quelques méthodes existantes : imputation multiple par modèle loglineaire, par équations enchaînées et par modèle à classes latentes. La méthode proposée fournit de bonnes estimations ponctuelles des paramètres d intérêt et de bons intervalles de confiance. De plus, elle peut s appliquer sur des jeux de données de tailles quelconques et permet notamment de traiter les cas où le nombre d individus est inférieur au nombre de variables. Mots-clés. Imputation multiple, Données manquantes, ACM, Bootstrap, Variables qualitatives Abstract. Missing values are very common in statistical practice. However, most of statistical methods cannot be applied directly on incomplete datasets. To deal with missing values, substituting of missing values by plausible values can be done. This is called single imputation. But single imputation does not take into account the uncertainty due to imputed values. To account for this uncertainty, several imputations for the same dataset could be proposed. This is called multiple imputation. This presentation proposes a new method of multiple imputation dedicated for categorical variables based on multiple correspondence analysis (MCA). The use of a bootstrap 1

procedure allow us to provide M sets of principal components and eigen vectors. Then, these sets are used to impute the incomplete dataset M times, reflecting in this way the uncertainty on the parameters of the imputation model. After recalling the principles of multiple imputation, we present our methodology. The proposed method is assessed using simulations and compared to existing methods : the multiple imputation by the loglinear model, the multiple imputation by chained equations, and the multiple imputation by the latent class model. The proposed method provides a good point estimate of the quantity of interest and a reliable estimate of the variability of the estimator. Moreover, it easily deals with cases where the number of individuals is smaller than the number of variables. Keywords. Multiple imputation, Missing values, MCA, Bootstrap, Categorical variables Les grandes enquêtes d opinion se font généralement via la soumission de questionnaires auprès d un échantillon d une population. Ceux-ci peuvent alors prendre la forme de questionnaires à choix multiples ce qui amène à collecter de nombreuses variables qualitatives. Les données qualitatives sont également très présentes dans le domaine bancaire où chaque client est décrit par un ensemble de variables telles que le département de résidence, le sexe, la situation familiale, la catégorie socio-professionnelle, etc. Des méthodes statistiques spécifiques sont par la suite appliquées sur ces données afin de répondre à des problématiques particulières. Dans le cadre des données bancaire, on peut par exemple souhaiter appliquer des méthodes de scoring afin de déterminer quel type de prêt accorder à un client. Il est très fréquent d observer des données manquantes dans ce type de données. Les causes en sont multiples : problème de saisie, les données sont issues d une agrégation de plusieurs sources dans lesquelles les individus diffèrent, les questionnaires peuvent contenir des questions embarrassantes portant par exemple sur la consommation d alcool ou sur les revenus, etc. Or la plupart des méthodes statistiques ne peuvent pas être directement appliquées sur un jeu incomplet. Pour dépasser cette difficulté on peut remplacer les données manquantes par des valeurs plausibles, on parle alors d imputation simple. Récemment, des méthodes d imputation simple reposant sur les méthodes d analyse factorielle ont été proposées (Josse and Husson, 2012; Audigier et al., 2013) avec des résultats encourageants. En particulier l analyse des correspondances multiple (ACM) permet d imputer des variables de nature qualitative. Toutefois l imputation simple a ses limites : elle ne prend pas en compte l incertitude liée aux données imputées. En conséquence, appliquer une méthode statistique sur un tableau imputé simplement impliquera une sous-estimation de la variabilité des estimateurs associés à cette méthode. Pour pouvoir refléter la variance de prédiction de chaque donnée manquante, l astuce consiste à imputer plusieurs fois chaque valeurs manquante, 2

amenant donc à plusieurs tableaux imputés. Puis, sur chacun des différents tableaux, on applique la méthode statistique souhaitée dont on agrège ensuite les paramètres selon les règles de Rubin (Rubin, 1987). On parle d imputation multiple (Rubin, 1987; Little and Rubin, 2002). On obtient ainsi une unique estimation des paramètres de la méthode ainsi qu une estimation de la variabilité associée. Ainsi, cette communication a pour but de présenter l extension de l imputation simple des variables qualitatives par ACM à sa version imputation multiple. Pour imputer un jeu de données qualitatif à l aide de l ACM on utilise un algorithme appelé ACM itérative. Cet algorithme débute par une phase d initialisation où le tableau qualitatif incomplet est dans un premier temps recodé en tableau disjonctif (incomplet), puis imputé par la moyenne de chaque indicatrice. A partir de ce tableau disjonctif rendu complet, une décomposition en valeurs singulières permet d estimer les composantes principales et les vecteurs propres qui constituent les paramètres de l ACM. Les données sont ensuite imputées en effectuant le produit matriciel des S premières composantes principales et vecteurs propres. Ces étapes d estimation des paramètres et d imputation sont alors répétées jusqu à convergence. On pourra noter que l ACM itérative est l équivalent de l ACP itérative (Kiers, 1997) qui, comme l algorithme NIPALS (Christoffersson, 1970), permet d estimer les paramètres d une analyse en composantes principales avec donnees manquantes. A l issue de l algorithme, on obtient donc un tableau disjonctif complété flou dans le sens où les valeurs imputées de ce tableau sont des réels sommant à 1 par variable et non uniquement des zéros et des uns comme dans un tableau disjonctif classique. Ces valeurs réelles sont ensuite ramenées à l intervalle [0, 1] via une normalisation, ce qui permet de les lire comme des probabilités d appartenance. On remonte alors aux données qualitatives en effectuant un tirage selon ces probabilités pour chaque donnée incomplète, simulant ainsi la distribution originelle du jeu de données. En présence d un petit nombre d individus, de liaisons faibles entre variables ou d un nombre élevé de données manquantes, cet algorithme peut souffrir de problèmes de surajustement. Pour cette raison on lui préférera sa version régularisée dont le principe est d attribuer un poids plus important aux premières dimensions, plus stables, lors de l étape d imputation. L imputation multiple par ACM ne peut cependant pas se résumer pas à une succession d imputations simples de ce type. En effet, les paramètres du modèle d imputation sont estimés à partir d un même échantillon : le tableau incomplet. Il est nécessaire de prendre en compte l incertitude vis-à-vis de cette estimation. Pour ce faire il faut se doter d un jeu de M paramètres obtenus à partir des données observées. Cela permet de refléter, à travers les données imputées, l incertitude dans l estimation des paramètres du modèle d imputation. Pour ce procurer un tel jeu de paramètres on propose d adopter une approche bootstrap. Celle-ci consiste à effectuer un tirage dans les indices des individus, puis à affecter à chaque individu un poids proportionnel au nombre de fois où son indice 3

a été tiré. Les individus dont l indice n a pas été tiré se voient attribuer un poids nul. On définit ainsi M pondérations différentes, puis on impute de façon simple le tableau de données selon chacune de ces pondérations. La pondération intervient au niveau de la décomposition en valeurs singulières et amènera donc à une estimation particulière des paramètres. De cette façon, on obtient M jeux de données imputés reflétant l incertitude sur les paramètres du modèle d imputation. La vérification de la validité d une méthode d imputation multiple s effectue par simulation. En particulier, la méthode d imputation doit permettre d obtenir des estimations ponctuelles de qualité de la quantité d intérêt associée à la méthode statistique employée, ainsi qu une estimation fiable de la variabilité associée à cette estimation. Des simulations ont été effectuées dans un cadre de données manquantes distribuées complètement au hasard (MCAR) ou au hasard (MAR) pour plusieurs dizaines de quantités d intérêt : coefficients de régression logistique ou paramètres de modèle loglinéaire. La méthode proposée a été comparée aux quelques méthodes existantes pour imputer des variables qualitatives : le modèle loglineaire (Schafer, 1997), très performant sur des jeux de données avec peu de variables mais ne permettant pas de traiter de grands jeux de données ; l imputation multiple par équations enchaînées (van Buuren and Groothuis- Oudshoorn, 2011), plus souple, performante, mais lente et nécessitant de définir un modèle d imputation pour chaque variable incomplète ; l imputation selon le modèle à classes latentes (Si and Reiter, 2013) qui repose sur une hypothèse de structure des individus en classes mais qui ne nécessite pas de paramétrage et qui peut s appliquer sur de grands jeux de données. L imputation multiple par ACM fournit de bonnes estimations ponctuelles des paramètres d intérêt tout en construisant des intervalles de confiance valides. De plus, elle peut s appliquer sur des jeux de données de tailles quelconques et permet notamment de traiter les cas où le nombre d individus est inférieur au nombre de variables. Références Audigier, V., F. Husson, and J. Josse (2013). A principal components method to impute missing values for mixed data. ArXiv e-prints. In revision. Christoffersson, A. (1970). The one component model with incomplete data. Wilkinson. Josse, J. and F. Husson (2012). Handling missing values in exploratory multivariate data analysis methods. Journal de la Société Française de Statistique 153 (2), 1 21. Kiers, H. A. L. (1997). Weighted least squares fitting using ordinary least squares algorithms. Psychometrika 62, 251 266. Little, R. J. A. and D. B. Rubin (1987, 2002). Statistical Analysis with Missing Data. New-York : Wiley series in probability and statistics. 4

Rubin, D. B. (1987). Multiple Imputation for Non-Response in Survey. Wiley. Schafer, J. L. (1997). Analysis of Incomplete Multivariate Data. London : Chapman & Hall/CRC. Si, Y. and J. Reiter (2013). Nonparametric bayesian multiple imputation for incomplete categorical variables in large-scale assessment surveys. Journal of Educational and Behavioral Statistics 38, 499 521. van Buuren, S. and K. Groothuis-Oudshoorn (2011). mice : Multivariate imputation by chained equations in R. Journal of Statistical Software 45 (3), 1 67. 5