Gestion des données manquantes en Analyse en Composantes Principales

Documents pareils

Analyse en Composantes Principales

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

La classification automatique de données quantitatives

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Introduction à l approche bootstrap

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

Algorithmes d'apprentissage

Couples de variables aléatoires discrètes

NOTATIONS PRÉLIMINAIRES

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Filtrage stochastique non linéaire par la théorie de représentation des martingales

STATISTIQUES. UE Modélisation pour la biologie

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Agrégation des portefeuilles de contrats d assurance vie

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

1 Imputation par la moyenne

Coup de Projecteur sur les Réseaux de Neurones

L'analyse des données à l usage des non mathématiciens

1 Complément sur la projection du nuage des individus

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Débouchés professionnels

Introduction. Préambule. Le contexte

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Programmes des classes préparatoires aux Grandes Ecoles

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Apprentissage non paramétrique en régression

Algorithmes de recherche

Cours Informatique Master STEP

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage

Régression linéaire. Nicolas Turenne INRA

TABLE DES MATIERES. C Exercices complémentaires 42

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Mises en relief. Information supplémentaire relative au sujet traité. Souligne un point important à ne pas négliger.

Analyse de la variance Comparaison de plusieurs moyennes

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Etude des propriétés empiriques du lasso par simulations

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Introduction à l'analyse multivariée (factorielle) sous R. Stéphane CHAMPELY

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Introduction à la Statistique Inférentielle

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

CAPTEURS - CHAINES DE MESURES

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Température corporelle d un castor (une petite introduction aux séries temporelles)

Évaluation de la régression bornée

DONNEES MASSIVES POUR LA STATISTIQUE

INF6304 Interfaces Intelligentes

Extraction d informations stratégiques par Analyse en Composantes Principales

Introduction au datamining

NON-LINEARITE ET RESEAUX NEURONAUX

Arbres binaires de décision

de calibration Master 2: Calibration de modèles: présentation et simulation d

FORMULAIRE DE STATISTIQUES

Université de Montréal. département de sociologie. L'analyse factorielle et l'analyse de fidélité. notes de cours et exemples

4.2 Unités d enseignement du M1

Gestion du niveau de la franchise d'un contrat avec bonus-malus

Architecture des Systèmes d Information Architecture des Systèmes d Information

Projet Scientique Collectif Les Paris Sportifs. Dugarzhapov, Hippolyte, Hoang, Jacquemart, Meyer, Sellami, Watine

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

MABioVis. Bio-informatique et la

Processus de Développement Logiciel

Implémentation de Nouveaux Elements Finis dans Life et Applications

Imputation du salaire d ego dans TeO

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Processus de Développement Logiciel

Cycle de formation certifiante Sphinx

(VM(t i ),Q(t i+j ),VM(t i+j ))

Réseaux sociaux en milieu scolaire Mémoire de recherche

Modélisation intégrée des écoulements pour la gestion en temps réel d'un bassin versant anthropisé

Modélisation aléatoire en fiabilité des logiciels

MCMC et approximations en champ moyen pour les modèles de Markov

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Intérêt du découpage en sous-bandes pour l analyse spectrale

Cours de méthodes de scoring

VI. Tests non paramétriques sur un échantillon

UNIVERSITE DES ANTILLES et DE LA GUYANE Campus de Fouillole BP Pointe-à-Pitre Cedex CONTRAT LE MASTER NOM DU DOMAINE STS

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.

YAO : Un logiciel pour les modèles

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

LUT QU EST-CE QUE C EST? Version 1.0 Mars 2010

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Introduction au Data-Mining

Transcription:

Gestion des données manquantes en Analyse en Composantes Principales François Husson & Julie Josse Laboratoire de mathématiques appliquées, Agrocampus Rennes Bordeaux, 11 mars 2010 1 / 37

L'équipe d'agrocampus 5 enseignants-chercheurs (2 Pr, 3 MC) 1 ingénieure-doctorante / 3 doctorants / 1 secrétaire 2 / 37

Activités Recherche Analyse de données, modèles en grandes dimensions Domaines d'applications : analyse sensorielle et génomique Enseignement Généraliste : modèle linéaire, analyse des données, planication expérimentale, etc. Spécialisé avec une spécialité d'ingénieur et un master cohabilité avec Rennes 2 : sensométrie, données génomiques, tableaux multiples, etc. Développement Création de packages R : FactoMineR, SensoMineR, FAMT Organisation de congrès (user!2009, Carme 2011, Sensometrics 2012) 3 / 37

Publications - livres Analyses factorielles simples et multiples (B. Escoer, J. Pagès, 2008) Statistique générale pour utilisateurs : Cours (J. Pagès, 2005) Exercices (F. Husson, J. Pagès, 2005) Statistique avec R (Cornillon, Guyader, Husson, Jégou, Josse, Kloareg, Matzner-Løber, Rouvière, 2008, 2010) Analyse de données avec R (F. Husson, S. Lê, J. Pagès, 2009) 4 / 37

Plan 1 Contexte de l'étude 2 Estimation ponctuelle 3 Prise en compte de l'incertitude due aux données manquantes 4 Conclusion - perspectives 5 / 37

Evaluation sensorielle : Problématique sensorielle 99 juges, 12 parfums Recueil de données par Napping (Pagès 2003) 0 10 20 30 40 Aromatics Elixir Chanel n 5 Shalimar Angel Lolita Lempika L instant Cinéma J adore (ET) Pure Poison Pleasures J adore (EP) Coco Mademoiselle Angel Chanel Coco Shalimar X 19 13 42 4 Y 27 35 19 30 0 10 20 30 40 50 60 6 / 37

Problématique sensorielle Figure: Structure des données Obtenir une carte "moyenne" des parfums Est-ce que les juges perçoivent les parfums de la même façon (consensus entre juges)? Confronter l'espace produit des experts à celui des consommateurs Problématique classique en analyse multi-tableaux : Analyse Factorielle Multiple (Escoer & Pagès, 1982) 7 / 37

Analyse Factorielle Multiple Figure: Tableaux multiples Questionnaire : santé des étudiants (consommation de drogues, état psychologique, qualité du sommeil, signalétique) Analyse sensorielle : données sensorielles, mesures physico-chimiques Données génomiques : protéine, ADN 8 / 37

Analyse Factorielle Multiple Equilibrer l'inuence des groupes Le c ur de l'afm est une ACP pondérée : ACP sur chaque groupe de variables λ 1 1,..., λj 1 ACP globale sur : ( X1,..., X J ) λ 1 1 λ J 1 Résultats classiques de l'analyse factorielle (représentation des individus, représentation des variables) Problématique enrichie : résultats spéciques de la structure en groupes de variables (représentation superposée, représentation globale des groupes) 9 / 37

Une conguration de données manquantes particulière Problème : chaque juge ne peut évaluer qu'un petit nombre de produits diculté et saturation Construire un plan d'expériences Figure: Structure de données manquantes But : obtenir la conguration compromis à partir du tableau de données incomplet (par une AFM avec données manquantes) 10 / 37

Ce qu'on veut faire... et ce qu'on a fait Gestion des données manquantes en tableau multiple (AFM)... gestion des données manquantes en tableau simple (ACP) 11 / 37

Comment aborder ce problème de données manquantes? Méthodes utilisées : Suppression des individus Imputation simple : moyenne, régression, hot deck,... Méthodes préconisées (Shafer 2002, Little & Rubin 2002) : Maximum de vraisemblance et algorithme EM (Dempster, Laird & Rubin 1977) Imputation multiple (Rubin 1987) 12 / 37

Plan 1 Contexte de l'étude 2 Estimation ponctuelle 3 Prise en compte de l'incertitude due aux données manquantes 4 Conclusion - perspectives 13 / 37

Deux points de vue : Point de vue géométrique maximisation de la variance des points projetés minimisation de l'erreur de reconstitution Approximation de X par une matrice de rang K < p F = X n p F n K u K p 2 = n p K (x ij F ik u jk ) 2 i=1 j=1 k=1 u axes principaux (normés à 1) F composantes principales (normées à la valeur propre) 14 / 37

Modèles Modèle à eets xes (Caussinus, 1986) : x ij = K F ik u jk + ε ij, avec ε ij N (0, σ 2 ) k=1 L c (X F, u, σ 2 ) = np 2 ln(2πσ2 ) 1 2σ 2 X Fu 2 15 / 37

Modèles Modèle à eets xes (Caussinus, 1986) : x ij = K F ik u jk + ε ij, avec ε ij N (0, σ 2 ) k=1 L c (X F, u, σ 2 ) = np 2 ln(2πσ2 ) 1 2σ 2 X Fu 2 Modèle à eets aléatoires (ACP Probabiliste, Bishop & Tipping, 1999 ; Roweis, 1998) : x i = Γz i + ε i, avec z i N (0, I K ) et ε i N (0, σ 2 I p ) Estimateurs du maximum de vraisemblance : ˆσ 2 = 1 p K p j=k+1 λ j ˆΓ = uk (Λ K σ 2 I K ) 1/2 15 / 37

Estimation des axes et composantes F et u peuvent être obtenus par : diagonalisation de la matrice de variance-covariance (ou de produit-scalaire) algorithmes itératifs 16 / 37

ACP via NIPALS (Non linear Iterative PArtial Least Squares) Wold (1966, 1969) : méthode séquentielle meilleure approximation de rang 1 F 1 = n i=1 j=1 p (x ij F i1 u j1 ) 2 F 1 = 0 u j1 = F i1 F 1 u j1 = 0 F i1 = i (x ij F i1 ) i F 2 i1 j (x ij u j1 ) j u2 j1 Composante F 1 Coordonnées des n individus axe u 1 Coordonnées des p variables Déation : une fois (ˆF1, û 1 ) trouvé, on cherche (ˆF2, û 2 ) premier axe et première composante de X = X ˆF1 û 1 17 / 37

ACP via la recherche directe du sous-espace F = X n p F n K u p K 2 Recherche directe du sous-espace de dimension K avec K > 1 { u = X F (F F ) 1 F = Xu(u u) 1 18 / 37

Moindres carrés pondérés n p K F = W (X Fu ) 2 = (w ij x ij F ik w ij u jk ) 2 i=1 j=1 k=1 avec W matrice de poids, w ij = 0 si x ij manquant, w ij = 1 sinon Mêmes algorithmes mais on "saute" les données manquantes NIPALS : u j1 = i (w ij x ij F i1 ) i w ij Fi1 2 ; F i1 = j (w ij x ij u j1 ) j w ij u 2 j1 Recherche directe du sous-espace (Gabriel & Zamir, 1979) 19 / 37

ACP itérative Kiers (1997) : minimiser W (X M) 2 par minimisation itérative de X M 2 1 initialisation l = 0 : X 0 2 itération l : (a) (F l, u l ) minimisent (ou diminuent) X l 1 Fu 2 ; K dimensions sont retenues (b) ˆX l = ˆF lû l X l l = W X + (1 W ) ˆX 3 les étapes (a) et (b) sont répétées jusqu'à convergence Estimation/Imputation 20 / 37

Modèle à eets xes : x ij = ACP itérative = ACP-EM K F ik u jk + ε ij, avec ε ij N (0, σ 2 ) k=1 Vraisemblance : L c (X F, u, σ 2 ) = np 2 ln(2πσ2 ) 1 2σ 2 X Fu 2 Etape E : E(x ij X obs, F l, u l, σ l ) Imputation Etape M : Maximise l'espérance de L c ACP Etape M' : Augmente l'espérance de L c MCA ACP-GEM û l = X l 1 F l 1 (F l 1 F l 1 ) 1 ˆF l = X l 1 u l (u l u l ) 1 21 / 37

Propriétés Deux algorithmes = deux points de vues algorithme d'imputation impute par des données qui n'ont pas d'inuence sur l'estimation algorithme qui saute les données a une imputation implicite Décentrage : recentrage Minima locaux : plusieurs solutions initiales Solutions non emboîtées : choix du nombre d'axes Réduction de la variabilité Surajustement Diminuer K Pénaliser les régressions 22 / 37

Utilisation de l'acpp pour limiter le surajustement 1 initialisation l = 0 : X 0 2 itération l : (a) (F l, u l ) minimisent X l 1 Fu 2 ; K dimensions sont retenues ( ) (b) ˆX l = ˆF l λk ˆF l diag ˆσ2 û l λk k=1,...,k nouvelle imputation : X l = W X + (1 W ) ˆX l ; 3 les étapes (a) et (b) sont répétées jusqu'à convergence ACP-EM régularisée 23 / 37

Simulations 21 individus, 10 variables, 2 dimensions Ajout de bruit sur chaque variable (σ = 0.1, 0.2, 0.5, 1) diérentes structures de données Données manquantes : 10%, 20% 50% 100 simulations pour chaque jeu de paramètres 24 / 37

Simulations 21 individus, 10 variables, 2 dimensions Ajout de bruit sur chaque variable (σ = 0.1, 0.2, 0.5, 1) diérentes structures de données Données manquantes : 10%, 20% 50% 100 simulations pour chaque jeu de paramètres Deux critères : Erreur de reconstitution Coecient RV entre congurations des individus de l'acp (vraie / incomplète) 24 / 37

Simulations Diérents algorithmes : imputation par la moyenne, NIPALS, ACP-GEM et ACP-GEM régularisée nb.na = 0.2 nb.na = 0.4 coeffrv 0.0 0.2 0.4 0.6 0.8 1.0 mean ACP-GEM ACP-GEM reg ACP-GEM 3 ACP-GEM reg 3 coeffrv 0.0 0.2 0.4 0.6 0.8 1.0 mean ACP-GEM ACP-GEM reg ACP-GEM 3 ACP-GEM reg 3 0.1 0.25 0.5 1 0.1 0.25 0.5 1 sigma sigma 25 / 37

De l'estimation ponctuelle... à l'imputation multiple 2 1 0 1 2 2 0 2 4 6 8 Estimation ponctuelle : bonne estimation mais réduction de la variabilité Imputation multiple : visualisation de l'incertitude due aux données manquantes 26 / 37

Plan 1 Contexte de l'étude 2 Estimation ponctuelle 3 Prise en compte de l'incertitude due aux données manquantes 4 Conclusion - perspectives 27 / 37

Imputation Multiple Prise en compte de l'incertitude due aux données manquantes Trois étapes : 1 générer D tableaux imputés 2 réaliser l'analyse sur chaque tableau 3 combiner les résultats adapter l'imputation multiple à l'acp 28 / 37

Générer l'imputation multiple Modèle d'imputation de l'acp 1 obtenir D valeurs plausibles des paramètres (ˆF û ) 1,..., (ˆF û ) D bootstrap des individus bootstrap des résidus 2 pour d = 1,..., D, imputer les valeurs manquantes xij d en tirant ) dans N ((ˆF û ) dij, σ2 Etape 1 rend l'imputation "proper" 29 / 37

Algorithme ACP-IM 1 initialisation estimation ponctuelle pour obtenir ˆF et û ; reconstitution de ( ˆX = ˆF û ) et calcul de la matrice des résidus ˆε = X ˆX 2 variance d'estimation : bootstrap des résidus ε ; génération d'un nouveau tableau : X = ˆF û + ε ; estimation de (ˆF, û ) ; 3 bruit ) remplacement des données manquantes par N ((ˆF û ) dij, σ2 4 pour d = 1,.., D répéter les étapes 2 et 3 30 / 37

Tableau de l'estimation ponctuelle et D tableaux imputés Deux visualisations possible : instabilité des individus (et des variables) due aux données manquantes impact des données manquantes sur la construction des axes et des composantes 31 / 37

Projection en supplémentaire Projection des variables supplémentaires Projection des individus supplémentaires 32 / 37

Projection en supplémentaire Dim 2 (25.56%) -2 0 2 4 6 10% NA 1VAU 2ING T2 3EL T1 4EL 2DAM 2BEA PER1 2EL 1ING 1TUR 1BOI 1DAM 1ROC 1CHA 1FON 1POY DOM1 1BEN 2BOU Dim 2 (25.56%) -1.0-0.5 0.0 0.5 1.0 Plante Spice Odor.Intensity Phenolic Flower Aroma.persistency Aroma.intensity Fruity Quality.of.odour Aroma.quality -6-4 -2 0 2 4 Dim 1 (49.35%) -1.0-0.5 0.0 0.5 1.0 Dim 1 (49.35%) Dim 2 (28.88%) -4-2 0 2 4 6 8 30% NA 1VAU 2ING 3EL T2 T1 1FON 1ING2DAM 2BEA 4EL 1DAM 2EL PER1 DOM1 1CHA 1TUR 1ROC 1BEN 1POY 2BOU 1BOI Dim 2 (28.88%) -1.0-0.5 0.0 0.5 1.0 Plante Spice Odor.Intensity Phenolic Flower Aroma.intensity Aroma.persistency Fruity Aroma.quality Quality.of.odour -8-6 -4-2 0 2 4 Dim 1 (55.37%) -1.0-0.5 0.0 0.5 1.0 Dim 1 (55.37%) 33 / 37

ACP séparées - procrustes ACP séparée sur chaque jeu de données imputé rotation procrustéenne sur l'acp eectuée sur l'estimation ponctuelle construction d'ellipses de conance et projection des dimensions 34 / 37

ACP séparées - procrustes Dim 2 (25.2%) -2 0 2 4 6 10% NA 1VAU 2ING T2 3EL T1 4EL 2DAM 2BEA PER1 2EL 1ING 1TUR 1BOI 1DAM 1ROC 1CHA 1FON 1POY DOM1 1BEN 2BOU Dim 2 (25.2%) -1.0-0.5 0.0 0.5 1.0-6 -4-2 0 2 4 Dim 1 (49.26%) -1.0-0.5 0.0 0.5 1.0 Dim 1 (49.26%) Dim 2 (28.22%) -2 0 2 4 6 30% NA 1VAU 2ING 3EL T2 T1 1FON 1ING 2DAM 2BEA 4EL 1DAM 2EL PER1 DOM1 1CHA 1TUR 1ROC 1BEN 1POY 1BOI 2BOU Dim 2 (28.22%) -1.0-0.5 0.0 0.5 1.0-6 -4-2 0 2 4 Dim 1 (55.54%) -1.0-0.5 0.0 0.5 1.0 Dim 1 (55.54%) 35 / 37

Plan 1 Contexte de l'étude 2 Estimation ponctuelle 3 Prise en compte de l'incertitude due aux données manquantes 4 Conclusion - perspectives 36 / 37

Conclusion - perspective adaptation (immédiate?) aux données qualitatives tableaux multiples choix du nombre d'axes 37 / 37