Gestion des données manquantes en Analyse en Composantes Principales François Husson & Julie Josse Laboratoire de mathématiques appliquées, Agrocampus Rennes Bordeaux, 11 mars 2010 1 / 37
L'équipe d'agrocampus 5 enseignants-chercheurs (2 Pr, 3 MC) 1 ingénieure-doctorante / 3 doctorants / 1 secrétaire 2 / 37
Activités Recherche Analyse de données, modèles en grandes dimensions Domaines d'applications : analyse sensorielle et génomique Enseignement Généraliste : modèle linéaire, analyse des données, planication expérimentale, etc. Spécialisé avec une spécialité d'ingénieur et un master cohabilité avec Rennes 2 : sensométrie, données génomiques, tableaux multiples, etc. Développement Création de packages R : FactoMineR, SensoMineR, FAMT Organisation de congrès (user!2009, Carme 2011, Sensometrics 2012) 3 / 37
Publications - livres Analyses factorielles simples et multiples (B. Escoer, J. Pagès, 2008) Statistique générale pour utilisateurs : Cours (J. Pagès, 2005) Exercices (F. Husson, J. Pagès, 2005) Statistique avec R (Cornillon, Guyader, Husson, Jégou, Josse, Kloareg, Matzner-Løber, Rouvière, 2008, 2010) Analyse de données avec R (F. Husson, S. Lê, J. Pagès, 2009) 4 / 37
Plan 1 Contexte de l'étude 2 Estimation ponctuelle 3 Prise en compte de l'incertitude due aux données manquantes 4 Conclusion - perspectives 5 / 37
Evaluation sensorielle : Problématique sensorielle 99 juges, 12 parfums Recueil de données par Napping (Pagès 2003) 0 10 20 30 40 Aromatics Elixir Chanel n 5 Shalimar Angel Lolita Lempika L instant Cinéma J adore (ET) Pure Poison Pleasures J adore (EP) Coco Mademoiselle Angel Chanel Coco Shalimar X 19 13 42 4 Y 27 35 19 30 0 10 20 30 40 50 60 6 / 37
Problématique sensorielle Figure: Structure des données Obtenir une carte "moyenne" des parfums Est-ce que les juges perçoivent les parfums de la même façon (consensus entre juges)? Confronter l'espace produit des experts à celui des consommateurs Problématique classique en analyse multi-tableaux : Analyse Factorielle Multiple (Escoer & Pagès, 1982) 7 / 37
Analyse Factorielle Multiple Figure: Tableaux multiples Questionnaire : santé des étudiants (consommation de drogues, état psychologique, qualité du sommeil, signalétique) Analyse sensorielle : données sensorielles, mesures physico-chimiques Données génomiques : protéine, ADN 8 / 37
Analyse Factorielle Multiple Equilibrer l'inuence des groupes Le c ur de l'afm est une ACP pondérée : ACP sur chaque groupe de variables λ 1 1,..., λj 1 ACP globale sur : ( X1,..., X J ) λ 1 1 λ J 1 Résultats classiques de l'analyse factorielle (représentation des individus, représentation des variables) Problématique enrichie : résultats spéciques de la structure en groupes de variables (représentation superposée, représentation globale des groupes) 9 / 37
Une conguration de données manquantes particulière Problème : chaque juge ne peut évaluer qu'un petit nombre de produits diculté et saturation Construire un plan d'expériences Figure: Structure de données manquantes But : obtenir la conguration compromis à partir du tableau de données incomplet (par une AFM avec données manquantes) 10 / 37
Ce qu'on veut faire... et ce qu'on a fait Gestion des données manquantes en tableau multiple (AFM)... gestion des données manquantes en tableau simple (ACP) 11 / 37
Comment aborder ce problème de données manquantes? Méthodes utilisées : Suppression des individus Imputation simple : moyenne, régression, hot deck,... Méthodes préconisées (Shafer 2002, Little & Rubin 2002) : Maximum de vraisemblance et algorithme EM (Dempster, Laird & Rubin 1977) Imputation multiple (Rubin 1987) 12 / 37
Plan 1 Contexte de l'étude 2 Estimation ponctuelle 3 Prise en compte de l'incertitude due aux données manquantes 4 Conclusion - perspectives 13 / 37
Deux points de vue : Point de vue géométrique maximisation de la variance des points projetés minimisation de l'erreur de reconstitution Approximation de X par une matrice de rang K < p F = X n p F n K u K p 2 = n p K (x ij F ik u jk ) 2 i=1 j=1 k=1 u axes principaux (normés à 1) F composantes principales (normées à la valeur propre) 14 / 37
Modèles Modèle à eets xes (Caussinus, 1986) : x ij = K F ik u jk + ε ij, avec ε ij N (0, σ 2 ) k=1 L c (X F, u, σ 2 ) = np 2 ln(2πσ2 ) 1 2σ 2 X Fu 2 15 / 37
Modèles Modèle à eets xes (Caussinus, 1986) : x ij = K F ik u jk + ε ij, avec ε ij N (0, σ 2 ) k=1 L c (X F, u, σ 2 ) = np 2 ln(2πσ2 ) 1 2σ 2 X Fu 2 Modèle à eets aléatoires (ACP Probabiliste, Bishop & Tipping, 1999 ; Roweis, 1998) : x i = Γz i + ε i, avec z i N (0, I K ) et ε i N (0, σ 2 I p ) Estimateurs du maximum de vraisemblance : ˆσ 2 = 1 p K p j=k+1 λ j ˆΓ = uk (Λ K σ 2 I K ) 1/2 15 / 37
Estimation des axes et composantes F et u peuvent être obtenus par : diagonalisation de la matrice de variance-covariance (ou de produit-scalaire) algorithmes itératifs 16 / 37
ACP via NIPALS (Non linear Iterative PArtial Least Squares) Wold (1966, 1969) : méthode séquentielle meilleure approximation de rang 1 F 1 = n i=1 j=1 p (x ij F i1 u j1 ) 2 F 1 = 0 u j1 = F i1 F 1 u j1 = 0 F i1 = i (x ij F i1 ) i F 2 i1 j (x ij u j1 ) j u2 j1 Composante F 1 Coordonnées des n individus axe u 1 Coordonnées des p variables Déation : une fois (ˆF1, û 1 ) trouvé, on cherche (ˆF2, û 2 ) premier axe et première composante de X = X ˆF1 û 1 17 / 37
ACP via la recherche directe du sous-espace F = X n p F n K u p K 2 Recherche directe du sous-espace de dimension K avec K > 1 { u = X F (F F ) 1 F = Xu(u u) 1 18 / 37
Moindres carrés pondérés n p K F = W (X Fu ) 2 = (w ij x ij F ik w ij u jk ) 2 i=1 j=1 k=1 avec W matrice de poids, w ij = 0 si x ij manquant, w ij = 1 sinon Mêmes algorithmes mais on "saute" les données manquantes NIPALS : u j1 = i (w ij x ij F i1 ) i w ij Fi1 2 ; F i1 = j (w ij x ij u j1 ) j w ij u 2 j1 Recherche directe du sous-espace (Gabriel & Zamir, 1979) 19 / 37
ACP itérative Kiers (1997) : minimiser W (X M) 2 par minimisation itérative de X M 2 1 initialisation l = 0 : X 0 2 itération l : (a) (F l, u l ) minimisent (ou diminuent) X l 1 Fu 2 ; K dimensions sont retenues (b) ˆX l = ˆF lû l X l l = W X + (1 W ) ˆX 3 les étapes (a) et (b) sont répétées jusqu'à convergence Estimation/Imputation 20 / 37
Modèle à eets xes : x ij = ACP itérative = ACP-EM K F ik u jk + ε ij, avec ε ij N (0, σ 2 ) k=1 Vraisemblance : L c (X F, u, σ 2 ) = np 2 ln(2πσ2 ) 1 2σ 2 X Fu 2 Etape E : E(x ij X obs, F l, u l, σ l ) Imputation Etape M : Maximise l'espérance de L c ACP Etape M' : Augmente l'espérance de L c MCA ACP-GEM û l = X l 1 F l 1 (F l 1 F l 1 ) 1 ˆF l = X l 1 u l (u l u l ) 1 21 / 37
Propriétés Deux algorithmes = deux points de vues algorithme d'imputation impute par des données qui n'ont pas d'inuence sur l'estimation algorithme qui saute les données a une imputation implicite Décentrage : recentrage Minima locaux : plusieurs solutions initiales Solutions non emboîtées : choix du nombre d'axes Réduction de la variabilité Surajustement Diminuer K Pénaliser les régressions 22 / 37
Utilisation de l'acpp pour limiter le surajustement 1 initialisation l = 0 : X 0 2 itération l : (a) (F l, u l ) minimisent X l 1 Fu 2 ; K dimensions sont retenues ( ) (b) ˆX l = ˆF l λk ˆF l diag ˆσ2 û l λk k=1,...,k nouvelle imputation : X l = W X + (1 W ) ˆX l ; 3 les étapes (a) et (b) sont répétées jusqu'à convergence ACP-EM régularisée 23 / 37
Simulations 21 individus, 10 variables, 2 dimensions Ajout de bruit sur chaque variable (σ = 0.1, 0.2, 0.5, 1) diérentes structures de données Données manquantes : 10%, 20% 50% 100 simulations pour chaque jeu de paramètres 24 / 37
Simulations 21 individus, 10 variables, 2 dimensions Ajout de bruit sur chaque variable (σ = 0.1, 0.2, 0.5, 1) diérentes structures de données Données manquantes : 10%, 20% 50% 100 simulations pour chaque jeu de paramètres Deux critères : Erreur de reconstitution Coecient RV entre congurations des individus de l'acp (vraie / incomplète) 24 / 37
Simulations Diérents algorithmes : imputation par la moyenne, NIPALS, ACP-GEM et ACP-GEM régularisée nb.na = 0.2 nb.na = 0.4 coeffrv 0.0 0.2 0.4 0.6 0.8 1.0 mean ACP-GEM ACP-GEM reg ACP-GEM 3 ACP-GEM reg 3 coeffrv 0.0 0.2 0.4 0.6 0.8 1.0 mean ACP-GEM ACP-GEM reg ACP-GEM 3 ACP-GEM reg 3 0.1 0.25 0.5 1 0.1 0.25 0.5 1 sigma sigma 25 / 37
De l'estimation ponctuelle... à l'imputation multiple 2 1 0 1 2 2 0 2 4 6 8 Estimation ponctuelle : bonne estimation mais réduction de la variabilité Imputation multiple : visualisation de l'incertitude due aux données manquantes 26 / 37
Plan 1 Contexte de l'étude 2 Estimation ponctuelle 3 Prise en compte de l'incertitude due aux données manquantes 4 Conclusion - perspectives 27 / 37
Imputation Multiple Prise en compte de l'incertitude due aux données manquantes Trois étapes : 1 générer D tableaux imputés 2 réaliser l'analyse sur chaque tableau 3 combiner les résultats adapter l'imputation multiple à l'acp 28 / 37
Générer l'imputation multiple Modèle d'imputation de l'acp 1 obtenir D valeurs plausibles des paramètres (ˆF û ) 1,..., (ˆF û ) D bootstrap des individus bootstrap des résidus 2 pour d = 1,..., D, imputer les valeurs manquantes xij d en tirant ) dans N ((ˆF û ) dij, σ2 Etape 1 rend l'imputation "proper" 29 / 37
Algorithme ACP-IM 1 initialisation estimation ponctuelle pour obtenir ˆF et û ; reconstitution de ( ˆX = ˆF û ) et calcul de la matrice des résidus ˆε = X ˆX 2 variance d'estimation : bootstrap des résidus ε ; génération d'un nouveau tableau : X = ˆF û + ε ; estimation de (ˆF, û ) ; 3 bruit ) remplacement des données manquantes par N ((ˆF û ) dij, σ2 4 pour d = 1,.., D répéter les étapes 2 et 3 30 / 37
Tableau de l'estimation ponctuelle et D tableaux imputés Deux visualisations possible : instabilité des individus (et des variables) due aux données manquantes impact des données manquantes sur la construction des axes et des composantes 31 / 37
Projection en supplémentaire Projection des variables supplémentaires Projection des individus supplémentaires 32 / 37
Projection en supplémentaire Dim 2 (25.56%) -2 0 2 4 6 10% NA 1VAU 2ING T2 3EL T1 4EL 2DAM 2BEA PER1 2EL 1ING 1TUR 1BOI 1DAM 1ROC 1CHA 1FON 1POY DOM1 1BEN 2BOU Dim 2 (25.56%) -1.0-0.5 0.0 0.5 1.0 Plante Spice Odor.Intensity Phenolic Flower Aroma.persistency Aroma.intensity Fruity Quality.of.odour Aroma.quality -6-4 -2 0 2 4 Dim 1 (49.35%) -1.0-0.5 0.0 0.5 1.0 Dim 1 (49.35%) Dim 2 (28.88%) -4-2 0 2 4 6 8 30% NA 1VAU 2ING 3EL T2 T1 1FON 1ING2DAM 2BEA 4EL 1DAM 2EL PER1 DOM1 1CHA 1TUR 1ROC 1BEN 1POY 2BOU 1BOI Dim 2 (28.88%) -1.0-0.5 0.0 0.5 1.0 Plante Spice Odor.Intensity Phenolic Flower Aroma.intensity Aroma.persistency Fruity Aroma.quality Quality.of.odour -8-6 -4-2 0 2 4 Dim 1 (55.37%) -1.0-0.5 0.0 0.5 1.0 Dim 1 (55.37%) 33 / 37
ACP séparées - procrustes ACP séparée sur chaque jeu de données imputé rotation procrustéenne sur l'acp eectuée sur l'estimation ponctuelle construction d'ellipses de conance et projection des dimensions 34 / 37
ACP séparées - procrustes Dim 2 (25.2%) -2 0 2 4 6 10% NA 1VAU 2ING T2 3EL T1 4EL 2DAM 2BEA PER1 2EL 1ING 1TUR 1BOI 1DAM 1ROC 1CHA 1FON 1POY DOM1 1BEN 2BOU Dim 2 (25.2%) -1.0-0.5 0.0 0.5 1.0-6 -4-2 0 2 4 Dim 1 (49.26%) -1.0-0.5 0.0 0.5 1.0 Dim 1 (49.26%) Dim 2 (28.22%) -2 0 2 4 6 30% NA 1VAU 2ING 3EL T2 T1 1FON 1ING 2DAM 2BEA 4EL 1DAM 2EL PER1 DOM1 1CHA 1TUR 1ROC 1BEN 1POY 1BOI 2BOU Dim 2 (28.22%) -1.0-0.5 0.0 0.5 1.0-6 -4-2 0 2 4 Dim 1 (55.54%) -1.0-0.5 0.0 0.5 1.0 Dim 1 (55.54%) 35 / 37
Plan 1 Contexte de l'étude 2 Estimation ponctuelle 3 Prise en compte de l'incertitude due aux données manquantes 4 Conclusion - perspectives 36 / 37
Conclusion - perspective adaptation (immédiate?) aux données qualitatives tableaux multiples choix du nombre d'axes 37 / 37