Prise en compte des données manquantes en ACP - imputation simple et multiple Julie Josse Laboratoire de mathématiques appliquées, Agrocampus Ouest Jouy-en-Josas, 7 mars 2011 1 / 38
Laboratoire de mathématiques appliquées Recherche Analyse factorielle, modélisation en grande dimension Application : analyse de données sensorielles et génomiques Enseignement L3 : modèle linéaire, analyse de données, plan d expériences Spécialisation et Master statistique : sensométrie, tableaux multiples, données génomiques Livres : Analyse de données avec R, Statistique avec R, Analyse factorielle simple et multiple, Statistique générale Autres activités Packages R : FactoMineR, SensoMineR, FAMT, missmda Congrès : user!2009, CARME 2011, Sensometrics 2012 2 / 38
Plan 1 Introduction 2 Estimation ponctuelle cas complet cas incomplet 3 Zone de confiance cas complet cas incomplet : imputation multiple 4 Conclusion 3 / 38
Contexte Individus 1 i n Variables 1 j p???????????????????? Etude et mise en œuvre des méthodes factorielles en présence de données manquantes : ACP (variables quantitatives), ACM (variables qualitatives) Objectif exploratoire 4 / 38
Problématique des données manquantes Shaefer (1997), Little et Rubin (1987, 2002) Méthode très utilisée : suppression Traitement des données manquantes dépend du : dispositif des données manquantes : non structuré mécanisme conduisant à l apparition de données manquantes (Rubin, 1976) : MCAR, MAR, MNAR Autres méthodes très utilisées : méthodes d imputation 5 / 38
Problématique des données manquantes Shaefer (1997), Little et Rubin (1987, 2002) Méthode très utilisée : suppression Traitement des données manquantes dépend du : dispositif des données manquantes : non structuré mécanisme conduisant à l apparition de données manquantes (Rubin, 1976) : MCAR, MAR, MNAR probabilité ne dépend pas de cette valeur ni des autres variables probabilité peut dépendre des valeurs des autres variables probabilité dépend de cette valeur Autres méthodes très utilisées : méthodes d imputation 5 / 38
Exemple de Schaefer & Graham (2002) Soit un échantillon de (x i, y i ), i = (1,..., 50), réalisation d une loi normale (µ x = µ y = 125, σ x = σ y = 25, ρ = 0.6) 60 80 100 120 140 160 180 200 60 80 100 120 140 160 180 X Y Y X 1 m I MCAR : 73% de NA dans Y au hasard MAR : 73% de NA dans Y quand X < 140 6 / 38
Méthodes d imputation simple 60 80 100 120 140 160 180 200 60 80 100 120 140 160 180 Imputation par la moyenne X Y 60 80 100 120 140 160 180 200 60 80 100 120 140 160 180 Imputation par régression X Y 60 80 100 120 140 160 180 200 60 80 100 120 140 160 180 Imputation par régression aléatoire X Y 7 / 38
Méthodes d imputation simple 60 80 100 120 140 160 180 200 60 80 100 120 140 160 180 Imputation par la moyenne X Y 60 80 100 120 140 160 180 200 60 80 100 120 140 160 180 Imputation par régression X Y 60 80 100 120 140 160 180 200 60 80 100 120 140 160 180 Imputation par régression aléatoire X Y Une valeur unique ne reflète pas l incertitute sur la prévision Sous-estimation de la variance des estimateurs calculée à partir du tableau imputé (ˆµ y = 125.02, ˆσ y = 24.58, ˆρ = 0.59 mais niveau de confiance pour µ y est de 70.8) 7 / 38
Méthodes préconisées Imputation multiple (Rubin, 1987) : générer plusieurs imputations plausibles réaliser l analyse sur chaque tableau de données complété combiner les résultats Maximum de vraisemblance : algorithme EM (Dempster et al., 1977) pour l estimation ponctuelle Objectif : estimer les paramètres ponctuellement et par intervalle en présence de données manquantes avec des variances qui prennent en compte la variabilité supplémentaire due aux données manquantes 8 / 38
Plan 1 Introduction 2 Estimation ponctuelle des axes et composantes 3 Zone de confiance 4 Conclusion et perspectives 9 / 38
Plan 1 Introduction 2 Estimation ponctuelle cas complet cas incomplet 3 Zone de confiance cas complet cas incomplet : imputation multiple 4 Conclusion 10 / 38
Minimiser l erreur de reconstitution Approximation de X par une matrice de rang K < p C = X n p F n K u K p 2 n p K = (x ij F ik u jk ) 2 i=1 j=1 k=1 û axes principaux (normés à 1) ˆF composantes principales (normées à la valeur propre) Diagonalisation de la matrice de variance-covariance ou de produit-scalaire Algorithmes itératifs 11 / 38
ACP via NIPALS (Non linear Iterative PArtial Least Squares) Meilleure approximation de rang 1 (Wold, 1966, 1969) C 1 = n i=1 j=1 p (x ij F i1 u j1 ) 2 2 régressions simples i û j1 = (x ij F i1 ) i F i1 2 j ˆF i1 = (x ij u j1 ) j u2 j1 Déflation : une fois (ˆF 1, û 1 ) trouvé, on cherche (ˆF 2, û 2 ) premier axe et première composante de ˆε 1 = X ˆF 1 û 1 12 / 38
ACP via la recherche directe du sous-espace Recherche directe du sous-espace de dimension K avec K > 1 C = X n p F n K u K p 2 2 régressions multiples û = X F (F F ) 1 ˆF = Xu(u u) 1 13 / 38
Moindres carrés pondérés C = W (X Fu ) 2 = n i=1 j=1 p (w ij x ij K F ik w ij u jk ) 2 k=1 avec W matrice de poids, w ij = 0 si x ij manquant, w ij = 1 sinon Mêmes algorithmes mais on saute les données manquantes NIPALS : 2 régressions simples pondérées (Christofferson, 1969) û j1 = P i (w ij x ij F i1 ) P i w ij Fi1 2 ; ˆF i1 = P j (w ij x ij u j1 ) P j w ij u 2 j1 Recherche directe du sous-espace : 2 régressions multiples pondérées (Gabriel & Zamir, 1979) 14 / 38
Moindres carrés pondérés C = W (X Fu ) 2 = n i=1 j=1 p (w ij x ij K F ik w ij u jk ) 2 k=1 avec W matrice de poids, w ij = 0 si x ij manquant, w ij = 1 sinon Mêmes algorithmes mais on saute les données manquantes NIPALS : 2 régressions simples pondérées (Christofferson, 1969) û j1 = pour C P i (w ij x ij F i1 ) P i w ij Fi1 2 ; ˆF i1 = P j (w ij x ij u j1 ) P j w ij u 2 j1 pas optimal Recherche directe du sous-espace : 2 régressions multiples pondérées (Gabriel & Zamir, 1979) 14 / 38
ACP itérative Nora-Chouteau en AFC (1974) : estimation/imputation 1 initialisation l = 0 : X 0 2 itération l : (a) (F l, u l ) minimisent X l 1 Fu 2 ; K dimensions retenues (b) ˆX l = ˆF l û l X l = W X + (1 W ) ˆX l 3 les étapes (a) et (b) sont répétées jusqu à convergence Kiers (1997) : ACP itérative minimise W (X Fu ) 2 15 / 38
ACP itérative Nora-Chouteau en AFC (1974) : estimation/imputation 1 initialisation l = 0 : X 0 2 itération l : (a) (F l, u l ) minimisent X l 1 Fu 2 ; K dimensions retenues (a ) (F l, u l ) diminuent X l 1 Fu 2 û l = X l 1 ˆF l 1 (ˆF l 1 ˆF l 1 ) 1 ˆF l = X l 1 û l (û l û l ) 1 (b) ˆX l = ˆF l û l X l = W X + (1 W ) ˆX l 3 les étapes (a) et (b) sont répétées jusqu à convergence Kiers (1997) : ACP itérative minimise W (X Fu ) 2 15 / 38
ACP itérative = ACP-EM Modèle (Caussinus, 1986) : x ij = K k=1 F iku jk + ε ij, ε ij N (0, σ 2 ) Vraisemblance : L c (F, u, σ 2 ) = np 2 ln(2πσ2 ) 1 2σ 2 X Fu 2 Etape E : E(x ij X obs, ˆF l, û l, ˆσ l ) imputation par ˆF û Etape M : maximise l espérance de L c estimation des paramètres par l ACP du tableau de données complété Etape M : augmente l espérance de L c moindres carrés alternés ACP GEM (Generalized Expectation Maximization) 16 / 38
Propriétés Deux algorithmes = deux points de vues 1 ACP-itérative impute 2 Recherche directe saute les données manquantes 17 / 38
Propriétés Deux algorithmes = deux points de vues 1 ACP-itérative impute saute les données manquantes (données imputées n ont pas d influence) 2 Recherche directe saute les données manquantes impute implicitement 17 / 38
Propriétés Deux algorithmes = deux points de vues 1 ACP-itérative impute saute les données manquantes (données imputées n ont pas d influence) 2 Recherche directe saute les données manquantes impute implicitement Réduction de la variabilité (imputation par ˆF û ) 17 / 38
Propriétés Deux algorithmes = deux points de vues 1 ACP-itérative impute saute les données manquantes (données imputées n ont pas d influence) 2 Recherche directe saute les données manquantes impute implicitement Réduction de la variabilité (imputation par ˆF û ) Solutions non emboîtées : choix du nombre d axes (considéré pour l instant connu) Surajustement 17 / 38
X 41 6 = F 41 2 u 2 6 + N (0, 0.5); Surajustement ACP sur données complètes Dim 2 (27.91%) -3-2 -1 0 1 2 3 4 Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu Smirnov BOURGUIGNON Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews -4-2 0 2 4 Dim 1 (55.09%) 18 / 38
Surajustement X 41 6 = F 41 2 u 2 6 + N (0, 0.5); 50% de NA ACP sur données complètes ACP itérative Dim 2 (27.91%) -3-2 -1 0 1 2 3 4 Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu Smirnov BOURGUIGNON Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 2 (31.9%) -4-2 0 2 BOURGUIGNON Casarsa HERNU Karpov Macey McMULLEN Pogorelov Zsivoczky Lorenzo BERNARD MARTINEAU SEBRLE Terek Turi Barras Karlivans Bernard Hernu Averyanov Ojaniemi Schoenbeck CLAY KARPOV Parkhomenko BARRAS Schwarzl Gomez YURKOV WARNERS Smirnov Smith Clay Sebrle Drews Warners Nool ZSIVOCZKY NOOL Qi Korkizoglou Uldal -4-2 0 2 4-4 -2 0 2 4 Dim 1 (55.09%) Dim 1 (63.97%) 18 / 38
Surajustement X 41 6 = F 41 2 u 2 6 + N (0, 0.5); 50% de NA ACP sur données complètes ACP itérative Dim 2 (27.91%) -3-2 -1 0 1 2 3 4 Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu Smirnov BOURGUIGNON Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 2 (31.9%) -4-2 0 2 BOURGUIGNON Casarsa HERNU Karpov Macey McMULLEN Pogorelov Zsivoczky Lorenzo BERNARD MARTINEAU SEBRLE Terek Turi Barras Karlivans Bernard Hernu Averyanov Ojaniemi Schoenbeck CLAY KARPOV Parkhomenko BARRAS Schwarzl Gomez YURKOV WARNERS Smirnov Smith Clay Sebrle Drews Warners Nool ZSIVOCZKY NOOL Qi Korkizoglou Uldal -4-2 0 2 4-4 -2 0 2 4 Dim 1 (55.09%) Dim 1 (63.97%) ACP EM : W (X ˆX ) = 0.48; (1 W ) (X ˆX ) = 5.58 18 / 38
Surajustement X 41 6 = F 41 2 u 2 6 + N (0, 0.5); 50% de NA ACP sur données complètes ACP itérative Dim 2 (27.91%) -3-2 -1 0 1 2 3 4 Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu Smirnov BOURGUIGNON Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 2 (31.9%) -4-2 0 2 BOURGUIGNON Casarsa HERNU Karpov Macey McMULLEN Pogorelov Zsivoczky Lorenzo BERNARD MARTINEAU SEBRLE Terek Turi Barras Karlivans Bernard Hernu Averyanov Ojaniemi Schoenbeck CLAY KARPOV Parkhomenko BARRAS Schwarzl Gomez YURKOV WARNERS Smirnov Smith Clay Sebrle Drews Warners Nool ZSIVOCZKY NOOL Qi Korkizoglou Uldal -4-2 0 2 4-4 -2 0 2 4 Dim 1 (55.09%) Dim 1 (63.97%) ACP EM : W (X ˆX ) = 0.48; (1 W ) (X ˆX ) = 5.58 Diminuer K 18 / 38
Surajustement X 41 6 = F 41 2 u 2 6 + N (0, 0.5); 50% de NA ACP sur données complètes ACP itérative Dim 2 (27.91%) -3-2 -1 0 1 2 3 4 Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu Smirnov BOURGUIGNON Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 2 (31.9%) -4-2 0 2 BOURGUIGNON Casarsa HERNU Karpov Macey McMULLEN Pogorelov Zsivoczky Lorenzo BERNARD MARTINEAU SEBRLE Terek Turi Barras Karlivans Bernard Hernu Averyanov Ojaniemi Schoenbeck CLAY KARPOV Parkhomenko BARRAS Schwarzl Gomez YURKOV WARNERS Smirnov Smith Clay Sebrle Drews Warners Nool ZSIVOCZKY NOOL Qi Korkizoglou Uldal -4-2 0 2 4-4 -2 0 2 4 Dim 1 (55.09%) Dim 1 (63.97%) ACP EM : W (X ˆX ) = 0.48; (1 W ) (X ˆX ) = 5.58 Diminuer K Régulariser les deux régressions ACP Probabiliste 18 / 38
ACP Probabiliste (Tipping & Bishop, 1999; Roweis, 1998) Modèle d analyse en facteurs communs et spécifiques particulier x i. = Γ p K z i. + ε i., z i. N (0, I K ), ε i. N (0, σ 2 I p ) Distribution des observations : x i. N (0, Σ) avec Σ p p = Γ p K Γ K p + σ2 I p Solution explicite : ˆσ 2 = 1 p K p j=k+1 λ j ˆΓ = uk (Λ K σ 2 I K ) 1/2 19 / 38
ACP Probabiliste via l algorithme EM z i. x i. N ((Γ Γ + σ 2 I ) 1 Γ x i., V ) Etape E : Espérance conditionelle Ẑ = (ˆΓ ˆΓ + ˆσ 2 I ) 1ˆΓ X Etape M : Maximise E[L c ] par rapport à Γ et σ 2 ˆΓ = (Ẑ Ẑ + n ˆV ) 1 Ẑ X Régressions ridges Vers un algorithme d ACP-GEM régularisé : estimer Z et Γ imputer par Ẑ ˆΓ 20 / 38
ACP itérative régularisée 1 initialisation l = 0 : X 0 2 itération l : (a) (F l, u l ) minimisent X l 1 Fu 2 ; K dimensions retenues K ˆF (b) ˆx ij l ik l = λlk ˆσ2 ˆF k l ûjk l k=1 nouvelle imputation : X l = W X + (1 W ) ˆX l ; λ l k 3 les étapes (a) et (b) sont répétées jusqu à convergence 21 / 38
Surajustement X 41 6 = F 41 2 u 2 6 + N (0, 0.5); 50% de NA ACP sur données complètes ACP régularisée Dim 2 (27.91%) -3-2 -1 0 1 2 3 4 Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu BOURGUIGNON Smirnov Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 2 (30.72%) -3-2 -1 0 1 2 3 Sebrle Karpov Macey SEBRLE Uldal Korkizoglou Parkhomenko Karlivans Averyanov Terek Turi McMULLEN Ojaniemi YURKOV BARRAS Barras HERNU KARPOV MARTINEAU Hernu Schoenbeck BERNARD Clay Bernard Smirnov Smith Warners Schwarzl Qi WARNERS Nool Pogorelov Zsivoczky CLAY ZSIVOCZKY Drews Gomez Lorenzo NOOL Casarsa BOURGUIGNON -4-2 0 2 4-4 -2 0 2 4 Dim 1 (55.09%) Dim 1 (64.27%) (1 W ) (X ˆX ) = 0.67 22 / 38
Simulations X 21 10 = F 21 2 u 2 10 + ε avec ε N (0, σ) Coefficient RV entre configurations (complète / incomplète) nb.na = 0.2 nb.na = 0.4 coeffrv 0.0 0.2 0.4 0.6 0.8 1.0 mean ACP-GEM ACP-GEM reg ACP-GEM 3 ACP-GEM reg 3 coeffrv 0.0 0.2 0.4 0.6 0.8 1.0 mean ACP-GEM ACP-GEM reg ACP-GEM 3 ACP-GEM reg 3 0.1 0.25 0.5 1 0.1 0.25 0.5 1 sigma sigma 23 / 38
Plan 1 Introduction 2 Estimation ponctuelle cas complet cas incomplet 3 Zone de confiance cas complet cas incomplet : imputation multiple 4 Conclusion 24 / 38
Stabilité en ACP Epreuves de validité en analyse exploratoire Rééchantillonnage des individus (Lebart, 1996) : bootstrap non-paramétrique fluctuations dues à l échantillonnage bootstrap toutes les dimensions zones de confiance autour de la position des variables Zone de confiance quand l ACP est réalisée sur une population d individus? 25 / 38
Modèle en ACP x ij = structure + bruit Modèle à effets aléatoires (structurel) : analyse en facteurs, ACP Probabiliste (ACPP) les individus sont interchangeables étude des liaisons entre variables Modèle à effets fixes (fonctionnel) : Caussinus (1986) les individus ont des espérances différentes étude des individus et des variables x ij = K F ik u jk + ε ij, avec ε ij N (0, σ 2 ) k=1 26 / 38
Bootstrap des résidus Rééchantillonnage des résidus : bootstrap semi-paramétrique fluctuations dues au bruit bootstrap sur les dernières dimensions : le bruit va partout zones de confiance autour de la position des individus et des variables 27 / 38
Bootstrap des résidus 1 ACP sur X ˆF n K et û p K (K dimensions retenues); 2 Données reconstituées ˆX = ˆF û et résidus ˆε = X ˆX ; 3 Procédure bootstrap : répéter B fois les étapes a Bootstrapper les résidus : ε b tirer dans une N (0, ˆσ 2 ) b X b = ˆF û + ε b c ACP sur X b pour obtenir ˆF b et û b B couples (ˆF 1, û 1 ),..., (ˆF B, û B ) 28 / 38
Bootstrap des résidus 1 ACP sur X ˆF n K et û p K (K dimensions retenues); 2 Données reconstituées ˆX = ˆF û et résidus ˆε = X ˆX ; Choix de la dimension? 3 Procédure bootstrap : répéter B fois les étapes a Bootstrapper les résidus : ε b tirer dans une N (0, ˆσ 2 ) Sous-estimation des résidus? b X b = ˆF û + ε b c ACP sur X b pour obtenir ˆF b et û b B couples (ˆF 1, û 1 ),..., (ˆF B, û B ) 28 / 38
Bootstrap des résidus 1 ACP sur X ˆF n K et û p K (K dimensions retenues); 2 Données reconstituées ˆX = ˆF û et résidus ˆε = X ˆX ; Choix de la dimension? 3 Procédure bootstrap : répéter B fois les étapes a Bootstrapper les résidus : ε b tirer dans une N (0, ˆσ 2 ) Sous-estimation des résidus? b X b = ˆF û + ε b c ACP sur X b pour obtenir ˆF b et û b B couples (ˆF 1, û 1 ),..., (ˆF B, û B ) Visualisation? 28 / 38
Incertitude supplémentaire due aux données manquantes Source de variabilité supplémentaire ACP itérative : imputation simple bootstrap des résidus sur le tableau imputé sous-estimerait la variabilité des paramètres Imputation multiple 1 Générer B tableaux de données imputés 2 Réaliser l analyse sur chaque tableau imputé 3 Combiner les résultats : Variance totale Variance intra imputation + Variance inter imputation 29 / 38
Incertitude supplémentaire due aux données manquantes Source de variabilité supplémentaire ACP itérative : imputation simple bootstrap des résidus sur le tableau imputé sous-estimerait la variabilité des paramètres Imputation multiple 1 Générer B tableaux de données imputés 2 Réaliser l analyse sur chaque tableau imputé 3 Combiner les résultats : Variance totale Variance intra imputation + Variance inter imputation 29 / 38
Idée pour générer B tableaux imputés x ij = K k=1 F iku jk + ε ij, avec ε ij N (0, σ 2 ) ACP itérative sur le tableau de données incomplet (ˆF, û) Première idée pour générer différentes imputations: Pour b = 1,..., B, imputer les valeurs manquantes xij b en tirant dans ) la distribution prédictive N ((ˆF û ) ij, ˆσ 2 Imputation improper (Rubin, 1987) 30 / 38
Imputation multiple proper 1 Variance d estimation : obtenir B couples (ˆF û ) 1,..., (ˆF û ) B bootstrap des résidus 2 Bruit : pour b = 1,..., B, imputer les valeurs manquantes x ) ij b en tirant dans la distribution prédictive N ((ˆF û ) b ij, ˆσ2 (ˆFû ) ij (ˆFû ) 1 ij +ε1 ij (ˆFû ) 2 ij +ε2 ij (ˆFû ) 3 ij +ε3 ij (ˆFû ) B ij +εb ij 31 / 38
Projection en supplémentaire Instabilité des individus (et des variables) due aux données manquantes (projection en supplémentaire) ACP 32 / 38
Projection en supplémentaire Instabilité des individus (et des variables) due aux données manquantes (projection en supplémentaire) ACP Projection en supplémentaire 32 / 38
Projection en supplémentaire Instabilité des individus (et des variables) due aux données manquantes (projection en supplémentaire) ACP Projection en supplémentaire 32 / 38
Projection en supplémentaire Instabilité des individus (et des variables) due aux données manquantes (projection en supplémentaire) ACP Projection en supplémentaire 32 / 38
Projection en supplémentaire Dim 2 (26.58%) -2 0 2 4 10% NA T1 T2 3EL PER1 4EL 2BEA 1TUR 2DAM 1POY 1VAU 1BOI 1DAM DOM1 2EL 1ING 1ROC 2ING 2BOU 1CHA 1FON 1BEN -6-4 -2 0 2 4 Dim 1 (46.63%) Dim 2 (26.58%) -1.0-0.5 0.0 0.5 1.0 Plante Spice -1.0-0.5 0.0 0.5 1.0 Dim 1 (46.63%) Odor.Intensity Phenolic Flower Aroma.persistency Aroma.intensity Fruity Quality.of.odour Aroma.quality im 2 (31.26%) 0 2 4 30% NA 1VAU T1 1TUR T2 3EL PER1 2BEA 1POY 4EL 2DAM 1BOI DOM1 Dim 2 (31.26%) 0.0 0.5 1.0 Plante Spice Phenolic Odor.Intensity Aroma.persistency Quality.of.odour Aroma.intensity Fruity 33 / 38
Variance inter-imputation Impact des données manquantes sur la construction des axes et des composantes (ACP sur chaque tableau) ACP 34 / 38
Variance inter-imputation Impact des données manquantes sur la construction des axes et des composantes (ACP sur chaque tableau) ACP ACP ACP ACP ACP 34 / 38
Variance inter-imputation Impact des données manquantes sur la construction des axes et des composantes (ACP sur chaque tableau) ACP ACP ACP ACP ACP Rotations procrustes 34 / 38
Variance inter-imputation Impact des données manquantes sur la construction des axes et des composantes (ACP sur chaque tableau) ACP ACP ACP ACP ACP Rotations procrustes 34 / 38
Variance inter-imputation Dim 2 (26.58%) -2 0 2 4 10% NA 1VAU 2ING T1 T2 3EL PER1 4EL 2BEA 1TUR 2DAM 1POY 1BOI 1DAM DOM1 2EL 1ING 1ROC 2BOU 1CHA 1BEN 1FON Dim 2 (26.58%) -1.0-0.5 0.0 0.5 1.0-6 -4-2 0 2 4 Dim 1 (46.63%) -1.0-0.5 0.0 0.5 1.0 Dim 1 (46.63%) Dim 2 (31.26%) 0 2 4 30% NA 1VAU 2ING T1 1TUR T2 3EL PER1 2BEA 1POY 4EL 2DAM 1BOI DOM1 1ING 1DAM Dim 2 (31.26%) 0.0 0.5 1.0 35 / 38
Plan 1 Introduction 2 Estimation ponctuelle cas complet cas incomplet 3 Zone de confiance cas complet cas incomplet : imputation multiple 4 Conclusion 36 / 38
Conclusion Estimation ponctuelle en ACP Imputation multiple en ACP Extension à l ACM Choix de la dimension : procédure de validation croisée et critère de type GCV Création d un package R missmda et de fonctions dans le package FactoMineR 37 / 38
Perspectives Evalutation de la méthode d imputation multiple Zone de confiance en ACM Prise en compte des données manquantes pour les tableaux multiples 38 / 38