Prise en compte des données manquantes en ACP - imputation simple et multiple

Documents pareils

Introduction à l approche bootstrap

La classification automatique de données quantitatives

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Analyse en Composantes Principales

Coup de Projecteur sur les Réseaux de Neurones

STATISTIQUES. UE Modélisation pour la biologie

Programmes des classes préparatoires aux Grandes Ecoles

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

TABLE DES MATIERES. C Exercices complémentaires 42

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Arbres binaires de décision

INF6304 Interfaces Intelligentes

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Apprentissage non paramétrique en régression

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Introduction au datamining

Température corporelle d un castor (une petite introduction aux séries temporelles)

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

LES MODELES DE SCORE

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

de calibration Master 2: Calibration de modèles: présentation et simulation d

Lois de probabilité. Anita Burgun

Agrégation des portefeuilles de contrats d assurance vie

FORMULAIRE DE STATISTIQUES

Optimisation des ressources des produits automobile première

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

Analyse de la variance Comparaison de plusieurs moyennes

Correction du baccalauréat ES/L Métropole 20 juin 2014

1 Complément sur la projection du nuage des individus

Biostatistiques : Petits effectifs

Logiciel XLSTAT version rue Damrémont PARIS

Echantillonnage Non uniforme

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

Loi binomiale Lois normales

Évaluation de la régression bornée

Etude des propriétés empiriques du lasso par simulations

Exemples d application

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Chapitre 3. Les distributions à deux variables

Chaînes de Markov au lycée

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Formation continue. Ensae-Ensai Formation Continue (Cepe)

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Intérêt du découpage en sous-bandes pour l analyse spectrale

DIOGENE. Un logiciel de Génétique & Amélioration des Plantes

Le risque Idiosyncrasique

NON-LINEARITE ET RESEAUX NEURONAUX

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Introduction. Préambule. Le contexte

CAPTEURS - CHAINES DE MESURES

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Quelques éléments de statistique multidimensionnelle

ENSPS 3A ISAV Master ISTI AR. J. Gangloff

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Quantification Scalaire et Prédictive

Théorie des sondages : cours 5

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

«Cours Statistique et logiciel R»

Extraction d informations stratégiques par Analyse en Composantes Principales

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Résolution d équations non linéaires

Enjeux mathématiques et Statistiques du Big Data

VI. Tests non paramétriques sur un échantillon

Validation probabiliste d un Système de Prévision d Ensemble

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

MCMC et approximations en champ moyen pour les modèles de Markov

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

données en connaissance et en actions?

Chapitre 3 : INFERENCE

Débouchés professionnels

4.2 Unités d enseignement du M1

Gestion obligataire passive

IBM SPSS Regression 21

4. Résultats et discussion

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Régression linéaire. Nicolas Turenne INRA

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Santé environnement. Description du budget espace-temps et estimation de l exposition de la population française dans son logement

Architecture des Systèmes d Information Architecture des Systèmes d Information

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Transcription:

Prise en compte des données manquantes en ACP - imputation simple et multiple Julie Josse Laboratoire de mathématiques appliquées, Agrocampus Ouest Jouy-en-Josas, 7 mars 2011 1 / 38

Laboratoire de mathématiques appliquées Recherche Analyse factorielle, modélisation en grande dimension Application : analyse de données sensorielles et génomiques Enseignement L3 : modèle linéaire, analyse de données, plan d expériences Spécialisation et Master statistique : sensométrie, tableaux multiples, données génomiques Livres : Analyse de données avec R, Statistique avec R, Analyse factorielle simple et multiple, Statistique générale Autres activités Packages R : FactoMineR, SensoMineR, FAMT, missmda Congrès : user!2009, CARME 2011, Sensometrics 2012 2 / 38

Plan 1 Introduction 2 Estimation ponctuelle cas complet cas incomplet 3 Zone de confiance cas complet cas incomplet : imputation multiple 4 Conclusion 3 / 38

Contexte Individus 1 i n Variables 1 j p???????????????????? Etude et mise en œuvre des méthodes factorielles en présence de données manquantes : ACP (variables quantitatives), ACM (variables qualitatives) Objectif exploratoire 4 / 38

Problématique des données manquantes Shaefer (1997), Little et Rubin (1987, 2002) Méthode très utilisée : suppression Traitement des données manquantes dépend du : dispositif des données manquantes : non structuré mécanisme conduisant à l apparition de données manquantes (Rubin, 1976) : MCAR, MAR, MNAR Autres méthodes très utilisées : méthodes d imputation 5 / 38

Problématique des données manquantes Shaefer (1997), Little et Rubin (1987, 2002) Méthode très utilisée : suppression Traitement des données manquantes dépend du : dispositif des données manquantes : non structuré mécanisme conduisant à l apparition de données manquantes (Rubin, 1976) : MCAR, MAR, MNAR probabilité ne dépend pas de cette valeur ni des autres variables probabilité peut dépendre des valeurs des autres variables probabilité dépend de cette valeur Autres méthodes très utilisées : méthodes d imputation 5 / 38

Exemple de Schaefer & Graham (2002) Soit un échantillon de (x i, y i ), i = (1,..., 50), réalisation d une loi normale (µ x = µ y = 125, σ x = σ y = 25, ρ = 0.6) 60 80 100 120 140 160 180 200 60 80 100 120 140 160 180 X Y Y X 1 m I MCAR : 73% de NA dans Y au hasard MAR : 73% de NA dans Y quand X < 140 6 / 38

Méthodes d imputation simple 60 80 100 120 140 160 180 200 60 80 100 120 140 160 180 Imputation par la moyenne X Y 60 80 100 120 140 160 180 200 60 80 100 120 140 160 180 Imputation par régression X Y 60 80 100 120 140 160 180 200 60 80 100 120 140 160 180 Imputation par régression aléatoire X Y 7 / 38

Méthodes d imputation simple 60 80 100 120 140 160 180 200 60 80 100 120 140 160 180 Imputation par la moyenne X Y 60 80 100 120 140 160 180 200 60 80 100 120 140 160 180 Imputation par régression X Y 60 80 100 120 140 160 180 200 60 80 100 120 140 160 180 Imputation par régression aléatoire X Y Une valeur unique ne reflète pas l incertitute sur la prévision Sous-estimation de la variance des estimateurs calculée à partir du tableau imputé (ˆµ y = 125.02, ˆσ y = 24.58, ˆρ = 0.59 mais niveau de confiance pour µ y est de 70.8) 7 / 38

Méthodes préconisées Imputation multiple (Rubin, 1987) : générer plusieurs imputations plausibles réaliser l analyse sur chaque tableau de données complété combiner les résultats Maximum de vraisemblance : algorithme EM (Dempster et al., 1977) pour l estimation ponctuelle Objectif : estimer les paramètres ponctuellement et par intervalle en présence de données manquantes avec des variances qui prennent en compte la variabilité supplémentaire due aux données manquantes 8 / 38

Plan 1 Introduction 2 Estimation ponctuelle des axes et composantes 3 Zone de confiance 4 Conclusion et perspectives 9 / 38

Plan 1 Introduction 2 Estimation ponctuelle cas complet cas incomplet 3 Zone de confiance cas complet cas incomplet : imputation multiple 4 Conclusion 10 / 38

Minimiser l erreur de reconstitution Approximation de X par une matrice de rang K < p C = X n p F n K u K p 2 n p K = (x ij F ik u jk ) 2 i=1 j=1 k=1 û axes principaux (normés à 1) ˆF composantes principales (normées à la valeur propre) Diagonalisation de la matrice de variance-covariance ou de produit-scalaire Algorithmes itératifs 11 / 38

ACP via NIPALS (Non linear Iterative PArtial Least Squares) Meilleure approximation de rang 1 (Wold, 1966, 1969) C 1 = n i=1 j=1 p (x ij F i1 u j1 ) 2 2 régressions simples i û j1 = (x ij F i1 ) i F i1 2 j ˆF i1 = (x ij u j1 ) j u2 j1 Déflation : une fois (ˆF 1, û 1 ) trouvé, on cherche (ˆF 2, û 2 ) premier axe et première composante de ˆε 1 = X ˆF 1 û 1 12 / 38

ACP via la recherche directe du sous-espace Recherche directe du sous-espace de dimension K avec K > 1 C = X n p F n K u K p 2 2 régressions multiples û = X F (F F ) 1 ˆF = Xu(u u) 1 13 / 38

Moindres carrés pondérés C = W (X Fu ) 2 = n i=1 j=1 p (w ij x ij K F ik w ij u jk ) 2 k=1 avec W matrice de poids, w ij = 0 si x ij manquant, w ij = 1 sinon Mêmes algorithmes mais on saute les données manquantes NIPALS : 2 régressions simples pondérées (Christofferson, 1969) û j1 = P i (w ij x ij F i1 ) P i w ij Fi1 2 ; ˆF i1 = P j (w ij x ij u j1 ) P j w ij u 2 j1 Recherche directe du sous-espace : 2 régressions multiples pondérées (Gabriel & Zamir, 1979) 14 / 38

Moindres carrés pondérés C = W (X Fu ) 2 = n i=1 j=1 p (w ij x ij K F ik w ij u jk ) 2 k=1 avec W matrice de poids, w ij = 0 si x ij manquant, w ij = 1 sinon Mêmes algorithmes mais on saute les données manquantes NIPALS : 2 régressions simples pondérées (Christofferson, 1969) û j1 = pour C P i (w ij x ij F i1 ) P i w ij Fi1 2 ; ˆF i1 = P j (w ij x ij u j1 ) P j w ij u 2 j1 pas optimal Recherche directe du sous-espace : 2 régressions multiples pondérées (Gabriel & Zamir, 1979) 14 / 38

ACP itérative Nora-Chouteau en AFC (1974) : estimation/imputation 1 initialisation l = 0 : X 0 2 itération l : (a) (F l, u l ) minimisent X l 1 Fu 2 ; K dimensions retenues (b) ˆX l = ˆF l û l X l = W X + (1 W ) ˆX l 3 les étapes (a) et (b) sont répétées jusqu à convergence Kiers (1997) : ACP itérative minimise W (X Fu ) 2 15 / 38

ACP itérative Nora-Chouteau en AFC (1974) : estimation/imputation 1 initialisation l = 0 : X 0 2 itération l : (a) (F l, u l ) minimisent X l 1 Fu 2 ; K dimensions retenues (a ) (F l, u l ) diminuent X l 1 Fu 2 û l = X l 1 ˆF l 1 (ˆF l 1 ˆF l 1 ) 1 ˆF l = X l 1 û l (û l û l ) 1 (b) ˆX l = ˆF l û l X l = W X + (1 W ) ˆX l 3 les étapes (a) et (b) sont répétées jusqu à convergence Kiers (1997) : ACP itérative minimise W (X Fu ) 2 15 / 38

ACP itérative = ACP-EM Modèle (Caussinus, 1986) : x ij = K k=1 F iku jk + ε ij, ε ij N (0, σ 2 ) Vraisemblance : L c (F, u, σ 2 ) = np 2 ln(2πσ2 ) 1 2σ 2 X Fu 2 Etape E : E(x ij X obs, ˆF l, û l, ˆσ l ) imputation par ˆF û Etape M : maximise l espérance de L c estimation des paramètres par l ACP du tableau de données complété Etape M : augmente l espérance de L c moindres carrés alternés ACP GEM (Generalized Expectation Maximization) 16 / 38

Propriétés Deux algorithmes = deux points de vues 1 ACP-itérative impute 2 Recherche directe saute les données manquantes 17 / 38

Propriétés Deux algorithmes = deux points de vues 1 ACP-itérative impute saute les données manquantes (données imputées n ont pas d influence) 2 Recherche directe saute les données manquantes impute implicitement 17 / 38

Propriétés Deux algorithmes = deux points de vues 1 ACP-itérative impute saute les données manquantes (données imputées n ont pas d influence) 2 Recherche directe saute les données manquantes impute implicitement Réduction de la variabilité (imputation par ˆF û ) 17 / 38

Propriétés Deux algorithmes = deux points de vues 1 ACP-itérative impute saute les données manquantes (données imputées n ont pas d influence) 2 Recherche directe saute les données manquantes impute implicitement Réduction de la variabilité (imputation par ˆF û ) Solutions non emboîtées : choix du nombre d axes (considéré pour l instant connu) Surajustement 17 / 38

X 41 6 = F 41 2 u 2 6 + N (0, 0.5); Surajustement ACP sur données complètes Dim 2 (27.91%) -3-2 -1 0 1 2 3 4 Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu Smirnov BOURGUIGNON Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews -4-2 0 2 4 Dim 1 (55.09%) 18 / 38

Surajustement X 41 6 = F 41 2 u 2 6 + N (0, 0.5); 50% de NA ACP sur données complètes ACP itérative Dim 2 (27.91%) -3-2 -1 0 1 2 3 4 Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu Smirnov BOURGUIGNON Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 2 (31.9%) -4-2 0 2 BOURGUIGNON Casarsa HERNU Karpov Macey McMULLEN Pogorelov Zsivoczky Lorenzo BERNARD MARTINEAU SEBRLE Terek Turi Barras Karlivans Bernard Hernu Averyanov Ojaniemi Schoenbeck CLAY KARPOV Parkhomenko BARRAS Schwarzl Gomez YURKOV WARNERS Smirnov Smith Clay Sebrle Drews Warners Nool ZSIVOCZKY NOOL Qi Korkizoglou Uldal -4-2 0 2 4-4 -2 0 2 4 Dim 1 (55.09%) Dim 1 (63.97%) 18 / 38

Surajustement X 41 6 = F 41 2 u 2 6 + N (0, 0.5); 50% de NA ACP sur données complètes ACP itérative Dim 2 (27.91%) -3-2 -1 0 1 2 3 4 Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu Smirnov BOURGUIGNON Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 2 (31.9%) -4-2 0 2 BOURGUIGNON Casarsa HERNU Karpov Macey McMULLEN Pogorelov Zsivoczky Lorenzo BERNARD MARTINEAU SEBRLE Terek Turi Barras Karlivans Bernard Hernu Averyanov Ojaniemi Schoenbeck CLAY KARPOV Parkhomenko BARRAS Schwarzl Gomez YURKOV WARNERS Smirnov Smith Clay Sebrle Drews Warners Nool ZSIVOCZKY NOOL Qi Korkizoglou Uldal -4-2 0 2 4-4 -2 0 2 4 Dim 1 (55.09%) Dim 1 (63.97%) ACP EM : W (X ˆX ) = 0.48; (1 W ) (X ˆX ) = 5.58 18 / 38

Surajustement X 41 6 = F 41 2 u 2 6 + N (0, 0.5); 50% de NA ACP sur données complètes ACP itérative Dim 2 (27.91%) -3-2 -1 0 1 2 3 4 Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu Smirnov BOURGUIGNON Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 2 (31.9%) -4-2 0 2 BOURGUIGNON Casarsa HERNU Karpov Macey McMULLEN Pogorelov Zsivoczky Lorenzo BERNARD MARTINEAU SEBRLE Terek Turi Barras Karlivans Bernard Hernu Averyanov Ojaniemi Schoenbeck CLAY KARPOV Parkhomenko BARRAS Schwarzl Gomez YURKOV WARNERS Smirnov Smith Clay Sebrle Drews Warners Nool ZSIVOCZKY NOOL Qi Korkizoglou Uldal -4-2 0 2 4-4 -2 0 2 4 Dim 1 (55.09%) Dim 1 (63.97%) ACP EM : W (X ˆX ) = 0.48; (1 W ) (X ˆX ) = 5.58 Diminuer K 18 / 38

Surajustement X 41 6 = F 41 2 u 2 6 + N (0, 0.5); 50% de NA ACP sur données complètes ACP itérative Dim 2 (27.91%) -3-2 -1 0 1 2 3 4 Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu Smirnov BOURGUIGNON Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 2 (31.9%) -4-2 0 2 BOURGUIGNON Casarsa HERNU Karpov Macey McMULLEN Pogorelov Zsivoczky Lorenzo BERNARD MARTINEAU SEBRLE Terek Turi Barras Karlivans Bernard Hernu Averyanov Ojaniemi Schoenbeck CLAY KARPOV Parkhomenko BARRAS Schwarzl Gomez YURKOV WARNERS Smirnov Smith Clay Sebrle Drews Warners Nool ZSIVOCZKY NOOL Qi Korkizoglou Uldal -4-2 0 2 4-4 -2 0 2 4 Dim 1 (55.09%) Dim 1 (63.97%) ACP EM : W (X ˆX ) = 0.48; (1 W ) (X ˆX ) = 5.58 Diminuer K Régulariser les deux régressions ACP Probabiliste 18 / 38

ACP Probabiliste (Tipping & Bishop, 1999; Roweis, 1998) Modèle d analyse en facteurs communs et spécifiques particulier x i. = Γ p K z i. + ε i., z i. N (0, I K ), ε i. N (0, σ 2 I p ) Distribution des observations : x i. N (0, Σ) avec Σ p p = Γ p K Γ K p + σ2 I p Solution explicite : ˆσ 2 = 1 p K p j=k+1 λ j ˆΓ = uk (Λ K σ 2 I K ) 1/2 19 / 38

ACP Probabiliste via l algorithme EM z i. x i. N ((Γ Γ + σ 2 I ) 1 Γ x i., V ) Etape E : Espérance conditionelle Ẑ = (ˆΓ ˆΓ + ˆσ 2 I ) 1ˆΓ X Etape M : Maximise E[L c ] par rapport à Γ et σ 2 ˆΓ = (Ẑ Ẑ + n ˆV ) 1 Ẑ X Régressions ridges Vers un algorithme d ACP-GEM régularisé : estimer Z et Γ imputer par Ẑ ˆΓ 20 / 38

ACP itérative régularisée 1 initialisation l = 0 : X 0 2 itération l : (a) (F l, u l ) minimisent X l 1 Fu 2 ; K dimensions retenues K ˆF (b) ˆx ij l ik l = λlk ˆσ2 ˆF k l ûjk l k=1 nouvelle imputation : X l = W X + (1 W ) ˆX l ; λ l k 3 les étapes (a) et (b) sont répétées jusqu à convergence 21 / 38

Surajustement X 41 6 = F 41 2 u 2 6 + N (0, 0.5); 50% de NA ACP sur données complètes ACP régularisée Dim 2 (27.91%) -3-2 -1 0 1 2 3 4 Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu BOURGUIGNON Smirnov Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 2 (30.72%) -3-2 -1 0 1 2 3 Sebrle Karpov Macey SEBRLE Uldal Korkizoglou Parkhomenko Karlivans Averyanov Terek Turi McMULLEN Ojaniemi YURKOV BARRAS Barras HERNU KARPOV MARTINEAU Hernu Schoenbeck BERNARD Clay Bernard Smirnov Smith Warners Schwarzl Qi WARNERS Nool Pogorelov Zsivoczky CLAY ZSIVOCZKY Drews Gomez Lorenzo NOOL Casarsa BOURGUIGNON -4-2 0 2 4-4 -2 0 2 4 Dim 1 (55.09%) Dim 1 (64.27%) (1 W ) (X ˆX ) = 0.67 22 / 38

Simulations X 21 10 = F 21 2 u 2 10 + ε avec ε N (0, σ) Coefficient RV entre configurations (complète / incomplète) nb.na = 0.2 nb.na = 0.4 coeffrv 0.0 0.2 0.4 0.6 0.8 1.0 mean ACP-GEM ACP-GEM reg ACP-GEM 3 ACP-GEM reg 3 coeffrv 0.0 0.2 0.4 0.6 0.8 1.0 mean ACP-GEM ACP-GEM reg ACP-GEM 3 ACP-GEM reg 3 0.1 0.25 0.5 1 0.1 0.25 0.5 1 sigma sigma 23 / 38

Plan 1 Introduction 2 Estimation ponctuelle cas complet cas incomplet 3 Zone de confiance cas complet cas incomplet : imputation multiple 4 Conclusion 24 / 38

Stabilité en ACP Epreuves de validité en analyse exploratoire Rééchantillonnage des individus (Lebart, 1996) : bootstrap non-paramétrique fluctuations dues à l échantillonnage bootstrap toutes les dimensions zones de confiance autour de la position des variables Zone de confiance quand l ACP est réalisée sur une population d individus? 25 / 38

Modèle en ACP x ij = structure + bruit Modèle à effets aléatoires (structurel) : analyse en facteurs, ACP Probabiliste (ACPP) les individus sont interchangeables étude des liaisons entre variables Modèle à effets fixes (fonctionnel) : Caussinus (1986) les individus ont des espérances différentes étude des individus et des variables x ij = K F ik u jk + ε ij, avec ε ij N (0, σ 2 ) k=1 26 / 38

Bootstrap des résidus Rééchantillonnage des résidus : bootstrap semi-paramétrique fluctuations dues au bruit bootstrap sur les dernières dimensions : le bruit va partout zones de confiance autour de la position des individus et des variables 27 / 38

Bootstrap des résidus 1 ACP sur X ˆF n K et û p K (K dimensions retenues); 2 Données reconstituées ˆX = ˆF û et résidus ˆε = X ˆX ; 3 Procédure bootstrap : répéter B fois les étapes a Bootstrapper les résidus : ε b tirer dans une N (0, ˆσ 2 ) b X b = ˆF û + ε b c ACP sur X b pour obtenir ˆF b et û b B couples (ˆF 1, û 1 ),..., (ˆF B, û B ) 28 / 38

Bootstrap des résidus 1 ACP sur X ˆF n K et û p K (K dimensions retenues); 2 Données reconstituées ˆX = ˆF û et résidus ˆε = X ˆX ; Choix de la dimension? 3 Procédure bootstrap : répéter B fois les étapes a Bootstrapper les résidus : ε b tirer dans une N (0, ˆσ 2 ) Sous-estimation des résidus? b X b = ˆF û + ε b c ACP sur X b pour obtenir ˆF b et û b B couples (ˆF 1, û 1 ),..., (ˆF B, û B ) 28 / 38

Bootstrap des résidus 1 ACP sur X ˆF n K et û p K (K dimensions retenues); 2 Données reconstituées ˆX = ˆF û et résidus ˆε = X ˆX ; Choix de la dimension? 3 Procédure bootstrap : répéter B fois les étapes a Bootstrapper les résidus : ε b tirer dans une N (0, ˆσ 2 ) Sous-estimation des résidus? b X b = ˆF û + ε b c ACP sur X b pour obtenir ˆF b et û b B couples (ˆF 1, û 1 ),..., (ˆF B, û B ) Visualisation? 28 / 38

Incertitude supplémentaire due aux données manquantes Source de variabilité supplémentaire ACP itérative : imputation simple bootstrap des résidus sur le tableau imputé sous-estimerait la variabilité des paramètres Imputation multiple 1 Générer B tableaux de données imputés 2 Réaliser l analyse sur chaque tableau imputé 3 Combiner les résultats : Variance totale Variance intra imputation + Variance inter imputation 29 / 38

Incertitude supplémentaire due aux données manquantes Source de variabilité supplémentaire ACP itérative : imputation simple bootstrap des résidus sur le tableau imputé sous-estimerait la variabilité des paramètres Imputation multiple 1 Générer B tableaux de données imputés 2 Réaliser l analyse sur chaque tableau imputé 3 Combiner les résultats : Variance totale Variance intra imputation + Variance inter imputation 29 / 38

Idée pour générer B tableaux imputés x ij = K k=1 F iku jk + ε ij, avec ε ij N (0, σ 2 ) ACP itérative sur le tableau de données incomplet (ˆF, û) Première idée pour générer différentes imputations: Pour b = 1,..., B, imputer les valeurs manquantes xij b en tirant dans ) la distribution prédictive N ((ˆF û ) ij, ˆσ 2 Imputation improper (Rubin, 1987) 30 / 38

Imputation multiple proper 1 Variance d estimation : obtenir B couples (ˆF û ) 1,..., (ˆF û ) B bootstrap des résidus 2 Bruit : pour b = 1,..., B, imputer les valeurs manquantes x ) ij b en tirant dans la distribution prédictive N ((ˆF û ) b ij, ˆσ2 (ˆFû ) ij (ˆFû ) 1 ij +ε1 ij (ˆFû ) 2 ij +ε2 ij (ˆFû ) 3 ij +ε3 ij (ˆFû ) B ij +εb ij 31 / 38

Projection en supplémentaire Instabilité des individus (et des variables) due aux données manquantes (projection en supplémentaire) ACP 32 / 38

Projection en supplémentaire Instabilité des individus (et des variables) due aux données manquantes (projection en supplémentaire) ACP Projection en supplémentaire 32 / 38

Projection en supplémentaire Instabilité des individus (et des variables) due aux données manquantes (projection en supplémentaire) ACP Projection en supplémentaire 32 / 38

Projection en supplémentaire Instabilité des individus (et des variables) due aux données manquantes (projection en supplémentaire) ACP Projection en supplémentaire 32 / 38

Projection en supplémentaire Dim 2 (26.58%) -2 0 2 4 10% NA T1 T2 3EL PER1 4EL 2BEA 1TUR 2DAM 1POY 1VAU 1BOI 1DAM DOM1 2EL 1ING 1ROC 2ING 2BOU 1CHA 1FON 1BEN -6-4 -2 0 2 4 Dim 1 (46.63%) Dim 2 (26.58%) -1.0-0.5 0.0 0.5 1.0 Plante Spice -1.0-0.5 0.0 0.5 1.0 Dim 1 (46.63%) Odor.Intensity Phenolic Flower Aroma.persistency Aroma.intensity Fruity Quality.of.odour Aroma.quality im 2 (31.26%) 0 2 4 30% NA 1VAU T1 1TUR T2 3EL PER1 2BEA 1POY 4EL 2DAM 1BOI DOM1 Dim 2 (31.26%) 0.0 0.5 1.0 Plante Spice Phenolic Odor.Intensity Aroma.persistency Quality.of.odour Aroma.intensity Fruity 33 / 38

Variance inter-imputation Impact des données manquantes sur la construction des axes et des composantes (ACP sur chaque tableau) ACP 34 / 38

Variance inter-imputation Impact des données manquantes sur la construction des axes et des composantes (ACP sur chaque tableau) ACP ACP ACP ACP ACP 34 / 38

Variance inter-imputation Impact des données manquantes sur la construction des axes et des composantes (ACP sur chaque tableau) ACP ACP ACP ACP ACP Rotations procrustes 34 / 38

Variance inter-imputation Impact des données manquantes sur la construction des axes et des composantes (ACP sur chaque tableau) ACP ACP ACP ACP ACP Rotations procrustes 34 / 38

Variance inter-imputation Dim 2 (26.58%) -2 0 2 4 10% NA 1VAU 2ING T1 T2 3EL PER1 4EL 2BEA 1TUR 2DAM 1POY 1BOI 1DAM DOM1 2EL 1ING 1ROC 2BOU 1CHA 1BEN 1FON Dim 2 (26.58%) -1.0-0.5 0.0 0.5 1.0-6 -4-2 0 2 4 Dim 1 (46.63%) -1.0-0.5 0.0 0.5 1.0 Dim 1 (46.63%) Dim 2 (31.26%) 0 2 4 30% NA 1VAU 2ING T1 1TUR T2 3EL PER1 2BEA 1POY 4EL 2DAM 1BOI DOM1 1ING 1DAM Dim 2 (31.26%) 0.0 0.5 1.0 35 / 38

Plan 1 Introduction 2 Estimation ponctuelle cas complet cas incomplet 3 Zone de confiance cas complet cas incomplet : imputation multiple 4 Conclusion 36 / 38

Conclusion Estimation ponctuelle en ACP Imputation multiple en ACP Extension à l ACM Choix de la dimension : procédure de validation croisée et critère de type GCV Création d un package R missmda et de fonctions dans le package FactoMineR 37 / 38

Perspectives Evalutation de la méthode d imputation multiple Zone de confiance en ACM Prise en compte des données manquantes pour les tableaux multiples 38 / 38