Prise en compte des données manquantes en ACP - imputation simple et multiple

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "Prise en compte des données manquantes en ACP - imputation simple et multiple"

Transcription

1 Prise en compte des données manquantes en ACP - imputation simple et multiple Julie Josse Laboratoire de mathématiques appliquées, Agrocampus Ouest Jouy-en-Josas, 7 mars / 38

2 Laboratoire de mathématiques appliquées Recherche Analyse factorielle, modélisation en grande dimension Application : analyse de données sensorielles et génomiques Enseignement L3 : modèle linéaire, analyse de données, plan d expériences Spécialisation et Master statistique : sensométrie, tableaux multiples, données génomiques Livres : Analyse de données avec R, Statistique avec R, Analyse factorielle simple et multiple, Statistique générale Autres activités Packages R : FactoMineR, SensoMineR, FAMT, missmda Congrès : user!2009, CARME 2011, Sensometrics / 38

3 Plan 1 Introduction 2 Estimation ponctuelle cas complet cas incomplet 3 Zone de confiance cas complet cas incomplet : imputation multiple 4 Conclusion 3 / 38

4 Contexte Individus 1 i n Variables 1 j p???????????????????? Etude et mise en œuvre des méthodes factorielles en présence de données manquantes : ACP (variables quantitatives), ACM (variables qualitatives) Objectif exploratoire 4 / 38

5 Problématique des données manquantes Shaefer (1997), Little et Rubin (1987, 2002) Méthode très utilisée : suppression Traitement des données manquantes dépend du : dispositif des données manquantes : non structuré mécanisme conduisant à l apparition de données manquantes (Rubin, 1976) : MCAR, MAR, MNAR Autres méthodes très utilisées : méthodes d imputation 5 / 38

6 Problématique des données manquantes Shaefer (1997), Little et Rubin (1987, 2002) Méthode très utilisée : suppression Traitement des données manquantes dépend du : dispositif des données manquantes : non structuré mécanisme conduisant à l apparition de données manquantes (Rubin, 1976) : MCAR, MAR, MNAR probabilité ne dépend pas de cette valeur ni des autres variables probabilité peut dépendre des valeurs des autres variables probabilité dépend de cette valeur Autres méthodes très utilisées : méthodes d imputation 5 / 38

7 Exemple de Schaefer & Graham (2002) Soit un échantillon de (x i, y i ), i = (1,..., 50), réalisation d une loi normale (µ x = µ y = 125, σ x = σ y = 25, ρ = 0.6) X Y Y X 1 m I MCAR : 73% de NA dans Y au hasard MAR : 73% de NA dans Y quand X < / 38

8 Méthodes d imputation simple Imputation par la moyenne X Y Imputation par régression X Y Imputation par régression aléatoire X Y 7 / 38

9 Méthodes d imputation simple Imputation par la moyenne X Y Imputation par régression X Y Imputation par régression aléatoire X Y Une valeur unique ne reflète pas l incertitute sur la prévision Sous-estimation de la variance des estimateurs calculée à partir du tableau imputé (ˆµ y = , ˆσ y = 24.58, ˆρ = 0.59 mais niveau de confiance pour µ y est de 70.8) 7 / 38

10 Méthodes préconisées Imputation multiple (Rubin, 1987) : générer plusieurs imputations plausibles réaliser l analyse sur chaque tableau de données complété combiner les résultats Maximum de vraisemblance : algorithme EM (Dempster et al., 1977) pour l estimation ponctuelle Objectif : estimer les paramètres ponctuellement et par intervalle en présence de données manquantes avec des variances qui prennent en compte la variabilité supplémentaire due aux données manquantes 8 / 38

11 Plan 1 Introduction 2 Estimation ponctuelle des axes et composantes 3 Zone de confiance 4 Conclusion et perspectives 9 / 38

12 Plan 1 Introduction 2 Estimation ponctuelle cas complet cas incomplet 3 Zone de confiance cas complet cas incomplet : imputation multiple 4 Conclusion 10 / 38

13 Minimiser l erreur de reconstitution Approximation de X par une matrice de rang K < p C = X n p F n K u K p 2 n p K = (x ij F ik u jk ) 2 i=1 j=1 k=1 û axes principaux (normés à 1) ˆF composantes principales (normées à la valeur propre) Diagonalisation de la matrice de variance-covariance ou de produit-scalaire Algorithmes itératifs 11 / 38

14 ACP via NIPALS (Non linear Iterative PArtial Least Squares) Meilleure approximation de rang 1 (Wold, 1966, 1969) C 1 = n i=1 j=1 p (x ij F i1 u j1 ) 2 2 régressions simples i û j1 = (x ij F i1 ) i F i1 2 j ˆF i1 = (x ij u j1 ) j u2 j1 Déflation : une fois (ˆF 1, û 1 ) trouvé, on cherche (ˆF 2, û 2 ) premier axe et première composante de ˆε 1 = X ˆF 1 û 1 12 / 38

15 ACP via la recherche directe du sous-espace Recherche directe du sous-espace de dimension K avec K > 1 C = X n p F n K u K p 2 2 régressions multiples û = X F (F F ) 1 ˆF = Xu(u u) 1 13 / 38

16 Moindres carrés pondérés C = W (X Fu ) 2 = n i=1 j=1 p (w ij x ij K F ik w ij u jk ) 2 k=1 avec W matrice de poids, w ij = 0 si x ij manquant, w ij = 1 sinon Mêmes algorithmes mais on saute les données manquantes NIPALS : 2 régressions simples pondérées (Christofferson, 1969) û j1 = P i (w ij x ij F i1 ) P i w ij Fi1 2 ; ˆF i1 = P j (w ij x ij u j1 ) P j w ij u 2 j1 Recherche directe du sous-espace : 2 régressions multiples pondérées (Gabriel & Zamir, 1979) 14 / 38

17 Moindres carrés pondérés C = W (X Fu ) 2 = n i=1 j=1 p (w ij x ij K F ik w ij u jk ) 2 k=1 avec W matrice de poids, w ij = 0 si x ij manquant, w ij = 1 sinon Mêmes algorithmes mais on saute les données manquantes NIPALS : 2 régressions simples pondérées (Christofferson, 1969) û j1 = pour C P i (w ij x ij F i1 ) P i w ij Fi1 2 ; ˆF i1 = P j (w ij x ij u j1 ) P j w ij u 2 j1 pas optimal Recherche directe du sous-espace : 2 régressions multiples pondérées (Gabriel & Zamir, 1979) 14 / 38

18 ACP itérative Nora-Chouteau en AFC (1974) : estimation/imputation 1 initialisation l = 0 : X 0 2 itération l : (a) (F l, u l ) minimisent X l 1 Fu 2 ; K dimensions retenues (b) ˆX l = ˆF l û l X l = W X + (1 W ) ˆX l 3 les étapes (a) et (b) sont répétées jusqu à convergence Kiers (1997) : ACP itérative minimise W (X Fu ) 2 15 / 38

19 ACP itérative Nora-Chouteau en AFC (1974) : estimation/imputation 1 initialisation l = 0 : X 0 2 itération l : (a) (F l, u l ) minimisent X l 1 Fu 2 ; K dimensions retenues (a ) (F l, u l ) diminuent X l 1 Fu 2 û l = X l 1 ˆF l 1 (ˆF l 1 ˆF l 1 ) 1 ˆF l = X l 1 û l (û l û l ) 1 (b) ˆX l = ˆF l û l X l = W X + (1 W ) ˆX l 3 les étapes (a) et (b) sont répétées jusqu à convergence Kiers (1997) : ACP itérative minimise W (X Fu ) 2 15 / 38

20 ACP itérative = ACP-EM Modèle (Caussinus, 1986) : x ij = K k=1 F iku jk + ε ij, ε ij N (0, σ 2 ) Vraisemblance : L c (F, u, σ 2 ) = np 2 ln(2πσ2 ) 1 2σ 2 X Fu 2 Etape E : E(x ij X obs, ˆF l, û l, ˆσ l ) imputation par ˆF û Etape M : maximise l espérance de L c estimation des paramètres par l ACP du tableau de données complété Etape M : augmente l espérance de L c moindres carrés alternés ACP GEM (Generalized Expectation Maximization) 16 / 38

21 Propriétés Deux algorithmes = deux points de vues 1 ACP-itérative impute 2 Recherche directe saute les données manquantes 17 / 38

22 Propriétés Deux algorithmes = deux points de vues 1 ACP-itérative impute saute les données manquantes (données imputées n ont pas d influence) 2 Recherche directe saute les données manquantes impute implicitement 17 / 38

23 Propriétés Deux algorithmes = deux points de vues 1 ACP-itérative impute saute les données manquantes (données imputées n ont pas d influence) 2 Recherche directe saute les données manquantes impute implicitement Réduction de la variabilité (imputation par ˆF û ) 17 / 38

24 Propriétés Deux algorithmes = deux points de vues 1 ACP-itérative impute saute les données manquantes (données imputées n ont pas d influence) 2 Recherche directe saute les données manquantes impute implicitement Réduction de la variabilité (imputation par ˆF û ) Solutions non emboîtées : choix du nombre d axes (considéré pour l instant connu) Surajustement 17 / 38

25 X 41 6 = F 41 2 u N (0, 0.5); Surajustement ACP sur données complètes Dim 2 (27.91%) Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu Smirnov BOURGUIGNON Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 1 (55.09%) 18 / 38

26 Surajustement X 41 6 = F 41 2 u N (0, 0.5); 50% de NA ACP sur données complètes ACP itérative Dim 2 (27.91%) Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu Smirnov BOURGUIGNON Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 2 (31.9%) BOURGUIGNON Casarsa HERNU Karpov Macey McMULLEN Pogorelov Zsivoczky Lorenzo BERNARD MARTINEAU SEBRLE Terek Turi Barras Karlivans Bernard Hernu Averyanov Ojaniemi Schoenbeck CLAY KARPOV Parkhomenko BARRAS Schwarzl Gomez YURKOV WARNERS Smirnov Smith Clay Sebrle Drews Warners Nool ZSIVOCZKY NOOL Qi Korkizoglou Uldal Dim 1 (55.09%) Dim 1 (63.97%) 18 / 38

27 Surajustement X 41 6 = F 41 2 u N (0, 0.5); 50% de NA ACP sur données complètes ACP itérative Dim 2 (27.91%) Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu Smirnov BOURGUIGNON Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 2 (31.9%) BOURGUIGNON Casarsa HERNU Karpov Macey McMULLEN Pogorelov Zsivoczky Lorenzo BERNARD MARTINEAU SEBRLE Terek Turi Barras Karlivans Bernard Hernu Averyanov Ojaniemi Schoenbeck CLAY KARPOV Parkhomenko BARRAS Schwarzl Gomez YURKOV WARNERS Smirnov Smith Clay Sebrle Drews Warners Nool ZSIVOCZKY NOOL Qi Korkizoglou Uldal Dim 1 (55.09%) Dim 1 (63.97%) ACP EM : W (X ˆX ) = 0.48; (1 W ) (X ˆX ) = / 38

28 Surajustement X 41 6 = F 41 2 u N (0, 0.5); 50% de NA ACP sur données complètes ACP itérative Dim 2 (27.91%) Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu Smirnov BOURGUIGNON Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 2 (31.9%) BOURGUIGNON Casarsa HERNU Karpov Macey McMULLEN Pogorelov Zsivoczky Lorenzo BERNARD MARTINEAU SEBRLE Terek Turi Barras Karlivans Bernard Hernu Averyanov Ojaniemi Schoenbeck CLAY KARPOV Parkhomenko BARRAS Schwarzl Gomez YURKOV WARNERS Smirnov Smith Clay Sebrle Drews Warners Nool ZSIVOCZKY NOOL Qi Korkizoglou Uldal Dim 1 (55.09%) Dim 1 (63.97%) ACP EM : W (X ˆX ) = 0.48; (1 W ) (X ˆX ) = 5.58 Diminuer K 18 / 38

29 Surajustement X 41 6 = F 41 2 u N (0, 0.5); 50% de NA ACP sur données complètes ACP itérative Dim 2 (27.91%) Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu Smirnov BOURGUIGNON Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 2 (31.9%) BOURGUIGNON Casarsa HERNU Karpov Macey McMULLEN Pogorelov Zsivoczky Lorenzo BERNARD MARTINEAU SEBRLE Terek Turi Barras Karlivans Bernard Hernu Averyanov Ojaniemi Schoenbeck CLAY KARPOV Parkhomenko BARRAS Schwarzl Gomez YURKOV WARNERS Smirnov Smith Clay Sebrle Drews Warners Nool ZSIVOCZKY NOOL Qi Korkizoglou Uldal Dim 1 (55.09%) Dim 1 (63.97%) ACP EM : W (X ˆX ) = 0.48; (1 W ) (X ˆX ) = 5.58 Diminuer K Régulariser les deux régressions ACP Probabiliste 18 / 38

30 ACP Probabiliste (Tipping & Bishop, 1999; Roweis, 1998) Modèle d analyse en facteurs communs et spécifiques particulier x i. = Γ p K z i. + ε i., z i. N (0, I K ), ε i. N (0, σ 2 I p ) Distribution des observations : x i. N (0, Σ) avec Σ p p = Γ p K Γ K p + σ2 I p Solution explicite : ˆσ 2 = 1 p K p j=k+1 λ j ˆΓ = uk (Λ K σ 2 I K ) 1/2 19 / 38

31 ACP Probabiliste via l algorithme EM z i. x i. N ((Γ Γ + σ 2 I ) 1 Γ x i., V ) Etape E : Espérance conditionelle Ẑ = (ˆΓ ˆΓ + ˆσ 2 I ) 1ˆΓ X Etape M : Maximise E[L c ] par rapport à Γ et σ 2 ˆΓ = (Ẑ Ẑ + n ˆV ) 1 Ẑ X Régressions ridges Vers un algorithme d ACP-GEM régularisé : estimer Z et Γ imputer par Ẑ ˆΓ 20 / 38

32 ACP itérative régularisée 1 initialisation l = 0 : X 0 2 itération l : (a) (F l, u l ) minimisent X l 1 Fu 2 ; K dimensions retenues K ˆF (b) ˆx ij l ik l = λlk ˆσ2 ˆF k l ûjk l k=1 nouvelle imputation : X l = W X + (1 W ) ˆX l ; λ l k 3 les étapes (a) et (b) sont répétées jusqu à convergence 21 / 38

33 Surajustement X 41 6 = F 41 2 u N (0, 0.5); 50% de NA ACP sur données complètes ACP régularisée Dim 2 (27.91%) Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu BOURGUIGNON Smirnov Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 2 (30.72%) Sebrle Karpov Macey SEBRLE Uldal Korkizoglou Parkhomenko Karlivans Averyanov Terek Turi McMULLEN Ojaniemi YURKOV BARRAS Barras HERNU KARPOV MARTINEAU Hernu Schoenbeck BERNARD Clay Bernard Smirnov Smith Warners Schwarzl Qi WARNERS Nool Pogorelov Zsivoczky CLAY ZSIVOCZKY Drews Gomez Lorenzo NOOL Casarsa BOURGUIGNON Dim 1 (55.09%) Dim 1 (64.27%) (1 W ) (X ˆX ) = / 38

34 Simulations X = F 21 2 u ε avec ε N (0, σ) Coefficient RV entre configurations (complète / incomplète) nb.na = 0.2 nb.na = 0.4 coeffrv mean ACP-GEM ACP-GEM reg ACP-GEM 3 ACP-GEM reg 3 coeffrv mean ACP-GEM ACP-GEM reg ACP-GEM 3 ACP-GEM reg sigma sigma 23 / 38

35 Plan 1 Introduction 2 Estimation ponctuelle cas complet cas incomplet 3 Zone de confiance cas complet cas incomplet : imputation multiple 4 Conclusion 24 / 38

36 Stabilité en ACP Epreuves de validité en analyse exploratoire Rééchantillonnage des individus (Lebart, 1996) : bootstrap non-paramétrique fluctuations dues à l échantillonnage bootstrap toutes les dimensions zones de confiance autour de la position des variables Zone de confiance quand l ACP est réalisée sur une population d individus? 25 / 38

37 Modèle en ACP x ij = structure + bruit Modèle à effets aléatoires (structurel) : analyse en facteurs, ACP Probabiliste (ACPP) les individus sont interchangeables étude des liaisons entre variables Modèle à effets fixes (fonctionnel) : Caussinus (1986) les individus ont des espérances différentes étude des individus et des variables x ij = K F ik u jk + ε ij, avec ε ij N (0, σ 2 ) k=1 26 / 38

38 Bootstrap des résidus Rééchantillonnage des résidus : bootstrap semi-paramétrique fluctuations dues au bruit bootstrap sur les dernières dimensions : le bruit va partout zones de confiance autour de la position des individus et des variables 27 / 38

39 Bootstrap des résidus 1 ACP sur X ˆF n K et û p K (K dimensions retenues); 2 Données reconstituées ˆX = ˆF û et résidus ˆε = X ˆX ; 3 Procédure bootstrap : répéter B fois les étapes a Bootstrapper les résidus : ε b tirer dans une N (0, ˆσ 2 ) b X b = ˆF û + ε b c ACP sur X b pour obtenir ˆF b et û b B couples (ˆF 1, û 1 ),..., (ˆF B, û B ) 28 / 38

40 Bootstrap des résidus 1 ACP sur X ˆF n K et û p K (K dimensions retenues); 2 Données reconstituées ˆX = ˆF û et résidus ˆε = X ˆX ; Choix de la dimension? 3 Procédure bootstrap : répéter B fois les étapes a Bootstrapper les résidus : ε b tirer dans une N (0, ˆσ 2 ) Sous-estimation des résidus? b X b = ˆF û + ε b c ACP sur X b pour obtenir ˆF b et û b B couples (ˆF 1, û 1 ),..., (ˆF B, û B ) 28 / 38

41 Bootstrap des résidus 1 ACP sur X ˆF n K et û p K (K dimensions retenues); 2 Données reconstituées ˆX = ˆF û et résidus ˆε = X ˆX ; Choix de la dimension? 3 Procédure bootstrap : répéter B fois les étapes a Bootstrapper les résidus : ε b tirer dans une N (0, ˆσ 2 ) Sous-estimation des résidus? b X b = ˆF û + ε b c ACP sur X b pour obtenir ˆF b et û b B couples (ˆF 1, û 1 ),..., (ˆF B, û B ) Visualisation? 28 / 38

42 Incertitude supplémentaire due aux données manquantes Source de variabilité supplémentaire ACP itérative : imputation simple bootstrap des résidus sur le tableau imputé sous-estimerait la variabilité des paramètres Imputation multiple 1 Générer B tableaux de données imputés 2 Réaliser l analyse sur chaque tableau imputé 3 Combiner les résultats : Variance totale Variance intra imputation + Variance inter imputation 29 / 38

43 Incertitude supplémentaire due aux données manquantes Source de variabilité supplémentaire ACP itérative : imputation simple bootstrap des résidus sur le tableau imputé sous-estimerait la variabilité des paramètres Imputation multiple 1 Générer B tableaux de données imputés 2 Réaliser l analyse sur chaque tableau imputé 3 Combiner les résultats : Variance totale Variance intra imputation + Variance inter imputation 29 / 38

44 Idée pour générer B tableaux imputés x ij = K k=1 F iku jk + ε ij, avec ε ij N (0, σ 2 ) ACP itérative sur le tableau de données incomplet (ˆF, û) Première idée pour générer différentes imputations: Pour b = 1,..., B, imputer les valeurs manquantes xij b en tirant dans ) la distribution prédictive N ((ˆF û ) ij, ˆσ 2 Imputation improper (Rubin, 1987) 30 / 38

45 Imputation multiple proper 1 Variance d estimation : obtenir B couples (ˆF û ) 1,..., (ˆF û ) B bootstrap des résidus 2 Bruit : pour b = 1,..., B, imputer les valeurs manquantes x ) ij b en tirant dans la distribution prédictive N ((ˆF û ) b ij, ˆσ2 (ˆFû ) ij (ˆFû ) 1 ij +ε1 ij (ˆFû ) 2 ij +ε2 ij (ˆFû ) 3 ij +ε3 ij (ˆFû ) B ij +εb ij 31 / 38

46 Projection en supplémentaire Instabilité des individus (et des variables) due aux données manquantes (projection en supplémentaire) ACP 32 / 38

47 Projection en supplémentaire Instabilité des individus (et des variables) due aux données manquantes (projection en supplémentaire) ACP Projection en supplémentaire 32 / 38

48 Projection en supplémentaire Instabilité des individus (et des variables) due aux données manquantes (projection en supplémentaire) ACP Projection en supplémentaire 32 / 38

49 Projection en supplémentaire Instabilité des individus (et des variables) due aux données manquantes (projection en supplémentaire) ACP Projection en supplémentaire 32 / 38

50 Projection en supplémentaire Dim 2 (26.58%) % NA T1 T2 3EL PER1 4EL 2BEA 1TUR 2DAM 1POY 1VAU 1BOI 1DAM DOM1 2EL 1ING 1ROC 2ING 2BOU 1CHA 1FON 1BEN Dim 1 (46.63%) Dim 2 (26.58%) Plante Spice Dim 1 (46.63%) Odor.Intensity Phenolic Flower Aroma.persistency Aroma.intensity Fruity Quality.of.odour Aroma.quality im 2 (31.26%) % NA 1VAU T1 1TUR T2 3EL PER1 2BEA 1POY 4EL 2DAM 1BOI DOM1 Dim 2 (31.26%) Plante Spice Phenolic Odor.Intensity Aroma.persistency Quality.of.odour Aroma.intensity Fruity 33 / 38

51 Variance inter-imputation Impact des données manquantes sur la construction des axes et des composantes (ACP sur chaque tableau) ACP 34 / 38

52 Variance inter-imputation Impact des données manquantes sur la construction des axes et des composantes (ACP sur chaque tableau) ACP ACP ACP ACP ACP 34 / 38

53 Variance inter-imputation Impact des données manquantes sur la construction des axes et des composantes (ACP sur chaque tableau) ACP ACP ACP ACP ACP Rotations procrustes 34 / 38

54 Variance inter-imputation Impact des données manquantes sur la construction des axes et des composantes (ACP sur chaque tableau) ACP ACP ACP ACP ACP Rotations procrustes 34 / 38

55 Variance inter-imputation Dim 2 (26.58%) % NA 1VAU 2ING T1 T2 3EL PER1 4EL 2BEA 1TUR 2DAM 1POY 1BOI 1DAM DOM1 2EL 1ING 1ROC 2BOU 1CHA 1BEN 1FON Dim 2 (26.58%) Dim 1 (46.63%) Dim 1 (46.63%) Dim 2 (31.26%) % NA 1VAU 2ING T1 1TUR T2 3EL PER1 2BEA 1POY 4EL 2DAM 1BOI DOM1 1ING 1DAM Dim 2 (31.26%) / 38

56 Plan 1 Introduction 2 Estimation ponctuelle cas complet cas incomplet 3 Zone de confiance cas complet cas incomplet : imputation multiple 4 Conclusion 36 / 38

57 Conclusion Estimation ponctuelle en ACP Imputation multiple en ACP Extension à l ACM Choix de la dimension : procédure de validation croisée et critère de type GCV Création d un package R missmda et de fonctions dans le package FactoMineR 37 / 38

58 Perspectives Evalutation de la méthode d imputation multiple Zone de confiance en ACM Prise en compte des données manquantes pour les tableaux multiples 38 / 38

Gestion des données manquantes en Analyse en Composantes Principales

Gestion des données manquantes en Analyse en Composantes Principales Gestion des données manquantes en Analyse en Composantes Principales François Husson & Julie Josse Laboratoire de mathématiques appliquées, Agrocampus Rennes Bordeaux, 11 mars 2010 1 / 37 L'équipe d'agrocampus

Plus en détail

L'analyse de données avec FactoMineR : les nouveautés

L'analyse de données avec FactoMineR : les nouveautés L'analyse de données avec FactoMineR : les nouveautés Gestion des données manquantes - module graphique - aides François Husson & Julie Josse Laboratoire de mathématiques appliquées, Agrocampus Rennes

Plus en détail

Prise en compte des données manquantes en analyse factorielle

Prise en compte des données manquantes en analyse factorielle Prise en compte des données manquantes en analyse factorielle J. Josse & F. Husson Laboratoire de mathématiques appliquées 1 / 38 Plan 1 Introduction 2 ACP avec données manquantes : estimation des axes

Plus en détail

Apport de l acp probabiliste pour la gestion des données manquantes en acp

Apport de l acp probabiliste pour la gestion des données manquantes en acp Manuscrit auteur, publié dans "41èmes Journées de Statistique, SFdS, Bordeaux, Bordeaux, France : France (2009)" Apport de l acp probabiliste pour la gestion des données manquantes en acp Julie Josse,

Plus en détail

Classification ascendante hiérarchique (CAH)

Classification ascendante hiérarchique (CAH) Classification ascendante hiérarchique (CAH) François Husson Laboratoire de mathématiques appliquées - Agrocampus Rennes husson@agrocampus-ouest.fr 1 / 40 Classification ascendante hiérarchique (CAH) 1

Plus en détail

Analyses factorielles avec R

Analyses factorielles avec R Analyses factorielles avec R Principes généraux Méthodes multivariées : permettent d analyser les relations entre un grand nombre de variables (par opposition aux statistiques univariées et bivariées)

Plus en détail

Imputation multiple pour variables qualitatives par analyse des correspondances multiples

Imputation multiple pour variables qualitatives par analyse des correspondances multiples Imputation multiple pour variables qualitatives par analyse des correspondances multiples Vincent Audigier & François Husson & Julie Josse Laboratoire de mathématiques appliquées, Agrocampus Ouest 65 rue

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

Les données manquantes en statistique

Les données manquantes en statistique Les données manquantes en statistique N. MEYER Laboratoire de Biostatistique -Faculté de Médecine Dép. Santé Publique CHU - STRASBOURG Séminaire de Statistique - 7 novembre 2006 Les données manquantes

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Analyse des données individuelles groupées

Analyse des données individuelles groupées Analyse des données individuelles groupées Analyse des Temps de Réponse Le modèle mixte linéaire (L2M) Y ij, j-ième observation continue de l individu i (i = 1,, N ; j =1,, n) et le vecteur des réponses

Plus en détail

Analyse de données longitudinales continues avec applications

Analyse de données longitudinales continues avec applications Université de Liège Département de Mathématique 29 Octobre 2002 Analyse de données longitudinales continues avec applications David MAGIS 1 Programme 1. Introduction 2. Exemples 3. Méthodes simples 4.

Plus en détail

Analyse simultanée de variables quantitatives et qualitatives. à l aide de l analyse factorielle multiple

Analyse simultanée de variables quantitatives et qualitatives. à l aide de l analyse factorielle multiple Analyse simultanée de variables quantitatives et qualitatives à l aide de l analyse factorielle multiple Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus France Analyse Factorielle Multiple

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Introduction à l analyse des données. Olivier Godechot

Introduction à l analyse des données. Olivier Godechot Introduction à l analyse des données Olivier Godechot Introduction. Les données statistiques : de très nombreuses variables. Aucune n est parfaite La perception d un phénomène appréhendée comme la combinaison

Plus en détail

Sélection- validation de modèles

Sélection- validation de modèles Sélection- validation de modèles L. Rouvière laurent.rouviere@univ-rennes2.fr JANVIER 2015 L. Rouvière (Rennes 2) 1 / 77 1 Quelques jeux de données 2 Sélection-choix de modèles Critères de choix de modèles

Plus en détail

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be

Plus en détail

Restauration d images

Restauration d images Restauration d images Plan Présentation du problème. Premières solutions naïves (moindre carrés, inverse généralisée). Méthodes de régularisation. Panorama des méthodes récentes. Problème général Un système

Plus en détail

Analyse en composantes principales

Analyse en composantes principales Analyse en composantes principales Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire LITIS Analyse en composantes principales p. 1/18 Introduction Objectifs Soit {x i } i=1,,l

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure

Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure Marie Verbanck Laboratoire de Mathématiques Appliquées, Agrocampus OUEST Soutenance de thèse - 4 septembre

Plus en détail

Les modèles d équations structurelles à variables latentes Applications et exercices

Les modèles d équations structurelles à variables latentes Applications et exercices Les modèles d équations structurelles à variables latentes Applications et eercices Emmanuel Jakobowicz Addinsoft XLSTAT 30 mars 2011 Cours de Statistique Multivariée Approfondie 1 Le modèle structurel

Plus en détail

téléphone sur l'exposition de la tête»

téléphone sur l'exposition de la tête» «Analyse statistique de l'influence de la position du téléphone sur l'exposition de la tête» A.Ghanmi 1,2,3 J.Wiart 1,2, O.Picon 3 1 Orange Labs R&D 2 WHIST LAB (http://whist.institut-telecom.fr), 3 Paris

Plus en détail

Données manquantes en ACM : l algorithme NIPALS

Données manquantes en ACM : l algorithme NIPALS Données manquantes en ACM : l algorithme NIPALS & VANESSA KUENTZ & BENOÎT LIQUET IMB, Université de Bordeaux, France INRIA Bordeaux Sud-Ouest, CQFD Team INSERM, U897 SFC09, Grenoble Introduction NIPALS

Plus en détail

Modélisation stochastique et analyse de données

Modélisation stochastique et analyse de données Modélisation stochastique et analyse de données Formation FIL - Année 1 Régression par la méthode des moindres carrés 2011/2012 Tony Bourdier Modélisation stochastique et analyse de données 1 / 25 Plan

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

L essentiel sur les tests statistiques

L essentiel sur les tests statistiques L essentiel sur les tests statistiques 21 septembre 2014 2 Chapitre 1 Tests statistiques Nous considérerons deux exemples au long de ce chapitre. Abondance en C, G : On considère une séquence d ADN et

Plus en détail

Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL

Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL LINF 2275 Stat. explor. multidim. 1 A.C.P.: Analyse en Composantes Principales Analyse de la structure de la matrice

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Analyse multivariée approfondie

Analyse multivariée approfondie Analyse multivariée approfondie Enseignants: NIANG N. et RUSSOLILLIO G. Maître de conférences Statistique Appliquée Laboratoire CEDRIC CNAM http://www.cnam.fr et d autres intervenants extérieurs au Cnam

Plus en détail

Université René Descartes Faculté de Pharmacie - Master Professionnel Dimension Économique des Produits de Santé 14 décembre 2005

Université René Descartes Faculté de Pharmacie - Master Professionnel Dimension Économique des Produits de Santé 14 décembre 2005 Université René Descartes Faculté de Pharmacie - Master Professionnel Dimension Économique des Produits de Santé 14 décembre 2005 Prise en Compte de l Incertitude dans l Évaluation des Technologies de

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

MIXMOD. Un ensemble logiciel de classification des données par modèles de mélanges MIXMOD. F. Langrognet () MIXMOD Avril 2012 1 / 28

MIXMOD. Un ensemble logiciel de classification des données par modèles de mélanges MIXMOD. F. Langrognet () MIXMOD Avril 2012 1 / 28 MIXMOD Un ensemble logiciel de classification des données par modèles de mélanges MIXMOD F. Langrognet () MIXMOD Avril 2012 1 / 28 PLAN 1 La classification des données 2 MIXMOD, ensemble logiciel de classification

Plus en détail

OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES

OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES ST50 - Projet de fin d études Matthieu Leromain - Génie Informatique Systèmes temps Réel, Embarqués et informatique Mobile - REM 1 Suiveur en entreprise

Plus en détail

Le Multidimensional Scaling et la cartographie des préférences

Le Multidimensional Scaling et la cartographie des préférences Le Multidimensional Scaling et la cartographie des préférences Gilbert Saporta Conservatoire National des Arts et Métiers http://cedric.cnam.fr/~saporta Avril 2014 Multidimensional scaling Egalement appelé

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

Agrégation des portefeuilles de contrats d assurance vie

Agrégation des portefeuilles de contrats d assurance vie Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l

Plus en détail

Intérêt du découpage en sous-bandes pour l analyse spectrale

Intérêt du découpage en sous-bandes pour l analyse spectrale Intérêt du découpage en sous-bandes pour l analyse spectrale David BONACCI Institut National Polytechnique de Toulouse (INP) École Nationale Supérieure d Électrotechnique, d Électronique, d Informatique,

Plus en détail

Modélisation prédictive et incertitudes. P. Pernot. Laboratoire de Chimie Physique, CNRS/U-PSUD, Orsay

Modélisation prédictive et incertitudes. P. Pernot. Laboratoire de Chimie Physique, CNRS/U-PSUD, Orsay Modélisation prédictive et incertitudes P. Pernot Laboratoire de Chimie Physique, CNRS/U-PSUD, Orsay Plan 1 Incertitudes des modèles empiriques 2 Identification et caractérisation des paramètres incertains

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Ch2 : Analyse en Composantes Principales (ACP)

Ch2 : Analyse en Composantes Principales (ACP) Ch2 : Analyse en Composantes Principales (ACP) A- Objectifs B- construction d un espace factoriel C- Les étapes d une ACP D- Interprétation E- Limites A- Objectifs On dispose d un tableau de données X.

Plus en détail

Introduction aux Méthodes de Monte Carlo

Introduction aux Méthodes de Monte Carlo Méthodes de Monte Carlo pour la Modélisation et le Calcul Intensif Applications à la Physique Numérique et à la Biologie Séminaire CIMENT GRID Introduction aux Méthodes de Monte Carlo Olivier François

Plus en détail

Introduction au modèle linéaire général

Introduction au modèle linéaire général Résumé Introductions au modèle linéaire général Retour au plan du cours Travaux pratiques 1 Introduction L objet de ce chapitre est d introduire le cadre théorique global permettant de regrouper tous les

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

Module Mixmod pour OpenTURNS

Module Mixmod pour OpenTURNS Module Mixmod pour OpenTURNS Régis LEBRUN EADS Innovation Works 23 septembre 2013 EADS IW 2013 (EADS Innovation Work) 23 septembre 2013 1 / 21 Outline Plan 1 OpenTURNS et propagation d incertitudes 2 Mixmod

Plus en détail

Mathématiques et Applications 57. Modèles aléatoires. Applications aux sciences de l'ingénieur et du vivant

Mathématiques et Applications 57. Modèles aléatoires. Applications aux sciences de l'ingénieur et du vivant Mathématiques et Applications 57 Modèles aléatoires Applications aux sciences de l'ingénieur et du vivant Bearbeitet von Jean-François Delmas, Benjamin Jourdain 1. Auflage 2006. Taschenbuch. xxv, 431 S.

Plus en détail

Analyse factorielle de données de catégorisation

Analyse factorielle de données de catégorisation Analyse factorielle de données de catégorisation Application aux données sensorielles Soutenance de thèse de Marine Cadoret Préparée au Laboratoire de mathématiques appliquées Agrocampus Ouest 30 août

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Présentation de l épreuve

Présentation de l épreuve MÉTHODO Présentation de l épreuve 1. Programme de l arrêté du 22 décembre 2006 DURÉE DE L ENSEIGNEMENT ÉPREUVE N 11 CONTRÔLE DE GESTION (à titre indicatif) : 210 heures 18 crédits européens 1. Positionnement

Plus en détail

Rmixmod Le package R de MIXMOD R

Rmixmod Le package R de MIXMOD R Rmixmod Le package R de MIXMOD R MIXMOD Rencontres R 2012 - Bordeaux Florent Langrognet Laboratoire de Mathématiques de Besançon F. Langrognet () Rmixmod Juillet 2012 1 / 41 Rmixmod 1 Contexte Le projet

Plus en détail

Lois de probabilité. Anita Burgun

Lois de probabilité. Anita Burgun Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage

Plus en détail

Le bootstrap expliqué par l exemple

Le bootstrap expliqué par l exemple Le bootstrap expliqué par l exemple 1 Le bootstrap expliqué par l exemple 1. Les concepts du bootstrap 2. Des variantes adaptées au contexte 3. Comparaison des différentes méthodes 4. Les cas sensibles

Plus en détail

Principales caractéristiques de Mixmod

Principales caractéristiques de Mixmod Modèle de mélanges Principales caractéristiques de Mixmod Gérard Govaert et Gilles Celeux 24 octobre 2006 1 Plan Le modèledemélange Utilisations du modèle de mélange Les algorithmes de Mixmod Modèle de

Plus en détail

Analyse en composantes principales (ACP)

Analyse en composantes principales (ACP) Analyse en composantes principales (ACP) François Husson Laboratoire de mathématiques appliquées - Agrocampus Rennes husson@agrocampus-ouest.fr 1 / 31 Quel type de données? L ACP s intéresse à des tableaux

Plus en détail

Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification

Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification François Husson & Julie Josse Laboratoire de mathématiques appliquées Agrocampus Rennes husson@agrocampus-ouest.fr

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité Introduction à l analyse des données Analyse des Données () Le but de l analyse de données est de synthétiser, structurer l information contenue dans des données multidimensionnelles Deux groupes de méthodes

Plus en détail

Méthodes de placement multidimensionnelles. Fabrice Rossi Télécom ParisTech

Méthodes de placement multidimensionnelles. Fabrice Rossi Télécom ParisTech Méthodes de placement multidimensionnelles Fabrice Rossi Télécom ParisTech Plan Introduction Analyse en composantes principales Modèle Qualité et interprétation Autres méthodes 2 / 27 F. Rossi Plan Introduction

Plus en détail

Analyse des données - Logiciel R

Analyse des données - Logiciel R Université de Strasbourg Analyse des données Master de Sciences, Spécialité Statistique 2012/13 Master Actuariat Emmanuel Périnel Analyse des données - Logiciel R TP n 2. L Analyse en Composantes Principales

Plus en détail

Master Modélisation Statistique M2 Finance - chapitre 1. Gestion optimale de portefeuille, l approche de Markowitz

Master Modélisation Statistique M2 Finance - chapitre 1. Gestion optimale de portefeuille, l approche de Markowitz Master Modélisation Statistique M2 Finance - chapitre 1 Gestion optimale de portefeuille, l approche de Markowitz Clément Dombry, Laboratoire de Mathématiques de Besançon, Université de Franche-Comté.

Plus en détail

Analyse de variance à un facteur Tests d hypothèses Analyse de variance à deux facteurs. Analyse de la variance ANOVA

Analyse de variance à un facteur Tests d hypothèses Analyse de variance à deux facteurs. Analyse de la variance ANOVA Analyse de la variance ANOVA Terminologie Modèles statistiques Estimation des paramètres 1 Analyse de variance à un facteur Terminologie Modèles statistiques Estimation des paramètres 2 3 Exemple. Analyse

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Chapitre VI Échantillonages et simulations

Chapitre VI Échantillonages et simulations Chapitre VI Commentaires : Récursivement, les commentaires ne sont pas à l attention des élèves.. Fluctuation d échantillonnage Définition : En statistiques, un échantillon de taille n est la liste des

Plus en détail

Cours de Statistiques

Cours de Statistiques Cours de Statistiques Romain Raveaux 1 1 Laboratoire L3I Université de La Rochelle romain.raveaux01 at univ-lr.fr Octobre 24-11, 2008 1 / 35 Sommaire 1 Quelques Rappels 2 numériques Relations entre deux

Plus en détail

Evaluation d un test diagnostique - Concordance

Evaluation d un test diagnostique - Concordance Evaluation d un test diagnostique - Concordance Michaël Genin Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins michaelgenin@univ-lille2fr Plan 1 Introduction 2 Evaluation

Plus en détail

Examen Gestion d Actifs

Examen Gestion d Actifs ESILV 2012 D. Herlemont Gestion d actifs Examen Gestion d Actifs 2 pt 1. On considère un portefeuille investi dans n actifs risqués, normalement distribués d espérance en excès du taux sans risque µ =

Plus en détail

Étapes du développement et de l utilisation d un modèle de simulation

Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Formulation du problème Cueillette et analyse de données Conception

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Atelier d économétrie

Atelier d économétrie Atelier d économétrie Chapitre 4 : Le problème de la multicolinéarité : application sous SAS Vincent Bouvatier Université de Paris Ouest - Nanterre La Défense Bâtiment G, bureau 308A vbouvatier@u-paris10.fr

Plus en détail

OPTIMISATION MULTICRITERE STOCHASTIQUE

OPTIMISATION MULTICRITERE STOCHASTIQUE OPTIMISATION MULTICRITERE STOCHASTIQUE Michel DUMAS, Gilles ARNAUD, Fabrice GAUDIER CEA/DEN/DMS/SFME/LETR michel.dumas@cea.r gilles.arnaud@cea.r abrice.gaudier @cea.r Introduction L optimisation multicritère

Plus en détail

Modélisation stochastique des données à partir d essais sur matériaux. Pr. Denys Breysse Université Bordeaux 1

Modélisation stochastique des données à partir d essais sur matériaux. Pr. Denys Breysse Université Bordeaux 1 Modélisation stochastique des données à partir d essais sur matériaux Pr. Denys Breysse Université Bordeaux 1 Hasard cause fictive de ce qui arrive sans raison apparente ou explicable (Petit Robert). Ce

Plus en détail

Méthodes de distances Formation CNRS «Phylogénie moléculaire»

Méthodes de distances Formation CNRS «Phylogénie moléculaire» Méthodes de distances Formation CNRS «Phylogénie moléculaire» Guy Perrière Laboratoire de Biométrie et Biologie Évolutive UMR CNRS n 5558 Université Claude Bernard Lyon 1 2 mars 213 Guy Perrière (BBE)

Plus en détail

Conditions d application des méthodes statistiques paramétriques :

Conditions d application des méthodes statistiques paramétriques : Conditions d application des méthodes statistiques paramétriques : applications sur ordinateur GLELE KAKAÏ R., SODJINOU E., FONTON N. Cotonou, Décembre 006 Conditions d application des méthodes statistiques

Plus en détail

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce Heuristique et métaheuristique IFT1575 Modèles de recherche opérationnelle (RO) 8. Optimisation combinatoire et métaheuristiques Un algorithme heuristique permet d identifier au moins une solution réalisable

Plus en détail

Sur l apprentissage de Réseaux Bayésiens à partir de bases d exemples incomplètes et application à la classification

Sur l apprentissage de Réseaux Bayésiens à partir de bases d exemples incomplètes et application à la classification Sur l apprentissage de Réseaux Bayésiens à partir de bases d exemples incomplètes et application à la classification et Philippe LERAY, Laboratoire LITIS, Rouen. Rencontres Inter-Associations La classification

Plus en détail

Statistique de base avec R Partie 2 : Test d hypothèses et régression linéaire

Statistique de base avec R Partie 2 : Test d hypothèses et régression linéaire Statistique de base avec R Partie 2 : Test d hypothèses et régression linéaire Julien JACQUES Polytech Lille - Université Lille 1 Julien JACQUES (Polytech Lille) Statistiques de base 1 / 48 Plan 1 Tests

Plus en détail

Modèles GARCH et à volatilité stochastique Université de Montréal 14 mars 2007

Modèles GARCH et à volatilité stochastique Université de Montréal 14 mars 2007 Université de Montréal 14 mars 2007 Christian FRANCQ GREMARS-EQUIPPE, Université Lille 3 Propriétés statistiques des modèles GARCH Outline 1 Identification 2 Test de bruit blanc faible Test d homoscédaticité

Plus en détail

FacultéPolytechnique. Dimensionnement optimal de convertisseurs continu-continu isolés par la méthode des plans d expériences Travail de fin d études

FacultéPolytechnique. Dimensionnement optimal de convertisseurs continu-continu isolés par la méthode des plans d expériences Travail de fin d études FacultéPolytechnique Dimensionnement optimal de convertisseurs continu-continu isolés par la méthode des plans d expériences Travail de fin d études Stijn Coorevits Promoteurs : Prof. O. Deblecker Ir C.

Plus en détail

Mémoire d Actuariat Tarification de la branche d assurance des accidents du travail Aymeric Souleau aymeric.souleau@axa.com 3 Septembre 2010 Plan 1 Introduction Les accidents du travail L assurance des

Plus en détail

Elma m l a ki i Haj a a j r a Alla a Tao a uf u i f q B ur u kkad a i i Sal a ma m n a e n e Be B n e a n b a d b en e b n i b i Il I ham

Elma m l a ki i Haj a a j r a Alla a Tao a uf u i f q B ur u kkad a i i Sal a ma m n a e n e Be B n e a n b a d b en e b n i b i Il I ham Exposé: la technique de simulation MONTE-CARLO Présenté par : Elmalki Hajar Bourkkadi Salmane Alla Taoufiq Benabdenbi Ilham Encadré par : Prof. Mohamed El Merouani Le plan Introduction Définition Approche

Plus en détail

SEMIN. Analyses factorielles avec R. Elisabeth MORAND INED

SEMIN. Analyses factorielles avec R. Elisabeth MORAND INED SEMIN Analyses factorielles avec R Elisabeth MORAND INED SEMIN R du MNHN 10 Décembre 2009 E. Morand 10 Décembre 2009 INED 1 / 42 Part I Analyse en Composantes Principales : ACP 2 / 42 Sommaire 1 Introduction

Plus en détail

DataHighDim. ACI «Masse de Données» - 2003. Analyse exploratoire et discriminante de données en grande dimension

DataHighDim. ACI «Masse de Données» - 2003. Analyse exploratoire et discriminante de données en grande dimension ACI «Masse de Données» - 2003 DataHighDim Analyse exploratoire et discriminante de données en grande dimension Anne Guérin-Dugué Laboratoire CLIPS Grenoble UJF, CNRS UMR 5524 Communication Langagière et

Plus en détail

INTRODUCTION AUX MÉTHODES DE MONTE CARLO PAR CHAÎNES DE MARKOV

INTRODUCTION AUX MÉTHODES DE MONTE CARLO PAR CHAÎNES DE MARKOV Séminaire MTDE 22 mai 23 INTRODUCTION AUX MÉTHODES DE MONTE CARLO PAR CHAÎNES DE MARKOV Vincent Mazet CRAN CNRS UMR 739, Université Henri Poincaré, 5456 Vandœuvre-lès-Nancy Cedex 1 juillet 23 Sommaire

Plus en détail

Introduction aux Support Vector Machines (SVM)

Introduction aux Support Vector Machines (SVM) Introduction aux Support Vector Machines (SVM) Olivier Bousquet Centre de Mathématiques Appliquées Ecole Polytechnique, Palaiseau Orsay, 15 Novembre 2001 But de l exposé 2 Présenter les SVM Encourager

Plus en détail

Loi binomiale Lois normales

Loi binomiale Lois normales Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli

Plus en détail

Analyse d un système de freinage récupératif d un véhicule électrique

Analyse d un système de freinage récupératif d un véhicule électrique Analyse d un système de freinage récupératif d un véhicule électrique Par Mohamed Amine Bey, Gabriel Georges, Pascal Jacq, Doha Hadouni, Roxane Duroux, Erwan Scornet, Encadré par Alexis Simonnet 1 Compréhension

Plus en détail

Introduction au cours STA 102 Analyse des données : Méthodes explicatives

Introduction au cours STA 102 Analyse des données : Méthodes explicatives Analyse des données - Méthodes explicatives (STA102) Introduction au cours STA 102 Analyse des données : Méthodes explicatives Giorgio Russolillo giorgio.russolillo@cnam.fr Infos et support du cours Slide

Plus en détail

Chapitre 2: Prévisions des ventes

Chapitre 2: Prévisions des ventes Chapitre 2: Prévisions des ventes AVIS IMPORTANT : Ces notes sont basées sur le livre de Steven Nahmias : Production et Operations Analysis, 4 ième édition, McGraw-Hill Irwin 200. Les figures sont issues

Plus en détail

Température corporelle d un castor (une petite introduction aux séries temporelles)

Température corporelle d un castor (une petite introduction aux séries temporelles) Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature

Plus en détail

Cours 1: lois discrétes classiques en probabilités

Cours 1: lois discrétes classiques en probabilités Cours 1: lois discrétes classiques en probabilités Laboratoire de Mathématiques de Toulouse Université Paul Sabatier-IUT GEA Ponsan Module: Stat inférentielles Définition Quelques exemples loi d une v.a

Plus en détail

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Cours 7 : Exemples I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Exemple 1 : On cherche à expliquer les variations de y par celles d une fonction linéaire de

Plus en détail

46 e journées de statistique

46 e journées de statistique 46 e journées de statistique Le 5 juin 2014 à Rennes Construction et estimation des capacités d un score pronostique : intérêts de la pénalisation de LASSO et de l estimateur bootstrap 0.632+ appliqués

Plus en détail

Simulation Examen de Statistique Approfondie II **Corrigé **

Simulation Examen de Statistique Approfondie II **Corrigé ** Simulation Examen de Statistique Approfondie II **Corrigé ** Ces quatre exercices sont issus du livre d exercices de François Husson et de Jérôme Pagès intitulé Statistiques générales pour utilisateurs,

Plus en détail