Prise en compte des données manquantes en ACP - imputation simple et multiple

Dimension: px
Commencer à balayer dès la page:

Download "Prise en compte des données manquantes en ACP - imputation simple et multiple"

Transcription

1 Prise en compte des données manquantes en ACP - imputation simple et multiple Julie Josse Laboratoire de mathématiques appliquées, Agrocampus Ouest Jouy-en-Josas, 7 mars / 38

2 Laboratoire de mathématiques appliquées Recherche Analyse factorielle, modélisation en grande dimension Application : analyse de données sensorielles et génomiques Enseignement L3 : modèle linéaire, analyse de données, plan d expériences Spécialisation et Master statistique : sensométrie, tableaux multiples, données génomiques Livres : Analyse de données avec R, Statistique avec R, Analyse factorielle simple et multiple, Statistique générale Autres activités Packages R : FactoMineR, SensoMineR, FAMT, missmda Congrès : user!2009, CARME 2011, Sensometrics / 38

3 Plan 1 Introduction 2 Estimation ponctuelle cas complet cas incomplet 3 Zone de confiance cas complet cas incomplet : imputation multiple 4 Conclusion 3 / 38

4 Contexte Individus 1 i n Variables 1 j p???????????????????? Etude et mise en œuvre des méthodes factorielles en présence de données manquantes : ACP (variables quantitatives), ACM (variables qualitatives) Objectif exploratoire 4 / 38

5 Problématique des données manquantes Shaefer (1997), Little et Rubin (1987, 2002) Méthode très utilisée : suppression Traitement des données manquantes dépend du : dispositif des données manquantes : non structuré mécanisme conduisant à l apparition de données manquantes (Rubin, 1976) : MCAR, MAR, MNAR Autres méthodes très utilisées : méthodes d imputation 5 / 38

6 Problématique des données manquantes Shaefer (1997), Little et Rubin (1987, 2002) Méthode très utilisée : suppression Traitement des données manquantes dépend du : dispositif des données manquantes : non structuré mécanisme conduisant à l apparition de données manquantes (Rubin, 1976) : MCAR, MAR, MNAR probabilité ne dépend pas de cette valeur ni des autres variables probabilité peut dépendre des valeurs des autres variables probabilité dépend de cette valeur Autres méthodes très utilisées : méthodes d imputation 5 / 38

7 Exemple de Schaefer & Graham (2002) Soit un échantillon de (x i, y i ), i = (1,..., 50), réalisation d une loi normale (µ x = µ y = 125, σ x = σ y = 25, ρ = 0.6) X Y Y X 1 m I MCAR : 73% de NA dans Y au hasard MAR : 73% de NA dans Y quand X < / 38

8 Méthodes d imputation simple Imputation par la moyenne X Y Imputation par régression X Y Imputation par régression aléatoire X Y 7 / 38

9 Méthodes d imputation simple Imputation par la moyenne X Y Imputation par régression X Y Imputation par régression aléatoire X Y Une valeur unique ne reflète pas l incertitute sur la prévision Sous-estimation de la variance des estimateurs calculée à partir du tableau imputé (ˆµ y = , ˆσ y = 24.58, ˆρ = 0.59 mais niveau de confiance pour µ y est de 70.8) 7 / 38

10 Méthodes préconisées Imputation multiple (Rubin, 1987) : générer plusieurs imputations plausibles réaliser l analyse sur chaque tableau de données complété combiner les résultats Maximum de vraisemblance : algorithme EM (Dempster et al., 1977) pour l estimation ponctuelle Objectif : estimer les paramètres ponctuellement et par intervalle en présence de données manquantes avec des variances qui prennent en compte la variabilité supplémentaire due aux données manquantes 8 / 38

11 Plan 1 Introduction 2 Estimation ponctuelle des axes et composantes 3 Zone de confiance 4 Conclusion et perspectives 9 / 38

12 Plan 1 Introduction 2 Estimation ponctuelle cas complet cas incomplet 3 Zone de confiance cas complet cas incomplet : imputation multiple 4 Conclusion 10 / 38

13 Minimiser l erreur de reconstitution Approximation de X par une matrice de rang K < p C = X n p F n K u K p 2 n p K = (x ij F ik u jk ) 2 i=1 j=1 k=1 û axes principaux (normés à 1) ˆF composantes principales (normées à la valeur propre) Diagonalisation de la matrice de variance-covariance ou de produit-scalaire Algorithmes itératifs 11 / 38

14 ACP via NIPALS (Non linear Iterative PArtial Least Squares) Meilleure approximation de rang 1 (Wold, 1966, 1969) C 1 = n i=1 j=1 p (x ij F i1 u j1 ) 2 2 régressions simples i û j1 = (x ij F i1 ) i F i1 2 j ˆF i1 = (x ij u j1 ) j u2 j1 Déflation : une fois (ˆF 1, û 1 ) trouvé, on cherche (ˆF 2, û 2 ) premier axe et première composante de ˆε 1 = X ˆF 1 û 1 12 / 38

15 ACP via la recherche directe du sous-espace Recherche directe du sous-espace de dimension K avec K > 1 C = X n p F n K u K p 2 2 régressions multiples û = X F (F F ) 1 ˆF = Xu(u u) 1 13 / 38

16 Moindres carrés pondérés C = W (X Fu ) 2 = n i=1 j=1 p (w ij x ij K F ik w ij u jk ) 2 k=1 avec W matrice de poids, w ij = 0 si x ij manquant, w ij = 1 sinon Mêmes algorithmes mais on saute les données manquantes NIPALS : 2 régressions simples pondérées (Christofferson, 1969) û j1 = P i (w ij x ij F i1 ) P i w ij Fi1 2 ; ˆF i1 = P j (w ij x ij u j1 ) P j w ij u 2 j1 Recherche directe du sous-espace : 2 régressions multiples pondérées (Gabriel & Zamir, 1979) 14 / 38

17 Moindres carrés pondérés C = W (X Fu ) 2 = n i=1 j=1 p (w ij x ij K F ik w ij u jk ) 2 k=1 avec W matrice de poids, w ij = 0 si x ij manquant, w ij = 1 sinon Mêmes algorithmes mais on saute les données manquantes NIPALS : 2 régressions simples pondérées (Christofferson, 1969) û j1 = pour C P i (w ij x ij F i1 ) P i w ij Fi1 2 ; ˆF i1 = P j (w ij x ij u j1 ) P j w ij u 2 j1 pas optimal Recherche directe du sous-espace : 2 régressions multiples pondérées (Gabriel & Zamir, 1979) 14 / 38

18 ACP itérative Nora-Chouteau en AFC (1974) : estimation/imputation 1 initialisation l = 0 : X 0 2 itération l : (a) (F l, u l ) minimisent X l 1 Fu 2 ; K dimensions retenues (b) ˆX l = ˆF l û l X l = W X + (1 W ) ˆX l 3 les étapes (a) et (b) sont répétées jusqu à convergence Kiers (1997) : ACP itérative minimise W (X Fu ) 2 15 / 38

19 ACP itérative Nora-Chouteau en AFC (1974) : estimation/imputation 1 initialisation l = 0 : X 0 2 itération l : (a) (F l, u l ) minimisent X l 1 Fu 2 ; K dimensions retenues (a ) (F l, u l ) diminuent X l 1 Fu 2 û l = X l 1 ˆF l 1 (ˆF l 1 ˆF l 1 ) 1 ˆF l = X l 1 û l (û l û l ) 1 (b) ˆX l = ˆF l û l X l = W X + (1 W ) ˆX l 3 les étapes (a) et (b) sont répétées jusqu à convergence Kiers (1997) : ACP itérative minimise W (X Fu ) 2 15 / 38

20 ACP itérative = ACP-EM Modèle (Caussinus, 1986) : x ij = K k=1 F iku jk + ε ij, ε ij N (0, σ 2 ) Vraisemblance : L c (F, u, σ 2 ) = np 2 ln(2πσ2 ) 1 2σ 2 X Fu 2 Etape E : E(x ij X obs, ˆF l, û l, ˆσ l ) imputation par ˆF û Etape M : maximise l espérance de L c estimation des paramètres par l ACP du tableau de données complété Etape M : augmente l espérance de L c moindres carrés alternés ACP GEM (Generalized Expectation Maximization) 16 / 38

21 Propriétés Deux algorithmes = deux points de vues 1 ACP-itérative impute 2 Recherche directe saute les données manquantes 17 / 38

22 Propriétés Deux algorithmes = deux points de vues 1 ACP-itérative impute saute les données manquantes (données imputées n ont pas d influence) 2 Recherche directe saute les données manquantes impute implicitement 17 / 38

23 Propriétés Deux algorithmes = deux points de vues 1 ACP-itérative impute saute les données manquantes (données imputées n ont pas d influence) 2 Recherche directe saute les données manquantes impute implicitement Réduction de la variabilité (imputation par ˆF û ) 17 / 38

24 Propriétés Deux algorithmes = deux points de vues 1 ACP-itérative impute saute les données manquantes (données imputées n ont pas d influence) 2 Recherche directe saute les données manquantes impute implicitement Réduction de la variabilité (imputation par ˆF û ) Solutions non emboîtées : choix du nombre d axes (considéré pour l instant connu) Surajustement 17 / 38

25 X 41 6 = F 41 2 u N (0, 0.5); Surajustement ACP sur données complètes Dim 2 (27.91%) Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu Smirnov BOURGUIGNON Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 1 (55.09%) 18 / 38

26 Surajustement X 41 6 = F 41 2 u N (0, 0.5); 50% de NA ACP sur données complètes ACP itérative Dim 2 (27.91%) Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu Smirnov BOURGUIGNON Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 2 (31.9%) BOURGUIGNON Casarsa HERNU Karpov Macey McMULLEN Pogorelov Zsivoczky Lorenzo BERNARD MARTINEAU SEBRLE Terek Turi Barras Karlivans Bernard Hernu Averyanov Ojaniemi Schoenbeck CLAY KARPOV Parkhomenko BARRAS Schwarzl Gomez YURKOV WARNERS Smirnov Smith Clay Sebrle Drews Warners Nool ZSIVOCZKY NOOL Qi Korkizoglou Uldal Dim 1 (55.09%) Dim 1 (63.97%) 18 / 38

27 Surajustement X 41 6 = F 41 2 u N (0, 0.5); 50% de NA ACP sur données complètes ACP itérative Dim 2 (27.91%) Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu Smirnov BOURGUIGNON Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 2 (31.9%) BOURGUIGNON Casarsa HERNU Karpov Macey McMULLEN Pogorelov Zsivoczky Lorenzo BERNARD MARTINEAU SEBRLE Terek Turi Barras Karlivans Bernard Hernu Averyanov Ojaniemi Schoenbeck CLAY KARPOV Parkhomenko BARRAS Schwarzl Gomez YURKOV WARNERS Smirnov Smith Clay Sebrle Drews Warners Nool ZSIVOCZKY NOOL Qi Korkizoglou Uldal Dim 1 (55.09%) Dim 1 (63.97%) ACP EM : W (X ˆX ) = 0.48; (1 W ) (X ˆX ) = / 38

28 Surajustement X 41 6 = F 41 2 u N (0, 0.5); 50% de NA ACP sur données complètes ACP itérative Dim 2 (27.91%) Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu Smirnov BOURGUIGNON Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 2 (31.9%) BOURGUIGNON Casarsa HERNU Karpov Macey McMULLEN Pogorelov Zsivoczky Lorenzo BERNARD MARTINEAU SEBRLE Terek Turi Barras Karlivans Bernard Hernu Averyanov Ojaniemi Schoenbeck CLAY KARPOV Parkhomenko BARRAS Schwarzl Gomez YURKOV WARNERS Smirnov Smith Clay Sebrle Drews Warners Nool ZSIVOCZKY NOOL Qi Korkizoglou Uldal Dim 1 (55.09%) Dim 1 (63.97%) ACP EM : W (X ˆX ) = 0.48; (1 W ) (X ˆX ) = 5.58 Diminuer K 18 / 38

29 Surajustement X 41 6 = F 41 2 u N (0, 0.5); 50% de NA ACP sur données complètes ACP itérative Dim 2 (27.91%) Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu Smirnov BOURGUIGNON Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 2 (31.9%) BOURGUIGNON Casarsa HERNU Karpov Macey McMULLEN Pogorelov Zsivoczky Lorenzo BERNARD MARTINEAU SEBRLE Terek Turi Barras Karlivans Bernard Hernu Averyanov Ojaniemi Schoenbeck CLAY KARPOV Parkhomenko BARRAS Schwarzl Gomez YURKOV WARNERS Smirnov Smith Clay Sebrle Drews Warners Nool ZSIVOCZKY NOOL Qi Korkizoglou Uldal Dim 1 (55.09%) Dim 1 (63.97%) ACP EM : W (X ˆX ) = 0.48; (1 W ) (X ˆX ) = 5.58 Diminuer K Régulariser les deux régressions ACP Probabiliste 18 / 38

30 ACP Probabiliste (Tipping & Bishop, 1999; Roweis, 1998) Modèle d analyse en facteurs communs et spécifiques particulier x i. = Γ p K z i. + ε i., z i. N (0, I K ), ε i. N (0, σ 2 I p ) Distribution des observations : x i. N (0, Σ) avec Σ p p = Γ p K Γ K p + σ2 I p Solution explicite : ˆσ 2 = 1 p K p j=k+1 λ j ˆΓ = uk (Λ K σ 2 I K ) 1/2 19 / 38

31 ACP Probabiliste via l algorithme EM z i. x i. N ((Γ Γ + σ 2 I ) 1 Γ x i., V ) Etape E : Espérance conditionelle Ẑ = (ˆΓ ˆΓ + ˆσ 2 I ) 1ˆΓ X Etape M : Maximise E[L c ] par rapport à Γ et σ 2 ˆΓ = (Ẑ Ẑ + n ˆV ) 1 Ẑ X Régressions ridges Vers un algorithme d ACP-GEM régularisé : estimer Z et Γ imputer par Ẑ ˆΓ 20 / 38

32 ACP itérative régularisée 1 initialisation l = 0 : X 0 2 itération l : (a) (F l, u l ) minimisent X l 1 Fu 2 ; K dimensions retenues K ˆF (b) ˆx ij l ik l = λlk ˆσ2 ˆF k l ûjk l k=1 nouvelle imputation : X l = W X + (1 W ) ˆX l ; λ l k 3 les étapes (a) et (b) sont répétées jusqu à convergence 21 / 38

33 Surajustement X 41 6 = F 41 2 u N (0, 0.5); 50% de NA ACP sur données complètes ACP régularisée Dim 2 (27.91%) Macey Parkhomenko Casarsa Zsivoczky Pogorelov YURKOV Karpov SEBRLE Turi Sebrle MARTINEAU Terek Korkizoglou Clay Schoenbeck BERNARD HERNU Averyanov Ojaniemi Karlivans KARPOV McMULLENBARRAS BernardHernu BOURGUIGNON Smirnov Smith Barras Schwarzl Gomez Warners WARNERS CLAY Qi Uldal NOOL Nool ZSIVOCZKY Lorenzo Drews Dim 2 (30.72%) Sebrle Karpov Macey SEBRLE Uldal Korkizoglou Parkhomenko Karlivans Averyanov Terek Turi McMULLEN Ojaniemi YURKOV BARRAS Barras HERNU KARPOV MARTINEAU Hernu Schoenbeck BERNARD Clay Bernard Smirnov Smith Warners Schwarzl Qi WARNERS Nool Pogorelov Zsivoczky CLAY ZSIVOCZKY Drews Gomez Lorenzo NOOL Casarsa BOURGUIGNON Dim 1 (55.09%) Dim 1 (64.27%) (1 W ) (X ˆX ) = / 38

34 Simulations X = F 21 2 u ε avec ε N (0, σ) Coefficient RV entre configurations (complète / incomplète) nb.na = 0.2 nb.na = 0.4 coeffrv mean ACP-GEM ACP-GEM reg ACP-GEM 3 ACP-GEM reg 3 coeffrv mean ACP-GEM ACP-GEM reg ACP-GEM 3 ACP-GEM reg sigma sigma 23 / 38

35 Plan 1 Introduction 2 Estimation ponctuelle cas complet cas incomplet 3 Zone de confiance cas complet cas incomplet : imputation multiple 4 Conclusion 24 / 38

36 Stabilité en ACP Epreuves de validité en analyse exploratoire Rééchantillonnage des individus (Lebart, 1996) : bootstrap non-paramétrique fluctuations dues à l échantillonnage bootstrap toutes les dimensions zones de confiance autour de la position des variables Zone de confiance quand l ACP est réalisée sur une population d individus? 25 / 38

37 Modèle en ACP x ij = structure + bruit Modèle à effets aléatoires (structurel) : analyse en facteurs, ACP Probabiliste (ACPP) les individus sont interchangeables étude des liaisons entre variables Modèle à effets fixes (fonctionnel) : Caussinus (1986) les individus ont des espérances différentes étude des individus et des variables x ij = K F ik u jk + ε ij, avec ε ij N (0, σ 2 ) k=1 26 / 38

38 Bootstrap des résidus Rééchantillonnage des résidus : bootstrap semi-paramétrique fluctuations dues au bruit bootstrap sur les dernières dimensions : le bruit va partout zones de confiance autour de la position des individus et des variables 27 / 38

39 Bootstrap des résidus 1 ACP sur X ˆF n K et û p K (K dimensions retenues); 2 Données reconstituées ˆX = ˆF û et résidus ˆε = X ˆX ; 3 Procédure bootstrap : répéter B fois les étapes a Bootstrapper les résidus : ε b tirer dans une N (0, ˆσ 2 ) b X b = ˆF û + ε b c ACP sur X b pour obtenir ˆF b et û b B couples (ˆF 1, û 1 ),..., (ˆF B, û B ) 28 / 38

40 Bootstrap des résidus 1 ACP sur X ˆF n K et û p K (K dimensions retenues); 2 Données reconstituées ˆX = ˆF û et résidus ˆε = X ˆX ; Choix de la dimension? 3 Procédure bootstrap : répéter B fois les étapes a Bootstrapper les résidus : ε b tirer dans une N (0, ˆσ 2 ) Sous-estimation des résidus? b X b = ˆF û + ε b c ACP sur X b pour obtenir ˆF b et û b B couples (ˆF 1, û 1 ),..., (ˆF B, û B ) 28 / 38

41 Bootstrap des résidus 1 ACP sur X ˆF n K et û p K (K dimensions retenues); 2 Données reconstituées ˆX = ˆF û et résidus ˆε = X ˆX ; Choix de la dimension? 3 Procédure bootstrap : répéter B fois les étapes a Bootstrapper les résidus : ε b tirer dans une N (0, ˆσ 2 ) Sous-estimation des résidus? b X b = ˆF û + ε b c ACP sur X b pour obtenir ˆF b et û b B couples (ˆF 1, û 1 ),..., (ˆF B, û B ) Visualisation? 28 / 38

42 Incertitude supplémentaire due aux données manquantes Source de variabilité supplémentaire ACP itérative : imputation simple bootstrap des résidus sur le tableau imputé sous-estimerait la variabilité des paramètres Imputation multiple 1 Générer B tableaux de données imputés 2 Réaliser l analyse sur chaque tableau imputé 3 Combiner les résultats : Variance totale Variance intra imputation + Variance inter imputation 29 / 38

43 Incertitude supplémentaire due aux données manquantes Source de variabilité supplémentaire ACP itérative : imputation simple bootstrap des résidus sur le tableau imputé sous-estimerait la variabilité des paramètres Imputation multiple 1 Générer B tableaux de données imputés 2 Réaliser l analyse sur chaque tableau imputé 3 Combiner les résultats : Variance totale Variance intra imputation + Variance inter imputation 29 / 38

44 Idée pour générer B tableaux imputés x ij = K k=1 F iku jk + ε ij, avec ε ij N (0, σ 2 ) ACP itérative sur le tableau de données incomplet (ˆF, û) Première idée pour générer différentes imputations: Pour b = 1,..., B, imputer les valeurs manquantes xij b en tirant dans ) la distribution prédictive N ((ˆF û ) ij, ˆσ 2 Imputation improper (Rubin, 1987) 30 / 38

45 Imputation multiple proper 1 Variance d estimation : obtenir B couples (ˆF û ) 1,..., (ˆF û ) B bootstrap des résidus 2 Bruit : pour b = 1,..., B, imputer les valeurs manquantes x ) ij b en tirant dans la distribution prédictive N ((ˆF û ) b ij, ˆσ2 (ˆFû ) ij (ˆFû ) 1 ij +ε1 ij (ˆFû ) 2 ij +ε2 ij (ˆFû ) 3 ij +ε3 ij (ˆFû ) B ij +εb ij 31 / 38

46 Projection en supplémentaire Instabilité des individus (et des variables) due aux données manquantes (projection en supplémentaire) ACP 32 / 38

47 Projection en supplémentaire Instabilité des individus (et des variables) due aux données manquantes (projection en supplémentaire) ACP Projection en supplémentaire 32 / 38

48 Projection en supplémentaire Instabilité des individus (et des variables) due aux données manquantes (projection en supplémentaire) ACP Projection en supplémentaire 32 / 38

49 Projection en supplémentaire Instabilité des individus (et des variables) due aux données manquantes (projection en supplémentaire) ACP Projection en supplémentaire 32 / 38

50 Projection en supplémentaire Dim 2 (26.58%) % NA T1 T2 3EL PER1 4EL 2BEA 1TUR 2DAM 1POY 1VAU 1BOI 1DAM DOM1 2EL 1ING 1ROC 2ING 2BOU 1CHA 1FON 1BEN Dim 1 (46.63%) Dim 2 (26.58%) Plante Spice Dim 1 (46.63%) Odor.Intensity Phenolic Flower Aroma.persistency Aroma.intensity Fruity Quality.of.odour Aroma.quality im 2 (31.26%) % NA 1VAU T1 1TUR T2 3EL PER1 2BEA 1POY 4EL 2DAM 1BOI DOM1 Dim 2 (31.26%) Plante Spice Phenolic Odor.Intensity Aroma.persistency Quality.of.odour Aroma.intensity Fruity 33 / 38

51 Variance inter-imputation Impact des données manquantes sur la construction des axes et des composantes (ACP sur chaque tableau) ACP 34 / 38

52 Variance inter-imputation Impact des données manquantes sur la construction des axes et des composantes (ACP sur chaque tableau) ACP ACP ACP ACP ACP 34 / 38

53 Variance inter-imputation Impact des données manquantes sur la construction des axes et des composantes (ACP sur chaque tableau) ACP ACP ACP ACP ACP Rotations procrustes 34 / 38

54 Variance inter-imputation Impact des données manquantes sur la construction des axes et des composantes (ACP sur chaque tableau) ACP ACP ACP ACP ACP Rotations procrustes 34 / 38

55 Variance inter-imputation Dim 2 (26.58%) % NA 1VAU 2ING T1 T2 3EL PER1 4EL 2BEA 1TUR 2DAM 1POY 1BOI 1DAM DOM1 2EL 1ING 1ROC 2BOU 1CHA 1BEN 1FON Dim 2 (26.58%) Dim 1 (46.63%) Dim 1 (46.63%) Dim 2 (31.26%) % NA 1VAU 2ING T1 1TUR T2 3EL PER1 2BEA 1POY 4EL 2DAM 1BOI DOM1 1ING 1DAM Dim 2 (31.26%) / 38

56 Plan 1 Introduction 2 Estimation ponctuelle cas complet cas incomplet 3 Zone de confiance cas complet cas incomplet : imputation multiple 4 Conclusion 36 / 38

57 Conclusion Estimation ponctuelle en ACP Imputation multiple en ACP Extension à l ACM Choix de la dimension : procédure de validation croisée et critère de type GCV Création d un package R missmda et de fonctions dans le package FactoMineR 37 / 38

58 Perspectives Evalutation de la méthode d imputation multiple Zone de confiance en ACM Prise en compte des données manquantes pour les tableaux multiples 38 / 38

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION Bruno Saussereau Laboratoire de Mathématiques de Besançon Université de Franche-Comté Travail en commun

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Apprentissage non paramétrique en régression

Apprentissage non paramétrique en régression 1 Apprentissage non paramétrique en régression Apprentissage non paramétrique en régression Résumé Différentes méthodes d estimation non paramétriques en régression sont présentées. Tout d abord les plus

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Température corporelle d un castor (une petite introduction aux séries temporelles)

Température corporelle d un castor (une petite introduction aux séries temporelles) Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

LES MODELES DE SCORE

LES MODELES DE SCORE LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences

Plus en détail

de calibration Master 2: Calibration de modèles: présentation et simulation d

de calibration Master 2: Calibration de modèles: présentation et simulation d Master 2: Calibration de modèles: présentation et simulation de quelques problèmes de calibration Plan de la présentation 1. Présentation de quelques modèles à calibrer 1a. Reconstruction d une courbe

Plus en détail

Lois de probabilité. Anita Burgun

Lois de probabilité. Anita Burgun Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage

Plus en détail

Agrégation des portefeuilles de contrats d assurance vie

Agrégation des portefeuilles de contrats d assurance vie Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

Optimisation des ressources des produits automobile première

Optimisation des ressources des produits automobile première EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos. Master Mathématiques et Applications Spécialité : Ingénierie mathématique et modélisation Parcours : Mathématique et Informatique : Statistique, Signal, Santé (MI3S) 2015-2016 RÉSUMÉ DES COURS : (dernière

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Correction du baccalauréat ES/L Métropole 20 juin 2014

Correction du baccalauréat ES/L Métropole 20 juin 2014 Correction du baccalauréat ES/L Métropole 0 juin 014 Exercice 1 1. c.. c. 3. c. 4. d. 5. a. P A (B)=1 P A (B)=1 0,3=0,7 D après la formule des probabilités totales : P(B)=P(A B)+P(A B)=0,6 0,3+(1 0,6)

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 patrick.devos@univ-lille2.fr Plan Données Générales : Définition des statistiques Principe de l

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Echantillonnage Non uniforme

Echantillonnage Non uniforme Echantillonnage Non uniforme Marie CHABERT IRIT/INP-ENSEEIHT/ ENSEEIHT/TéSASA Patrice MICHEL et Bernard LACAZE TéSA 1 Plan Introduction Echantillonnage uniforme Echantillonnage irrégulier Comparaison Cas

Plus en détail

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011 Non-réponse et données manquantes Sylvie Rousseau & Gilbert Saporta décembre 2011 1 EXEMPLES DE TAUX DE RÉPONSE À CERTAINES ENQUÊTES Pour les enquêtes auprès des entreprises, le taux de non-réponse est

Plus en détail

Loi binomiale Lois normales

Loi binomiale Lois normales Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Exemples d application

Exemples d application AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Chaînes de Markov au lycée

Chaînes de Markov au lycée Journées APMEP Metz Atelier P1-32 du dimanche 28 octobre 2012 Louis-Marie BONNEVAL Chaînes de Markov au lycée Andreï Markov (1856-1922) , série S Problème 1 Bonus et malus en assurance automobile Un contrat

Plus en détail

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Agence fédérale pour la Sécurité de la Chaîne alimentaire Administration des Laboratoires Procédure DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Date de mise en application

Plus en détail

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Formation continue. Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist Formation continue Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist La demande de data scientists est croissante mais peu de formations existent. Ce certificat

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Intérêt du découpage en sous-bandes pour l analyse spectrale

Intérêt du découpage en sous-bandes pour l analyse spectrale Intérêt du découpage en sous-bandes pour l analyse spectrale David BONACCI Institut National Polytechnique de Toulouse (INP) École Nationale Supérieure d Électrotechnique, d Électronique, d Informatique,

Plus en détail

DIOGENE. Un logiciel de Génétique & Amélioration des Plantes

DIOGENE. Un logiciel de Génétique & Amélioration des Plantes DIOGENE Un logiciel de Génétique & Amélioration des Plantes Utilisateurs Etudiants (DEA, thèse) Chercheurs confirmés (INRA, CIRAD, Universités Laval et Lyon 1) Gestionnaires de programmes d Amélioration,

Plus en détail

Le risque Idiosyncrasique

Le risque Idiosyncrasique Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d

Plus en détail

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e

Plus en détail

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire

Plus en détail

Introduction. Préambule. Le contexte

Introduction. Préambule. Le contexte Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans

Plus en détail

Quelques éléments de statistique multidimensionnelle

Quelques éléments de statistique multidimensionnelle ANNEXE 1 Quelques éléments de statistique multidimensionnelle Les méthodes d analyse statistique exploratoire utilisées au cours des chapitres précédents visent à mettre en forme de vastes ensembles de

Plus en détail

ENSPS 3A ISAV Master ISTI AR. J. Gangloff

ENSPS 3A ISAV Master ISTI AR. J. Gangloff Commande prédictive ENSPS 3A ISAV Master ISTI AR J. Gangloff Plan 1.Introduction / Historique 2.Modélisation du système 3.Fonction de coût 4.Équations de prédiction 5.Commande optimale 6.Exemples 7.Réglage

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

Quantification Scalaire et Prédictive

Quantification Scalaire et Prédictive Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction

Plus en détail

Théorie des sondages : cours 5

Théorie des sondages : cours 5 Théorie des sondages : cours 5 Camelia Goga IMB, Université de Bourgogne e-mail : camelia.goga@u-bourgogne.fr Master Besançon-2010 Chapitre 5 : Techniques de redressement 1. poststratification 2. l estimateur

Plus en détail

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Baccalauréat ES/L Amérique du Sud 21 novembre 2013 Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée

Plus en détail

«Cours Statistique et logiciel R»

«Cours Statistique et logiciel R» «Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous

Plus en détail

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée,

Plus en détail

Résolution d équations non linéaires

Résolution d équations non linéaires Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

Validation probabiliste d un Système de Prévision d Ensemble

Validation probabiliste d un Système de Prévision d Ensemble Validation probabiliste d un Système de Prévision d Ensemble Guillem Candille, janvier 2006 Système de Prévision d Ensemble (EPS) (ECMWF Newsletter 90, 2001) Plan 1 Critères de validation probabiliste

Plus en détail

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE BACCALAURÉAT GÉNÉRAL SESSION 2012 MATHÉMATIQUES Série S Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE Les calculatrices électroniques de poche sont autorisées, conformément à la

Plus en détail

MCMC et approximations en champ moyen pour les modèles de Markov

MCMC et approximations en champ moyen pour les modèles de Markov MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article:

Plus en détail

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des modèles de krigeage à la simulation numérique K Ammar, F Bachoc, JM Martinez CEA-Saclay, DEN, DM2S, F-91191 Gif-sur-Yvette, France Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des

Plus en détail

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle CHAPITRE I Modélisation de processus et estimation des paramètres d un modèle I. INTRODUCTION. Dans la première partie de ce chapitre, nous rappelons les notions de processus et de modèle, ainsi que divers

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

Débouchés professionnels

Débouchés professionnels Master Domaine Droit, Economie, Gestion Mention : Monnaie, Banque, Finance, Assurance Spécialité : Risque, Assurance, Décision Année universitaire 2014/2015 DIRECTEUR de la spécialité : Monsieur Kouroche

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

Gestion obligataire passive

Gestion obligataire passive Finance 1 Université d Evry Séance 7 Gestion obligataire passive Philippe Priaulet L efficience des marchés Stratégies passives Qu est-ce qu un bon benchmark? Réplication simple Réplication par échantillonnage

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

4. Résultats et discussion

4. Résultats et discussion 17 4. Résultats et discussion La signification statistique des gains et des pertes bruts annualisés pondérés de superficie forestière et du changement net de superficie forestière a été testée pour les

Plus en détail

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

NOTE SUR LA MODELISATION DU RISQUE D INFLATION NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui

Plus en détail

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Une introduction. Lionel RIOU FRANÇA. Septembre 2008 Une introduction INSERM U669 Septembre 2008 Sommaire 1 Effets Fixes Effets Aléatoires 2 Analyse Classique Effets aléatoires Efficacité homogène Efficacité hétérogène 3 Estimation du modèle Inférence 4

Plus en détail

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061 Value at Risk 27 février & 13 mars 20061 CNAM Gréory Taillard CNAM Master Finance de marché et estion de capitaux 2 Value at Risk Biblioraphie Jorion, Philippe, «Value at Risk: The New Benchmark for Manain

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE P. Baudet, C. Azzaro-Pantel, S. Domenech et L. Pibouleau Laboratoire de Génie Chimique - URA 192 du

Plus en détail

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université

Plus en détail

Santé environnement. Description du budget espace-temps et estimation de l exposition de la population française dans son logement

Santé environnement. Description du budget espace-temps et estimation de l exposition de la population française dans son logement Santé environnement Description du budget espace-temps et estimation de l exposition de la population française dans son logement Sommaire Abréviations 2 1. Introduction 3 2. Données recueillies 4 2.1

Plus en détail

Architecture des Systèmes d Information Architecture des Systèmes d Information

Architecture des Systèmes d Information Architecture des Systèmes d Information Plan... Tableaux et tris I3 - Algorithmique et programmation 1 Rappels Nicol Delestre 2 Tableaux à n dimensions 3 Initiation aux tris Tableaux - v2.0.1 1 / 27 Tableaux - v2.0.1 2 / 27 Rappels : tableau

Plus en détail

(51) Int Cl.: H04L 29/06 (2006.01) G06F 21/55 (2013.01)

(51) Int Cl.: H04L 29/06 (2006.01) G06F 21/55 (2013.01) (19) TEPZZ 8 8 4_A_T (11) EP 2 838 241 A1 (12) DEMANDE DE BREVET EUROPEEN (43) Date de publication: 18.02.1 Bulletin 1/08 (1) Int Cl.: H04L 29/06 (06.01) G06F 21/ (13.01) (21) Numéro de dépôt: 141781.4

Plus en détail

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur Excel Avancé Plan Outils de résolution La valeur cible Le solveur Interactivité dans les feuilles Fonctions de recherche (ex: RechercheV) Utilisation de la barre d outils «Formulaires» Outils de simulation

Plus en détail

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique Denis Brazey & Bruno Portier 2 Société Prynɛl, RD974 290 Corpeau, France denis.brazey@insa-rouen.fr 2 Normandie Université,

Plus en détail