Analyse en Composantes Principales (avec SPAD) Classification Ascendante Hiérarchique

Dimension: px
Commencer à balayer dès la page:

Download "Analyse en Composantes Principales (avec SPAD) Classification Ascendante Hiérarchique"

Transcription

1 Analyse en Composantes Principales (avec SPAD) et Classification Ascendante Hiérarchique Michel Tenenhaus 1

2 Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J.-C.) extrait de l Histoire de l Art de Ernst Gombrich 2

3 Visualiser

4 2. Les objectifs de l analyse en composantes principales Décrire un tableau individusvariables : - Résumer le tableau à l aide d un petit nombre de facteurs - Visualiser le positionnement des individus les uns par rapport aux autres - Visualiser les corrélations entre les variables - Interpréter les facteurs 4

5 Visualisation des données F 2 (i) i 1 X 1 X p F 1 F 2 0 F 1 (i) i x 1i x pi F 1i F 2i n Le plan factoriel Cor(X j,f 2 ) X j 0 Cor(X j,f 1 ) Tableau Facteurs centrés-réduits éd des données résumant les données p Fh 1 u j hjx j (non corrélés entre eux) La carte des variables 5

6 3. Un exemple de positionnement de produits Caractéristiques de 24 modèles de voiture (Source : L argus de l automobile, 2004) Mdèl Modèle Cylindrée Puissance Vitesse Poids Largeur Longueur (cm 3 ) (ch) (km/h) (kg) (mm) (mm) Citroën C2 1.1 Base Smart Fortwo Coupé Mini Nissan Micra Renault Clio 3.0 V Audi A3 1.9 TDI Peugeot HDI Peugeot V6 BVA Mercedes Classe C 270 CDI BMW 530d Jaguar S-Type27V6Bi-Turbo 2.7 Turbo BMW 745i Mercedes Classe S 400 CDI Citroën C3 Pluriel 1.6i BMWZ425i 2.5i Audi TT 1.8T Aston Martin Vanquish Bentley Continental GT Ferrari Enzo Renault Scenic 1.9 dci Volkswagen Touran 1.9 TDI Land Rover Defender Td Land Rover Discovery Td Nissan X-Trail 2.2 dci

7 Puissance Graphiques en étoile des voitures Longueur Cylindrée Citroën C2 1.1 Smart Fortwo Mini Largeur Vitesse Nissan Micra 1.2 Renault Clio 3.0 V6 Audi A3 1.9 TDI Poids Peugeot HDI 70 Peugeot V6 Mercedes Classe C 270 BMW 530d Jaguar S-Type 2.7 V6 BMW 745i Mercedes Classe S 400 Citroën C3 Pluriel BMW Z4 2.5i Audi TT 1.8T 180 Aston Martin Vanquish Bentley Continental GT Ferrari Enzo Renault Scenic 1.9 dci Volkswagen Touran 1.9 TDI 7 Land Rover Defender Land Rover Discovery Nissan X-Trail 2.2 dci

8 4. Résumé é des données Descriptive Statistics Cylindrée Puissance Vitesse Poids Largeur Longueur N Minimum Maximum Mean Std. Deviation Formule utilisée pour l écart-type : n 1 2 ( i ) 1 i 1 8 s x x n

9 Tableau des corrélations Cylindrée Puissance Vitesse Poids Largeur Longueur Cylindrée Puissance Vitesse Poids Largeur Longueur Toutes les corrélations sont positives. Toutes les corrélations sont significatives au risque 5% ( R 2/ n ) 9

10 5. Le nuage de points associé aux données 1 X 1 X p X p i x 1i x pi x i g n SMART 0 FERRARI X 2 x1... x p g X 1 N={x 1,, x i,, x n } = Nuage de points associé aux données 1 = n Centre de gravité du nuage N : g x i n i1 10

11 6. Inertie totale du nuage de points 1 X 1 X p X p i x 1i x pi x i g n SMART 0 FERRARI X 2 x1... x p g X 1 1 n 2 Inertie totale = I(N, g) = d (x i,g) n i1 1 1 n n p p n p ( xji xj ) ( xji xj ) j i1 j1 j1 n i1 j1 11

12 7. Réduction des données Pour neutraliser le problème des unités on remplace les données d origine par les données centrées-réduites : X X X x X x p p p p de moyenne 0 et d écart-type 1. 12

13 Les données centrées-réduites (SPAD) Total Mean Std. Deviation Case Summaries MODÈLE Zscore: Cylindrée Zscore: Puissance Zscore: Vitesse Zscore: Poids Zscore: Largeur Zscore: Longueur Citroën C2 1.1 Base Smart Fortwo Coupé Mini Nissan Micra Renault Clio 3.0 V Audi A3 1.9 TDI Peugeot HDI Peugeot V6 BVA Mercedes Classe C 270 CDI BMW 530d Jaguar S-Type 2.7 V6 Bi-Turbo BMW 745i Mercedes Classe S 400 CDI Citroën C3 Pluriel 1.6i BMW Z4 2.5i Audi TT 1.8T Aston Martin Vanquish Bentley Continental GT Ferrari Enzo Renault Scenic 1.9 dci Volkswagen Touran 1.9 TDI Land Rover Defender Td Land Rover Discovery Td Nissan X-Trail 2.2 dci Outlier si valeur > 2

14 8. Le nuage de points associé aux données réduites X 1 1 X p X p i x 1i x pi n x pi X i Moyenne X 1 SMART FERRARI X Variance N = {x 1,, x i,, x n } Centre de gravité : g = 0, Inertie totale : I(N, 0) = p 14

15 9. Premier axe principal 1 1 x X i u p 1 0 y i X 2 X 1 Objectif 1 : On cherche l axe 1 passant le mieux possible au milieu du nuage N. On cherche à minimiser l inertie du nuage N par rapport à l axe 1 : I(N 1 n 2, 1 ) d (x i, y i ) n i1 15

16 Premier axe principal 1 1 x X i p 0 y i X 2 X 1 Objectif 2 : On cherche l axe d allongement 1 du nuage N. On cherche à maximiser l inertie du nuage N projeté sur l axe 1 : I( n 2 1 d (y i, 0 ) n i1 1 y,..., y n, 0) 16

17 Les objectifs 1 et 2 sont atteints simultanément X p x i y i 0 1 X 2 X 1 De : on déduit : d 2 (x i,0) d 2 (y i,0) d 2 (x i, y i ) 1 n 1 n n n 2 2 d (xi,0) d (yi,0) i1 n i1 n i1 1 d 2 (x i, y i ) Inertie totale = p = Inertie expliquée par 1 + Inertie résiduelle Maximiser Minimiser 17

18 Résultats t L axe 1 passe par le centre de gravité 0 du nuage de points N. L axe 1 est engendré par le vecteur normé u 1, vecteur propre de la matrice des corrélations R associé à la plus grande valeur propre 1. L inertie expliquée par l axe 1 est égal à 1. La part d inertie expliquée par le premier axe principal 1 est égal à 1 /p. 18

19 Résultat SPAD Tableau des valeurs propres Numéro Valeur Pourcentage Pourcentage propre cumulé

20 Résultat SPAD Les vecteurs propres Libellé de la variable Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 Axe 6 Cylindrée Puissance Vitesse Poids Largeur Longueur Normalisation : = 1 20

21 10. Première composante principale Y 1 X p x i 1 X 1 Smart u 1 0 Y 1 (1) = y i Y 1 (i) X 2 Y 1 est une nouvelle variable définie pour chaque individu i par : Y 1 (i) = longueur algébrique du segment 0y i = coordonnée de y i sur l axe 1 = produit scalaire entre les vecteurs x i et u 1 p = j1 u p 1jx ji Y 1 = j1 u 1 X j j 21

22 Résultats SPAD Carré de la Identificateur Distance à l'origine Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 Axe 6 Citroën C Smart Fortwo Mini Nissan Micra Renault Clio 3.0 V Audi A3 1.9 TDI Peugeot HDI Peugeot V Mercedes Classe C BMW 530d Jaguar S-Type 2.7 V BMW 745i Mercedes Classe S Citroën C3 Pluriel 1.6i BMWZ425i 2.5i Audi TT 1.8T Aston Martin Vanquish Bentley Continental GT Ferrari Enzo Renault Scenic 1.9 dci Volkswagen Touran 1.9 TDI Land Rover Defender Land Rover Discovery Nissan X-Trail 2.2 dci DISTO = d 2 (x i, 0) 22

23 Corrélations entre les variables et les composantes principales Corrélations des variables actives avec les facteurs Libellé de la variable Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 Axe 6 Cylindrée Puissance Vitesse Poids Largeur Longueur Dans SPSS : Component Matrix 23

24 Propriétés de la première composante principale i Y 1 Y 1 = u 11 X 1 + u 12 X u 1p X p Moyenne de Y 1 = 0 Variance de Y 1 = Inertie expliquée par 1 = 1 Cor(X j, Y 1 ) = 1 u 1j 1 p p j1 cor 2 (X j, Y ) 1 p 1 est maximum 24

25 Qualité de la première composante principale Inertie totale = 6 Inertie expliquée par le premier axe principal p = = Part d inertie expliquée par le premier axe principal i : p La première composante principale explique 73,5% de la variance totale. 25

26 11. Deuxième axe principal 2 2 x i Y 2 (i) a i 0 Y 1 (i) 1 26

27 Résultats t On recherche le deuxième axe principal 2 orthogonal à 1 et passant le mieux possible au milieu du nuage. Il passe par le centre de gravité 0 du nuage de points et est engendré par le vecteur normé u 2, vecteur propre de la matrice des corrélations R associé à la deuxième plus grande valeur propre 2. La deuxième composante principale Y 2 est définie par projection des points sur le deuxième axe principal. La deuxième composante principale Y 2 est centrée, de variance 2, et non corrélée à la première composante principale Y 1. 27

28 Exemple Auto 2004 : Le premier plan factoriel 3 Familiales (14,2%) 2 Land Rover Discovery Petites Voitures Nissan X-Trail 2.2 d Jaguar S-Type 2.7 V6 Volkswagen Touran Land Rover Defender Peugeot V6 Mercedes Classe S Renault Scenic 1.9 d Mercedes Classe C BMW 745i Peugeot HDI BMW 530d Bentley Continental Grosses Audi A3 1.9 TDI Citroën C3 Pluriel Voitures Nissan Micra 1.2 Audi TT 1.8T 180 Aston Martin Vanquish (73,5%) Citroën C2 1.1 BMW Z4 2.5i Mini Renault Clio 3.0 V6 Facteu ur 2-2 Smart Fortwo Coupé -3 Le plan explique 87,7% de la variance totale -2 Facteur Sportives 1 Ferrari Enzo

29 La carte des variables 1.0 poids.5 longueur Compon nent 2 [Co or(x j, F 2 )] 0.0 largeur cylindrée -.5 Vitesse Puissance Component 1 [Cor(X 1, F 1 )] Longueur d une flèche = R(X j ; F 1, F 2 ) 29

30 Qualité globale de l analyse Inertie totale = variance totale = p Part de variance expliquée par la première composante principale = Part de variance expliquée par la deuxième composante principale = 1 p 2 Part de variance expliquée par les deux premières composantes principales i = p p 1 2 Et ainsi de suite pour les autres dimensions... 30

31 12. Le biplot Les échelles doivent être identiques sur les deux axes. Le cercle des variables doit être un cercle. 31

32 Interprétation du biplot La répartition des projections des individus i sur l axe variable X j reflète les valeurs x ij Les coordonnées des individus i sont les valeurs des composantes principales : [Y 1 (i), Y 2 (i)]. Les coordonnées des variables X j sont les vecteurs propres multipliés par une certaine constante, par exemple 2 : (2u 1j, 2u 2j ). 32

33 Justification : la formule de reconstitution u 2 Y 2 (i) 0 x i a i Y 1 (i) u 1 De on déduit x i a i = Y 1 (i)u 1 + Y 2 (i)u 2 1 x ij Y 1 1( (i)u 1j + Y 2 (i)u () 2j = Y2 () i u2 Y () 1 i u j, ix, j j = u u Coordonnée de la projection de l individu i sur l axe variable X j j j 2 2 1j 2 j 33

34 Justification de la lecture du bi-plot Axe 2 y 2i i u 2j X j A ij 0 y 1i u 1j Axe 1 0 A i, X / u u ij 2 2 j 1 j 2 j ( yu yu )/ u u x / u u i 1j 2i 2 j 1j 2 j ij 1j 2 j 34

35 13. Exemple des races canines Race Taille Poids Vitesse Intell. Affect. Agress. Fonction 1 Beauceron TA++ PO+ V++ INT+ AF+ AG+ Utilité Basset Berger-Allemand Boxer Bull-Dog TA- TA++ TA+ TA- PO- PO+ PO+ PO- V- V++ V+ V- INT- INT++ INT+ INT+ AF- AF+ AF+ AF+ AG+ AG+ AG+ AG- Chasse Utilité Compagnie Compagnie g Bull-Mastiff Caniche Chihuahua Cocker TA++ TA- TA- TA+ PO++ PO- PO- PO- V- V+ V- V- INT++ INT++ INT- INT+ AF- AF+ AF+ AF+ AG+ AG- AG- AG+ pg Utilité Compagnie Compagnie Compagnie Colley Dalmatien Doberman Dogue Allemand TA++ TA+ TA++ TA++ PO+ PO+ PO+ PO++ V++ V+ V++ V++ INT+ INT+ INT++ INT- AF+ AF+ AF- AF- AG- AG- AG+ AG+ pg Compagnie Compagnie Utilité Utilité Dogue Allemand Epagneul Breton Epagneul Français Fox-Hound Fox-Terrier TA++ TA+ TA++ TA++ TA- PO++ PO+ PO+ PO+ PO- V++ V+ V+ V++ V+ INT INT++ INT+ INT- INT+ AF AF+ AF- AF- AF+ AG+ AG- AG- AG+ AG+ Utilité Chasse Chasse Chasse Compagnie Fox-Terrier Grd Bleu de Gascogne Labrador Lévrier Mastiff TA- TA++ TA+ TA++ TA++ PO- PO+ PO+ PO+ PO++ V+ V+ V+ V++ V INT+ INT- INT+ INT- INT AF+ AF- AF+ AF- AF AG+ AG+ AG- AG- AG+ Compagnie Chasse Chasse Chasse Utilité Mastiff Pékinois Pointer Saint-Bernard Setter TA++ TA- TA++ TA++ TA++ PO++ PO- PO+ PO++ PO+ V- V- V++ V- V++ INT- INT- INT++ INT+ INT+ AF- AF+ AF- AF- AF AG+ AG- AG- AG+ AG Utilité Compagnie Chasse Utilité Chasse Setter Teckel Terre-Neuve TA++ TA- TA++ PO+ PO- PO++ V++ V- V- INT+ INT+ INT+ AF- AF+ AF- AG- AG- AG- Chasse Compagnie Utilité

36 Le tableau disjonctif complet Race T- T+ T++ P- P+ P++ V- V+ V++ I- I+ I++ Af- Af+ Ag- Ag+ Compagnie Chasse Utilité Beauceron Basset Berger all Boxer Bull-dog Bull Mastiff Caniche Chihuahua Cocker Colley Dalmatien Doberman Dogue all Epagneul br Epagneul pg fr Fox-Hound Fox-Terrier Grd Bl de G Labrador Lévrier Mastiff Pékinois Pointer St-Bernard Setter Teckel Terre neuve x ijl = 1 si il individu id i possède la modalité liél de la variable j = 0 sinon 36

37 ACP du tableau disjonctif complet 37

38 Total Mean Std. Deviation 14. Utilisation de SPSS Les données centrées-réduites réduites (SPSS) Case Summaries MODÈLE Zscore: Cylindrée Zscore: Puissance Zscore: Vitesse Zscore: Poids Zscore: Largeur Zscore: Longueur Citroën C2 1.1 Base Smart Fortwo Coupé Mini Nissan Micra Renault Clio 3.0 V Audi A3 1.9 TDI Peugeot HDI Peugeot V6 BVA Mercedes Classe C 270 CDI BMW 530d Jaguar S-Type 2.7 V6 Bi-Turbo BMW 745i Mercedes Classe S 400 CDI Citroën C3 Pluriel 1.6i BMW Z4 2.5i Audi TT 1.8T Aston Martin Vanquish Bentley Continental GT Ferrari Enzo Renault Scenic 1.9 dci Volkswagen Touran 1.9 TDI Land Rover Defender Td Land Rover Discovery Td Nissan X-Trail 2.2 dci Outlier si valeur > 2

39 Résultats SPSS : Les facteurs MODÈLE Facteur 1 Facteur 2 Facteur 3 Facteur 4 Facteur 5 Facteur 6 1 Citroën C2 1.1 Base Smart Fortwo Coupé Mini Nissan Micra Renault Clio 3.0 V Audi A3 1.9 TDI Peugeot HDI Peugeot V6 BVA Mercedes Classe C 270 CDI BMW 530d Jaguar S-Type 2.7 V6 Bi-Turbo BMW 745i Mercedes Classe S 400 CDI Citroën C3 Pluriel 1.6i BMW Z4 2.5i Audi TT 1.8T Aston Martin Vanquish Bentley Continental GT Ferrari Enzo Renault Scenic 1.9 dci Volkswagen Touran 19TDI Land Rover Defender Td Land Rover Discovery Td Nissan X-Trail 2.2 dci Total Mean Std. Deviation

40 Propriétés é des facteurs de SPSS Lien entre les composantes principales et les facteurs de SPSS Les facteurs de SPSS sont les composantes principales p réduites. F h 1 n Y n1 h h Calcul des facteurs de SPSS en fonction des variables (X j ) SPSS p h hj j SPSS j1 F w (X ) w h 1 h u h Cylindrée Puissance Vitesse Poids Largeur Longueur Tableau des w h Component Score Coefficient Matrix Component Extraction Method: Principal Component Analysis. Component Scores. 40

41 15. Construction ti d une typologie des individus id Rechercher des groupes d individus homogènes dans la population : - Deux individus appartenant au même groupe sont proches. - Deux individus appartenant à des groupes différents sont éloignés. Construire une partition de la population en groupes homogènes et différents les uns des autres. On réalise la typologie au choix (1) sur les données centrées-réduites, (2) sur les premières composantes principales (SPAD), (3) sur les premières composantes principales réduites (les facteurs de SPSS). 41

42 Construction ti d une typologie des individus idiid o o o o o o o o o + o o + o o o o o o o o o o Fabrication de groupes à partir de données uniformément réparties Données structurées en trois groupes 42

43 Dendrogramme groups g p Choosing the cutting level l x x x Definition of the clusters 43

44 Dendrogramme indice (1) (3) (4) (2) (5) Individu d origine 44

45 Classification ascendante hiérarchique (Méthode de Ward) X 1 X p g 2 g 1 X 2 g 3 X Distance de Ward : D(G i, G j ) = nn i j 2 d(g,g) i j (n n ) i j n i = effectif de la classe G i 45

46 Tableau des distances entre les voitures Proximity Matrix Case 1:Citroën C2 1.1 Base 2S 2:Smart tfortwo Coupé 3:Mini :Nissan Micra :Land Rover Discovery 24:Nissan X-Trail 2.2 d This is a dissimilarity matrix Squared Euclidean Distance 23:Land 1:Citroën C2 2:Smart 4:Nissan Rover 24:Nissan 1.1 Base Fortwo Coupé 3:Mini Micra Discovery X-Trail 2.2 d p 2 2 k l jk jl j d(x,x) (x x) D (Citroën C2, 1 1 Nissan Micra) = Ward (11)

47 Classification i Ascendante Hiérarchique Étape initiale iti Chaque individu forme une classe. On regroupe les deux individus les plus proches. Étape courante A chaque étape, on regroupe les deux classes G i et G j minimisant le critère de Ward D(G i, G j ). 47

48 H I E R A R C H I C A L C L U S T E R A N A L Y S I S Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E Label Num Citroën C2 1.1 Base 1 Nissan Micra Peugeot HDI 7 Citroën C3 Pluriel 1 14 BMW Z4 2.5i 15 Audi TT 1.8T Renault Clio 3.0 V6 5 Mini i Volkswagen Touran Nissan X-Trail 2.2 d 24 Audi A3 1.9 TDI 6 Renault Scenic 1.9 d 20 Land Rover Defender 22 Smart Fortwo Coupé 2 Peugeot V6 B BMW 530d 10 Jaguar S-Type 2.7 V6 11 Mercedes Classe C 27 9 BMW 745i 12 Mercedes Classe S Land Rover Discovery Aston Martin Vanquis 17 Bentley Continental 18 Ferrari Enzo 19 48

49 Construction de la classification hiérarchique sur les données centrées-réduites par SPSS Numéro Ainé Benjamin Nb d'éléments terminaux du noeud Distance de Ward Somme des indices de niveau

50 Interprétation de la typologie G45 (14) D(G 2,G 42 ) = Toute la population (G47) D(G 45,G 46 ) = G46 (10) D(G 43,G 44 ) = G2 (1) G42 (13) G43 (7) G44 (3) D(G 23,G 40 ) = D(G 2,G 42 ) = G23 (1) G40 (6) G19 (1) G38 (2) 50

51 Décomposition de la somme des carrés totale X 1 X p g 2 g 1 g g 3 X 2 n K K i k k i k i1 k1 k1 ig k d (x,g) n d (g,g) d (x,g ) Somme des carrés Somme des carrés Somme des carrés 51 totale = (n-1)p = interclasses + intraclasses

52 Coefficient : Somme des carrés intra-classes de la typologie en K classes Distance de Ward(1,4) Stage Agglomeration Schedule Résultats SPSS : Somme des carrés intra-classes Stage Cluster First Qualité de la typologie Cluster Combined Appears Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage en K classes : (138 - Coeff[n-K])/ Qualité de la typologie en 2 classes : ( )/138 = Somme des carrés intra-classes pour la typologie en K=2 classes 22 Somme des carrés 23 totale = p(n-1) Groupe contenant 1 52

53 Qualité des typologies Nombre de classes Somme des carrés intraclasses Somme des carrés interclasses % de Somme des carrés expliquée Distance de Ward distance de Ward entre les groupes fusionnés = (S.C. Intra) = (S.C. Inter) 53

54 Qualité de la typologie en K classes La somme des carrés expliquée par la typologie en K classes est égale à la somme des carrés interclasses de la typologie en K classes. La qualité de la typologie est mesurée par la proportion de la somme des carrés totale expliquée par la typologie. 54

55 Choix du nombre de groupes La typologie en 5 groupes explique 81,27 % de la S.C. totale Rescaled Distance Cluster Combine C A S E Label Num Citroën C2 1.1 Base 1 Nissan Micra Peugeot HDI 7 Citroën C3 Pluriel 1 14 BMW Z4 2.5i 15 Audi TT 1.8T Renault Clio 3.0 V6 5 G42 Mini Volkswagen Touran Nissan X-Trail 2.2 d 24 Audi A3 1.9 TDI 6 Renault Scenic 1.9 d 20 Land Rover Defender 22 Smart Fortwo Coupé 2 G2 Peugeot V6 B 8 BMW 530d 10 Jaguar S-Type 2.7 V6 11 Mercedes Classe C 27 9 G43 BMW 745i 12 Mercedes Classe S Land Rover Discovery 23 Aston Martin Vanquis 17 G44 Bentley Continental 18 Ferrari Enzo 19 G19 55

56 Premier plan factoriel et typologie 3 2 Land Rover Discovery Jaguar S-Type 2.7 V6 1 Nissan X-Trail 2.2 d Mercedes Classe S VW Touran Peugeot V6 BMW 745i Land Rover Defender Renault Scenic BMW 530d Mercedes Classe C Peugeot 307 Audi A Citroën C3-1 Nissan Micra Audi TT 1.8T Citroën C2 BMW Z4 2.5i Mini Renault Clio 3.0 V6 Bentley Continental Aston Martin Vanquish Facte eur Smart Fortwo Coupé Ferrari Enzo Facteur 1 56

57 Interprétation des classes Report Ward Method Cylindrée Puissance Vitesse Poids Largeur Longueur 1 Mean N Mean N Mean N Mean N Mean N Total Mean N

58 16. C.A.H. des variables Les données de Kendall 48 candidats à un certain poste sont évalués sur 15 variables : (1) Form of letter of application i (9) Experience (2) Appearance (10) Drive (3) Academic ability (11) Ambition (4) Likeability (12) Grasp (5) Self-confidence (13) Potential (6) Lucidity (14) Keeness to join (7) Honesty (15) Suitability (8) Salesmanship 58

59 1 2 3 Case Summaries X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X

60 Tableau des corrélations Correlation Matrix Correlation X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X X X X X X X X X X X X X X X One of the questions of interest here is how the variables cluster, in the sense that some of the qualities may be correlated or confused in the judge s mind. (There was no purpose in clustering the candidates - only one was to be chosen). 60

61 Classification Ascendante Hiérarchique des variables Méthode des plus proches voisins A chaque étape, on fusionne les deux groupes G i et G j maximisant : Max Cor( X, X ) X G, X G a i b j On fusionne G2 et G3. a b G1 o o o o o G G3 61

62 Classification Ascendante Hiérarchique des variables H I E R A R C H I C A L C L U S T E R A N A L Y S I S Dendrogram using Single Linkage (VOISINS LES PLUS PROCHES) Rescaled Distance Cluster Combine C A S E Label Num X6 6 X12 12 X13 13 X8 8 X11 11 X5 5 X10 10 X9 9 X15 15 X4 4 X14 14 X7 7 X1 1 X2 2 X3 3 62

63 Classification Ascendante Hiérarchique des variables Méthode des voisins les plus éloignés A chaque étape, on fusionne les deux groupes G i et G j maximisant : Min Cor( X, X ) X G, X G a i b j On fusionne G1 et G2. a b G1 o o o o o G G3 63

64 Classification Ascendante Hiérarchique des variables H I E R A R C H I C A L C L U S T E R A N A L Y S I S Dendrogram using Complete Linkage (VOISINS LES PLUS ELOIGNES) Rescaled Distance Cluster Combine C A S E Label Num X6 6 X12 12 X8 8 X11 11 X5 5 X10 10 X13 13 X2 2 X4 4 X14 14 X7 7 X9 9 X15 15 X1 1 X3 3 64

65 Bloc 1 Correlation Matrix Correlation X2 X5 X6 X8 X10 X11 X12 X13 X X X X X X X X Les corrélations sont toutes positives. 65

66 Bloc 2 Correlation Matrix X4 X7 X14 Correlation X4 X7 X Bloc 3 Correlation Matrix X1 X9 X15 Correlation X1 X9 X

67 Interprétation des blocs Bloc 1 : Qualités humaines favorables au poste Appearance, Self-confidence, Lucidity, Salesmanship, Drive, Ambition, Grasp, Potential Bloc 2 : Qualités de franchise et de communication Likeability, Honesty, Keenness to join Bloc 3 : Expérience Form of letter of application, Experience, Suitability Bloc 4 : Diplôme Academic ability 67

Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J. C.) extrait de l Histoire de l Art de Ernst Gombrich

Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J. C.) extrait de l Histoire de l Art de Ernst Gombrich 1 Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J. C.) extrait de l Histoire de l Art de Ernst Gombrich 2 1. Enquête FT sur les MBA 2001 100 MBA 12 caractéristiques de l école : Women Faculty,

Plus en détail

An Example on Product Positioning

An Example on Product Positioning Cluster Analysis An Example on Product Positioning Caractéristiques de 24 modèles de voiture (Source : L argus de l automobile, 2004) Modèle Cylindrée Puissance Vitesse Poids Largeur Longueur (cm 3 ) (ch)

Plus en détail

Cours 7 ANALYSE EN COMPOSANTES PRINCIPALES (ACP) Master 2 2005/2006

Cours 7 ANALYSE EN COMPOSANTES PRINCIPALES (ACP) Master 2 2005/2006 Cours 7 ANALYSE EN COMPOSANTES PRINCIPALES (ACP) Master 2 2005/2006 . Les données NOMS PUISS CYLI Co uple Ma xi LONG LARG H AUT COFFRE RESE POIDS VITE CONS ALF 47,9 JTD Distinctive 5 90 28 4,7,73,44 280

Plus en détail

CLASSIFICATION. ESIEA 5 ème année

CLASSIFICATION. ESIEA 5 ème année CLASSIFICATION ESIEA 5 ème année 2009/200 Les données Modèle Cylindrée Puissance Vitesse Poids Longueur Largeur Honda Civic 396 90 74 850 369 66 Renault 9 72 92 80 965 45 69 Fiat Tipo 580 83 70 970 395

Plus en détail

Analyse Factorielle des

Analyse Factorielle des Analyse Factorielle des Correspondances multiples et Classification Ascendante Hiérarchique Michel Tenenhaus 1 1. Les données Race Taille Poids Vitesse Intell. Affect. Agress. Fonction 1 Beauceron TA++

Plus en détail

Didacticiel - Études de cas. Mettre en œuvre l analyse des correspondances multiples (ACM) avec TANAGRA.

Didacticiel - Études de cas. Mettre en œuvre l analyse des correspondances multiples (ACM) avec TANAGRA. Objectif Mettre en œuvre l analyse des correspondances multiples (ACM) avec TANAGRA. L analyse des correspondances multiples (ou analyse factorielle des correspondances multiples AFCM) est une technique

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

ACP Voitures 1- Méthode

ACP Voitures 1- Méthode acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788

Plus en détail

UE de cinquième année : MAT 5201 - Data Mining Enseignant Responsable : F. Bertrand

UE de cinquième année : MAT 5201 - Data Mining Enseignant Responsable : F. Bertrand E.S.I.E.A Paris Aée scolaire 00/0 UE de ciquième aée : MAT 50 - Data Miig Eseigat Resposable : F. Bertrad Chaque répose devra être justifiée précisémet. E aexe sot doés le joural et la sortie d u traitemet

Plus en détail

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h I.U.T de Caen STID 2ème année Département STID Année Universitaire 2002-2003 Responsable de cours : Alain LUCAS Seule la calculatrice type collège est autorisée. Seul le cours est autorisé. On rappelera

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Il y a 24 individus en ligne (les modèles de voitures) et 6 variables en colonnes (paramètres mécaniques). Valeurs propres

Il y a 24 individus en ligne (les modèles de voitures) et 6 variables en colonnes (paramètres mécaniques). Valeurs propres VOITURE: On étudie 6 différents paramètres mécaniques (les variables), exprimées dans des unités différentes, de 24 modèles de voitures (les individus). Modèle Cylindre Puissance Vitesse Poids Longueur

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

TD2 Gestion de la relation clientèle

TD2 Gestion de la relation clientèle TD2 Gestion de la relation clientèle Prof. Christophe Sempels Contexte Année 1980 27 modèles de voitures analysés Caractéristiques spécifiées : CV, prix, cylindrée, puissance, vitesse, longueur, prime

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité Introduction à l analyse des données Analyse des Données () Le but de l analyse de données est de synthétiser, structurer l information contenue dans des données multidimensionnelles Deux groupes de méthodes

Plus en détail

Introduction à l analyse des données. Olivier Godechot

Introduction à l analyse des données. Olivier Godechot Introduction à l analyse des données Olivier Godechot Introduction. Les données statistiques : de très nombreuses variables. Aucune n est parfaite La perception d un phénomène appréhendée comme la combinaison

Plus en détail

Classification. Pr Roch Giorgi. roch.giorgi@univ-amu.fr

Classification. Pr Roch Giorgi. roch.giorgi@univ-amu.fr Classification Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr Objectif Rechercher

Plus en détail

HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES

HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES 105 HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES 1. Introduction En statistiques il arrive fréquemment que les individus soient décrits par un grand nombre de caractères. : voitures décrites par leur

Plus en détail

ESIEA PARIS 2010-2011

ESIEA PARIS 2010-2011 ESIEA PARIS 00-0 Exame MAT 50 DATA MINING Vedredi 6 Novembre 00 Première Partie : 5 miutes Eseigat resposable : Frédéric Bertrad Remarque importat : les questios de ce questioaire sot posées das le cotexte

Plus en détail

Analyse discriminante

Analyse discriminante Analyse discriminante Christine Decaestecker & Marco Saerens ULB & UCL LINF2275 1 Analyse Discriminante Particularités: 2 formes/utilisations complémentaires: méthode factorielle: description "géométrique"

Plus en détail

GUIDE DU DATA MINER. Classification - Typologies. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Classification - Typologies. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Classification - Typologies Data Management, Data Mining, Text Mining 1 Guide du Data Miner Classification - Typologies Le logiciel décrit dans le manuel est diffusé dans le cadre d

Plus en détail

Séance 2: Modèle Euclidien

Séance 2: Modèle Euclidien Généralités Métrique sur les INDIVIDUS Métrique sur les VARIABLES Inertie Analyse des individus Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Généralités Métrique

Plus en détail

Tarifs en vigueur pour l année 2014

Tarifs en vigueur pour l année 2014 Tarifs en vigueur pour l année 2014 Alfa, Fiat, Lancia 1.3 jtd M-JET 75 CV 100 CV 145 Nm 200 Nm 1.3 jtd M-JET 90 CV 115 CV 200 Nm 240 Nm 1.3 jtd M-JET 95 CV 120 CV 200 Nm 250 Nm 349.- 1.4 Turbo 500 Abarth

Plus en détail

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac La classification 2012-2013 Fabien Chevalier Jérôme Le Bellac Introduction : Classification : méthode d analyse de données Objectif : Obtenir une représentation schématique simple d'un tableau de données

Plus en détail

EXEMPLE D ANALYSE DES CORRESPONDANCES MULTIPLES COMPARAISON DE RACES DE CHIENS

EXEMPLE D ANALYSE DES CORRESPONDANCES MULTIPLES COMPARAISON DE RACES DE CHIENS EXEMPLE D ANALYSE DES CORRESPONDANCES MULTIPLES COMPARAISON DE RACES DE CHIENS On a réalisé une analyse des correspondances multiples en utilisant comme variables actives les six premières variables du

Plus en détail

Cours de Statistiques

Cours de Statistiques Cours de Statistiques Romain Raveaux 1 1 Laboratoire L3I Université de La Rochelle romain.raveaux01 at univ-lr.fr Octobre 24-11, 2008 1 / 35 Sommaire 1 Quelques Rappels 2 numériques Relations entre deux

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET

ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET EXEMPLE D APPLICATION Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus, 35042 Rennes cedex email : pages@agrorennes.educagri.fr Résumé

Plus en détail

Cours 2-3 Analyse des données multivariées

Cours 2-3 Analyse des données multivariées Cours 2-3 des données s Ismaël Castillo École des Ponts, 13 Novembre 2012 Plan 1 2 3 4 1. On s intéresse à un jeu de données multi-dimensionel, avec n individus observés et p variables d intérêt ( variables

Plus en détail

L'analyse en composantes principales (A.C.P.)

L'analyse en composantes principales (A.C.P.) Montpellier L'analyse des données multivariées à l'aide du logiciel L'analyse en composantes principales (A.C.P.) INRA - Formation Permanente Juillet 2005 André Bouchier p.1/23 Copyright 2005 André Bouchier

Plus en détail

Analyses statistiques multivariées. Béatrice de Tilière

Analyses statistiques multivariées. Béatrice de Tilière Analyses statistiques multivariées Béatrice de Tilière 23 novembre 2009 ii Table des matières 1 La Statistique 1 1.1 Généralités.................................. 1 1.2 Un peu de vocabulaire............................

Plus en détail

Session 1 durée 3 heures

Session 1 durée 3 heures Université de Nantes Mai 27 Master MIM Examen d'analyse de données Session durée 3 heures Les documents sont interdits. Les calculatrices sont autorisées. Exercice : - Etude d un tableau à l aide d une

Plus en détail

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES 2011 2012 ANALYSE DE DONNEES 2011 2012 LICENCE 3 SCIENCES ECONOMIQUES COURS DE M. THIERRY BLAYAC Analyse de données [Tapez le sous-titre du document] ANALYSE DE DONNEES Page 1 H34VEN Cours pour Licence

Plus en détail

Analyse multidimensionnelle de données longitudinales

Analyse multidimensionnelle de données longitudinales Analyse multidimensionnelle de données longitudinales Ndèye Niang Conservatoire National des Arts et Métiers Plan Introduction Terminologie-Notations Méthodes directes Coefficient d association vectorielle

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 29/01/2007 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 29/01/2007 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE Plan du cours Qu est-ce que le data mining? À quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

L ACP sous SPSS. À Propos de ce document. Introduction

L ACP sous SPSS. À Propos de ce document. Introduction L ACP sous SPSS À Propos de ce document... Introduction... La démarche à suivre sous SPSS.... «Descriptives».... «Extraction».... «Rotation».... «Scores».... «Options»... Analyse des résultats.... Les

Plus en détail

Introduction à l analyse des correspondances et à la classification

Introduction à l analyse des correspondances et à la classification Introduction à l analyse des correspondances et à la classification Bertrand Iooss Véronique Verrier EDF R&D Département Management des Risques Industriels Cours IUP SID Toulouse - M1-17/10/2011 14/10/2011

Plus en détail

Mastertitelformat bearbeiten. Indice de marché AutoScout24 Décembre 2013. Flamatt 10.01.2014. www.autoscout24.ch

Mastertitelformat bearbeiten. Indice de marché AutoScout24 Décembre 2013. Flamatt 10.01.2014. www.autoscout24.ch Mastertitelformat bearbeiten www.autoscout24.ch Indice de marché AutoScout24 Décembre 2013 Flamatt 10.01.2014 Page 1 Titre de la présentation Auteur de la présentation Occasions selon type de carrosserie

Plus en détail

Clustering. Christine Decaestecker, ULB Marco Saerens, UCL. LINF2275 Clustering 1

Clustering. Christine Decaestecker, ULB Marco Saerens, UCL. LINF2275 Clustering 1 Clustering Christine Decaestecker, ULB Marco Saerens, UCL LINF75 Clustering 1 Classification non-supervisée (automatique) Méthodes de regroupement ("Clustering") Objectif : Sur base - soit d'un tableau

Plus en détail

Analyse en Composantes. Principales

Analyse en Composantes. Principales AgroParisTech Analyse en Composantes Principales C Duby, S Robin Table des matières Introduction 3 2 Tableau de données 4 3 Choix d une distance 6 4 Choix de l origine 7 5 Moments d inertie 9 5 Inertie

Plus en détail

COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES

COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 6 : Modélisation non-supervisée

Plus en détail

- 1 - Résistance: BMW 3 (E46) ; M3 (E46) ; X3 (E83) ; X3 LCI (E83)

- 1 - Résistance: BMW 3 (E46) ; M3 (E46) ; X3 (E83) ; X3 LCI (E83) - 1 - Résistance: BMW 3 (E46) ; M3 (E46) ; X3 (E83) ; X3 LCI (E83) 64 11 6 929 486 64116929486 64 11 8 364 173 64118364173 64 11 8 377 579 64 11 8 383 835 64118383835 64 11 8 385 549 64118385549 64 11

Plus en détail

Mastertitelformat bearbeiten. Indice de marché AutoScout24 Juin 2014. Flamatt 10.07.2014. www.autoscout24.ch

Mastertitelformat bearbeiten. Indice de marché AutoScout24 Juin 2014. Flamatt 10.07.2014. www.autoscout24.ch Mastertitelformat bearbeiten www.autoscout24.ch Indice de marché AutoScout24 Juin 2014 Flamatt 10.07.2014 Page 1 Titre de la présentation Auteur de la présentation Occasions selon type de carrosserie Nombre

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

L analyse discriminante

L analyse discriminante L analyse discriminante À Propos de ce document... Introduction... La démarche à suivre sous SPSS... 2. Statistics... 2 2. Classify... 2 Analyse des résultats... 3. Vérification de l existence de différences

Plus en détail

Test. www.test-achats.be/comparerauto. Consommation moyenne (l/100 km) Volume de chargement (l) Emissions polluantes

Test. www.test-achats.be/comparerauto. Consommation moyenne (l/100 km) Volume de chargement (l) Emissions polluantes Voitures: le top 5 Pour chacune des 13 sous-catégories que nous avons définies pour le marché belge de l automobile, nous vous présentons les 5 meilleurs modèles selon les résultats de nos tests. Et sur

Plus en détail

Analyse simultanée de variables quantitatives et qualitatives. à l aide de l analyse factorielle multiple

Analyse simultanée de variables quantitatives et qualitatives. à l aide de l analyse factorielle multiple Analyse simultanée de variables quantitatives et qualitatives à l aide de l analyse factorielle multiple Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus France Analyse Factorielle Multiple

Plus en détail

Analyse des données - Logiciel R

Analyse des données - Logiciel R Université de Strasbourg Analyse des données Master de Sciences, Spécialité Statistique 2012/13 Master Actuariat Emmanuel Périnel Analyse des données - Logiciel R TP n 2. L Analyse en Composantes Principales

Plus en détail

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES STATISTIQUES I. Séries statistiques simples... 1 A. Définitions... 1 1. Population... 1 2. Caractère statistique... 1 B. Séries classées / représentations graphiques.... 2 1. Séries classées... 2 2. Représentations

Plus en détail

L'analyse des données à l usage des non mathématiciens

L'analyse des données à l usage des non mathématiciens Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.

Plus en détail

Création de typologie sous SPSS

Création de typologie sous SPSS Création de typologie sous SPSS À Propos de ce document... 1 Introduction... 1 La démarche à suivre sous SPSS... 2 1. «Iterate»... 2 2. «Save»... 2 3. «Options»... 3 Analyse des résultats... 3 1. Historique

Plus en détail

Analyse des données et Data Mining

Analyse des données et Data Mining Analyse des données et Data Mining Analyse en composantes principales utc sy09 1 Objectif des méthodes factorielles Visualiser, traiter des données multidimensionnelles Problème difficile Information apportée

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL

Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL LINF 2275 Stat. explor. multidim. 1 A.C.P.: Analyse en Composantes Principales Analyse de la structure de la matrice

Plus en détail

Application des méthodes de décomposition en composantes principales à la climatologie

Application des méthodes de décomposition en composantes principales à la climatologie Application des méthodes de décomposition en composantes principales à la climatologie Etude d un exemple: les modes de variabilité de la température de surface de la mer dans l océan Atlantique tropical

Plus en détail

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015 L analyse des correspondances et ses applications en recherche marketing MONSUG mai 2015 Contenu Mise en contexte et exemple d application L analyse des correspondances multiples (ACM) L ACM et la segmentation

Plus en détail

Analyse de Données. Analyse en Composantes Principales (ACP)

Analyse de Données. Analyse en Composantes Principales (ACP) Analyse de Données Analyse en Composantes Principales (ACP) Analyse en composantes principales (ACP) ** Sur toute la fiche, on notera M' la transposée de M. Cadre de travail : On a des données statistiques

Plus en détail

URL analysées. Informations générales

URL analysées. Informations générales VRDCI 10, rue Augereau 75007 Paris - FRANCE Tel : 01 45 35 00 80 Email : vrdci@vrdci.com - Référencement naturel avec paiement aux résultats - Ingénierie et design de sites web, intranet et applicatifs

Plus en détail

Analyse en composantes principales (ACP)

Analyse en composantes principales (ACP) Analyse en composantes principales (ACP) François Husson Laboratoire de mathématiques appliquées - Agrocampus Rennes husson@agrocampus-ouest.fr 1 / 31 Quel type de données? L ACP s intéresse à des tableaux

Plus en détail

Data Mining: Activité hospitalière

Data Mining: Activité hospitalière Data Mining: Activité hospitalière DIAGNE Sénéba 1, Huai Yuan WAN 2 1. S2IFA 2. DRM Chapitre 1 Clustering : Activité hospitalière 1.1 Présentation des données Le périmètre des données représente ici un

Plus en détail

ACP et classification de données spatiales

ACP et classification de données spatiales UE STA112 ACP et classification de données spatiales Mars 2012 Gilbert Saporta Conservatoire National des Arts et Métiers gilbert.saporta@cnam.fr http://cedric.cnam.fr/~saporta Compléments sur les indices

Plus en détail

Analyse en composantes principales

Analyse en composantes principales Analyse en composantes principales Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire LITIS Analyse en composantes principales p. 1/18 Introduction Objectifs Soit {x i } i=1,,l

Plus en détail

CH1 : Introduction à l Analyse Des Données (ADD) B- Les données et leurs caractéristiques C- Grandeurs associées aux données

CH1 : Introduction à l Analyse Des Données (ADD) B- Les données et leurs caractéristiques C- Grandeurs associées aux données CH1 : Introduction à l Analyse Des Données (ADD) A- Introduction A- Introduction B- Les données et leurs caractéristiques C- Grandeurs associées aux données A-1 Les méthodes Lors de toute étude statistique,

Plus en détail

Rapport du stage effectué au laboratoire HEUDIASYC UMR CNRS 6599. Moustapha DOUMIATI. pour obtenir le diplôme Master de recherche en informatique

Rapport du stage effectué au laboratoire HEUDIASYC UMR CNRS 6599. Moustapha DOUMIATI. pour obtenir le diplôme Master de recherche en informatique Rapport du stage effectué au laboratoire HEUDIASYC UMR CNRS 6599 présenté par Moustapha DOUMIATI pour obtenir le diplôme Master de recherche en informatique Fouille de données pour l analyse des performances

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Ch2 : Analyse en Composantes Principales (ACP)

Ch2 : Analyse en Composantes Principales (ACP) Ch2 : Analyse en Composantes Principales (ACP) A- Objectifs B- construction d un espace factoriel C- Les étapes d une ACP D- Interprétation E- Limites A- Objectifs On dispose d un tableau de données X.

Plus en détail

Commentaires sur le 9ème Palmarès / avril 2013

Commentaires sur le 9ème Palmarès / avril 2013 Commentaires sur le 9ème Palmarès / avril 2013 1423 versions de 215 modèles de 42 marques Le classement de la voiture citoyenne établi avec les modèles et les versions disponibles le 1 er décembre 2012

Plus en détail

Le Multidimensional Scaling et la cartographie des préférences

Le Multidimensional Scaling et la cartographie des préférences Le Multidimensional Scaling et la cartographie des préférences Gilbert Saporta Conservatoire National des Arts et Métiers http://cedric.cnam.fr/~saporta Avril 2014 Multidimensional scaling Egalement appelé

Plus en détail

Partie 1 : Étude des caractéristiques d un ensemble d hôtels

Partie 1 : Étude des caractéristiques d un ensemble d hôtels Analyse de données M1 Statistique et économétrie - 2012 V. Monbet Classification Partie 1 : Étude des caractéristiques d un ensemble d hôtels Le fichier hotels.csv contient des caractéristiques liées au

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Plan du cours Analyse en Composantes Principales Introduction Les données Leurs représentations La méthode Modèle Interprétation statistique Espace principal Composantes Principales Représentations Graphiques

Plus en détail

Université de Thessalie Département d Aménagement, D Urbanisme et Développement Régional

Université de Thessalie Département d Aménagement, D Urbanisme et Développement Régional Université de Thessalie Département d Aménagement, D Urbanisme et Développement Régional Enseignant : As. Pr. Marie-Noelle Duquenne I. Les Méthodes factorielles La question traitée dans ce document porte

Plus en détail

CH 3 : Classification

CH 3 : Classification CH 3 : Classification A- Généralités B- Mesure d éloignement C- Critère d homogénéité D- Choix d une méthode E- Mesures de la qualité F- Interprétation G- ACP/Classification H- Exemple A- Généralités

Plus en détail

Nouveautés produits. Marque & Modèle Période Produit Référence

Nouveautés produits. Marque & Modèle Période Produit Référence Nouveautés produits Marque & Modèle Période Produit Référence AUDI A4 11/07 - Bras de suspension 33894 02 A6 11/10 - Rotule de direction 35740 01 A7 Sportback 11/11 - Rotule de direction 35740 01 A8 11/09

Plus en détail

Prof.É.D.Taillard. Classification automatique @Prof. E. Taillard 1 EIVD, Informatique logiciel, 4 e semestre

Prof.É.D.Taillard. Classification automatique @Prof. E. Taillard 1 EIVD, Informatique logiciel, 4 e semestre INFORMATIQUE ORIENTATION LOGICIELS CLASSIFICATION AUTOMATIQUE Prof.É.D.Taillard Classification automatique @Prof. E. Taillard EIVD, Informatique logiciel, 4 e semestre CLASSIFICATION AUTOMATIQUE But :

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Cours de J. Rynkiewicz Université Paris 1. Interrogation 2. Durée : 3 heures

Cours de J. Rynkiewicz Université Paris 1. Interrogation 2. Durée : 3 heures MOSEF Analyse de données Cours de J. Rynkiewicz Université Paris 1 1 Voitures Interrogation 2 Durée : 3 heures On dispose des mesures suivantes sur plusieurs types de voitures vendues en 2015 : CYL PUIS

Plus en détail

DIPROPNEU 1/24. affectations TOYO 4x4. Utilisation Autres

DIPROPNEU 1/24. affectations TOYO 4x4. Utilisation Autres Utilisation Autres affectations TOYO 4x4 Marques Modèles Types Année AV AR Dimensions XL C RF I.C I.V courante Utilisations Jante 100% route 70% route 40% route 10% route AV AR AV AR - 30% chemins 60%

Plus en détail

1.1 Exemple introductif d un cube de données... 2

1.1 Exemple introductif d un cube de données... 2 1.1 Exemple introductif d un cube de données............... 2 2.1 Pré-traitement des données avec les outils OLAP [MHW00]...... 14 2.2 Architecture d un système intégrant SGBD, OLAP et MOLAP [Fu05] 16

Plus en détail

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 9 ANALYSE MULTIDIMENSIONNELLE L analyse des données multidimensionnelles regroupe un ensemble de méthodes

Plus en détail

Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande

Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande Université de Nantes M2 Ingénierie Mathématiques Rapport de chimiométrie Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de

Plus en détail

Master 2 Informatique UAG. Classification de documents/textes

Master 2 Informatique UAG. Classification de documents/textes Data Mining Master 2 Informatique UAG Classification de documents/textes Utilisée en text mining, information retrieval : amélioration du recall et de la précision Moyen de trouver les voisins les plus

Plus en détail

Méthodes de projection

Méthodes de projection Chapitre 11 Méthodes de projection Contenu 11.1 Analyse en composantes principales........ 138 11.1.1 L Analyse en Composantes Principales........ 139 11.1.2 La (grande) famille des ACP............. 151

Plus en détail

AUTOMOBILES SUR LES CHAMPS 4 : LA DOLCE VITA!

AUTOMOBILES SUR LES CHAMPS 4 : LA DOLCE VITA! AUTOMOBILES SUR LES CHAMPS 4 : LA DOLCE VITA! VE N T E AU X E N C H È R E S L E 11 N OV E M B R E C H E Z ARTCURIAL MOTORCARS AUX CHAMPS ELYSÉES DE 74 VOITURES DE COLLECTION, DONT 50% PROPOSÉES SANS PRIX

Plus en détail

Partie I. Les données quantitatives

Partie I. Les données quantitatives Variables quantitatives : analyse en composantes principales Jean-Marc Lasgouttes https://whorocqinriafr/jean-marclasgouttes/ana-donnees/ Partie I Les données quantitatives Description de données quantitatives

Plus en détail

Didacticiel - Etudes de cas

Didacticiel - Etudes de cas Objectif Montrer la complémentarité des méthodes de fouille de données (clustering) et de visualisation (analyse en composantes principales). Fichier Nous traitons le fichier CARS.XLS. Il est composé de

Plus en détail

Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus²

Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus² Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus² Le Sphinx Développement Parc Altaïs 74650 CHAVANOD Tél : 33 / 4.50.69.82.98. Fax : 33 / 4.50.69.82.78.

Plus en détail

CATALOGUE DES VEHICULES ELIGIBLES

CATALOGUE DES VEHICULES ELIGIBLES CATALOGUE DES VEHICULES ELIGIBLES Renault Twizy Citroën C-0 Peugeot ION Mitsubishi I-MieV Volkswagen e-up Puissance (ch DIN) 17 64 64 64 82 Emissions de Co2 0 0 0 0 0 Batterie (kwh) 6,1 14,5 14,5 14,5

Plus en détail

Clustering Méthodes et algorithmes avancés Mars - 2006

Clustering Méthodes et algorithmes avancés Mars - 2006 Clustering Méthodes et algorithmes avancés Mars - 2006 Clustering (catégorisation) Objectifs du clustering Mesures de distances habituelles, similarités entre objets Les différents algorithmes Clustering

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail

Laboratoire 2 Extraction des caractéristiques

Laboratoire 2 Extraction des caractéristiques Laboratoire 2 Extraction des caractéristiques L objectif de l extraction et de la sélection de caractéristiques est d identifier les caractéristiques importantes pour la discrimination entre classes. Après

Plus en détail

L analyse Factorielle des correspondances. 1/ Préambule descriptif de l AFC

L analyse Factorielle des correspondances. 1/ Préambule descriptif de l AFC L analyse Factorielle des correspondances...2 1/ Préambule descriptif de l AFC...2 Exemples de types de données que l AFC peut aborder:...2 Quelques types de tableaux traités par l AFC...3 2/ Exercice

Plus en détail

ANALYSE EN COMPOSANTES PRINCIPALES (ACP) ESIEA 5ème Année 2009/2010 1

ANALYSE EN COMPOSANTES PRINCIPALES (ACP) ESIEA 5ème Année 2009/2010 1 ANALYSE EN COMPOSANTES PRINCIPALES (ACP) ESIEA 5 ème Aée 2009/200 . Les doées NOMS PUISS CYLI Co ulemaxi LONG LARG HAUT COFFRE RESE POIDS VITE CONS ALF 47,9 JTD Distictive 5 90 28 4,7,73,44 280 60 270

Plus en détail

Audi, Seat, Skoda, VW

Audi, Seat, Skoda, VW Alfa, Fiat, Lancia 1.3 jtd M-JET 75 CV 100 CV 145 Nm 200 Nm 1.3 jtd M-JET 90 CV 115 CV 200 Nm 240 Nm 1.3 jtd M-JET 95 CV 120 CV 200 Nm 250 Nm 1.4 Turbo 120 CV 150 CV 201 Nm 250 Nm 1.4 Turbo 500 Abarth

Plus en détail

TD ANALYSE DES DONNEES

TD ANALYSE DES DONNEES Master 2 TVPS Angers Analyse des données : ACP AFC CAH 1 TD ANALYSE DES DONNEES Exemple d'acp : Etude olfacto-gustative de cidres Plusieurs caractéristiques du cidre ont été mesurées sur 10 cidres différents.

Plus en détail

3. ACM Analyse des Correspondances Multiples

3. ACM Analyse des Correspondances Multiples 3. ACM Analyse des Correspondances Multiples Analyse des Correspondances Multiples - ACM 1 Plan 1. Exemples, problématique 2. Le tableau de données étudié 3. Principe d une ACM 4. L ajustement des deux

Plus en détail

Analyse des données. Statistiques descriptives

Analyse des données. Statistiques descriptives 14 Analyse des données Ce chapitre décrit un certain nombre de techniques pour analyser les données avec R. La plupart des fonctions décrites ici permettent de préparer les données pour d autres analyses

Plus en détail

Propriétés et fonctions du pneumatique. Produit complexe de haute technologie, le pneu constitue le seul point de liaison du véhicule avec le sol.

Propriétés et fonctions du pneumatique. Produit complexe de haute technologie, le pneu constitue le seul point de liaison du véhicule avec le sol. Propriétés et fonctions du pneumatique Produit complexe de haute technologie, le pneu constitue le seul point de liaison du véhicule avec le sol. De ce fait, il doit assurer sur une surface équivalente

Plus en détail