Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J. C.) extrait de l Histoire de l Art de Ernst Gombrich

Dimension: px
Commencer à balayer dès la page:

Download "Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J. C.) extrait de l Histoire de l Art de Ernst Gombrich"

Transcription

1 1

2 Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J. C.) extrait de l Histoire de l Art de Ernst Gombrich 2

3 1. Enquête FT sur les MBA MBA 12 caractéristiques de l école : Women Faculty, Women Students, Women board, International Faculty, Int. Stud., Int. Board, Int. Mobility, Int. Course content, Languages, Faculty with PhD, PhD grad. Rating, Research rating 2 caractéristiques des diplômés : Salary today (weighted), Salary % increase 3

4 Extrait des données de l enquête FT sur les MBA 2001 Faculty with Salary Salary doctorates FT Doctoral FT Research Rank 2001 School Name FT Score weighted Increase... (%) rating rating 1 University of Pennsylvania: Wharton Harvard Business School Stanford University GSB University of Chicago GSB Columbia University GSB MIT: Sloan Insead London Business School Northwestern University: Kellogg New York University: Stern IMD Arizona State University HEC Babson College: FW Olin Rice University: Jones Thunderbird ESCP-EAP IEP Norwegian School of Management

5 Visualiser

6 Analyse factorielle (ACP) des MBA X 14 = Salary. increase X 2 = % Women Student HEC 2 Harvard 0 Warwick 1.. X 1 = % Women Faculty

7 Analyse Factorielle des MBA : Carte des MBA Analyse réalisée sur les 67 premiers MBA 7

8 Analyse Factorielle des MBA Carte des caractéristiques utilisées pour l analyse Les variables fléchées en pointillés sont illustratives. 8

9 Conclusion : HEC premier MBA non anglo-saxon Stanford Harvard Dartmouth MIT Wharton IMD INSEA D LBS HEC US/UK/Autre Salary weighted Autre UK US Total Population FT Research rating 9

10 2. Les objectifs de l analyse en composantes principales Résumer un tableau individusvariables à l aide d un petit nombre de facteurs. Visualiser le positionnement des individus les uns par rapport aux autres. Visualiser les corrélations entre les variables. Interpréter les facteurs. 10

11 Visualisation des données Y 2 (i) i 1 X 1 X p Y 1 Y 2 i x 1i x pi y 1i y 2i 0 Y 1 (i) Le premier plan principal n Cor(X j,y 2 ) X j 0 Cor(X j,y 1 ) Le tableau des données Les composantes principales Y h p 1 j u hj X (non corrélées entre elles) j Le carte des variables 11

12 3. Un exemple de positionnement de produits Caractéristiques de 24 modèles de voiture (Source : L argus de l automobile, 2004) Modèle Cylindrée Puissance Vitesse Poids Largeur Longueur (cm 3 ) (ch) (km/h) (kg) (mm) (mm) Citroën C2 1.1 Base Smart Fortwo Coupé Mini Nissan Micra Renault Clio 3.0 V Audi A3 1.9 TDI Peugeot HDI Peugeot V6 BVA Mercedes Classe C 270 CDI BMW 530d Jaguar S-Type 2.7 V6 Bi-Turbo BMW 745i Mercedes Classe S 400 CDI Citroën C3 Pluriel 1.6i BMW Z4 2.5i Audi TT 1.8T Aston Martin Vanquish Bentley Continental GT Ferrari Enzo Renault Scenic 1.9 dci Volkswagen Touran 1.9 TDI Land Rover Defender Td Land Rover Discovery Td Nissan X-Trail 2.2 dci

13 Longueur Puissance Cylindrée Graphiques en étoile des voitures Citroën C2 1.1 Smart Fortwo Mini Largeur Vitesse Nissan Micra 1.2 Renault Clio 3.0 V6 Audi A3 1.9 TDI Poids Peugeot HDI 70 Peugeot V6 Mercedes Classe C 270 BMW 530d Jaguar S-Type 2.7 V6 BMW 745i Mercedes Classe S 400 Citroën C3 Pluriel BMW Z4 2.5i Audi TT 1.8T 180 Aston Martin Vanquish Bentley Continental GT Ferrari Enzo Renault Scenic 1.9 dci Volkswagen Touran 1.9 TDI Land Rover Defender Land Rover Discovery Nissan X-Trail 2.2 dci 13

14 4. Résumé des données Sortie SPSS Descriptive Statistics Cylindrée Puissance Vitesse Poids Largeur Longueur N Minimum Maximum Mean Std. Deviation Sortie SPAD Libellé de la variable Effectif Moyenne Ecart-type Minimum Maximum Cylindrée Puissance Vitesse Poids Largeur Longueur

15 Variance des variables Dans SPSS 1 Variance(X) s = (x ) n 2 2 i x n-1 i1 Dans SPAD 1 Variance(X) (x ) n 2 2 i x n i1 15

16 Graphique des liaisons inter-variables (la Ferrari est représentée par un disque plein) Cylindrée Puissance Vitesse Poids Largeur Longueur 16

17 Tableau des corrélations Cylindrée Puissance Vitesse Poids Largeur Longueur Cylindrée Puissance Vitesse Poids Largeur Longueur Toutes les corrélations sont positives. Toutes les corrélations sont significatives au risque 5% ( R 2/ n) 17

18 Classification ascendante hiérarchique des variables H I E R A R C H I C A L C L U S T E R A N A L Y S I S Dendrogram using Single Linkage Rescaled Distance Cluster Combine C A S E Label Num cylindrée 1 puissance 2 vitesse 3 largeur 5 poids 4 longueur 6 18

19 5. Le nuage de points associé aux données 1 i n X 1 X p x 1i x pi x i X p SMART g 0 FERRARI X 2 x1... x p g X 1 N = {x 1,, x i,, x n } = Nuage de points associé aux données Centre de gravité du nuage N : g = 1 n n x i i1 19

20 6. Inertie totale du nuage de points 1 i n X 1 X p x 1i x pi x i X p SMART 0 g FERRARI X 2 x1... x p g X 1 Inertie totale = I(N, g) = 1 n n i1 d 1 1 n 2 (x n p p n p ( xji xj ) ( xji xj ) j i1 j1 j1 n i1 j1 i,g) 20

21 7. Réduction des données Pour neutraliser le problème des unités on remplace les données d origine par les données centrées-réduites : X X X x X x p p p p de moyenne 0 et d écart-type 1. 21

22 Les données centrées-réduites (SPAD) Modèle Cylindrée Puissance Vitesse Poids Largeur Longueur Citroën C2 1.1 Base Smart Fortwo Coupé Mini Nissan Micra Renault Clio 3.0 V Audi A3 1.9 TDI Peugeot HDI Peugeot V6 BVA Mercedes Classe C 270 CDI BMW 530d Jaguar S-Type 2.7 V6 Bi-Turbo BMW 745i Mercedes Classe S 400 CDI Citroën C3 Pluriel 1.6i BMW Z4 2.5i Audi TT 1.8T Aston Martin Vanquish Bentley Continental GT Ferrari Enzo Renault Scenic 1.9 dci Volkswagen Touran 1.9 TDI Land Rover Defender Td Land Rover Discovery Td Nissan X-Trail 2.2 dci Outlier si valeur > 2 22

23 8. Le nuage de points associé aux données réduites 1 X 1 i x 1i n X p x pi X i X p SMART 0 FERRARI X Moyenne Variance X 1 N = {x 1,, x i,, x n } Centre de gravité : g = 0, Inertie totale : I(N, 0) = p 23

24 9. Premier axe principal 1 X p x i u y i X 2 X 1 Objectif 1 : On cherche l axe 1 passant le mieux possible au milieu du nuage N. On cherche à minimiser l inertie du nuage N par rapport à l axe 1 : I(N, 1 ) 1 n n i1 d 2 (x i, y i ) 24

25 Premier axe principal 1 X p x i 1 0 y i X 2 X 1 Objectif 2 : On cherche l axe d allongement 1 du nuage N. On cherche à maximiser l inertie du nuage N projeté sur l axe 1 : I( n 2 1 d (yi, 0) n i1 1 y,..., yn, 0) 25

26 Les objectifs 1 et 2 sont atteints simultanément X p x i 1 0 y i X 2 X 1 De : on déduit : d 2 (x i,0) d 2 (y i,0) d 2 (x i, y i ) 1 n n i1 d 2 (x i,0) 1 n n i1 d 2 (y i,0) 1 n n i1 d 2 (x i, y i ) Inertie totale = p = Inertie expliquée par 1 + Inertie résiduelle Maximiser Minimiser 26

27 Résultats L axe 1 passe par le centre de gravité 0 du nuage de points N. L axe 1 est engendré par le vecteur normé u 1, vecteur propre de la matrice des corrélations R associé à la plus grande valeur propre 1. L inertie expliquée par l axe 1 est égal à 1. La part d inertie expliquée par le premier axe principal 1 est égal à 1 /p. 27

28 Résultat SPAD Tableau des valeurs propres Numéro Valeur Pourcentage Pourcentage propre cumulé

29 Résultat SPAD Les vecteurs propres Libellé de la variable Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 Axe 6 Cylindrée Puissance Vitesse Poids Largeur Longueur Normalisation : = 1 29

30 10. Première composante principale Y 1 X p x i 1 X 1 Smart 0 Y 1 (1) = u1 y i Y 1 (i) X 2 Y 1 est une nouvelle variable définie pour chaque individu i par : Y 1 (i) = longueur algébrique du segment 0y i = coordonnée de y i sur l axe 1 = produit scalaire entre les vecteurs x i et u 1 p = j1 u 1jx ji p Y 1 = j1 u 1 X j j 30

31 Résultats SPAD Carré de la Identificateur Distance à l'origine Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 Axe 6 Citroën C Smart Fortwo Mini Nissan Micra Renault Clio 3.0 V Audi A3 1.9 TDI Peugeot HDI Peugeot V Mercedes Classe C BMW 530d Jaguar S-Type 2.7 V BMW 745i Mercedes Classe S Citroën C3 Pluriel 1.6i BMW Z4 2.5i Audi TT 1.8T Aston Martin Vanquish Bentley Continental GT Ferrari Enzo Renault Scenic 1.9 dci Volkswagen Touran 1.9 TDI Land Rover Defender Land Rover Discovery Nissan X-Trail 2.2 dci DISTO = d 2 (x i, 0) 31

32 Corrélations entre les variables et les composantes principales Corrélations des variables actives avec les facteurs Libellé de la variable Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 Axe 6 Cylindrée Puissance Vitesse Poids Largeur Longueur Dans SPSS : Component Matrix 32

33 Propriétés de la première composante principale Y 1 Y 1 = u 11 X 1 + u 12 X u 1p X p Moyenne de Y 1 = 0 Variance de Y 1 = Inertie expliquée par 1 = 1 Cor(X j, Y 1 ) = 1 u 1j p 1 cor p j1 2 (X j, Y ) 1 p 1 est maximum 33

34 Qualité de la première composante principale Inertie totale = 6 Inertie expliquée par le premier axe principal = 1 = Part d inertie expliquée par le premier axe principal : La première composante p 6 principale explique 73,5% de la variance totale. 34

35 11. Deuxième axe principal 2 2 Y 2 (i) 0 x i a i Y 1 (i) 1 35

36 Résultats On recherche le deuxième axe principal 2 orthogonal à 1 et passant le mieux possible au milieu du nuage. Il passe par le centre de gravité 0 du nuage de points et est engendré par le vecteur normé u 2, vecteur propre de la matrice des corrélations R associé à la deuxième plus grande valeur propre 2. La deuxième composante principale Y 2 est définie par projection des points sur le deuxième axe principal. La deuxième composante principale Y 2 est centrée, de variance 2, et non corrélée à la première composante principale Y 1. 36

37 Le premier plan principal 37

38 Le cercle des corrélations 38

39 Qualité globale de l analyse Inertie totale = variance totale = p Part de variance expliquée par la première composante principale = Part de variance expliquée par la deuxième composante principale = 1 p 2 p Part de variance expliquée par les deux premières composantes principales = 1 2 p Et ainsi de suite pour les autres dimensions... 39

40 12. Le biplot Les échelles doivent être identiques sur les deux axes. Le cercle des variables doit être un cercle. 40

41 Interprétation du biplot La répartition des projections des individus i sur l axe variable X j reflète les valeurs x ij Les coordonnées des individus i sont les valeurs des composantes principales : [Y 1 (i), Y 2 (i)]. Les coordonnées des variables X j sont les vecteurs propres multipliés par une certaine constante, par exemple 2 : (2u 1j, 2u 2j ). 41

42 Justification : la formule de reconstitution u 2 Y 2 (i) 0 x i a i Y 1 (i) u 1 De x i a i = Y 1 (i)u 1 + Y 2 (i)u 2 on déduit x ij Y 1 (i)u 1j + Y 2 (i)u 2j = Y1 () i u1 j, ix, Y () i u 2 2 j j = u u 2 2 1j 2 j Coordonnée de la projection de l individu i sur l axe variable X j 42

43 Justification de la lecture du bi-plot Axe 2 y 2i i u 2j X j A ij 0 0 A i, X / u u 2 2 ij j 1j 2 j y 1i u 1j Axe 1 ( yu yu )/ u u x / u u i 1j 2i 2 j 1j 2 j ij 1j 2 j 43

44 13. Exemple des races canines 44 Race Taille Poids Vitesse Intell. Affect. Agress. Fonction Beauceron Basset Berger-Allemand Boxer Bull-Dog Bull-Mastiff Caniche Chihuahua Cocker Colley Dalmatien Doberman Dogue Allemand Epagneul Breton Epagneul Français Fox-Hound Fox-Terrier Grd Bleu de Gascogne Labrador Lévrier Mastiff Pékinois Pointer Saint-Bernard Setter Teckel Terre-Neuve TA++ TA- TA++ TA+ TA- TA++ TA- TA- TA+ TA++ TA+ TA++ TA++ TA+ TA++ TA++ TA- TA++ TA+ TA++ TA++ TA- TA++ TA++ TA++ TA- TA++ PO+ PO- PO+ PO+ PO- PO++ PO- PO- PO- PO+ PO+ PO+ PO++ PO+ PO+ PO+ PO- PO+ PO+ PO+ PO++ PO- PO+ PO++ PO+ PO- PO++ V++ V- V++ V+ V- V- V+ V- V- V++ V+ V++ V++ V+ V+ V++ V+ V+ V+ V++ V- V- V++ V- V++ V- V- INT+ INT- INT++ INT+ INT+ INT++ INT++ INT- INT+ INT+ INT+ INT++ INT- INT++ INT+ INT- INT+ INT- INT+ INT- INT- INT- INT++ INT+ INT+ INT+ INT+ AF+ AF- AF+ AF+ AF+ AF- AF+ AF+ AF+ AF+ AF+ AF- AF- AF+ AF- AF- AF+ AF- AF+ AF- AF- AF+ AF- AF- AF- AF+ AF- AG+ AG+ AG+ AG+ AG- AG+ AG- AG- AG+ AG- AG- AG+ AG+ AG- AG- AG+ AG+ AG+ AG- AG- AG+ AG- AG- AG+ AG- AG- AG- Utilité Chasse Utilité Compagnie Compagnie Utilité Compagnie Compagnie Compagnie Compagnie Compagnie Utilité Utilité Chasse Chasse Chasse Compagnie Chasse Chasse Chasse Utilité Compagnie Chasse Utilité Chasse Compagnie Utilité

45 Le tableau disjonctif complet Race T- T+ T++ P- P+ P++ V- V+ V++ I- I+ I++ Af- Af+ Ag- Ag+ Compagnie Chasse Utilité Beauceron Basset Berger all Boxer Bull-dog Bull Mastiff Caniche Chihuahua Cocker Colley Dalmatien Doberman Dogue all Epagneul br Epagneul fr Fox-Hound Fox-Terrier Grd Bl de G Labrador Lévrier Mastiff Pékinois Pointer St-Bernard Setter Teckel Terre neuve x ijl = 1 si l individu i possède la modalité l de la variable j = 0 sinon 45

46 ACP du tableau disjonctif complet 46

47 Total Mean Std. Deviation 14. Utilisation de SPSS Les données centrées-réduites (SPSS) Case Summaries Zscore: Zscore: Zscore: Zscore: Zscore: Zscore: MODÈLE Cylindrée Puissance Vitesse Poids Largeur Longueur Citroën C2 1.1 Base Smart Fortwo Coupé Mini Nissan Micra Renault Clio 3.0 V Audi A3 1.9 TDI Peugeot HDI Peugeot V6 BVA Mercedes Classe C 270 CDI BMW 530d Jaguar S-Type 2.7 V6 Bi-Turbo BMW 745i Mercedes Classe S 400 CDI Citroën C3 Pluriel 1.6i BMW Z4 2.5i Audi TT 1.8T Aston Martin Vanquish Bentley Continental GT Ferrari Enzo Renault Scenic 1.9 dci Volkswagen Touran 1.9 TDI Land Rover Defender Td Land Rover Discovery Td Nissan X-Trail 2.2 dci Outlier si valeur >

48 Résultats SPSS : Les facteurs Total Mean Std. Deviation MODÈLE Facteur 1 Facteur 2 Facteur 3 Facteur 4 Facteur 5 Facteur 6 Citroën C2 1.1 Base Smart Fortwo Coupé Mini Nissan Micra Renault Clio 3.0 V Audi A3 1.9 TDI Peugeot HDI Peugeot V6 BVA Mercedes Classe C 270 CDI BMW 530d Jaguar S-Type 2.7 V6 Bi-Turbo BMW 745i Mercedes Classe S 400 CDI Citroën C3 Pluriel 1.6i BMW Z4 2.5i Audi TT 1.8T Aston Martin Vanquish Bentley Continental GT Ferrari Enzo Renault Scenic 1.9 dci Volkswagen Touran 1.9 TDI Land Rover Defender Td Land Rover Discovery Td Nissan X-Trail 2.2 dci

49 Propriétés des facteurs de SPSS Lien entre les composantes principales et les facteurs de SPSS Les facteurs de SPSS sont les composantes principales réduites. F h 1 n Y n1 h h Calcul des facteurs de SPSS en fonction des variables (X j ) SPSS p h hj j SPSS j1 F w (X ) w h 1 h u h Cylindrée Puissance Vitesse Poids Largeur Longueur Tableau des w h Component Score Coefficient Matrix Component Extraction Method: Principal Component Analysis. Component Scores. 49

50 15. Construction d une typologie des individus Rechercher des groupes d individus homogènes dans la population : Deux individus appartenant au même groupe sont proches. Deux individus appartenant à des groupes différents sont éloignés. Construire une partition de la population en groupes homogènes et différents les uns des autres. On réalise la typologie au choix (1) sur les données centrées réduites, (2) sur les premières composantes principales (SPAD), (3) sur les premières composantes principales réduites (les facteurs de SPSS). 50

51 Construction d une typologie des individus o o o o o o o o o o + o + o o o o o o o o o o Fabrication de groupes à partir de données uniformément réparties Données structurées en trois groupes 51

52 Dendrogramme groups Choosing the cutting level x x x Definition of the clusters 52

53 Dendrogramme indice (1) (3) (4) (2) (5) Individu d origine 53

54 Classification ascendante hiérarchique (Méthode de Ward) X 1 X p g 2 g 1 X 2 g 3 Distance de Ward : D(G i, G j ) = nn i i j 2 (n n ) j d(g,g) i j n i = effectif de la classe G i 54

55 Tableau des distances entre les voitures Proximity Matrix Case 1:Citroën C2 1.1 Base 2:Smart Fortwo Coupé 3:Mini :Nissan Micra :Land Rover Discovery 24:Nissan X-Trail 2.2 d This is a dissimilarity matrix Squared Euclidean Distance 23:Land 1:Citroën C2 2:Smart 4:Nissan Rover 24:Nissan 1.1 Base Fortwo Coupé 3:Mini Micra Discovery X-Trail 2.2 d p 2 2 k l jk jl j d(x,x) (x x) D Ward (Citroën C2, Nissan Micra) = (11) 55

56 Classification Ascendante Hiérarchique Étape initiale Chaque individu forme une classe. On regroupe les deux individus les plus proches. Étape courante A chaque étape, on regroupe les deux classes G i et G j minimisant le critère de Ward D(G i, G j ). 56

57 H I E R A R C H I C A L C L U S T E R A N A L Y S I S Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E Label Num Citroën C2 1.1 Base 1 Nissan Micra Peugeot HDI 7 Citroën C3 Pluriel 1 14 BMW Z4 2.5i 15 Audi TT 1.8T Renault Clio 3.0 V6 5 Mini Volkswagen Touran Nissan X-Trail 2.2 d 24 Audi A3 1.9 TDI 6 Renault Scenic 1.9 d 20 Land Rover Defender 22 Smart Fortwo Coupé 2 Peugeot V6 B BMW 530d 10 Jaguar S-Type 2.7 V6 11 Mercedes Classe C 27 9 BMW 745i 12 Mercedes Classe S Land Rover Discovery Aston Martin Vanquis 17 Bentley Continental 18 Ferrari Enzo 19 57

58 Construction de la classification hiérarchique sur les données centrées réduites par SPSS Numéro Ainé Benjamin Nb d'éléments terminaux du noeud Distance de Ward Somme des indices de niveau

59 Interprétation de la typologie G45 (14) D(G 2,G 42 ) = Toute la population (G47) D(G 45,G 46 ) = G46 (10) D(G 43,G 44 ) = G2 (1) G42 (13) G43 (7) G44 (3) D(G 23,G 40 ) = D(G 2,G 42 ) = G23 (1) G40 (6) G19 (1) G38 (2) 59

60 Décomposition de la somme des carrés totale X 1 X p g 1 g 2 g g 3 X 2 n K K i k k i k i1 k1 k1 ig d (x,g) n d (g,g) d (x,g ) k Somme des carrés totale = (n-1)p Somme des carrés = inter-classes + Somme des carrés intra-classes 60

61 Coefficient : Somme des carrés Résultats SPSS : intra-classes de la typologie en K classes Somme des carrés intra classes Agglomeration Schedule Distance de Ward(1,4) Stage Cluster First Qualité de la typologie Cluster Combined Appears Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage en K classes : (138 - Coeff[n-K])/ Groupe contenant Qualité de la typologie en 2 classes : ( )/138 = Somme des carrés intra-classes pour la typologie en K=2 classes Somme des carrés totale = p(n-1) 61

62 Qualité des typologies Nombre de classes % de Somme des Somme des Somme des Distance de carrés intraclasseclasses carrés inter- carrés Ward expliquée distance de Ward entre les groupes fusionnés = (S.C. Intra) = (S.C. Inter) 62

63 Qualité de la typologie en K classes La somme des carrés expliquée par la typologie en K classes est égale à la somme des carrés inter classes de la typologie en K classes. La qualité de la typologie est mesurée par la proportion de la somme des carrés totale expliquée par la typologie. 63

64 Choix du nombre de groupes La typologie en 5 groupes explique 81,27 % de la S.C. totale Rescaled Distance Cluster Combine C A S E Label Num G42 G2 G43 G44 G19 Citroën C2 1.1 Base 1 Nissan Micra Peugeot HDI 7 Citroën C3 Pluriel 1 14 BMW Z4 2.5i 15 Audi TT 1.8T Renault Clio 3.0 V6 5 Mini Volkswagen Touran Nissan X-Trail 2.2 d 24 Audi A3 1.9 TDI 6 Renault Scenic 1.9 d 20 Land Rover Defender 22 Smart Fortwo Coupé 2 Peugeot V6 B 8 BMW 530d 10 Jaguar S-Type 2.7 V6 11 Mercedes Classe C 27 9 BMW 745i 12 Mercedes Classe S Land Rover Discovery 23 Aston Martin Vanquis 17 Bentley Continental 18 Ferrari Enzo 19 64

65 Premier plan factoriel et typologie 3 2 Land Rover Discovery Jaguar S-Type 2.7 V6 Mercedes Classe S Nissan X-Trail 2.2 d VW Touran Peugeot V6 BMW 745i Land Rover Defender Renault Scenic BMW 530d Mercedes Classe C Peugeot 307 Audi A3 1.9 Citroën C3 Nissan Micra Audi TT 1.8T Citroën C2 BMW Z4 2.5i Mini Renault Clio 3.0 V6 Bentley Continental Aston Martin Vanquish Facteur Smart Fortwo Coupé Ferrari Enzo Facteur 1 65

66 Interprétation des classes Report Ward Method Total Mean N Mean N Mean N Mean N Mean N Mean N Cylindrée Puissance Vitesse Poids Largeur Longueur

67 16. C.A.H. des variables Les données de Kendall 48 candidats à un certain poste sont évalués sur 15 variables : (1) Form of letter of application (2) Appearance (3) Academic ability (4) Likeability (5) Self-confidence (6) Lucidity (7) Honesty (8) Salesmanship (9) Experience (10) Drive (11) Ambition (12) Grasp (13) Potential (14) Keeness to join (15) Suitability 67

68 Case Summaries X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X

69 Tableau des corrélations Correlation Matrix X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 Correlation X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X One of the questions of interest here is how the variables cluster, in the sense that some of the qualities may be correlated or confused in the judge s mind. (There was no purpose in clustering the candidates - only one was to be chosen). 69

70 Classification Ascendante Hiérarchique des variables Méthode des plus proches voisins A chaque étape, on fusionne les deux groupes G i et G j maximisant : Max Cor( X, X ) X G, X G a i b j On fusionne G2 et G3. a b G o o o o G2 o G3 70

71 Classification Ascendante Hiérarchique des variables H I E R A R C H I C A L C L U S T E R A N A L Y S I S Dendrogram using Single Linkage (VOISINS LES PLUS PROCHES) Rescaled Distance Cluster Combine C A S E Label Num X6 6 X12 12 X13 13 X8 8 X11 11 X5 5 X10 10 X9 9 X15 15 X4 4 X14 14 X7 7 X1 1 X2 2 X3 3 71

72 Classification Ascendante Hiérarchique des variables Méthode des voisins les plus éloignés A chaque étape, on fusionne les deux groupes G i et G j maximisant : Min Cor( X, X ) X G, X G a i b j On fusionne G1 et G2. a b G o o o o G2 o G3 72

73 Classification Ascendante Hiérarchique des variables H I E R A R C H I C A L C L U S T E R A N A L Y S I S Dendrogram using Complete Linkage (VOISINS LES PLUS ELOIGNES) Rescaled Distance Cluster Combine C A S E Label Num X6 6 X12 12 X8 8 X11 11 X5 5 X10 10 X13 13 X2 2 X4 4 X14 14 X7 7 X9 9 X15 15 X1 1 X3 3 73

74 Bloc 1 Correlation Matrix X2 X5 X6 X8 X10 X11 X12 X13 Correlation X2 X5 X6 X8 X10 X11 X12 X Les corrélations sont toutes positives. 74

75 Bloc 2 Correlation Matrix X4 X7 X14 Correlation X4 X7 X Bloc 3 Correlation Matrix X1 X9 X15 Correlation X1 X9 X

76 Interprétation des blocs Bloc 1 : Qualités humaines favorables au poste Appearance, Self-confidence, Lucidity, Salesmanship, Drive, Ambition, Grasp, Potential Bloc 2 : Qualités de franchise et de communication Likeability, Honesty, Keenness to join Bloc 3 : Expérience Form of letter of application, Experience, Suitability Bloc 4 : Diplôme Academic ability 76

Analyse en Composantes Principales (avec SPAD) Classification Ascendante Hiérarchique

Analyse en Composantes Principales (avec SPAD) Classification Ascendante Hiérarchique Analyse en Composantes Principales (avec SPAD) et Classification Ascendante Hiérarchique Michel Tenenhaus 1 Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J.-C.) extrait de l Histoire de l

Plus en détail

An Example on Product Positioning

An Example on Product Positioning Cluster Analysis An Example on Product Positioning Caractéristiques de 24 modèles de voiture (Source : L argus de l automobile, 2004) Modèle Cylindrée Puissance Vitesse Poids Largeur Longueur (cm 3 ) (ch)

Plus en détail

Cours 7 ANALYSE EN COMPOSANTES PRINCIPALES (ACP) Master 2 2005/2006

Cours 7 ANALYSE EN COMPOSANTES PRINCIPALES (ACP) Master 2 2005/2006 Cours 7 ANALYSE EN COMPOSANTES PRINCIPALES (ACP) Master 2 2005/2006 . Les données NOMS PUISS CYLI Co uple Ma xi LONG LARG H AUT COFFRE RESE POIDS VITE CONS ALF 47,9 JTD Distinctive 5 90 28 4,7,73,44 280

Plus en détail

CLASSIFICATION. ESIEA 5 ème année

CLASSIFICATION. ESIEA 5 ème année CLASSIFICATION ESIEA 5 ème année 2009/200 Les données Modèle Cylindrée Puissance Vitesse Poids Longueur Largeur Honda Civic 396 90 74 850 369 66 Renault 9 72 92 80 965 45 69 Fiat Tipo 580 83 70 970 395

Plus en détail

Analyse Factorielle des

Analyse Factorielle des Analyse Factorielle des Correspondances multiples et Classification Ascendante Hiérarchique Michel Tenenhaus 1 1. Les données Race Taille Poids Vitesse Intell. Affect. Agress. Fonction 1 Beauceron TA++

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Didacticiel - Études de cas. Mettre en œuvre l analyse des correspondances multiples (ACM) avec TANAGRA.

Didacticiel - Études de cas. Mettre en œuvre l analyse des correspondances multiples (ACM) avec TANAGRA. Objectif Mettre en œuvre l analyse des correspondances multiples (ACM) avec TANAGRA. L analyse des correspondances multiples (ou analyse factorielle des correspondances multiples AFCM) est une technique

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h I.U.T de Caen STID 2ème année Département STID Année Universitaire 2002-2003 Responsable de cours : Alain LUCAS Seule la calculatrice type collège est autorisée. Seul le cours est autorisé. On rappelera

Plus en détail

UE de cinquième année : MAT 5201 - Data Mining Enseignant Responsable : F. Bertrand

UE de cinquième année : MAT 5201 - Data Mining Enseignant Responsable : F. Bertrand E.S.I.E.A Paris Aée scolaire 00/0 UE de ciquième aée : MAT 50 - Data Miig Eseigat Resposable : F. Bertrad Chaque répose devra être justifiée précisémet. E aexe sot doés le joural et la sortie d u traitemet

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

ACP Voitures 1- Méthode

ACP Voitures 1- Méthode acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788

Plus en détail

TD2 Gestion de la relation clientèle

TD2 Gestion de la relation clientèle TD2 Gestion de la relation clientèle Prof. Christophe Sempels Contexte Année 1980 27 modèles de voitures analysés Caractéristiques spécifiées : CV, prix, cylindrée, puissance, vitesse, longueur, prime

Plus en détail

Il y a 24 individus en ligne (les modèles de voitures) et 6 variables en colonnes (paramètres mécaniques). Valeurs propres

Il y a 24 individus en ligne (les modèles de voitures) et 6 variables en colonnes (paramètres mécaniques). Valeurs propres VOITURE: On étudie 6 différents paramètres mécaniques (les variables), exprimées dans des unités différentes, de 24 modèles de voitures (les individus). Modèle Cylindre Puissance Vitesse Poids Longueur

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Introduction à l analyse des données. Olivier Godechot

Introduction à l analyse des données. Olivier Godechot Introduction à l analyse des données Olivier Godechot Introduction. Les données statistiques : de très nombreuses variables. Aucune n est parfaite La perception d un phénomène appréhendée comme la combinaison

Plus en détail

Classification. Pr Roch Giorgi. roch.giorgi@univ-amu.fr

Classification. Pr Roch Giorgi. roch.giorgi@univ-amu.fr Classification Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr Objectif Rechercher

Plus en détail

GUIDE DU DATA MINER. Classification - Typologies. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Classification - Typologies. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Classification - Typologies Data Management, Data Mining, Text Mining 1 Guide du Data Miner Classification - Typologies Le logiciel décrit dans le manuel est diffusé dans le cadre d

Plus en détail

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité Introduction à l analyse des données Analyse des Données () Le but de l analyse de données est de synthétiser, structurer l information contenue dans des données multidimensionnelles Deux groupes de méthodes

Plus en détail

ESIEA PARIS 2010-2011

ESIEA PARIS 2010-2011 ESIEA PARIS 00-0 Exame MAT 50 DATA MINING Vedredi 6 Novembre 00 Première Partie : 5 miutes Eseigat resposable : Frédéric Bertrad Remarque importat : les questios de ce questioaire sot posées das le cotexte

Plus en détail

Analyse discriminante

Analyse discriminante Analyse discriminante Christine Decaestecker & Marco Saerens ULB & UCL LINF2275 1 Analyse Discriminante Particularités: 2 formes/utilisations complémentaires: méthode factorielle: description "géométrique"

Plus en détail

Cours de Statistiques

Cours de Statistiques Cours de Statistiques Romain Raveaux 1 1 Laboratoire L3I Université de La Rochelle romain.raveaux01 at univ-lr.fr Octobre 24-11, 2008 1 / 35 Sommaire 1 Quelques Rappels 2 numériques Relations entre deux

Plus en détail

COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES

COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 6 : Modélisation non-supervisée

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES

HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES 105 HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES 1. Introduction En statistiques il arrive fréquemment que les individus soient décrits par un grand nombre de caractères. : voitures décrites par leur

Plus en détail

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac La classification 2012-2013 Fabien Chevalier Jérôme Le Bellac Introduction : Classification : méthode d analyse de données Objectif : Obtenir une représentation schématique simple d'un tableau de données

Plus en détail

Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL

Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL LINF 2275 Stat. explor. multidim. 1 A.C.P.: Analyse en Composantes Principales Analyse de la structure de la matrice

Plus en détail

EXEMPLE D ANALYSE DES CORRESPONDANCES MULTIPLES COMPARAISON DE RACES DE CHIENS

EXEMPLE D ANALYSE DES CORRESPONDANCES MULTIPLES COMPARAISON DE RACES DE CHIENS EXEMPLE D ANALYSE DES CORRESPONDANCES MULTIPLES COMPARAISON DE RACES DE CHIENS On a réalisé une analyse des correspondances multiples en utilisant comme variables actives les six premières variables du

Plus en détail

Tarifs en vigueur pour l année 2014

Tarifs en vigueur pour l année 2014 Tarifs en vigueur pour l année 2014 Alfa, Fiat, Lancia 1.3 jtd M-JET 75 CV 100 CV 145 Nm 200 Nm 1.3 jtd M-JET 90 CV 115 CV 200 Nm 240 Nm 1.3 jtd M-JET 95 CV 120 CV 200 Nm 250 Nm 349.- 1.4 Turbo 500 Abarth

Plus en détail

Séance 2: Modèle Euclidien

Séance 2: Modèle Euclidien Généralités Métrique sur les INDIVIDUS Métrique sur les VARIABLES Inertie Analyse des individus Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Généralités Métrique

Plus en détail

L'analyse en composantes principales (A.C.P.)

L'analyse en composantes principales (A.C.P.) Montpellier L'analyse des données multivariées à l'aide du logiciel L'analyse en composantes principales (A.C.P.) INRA - Formation Permanente Juillet 2005 André Bouchier p.1/23 Copyright 2005 André Bouchier

Plus en détail

Clustering. Christine Decaestecker, ULB Marco Saerens, UCL. LINF2275 Clustering 1

Clustering. Christine Decaestecker, ULB Marco Saerens, UCL. LINF2275 Clustering 1 Clustering Christine Decaestecker, ULB Marco Saerens, UCL LINF75 Clustering 1 Classification non-supervisée (automatique) Méthodes de regroupement ("Clustering") Objectif : Sur base - soit d'un tableau

Plus en détail

Cours 2-3 Analyse des données multivariées

Cours 2-3 Analyse des données multivariées Cours 2-3 des données s Ismaël Castillo École des Ponts, 13 Novembre 2012 Plan 1 2 3 4 1. On s intéresse à un jeu de données multi-dimensionel, avec n individus observés et p variables d intérêt ( variables

Plus en détail

ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET

ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET EXEMPLE D APPLICATION Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus, 35042 Rennes cedex email : pages@agrorennes.educagri.fr Résumé

Plus en détail

Ch2 : Analyse en Composantes Principales (ACP)

Ch2 : Analyse en Composantes Principales (ACP) Ch2 : Analyse en Composantes Principales (ACP) A- Objectifs B- construction d un espace factoriel C- Les étapes d une ACP D- Interprétation E- Limites A- Objectifs On dispose d un tableau de données X.

Plus en détail

L ACP sous SPSS. À Propos de ce document. Introduction

L ACP sous SPSS. À Propos de ce document. Introduction L ACP sous SPSS À Propos de ce document... Introduction... La démarche à suivre sous SPSS.... «Descriptives».... «Extraction».... «Rotation».... «Scores».... «Options»... Analyse des résultats.... Les

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 29/01/2007 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 29/01/2007 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE Plan du cours Qu est-ce que le data mining? À quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Analyse en Composantes. Principales

Analyse en Composantes. Principales AgroParisTech Analyse en Composantes Principales C Duby, S Robin Table des matières Introduction 3 2 Tableau de données 4 3 Choix d une distance 6 4 Choix de l origine 7 5 Moments d inertie 9 5 Inertie

Plus en détail

Analyse des données et Data Mining

Analyse des données et Data Mining Analyse des données et Data Mining Analyse en composantes principales utc sy09 1 Objectif des méthodes factorielles Visualiser, traiter des données multidimensionnelles Problème difficile Information apportée

Plus en détail

Analyse simultanée de variables quantitatives et qualitatives. à l aide de l analyse factorielle multiple

Analyse simultanée de variables quantitatives et qualitatives. à l aide de l analyse factorielle multiple Analyse simultanée de variables quantitatives et qualitatives à l aide de l analyse factorielle multiple Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus France Analyse Factorielle Multiple

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

Analyses statistiques multivariées. Béatrice de Tilière

Analyses statistiques multivariées. Béatrice de Tilière Analyses statistiques multivariées Béatrice de Tilière 23 novembre 2009 ii Table des matières 1 La Statistique 1 1.1 Généralités.................................. 1 1.2 Un peu de vocabulaire............................

Plus en détail

Session 1 durée 3 heures

Session 1 durée 3 heures Université de Nantes Mai 27 Master MIM Examen d'analyse de données Session durée 3 heures Les documents sont interdits. Les calculatrices sont autorisées. Exercice : - Etude d un tableau à l aide d une

Plus en détail

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES 2011 2012 ANALYSE DE DONNEES 2011 2012 LICENCE 3 SCIENCES ECONOMIQUES COURS DE M. THIERRY BLAYAC Analyse de données [Tapez le sous-titre du document] ANALYSE DE DONNEES Page 1 H34VEN Cours pour Licence

Plus en détail

Analyse multidimensionnelle de données longitudinales

Analyse multidimensionnelle de données longitudinales Analyse multidimensionnelle de données longitudinales Ndèye Niang Conservatoire National des Arts et Métiers Plan Introduction Terminologie-Notations Méthodes directes Coefficient d association vectorielle

Plus en détail

Mastertitelformat bearbeiten. Indice de marché AutoScout24 Décembre 2013. Flamatt 10.01.2014. www.autoscout24.ch

Mastertitelformat bearbeiten. Indice de marché AutoScout24 Décembre 2013. Flamatt 10.01.2014. www.autoscout24.ch Mastertitelformat bearbeiten www.autoscout24.ch Indice de marché AutoScout24 Décembre 2013 Flamatt 10.01.2014 Page 1 Titre de la présentation Auteur de la présentation Occasions selon type de carrosserie

Plus en détail

Analyse des données - Logiciel R

Analyse des données - Logiciel R Université de Strasbourg Analyse des données Master de Sciences, Spécialité Statistique 2012/13 Master Actuariat Emmanuel Périnel Analyse des données - Logiciel R TP n 2. L Analyse en Composantes Principales

Plus en détail

L analyse discriminante

L analyse discriminante L analyse discriminante À Propos de ce document... Introduction... La démarche à suivre sous SPSS... 2. Statistics... 2 2. Classify... 2 Analyse des résultats... 3. Vérification de l existence de différences

Plus en détail

Mastertitelformat bearbeiten. Indice de marché AutoScout24 Juin 2014. Flamatt 10.07.2014. www.autoscout24.ch

Mastertitelformat bearbeiten. Indice de marché AutoScout24 Juin 2014. Flamatt 10.07.2014. www.autoscout24.ch Mastertitelformat bearbeiten www.autoscout24.ch Indice de marché AutoScout24 Juin 2014 Flamatt 10.07.2014 Page 1 Titre de la présentation Auteur de la présentation Occasions selon type de carrosserie Nombre

Plus en détail

Analyse en composantes principales (ACP)

Analyse en composantes principales (ACP) Analyse en composantes principales (ACP) François Husson Laboratoire de mathématiques appliquées - Agrocampus Rennes husson@agrocampus-ouest.fr 1 / 31 Quel type de données? L ACP s intéresse à des tableaux

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015 L analyse des correspondances et ses applications en recherche marketing MONSUG mai 2015 Contenu Mise en contexte et exemple d application L analyse des correspondances multiples (ACM) L ACM et la segmentation

Plus en détail

Création de typologie sous SPSS

Création de typologie sous SPSS Création de typologie sous SPSS À Propos de ce document... 1 Introduction... 1 La démarche à suivre sous SPSS... 2 1. «Iterate»... 2 2. «Save»... 2 3. «Options»... 3 Analyse des résultats... 3 1. Historique

Plus en détail

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES STATISTIQUES I. Séries statistiques simples... 1 A. Définitions... 1 1. Population... 1 2. Caractère statistique... 1 B. Séries classées / représentations graphiques.... 2 1. Séries classées... 2 2. Représentations

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

ACP et classification de données spatiales

ACP et classification de données spatiales UE STA112 ACP et classification de données spatiales Mars 2012 Gilbert Saporta Conservatoire National des Arts et Métiers gilbert.saporta@cnam.fr http://cedric.cnam.fr/~saporta Compléments sur les indices

Plus en détail

Introduction à l analyse des correspondances et à la classification

Introduction à l analyse des correspondances et à la classification Introduction à l analyse des correspondances et à la classification Bertrand Iooss Véronique Verrier EDF R&D Département Management des Risques Industriels Cours IUP SID Toulouse - M1-17/10/2011 14/10/2011

Plus en détail

Rapport du stage effectué au laboratoire HEUDIASYC UMR CNRS 6599. Moustapha DOUMIATI. pour obtenir le diplôme Master de recherche en informatique

Rapport du stage effectué au laboratoire HEUDIASYC UMR CNRS 6599. Moustapha DOUMIATI. pour obtenir le diplôme Master de recherche en informatique Rapport du stage effectué au laboratoire HEUDIASYC UMR CNRS 6599 présenté par Moustapha DOUMIATI pour obtenir le diplôme Master de recherche en informatique Fouille de données pour l analyse des performances

Plus en détail

Test. www.test-achats.be/comparerauto. Consommation moyenne (l/100 km) Volume de chargement (l) Emissions polluantes

Test. www.test-achats.be/comparerauto. Consommation moyenne (l/100 km) Volume de chargement (l) Emissions polluantes Voitures: le top 5 Pour chacune des 13 sous-catégories que nous avons définies pour le marché belge de l automobile, nous vous présentons les 5 meilleurs modèles selon les résultats de nos tests. Et sur

Plus en détail

Data Mining: Activité hospitalière

Data Mining: Activité hospitalière Data Mining: Activité hospitalière DIAGNE Sénéba 1, Huai Yuan WAN 2 1. S2IFA 2. DRM Chapitre 1 Clustering : Activité hospitalière 1.1 Présentation des données Le périmètre des données représente ici un

Plus en détail

Nouveautés produits. Marque & Modèle Période Produit Référence

Nouveautés produits. Marque & Modèle Période Produit Référence Nouveautés produits Marque & Modèle Période Produit Référence AUDI A4 11/07 - Bras de suspension 33894 02 A6 11/10 - Rotule de direction 35740 01 A7 Sportback 11/11 - Rotule de direction 35740 01 A8 11/09

Plus en détail

L'analyse des données à l usage des non mathématiciens

L'analyse des données à l usage des non mathématiciens Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.

Plus en détail

Illustration sur un exemple de diverses procédures graphiques et quantitatives.

Illustration sur un exemple de diverses procédures graphiques et quantitatives. Au-delà de l'analyse des correspondances multiples : Illustration sur un exemple de diverses procédures graphiques et quantitatives Yannick Savina Jean-Marc Bernard Laboratoire de Psychologie Environnementale

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Plan du cours Analyse en Composantes Principales Introduction Les données Leurs représentations La méthode Modèle Interprétation statistique Espace principal Composantes Principales Représentations Graphiques

Plus en détail

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 9 ANALYSE MULTIDIMENSIONNELLE L analyse des données multidimensionnelles regroupe un ensemble de méthodes

Plus en détail

CH1 : Introduction à l Analyse Des Données (ADD) B- Les données et leurs caractéristiques C- Grandeurs associées aux données

CH1 : Introduction à l Analyse Des Données (ADD) B- Les données et leurs caractéristiques C- Grandeurs associées aux données CH1 : Introduction à l Analyse Des Données (ADD) A- Introduction A- Introduction B- Les données et leurs caractéristiques C- Grandeurs associées aux données A-1 Les méthodes Lors de toute étude statistique,

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Prof.É.D.Taillard. Classification automatique @Prof. E. Taillard 1 EIVD, Informatique logiciel, 4 e semestre

Prof.É.D.Taillard. Classification automatique @Prof. E. Taillard 1 EIVD, Informatique logiciel, 4 e semestre INFORMATIQUE ORIENTATION LOGICIELS CLASSIFICATION AUTOMATIQUE Prof.É.D.Taillard Classification automatique @Prof. E. Taillard EIVD, Informatique logiciel, 4 e semestre CLASSIFICATION AUTOMATIQUE But :

Plus en détail

CH 3 : Classification

CH 3 : Classification CH 3 : Classification A- Généralités B- Mesure d éloignement C- Critère d homogénéité D- Choix d une méthode E- Mesures de la qualité F- Interprétation G- ACP/Classification H- Exemple A- Généralités

Plus en détail

L Analyse en Composantes Principales. A. Morineau

L Analyse en Composantes Principales. A. Morineau L Analyse en Composantes Principales A. Morineau - 2005 1 L ACP, qu est ce? L ACP, qu est ce? Principe géométrique de l ACP X(n,p) tableau de données A. Morineau - 2005 4 Principe géométrique de l ACP

Plus en détail

3. ACM Analyse des Correspondances Multiples

3. ACM Analyse des Correspondances Multiples 3. ACM Analyse des Correspondances Multiples Analyse des Correspondances Multiples - ACM 1 Plan 1. Exemples, problématique 2. Le tableau de données étudié 3. Principe d une ACM 4. L ajustement des deux

Plus en détail

Le Multidimensional Scaling et la cartographie des préférences

Le Multidimensional Scaling et la cartographie des préférences Le Multidimensional Scaling et la cartographie des préférences Gilbert Saporta Conservatoire National des Arts et Métiers http://cedric.cnam.fr/~saporta Avril 2014 Multidimensional scaling Egalement appelé

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus²

Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus² Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus² Le Sphinx Développement Parc Altaïs 74650 CHAVANOD Tél : 33 / 4.50.69.82.98. Fax : 33 / 4.50.69.82.78.

Plus en détail

Analyse de Données. Analyse en Composantes Principales (ACP)

Analyse de Données. Analyse en Composantes Principales (ACP) Analyse de Données Analyse en Composantes Principales (ACP) Analyse en composantes principales (ACP) ** Sur toute la fiche, on notera M' la transposée de M. Cadre de travail : On a des données statistiques

Plus en détail

Analyse en composantes principales

Analyse en composantes principales Université de Rennes 2 Statistiques des données M1-GEO Ouvrages recommandés Analyse en composantes principales Ces livres sont à la BU. Pour les acheter, venir au bureau A-240 ou envoyer un mail : nicolas.jegou@uhb.fr

Plus en détail

Didacticiel - Etudes de cas

Didacticiel - Etudes de cas Objectif Montrer la complémentarité des méthodes de fouille de données (clustering) et de visualisation (analyse en composantes principales). Fichier Nous traitons le fichier CARS.XLS. Il est composé de

Plus en détail

Statistique de base avec R Partie 2 : Test d hypothèses et régression linéaire

Statistique de base avec R Partie 2 : Test d hypothèses et régression linéaire Statistique de base avec R Partie 2 : Test d hypothèses et régression linéaire Julien JACQUES Polytech Lille - Université Lille 1 Julien JACQUES (Polytech Lille) Statistiques de base 1 / 48 Plan 1 Tests

Plus en détail

Cours de J. Rynkiewicz Université Paris 1. Interrogation 2. Durée : 3 heures

Cours de J. Rynkiewicz Université Paris 1. Interrogation 2. Durée : 3 heures MOSEF Analyse de données Cours de J. Rynkiewicz Université Paris 1 1 Voitures Interrogation 2 Durée : 3 heures On dispose des mesures suivantes sur plusieurs types de voitures vendues en 2015 : CYL PUIS

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

TD ANALYSE DES DONNEES

TD ANALYSE DES DONNEES Master 2 TVPS Angers Analyse des données : ACP AFC CAH 1 TD ANALYSE DES DONNEES Exemple d'acp : Etude olfacto-gustative de cidres Plusieurs caractéristiques du cidre ont été mesurées sur 10 cidres différents.

Plus en détail

Laboratoire 2 Extraction des caractéristiques

Laboratoire 2 Extraction des caractéristiques Laboratoire 2 Extraction des caractéristiques L objectif de l extraction et de la sélection de caractéristiques est d identifier les caractéristiques importantes pour la discrimination entre classes. Après

Plus en détail

Partie 1 : Étude des caractéristiques d un ensemble d hôtels

Partie 1 : Étude des caractéristiques d un ensemble d hôtels Analyse de données M1 Statistique et économétrie - 2012 V. Monbet Classification Partie 1 : Étude des caractéristiques d un ensemble d hôtels Le fichier hotels.csv contient des caractéristiques liées au

Plus en détail

L analyse Factorielle des correspondances. 1/ Préambule descriptif de l AFC

L analyse Factorielle des correspondances. 1/ Préambule descriptif de l AFC L analyse Factorielle des correspondances...2 1/ Préambule descriptif de l AFC...2 Exemples de types de données que l AFC peut aborder:...2 Quelques types de tableaux traités par l AFC...3 2/ Exercice

Plus en détail

Commentaires sur le 9ème Palmarès / avril 2013

Commentaires sur le 9ème Palmarès / avril 2013 Commentaires sur le 9ème Palmarès / avril 2013 1423 versions de 215 modèles de 42 marques Le classement de la voiture citoyenne établi avec les modèles et les versions disponibles le 1 er décembre 2012

Plus en détail

Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande

Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande Université de Nantes M2 Ingénierie Mathématiques Rapport de chimiométrie Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de

Plus en détail

L analyse en composantes principales en pratique

L analyse en composantes principales en pratique L analyse en composantes principales en pratique Après avoir vu sa formalisation mathématique dans le module précédent, on s intéresse ici à l utilisation pratique de l ACP. 1 Objectifs L objectif de l

Plus en détail

Master 2 Informatique UAG. Classification de documents/textes

Master 2 Informatique UAG. Classification de documents/textes Data Mining Master 2 Informatique UAG Classification de documents/textes Utilisée en text mining, information retrieval : amélioration du recall et de la précision Moyen de trouver les voisins les plus

Plus en détail

1.1 Exemple introductif d un cube de données... 2

1.1 Exemple introductif d un cube de données... 2 1.1 Exemple introductif d un cube de données............... 2 2.1 Pré-traitement des données avec les outils OLAP [MHW00]...... 14 2.2 Architecture d un système intégrant SGBD, OLAP et MOLAP [Fu05] 16

Plus en détail

Application des méthodes de décomposition en composantes principales à la climatologie

Application des méthodes de décomposition en composantes principales à la climatologie Application des méthodes de décomposition en composantes principales à la climatologie Etude d un exemple: les modes de variabilité de la température de surface de la mer dans l océan Atlantique tropical

Plus en détail

Clustering Méthodes et algorithmes avancés Mars - 2006

Clustering Méthodes et algorithmes avancés Mars - 2006 Clustering Méthodes et algorithmes avancés Mars - 2006 Clustering (catégorisation) Objectifs du clustering Mesures de distances habituelles, similarités entre objets Les différents algorithmes Clustering

Plus en détail

Université de Thessalie Département d Aménagement, D Urbanisme et Développement Régional

Université de Thessalie Département d Aménagement, D Urbanisme et Développement Régional Université de Thessalie Département d Aménagement, D Urbanisme et Développement Régional Enseignant : As. Pr. Marie-Noelle Duquenne I. Les Méthodes factorielles La question traitée dans ce document porte

Plus en détail

Analyse en composantes principales

Analyse en composantes principales Analyse en composantes principales Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire LITIS Analyse en composantes principales p. 1/18 Introduction Objectifs Soit {x i } i=1,,l

Plus en détail

Méthodes de projection

Méthodes de projection Chapitre 11 Méthodes de projection Contenu 11.1 Analyse en composantes principales........ 138 11.1.1 L Analyse en Composantes Principales........ 139 11.1.2 La (grande) famille des ACP............. 151

Plus en détail

Data Mining : la classification non supervisée

Data Mining : la classification non supervisée Data Mining : la classification non supervisée Clustering : une affaire de distance. Etude préliminaire. Valeurs discrètes. Soient les deux individus suivants correspondant à des séquences ADN : X = AGGGTGGC

Plus en détail

- 1 - Résistance: BMW 3 (E46) ; M3 (E46) ; X3 (E83) ; X3 LCI (E83)

- 1 - Résistance: BMW 3 (E46) ; M3 (E46) ; X3 (E83) ; X3 LCI (E83) - 1 - Résistance: BMW 3 (E46) ; M3 (E46) ; X3 (E83) ; X3 LCI (E83) 64 11 6 929 486 64116929486 64 11 8 364 173 64118364173 64 11 8 377 579 64 11 8 383 835 64118383835 64 11 8 385 549 64118385549 64 11

Plus en détail

URL analysées. Informations générales

URL analysées. Informations générales VRDCI 10, rue Augereau 75007 Paris - FRANCE Tel : 01 45 35 00 80 Email : vrdci@vrdci.com - Référencement naturel avec paiement aux résultats - Ingénierie et design de sites web, intranet et applicatifs

Plus en détail

Partie I. Les données quantitatives

Partie I. Les données quantitatives Variables quantitatives : analyse en composantes principales Jean-Marc Lasgouttes https://whorocqinriafr/jean-marclasgouttes/ana-donnees/ Partie I Les données quantitatives Description de données quantitatives

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail