ACP Voitures 1- Méthode

Dimension: px
Commencer à balayer dès la page:

Download "ACP Voitures 1- Méthode"

Transcription

1 acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp variables and 24 observations.

2 ACP Voitures 1- Méthode summary(acp) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Standard deviation Proportion of Variance Cumulative Proportion Comp.6 Standard deviation Proportion of Variance Cumulative Proportion Rq : sum(acp$sdev^2)=6

3 ACP Voitures 2- Choix du nombre d axes Critère de Kaiser : (acp$sdev)^2 Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp On ne retient que la première composante qui retient 77,6% de l inertie totale

4 ACP Voitures 2- Choix du nombre d axes Critère du coude : plot(acp) On sélectionne deux axes, représentant 92,8% de l inertie totale.

5 ACP Voitures 2- Choix du nombre d axes Scree-test de Catell list(acp$sdev^2,diff(acp$sdev^2),diff(diff(acp$sdev^2))) [[1]] Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp [[2]] Comp.2 Comp.3 Comp.4 Comp.5 Comp [[3]] Comp.3 Comp.4 Comp.5 Comp Conduit à retenir 3 composantes

6 ACP Voitures 2- Choix du nombre d axes Conclusion : Un bon compromis est de considérer deux composantes, représentant à peu près 93% de l inertie totale.

7 ACP Voitures 3- Etude de l axe 1 Individus : Contribuent essentiellement les individus dont les coordonnées sur l axe 1 (composantes principales) sont > en valeur absolue à la racine de la valeur propre d ordre 1, égale à , sous réserve qu ils soient bien représentés sur l axe.

8 ACP Voitures 3- Etude de l axe 1 qlt=(acp$scores^2/apply(acp$scores^2,1, sum))[,1] tab=cbind(contrib=acp$scores[,1],qlt) tab1=tab[tab[,1]<0,] tab2=tab[tab[,1]>0,] contrib qlt Renault_ Bmw_530i Rover_827i Renault_ Opel_Omega Peugeot_405_Break Ford_Sierra Bmw_325iX Audi_90_Quattro Ford_Scorpio Renault_Espace VW_Caravelle contrib qlt Honda_Civic Renault_ Fiat_Tipo Peugeot_ Citroen_BX Nissan_Vanette Ford_Fiesta Fiat_Uno Peugeot_ Peugeot_205_Rallye Seat_Ibiza_SX_I Citroen-ax-sport

9 ACP Voitures 3- Etude de l axe 1 L'axe 1 oppose la Bmw 530i, la Rover 827i, la Renault 25 et la Ford Scorpio à la Fiat Uno, la Ford Fiesta, la Citroen-ax-sport, la Peugeot 205 Rallye et la Peugeot 205 et éventuellement Seat Ibiza SX I et le Honda Civic, c est à dire les grosses berlines aux citadines. Tous les modèles sont assez bien représentés sur l'axe 1, à part la Nissan Vanette, la Peugeot_405 et la Renault 21.

10 Vitesse Bmw_325iX Peugeot_205_Rallye Citroen-ax-sport Audi_90_Quattro Comp Puissance Bmw_530i Rover_827i Cylindre Poids Longueur Largeur Renault_25 Ford_Scorpio Seat_Ibiza_SX_I Peugeot_205 Honda_Civic Peugeot_405_Break Fiat_Uno Renault_19 Citroen_BX Ford_Sierra Peugeot_405 Fiat_Tipo Renault_21 Opel_Omega Renault_Espace Ford_Fiesta Nissan_Vanette VW_Caravelle Comp.1

11 ACP Voitures 3- Etude de l axe 1 Variables : On retient les variables telles que la coordonnée de u1 (premier vecteur propre) est supérieur en valeur absolue à 1/racine(nombre de variables)= Il n y a pas de problème de représentativité car ce sont les variables qui contribuent le plus qui sont le mieux représentées. loadings(acp)[,1] Cylindre Puissance Vitesse Poids Longueur Largeur [1,] L axe1 isole les modèles ayant de fortes valeurs de toutes leurs caractéristiques aux autres (effet taille)

12 ACP Voitures 3- Etude de l axe 1 Conclusion pour l axe 1: l axe 1 est un axe de «taille». Il oppose les grosses berlines puissantes et de grande dimension aux citadines de faible dimension et peu puissantes.

13 ACP Voitures 4- Etude de l axe 2 Individus : Contribuent essentiellement les individus dont les coordonnées sur l axe 2 (composantes principales) sont > en valeur absolue à la racine de la valeur propre d ordre 2, égale à , sous réserve qu ils soient bien représentés sur l axe.

14 ACP Voitures 4- Etude de l axe 2 qlt=(acp$scores^2/apply(acp$scores^2,1,su m))[,2] tab=cbind(contrib=acp$scores[,2],qlt) tab1=tab[tab[,1]<0,] contrib qlt Renault_ e-02 Fiat_Tipo e-02 Peugeot_ e-01 Renault_ e-01 Citroen_BX e-02 Opel_Omega e-01 Ford_Sierra e-01 Ford_Scorpio e-03 Renault_Espace e-01 Nissan_Vanette e-01 VW_Caravelle e-01 Ford_Fiesta e-02 Fiat_Uno e-05 tab2=tab[tab[,1]>0,] contrib qlt Honda_Civic Bmw_530i Rover_827i Renault_ Peugeot_405_Break Bmw_325iX Audi_90_Quattro Peugeot_ Peugeot_205_Rallye Seat_Ibiza_SX_I Citroen-ax-sport

15 ACP Voitures 4- Etude de l axe 2 L axe 2 oppose les voitures familiales (vans ou volumineuses) - VW caravelle, Nissan caravelles et accessoirement ford fiesta et renault espace-, aux sportives (et accessoirement routières) - Bmw_325iX, Audi_90_Quattro Peugeot_205_Rallye, Seat_Ibiza_SX_I et Citroen-axsport -

16 Vitesse Bmw_325iX Peugeot_205_Rallye Citroen-ax-sport Audi_90_Quattro Comp Puissance Bmw_530i Rover_827i Cylindre Poids Longueur Largeur Renault_25 Ford_Scorpio Seat_Ibiza_SX_I Peugeot_205 Honda_Civic Peugeot_405_Break Fiat_Uno Renault_19 Citroen_BX Ford_Sierra Peugeot_405 Fiat_Tipo Renault_21 Opel_Omega Renault_Espace Ford_Fiesta Nissan_Vanette VW_Caravelle Comp.1

17 ACP Voitures 4- Etude de l axe 2 Variables : On retient les variables telles que la coordonnée de u2 (deuxième vecteur propre) est supérieur en valeur absolue à 1/racine(nombre de variables)= Il n y a pas de problème de représentativité car ce sont les variables qui contribuent le plus qui sont le mieux représentées.

18 ACP Voitures 4- Etude de l axe 2 tab1=loadings(acp)[loadings(acp)[, 2]<0,2] tab2=loadings(acp)[loadings(acp)[,2]> 0,2] Poids Longueur Largeur Cylindre Puissance Vitesse

19 ACP Voitures 4- Etude de l axe 2 Conclusion : L axe 2 oppose les voitures familiales (VW caravelle, Nissan caravelles et accessoirement ford fiesta et renault espace), imposantes mais lentes aux sportives (Bmw_325iX,Audi_90_Quattro Peugeot_205_Rallye, Seat_Ibiza_SX_I et Citroen-axsport), de petit gabarit (moins larges que la moyenne et aussi accessoirement moins longues et moins lourdes) mais roulant vite et puissantes.

20 Classification 1- Méthode Ici, il y a peu d individus et n-p est raisonnable. La méthode la plus appropriée est la CAH. On va utiliser la métrique inverse des écartstypes (tableau centré réduit, puis utilisation de la métrique Euclidienne), et la distance de Ward comme stratégie d agrégation. >voi=scale(voit)*sqrt(24/23) On peut vérifier que l inertie du nuage de points individus=nombre de variables (car le tableau est centré réduit ): > sum(voi^2)/24 [1] 6

21 Classification 1- Méthode > cl=hclust(dist(voi)^2, method="ward") Perte d inertie inter-classes (distance d agrégation) à chaque agrégation : >dib=cl$height/48 [1] [7] [13] [19]

22 Classification on vérifie: >sum(dib) [1] 6 Ainsi, l inertie interclasses passe de 6 (=inertie totale) à 6- sum(dib)=0.

23 Classification 2- Choix du nombre de classes Pourcentage d inertie inter conservé à chaque itération > r2=(6-cumsum(dib))/6;r2 [1] e e e e e-01 [6] e e e e e-01 [11] e e e e e-01 [16] e e e e e-01 [21] e e e-16 >r2=r2[24-1:24] > plot(r2,type="b", main="r² : % de variance inter expliquée", cex=0.5, xlab=«nombre de classes")

24 Classification 2- Choix du nombre de classes Pourcentage de variation perdu à chaque itération > sprs2=dib/6;sprs2 [1] [6] [11] [16] [21] >sprs=sprs2[24-1:24] > plot(sprs2,type="b", cex=0.5, main="r² semi-partiel",xlab=«nombre de classes")

25 Classification 2- Choix du nombre de classes

26 Dendogramme

27 Classification 2- Choix du nombre de classes Conclusion : Avec le R2 : La première chute notable du % de variance interclasses eu lieu au passage de 7 à 6 classes, où l on passe de 91% à 87% de l inertie totale. Un deuxième décrochement du % de variance interclasses a lieu lorsque l on passe à deux classes. Jusqu à 3 classes, la perte d inertie inter est tolérable 3 classes restituent encore 75% de l inertie totale (ie, de l information contenue dans les données). Il semble que le bon choix soit 7 classes, mais si cela fait trop ou qu elles ne sont pas interprétables, on peut en choisir 3. Avec le R2 semi-partiel : le pic suivi d un creux dans le graphe se fait au passage de 6 à 7 classes, ensuite la perte est beaucoup trop importante, ce qui conduit par ce critère à choisir 7 classes. On retrouve un saut sur le dendogramme au passage de 7 à 6 classes.

28 Classification 3- Identification des classes >plot(cl,hang=-1,cex=0.7); rect.hclust(cl, k=7, border="red"); rect.hclust(cl, k=7, border=«blue")

29 Classification 3- Identification des classes Vérification de la stabilité des classes par partitionnement km=kmeans(voi,7) ; sort(km$cluster) Renault_19 Fiat_Tipo Peugeot_405 Renault_ Citroen_BX Bmw_325iX Audi_90_Quattro Opel_Omega Peugeot_405_Break Ford_Sierra Renault_Espace Honda_Civic Peugeot_205_Rallye Seat_Ibiza_SX_I Citroen-ax-sport Bmw_530i Rover_827i Renault_25 Ford_Scorpio Ford_Fiesta Fiat_Uno Peugeot_205 Nissan_Vanette VW_Caravelle

30 Classification 3- Identification des classes

31 Classification 3- Identification des classes C1(n=4) C4 C2(n=5) C1 C3(n=4) C5 C4(n=4) C3 C5(n=2) C2 C6(n=2) C7 C7(n=3) Petites Berlines Grandes volumin routières vans petites sportives moyennes routières euses Honda_Civic Peugeot_205 _Rallye Seat_Ibiza_S X_I Citroen-axsport Renault_19 Fiat_Tipo Peugeot_405 Renault_21 Citroen_BX Bmw_530i Rover_827i Renault_25 Ford_Scorpio Opel_Omega Peugeot_405 _Break Ford_Sierra Renault_Esp ace Bmw_325iX Audi_90_Qu attro Nissan_Vane tte VW_Caravell e C6 Ford_Fiesta Fiat_Uno Peugeot_205

32 Classification 4- Caractérisation Calcul des moyennes par classes sur le tableau centré réduit > km$center (classes de la k-means) Cylindre Puissance Vitesse Poids Longueur Largeur On compare les moyennes à 0.

33 Classification 4- Caractérisation Calcul de l excentricité des classes= distance renormalisée du centre de gravité de la classe au centre de gravité du nuage= distance du centre de gravité du tableau centré réduit à 0 apply(km$centers^2,1,sum) Calcul des moyennes par classes du tableau brut tab= cbind(voit,class=cutree(cl,k=7)) t=matrix(rep(0,49),7,7) for(i in 1:7){t[i,]= apply(tab[which(tab[,7]==i),],2,mean)}

34 Classification 4- Caractérisation Moyennes brutes (avec classes de la CAH) C1 C2 C3 C4 C5 C6 C7 total Cylindre Puissance Vitesse Poids Longueur Largeur excentricité

35 Classification 4- Caractérisation

36 Classification 5- Représentation dans les axes factoriels de l ACP (programme n 3 du cours modifié cl=hclust(dist(voi), method="ward") p = princomp(voi) u = p$loadings x = (t(u) %*% t(voi))[1:2,] x = t(x) plot(x, col=cutree(cl, k=7), pch=3, lwd=3, xlab="caractéristiques fortes--- faibles", ylab="volumineuses---puissantes") text( x[,1], x[,2], attr(x, "dimnames")[[1]],col=cutree(cl, k=7),cex=0.7 )

37

38 Classification

39 Discrimination >tab= cbind(voit,class=cutree(cl,k=7)) >library(mass) >a=lda(class~cylindre+puissance+vitesse+poids+longueur+largeur,dat a=tab) Call: lda(class ~ Cylindre + Puissance + Vitesse + Poids + Longueur + Largeur, data = tab) Prior probabilities of groups:

40 Discrimination Group means: Cylindre Puissance Vitesse Poids Longueur Largeur

41 Discrimination Coefficients of linear discriminants: LD1 LD2 LD3 LD4 LD5 Cylindre Puissance Vitesse Poids Longueur Largeur

42 Discrimination Proportion of trace: LD1 LD2 LD3 LD4 LD5 LD Deux axes conservent à peu près 87% de l information donc on n interprètera que les deux premiers axes.

43 Discrimination > rbind(a$mean,mean(voi)) Cylindre Puissance Vitesse Poids Longueur Largeur

44 Discrimination > D=matvoi%*%a$scaling > cor(voi,d[,1:2]) LD1 LD2 Cylindre Puissance Vitesse Poids Longueur Largeur L axe 1 oppose les voitures dont les caractéristiques sont faibles à celles dont toutes les caractéristiques sont fortes. L axe 2 oppose les voitures lourdes et peu rapides aux autres.

45 Discrimination >plot(a, col = as.numeric(tab[,7]),dimen=2,xlab="faible-----forte",ylab=" lourdes et lentes")

46 Discrimination

Il y a 24 individus en ligne (les modèles de voitures) et 6 variables en colonnes (paramètres mécaniques). Valeurs propres

Il y a 24 individus en ligne (les modèles de voitures) et 6 variables en colonnes (paramètres mécaniques). Valeurs propres VOITURE: On étudie 6 différents paramètres mécaniques (les variables), exprimées dans des unités différentes, de 24 modèles de voitures (les individus). Modèle Cylindre Puissance Vitesse Poids Longueur

Plus en détail

CH 3 : Classification

CH 3 : Classification CH 3 : Classification A- Généralités B- Mesure d éloignement C- Critère d homogénéité D- Choix d une méthode E- Mesures de la qualité F- Interprétation G- ACP/Classification H- Exemple A- Généralités

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

CLASSIFICATION. ESIEA 5 ème année

CLASSIFICATION. ESIEA 5 ème année CLASSIFICATION ESIEA 5 ème année 2009/200 Les données Modèle Cylindrée Puissance Vitesse Poids Longueur Largeur Honda Civic 396 90 74 850 369 66 Renault 9 72 92 80 965 45 69 Fiat Tipo 580 83 70 970 395

Plus en détail

Ch2 : Analyse en Composantes Principales (ACP)

Ch2 : Analyse en Composantes Principales (ACP) Ch2 : Analyse en Composantes Principales (ACP) A- Objectifs B- construction d un espace factoriel C- Les étapes d une ACP D- Interprétation E- Limites A- Objectifs On dispose d un tableau de données X.

Plus en détail

HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES

HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES 105 HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES 1. Introduction En statistiques il arrive fréquemment que les individus soient décrits par un grand nombre de caractères. : voitures décrites par leur

Plus en détail

L analyse en composantes principales en pratique

L analyse en composantes principales en pratique L analyse en composantes principales en pratique Après avoir vu sa formalisation mathématique dans le module précédent, on s intéresse ici à l utilisation pratique de l ACP. 1 Objectifs L objectif de l

Plus en détail

TD2 Gestion de la relation clientèle

TD2 Gestion de la relation clientèle TD2 Gestion de la relation clientèle Prof. Christophe Sempels Contexte Année 1980 27 modèles de voitures analysés Caractéristiques spécifiées : CV, prix, cylindrée, puissance, vitesse, longueur, prime

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Introduction à l analyse des données. Olivier Godechot

Introduction à l analyse des données. Olivier Godechot Introduction à l analyse des données Olivier Godechot Introduction. Les données statistiques : de très nombreuses variables. Aucune n est parfaite La perception d un phénomène appréhendée comme la combinaison

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac La classification 2012-2013 Fabien Chevalier Jérôme Le Bellac Introduction : Classification : méthode d analyse de données Objectif : Obtenir une représentation schématique simple d'un tableau de données

Plus en détail

Didacticiel - Etudes de cas

Didacticiel - Etudes de cas Objectif Montrer la complémentarité des méthodes de fouille de données (clustering) et de visualisation (analyse en composantes principales). Fichier Nous traitons le fichier CARS.XLS. Il est composé de

Plus en détail

Atelier N 6 : Analyse en composantes principales (ACP) Présentation des méthodes d analyses multivariées

Atelier N 6 : Analyse en composantes principales (ACP) Présentation des méthodes d analyses multivariées Atelier N 6 : Analyse en composantes principales (ACP) Contenu : Présentation des méthodes d analyses multivariées Présentation des méthodes d analyses multivariées Classification des méthodes : Les méthodes

Plus en détail

L'analyse en composantes principales (A.C.P.)

L'analyse en composantes principales (A.C.P.) Montpellier L'analyse des données multivariées à l'aide du logiciel L'analyse en composantes principales (A.C.P.) INRA - Formation Permanente Juillet 2005 André Bouchier p.1/23 Copyright 2005 André Bouchier

Plus en détail

COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES

COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 6 : Modélisation non-supervisée

Plus en détail

Cours 7 ANALYSE EN COMPOSANTES PRINCIPALES (ACP) Master 2 2005/2006

Cours 7 ANALYSE EN COMPOSANTES PRINCIPALES (ACP) Master 2 2005/2006 Cours 7 ANALYSE EN COMPOSANTES PRINCIPALES (ACP) Master 2 2005/2006 . Les données NOMS PUISS CYLI Co uple Ma xi LONG LARG H AUT COFFRE RESE POIDS VITE CONS ALF 47,9 JTD Distinctive 5 90 28 4,7,73,44 280

Plus en détail

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h I.U.T de Caen STID 2ème année Département STID Année Universitaire 2002-2003 Responsable de cours : Alain LUCAS Seule la calculatrice type collège est autorisée. Seul le cours est autorisé. On rappelera

Plus en détail

Data Mining: Activité hospitalière

Data Mining: Activité hospitalière Data Mining: Activité hospitalière DIAGNE Sénéba 1, Huai Yuan WAN 2 1. S2IFA 2. DRM Chapitre 1 Clustering : Activité hospitalière 1.1 Présentation des données Le périmètre des données représente ici un

Plus en détail

GUIDE DU DATA MINER. Classification - Typologies. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Classification - Typologies. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Classification - Typologies Data Management, Data Mining, Text Mining 1 Guide du Data Miner Classification - Typologies Le logiciel décrit dans le manuel est diffusé dans le cadre d

Plus en détail

L ACP sous SPSS. À Propos de ce document. Introduction

L ACP sous SPSS. À Propos de ce document. Introduction L ACP sous SPSS À Propos de ce document... Introduction... La démarche à suivre sous SPSS.... «Descriptives».... «Extraction».... «Rotation».... «Scores».... «Options»... Analyse des résultats.... Les

Plus en détail

Analyse en Composantes Principales (avec SPAD) Classification Ascendante Hiérarchique

Analyse en Composantes Principales (avec SPAD) Classification Ascendante Hiérarchique Analyse en Composantes Principales (avec SPAD) et Classification Ascendante Hiérarchique Michel Tenenhaus 1 Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J.-C.) extrait de l Histoire de l

Plus en détail

Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande

Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande Université de Nantes M2 Ingénierie Mathématiques Rapport de chimiométrie Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de

Plus en détail

Analyse des données - Logiciel R

Analyse des données - Logiciel R Université de Strasbourg Analyse des données Master de Sciences, Spécialité Statistique 2012/13 Master Actuariat Emmanuel Périnel Analyse des données - Logiciel R TP n 2. L Analyse en Composantes Principales

Plus en détail

Partie 1 : Étude des caractéristiques d un ensemble d hôtels

Partie 1 : Étude des caractéristiques d un ensemble d hôtels Analyse de données M1 Statistique et économétrie - 2012 V. Monbet Classification Partie 1 : Étude des caractéristiques d un ensemble d hôtels Le fichier hotels.csv contient des caractéristiques liées au

Plus en détail

Mastertitelformat bearbeiten. Indice de marché AutoScout24 Juin 2014. Flamatt 10.07.2014. www.autoscout24.ch

Mastertitelformat bearbeiten. Indice de marché AutoScout24 Juin 2014. Flamatt 10.07.2014. www.autoscout24.ch Mastertitelformat bearbeiten www.autoscout24.ch Indice de marché AutoScout24 Juin 2014 Flamatt 10.07.2014 Page 1 Titre de la présentation Auteur de la présentation Occasions selon type de carrosserie Nombre

Plus en détail

L analyse Factorielle des correspondances. 1/ Préambule descriptif de l AFC

L analyse Factorielle des correspondances. 1/ Préambule descriptif de l AFC L analyse Factorielle des correspondances...2 1/ Préambule descriptif de l AFC...2 Exemples de types de données que l AFC peut aborder:...2 Quelques types de tableaux traités par l AFC...3 2/ Exercice

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Session 1 durée 3 heures

Session 1 durée 3 heures Université de Nantes Mai 27 Master MIM Examen d'analyse de données Session durée 3 heures Les documents sont interdits. Les calculatrices sont autorisées. Exercice : - Etude d un tableau à l aide d une

Plus en détail

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité Introduction à l analyse des données Analyse des Données () Le but de l analyse de données est de synthétiser, structurer l information contenue dans des données multidimensionnelles Deux groupes de méthodes

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 6. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 6. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 6 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

Quelques analyses simples avec R en écologie des communautés

Quelques analyses simples avec R en écologie des communautés Jérôme Mathieu janvier 2007 Quelques analyses simples avec R en écologie des communautés 1 Visualisation des données... 2 Aperçu rapide d'un tableau de données... 3 Visualiser les corrélations entre des

Plus en détail

Mastertitelformat bearbeiten. Indice de marché AutoScout24 Décembre 2013. Flamatt 10.01.2014. www.autoscout24.ch

Mastertitelformat bearbeiten. Indice de marché AutoScout24 Décembre 2013. Flamatt 10.01.2014. www.autoscout24.ch Mastertitelformat bearbeiten www.autoscout24.ch Indice de marché AutoScout24 Décembre 2013 Flamatt 10.01.2014 Page 1 Titre de la présentation Auteur de la présentation Occasions selon type de carrosserie

Plus en détail

TP 3 : analyses statistiques

TP 3 : analyses statistiques TP 3 : analyses statistiques Exercice I : Le test de student Construire un vecteur (nommé X de 100 valeurs dont chaque élément est issu d une loi normale de moyenne nulle et de variance unitaire. Construire

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Plan du cours Analyse en Composantes Principales Introduction Les données Leurs représentations La méthode Modèle Interprétation statistique Espace principal Composantes Principales Représentations Graphiques

Plus en détail

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015 L analyse des correspondances et ses applications en recherche marketing MONSUG mai 2015 Contenu Mise en contexte et exemple d application L analyse des correspondances multiples (ACM) L ACM et la segmentation

Plus en détail

Méthodes de projection

Méthodes de projection Chapitre 11 Méthodes de projection Contenu 11.1 Analyse en composantes principales........ 138 11.1.1 L Analyse en Composantes Principales........ 139 11.1.2 La (grande) famille des ACP............. 151

Plus en détail

Chapitre 2. Caractéristiques des distributions à une variable quantitative

Chapitre 2. Caractéristiques des distributions à une variable quantitative Chapitre 2. Caractéristiques des distributions à une variable quantitative Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University

Plus en détail

TP2 : ANALYSE DESCRIPTIVE MULTIVARIÉE

TP2 : ANALYSE DESCRIPTIVE MULTIVARIÉE Statistique Numérique et Analyse de Données Ecole des Ponts ParisTech, 2 ème année TP2 : ANALYSE DESCRIPTIVE MULTIVARIÉE Analyse des données de peintures de Rembrandt et de Van Gogh On se propose, à titre

Plus en détail

Introduction sur l analyse en composantes principales (ACP)

Introduction sur l analyse en composantes principales (ACP) Introduction sur l analyse en composantes principales (CP) ) Introduction sur un exemple à 2 dimensions On veut représenter graphiquement les profils d élèves qui ont été notés sur 2 matières (Français

Plus en détail

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 9 ANALYSE MULTIDIMENSIONNELLE L analyse des données multidimensionnelles regroupe un ensemble de méthodes

Plus en détail

TD ANALYSE DES DONNEES

TD ANALYSE DES DONNEES Master 2 TVPS Angers Analyse des données : ACP AFC CAH 1 TD ANALYSE DES DONNEES Exemple d'acp : Etude olfacto-gustative de cidres Plusieurs caractéristiques du cidre ont été mesurées sur 10 cidres différents.

Plus en détail

Commentaires sur le 9ème Palmarès / avril 2013

Commentaires sur le 9ème Palmarès / avril 2013 Commentaires sur le 9ème Palmarès / avril 2013 1423 versions de 215 modèles de 42 marques Le classement de la voiture citoyenne établi avec les modèles et les versions disponibles le 1 er décembre 2012

Plus en détail

Etude comparative de la classification ascendante hiérarchique et de la classification floue pour identifier cinq familles de voitures

Etude comparative de la classification ascendante hiérarchique et de la classification floue pour identifier cinq familles de voitures Etude comparative de la classification ascendante hiérarchique et de la classification floue pour identifier cinq familles de voitures Geneviève PAVIOT Maître de Conférences en Gestion 2 RESUME Le marché

Plus en détail

Analyse des données - Logiciel R

Analyse des données - Logiciel R Université de Strasbourg Analyse des données Master de Sciences, Spécialité Statistique 2012/13 Master Actuariat Emmanuel Périnel Analyse des données - Logiciel R TP n 3. L Analyse en Composantes Principales

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Analyse multivariée approfondie

Analyse multivariée approfondie Analyse multivariée approfondie Enseignants: NIANG N. et RUSSOLILLIO G. Maître de conférences Statistique Appliquée Laboratoire CEDRIC CNAM http://www.cnam.fr et d autres intervenants extérieurs au Cnam

Plus en détail

Analyse multidimensionnelle de données longitudinales

Analyse multidimensionnelle de données longitudinales Analyse multidimensionnelle de données longitudinales Ndèye Niang Conservatoire National des Arts et Métiers Plan Introduction Terminologie-Notations Méthodes directes Coefficient d association vectorielle

Plus en détail

Cours 2-3 Analyse des données multivariées

Cours 2-3 Analyse des données multivariées Cours 2-3 des données s Ismaël Castillo École des Ponts, 13 Novembre 2012 Plan 1 2 3 4 1. On s intéresse à un jeu de données multi-dimensionel, avec n individus observés et p variables d intérêt ( variables

Plus en détail

Clustering. Christine Decaestecker, ULB Marco Saerens, UCL. LINF2275 Clustering 1

Clustering. Christine Decaestecker, ULB Marco Saerens, UCL. LINF2275 Clustering 1 Clustering Christine Decaestecker, ULB Marco Saerens, UCL LINF75 Clustering 1 Classification non-supervisée (automatique) Méthodes de regroupement ("Clustering") Objectif : Sur base - soit d'un tableau

Plus en détail

Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours

Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours R.R. Université Lyon 2 1 Fichier de données Prédiction de la consommation de véhicules (1) Prédire la consommation des véhicules à partir de ses

Plus en détail

Prix de vente des voitures neuves dans l Union européenne au 1er novembre 1996 : les plus bas aux Pays-Bas, les plus élevés en Allemagne

Prix de vente des voitures neuves dans l Union européenne au 1er novembre 1996 : les plus bas aux Pays-Bas, les plus élevés en Allemagne IP/97/113 Bruxelles, le 14 février 1997 Prix de vente des voitures neuves dans l Union européenne au 1er novembre 1996 : les plus bas aux Pays-Bas, les plus élevés en Allemagne Au 1er novembre 1996, 23

Plus en détail

Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J. C.) extrait de l Histoire de l Art de Ernst Gombrich

Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J. C.) extrait de l Histoire de l Art de Ernst Gombrich 1 Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J. C.) extrait de l Histoire de l Art de Ernst Gombrich 2 1. Enquête FT sur les MBA 2001 100 MBA 12 caractéristiques de l école : Women Faculty,

Plus en détail

Analyse discriminante

Analyse discriminante Analyse discriminante Christine Decaestecker & Marco Saerens ULB & UCL LINF2275 1 Analyse Discriminante Particularités: 2 formes/utilisations complémentaires: méthode factorielle: description "géométrique"

Plus en détail

LANIERE EXPERIMENTALE 2~ année 1" cycle

LANIERE EXPERIMENTALE 2~ année 1 cycle LANIERE EXPERIMENTALE 2~ année 1" cycle I J.R BRQSSARD I si CAHIER ;t;;af f ^NlQME * I INTERACTION VEHICULE -ATMMOSPHERE Voir aussi cahiers 2-3 Mécaniquf : JP BROSSARD Voir aussi cahier 4 Construction

Plus en détail

Classification. Pr Roch Giorgi. roch.giorgi@univ-amu.fr

Classification. Pr Roch Giorgi. roch.giorgi@univ-amu.fr Classification Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr Objectif Rechercher

Plus en détail

Groupes et Actions de groupes. 1 Groupes, morphismes et actions de groupes.

Groupes et Actions de groupes. 1 Groupes, morphismes et actions de groupes. Groupes et Actions de groupes On présente ici des notions de base de théorie des groupes pour l agrégation interne. 1 Groupes, morphismes et actions de groupes. Un groupe (G, ), ou plus simplement G, est

Plus en détail

CH1 : Introduction à l Analyse Des Données (ADD) B- Les données et leurs caractéristiques C- Grandeurs associées aux données

CH1 : Introduction à l Analyse Des Données (ADD) B- Les données et leurs caractéristiques C- Grandeurs associées aux données CH1 : Introduction à l Analyse Des Données (ADD) A- Introduction A- Introduction B- Les données et leurs caractéristiques C- Grandeurs associées aux données A-1 Les méthodes Lors de toute étude statistique,

Plus en détail

Cours de J. Rynkiewicz Université Paris 1. Interrogation 2. Durée : 3 heures

Cours de J. Rynkiewicz Université Paris 1. Interrogation 2. Durée : 3 heures MOSEF Analyse de données Cours de J. Rynkiewicz Université Paris 1 1 Voitures Interrogation 2 Durée : 3 heures On dispose des mesures suivantes sur plusieurs types de voitures vendues en 2015 : CYL PUIS

Plus en détail

L'analyse des données à l usage des non mathématiciens

L'analyse des données à l usage des non mathématiciens Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.

Plus en détail

Méthodes Numériques et Informatiques (MP050) Examen de TP du 23 juin 2010

Méthodes Numériques et Informatiques (MP050) Examen de TP du 23 juin 2010 Méthodes Numériques et Informatiques () Examen de TP du 23 juin 2010 Calculatrices et documents autorisés Les deux parties sont indépendantes. Les questions indépendantes sont signalées par le symbole

Plus en détail

Application des méthodes de décomposition en composantes principales à la climatologie

Application des méthodes de décomposition en composantes principales à la climatologie Application des méthodes de décomposition en composantes principales à la climatologie Etude d un exemple: les modes de variabilité de la température de surface de la mer dans l océan Atlantique tropical

Plus en détail

Initiation à l analyse en composantes principales

Initiation à l analyse en composantes principales Fiche TD avec le logiciel : tdr1103 Initiation à l analyse en composantes principales A.B. Dufour & D. Clot Une première approche très intuitive et interactive de l ACP. Table des matières 1 Introduction

Plus en détail

Cours 2 : Rappels de Statistique descriptive. A- Introduction B- Statistique descriptive unidimensionnelle C- Statistique descriptive bidimensionnelle

Cours 2 : Rappels de Statistique descriptive. A- Introduction B- Statistique descriptive unidimensionnelle C- Statistique descriptive bidimensionnelle Cours 2 : Rappels de Statistique descriptive A- Introduction B- Statistique descriptive unidimensionnelle C- Statistique descriptive bidimensionnelle A- Introduction A- Introduction Rappel : Série statistique

Plus en détail

Analyse en composantes principales

Analyse en composantes principales Analyse en composantes principales Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire LITIS Analyse en composantes principales p. 1/18 Introduction Objectifs Soit {x i } i=1,,l

Plus en détail

Analyse en composantes principales (ACP)

Analyse en composantes principales (ACP) Analyse en composantes principales (ACP) François Husson Laboratoire de mathématiques appliquées - Agrocampus Rennes husson@agrocampus-ouest.fr 1 / 31 Quel type de données? L ACP s intéresse à des tableaux

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES 2011 2012 ANALYSE DE DONNEES 2011 2012 LICENCE 3 SCIENCES ECONOMIQUES COURS DE M. THIERRY BLAYAC Analyse de données [Tapez le sous-titre du document] ANALYSE DE DONNEES Page 1 H34VEN Cours pour Licence

Plus en détail

Analyse des données et algèbre linéaire

Analyse des données et algèbre linéaire Analyse des données et algèbre linéaire Fondamentaux pour le Big Data c Télécom ParisTech 1/15 Machine-Learning : Une donnée x i = un ensemble de features (caractères) d un individu i x i = (x i,1,...,

Plus en détail

Université de Thessalie Département d Aménagement, D Urbanisme et Développement Régional

Université de Thessalie Département d Aménagement, D Urbanisme et Développement Régional Université de Thessalie Département d Aménagement, D Urbanisme et Développement Régional Enseignant : As. Pr. Marie-Noelle Duquenne I. Les Méthodes factorielles La question traitée dans ce document porte

Plus en détail

Analyse des Données. Travaux Pratiques 3

Analyse des Données. Travaux Pratiques 3 Analyse des Données Travaux Pratiques 3 1 Introduction Ce TP sera consacré aux analyses factorielles. La première partie présentera un exemple réel (et poussé) d une analyse factorielle des correspondances

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

2 nd semestre. Synthèse de l étude D3 Parcours Analyse de la fidélité des clients par marque. En partenariat avec

2 nd semestre. Synthèse de l étude D3 Parcours Analyse de la fidélité des clients par marque. En partenariat avec 2 nd semestre 2014 Synthèse de l étude D3 Parcours Analyse de la fidélité des clients par marque En partenariat avec Note de synthèse 1 +33 6 87 70 31 12 1. Cadre général L étude D3 Parcours est réalisée

Plus en détail

SEMIN. Analyses factorielles avec R. Elisabeth MORAND INED

SEMIN. Analyses factorielles avec R. Elisabeth MORAND INED SEMIN Analyses factorielles avec R Elisabeth MORAND INED SEMIN R du MNHN 10 Décembre 2009 E. Morand 10 Décembre 2009 INED 1 / 42 Part I Analyse en Composantes Principales : ACP 2 / 42 Sommaire 1 Introduction

Plus en détail

TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM

TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM Emmanuel Rachelson and Matthieu Vignes 9 octobre 2013, SupAero - ISAE 1 Présidentielles 2008 - AFC Récupérer les données,

Plus en détail

Création de typologie sous SPSS

Création de typologie sous SPSS Création de typologie sous SPSS À Propos de ce document... 1 Introduction... 1 La démarche à suivre sous SPSS... 2 1. «Iterate»... 2 2. «Save»... 2 3. «Options»... 3 Analyse des résultats... 3 1. Historique

Plus en détail

Introduction au cours de physique (1)

Introduction au cours de physique (1) Introduction au cours de physique () Exercices : Petites variations, valeurs moyennes Calculs de petites variations Méthode De manière générale : il est souvent plus simple de faire une différentiation

Plus en détail

CH12 : Solide en mouvement de translation

CH12 : Solide en mouvement de translation BTS électrotechnique 1 ère année - Sciences physiques appliquées CH12 : Solide en mouvement de translation Motorisation des systèmes Enjeu : Problématique : En tant que technicien supérieur, il vous revient

Plus en détail

PLAN. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2

PLAN. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2 Apprentissage non-supervisé ou apprentissage multi-supervisé? Ricco RAKOTOMALALA Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ PLAN. Classification automatique, typologie, etc.. Interprétation

Plus en détail

Le baromètre de l occasion de 2010 d AutoScout24

Le baromètre de l occasion de 2010 d AutoScout24 Le baromètre de l occasion de 2010 d AutoScout24 Etude de marché Introduction AutoScout24 a réalisé une étude approfondie sur le marché des véhicules d occasions sur base des chiffres des immatriculations

Plus en détail

URL analysées. Informations générales

URL analysées. Informations générales VRDCI 10, rue Augereau 75007 Paris - FRANCE Tel : 01 45 35 00 80 Email : vrdci@vrdci.com - Référencement naturel avec paiement aux résultats - Ingénierie et design de sites web, intranet et applicatifs

Plus en détail

Analyse en Composantes Principales avec TANAGRA

Analyse en Composantes Principales avec TANAGRA Objectif Mettre en œuvre l analyse en composantes principales avec TANAGRA. L analyse en composantes principales est une technique de visualisation très populaire en analyse de données. Dans ce tutoriel,

Plus en détail

L Analyse en Composantes Principales. A. Morineau

L Analyse en Composantes Principales. A. Morineau L Analyse en Composantes Principales A. Morineau - 2005 1 L ACP, qu est ce? L ACP, qu est ce? Principe géométrique de l ACP X(n,p) tableau de données A. Morineau - 2005 4 Principe géométrique de l ACP

Plus en détail

Consommation de flotte (1989 2012)

Consommation de flotte (1989 2012) Bases et méthodologie de comparaison L Association des importateurs suisses d automobiles «auto-suisse» établit chaque année la consommation moyenne des voitures de tourisme vendues appelée consommation

Plus en détail

Examen d'analyse des données

Examen d'analyse des données Université d'angers Janvier 2007 Master 1 MIM : Analyse des données Examen d'analyse des données Durée : 3 heures Les documents ne sont pas autorisés. La calculatrice est autorisée. Exercice I (7 points)

Plus en détail

Scénario: Exploration, classification des encours boursiers parisiens

Scénario: Exploration, classification des encours boursiers parisiens Scénario: Exploration, classification des encours boursiers parisiens Résumé Scénario d analyse d un jeu de données : l ensemble des séries des encours boursier à Paris. Description, lissage et classification

Plus en détail

D- interprétation d une ACP

D- interprétation d une ACP D- interprétation d une ACP 1- choix du nombre d axes 3- interprétation des axes 2- représentation graphique 4- Qualité de représentation 5- Synthèse D-Interprétation d une ACP La décomposition précédente

Plus en détail

LES TYPOLOGIES DE PARCOURS METHODES ET USAGES. Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr

LES TYPOLOGIES DE PARCOURS METHODES ET USAGES. Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr LES TYPOLOGIES DE PARCOURS METHODES ET USAGES Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr 1 PLAN Première partie : un exemple traité «en vraie grandeur» : les 26500 jeunes

Plus en détail

Séance 2: Modèle Euclidien

Séance 2: Modèle Euclidien Généralités Métrique sur les INDIVIDUS Métrique sur les VARIABLES Inertie Analyse des individus Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Généralités Métrique

Plus en détail

La régression logistique

La régression logistique La régression logistique Présentation pour le cours SOL6210, Analyse quantitative avancée Claire Durand, 2015 1 Utilisation PQuand la variable dépendante est nominale ou ordinale < Deux types selon la

Plus en détail

Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification

Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification François Husson & Julie Josse Laboratoire de mathématiques appliquées Agrocampus Rennes husson@agrocampus-ouest.fr

Plus en détail

Fonction polynôme du second degré : Forme canonique

Fonction polynôme du second degré : Forme canonique Fonction polynôme du second degré : Forme canonique I) Introduction. Soit g(x) = a(x - s)²+h. Toute fonction polynôme du second degré peut s écrire sous cette forme. Le passage de la forme développée à

Plus en détail

Formulaire de maths Algèbre linéaire et multilinéaire

Formulaire de maths Algèbre linéaire et multilinéaire Formulaire de maths Algèbre linéaire et multilinéaire Nom Formule Espaces vectoriels Famille libre On dit que la famille est libre si Famille liée On dit que la famille est liée si Théorème de la base

Plus en détail