L Analyse en Composantes Principales. A. Morineau

Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Introduction. Préambule. Le contexte

1 Complément sur la projection du nuage des individus

Analyse en Composantes Principales

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

La classification automatique de données quantitatives

ACP Voitures 1- Méthode

Extraction d informations stratégiques par Analyse en Composantes Principales

L'analyse des données à l usage des non mathématiciens

OLYMPIADES ACADÉMIQUES DE MATHÉMATIQUES

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Relation entre deux variables : estimation de la corrélation linéaire

LOW COST TOUT INCLUS FIAT PANDA. Moteur: Essence A/C Radio CD Assurance tous risques sans franchise Réservoir plein PRIX / SEMAINE

Analyse des correspondances avec colonne de référence

COMPTE-RENDU «MATHS EN JEANS» LYCEE OZENNE Groupe 1 : Comment faire une carte juste de la Terre?

NOUVELLE série KTS pour un diagnostic confortable, rapide et fiable

Initiation à l analyse en composantes principales

Statistique : Résumé de cours et méthodes

REVUE DE STATISTIQUE APPLIQUÉE

OLYMPIADES ACADEMIQUES DE MATHEMATIQUES. 15 mars 2006 CLASSE DE PREMIERE ES, GMF

Oscillations libres des systèmes à deux degrés de liberté

PLAN. Ricco Rakotomalala Tutoriels Tanagra - 2

1 - PRESENTATION GENERALE...

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

LES AMORTISSEMENTS : CALCULS ENREGISTREMENTS

Statistique Descriptive Élémentaire

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Fonctions de deux variables. Mai 2011

Individus et informations supplémentaires

Logistique, Transports

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Notion de fonction. Résolution graphique. Fonction affine.

Quelques éléments de statistique multidimensionnelle

Logiciel XLSTAT version rue Damrémont PARIS

Cours 9 : Plans à plusieurs facteurs

Enoncé et corrigé du brevet des collèges dans les académies d Aix- Marseille, Montpellier, Nice Corse et Toulouse en Énoncé.

ELEC2753 Electrotechnique examen du 11/06/2012

Calcul intégral élémentaire en plusieurs variables

DOCM Solutions officielles = n 2 10.

Programmation linéaire

Cours d Analyse. Fonctions de plusieurs variables

Traitement des données avec Microsoft EXCEL 2010

2 nd semestre. Synthèse de l étude D3 Parcours Analyse de la fidélité des clients par marque. En partenariat avec

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Fonctions de plusieurs variables

LE BUDGET DES VENTES

1 radian. De même, la longueur d un arc de cercle de rayon R et dont l angle au centre a pour mesure α radians est α R. R AB =R.

Toutes les unités de moyeu de rechange ne se valent pas. L ignorer peut vous coûter cher en temps, argent et clients perdus.

Exercice 6 Associer chaque expression de gauche à sa forme réduite (à droite) :

DISQUE DUR. Figure 1 Disque dur ouvert

Consommation de flotte ( )

Angles orientés et fonctions circulaires ( En première S )

Exercices Corrigés Premières notions sur les espaces vectoriels

Analyse de la variance Comparaison de plusieurs moyennes

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Nouveau : Une technologie avant-gardiste d huile moteur

TOUT CE QU IL FAUT SAVOIR POUR LE BREVET

Actions de réduction de bruit sur un moteur poids lourd

Corrigé du baccalauréat S Pondichéry 12 avril 2007

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

Algorithmes pour la planification de mouvements en robotique non-holonome

Utiliser des fonctions complexes

STATIQUE GRAPHIQUE ET STATIQUE ANALYTIQUE

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

Test : principe fondamental de la dynamique et aspect énergétique

Brochure ALD ELECTRIC PART OF ALD NEWMOBILITY

Huiles moteurs pour véhicules légers

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Un K-espace vectoriel est un ensemble non vide E muni : d une loi de composition interne, c est-à-dire d une application de E E dans E : E E E

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Diviser un nombre décimal par 10 ; 100 ; 1 000

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

5KNA Productions 2013

Polynômes à plusieurs variables. Résultant

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Rappel sur les bases de données

Chapitre 3. Les distributions à deux variables

Plus courts chemins, programmation dynamique

Étude de cas Assurance

Mathématiques et petites voitures

MANUEL D UTILISATION DE LA DECLARATION S.I.G.A.D

Chapitre 02. La lumière des étoiles. Exercices :

Q6 : Comment calcule t-on l intensité sonore à partir du niveau d intensité?

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

Définition 0,752 = 0,7 + 0,05 + 0,002 SYSTÈMES DE NUMÉRATION POSITIONNELS =

DURÉE DE VIE ET DE. Michel JAMBU, Centre National d'etudes des Télécommunications France Direction scientifique

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Assistant d e tablissement de Tableaux

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

La simulation probabiliste avec Excel

Transcription:

L Analyse en Composantes Principales A. Morineau - 2005 1

L ACP, qu est ce?

L ACP, qu est ce?

Principe géométrique de l ACP X(n,p) tableau de données A. Morineau - 2005 4

Principe géométrique de l ACP i R p i' ressemblance des individus X(n,p) tableau de données A. Morineau - 2005 4

Principe géométrique de l ACP i R p i' ressemblance des individus X(n,p) j j' tableau de données R n liaisons entre les variables A. Morineau - 2005 4

Exemple introductif A. Morineau - 2005 5

Exemple introductif Les individus : 24 modèles de voitures A. Morineau - 2005 5

Exemple introductif Les individus : 24 modèles de voitures Les variables : «moteur» : puissance, vitesse, cylindrée «dimensions» : poids, longueur, largeur Objectifs : visualiser Les modèles qui se ressemblent au vu des 6 variables Les variables les plus corrélées A. Morineau - 2005 5

Les données A. Morineau - 2005 6

Ressemblances entre individus : problème des unités de mesure Cylindrée en litres Cylindrée en cm 3 3000 3 1 1000 800 1500 Poids en Kg 0,8 1,5 Poids en tonnes La forme du nuage de points est très sensible au choix des unités de mesure (à l'arbitraire des unités de mesure). Arbitraire des unités = Dispersion inégale entre les variables A. Morineau - 2005 7

Ressemblances entre individus : Solution : centrer et réduire les données Centrer : retrancher la moyenne positions relatives des individus Réduire : diviser par l écart type enlever l arbitraire de l unité de mesure Distance entre individus : A. Morineau - 2005 8

Les données centrées réduites A. Morineau - 2005 9

Ressemblances entre individus : Calcul des distances entre individus Exemple : d² (Honda Civic, Opel Omega) = ( -0.987-0.178 )² + ( -0.623-0.219)² + + ( -0.378-1.090)² = 14.02 A. Morineau - 2005 10

Ressemblances entre individus Vitesse Puissance Cylindrée A. Morineau - 2005 11

Ressemblances entre individus Vitesse Rover 827i Renault 25 Bmw 530i Puissance Ford Sierra Ford Fiesta Fiat Uno Cylindrée A. Morineau - 2005 11

Ressemblances entre individus : forme générale du nuage Vitesse Puissance Cylindrée A. Morineau - 2005 12

Ressemblances entre individus : forme générale du nuage Vitesse Puissance Cylindrée A. Morineau - 2005 12

Ressemblances entre individus : principe de détermination des axes Nuage de n points-individus dans R p Pour avoir la «meilleure» image approchée du nuage en projection sur une droite H : Respecter au mieux les inter-distances entre tous les couples (H) A. Morineau - 2005 13

Ressemblances entre individus : 1 er axe d inertie 1 er axe : direction d allongement maximal du nuage de points Direction selon laquelle la dispersion autour du centre de gravité (l inertie) est maximale. A. Morineau - 2005 14

Ressemblances entre individus : 1 er axe d inertie Vitesse Puissance Cylindrée A. Morineau - 2005 15

Ressemblances entre individus : 1 er axe d inertie Vitesse Axe 1 Puissance Cylindrée A. Morineau - 2005 15

Ressemblances entre individus : détermination des axes d inertie 2 ème axe d inertie : direction orthogonale à la première selon laquelle la dispersion résiduelle est maximale. 3 ème axe On décompose ainsi l inertie sur un système d axes orthogonaux deux à deux. A. Morineau - 2005 16

Ressemblances entre individus : détermination des axes d inertie A. Morineau - 2005 17

Ressemblances entre individus : détermination des axes d inertie Axe 1 A. Morineau - 2005 17

Ressemblances entre individus : détermination des axes d inertie Axe 1 Axe 2 A. Morineau - 2005 17

Ressemblances entre individus : détermination des axes d inertie Axe 3 Axe 1 Axe 2 A. Morineau - 2005 17

Mesurer l inertie décomposée sur chaque axe L inertie totale du nuage se décompose sur les axes principaux Pour p variables, p axes reconstituent l inertie totale du nuage A. Morineau - 2005 18

La meilleure représentation des distances entre individus A. Morineau - 2005 19

Coordonnées des individus et décomposition de l inertie A. Morineau - 2005 20

Distance calculée sur les données de départ : Meilleure représentation des distances entre individus d² (Honda Civic, Opel Omega) = ( -0.987-0.178 )² + ( -0.623-0.219)² + ( -0.378-1.090)² = 14.02 Distance calculée sur les axes factoriels : TOUS les axes : d² (Honda Civic, Opel Omega) = ( -2.01-1.45 )² + ( 0.32 +0.79)² + ( -0.15-0.06)² = 14.02 les 2 PREMIERS axes : d² (Honda Civic, Opel Omega) = ( -2.01-1.45 )² + ( 0.32 +0.79)² = 13.15 A. Morineau - 2005 21

Liaisons entre les variables : coefficient de corrélation y y R ne mesure pas la forme du nuage mais mesure la parenté entre la forme du nuage et une droite. y r = -1 x y -1 < r < 0 x On s'intéresse au degré de linéarité de la liaison entre deux variables. y r = 0 x y r = 0 x 0 < r < 1 A. Morineau - 2005 22 x r = 1 x

Corrélation : domaine de l étude a b La relation est linéaire dans la plage [a,b] A. Morineau - 2005 23

Corrélation et causalité 30 nb de TV (x1000) R² = 0,9841 23 15 8 0 0 23 45 68 90 nb de malades mentaux/100hab A. Morineau - 2005 24

Liaisons entre les variables : matrice des corrélations A. Morineau - 2005 25

Liaisons entre les variables Une variable est définie par les n valeurs qu elle prend sur les individus. Les variables sont centrées réduites, on a donc : (1) (1) est l équation d une sphère de rayon 1 centrée en zéro : les vecteurs variables sont donc de longueur 1 et se disposent sur la surface d une sphère dans R n. A. Morineau - 2005 26

Liaisons entre les variables individu 3 Largeur Longueur Poids individu 2 Cylindrée individu 1 Puissance Vitesse A. Morineau - 2005 27

Liaisons entre variables : distance entre les points variables Distance basée sur la corrélation : j o o o j k k k j cor(j,k) 1 d(j,k) 0 ( d² 0 ) cor(j,k) 0 d(j,k) 2 ( d² 2 ) cor(j,k) -1 d(j,k) 2 ( d² 4 ) A. Morineau - 2005 28

Liaisons entre variables : distance entre les points variables A. Morineau - 2005 29

Liaisons entre variables : ajustement des plans factoriels 1 et 2 individu 3 Largeur Longueur Poids individu 2 Cylindrée individu 1 Puissance Vitesse A. Morineau - 2005 30

Liaisons entre variables : ajustement des plans factoriels 1 et 2 1 er Plan individu 3 Largeur Longueur Poids individu 2 Cylindrée individu 1 Puissance Vitesse A. Morineau - 2005 30

Liaisons entre variables : ajustement des plans factoriels 1 et 2 1 er Plan individu 3 Largeur 2 ème Plan Longueur Poids individu 2 Cylindrée individu 1 Puissance Vitesse A. Morineau - 2005 30

Meilleure représentation des liaisons entre variables A. Morineau - 2005 31

Nuage des variables Nuage des p variables (approximation dans R n ). Un plan factoriel (v1,v2) coupe la sphère suivant un grand cercle (de rayon 1). Les points-variables tombent à l intérieur. Espace R n 4 2 1 e1 e2 Projection de quatre variables 4 e2 3 2 1 e1 3 A. Morineau - 2005 32

Coordonnées des variables et décomposition de l inertie Coordonnées des variables : Les données ont été centrées et réduites : les coordonnées des variables sont aussi les corrélations de ces variables avec les axes factoriels. Les sommes des carrés des coordonnées sur chaque axe donnent la décomposition de l inertie sur ces axes. A. Morineau - 2005 33

Représentation simultanée : les anciens axes unitaires (j) Les variables peuvent être vues comme des individus particuliers qui en représentent les directions. X Individu (i) Ces individus synthétiques valent 1 dans la direction de la variable et 0 dans les autres directions : variable (j) variable (1) 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 A. Morineau - 2005 34

Représentation simultanée : les anciens axes unitaires Vitesse Axe 1 Puissance Axe 2 Cylindrée A. Morineau - 2005 35

Représentation simultanée : les anciens axes unitaires Vitesse Axe 1 Puissance Axe 2 Cylindrée A. Morineau - 2005 35

Représentation simultanée : les anciens axes unitaires Vitesse Axe 1 Puissance Axe 2 Cylindrée A. Morineau - 2005 35

Représentation simultanée : les anciens axes unitaires Vitesse Axe 1 Puissance Axe 2 Cylindrée A. Morineau - 2005 35

Représentation simultanée : les anciens axes unitaires les anciens axes unitaires sont l image des variables dans l espace contenant les points individus. A. Morineau - 2005 36

Représentation simultanée : les anciens axes unitaires et les individus A. Morineau - 2005 37

Représentation simultanée : interprétation des anciens axes unitaires A. Morineau - 2005 38

Représentation simultanée : interprétation des anciens axes unitaires A. Morineau - 2005 39

Une autre interprétation des anciens axes unitaires : relations entre les deux espaces On a vu que les anciens axes unitaires sont l image des variables dans l espace contenant les points individus : les coefficients nous donnent les relations de transition entre l espace de départ et le nouvel espace de représentation des données. A. Morineau - 2005 40

Une autre interprétation des anciens axes unitaires : relations entre les deux espaces Les axes factoriels sont des combinaisons linéaire des variables centrées et réduites ; les coefficients de ces combinaisons sont les colonnes du tableau des anciens axes unitaires. Pour l axe1 : 0.45 CYLINDRE + 0.42 PUISSANC + 0.35 VITESSE + 0.42 POIDS + 0.43 LONGUEUR + 0.37 LARGEUR : le premier axe indique un effet de taille Pour l axe 2 : 0.01 CYLINDRE + 0.41 PUISSANC + 0.66 VITESSE - 0.19 POIDS - 0.32 LONGUEUR - 0.51 LARGEUR : le deuxième axe oppose les caractéristiques «moteur» aux autres. A. Morineau - 2005 41

Une autre interprétation des anciens axes unitaires : relations entre les deux espaces A partir des coordonnées factorielles, on peut revenir aux variables de départ. En prenant que les premiers axes factoriels, on reconstitue de manière approchée les variables de départ. CYLINDRE = 0.45 axe1 + 0.01 axe2-0.27 axe3 : reconstitution approchée de la variable cylindre à partir des 3 premiers axes factoriels. A. Morineau - 2005 42

Principes mathématiques de l ACP : détermination des axes d inertie X est la matrice des données centrées réduites (on présente les calculs dans le cas d une ACP normée) Nuages de points associés : Les individus : n points dans un espace de dimension p Les variables : p points dans un espace de dimension n Ajustement dans R p : maximiser u (X X)u avec u u = 1 Le vecteur qui maximise cette expression est le vecteur propre associé à la plus grande valeur propre de X Xu = λu Ajustement dans R n : maximiser v (XX )v avec v v = 1 Le vecteur qui maximise cette expression est le vecteur propre associé à la plus grande valeur propre de XX v = µv A. Morineau - 2005 43

ACP normée et non normée Normée Distance entre individus Non normée Matrice diagonalisée (x',x) corrélations covariances Distance entre variables A. Morineau - 2005 44

Principes mathématiques de l ACP : relations de transition relations entre les deux espaces (relations de transition) ajustement dans R p : (X X)u = λu u est le vecteur propre associé à la plus grande valeur propre de X X : λ ajustement dans R n : (XX )v = µv v est le vecteur propre associé à la plus grande valeur propre de XX : µ On peut écrire : XX (Xu) = λ(xu) i.e. λ est une valeur propre de XX associée au vecteur propre Xu ; puisque µ est la plus grande valeur propre de XX, on a nécessairement : λ < µ. X X(X v) = µ(x v) i.e. m est une valeur propre de X X associée au vecteur propre X v ; puisque λ est la plus grande valeur propre de X X, on a nécessairement : µ < λ. On a donc λ = µ En imposant les contraintes de normalisation des vecteurs propres : (Xu) Xu = λ et (X v) (X v) = µ on obtient les relations suivantes appelées relations de transition : A. Morineau - 2005 45

Relations de transition en ACP A. Morineau - 2005 46

Influence des individus : les contributions Dans quelle proportion chaque point contribue-t-il à l inertie λ α du nuage projeté sur l axe u α? G i G i G i G i' G i' G i' Utilité Pour donner une signification à un axe, s intéresser surtout aux points ayant une forte contribution. (Ils fixent la position de l axe dans R p ) A. Morineau - 2005 47

Influence des individus : les contributions A. Morineau - 2005 48

Qualité de représentation des individus : les cosinus carrés Le point (i) dans R p est plus ou moins «proche» de chaque axe (α) de projection. En projection, la proximité entre points est d autant plus «véridique» que les points sont proches de l axe de projection. Pour analyser les proximités entre points, s intéresser surtout aux points ayant un fort cosinus carré. (Proximités peu modifiées en projection.) (i) (i) G u α G u α Utilité A. Morineau - 2005 49

Qualité de représentation des individus : les cosinus carrés A. Morineau - 2005 50

Eléments supplémentaires Individus et variables continues A. Morineau - 2005 51

Eléments supplémentaires Variables nominales A. Morineau - 2005 52

Eléments supplémentaires Modalités d une variable nominale A. Morineau - 2005 53

Références Lebart L., Morineau A., Piron M. Statistique Exploratoire Multidimensionnelle. Dunod, Paris, 1995. Lebart L., Morineau A., Warwick K. Multivariate Descriptive Statistical Analysis. J. Wiley, New York, 1984. A. Morineau - 2005 54