Analyse en composantes principales

Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse en Composantes Principales

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

La classification automatique de données quantitatives

Statistique Descriptive Multidimensionnelle. (pour les nuls)

1 Complément sur la projection du nuage des individus

Analyse des correspondances avec colonne de référence

Introduction. Préambule. Le contexte

Système formé de deux points

DISQUE DUR. Figure 1 Disque dur ouvert

Calcul intégral élémentaire en plusieurs variables

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Chapitre 3. Les distributions à deux variables

Equations cartésiennes d une droite

Construction d un cercle tangent à deux cercles donnés.

L'analyse des données à l usage des non mathématiciens

Limites finies en un point

1 radian. De même, la longueur d un arc de cercle de rayon R et dont l angle au centre a pour mesure α radians est α R. R AB =R.

Cercle trigonométrique et mesures d angles

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Télé-Procédure de Gestion d Incidents : Spécifications et Prototype.

Statistique : Résumé de cours et méthodes

Prudence, Epargne et Risques de Soins de Santé Christophe Courbage

Les indices à surplus constant

TOUT CE QU IL FAUT SAVOIR POUR LE BREVET

Série limitée Classe C 250 CDI BlueEFFICIENCY Prime Edition

Programmation linéaire

Documentation Technique du programme HYDRONDE_LN

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

Extraction d informations stratégiques par Analyse en Composantes Principales

Les deux points les plus proches

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Chapitre 2 : Caractéristiques du mouvement d un solide

Introduction à l approche bootstrap

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Logiciel XLSTAT version rue Damrémont PARIS

MATHÉMATIQUES ET SCIENCES HUMAINES

Traitement des données avec Microsoft EXCEL 2010

AUTRES ASPECTS DU GPS. Partie I : tolérance de Battement Partie II : tolérancement par frontières

Algorithmes pour la planification de mouvements en robotique non-holonome

CAISSE ENREGISTREUSE ELECTRONIQUE SE-G1

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

C algèbre d un certain groupe de Lie nilpotent.

Individus et informations supplémentaires

Rappel sur les bases de données

Cours 7 : Utilisation de modules sous python

Scénario: Données bancaires et segmentation de clientèle

Et si l avenir de votre CFD passait par OPEN FOAM?

Oscillations libres des systèmes à deux degrés de liberté

Rupture et plasticité

COMPTE-RENDU «MATHS EN JEANS» LYCEE OZENNE Groupe 1 : Comment faire une carte juste de la Terre?

ACP Voitures 1- Méthode

SECONDE BAC PROFESSIONNEL Systèmes Electroniques et Numériques

Mesure d angles et trigonométrie

Solutions en auto-consommation

Angles orientés et trigonométrie

Hébergement MMI SEMESTRE 4

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

PCB 20 Plancher collaborant. Fiche technique Avis technique CSTB N 3/11-678

Cours Informatique Master STEP

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

4. Martingales à temps discret

Construction de la bissectrice d un angle

Relais statiques SOLITRON MIDI, Commutation analogique, Multi Fonctions RJ1P

Automatique (AU3): Précision. Département GEII, IUT de Brest contact:

Système ASC unitaire triphasé. PowerScale kva Maximisez votre disponibilité avec PowerScale

Formules et Approches Utilisées dans le Calcul du Coût Réel

Cf Audio vous propose : LA SURVEILLANCE ACOUSTIQUE DES CHANTIERS

Cloud pour applications PC SOFT Tarification

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Travail d évaluation personnelle UV valeur C : IRE. Planification de réseaux : Simulateur IT-GURU Academic Edition

OPTIMISATION À UNE VARIABLE

MATHÉMATIQUES FINANCIÈRES I

Leçon N 4 : Statistiques à deux variables

Manuel DLCX Version 3.00 sept 2014

Le second nuage : questions autour de la lumière

Equipement d un forage d eau potable

FORMULAIRE DE STATISTIQUES

PLATEFORME DE SUPERVISION

PPE 1 : GSB. 1. Démarche Projet

Quelques contrôle de Première S

Attirez les meilleurs employés et consolidez votre entreprise

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

COMMUNAUTE ECONOMIQUE ET MONETAIRE DE L AFRIQUE CENTRALE LA COMMISSION

Cours de Mécanique du point matériel

Cours d Analyse. Fonctions de plusieurs variables

Introduction à l'informatique

Chapitre 2/ La fonction de consommation et la fonction d épargne

Corrigé des TD 1 à 5

MODULES 3D TAG CLOUD. Par GENIUS AOM

Exercice du cours Gestion Financière à Court Terme : «Analyse d un reverse convertible»

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

SNT4U16 - Initiation à la programmation TD - Dynamique de POP III - Fichiers sources

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

POUR UN ENCADREMENT DES PÉNALITÉS HYPOTHÉCAIRES AU CANADA. Richard Beaumier, FCA, CFA, MBA VICE-PRÉSIDENT, COMITÉ RELATIONS GOUVERNEMENTALES

Internet et Multimédia Exercices: flux multimédia

Chapitre 2. Matrices

Transcription:

Analyse en composantes principales Jean-François Delmas et Saad Salam October 10, 2017 ontents 1 Rappels 1 2 Présentation des données 2 3 Valeurs propres de la matrice des corrélations 4 4 Vecteurs propres de la matrice des corrélations 5 5 AP 5 6 Qualité de la représentation des individus 7 7 Étude d une variable nominale supplémentaire 7 1 Rappels onsidérons un nuage ν de n points dans un espace E de dimension p. Lorsque E est de dimension élevée, on ne peut pas visualiser l espace de points. Un des buts de l analyse en composantes principales est alors de trouver le meilleur sous-espace H de E, de dimension h égale à 2 ou 3 par exemple, dans lequel on aura la meilleure représentation du nuage. En fait, on va chercher à trouver le sous-espace H de dimension h sur lequel le nuage projeté du nuage ν aura la plus grande dispersion. On cherchera donc à maximiser la somme des carrés des distances entre tous les couples de points projetés. max H i,j d 2 H(P i,p j ) max H i,j max H i,j 2n max H P i P j 2 H P i G 2 H + P j G 2 H 2 GP i GP j j 1 P j G 2 H,

où G est le barycentre des points P i. On voit donc que maximiser la somme des carrés des distances entre tous les couples de projetés des points équivaut à maximiser la somme des carrés des distances entre les projetés des points et leur centre de gravité. Notons ( e 1,..., e h ) une base orthonormée de H. d 2 H(P j,g) j1 j1 j1 P j G 2 H ( GP j e i ) 2 ( GP j e i ) 2 j1 X t e i 2 (X t e i ) (X t e i ) t e i X t X e i. LamatriceX t X estsymétriqueréelle. estdonclamatriced uneformequadratiqueqdans une base (ξ) de E et ainsi est diagonalisable dans une base orthonormée. De plus, si on note (λ 1... λ p ) le spectre de X t X et ( v 1,..., v p ) la base orthonormée de vecteurs propres associée, alors λ k max x 1,x Vect( vp k+1,..., v p)q(x). Alors, afin de maximiser l expression précédente il faut choisir e 1 v 1,..., e h v h. Dans ce cas, n j1 d2 H (P j,g) h j1 λ j est l inertie du nuage de points ν par rapport h j1 λ j au sous-espace H, et p est le pourcentage d inertie expliqué par le sous-espace H. e λ i pourcentage d inertie rend compte de la part de dispersion du nuage ν contenue dans le nuage projeté de ν sur H. 2 Présentation des données Nous allons étudier dans cette partie la distribution des mesures de poids de différentes parties d un groupe de 23 bovins 1 (cf la table ci-dessous). Les variables représentent: X 1 : poids vif. 1 source INRA 2

X 2 : poids de la carcasse. X 3 : poids de la viande de première qualité. X 4 : poids de la viande totale. X 5 : poids du gras. X 6 : poids des os. Bovin X 1 X 2 X 3 X 4 X 5 X 6 1 395 224 35.1 79.1 6.0 14.9 2 410 232 31.9 73.4 8.7 16.4 3 405 233 30.7 76.5 7.0 16.5 4 405 240 30.4 75.3 8.7 16.0 5 390 217 31.9 76.5 7.8 15.7 6 415 243 32.1 77.4 7.1 18.5 7 390 229 32.1 78.4 4.6 17.0 8 405 240 31.1 76.5 8.2 15.3 9 420 234 32.4 76.0 7.2 16.8 10 390 223 33.8 77.0 6.2 16.8 11 415 247 30.7 75.5 8.4 16.1 12 400 234 31.7 77.6 5.7 18.7 13 400 224 28.2 73.5 11.0 15.5 14 395 229 29.4 74.5 9.3 16.1 15 395 219 29.7 72.8 8.7 18.5 16 395 224 28.5 73.7 8.7 17.3 17 400 223 28.5 73.1 9.1 17.7 18 400 224 27.8 73.2 12.2 14.6 19 400 221 26.5 72.3 13.2 14.5 20 410 233 25.9 72.3 11.1 16.6 21 402 234 27.1 72.1 10.4 17.5 22 400 223 26.8 70.3 13.5 16.2 23 400 213 25.8 70.4 12.1 17.5 On dipose d une matrice poids de taille (23, 6) correspondant aux poids des 23 bovins selon les 6 critères. (fichier poids.txt). On charge les données dans Scilab, après avoir sauvegardé localement le fichier par exemple sous le nom poids.txt, à l aide de la commande poidsfscanfmat("poids.txt") L analyse des données nous conduit tout d abord à calculer les paramètres descriptifs élémentaires presentés dans le tableau ci dessous. 3

Moyenne Écart-type Min Max X 1 401.6 8.2 390.0 420.0 X 2 228.8 8.7 213.0 247.0 X 3 29.9 2.6 25.8 35.1 X 4 74.7 2.5 70.3 79.1 X 5 8.9 2.4 4.6 13.5 X 6 16.6 1.2 14.5 18.7 L écart-type d une suite de poids P 1,...,P n est estimé par: 1 n 1 P 1 n n P i. (P i P) 2, où 3 Valeurs propres de la matrice des corrélations La matrice des corrélations nous donne une première idée des associations existant entre les différentes variables. X 1 X 2 X 3 X 4 X 5 X 6 X 1 1.0000 0.6914-0.0329-0.0585 0.0820 0.0820 X 2 0.6914 1.0000 0.2837 0.3903-0.3363 0.0917 X 3-0.0329 0.2837 1.0000 0.8948-0.8773 0.0348 X 4-0.0585 0.3903 0.8948 1.0000-0.9016 0.0032 X 5 0.0820-0.3363-0.8773-0.9016 1.0000-0.3368 X 6 0.0820 0.0917 0.0348 0.0032-0.3368 1.0000 La matrice de corrélations est obtenue en exécutant la fonction correlation. Matorcorrelation(poids ette fonction fait appel à la fonction covariance. alculons les valeurs propres de la matrice des corrélations et intéressons nous aux pourcentages d inertie. Axe Valeur propre Inertie Inertie cumulée 1 2.9914 49.90% 49.90% 2 1.6125 26.90% 76.80% 3 1.0387 17.30% 94.10% 4 0.2487 4.10% 98.20% 5 0.0758 1.30% 99.50% 6 0.0329 0.50% 100.00% Les valeurs propres sont calculées sur la matrice de corrélation avec la fonction valprop. L inertie expliquée par la i-ème composante principale, qui est associée à la i-ème plus λ i grande valeur propre, est calculée avec la formule: p j1 λ. j Question 1 Analyser le résultat obtenu. 4

Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 Axe 6 Figure 1: Éboulis des valeurs propres 4 Vecteurs propres de la matrice des corrélations Les vecteurs propres sont calculés sur la matrice de corrélation avec la fonction vectprop qui renvoie les vecteurs propres rangés dans l ordre décroissant des valeurs propres associées. 5 AP v 1 v 2 v 3 v 4 v 5 v 6 X 1 0.063 0.743 0.060 0.597 0.283-0.063 X 2 0.304 0.609 0.117-0.643-0.331 0.019 X 3 0.534-0.164 0.137 0.461-0.646 0.200 X 4 0.548-0.138 0.176-0.130 0.595 0.528 X 5-0.552 0.147 0.172 0.032-0.193 0.778 X 6 0.120 0.100-0.950 0.007-0.040 0.266 Nous obtenons, à partir de la matrice des données, les coordonnées des projetés des individus dans la base orthonormée des vecteurs propres de la matrice des corrélations avec la fonction acpindiv. ette fonction fait appel à la fonction reduire qui permet de centrer et de normer une matrice de données de telle sorte que la moyenne de chaque variable soit nulle et que son écart-type soit égal à 1. Les coordonnées, calculées à partir de la matrice des données, des variables dans la base orthonormée des vecteurs propres sont obtenues avec la fonction acpvar. ela nous permet de représenter le nuage projeté du nuage initial de poids et le cercle des corrélations dans le plan formé par deux composantes principales quelconques. 5

Projection sur le plan 1 2 3 2 20 11 9 6 1 0 1 22 19 23 18 13 21 17 14 16 15 2 4 8 3 12 2 5 10 7 1 3 4 3 2 1 0 1 2 3 Figure 2: Projection des individus sur les axes principaux 1 et 2 X 1 X 2 X 5 X6 X 34 Figure 3: ercle des corrélations pour les axes 1 et 2 Question 2 Que pouvez-vous dire sur le cercle des corrélations du plan factoriel 1-2? Pour représenter les coordonnées de m points de R p sur les axes i-j, on utilise la fonction nuage, où les lignes de la matrice A sont les coordonnées des m points de R p. Pour représenter le cercle des corrélations sur les axes i-j, on utilise la fonction cercle(a,i,j) ( cercle), où A est la matrice des coordonnées des variables dans la base orthonormée des vecteurs propres. 6

Question 3 Que pouvez-vous dire sur le cercle des corrélations du plan factoriel 2-3? 6 Qualité de la représentation des individus La qualité est représentée par le cosinus de l angle entre le vecteur et son projeté sur le plan factoriel considéré. On utilise la fonction qualiteindiv(poids,i,j) (qualiteindiv.sce) pour représenter la qualité des individus sur les plans factoriels i-j. Projection sur le plan 1 2 2.64 2.06 1.48 20 11 9 6 0.90 21 2 4 8 0.33 0.25 0.83 22 19 23 18 13 17 16 15 14 3 12 1.40 1.98 2.56 3.35 2.68 2.01 1.34 0.67 0.00 0.67 1.34 2.01 2.69 7 1 cos^2>0.9 0.7<cos^2<0.9 cos^2<0.7 Figure 4: Qualité de la représentation des individus dans le plan factoriel 1-2 5 10 Question 4 Quelle est votre analyse pour la qualité de la représentation sur les plans 1-2 et 2-3? 7 Étude d une variable nominale supplémentaire Les données proviennent de deux races harolais ou ébu. race['','','','','','','','','','','','']; race[race,'','','','','','','','','','','']; Le programme barycentres(acpindiv(poids),race,i,j) ( barycentres ) permet de visualiser la variable nominale supplémentaire race dans le plan factoriel i-j. Question 5 Analyser le rôle de la variable nominale. 7

Projection sur le plan 1 2 2.56 2.00 1.44 0.88 0.32 0.24 0.80 1.36 1.92 2.48 3.26 2.61 1.96 1.31 0.66 0.01 0.64 1.29 1.95 2.60 Figure 5: Variable supplémentaire dans le plan factoriel 1-2 8