L Analyse en Composantes Principales

Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

1 Complément sur la projection du nuage des individus

Analyse en Composantes Principales

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

La classification automatique de données quantitatives

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Exercices Corrigés Premières notions sur les espaces vectoriels

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Programmation linéaire et Optimisation. Didier Smets

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Fonctions homographiques

L'analyse des données à l usage des non mathématiciens

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Introduction. Préambule. Le contexte

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Le Modèle Linéaire par l exemple :

Calcul différentiel sur R n Première partie

Exercice : la frontière des portefeuilles optimaux sans actif certain

Programmation linéaire

Résolution de systèmes linéaires par des méthodes directes

Cours 02 : Problème général de la programmation linéaire

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

Extraction d informations stratégiques par Analyse en Composantes Principales

Définition 0,752 = 0,7 + 0,05 + 0,002 SYSTÈMES DE NUMÉRATION POSITIONNELS =

Optimisation Discrète

Relation entre deux variables : estimation de la corrélation linéaire

Chapitre 3. Les distributions à deux variables

Une introduction aux codes correcteurs quantiques

Analyse des correspondances avec colonne de référence

Théorie et codage de l information

La place de SAS dans l'informatique décisionnelle

Chapitre 2. Matrices

Programmation linéaire

Programmes des classes préparatoires aux Grandes Ecoles

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Plan du cours Cours théoriques. 29 septembre 2014

2.4 Représentation graphique, tableau de Karnaugh

Un K-espace vectoriel est un ensemble non vide E muni : d une loi de composition interne, c est-à-dire d une application de E E dans E : E E E

Étudier si une famille est une base

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

REVUE DE STATISTIQUE APPLIQUÉE

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Approximations variationelles des EDP Notes du Cours de M2

Cours d Analyse. Fonctions de plusieurs variables

3 Approximation de solutions d équations

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Oscillations libres des systèmes à deux degrés de liberté

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Cours d analyse numérique SMI-S4

Algèbre binaire et Circuits logiques ( )

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Cours de mathématiques

Initiation à l analyse en composantes principales

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Évaluation de la régression bornée

Apllication au calcul financier

STATIQUE GRAPHIQUE ET STATIQUE ANALYTIQUE

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Fonctions de plusieurs variables

Apprentissage Automatique

Continuité et dérivabilité d une fonction

Avant-après, amont-aval : les couples de tableaux totalement appariés

Résolution d équations non linéaires

M2 IAD UE MODE Notes de cours (3)

NON-LINEARITE ET RESEAUX NEURONAUX

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Bases de données réparties: Fragmentation et allocation

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

I. Polynômes de Tchebychev

Représentation d un entier en base b

Chapitre 5 : Flot maximal dans un graphe

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Module d Electricité. 2 ème partie : Electrostatique. Fabrice Sincère (version 3.0.1)

Monitoring continu et gestion optimale des performances énergétiques des bâtiments

Corrigé du baccalauréat S Asie 21 juin 2010

Mathématiques appliquées à l'économie et à la Gestion

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Capital économique en assurance vie : utilisation des «replicating portfolios»

Simulation de variables aléatoires

Individus et informations supplémentaires

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Le contexte. Le questionnement du P.E.R. :

OPTIMISATION À UNE VARIABLE

RO04/TI07 - Optimisation non-linéaire

Calcul différentiel. Chapitre Différentiabilité

Corrigé du baccalauréat S Pondichéry 12 avril 2007

IMAGES NUMÉRIQUES MATRICIELLES EN SCILAB

ACP Voitures 1- Méthode

Quelques éléments de statistique multidimensionnelle

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Module 16 : Les fonctions de recherche et de référence

Chapitre 5. Équilibre concurrentiel et bien-être

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Transcription:

L Analyse en Composantes Principales Table des matières 1 Introduction 1 2 Notations 2 3 Définitions 2 4 Projections sur un sous-espace 3 5 Axes principaux 4 6 Facteurs principaux 4 7 Composantes principales 5 8 Application 5 1 Introduction X étant un tableau de p variables numériques (en colonnes) décrivant n individus (en lignes), nous nous proposons de rechercher une représentation des n individus e 1, e 2,..., e n dans un sous-espace de l espace initial. Autrement dit, nous cherchons à définir k nouvelles variables, combinaison des p de l espace initial, qui feraient perdre 1

le moins d information possible. Ces k variables seront appelées composantes principales et les axes qu elles déterminent axes principaux. 2 Notations e 1,..., e n : vecteurs individus dans l espace initial f 1,..., f n : vecteurs individus dans l espace de projection x 1,..., x p : vecteurs variables p 1,..., p n : poids associés à chaque individu g : centre de gravité du nuage de points dans l espace initial I g : inertie totale du nuage de points Dans ce qui suit nous considérons que les variables sont centrées (la moyenne par colonne est égale à 0) 3 Définitions Une métrique est une matrice permettant de définir un produit scalaire et donc des distances entre individus ou entre variables. La métrique que l on utilise de manière naturelle pour mesurer les proximités entre variables est celle définie par la matrice D p qui est la métrique de la covariance quand les variables sont centrées : COV (x i ; x j ) = x t i D p x j V AR(x i ) = x t i D p x i D p est diagonale et chacun des éléments de la diagonale est égal à 1. N Pour mesurer des distances entre individus, il n y a pas de choix aussi naturel que D p pour les variables et on prendra une matrice M, symétrique définie positive : d 2 (e i ; e j ) = (e i e j ) t M(e i e j ) les métriques les plus couramment utilisées sont : 2

M = I M = V 1 : métrique de Mahalanobis M = D 1/σ 2 où D 1/σ 2 désigne la matrice diagonale des inverses des variances de p variables 4 Projections sur un sous-espace On va chercher un sous-espace de l espace initial tel que : n p i e i f i 2, i=1 soit minimal. Or d après le théorème de Pytha- e i gore, minimiser l expression ci-dessus, revient à maximiser n p i f i g 2, i=1 car on a : F g f i e i g 2 = e i f i 2 + f i g 2 Il est donc clair ici que trouver les valeurs de f i les plus proches de celles de e i dans un nouvel espace, revient à maximiser la dispersion (ou inertie totale) des f i. L inertie totale est définie comme la somme des distances de chaque individu au centre de gravité g. Dans l espace initial, on a donc : I init g = n = p i e t i Me i i=1 puisque g = 0 (les variables sont centrées). En utilisant l écriture matricielle, on montre facilement que : I init g = T r(mv ) 3

où V = X t D p X, est la matrice de variance-covariance entre variables. Dans l espace des projetés, on calcule l inertie du nuage projeté, I proj g : I proj g = T r(mv P ) où P est la matrice permettant de projeter le nuage de l espace initial vers celui de l espace des individus projetés. 5 Axes principaux Nous cherchons la droite maximisant l inertie du nuage projeté sur cette droite. Soit a, un vecteur de cette droite, on a : P = a(a t Ma) 1 a t M Le but est donc de trouver a maximisant T r(v MP ). On montre que a est le vecteur propre de la matrice V M associé à la plus grande valeur propre. De manière plus générale, le sous-espace des projetés de dimension k est engendré par les k vecteurs propres de V M associés aux k plus grandes valeurs propres. On appelle axes principaux d inertie les vecteurs propres de V M normés à 1. Il y en a p. 6 Facteurs principaux À l axe principal a est associé le facteur principal u = Ma. En partant du fait que a est déterminé par le vecteur propre de MV correspondant, on montre que u est déterminé par les vecteurs propres de V M. 4

7 Composantes principales Ce sont les variables c i définies par les facteurs principaux : c i = Xu i c i est le vecteur renfermant les coordonnées des projections des individus sur l axe défini par a i. Ce sont donc les combinaisons linéaires de x 1,..., x p de variances maximales. On montre que la variance de c i est égale à la valeur propre λ i correspondante. Ces composantes sont orthogonales, et donc non corrélées entre elles. 8 Application Récupérer le fichier http://www.lirmm.fr/~guindon/dess/cocons.txt. Les 3 variables étudiées ici sont la longeur, la plus petite largeur et la plus grande largeur de cocons de vers à soies. Les individus sont donc ici en lignes et les variables, en colonnes. Questions : construire le tableau des données centrées Solution : > for(i in 1:3) d[,i] <- d[,i]-mean(d[,i]) > d X Y Z 1 13.92-1.92-1 2-21.08-19.92-20 3 7.92 10.08 6 4 27.92-6.92-11 5-2.08-4.92-3 6-23.08-9.92-4 7 28.92 17.08 21 8 8.92 14.08 12 9 2.92-5.92-7 10 12.92 1.08 5 11 2.92-2.92-3 12-14.08-17.92-9 13-28.08-19.92-16 14 5.92 35.08 37 15 7.92 15.08 20 5

16 0.92-5.92-8 17 26.92 21.08 20 18-16.08 17.08 20 19 42.92-8.92-7 20-19.08 3.08 11 21-6.08-5.92-11 22-17.08 9.08 7 23-15.08-15.92-24 24-16.08-10.92-16 25-13.08-4.92-19 calculer la matrice de variance-covariance des données centrées (utiliser %*% pour le produit matriciel) Solution : > t(d)%*%mv%*%d X Y Z X 335.1136 98.8864 98.56 Y 98.8864 190.3136 197.60 Z 98.5600 197.6000 230.16 selon vous, doit-on ici réduire les variables pour effectuer l ACP? Solution : les variances des trois variables sont du même ordre de grandeur : on ne réduit pas les variables. calculer les valeurs propres et vecteurs propres de la matrice de covariance (utiliser la fonction eigen) Solution : eigen(t(d)%*%mv%*%d); $values [1] 516.23337 227.90979 11.44405 $vectors Z Y X X 0.6101958-0.7918123-0.02634923 Y 0.5378277 0.3895879 0.74763805 Z 0.5817237 0.4703770-0.66358351 Chaque valeur propre correspond à la variance des projetés sur la composante principale correspondante. La somme des valeurs propres est égale à la variance totale dans l espace des projetés. Cette variance totale est égale à celle de l espace initial. calculer les coordonnées des projetés. Solution : > z <- d%*%eig$vectors > z 6

Z Y X 1 6.879573-12.24041332-1.13866287 2-35.210929-0.47672709-1.06583792 3 13.744396 0.47815449 3.34600454 4 6.915940-29.97749517 1.39009269 5-5.660491-1.68093386-1.63282226 6-21.745465 12.52880834-4.15409509 7 39.049157-6.36713424-1.92761562 8 19.996245 4.06695569 2.32870646 9-5.474234-7.91109129 0.14212755 10 11.373203-7.45757539-2.85090054 11-1.533856-4.86081963-0.26929234 12-23.464942-0.06609081-7.05442503 13-37.155405 6.94746706-3.53572731 14 44.003130 26.38316334 1.51856549 15 24.577666 9.01137172-2.20597431 16-7.276349-6.79784362 0.85840952 17 39.398353-3.69553488 1.77921853 18 11.008621 28.79404331-0.07831661 19 17.320117-40.75234797-3.15475593 20-3.587067 21.48185662-4.49395001 21-13.292891-2.66628827 3.03360467 22-1.466604 20.35425161 2.59351383 23-31.725338-5.55075723 4.42095288 24-24.992606 0.95201048 2.87682430 25-21.680224-0.49702987 9.27435540 représenter graphiquement ces valeurs dans l espace bi-dimensionel engendré par les deux premier vecteurs propres (Attention aux échelles!) Il est possible de calculer les corrélations entre les composantes principales et les variable d origine. Les éléments de la matrice de corrélations sont donnés par : r i,l = u i,l λ l σ i où i et l sont les indices associés aux variables dans l espace initial et l espace des projetés respectivement. La matrice d importance permet de mesurer le degré d expression de chaque variable initiale sur chaque facteur principal. Chaque élément i, l de cette matrice est égal à r 2 i,l. Pour nos valeurs on obtient : [,1] [,2] [,3] [1,] 0.573049 0.426409 0.000000 7

[2,] 0.784996 0.179776 0.033124 [3,] 0.760384 0.219024 0.021904 avec, en ligne les variables initiales et en colonnes, les facteurs principaux. Question : interprétation des résultats Solution : La variable X s exprime à 57.3% sur le premier axe principal et à 42.6% sur le deuxième. Y s exprime à 78.5% sur le premier axe principal... 8