Analyse en Composantes Principales



Documents pareils
1 Complément sur la projection du nuage des individus

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

La classification automatique de données quantitatives

Extraction d informations stratégiques par Analyse en Composantes Principales

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Introduction. Préambule. Le contexte

Chapitre 2 Le problème de l unicité des solutions

Cours d analyse numérique SMI-S4

Cours d Analyse. Fonctions de plusieurs variables

Programmes des classes préparatoires aux Grandes Ecoles

Programmation linéaire

Avant-après, amont-aval : les couples de tableaux totalement appariés

L'analyse des données à l usage des non mathématiciens

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Chapitre 3. Les distributions à deux variables

Exercice : la frontière des portefeuilles optimaux sans actif certain

Cours 02 : Problème général de la programmation linéaire


STATIQUE GRAPHIQUE ET STATIQUE ANALYTIQUE

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Oscillations libres des systèmes à deux degrés de liberté

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

I. Polynômes de Tchebychev

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Chafa Azzedine - Faculté de Physique U.S.T.H.B 1

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

SEANCE 4 : MECANIQUE THEOREMES FONDAMENTAUX

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Fonctions de plusieurs variables

Correction du Baccalauréat S Amérique du Nord mai 2007

Initiation à l analyse en composantes principales

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Chapitre 5 : Flot maximal dans un graphe

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Dimensionnement d une roue autonome pour une implantation sur un fauteuil roulant

Optimisation, traitement d image et éclipse de Soleil

Théorème du point fixe - Théorème de l inversion locale

Cours 7 : Utilisation de modules sous python

Calcul intégral élémentaire en plusieurs variables

1S Modèles de rédaction Enoncés

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

FORMULAIRE DE STATISTIQUES

Fonctions de plusieurs variables

Résolution de systèmes linéaires par des méthodes directes

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Chapitre 2. Matrices

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Programmation linéaire

Calcul différentiel. Chapitre Différentiabilité

Logiciel XLSTAT version rue Damrémont PARIS

Calcul différentiel sur R n Première partie

Cours de Mécanique du point matériel

Analyse de la variance Comparaison de plusieurs moyennes

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Couples de variables aléatoires discrètes

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

TOUT CE QU IL FAUT SAVOIR POUR LE BREVET

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Polynômes à plusieurs variables. Résultant

STATISTIQUES. UE Modélisation pour la biologie

F411 - Courbes Paramétrées, Polaires

Correction de l examen de la première session

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Mesures gaussiennes et espaces de Fock

Les correcteurs accorderont une importance particulière à la rigueur des raisonnements et aux représentations graphiques demandées.

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

3. Conditionnement P (B)

DM n o 8 TS Physique 10 (satellites) + Chimie 12 (catalyse) Exercice 1 Lancement d un satellite météorologique

Le Modèle Linéaire par l exemple :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Le théorème des deux fonds et la gestion indicielle

Filtrage stochastique non linéaire par la théorie de représentation des martingales

CCP PSI Mathématiques 1 : un corrigé

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Individus et informations supplémentaires

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Optimisation Discrète

3 Approximation de solutions d équations

Rappels et compléments, première partie : Nombres complexes et applications à la géométrie

Chapitre VI Fonctions de plusieurs variables

Apprentissage non paramétrique en régression

Quelques contrôle de Première S

LE PRODUIT SCALAIRE ( En première S )

Repérage d un point - Vitesse et

Analyse des correspondances avec colonne de référence

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

NOTICE DOUBLE DIPLÔME

CHAPITRE IV Oscillations libres des systèmes à plusieurs degrés de liberté

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Introduction à l approche bootstrap

1 radian. De même, la longueur d un arc de cercle de rayon R et dont l angle au centre a pour mesure α radians est α R. R AB =R.

Baccalauréat L spécialité, Métropole et Réunion, 19 juin 2009 Corrigé.

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Transcription:

Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36

Introduction Introduction Soit X un tableau contenant p variables mesurées sur n individus. Situation A : n points-lignes dans R p Situation B : p points-colonnes dans R n Objectif : Projection d un nuage de points sur des axes qui maximisent l inertie projetée Anne B Dufour () Analyse en Composantes Principales Octobre 2013 2 / 36

Situation A Représentation des individus dans l espace des variables Anne B Dufour () Analyse en Composantes Principales Octobre 2013 3 / 36

Exemple en deux dimensions Enoncé (1) Deux variables x et y sont mesurées sur n individus. 1.0 0.5 0.0 0.5 1.0 1.5 2.0 1 0 1 L étude de la liaison entre x et y est la recherche d une droite optimum. Quel est le critère d optimisation? Anne B Dufour () Analyse en Composantes Principales Octobre 2013 4 / 36

Exemple en deux dimensions Enoncé (2) Cette droite minimise 1 n n i=1 M i m i 2 où - M i est le point i du plan, - m i est la projection orthogonale de M i sur la droite. 1.0 0.5 0.0 0.5 1.0 1.5 2.0 O mi Mi 1 0 1 Elle est dite direction principale du nuage centré. Anne B Dufour () Analyse en Composantes Principales Octobre 2013 5 / 36

Exemple en deux dimensions A-ton besoin de centrer le nuage? 1.0 0.5 0.0 0.5 1.0 1.5 2.0 D' D 1 0 1 La droite qui minimise la moyenne des carrés des distances des points à cette droite passe par le point moyen de coordonnées (m(x), m(y)) (conséquence du théorème de Huygens). Anne B Dufour () Analyse en Composantes Principales Octobre 2013 6 / 36

Exemple en deux dimensions Théorème de Huygens Le moment d inertie d un nuage de points par rapport à un axe de rotation D est égale à la somme du moment d inertie de ce nuage de points par rapport à l axe de rotation parallèle D passant par le centre de gravité et du moment d inertie du centre de gravité par rapport à D. 1 n n M i m i 2 = 1 n i=1 n M i m i 2 + w 2 i=1 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 7 / 36

Inertie d un nuage de points Inertie Totale 1 X 0 est une matrice à n lignes et p colonnes : X 0 = [ x ij m(x j ) ] où x j est le vecteur associé à la variable j. 2 Chaque point a un poids 1 n (pondération uniforme). L ensemble des n points forme un nuage dont l inertie autour du centre de gravité vaut : I T = 1 n n M i 2 = 1 n i=1 n p (x ij m(x j )) 2 i=1 j =1 C est la variabilité totale de la position des points dans l espace. Anne B Dufour () Analyse en Composantes Principales Octobre 2013 8 / 36

Inertie d un nuage de points Exemple en dimension 2 La droite passe par le point moyen. Donc on place l origine au centre de gravité en utilisant les nouvelles coordonnées centrées : { Xi = x i m(x) Y i = y i m(y) I T = 1 n = 1 n = 1 n n ( X 2 i + Yi 2 ) i=1 n ((x i m(x)) 2 + (y i m(y)) 2) i=1 n (x i m(x)) 2 + 1 n i=1 = v(x) + v(y) n (y i m(y)) 2 i=1 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 9 / 36

Inertie d un nuage de points Décomposition de l inertie totale Quand on prend dans R p un vecteur unitaire u, il définit un axe. Le point M i se projette sur cet axe en m i. On a : M i = m i + (M i m i ) et M i 2 = m i 2 + M i m i 2 1 n n M i 2 = 1 n i=1 n m i 2 + 1 n i=1 n M i m i 2 i=1 I T = I S (u) + I M (u) I T = I S (u) } {{ } + I M (u) } {{ } à maximiser à minimiser Anne B Dufour () Analyse en Composantes Principales Octobre 2013 10 / 36

Inertie d un nuage de points Recherche du vecteur directeur u La matrice X 0 contient les n points centrés. x 1 m(x) y 1 m(y) X 0 =.. x n m(x) y n m(y) Le vecteur u recherché est unitaire. On l écrit sous la forme u = avec a 2 + b 2 = 1. [ a b ] Anne B Dufour () Analyse en Composantes Principales Octobre 2013 11 / 36

Inertie d un nuage de points Recherche du vecteur directeur u L inertie statistique ou inertie projetée est : I S (u) = 1 n m i 2 = 1 ( ) n n (X 0u) T 1 X 0 u = u T n XT 0 X 0 u i=1 [ ] [ ] v(x) c(x, y) a = [a b] c(x, y) v(y) b = v(x)a 2 + 2c(x, y)ab + v(y)b 2 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 12 / 36

Inertie d un nuage de points Recherche du vecteur directeur u [ ] v(x) c(x, y) La matrice est dite matrice de c(x, y) v(y) variances-covariances des deux variables. On la note C = 1 n XT 0 X 0 Elle est symétrique. Son polynôme caractéristique s écrit : C λi 2 = v(x) λ c(x, y) c(x, y) v(y) λ (1) = λ 2 λ (v(x) + v(y)) + v(x)v(y) c 2 (x, y) (2) Anne B Dufour () Analyse en Composantes Principales Octobre 2013 13 / 36

Inertie d un nuage de points Recherche du vecteur directeur u Le polynôme caractéristique a toujours deux racines donc C a toujours deux valeurs propres et deux vecteurs propres. Les valeurs propres sont en général distinctes. On les note λ 1 et λ 2. λ 1 + λ 2 = v(x) + v(y) λ 1 λ 2 = v(x) v(y) c 2 (x, y) Toute matrice symétrique admet une base de vecteurs propres orthogonaux. Donc, C = UΛU T [ ] [ ] u11 u avec U = 21 λ1 0 et Λ = u 12 u 22 0 λ 2 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 14 / 36

Inertie d un nuage de points Recherche du vecteur directeur u I S (u) = u T Cu [ ] [ ] [ u11 u = [a b] 21 λ1 0 u11 u 12 u 12 u 22 0 λ 2 u 21 u 22 [ ] [ ] λ1 0 α = [α β] 0 λ 2 β ] [ a b ] = λ 1 α 2 + λ 2 β 2 λ 1 α 2 + λ 1 β 2 = λ 1 [ ] α représente les coordonnées du vecteur u dans la base des vecteurs β propres. Anne B Dufour () Analyse en Composantes Principales Octobre 2013 15 / 36

Inertie d un nuage de points Recherche du vecteur directeur u L inertie [ ] ne [ peut ] dépasser la première valeur propre et l atteint pour α 1 =, donc le premier vecteur propre. β 0 Conclusion dans le cas de 2 variables : L axe principal d un nuage bivarié est le premier vecteur propre de la matrice de variance-covariance des deux variables. Anne B Dufour () Analyse en Composantes Principales Octobre 2013 16 / 36

Inertie d un nuage de points Généralisation à p variables C = UΛU T admet une base de p vecteurs propres orthonormés. Le premier vecteur propre normé u 1 est un vecteur de R p qui maximise l inertie projetée. Le deuxième vecteur propre normé u 2 est un vecteur de R p, orthogonal à u 1, qui maximise à nouveau l inertie projetée. et ainsi de suite pour u 3... u r axes suivants où r représente le rang de la matrice diagonalisée. Anne B Dufour () Analyse en Composantes Principales Octobre 2013 17 / 36

Inertie d un nuage de points Coordonnées des projections Si u k est le vecteur propre de rang k, les coordonnées des projections des n points sont obtenus simplement par : p l 1k M 1 u k j =1 (x 1j m(x j ))u jk l k =. = = l nk. M n u k soit en écriture matricielle : l k = X 0 u k.. p j =1 (x nj m(x j ))u jk Anne B Dufour () Analyse en Composantes Principales Octobre 2013 18 / 36

Inertie d un nuage de points Axes principaux et coordonnées u k est appelé axe principal de rang k. l k est appelé vecteur des coordonnées sur l axe principal. C est une variable artificielle de moyenne nulle et de variance λ k. m(l k ) = 1 n = p j =1 n l ik = 1 n i=1 u jk 1 n n i=1 j =1 p (x ij m(x j ))u jk n (x ij m(x j )) = 0 i=1 v(l k ) = 1 n n lik 2 = 1 n (X 0u k ) T X 0 u k = u T k Cu k i=1 = λ k u T k u k = λ k Anne B Dufour () Analyse en Composantes Principales Octobre 2013 19 / 36

Représentations graphiques Le graphe des valeurs propres La coordonnées sur l axe de rang k est donc centrée de variance λ k. La somme des valeurs propres est l inertie totale. p λ j = j =1 où x j est la variable j du tableau X. p v(x j ) Le graphe des valeurs propres exprime la manière dont la variabilité des données se répartit dans l espace. C est une représentation en bâtons avec k sur l axe horizontal et λ k sur l axe vertical. En anglais, on parle de screeplot. j =1 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 20 / 36

Représentations graphiques La carte factorielle La représentation du nuage projeté sur un couple d axes principaux est appelée carte factorielle. C est une manière de voir l information multidimensionnelle. La carte factorielle des axes 1 et 2 est dite premier plan factoriel et représente la part maximale de la variabilité. Chaque point i est positionné par ses deux coordonnées (l i1, l i2 ). Anne B Dufour () Analyse en Composantes Principales Octobre 2013 21 / 36

Exemple Exemple écologique Stations le long du Doubs 0 50 100 150 200 27 28 29 30 26 8 4 5 6 7 1 23 9 25 2423 22 17 16 21 18 20 19 14 15 13 12 11 10 11 variables physico-chimiques : distance à la source, altitude, pente débit, ph, dureté de l eau phosphate, nitrate, ammoniaque oxygène, demande biologique en oxygène 0 50 100 150 200 250 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 22 / 36

Exemple Graphe des valeurs propres 0 1 2 3 4 5 6 1 2 3 4 5 6 7 8 9 10 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 23 / 36

Exemple Représentation des individus - stations d = 2 25 1 2 6 5 8 3 10 9 4 7 121116 13 14 15 18 17 21 19 22 20 27 26 28 29 30 24 23 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 24 / 36

Représentation des variables Situation B Représentation des variables dans l espace des individus Anne B Dufour () Analyse en Composantes Principales Octobre 2013 25 / 36

Représentation des variables Retour à l énoncé Retour à l énoncé du problème On vient d étudier la projection d un nuage de n points sur des axes qui maximisent l inertie projetée (situation A). On s intéresse maintenant à l ensemble de p points dans R n (situation B). Anne B Dufour () Analyse en Composantes Principales Octobre 2013 26 / 36

Représentation des variables Retour à l énoncé Enoncé (1) Le point de vue de cette analyse a été proposé par Hotelling (1933) dans le cas où les données sont centrées réduites. Soit y une variable quelconque. On peut calculer sa corrélation avec chacune des variables de départ x j (j = 1, p). Le lien entre y et X peut se mesurer par la relation : L (y, X) = p r 2 ( y, x j ) Objectif : Trouver une variable y qui optimise cette quantité. Le problème reste inchangé si on suppose y de moyenne nulle et de variance 1. j =1 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 27 / 36

Représentation des variables Retour à l énoncé Enoncé (2) r 2 ( y, x k) est : le carré de la norme du projeté de y sur le vecteur x k, vecteur centré réduit, le carré de la norme du projeté de x k sur le vecteur y. Le lien est alors l inertie projetée du nuage des variables sur y en pensant que le poids de chaque variable est 1 et que le produit scalaire de R n est D = 1 n I n. C est donc le même problème que précédemment. Anne B Dufour () Analyse en Composantes Principales Octobre 2013 28 / 36

Représentation des variables Retour à l énoncé Données centrées réduites Reprenant les résultats de la représentation des individus lorsque les variables du tableau X sont centrées réduites. Il est alors noté X. On cherche les axes principaux, vecteurs propres de la matrice 1 n XT X. On est passé de la matrice de variance-covariance C à la matrice des corrélations R. R = 1 n XT X = UΛU T et L = X U Anne B Dufour () Analyse en Composantes Principales Octobre 2013 29 / 36

Représentation des variables Recherche du vecteur y normé Recherche du vecteur y L (y, X) = p ( ) r 2 y, x k = 1 y x k 2 k=1 ( ) 1 T ( ) 1 L (y, X) = n XT y n XT y = 1 n 2 yt X X T y On cherche y normé pour le produit scalaire D sous la contrainte 1 n n i=1 y2 i = 1. Anne B Dufour () Analyse en Composantes Principales Octobre 2013 30 / 36

Représentation des variables Recherche du vecteur y normé Recherche du vecteur y On note que 1 n n i=1 y2 i peut s écrire = ( ) n n 1 2. i=1 y i On pose donc z = 1 n y et on cherche z normé pour le produit scalaire ordinaire maximisant : 1 n zt X X T z On pose S = 1 n X X T. C est une matrice symétrique qui admet une base de vecteurs propres orthogonaux : S = VΛV T Anne B Dufour () Analyse en Composantes Principales Octobre 2013 31 / 36

Représentation des variables Recherche du vecteur y normé Vecteurs propres de S SL = 1 n X X T X U = X RU = X UΛ = LΛ Les matrices S et R ont les mêmes valeurs propres non nulles. Les vecteurs que l on cherche sont connus : à une constante de normalisation près, les coordonnées des individus sur les axes principaux. V = LΛ 1/2 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 32 / 36

Représentation des variables Recherche du vecteur y normé Solution et représentation graphique L (y, X) ne peut pas dépasser λ 1 et l atteint pour la variable normée 1 λ1 l 1. Ce vecteur est appelé première composante principale. C est la variable qui est la plus corrélée avec toutes les variables du tableau. Quand on projette les variables sur les composantes principales, on obtient les coordonnées des variables. K = 1 n XT LΛ 1/2 = 1 n XT X UΛ 1/2 = RUΛ 1/2 = UΛ 1/2 La représentation liant variables et composantes principales est appelée cercle des corrélations. Anne B Dufour () Analyse en Composantes Principales Octobre 2013 33 / 36

Représentation des variables Exemple Ecologique Représentation des variables physico-chimiques alt slo bdo amm pho nit oxy ph har dfs flo Anne B Dufour () Analyse en Composantes Principales Octobre 2013 34 / 36

Représentation des variables Exemple Ecologique Exemple écologique (5) Pollution de l'eau le long du Doubs 0.5 0.0 0.5 0 50 100 150 200 2.5 2.5 7.5 dfs alt slo flo ph har pho nit amm oxy bdo 0 50 100 150 200 250 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 35 / 36

Conclusion Conclusion L Analyse ( en Composantes Principales dite A.C.P. est l étude du triplet X, Ip, 1 n I ) n. Si les données sont centrées, on parle d ACP centrée. Si les données sont normées, on parle d ACP normée. Anne B Dufour () Analyse en Composantes Principales Octobre 2013 36 / 36