1 Complément sur la projection du nuage des individus



Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse en Composantes Principales

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Introduction. Préambule. Le contexte

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Programmes des classes préparatoires aux Grandes Ecoles

INF6304 Interfaces Intelligentes

I. Polynômes de Tchebychev

Angles orientés et trigonométrie

1 radian. De même, la longueur d un arc de cercle de rayon R et dont l angle au centre a pour mesure α radians est α R. R AB =R.

La classification automatique de données quantitatives

Fonctions de plusieurs variables

Théorie et codage de l information

Extraction d informations stratégiques par Analyse en Composantes Principales

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Introduction à l approche bootstrap

Chapitre 3. Les distributions à deux variables

L'analyse des données à l usage des non mathématiciens

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

3 Approximation de solutions d équations

Le Modèle Linéaire par l exemple :


TOUT CE QU IL FAUT SAVOIR POUR LE BREVET

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

3. Conditionnement P (B)

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Programmation linéaire

Relation entre deux variables : estimation de la corrélation linéaire

Cours d Analyse. Fonctions de plusieurs variables

Cours 02 : Problème général de la programmation linéaire

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Calcul différentiel sur R n Première partie

CCP PSI Mathématiques 1 : un corrigé

Mesure d angles et trigonométrie

MAP 553 Apprentissage statistique

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Exercices Corrigés Premières notions sur les espaces vectoriels

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Angles orientés et fonctions circulaires ( En première S )

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

LE PRODUIT SCALAIRE ( En première S )

Chapitre 0 Introduction à la cinématique

Calcul intégral élémentaire en plusieurs variables

Corrigé du baccalauréat S Pondichéry 12 avril 2007

Polynômes à plusieurs variables. Résultant

Probabilités sur un univers fini

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

ENSAE - DAKAR BROCHURE D'INFORMATION SUR LE CONCOURS DE RECRUTEMENT D ÉLÈVES INGÉNIEURS STATISTICIENS ÉCONOMISTES (I S E) Option Mathématiques CAPESA

Cours de Mécanique du point matériel

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

1S Modèles de rédaction Enoncés

Représentation géométrique d un nombre complexe

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

STATIQUE GRAPHIQUE ET STATIQUE ANALYTIQUE

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Exercices - Nombres complexes : corrigé. Formes algébriques et trigonométriques, module et argument

Programmation linéaire et Optimisation. Didier Smets

Cours 7 : Utilisation de modules sous python

Simulation de variables aléatoires

Optimisation, traitement d image et éclipse de Soleil

Introduction à l étude des Corps Finis

Cours d analyse numérique SMI-S4

Programme de la classe de première année MPSI

Exercice : la frontière des portefeuilles optimaux sans actif certain

Correction de l examen de la première session

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Fonctions de plusieurs variables

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Leçon N 4 : Statistiques à deux variables

Chafa Azzedine - Faculté de Physique U.S.T.H.B 1

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Quelques contrôle de Première S

Data mining 1. Exploration Statistique

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

= 1 si n = m& où n et m sont souvent des indices entiers, par exemple, n, m = 0, 1, 2, 3, 4... En fait,! n m

RO04/TI07 - Optimisation non-linéaire

Séquence 2. Repérage dans le plan Équations de droites. Sommaire

Probabilités sur un univers fini

[ édité le 30 avril 2015 Enoncés 1

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Exemple 4.4. Continuons l exemple précédent. Maintenant on travaille sur les quaternions et on a alors les décompositions

avec des nombres entiers

Le modèle de régression linéaire

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Mesures gaussiennes et espaces de Fock

Repérage d un point - Vitesse et

Statistique Descriptive Élémentaire

NOTATIONS PRÉLIMINAIRES

Intégration et probabilités TD1 Espaces mesurés Corrigé

F411 - Courbes Paramétrées, Polaires

Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe

Le modèle de Black et Scholes

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Si deux droites sont parallèles à une même troisième. alors les deux droites sont parallèles entre elles. alors

Transcription:

TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent TP ainsi que le jeu de données Budget.txt. Complément sur la projection du nuage des individus Pour commencer, chargeons et centrons les données. > donneesbrut=read.table("budget.txt", sep=",") > donneesbrut=donneesbrut[,2:2] > moy=colmeans(donneesbrut) > moyvect=matrix(rep(moy,24),24,,byrow=true) > Xc=donneesbrut - moyvect > Xc=as.matrix(Xc) On rappelle que les axes principaux u,,u p sont les p = vecteurs propres de la matrice de covariance empirique Σ : > cov=/24*t(xc)%*%xc > eigen(cov)$vectors Ils constituent une nouvelle base orthonormée de l espace R où vivent les 24 individus. L ACP consiste à assimiler un individu à ses coordonnées dans cette nouvelle base au lieu de ses coordonnées dans la base canonique (qui constituent les données brutes). Si on décide de conserver uniquement les vecteurs propres associés aux deux plus grandes valeurs propres, l ACP consiste donc à projeter le nuage des individus sur un plan vectoriel optimal.. Qualité de la représentation Lorsque des points projections des individus sont éloignés sur un axe (ou sur un plan), on peut assurer que les points représentants ces individus sont éloignés dans l espace.en revanche, deux individus dont les projections sont proches sur un axe (ou sur un plan) peuvent ne pas être proches dans l espace. Pour interpréter correctement la proximité des projections de deux individus sur un plan, il faut donc s assurer que ces individus sont bien représentés dans le plan. Pour que l individu X i X soit bien représenté sur un axe (ou sur un plan, ou un sous-espace), il faut que l angle entre le vecteur X i X et l axe (ou le plan, ou le sous-espace) soit petit. On calcule donc le cosinus de cet angle, ou plutôt la carré de ce cosinus. En effet, en utilisant le théorème de Pythagore, on peut montrer que le carré du cosinus de l angle d un vecteur avec un plan engendré par deux vecteurs orthogonaux, est égal à la somme des carrés des cosinus des angles du vecteur avec chacun des deux vecteurs qui engendrent le plan. Cette propriété se généralise à l angle d un vecteur avec un sous-espace de dimension k quelconque. Si le carré du cosinus de l angle entre X i X et l axe (ou le plan, ou le sous-espace) est proche de, alors on pourra dire que l individu X i X est bien représenté par sa projection sur l axe (ou le plan, ou le sous-espace). Et si deux individus sont bien représentés en projection sur un axe (ou un plan, ou un sous-espace) et ont des projections proches, alors on pourra

dire que ces deux individus sont proches dans l espace. Le carré du cosinus de l angle α i,k entre X i X et un axe principal de vecteur directeur unitaire u k est : 2 Xi X,u k cos 2 (α i,k ) = X i X 2 2 Par exemple, regardons si l année 872 est bien représentée sur le premier axe principal : > cos=sum(xc[,]*eigen(cov)$vectors[,])/(sqrt(sum(xc[,]^2))) > cos^2 On peut dire que oui car la valeur obtenue est assez proche de. A fortiori, elle est bien représentée sur le plan optimal: > cos2=sum(xc[,]*eigen(cov)$vectors[,2])/(sqrt(sum(xc[,]^2))) > cos2^2+cos^2 Les années 932 et 935 sont-elles bien représentées dans le plan optimal? Ou se situe leur projection? Pour cela, on interpretera les résultats de : > cos32=sum(xc[3,]*eigen(cov)$vectors[,2])/(sqrt(sum(xc[3,]^2))) > cos3=sum(xc[3,]*eigen(cov)$vectors[,])/(sqrt(sum(xc[3,]^2))) > cos3^2+cos32^2 > cos42=sum(xc[4,]*eigen(cov)$vectors[,2])/(sqrt(sum(xc[4,]^2))) > cos4=sum(xc[4,]*eigen(cov)$vectors[,])/(sqrt(sum(xc[4,]^2))) > cos4^2+cos42^2.2 Lien avec la matrice de Gram L ACP que nous avons pratiquée jusqu ici nécessite la diagonalisation de la matrice de covariance qui est une matrice carrée de taille p. Dans le cas où de nombreuses variables ont été relevées sur les individus, cette matrice peut être de grande taille. Afin de se ramener à diagonaliser une matrice de taille potentiellement plus petite, on définit la matrice de Gram des données. Il s agit de la matrice K carrée de taille n définit par : K i,j = n Xi X,X j X. Elle est de taille plus petite que la matrice de covariance si n < p. On peut remarquer que : alors qu on a K = n X cx T c Σ = n XT c X c où A T désigne la transposée de la matrice A. En conséquence, on montre aisément que les valeurs propres non-nulles de la matrice de Gram K sont les mêmes que celles de la matrice de covariance Σ et qu elles ont la même multiplicité. Notons λ le vecteur de ces valeurs propres et vérifions cette assertion : 2

> cov=/24*t(xc)%*%xc > K=/24*Xc%*%t(Xc) > eigen(cov)$values > eigen(k)$values De plus, on peut calculer les vecteurs propres de la matrice de covariance Σ à partir de ceux de la matrice de Gram K. Ces deux matrices ont le même rang : on suppose dorénavant que ce rang est maximale i.e. vaut q = min(n,p). Dans ce cas, si (v,,v n ) désigne une base ( orthonormée de R n de ) vecteurs propres de la matrice de Gram K alors un rapide calcul montre que n Xc T v,, n Xc T v q est un système orthogonale de R p (une base orthogonale si n p) de vecteurs propres de la matrice de covariance Σ. On montre également que le carré de la norme euclidienne de n Xc T v j est λ j pour j = n. Vérifions ces assertions : > qr(cov)$rank > qr(k)$rank # l hypothese est verifiee > eigen(k)$values > sum((/sqrt(24)*t(xc)%*%eigen(k)$vectors[,])^2) > sum((/sqrt(24)*t(xc)%*%eigen(k)$vectors[,])^2) > sum((/sqrt(24)*t(xc)%*%eigen(k)$vectors[,2])^2) > sum((/sqrt(24)*t(xc)%*%eigen(k)$vectors[,24])^2) # La norme est la bonne. > sum((/sqrt(24)*t(xc)%*%eigen(k)$vectors[,])* (/sqrt(24)*t(xc)%*%eigen(k)$vectors[,2])) > sum((/sqrt(24)*t(xc)%*%eigen(k)$vectors[,])* (/sqrt(24)*t(xc)%*%eigen(k)$vectors[,24])) # on a bien un systeme orthogonal. ( ) Les assertions précédentes impliquent que λ n XT c v,, XT λqn c v q est un système orthonormé de vecteurs propres de la matrice de covariance Σ. Vérifions le (dans notre cas, on a n p et on a donc une base orthonormée). > eigen(cov)$vectors > /sqrt(eigen(k)$values[]*24)*t(xc)%*%eigen(k)$vectors[,] > /sqrt(eigen(k)$values[5]*24)*t(xc)%*%eigen(k)$vectors[,5] > /sqrt(eigen(k)$values[]*24)*t(xc)%*%eigen(k)$vectors[,] Avec les notations précédentes, en supposant que les valeurs propres sont de multiplicité, on a donc, pour j q u j = ± λj n XT c v j. On peut donc calculer les coordonnées des individus dans le plan optimal par la formule (pour k =, 2) : n n Xi X,u k = ± v k (l)k i,l λ k qui ne fait intervenir que les éléments propres de la matrice de Gram K. On remarquera que le signe de cette coordonnée n a pas de sens. Cependant, si deux individus ont des coordonnées de signe différent, on peut interpréter cela en disant qu ils s opposent sur cette axe. 3 l=

Vérifions que l on retrouve bien les mêmes coordonnées par cette méthode pour la projection de l année 872 sur le plan vectoriel optimal: > sum(xc[,]*eigen(cov)$vectors[,]) > sum(xc[,]*eigen(cov)$vectors[,2]) #Coord. via diagonalisation matrice covariance > sqrt(24/eigen(k)$values[])*sum(eigen(k)$vectors[,]*k[,]) > sqrt(24/eigen(k)$values[2])*sum(eigen(k)$vectors[,2]*k[,]) #Coord. via diagonalisation matrice Gram 2 Représentation des variables : cercle des corrélations On peut envisager le problème de la représentation des variables de façon complètement symétrique de celui des individus. Les raisonnements se font dans R n au lieu de R p. Mais dans l ACP, au delà de la symétrie formelle entre les individus et les variables, on peut utiliser la dissymétrie liée à la sémantique : les variables n ont pas la même signification que les individus. On peut alors faire le raisonnement suivant : on a représenté les individus dans l espace des anciennes variables, et on a fait un changement de base espace. Les nouveaux axes sont des combinaisons linéaires des anciens axes et peuvent donc être considérés comme de nouvelles variables combinaisons linéaires des anciennes. On appelle communément ces nouvelles variables composantes principales. Concrètement, pour j p, la j ieme composante principale est constituée des projections de chacun des n individus sur le j ieme axe principale. Les deux premières composantes principales sont donc > NewVar=Xc%*%eigen(cov)$vector[,] > NewVar2=Xc%*%eigen(cov)$vector[,2] Il est alors intéressant de voir comment les anciennes variables sont liées aux nouvelles et pour cela on calcule les corrélations des anciennes variables avec les nouvelles. La représentation des anciennes variables se fera en prenant comme coordonnées leurs coefficients de corrélation avec les nouvelles variables. On obtient alors ce que l on appelle communément le cercle des corrélations, dénomination qui vient du fait qu un coefficient de corrélation variant entre et, les représentations des variables de départ sont des points qui se trouvent à l intérieur d un cercle de rayon si on fait la représentation sur un plan. Par exemple, la variable pouvoir public aura comme coordonnées ( Corr(X c,newv ar), Corr(X c,newv ar2) ). La corrélation entre deux variables a et b (i.e. deux vecteurs de R n ) est définie comme : Corr(a,b) = Cov(a, b) Var(a) Var(b). Calculons les coordonnées de la variable pouvoir public : > (/24*sum(Xc[,]*NewVar))/(sqrt(/24*sum(Xc[,]^2))*sqrt(/24*sum(NewVar^2))) > (/24*sum(Xc[,]*NewVar2))/(sqrt(/24*sum(Xc[,]^2))*sqrt(/24*sum(NewVar2^2))) 4

Etudier la coherence des résultats numériques des deux sections precedentes avec les représentations graphiques de la procédure suivante : > summary(pc.cr <- princomp(donneesbrut, cor = FALSE)) > plot(pc.cr) > biplot(pc.cr) Par exemple, les coordonnées de la eme variable ( divers ) dans le cercle des corrélations est : > (/24*sum(Xc[,]*NewVar))/(sqrt(/24*sum(Xc[,]^2))*sqrt(/24*sum(NewVar^2))) > (/24*sum(Xc[,]*NewVar2))/(sqrt(/24*sum(Xc[,]^2))*sqrt(/24*sum(NewVar2^2))) Les résultats vous semblent-ils coherents avec la représentation graphique fournit par la fonction princomp de R? 3 Applications : à vous de jouer. L ACP ainsi présentée dépend de l unité en laquelle les variables sont exprimées. On préfère donc souvent faire une ACP normée i.e. faire la même analyse que précédemment sur les données centrées et réduites. On remplace donc la matrice Xc précédente par la matrice Xcr dans l analyse. > Xcr=sweep(Xc,2,std.att,FUN="/") Cela revient à normaliser le tableau des données brutes de telle sorte que les variables aient toutes une variances égale à. On constate maintenant que l ACP revient à diagonaliser la matrice des corrélations empiriques au lieu de la matrice des covariances empiriques. Re-calculer les mêmes quantités que dans les deux sections précédentes. Etudier la coherence de ces résultats numériques avec les représentations graphiques de la procédure suivante : > summary(pc.cr <- princomp(donneesbrut, cor = TRUE)) > plot(pc.cr) > biplot(pc.cr) On pourra également mener les analyses des deux premières sections sur le jeu de données US- Arrests déjà disponible dans R sur les arrestations dans les différents états américains. > USArrests 5