Analyse en composantes principales

Documents pareils
1 Complément sur la projection du nuage des individus

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse en Composantes Principales

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Statistique Descriptive Multidimensionnelle. (pour les nuls)

MAP 553 Apprentissage statistique

Introduction. Préambule. Le contexte

La classification automatique de données quantitatives

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Analyse des correspondances avec colonne de référence

Programmation linéaire

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Exercice : la frontière des portefeuilles optimaux sans actif certain

Chapitre 3. Les distributions à deux variables

Différentiabilité ; Fonctions de plusieurs variables réelles

3 Approximation de solutions d équations

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Extraction d informations stratégiques par Analyse en Composantes Principales

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

Apprentissage Automatique

Calcul intégral élémentaire en plusieurs variables

Algorithmes pour la planification de mouvements en robotique non-holonome

Activités numériques [13 Points]

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

I. Polynômes de Tchebychev

Logiciel XLSTAT version rue Damrémont PARIS

Cours d Analyse. Fonctions de plusieurs variables

Quelques contrôle de Première S

Résolution de systèmes linéaires par des méthodes directes

Le modèle de Black et Scholes

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

STATIQUE GRAPHIQUE ET STATIQUE ANALYTIQUE

Relation entre deux variables : estimation de la corrélation linéaire

L'analyse des données à l usage des non mathématiciens

Le Modèle Linéaire par l exemple :

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

On ne peut pas entendre la forme d un tambour

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Polynômes à plusieurs variables. Résultant

Programmes des classes préparatoires aux Grandes Ecoles

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Continuité et dérivabilité d une fonction

Cours de mathématiques

Fonctions de plusieurs variables

Programmation linéaire et Optimisation. Didier Smets

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

Correction du Baccalauréat S Amérique du Nord mai 2007

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Optimisation, traitement d image et éclipse de Soleil

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Calcul différentiel sur R n Première partie

aux différences est appelé équation aux différences d ordre n en forme normale.

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Apprentissage non paramétrique en régression

[ édité le 30 avril 2015 Enoncés 1

Cours d analyse numérique SMI-S4

MATHS FINANCIERES. Projet OMEGA

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Angles orientés et trigonométrie

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. 29 mai 2015

Statistiques à une variable

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Un K-espace vectoriel est un ensemble non vide E muni : d une loi de composition interne, c est-à-dire d une application de E E dans E : E E E

Cours 02 : Problème général de la programmation linéaire

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

LES MÉTHODES DE POINT INTÉRIEUR 1

FORD C-MAX + FORD GRAND C-MAX CMAX_Main_Cover_2013_V3.indd /08/ :12

Dimensionnement d une roue autonome pour une implantation sur un fauteuil roulant

Corrigé du baccalauréat S Asie 21 juin 2010

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

La géométrie du triangle III IV - V Cercles remarquables - Lieux géométriques - Relations métriques

Plus courts chemins, programmation dynamique

Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Cours de méthodes de scoring

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Cours 7 : Utilisation de modules sous python

Cours de Mécanique du point matériel

FORMULAIRE DE STATISTIQUES

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Agrégation des portefeuilles de contrats d assurance vie

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Logique. Plan du chapitre

CCP PSI Mathématiques 1 : un corrigé

document proposé sur le site «Sciences Physiques en BTS» : BTS AVA 2015

Individus et informations supplémentaires

Séquence 10. Géométrie dans l espace. Sommaire

Introduction à l étude des Corps Finis

1S Modèles de rédaction Enoncés

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2

Fonctions de deux variables. Mai 2011

ESIEA PARIS

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Mémo d utilisation de ADE-4

Transcription:

5MS04 - Analyse des données Master 2 spécialité Statistiques Université Pierre et Marie Curie Analyse en composantes principales et une courte introduction à l analyse des correspondances Bertrand MICHEL bertrand.michel@ec-nantes.fr

La décomposition en valeurs singulières Singular Value Decomposition (SVD) Théorème 1. Pour X M(n, D) de rang r, il existe : des réels positifs µ 1 µ r > 0, une famille orthonormée U = [u 1,..., u r ] de R D, une famille orthonormée V = [v 1,..., v r ] de R n tels que X = V Diag(µ 1,..., µ r )U = µ s v s u s. s=1...r De plus, pour tout d r, la matrice X d = s=1...d µ sv s u s vérifie : X X d F = min X B F = µ 2 s B M n,d rang(b)=d s=d+1...r où F est la norme de Frobenius : M 2 F = i,j M 2 i,j = Tr(M M)

La décomposition en valeurs singulières Singular Value Decomposition (SVD) Diagonalisation de la matrice de covariance via la SVD de X : ns = X X = µ 2 su s u s s=1...r et les u s sont des vecteurs propres (normés) de la matrice X X relatifs aux valeurs propres µ 2 1,..., µ 2 r. Diagonalisation de la matrice de Gram via la SVD de X : G = XX = µ 2 sv s (v s ) s=1...r et les v s sont des vecteurs propres (normés) de la matrice XX relatifs aux valeurs propres µ 2 1,..., µ 2 r. Dualité entre les deux problèmes Xu s = µ s v s et X v s = µ s u s.

Dans la suite, on suppose que la matrice de données X a été préalablement centrée : x = 0. ACP : position du problème Individus x 1,..., x i,..., x n en lignes, Variables quantitatives numériques x 1,..., x j,..., x D en colonnes. x 1 1... x D 1... x 1 n... x D n L ACP : méthode d exploration des données qui vise : La représentation graphique des variables dans un sous-espace explicitant au mieux les liaisons entre les variables ; La représentation graphique optimale des individus dans un sous-espace de dimension q de R D, en déformant le moins possible le nuage de points initial ; La réduction de dimension, la compression de données.

ACP : Nuages de X et métriques La matrice de X définit deux nuages : N ind : le nuage des points individus dans R D. N var : le nuage des points variables dans R n. Pour résumer les données, on cherche pour un entier d fixé : le s.e.v. E d de dim. d dans R D qui s ajuste le mieux sur N ind, le s.e.v. F d de dim. d dans R n qui s ajuste le mieux sur N var. Métriques choisies : R D est muni du produit scalaire usuel : < x i, x l >= j=1...d xj i xj l R n est muni du produit scalaire des poids tous égaux : < x j, x k > n := 1 n On note n la norme associée. i=1...n x j i xk i.

ACP : Nuages de X et métriques Grâce au recentrage de la matrice X et au choix de p.s. dans R n : < x j, x k > n = 1 n (xj ) x k = cov(x j, x k ) = cor(x j, x k ) pour l ACP normée x j x k 2 n = var x j + var x k 2 cov(x j, x k ) [ ] = 2 1 cor(x j, x k ) pour l ACP normée En ACP normée, la distance entre variables s interprète en terme de colinéarité :

ACP : inertie du nuage des individus L inertie généralise la notion de dispersion pour un nuage de points (individus) dans R D : I(X) := 1 n i=1...n x i 2 = 1 n X F = 1 n tr(xx ) = tr(s) Dans l espace des variables (R n, n ), on définit l inertie d un nuage par D I (N var ) := x j 2 n On a bien I (N var ) = I (N ind ) j=1

ACP : Ajustement d un sous-espace vectoriel sur N ind On cherche un s.e.v. E d de R D qui approche au mieux le nuage N ind pour la norme usuelle. Par Pythagore : D où : Minimiser 1 n x i 2 = x i P Ed (x i ) 2 + P Ed (x i ) 2 i=1...n ( ) x i P Ed (x i ) 2 Maximiser I PEd (N ind) On considère la décomposition en valeurs singulières de X : X := µ s v s u s. s=1...r L inertie de la projection orthogonale de N ind sur un s.e.v. E d est maximale pour Êd := Vect(u 1,..., u d ). De façon équivalente : l ajustement sur le nuage de points N ind est optimal pour Êd.

ACP : Ajustement d un sous espace vectoriel sur N var On cherche cette fois un s.e.v. F d de R n qui approche au mieux le nuage N var pour la norme n. Par Pythagore : D où Minimiser x j 2 n = x j P Fd (x j ) 2 n + P Fd (x j ) 2 n j=1...d ( ) x j P Fd (x j ) 2 n Maximiser I PEd (N var) On considère la SVD de X : X := r µ s v s u s. s=1 L ajustement sur N var est optimal pour ˆF d := Vect(v 1,..., v d ). Attention : v s 2 n = 1 n, on définit donc ṽs = nv s et ṽ s 2 n = 1.

ACP : solutions et dualité des deux problèmes d ajustement Dans R D : les vecteurs propres de S = 1 n X X sont les u s pour les valeurs propres λ s := 1 n µ2 s : Su s = 1 n X Xu s = 1 n µ2 su s. Dans R n : les vecteurs propres de la matrice de Gram XX sont les v s pour les valeurs propres µ 2 s : XX v s = µ 2 sv s. En général n > D et la solution la moins coûteuse algorithmiquement est de passer par la diagonalisation de S.

ACP : solutions et dualité des deux problèmes d ajustement Par la SVD de X : Xu s = µ s v s et X v s = µ s u s. Composantes principales : coordonnées des projections des points individus sur l axe factoriel porté par u s : Ψ s := < x 1, u s >. < x n, u s > = Xu s = µ s v s = λ s ṽ s. Coordonnées des projections des variables sur l axe factoriel porté par v s ou ṽ s : Φ s := < x 1, ṽ s > n. < x p, ṽ s > n = 1 n X ṽ s = 1 n X v s = λ s u s.

ACP : Bilan de l ACP

ACP : Bilan de l ACP On dispose initialement d un tableau de données brutes R = (r ij ) de taille n D. On distingue 2 types d analyse en composantes principales (ACP) : l ACP non normée : analyse du tableau centré X = R r ; l ACP normée : analyse du tableau centré réduit X = ( r j i rj var(r j ) ). i,j Trouver des projections des nuages N ind et N var sur des sous-espaces vectoriels de dimensions inférieures, qui conservent un maximum d information c est-à-dire d inertie, conduit à considérer la décomposition en valeurs singulières de X : X := r µ s v s u s. s=1

ACP : Bilan de l ACP X := r µ s v s u s s=1 Les vecteurs u s sont les vecteurs propres de S pour les valeurs propres λ s := 1 n µ2 s et on peut d ailleurs les déterminer de cette façon. On peut ensuite trouver les v s grâce à la relation Xu s = µ s v s. La solution de l ACP est finalement donnée par la projection du nuage N ind sur Êd := Vect(u 1,..., u d ), la projection du nuage N var sur ˆF d := Vect(v 1,..., v d ). Les coordonnées des projections des individus sur le s-ième axe factoriel se lisent dans le vecteur Ψ s = λ s v s. De même, les coordonnées des projections des variables sur le s-ième axe factoriel se lisent dans le vecteur Φ s = λ s u s. L ACP est une projection orthogonale bien choisie, il s agit donc d une méthode de réduction de dimension de type linéaire.

Une seconde formulation du problème de l ACP On a défini la s-ième composante principale comme le vecteur des coordonnées des points individus x i sur l axe factoriel dirigé par u s. On a Ψ s = Xu s = λ s ṽ s et le vecteur Ψ s R n peut aussi être considéré comme une variable. Proposition 1. Les composantes principales sont orthogonales (ou non corrélées) deux à deux : cov(ψ s, Ψ t ) = λ s δ s,t En particulier, var(ψ s ) = µ2 s n = λ s.

Une seconde formulation du problème de l ACP Seconde formulation du problème de l ACP : on cherche une famille de nouvelles variables ( Ψ s ) s=1,...,d de R n telle que : chaque Ψ s soit une combinaison linéaire des x j : Ψ s = Xα s avec α s = 1 ; les Ψ s ne soient pas corrélés entre eux : cov( Ψ s, Ψ t ) = 0 si s t ; les variances var( Ψ s ) soient maximales (d où la contrainte α s = 1). Proposition 2. Les composantes principales Ψ s sont solutions (pour α s = u s ) de cette seconde formulation du problème de l ACP.

Une seconde formulation du problème de l ACP Cette seconde approche montre bien que la matrice de variance-covariance S de X permet de décrire la géométrie du nuage des individus. En effet, les facteurs u s sont les vecteurs propres normés de S et sont tels que : les facteurs u s sont dirigés dans R n dans les directions où le nuage est le plus étalé, les facteurs u s sont orthogonaux, la dispersion des données dans ces directions est mesurée par les valeurs propres de S : var(ψ s ) = var(xu s ) = λ s.

Pratique de l ACP : plans factoriels On analyse le nuage des individus en projetant ces derniers sur les premières directions factorielles : Ces représentations permettent de résumer de façon optimale la géométrie du nuage. Elles permettent aussi de déceler d éventuels outliers, que l on pourra alors retirer des données pour procéder à une nouvelle ACP.

Pratique de l ACP (cf TPs) 2D-proj : left-right pose 3D-proj : light 2D-proj : up-down pose

Pratique de l ACP : qualité de la représentation L inertie du nuage peut aussi être décomposée de la façon suivante : I (N ind ) = tr(s) = λ 1 + + λ D = λ 1 + + λ r car λ s = 0 pour s > r = D pour l ACP normée La qualité globale de la représentation pour une projection sur Êd se mesure par le ratio d inertie conservé par la projection : ratio d := I ( P Êd (N ind ) ) = λ 1 + + λ d. I(N ind ) λ 1 + + λ r La qualité de la représentation de l individu x i projeté sur Êd peut être mesurée par le cosinus carré suivant : cos 2 [ θ(x i, P Êd x i ) ] = PÊ d x i 2 x i 2 = d s=1 (Ψs i )2 r s=1 (Ψs i )2.

Pratique de l ACP : contributions des individus L inertie du nuage peut aussi être décomposée de la façon suivante : I (N ind ) = λ 1 + + λ p = 1 n x i 2 = 1 n r (Ψ s i ) 2. n n i=1 i=1 s=1 La contribution de l individu i à l inertie totale du nuage vaut 1 n γ i = x i 2 1 r I (N ind ) = n s=1 (Ψs i )2. λ 1 + + λ p Puisque var(ψ s ) = λ s = 1 n n (Ψ s i ) 2, la contribution de l individu i à la variance de la s-ième composante principale vaut 1 n γ i s = (Ψs i )2. λ s i=1

On peut aussi calculer comme précédemment la qualité de la représentation de z. Pratique de l ACP : Représentation d individus supplémentaires On appelle individu supplémentaire tout individu qui n a pas été pris en compte pour le calcul de l ACP (i.e. pour la diagonalisation de S). On peut représenter des individus supplémentaires en les projetant dans les plans factoriels. Soit z un tel individu, on recentre z : z = z x (et on réduit dans le cas de l ACP normé). Les coordonnées de la projection de z sur chacun des axes factoriels valent Ψ s z := u s z.

Pratique de l ACP : Cercle des corrélations On analyse le nuage des variables en projetant ces dernières sur les premières directions factorielles : Dans le cas de l ACP normée, on a x j 2 n = 1 pour tous les j et la projection des individus sur tout plan factoriel (ṽ s, ṽ t ) est nécessairement à l intérieur du cercle.

Coordonnées des variables projetées et corrélation Rappel : Φ s = ( ) Φ 1 s,..., Φ D s est le vecteur des coordonnées de chacune des D variables sur le s-ième axe factoriel dirigé par ṽ s ; on a φ j s = 1 n ( x j ) ṽs = cov(x j, ṽ s ) = cor(x j, ṽ s ) pour l ACP normée L inertie du nuage des variables projetées sur F d se décompose alors de la façon suivante : I ( ) D PˆFd N var = var(x j ) [cor(x j, ṽ 1 ) 2 + + cor(x j, ṽ d ) 2] = j=1 D cor(x j, ṽ 1 ) 2 + + cor(x j, ṽ d ) 2 j=1 ACP normée Comme pour l analyse du nuage des individus, on définit des indicateurs pour mesurer la qualité des représentations ainsi que les contributions de chacune des variables.

Qualité de la représentation des variables (ACP normée) La qualité de la représentation de la variable x j projetée sur ˆF q vaut cos 2 [ θ(x j, PˆFq xj ) ] = PÊ qx j 2 n x j 2 n = q s=1 ( cor(x j, ṽ s ) ) 2 r s=1 (cor(xj, ṽ s )) 2. la variable x 1 est bien représentée, elle très corrélée avec ṽ 1 (ou Ψ 1 ), peu avec ṽ 2 (ou Ψ 2 ). la variable x 2 est bien représentée, elle très corrélée avec ṽ 2 (ou Ψ 2 ), peu avec ṽ 1 (ou Ψ 1 ). la variable x 3 est mal représentée dans ce plan factoriel, elle est peu corrélée avec ṽ 1 et v 2.

Si les variables sont de type catégoriel Avec l ACP : on peut représenter une variable catégorielle en projetant les barycentres des sous-nuages (une modalité de la variable = un sous-nuage) sur chacun des axes factoriels. Cependant, les variables catégorielles ne sont alors que des variables illustratives. Autrement dit, elles n entrent pas en jeu dans la formation des composantes principales.

L analyse factorielle des correspondances (AFC) L AFC est une ACP sur un tableau de contingence (2 variables catégorielles). L AFC est un raffinement du test du χ 2. On étudie l AFC sur un exemple. Données : Nombre de médailles obtenues aux JO sur 5 olympiades (1992 à 2008) Pays Tableau de contingence : alg aus bah bar bdi blr bra brn can chn cub cze den 10000m 0 0 0 0 0 0 0 0 0 0 0 0 0 100m 0 0 0 1 0 0 0 0 1 0 0 0 0 110mH 0 0 0 0 0 0 0 0 1 1 3 0 0 1500m 1 0 0 0 0 0 0 1 0 0 0 0 0 200m 0 0 0 0 0 0 0 0 0 0 0 0 0 20km 0 2 0 0 0 0 0 0 1 0 0 0 0 3000mSteeple 0 0 0 0 0 0 0 0 0 0 0 0 0 400m 0 0 0 0 0 0 0 0 0 0 0 0 0 400mH 0 0 0 0 0 0 0 0 0 0 0 0 0 4x100m 0 0 0 0 0 0 2 0 1 0 2 0 0 4x400m 0 1 1 0 0 0 0 0 0 0 1 0 0 5000m 1 0 0 0 1 0 0 0 0 0 0 0 0 50km 0 1 0 0 0 0 0 0 0 0 0 0 0 800m 1 0 0 0 0 0 0 0 0 0 0 0 2 Decathlon 0 0 0 0 0 1 0 0 0 0 1 3 0

L analyse factorielle des correspondances (AFC) Le test d indépendance du χ 2. Soient Y et Z à valeurs dans {y 1,..., y L } et {z 1,..., z H }. On observe un n-échantillon de (Y, Z). Pour l {1..., L} et h {1..., H}, on définit N l, = card {i; Y i = y l }, N,h = card {i; Z i = z h }, N l,h = card {i; y i = y l, Z i = z h }. La matrice des N l,h est le tableau de contingence des observations de (Y, Z). Sous l hypothèse d indépendance, on s attend à ce que les proportions observées vérifient N,h f l,h := N l,h n N l, n n =: f l, f,h. Stat du test du χ 2 : Φ 2 := n (f l,h f l, f,h ) 2 l=1...l h=1...h f l, f,h. Sous hypothèse d indépendance, Φ 2 χ 2 ((H 1)(L 1)).

L analyse factorielle des correspondances (AFC) L AFC résumée en 4 points : on considère ( le nuage des profils lignes fl,1,..., f ) l,h,... pour la ligne l f l, f l, On introduit la métrique du χ 2 entre profils lignes : H ( 1 fi,h d χ 2(i, l) := f ) 2 l,h. f,h f i, f l, h=1 L inertie (pondérée) associée vérifie f l, d χ 2(G H, l) = nφ 2 l=1...l où G H est le profil moyen des colonnes. de même pour le nuage des profils colonnes. La solution de l ACP (i.e. la recherche d axes orthogonaux d inertie max) est donnée par une SVD de la matrice des profils centrés (pour d χ 2).

L analyse factorielle des correspondances (AFC)

L analyse des correspondances multiples L analyse des composantes multiples permet de traiter le cas de p variables catégorielles. En bref : On considère le tableau disjonctif complet. On définit une distance adéquate entre modalités ainsi qu une distance entre individus. On résout l ACP correspondante. On projette sur les plans factoriels toutes les modalités de toutes les variables.