Analyse en composantes principales

Documents pareils
1 Complément sur la projection du nuage des individus

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse en Composantes Principales

Introduction au Data-Mining

Introduction au Data-Mining

Modèles et Méthodes de Réservation

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Chapitre 5 : Flot maximal dans un graphe

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Exercices Corrigés Premières notions sur les espaces vectoriels

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Exercice : la frontière des portefeuilles optimaux sans actif certain

Programmation linéaire

Cours d analyse numérique SMI-S4

Extraction d informations stratégiques par Analyse en Composantes Principales

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

La classification automatique de données quantitatives

L exclusion mutuelle distribuée

Chapitre 3. Les distributions à deux variables

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

I. Polynômes de Tchebychev

Calcul intégral élémentaire en plusieurs variables

OPTIMISATION À UNE VARIABLE

3. Conditionnement P (B)

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Arbres binaires de décision

ACP Voitures 1- Méthode

Apprentissage non paramétrique en régression

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

FONCTION DE DEMANDE : REVENU ET PRIX

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

RO04/TI07 - Optimisation non-linéaire

Algorithmes pour la planification de mouvements en robotique non-holonome

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Introduction à l approche bootstrap

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans


Programmation linéaire et Optimisation. Didier Smets

Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Programmation Linéaire - Cours 1

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Introduction à l étude des Corps Finis

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Intégration de la dimension sémantique dans les réseaux sociaux

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

FORMULAIRE DE STATISTIQUES

CHAPITRE 5. Stratégies Mixtes

TRACER LE GRAPHE D'UNE FONCTION

Lagrange, où λ 1 est pour la contrainte sur µ p ).

Amphi 3: Espaces complets - Applications linéaires continues

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g.

Apprentissage Automatique

Le Modèle Linéaire par l exemple :

Théorie et codage de l information

Quantification Scalaire et Prédictive

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Relation entre deux variables : estimation de la corrélation linéaire

Mesures gaussiennes et espaces de Fock

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Probabilités sur un univers fini

Circuits RL et RC. Chapitre Inductance

Classification non supervisée

Cours 9 : Plans à plusieurs facteurs

Implémentation de Nouveaux Elements Finis dans Life et Applications

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

NOTATIONS PRÉLIMINAIRES

Probabilités sur un univers fini

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Table des matières. I Mise à niveau 11. Préface

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Oscillations libres des systèmes à deux degrés de liberté

Cours de mathématiques

MATHS FINANCIERES. Projet OMEGA

Introduction. Préambule. Le contexte

ELEC2753 Electrotechnique examen du 11/06/2012

Logiciel XLSTAT version rue Damrémont PARIS

L'analyse des données à l usage des non mathématiciens

Sujet 4: Programmation stochastique propriétés de fonction de recours

Résolution de systèmes linéaires par des méthodes directes

Régression linéaire. Nicolas Turenne INRA

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

INF6304 Interfaces Intelligentes

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Cours d introduction à la théorie de la détection

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Soutenance de stage Laboratoire des Signaux et Systèmes

Intérêt du découpage en sous-bandes pour l analyse spectrale

Cours d Analyse. Fonctions de plusieurs variables

Équations d amorçage d intégrales premières formelles

DISQUE DUR. Figure 1 Disque dur ouvert

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Transcription:

Analyse en composantes principales Alain RAKOTOMAMONJY - Gilles GASSO INSA Rouen -Département ASI Laboratoire LITIS 11 Février 2009 A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 1 / 18

Introduction Objectifs Soit {x i },,l un ensemble d observations décrit par d attributs. Les objectifs de l analyse en composantes principales sont : Notations 1 la représentation graphique optimale des observations minimisant la déformation du nuage de points dans un sous-espace de dimension q (q < d). 2 la réduction de la dimension, ou l approximation des observations à partir de q variables (q < d). 0 Observation : x i R d avec x i = B @ Variable (attribut) : x j x i,1 x i,2. x i,d 1 C A A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 2 / 18

Les données Description Soit l observations décrites par d attributs. Soit X la matrice des observations (x i R d ) : 0 1 0 1 x 1,1 x 1,2... x 1,d B X = @ C B.. A = @ x l,1 x l,2... x l,d x t 1.. x t l C A = ` x 1 x 2... x l t Moyenne x = ` x 1 x 2... x d t avec x j P = 1 l l x i,j, j = 1,..., d Variance des variables var(x j ) = 1 l P l (x i,j x j ) 2 Les observations peuvent être transformées en données centrées et réduites par transformation (soustraction de la moyenne et division par l écart-type). Cette opération est importante si les ordres de grandeur des variables sont très différents. A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 3 / 18

Covariance et Matrice de covariance Covariance entre variables j et k cov(x j, x k ) = 1 l (x i,j x j )(x i,k x k ) Relations intuitives : si la covariance est grande (en valeur absolue) alors les grandes valeurs de la variable j sont associées aux grandes valeurs de la variable k (en valeur absolue). La matrice de covariance Σ des variables est la matrice de terme général Σ j,k = cov(x j, x k ). C est une matrice symétrique et si les observations sont centrées alors : Σ = 1 l X t X A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 4 / 18

Changement de base Rappel Le but de l ACP est de trouver une meilleure base de représentation des données obtenue par combinaison linéaire de la base originale. C est donc tout simplement un problème de changement de base. Soit le cas général où X et Y sont des matrices de dimensions d l et H une matrice de changement de base de taille d d. Si Y représente les coordonnées de l vecteurs dans R d et X représentent les coordonnées de ces mêmes vecteurs dans une nouvelle base alors, on a : avec h i,j tel que x i = P j h j,iy j. X = HY H est la matrice de transformation linéaire qui transforme un vecteur x i en y i. Les colonnesde H forment les vecteurs de la nouvelle base. A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 5 / 18

Analyse en Composantes Principales Objectifs et hypothèses Soit X une matrice de l données appartenant à R d. On suppose que X est centré. L objectif de l Analyse en Composantes Principales est de trouver un sous-espace de dimension q d qui permet d avoir une représentation réduite de X. Pour cela, on associe un vecteur t i R q à une observation x i à travers une transformation linéaire définie par P R d,q. On a donc t i = P t x i avec P = (p 1,, p q), p i R d On impose aussi que P t P = I. P est une matrice de changement de base où les vecteurs de la nouvelle base sont orthogonaux 2 à 2 i.e. p t j p i = 0 si i j Reconstruction de x i à partir de t i : ˆx i = Pt i On construit P de sorte que la représentation réduite minimise l erreur de représentation de X (équivalent à maximiser la variance de la représentation réduite). A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 6 / 18

Minimisation d erreur/maximisation variance Équivalence Soit J e(p) l erreur quadratique d estimation. On a : J e(p) = 1 l = 1 l = 1 l x i ˆx i 2 = 1 l (x i PP t x i ) t (x i PP t x i ) (xi t x i 2xi t PP t x i + xi t PP t PP t x i ) x t i x i 1 l xi t PP t x i = 1 l! 1 = trace xi t x i 1 l l J e(p) = trace (Σ) trace P t ΣP t i t t i = trace x t i x i 1 l 1 l t t i t i x i x t i 1 l pour des données x i centrées minj e(p) revient à maximiser par rapport à P la variance P t ΣP des points projetés. P t x i x t i P! A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 7 / 18

Axes factoriels et composantes principales Définition Soit X la matrice des données et p un vecteur unitaire ( p = 1) de R d. Soit le vecteur de R l, c 1 = Xp 1 = `x t 1p 1... x t lp 1 t. On appelle premier axe factoriel de X le vecteur p 1 tel que la variance de Xp 1 soit maximale. Le vecteur c 1 est appelé première composante principale. Le kième axe factoriel de X est le vecteur p k unitaire tel que la variance de c k = Xp k soit maximale et que p k soit orthogonal aux k 1 premiers axes factoriels. A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 8 / 18

Minimisation de l erreur quadratique d estimation Premier axe factoriel On cherche un sous espace de dimension 1 engendré par p 1 avec comme contrainte p t 1p 1 = 1. On a donc le problème sous contraintes suivant : min J p e(p 1 ) = 1 1 l x t i x i 1 l x t i p 1 p t 1x i avec p t 1p 1 = 1 Par l équivalence, on peut simplifier J e(p 1 ) par! J e(p 1 ) = p1 t 1 x i xi t p 1 = p1σp t 1 l et donc le lagrangien s écrit L(p 1, λ 1 ) = p t 1Σp 1 + λ 1 (p t 1p 1 1) A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 9 / 18

Minimisation de l EQE Optimisation et solutions Les conditions d optimalité sont : p1 L = 0 = 2Σp 1 + 2λ 1 p 1 λ1 L = 0 = p1p t 1 1 Ainsi on a à l optimalité : Σp 1 = λ 1 p 1 et p1σp t 1 = λ 1 On a donc : (1) λ 1 et p 1 qui sont respectivement valeur propre et vecteur propre de Σ (2) λ 1 la fonction que l on cherche à minimiser Le premier axe factoriel p 1 est donc le vecteur propre associé à la plus grande valeur propre de Σ. A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 10 / 18

k-ième axe factoriel Lemme Le sous-espace de dimension k minimisant l erreur quadratique d estimation des données contient nécessairement le sous-espace de dimension k 1. Calcul de la seconde composante principale Supposons que la première composante principale est connue, on a donc un autre problème d optimisation dont le lagrangien est : et L(p 2, λ 2, µ) = p t 2Σp 2 + λ 2 (p t 2p 2 1) + µ(p t 2p 1 ) p2 L = 0 = 2Σp 2 + 2λ 2 p 2 + µp 1 Vu que Σ est symétrique, et donc p t 2Σp 1 = λ 2 p t 2p 1 = 0, on montre que µ = 0 et donc Σp 2 = λ 2 p 2 λ 2 est la seconde plus grande valeur propre de Σ et p 2 le vecteur propre associé. A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 11 / 18

Algorithme 1 Centrer les données 2 Construire la matrice de covariance Σ 3 Décomposer cette matrice en vecteur propres,valeur propres {p i, λ i } 4 Ordonner les valeurs propres par ordre décroissant 5 Le sous-espace de dimension q qui représente au mieux les données au sens de l erreur quadratique moyenne est engendré par la matrice : P = (p 1,, p q) où {p 1,, p q} sont les q vecteurs propres associés aux q plus grandes valeurs propres. 6 L ensemble des composantes principales s ecrit matriciellement : C = XP = (c 1,, c q) A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 12 / 18

Propriétés des axes factoriels Les valeurs propres de Σ sont positives car Σ est une matrice semi-définie positive Le nombre d axes factoriels est égal au nombre de valeurs propres non-nulles de Σ. La variance expliquée par l axe factoriel p k (homogène à une inertie) s écrit I k = p t kσp k = p t kλ k p k = λ k. la variance totale des axes factoriels est I = P d k=1 λ k et le pourcentage de variance expliquée par un sous-espace d ordre q engendré par les q premiers axes : P q k=1 λ k P d k=1 λ 100 k Choix de la dimension q du sous-espace Validation croisée Examen graphique des valeurs propres et détection d un coude On choisit q de sorte qu un pourcentage fixé (par exemple 95%) de la variance soit expliqué A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 13 / 18

Propriétés de l ACP Les composantes principales {c i },,d sont centrées et non-corrélés ie cov(c i, c k ) = 0 si i k. cov(c i, c k ) = ci t c k = pi t X t Xp k = λ k pi t p k = 0 Soit p k le k-ième axe factoriel. Soit c k = Xp k, le vecteur renfermant représentant la projection de X sur p k. Alors, la variance de la composante principale c k s écrit : c t kc k = v t kx t Xv k = v t kλ k v k = λ k A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 14 / 18

Exemples données issues d une distribution gaussienne. représentation 3D des données iris et représentation sur les 2 premières composantes principales. 3 2 1 0 1 2 3 3 2 1 0 1 2 3 3 7 2 6 5 1 4 0 3 2 1 1 4.5 4 3.5 3 2.5 5 6 7 8 2 3 4 5 6 7 8 9 10 11 12 2 4 A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 15 / 18

Réduction de la dimensionalité Le principe même de l ACP est de représenter les données dans un espace de dimension plus faible. La nouvelle base de représentation est donnée par la matrice P. Chaque vecteur de cette base est combinaison linéaire des vecteurs de la base originale. P est une matrice unitaire ie P t P = PP t = I la matrice C est la matrice des composantes principales qui est en fait la matrice des projections de chaque x i sur les axes factoriels. Ainsi chaque x i s écrit dans la base des axes factoriels comme : ˆX = CP t ou ˆx i = qx C i,k p k k=1 A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 16 / 18

Réduction de la dimensionalité Si q = d, c est à dire que le nouveau sous-espace de représentation est égale à l espace original alors ˆX = X Erreur d approximation sur un sous-espace vectoriel de dimension q E q = 1 l x i ˆx (q) i 2 = dx i=q+1 λ i A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 17 / 18

Conclusions L Analyse en composantes principale est un outil de visualisation des données. et permet de faire de la réduction de la dimensionalité. A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 18 / 18