Analyse en composantes principales

Documents pareils
1 Complément sur la projection du nuage des individus

Analyse en Composantes Principales

Introduction au Data-Mining

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Chapitre 5 : Flot maximal dans un graphe

La classification automatique de données quantitatives

Introduction au Data-Mining

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Programmation linéaire

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Introduction à l approche bootstrap

Chapitre 3. Les distributions à deux variables

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe

Exercice : la frontière des portefeuilles optimaux sans actif certain

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

ACP Voitures 1- Méthode

Amphi 3: Espaces complets - Applications linéaires continues

Évaluation de la régression bornée

Introduction à l étude des Corps Finis

OPTIMISATION À UNE VARIABLE

Exercices Corrigés Premières notions sur les espaces vectoriels

Modèles et Méthodes de Réservation

Extraction d informations stratégiques par Analyse en Composantes Principales

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

I. Polynômes de Tchebychev

Statistique : Résumé de cours et méthodes

Programmation linéaire

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Probabilités sur un univers fini

Apprentissage Automatique

Programmation linéaire et Optimisation. Didier Smets

Algorithmes pour la planification de mouvements en robotique non-holonome

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

Logiciel XLSTAT version rue Damrémont PARIS

INF6304 Interfaces Intelligentes

Calcul intégral élémentaire en plusieurs variables

FORMULAIRE DE STATISTIQUES

Résolution d équations non linéaires

Correction de l examen de la première session

Une introduction aux codes correcteurs quantiques

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Cours 7 : Utilisation de modules sous python

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

MAP 553 Apprentissage statistique

Implémentation de Nouveaux Elements Finis dans Life et Applications

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. 29 mai 2015

Apprentissage non paramétrique en régression

3. Conditionnement P (B)

Programmes des classes préparatoires aux Grandes Ecoles

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

Le Modèle Linéaire par l exemple :

Relation entre deux variables : estimation de la corrélation linéaire

L'analyse des données à l usage des non mathématiciens

Probabilités conditionnelles Loi binomiale

Table des matières. I Mise à niveau 11. Préface

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Arbres binaires de décision

Durée de L épreuve : 2 heures. Barème : Exercice n 4 : 1 ) 1 point 2 ) 2 points 3 ) 1 point

TRACER LE GRAPHE D'UNE FONCTION

FONCTION DE DEMANDE : REVENU ET PRIX

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Cours 9 : Plans à plusieurs facteurs

Exemple 4.4. Continuons l exemple précédent. Maintenant on travaille sur les quaternions et on a alors les décompositions

Introduction. Préambule. Le contexte

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Statistiques à deux variables

CHAPITRE 5. Stratégies Mixtes

Polynômes à plusieurs variables. Résultant

Annexe commune aux séries ES, L et S : boîtes et quantiles

Résolution de systèmes linéaires par des méthodes directes

Fonctions de plusieurs variables

Probabilités sur un univers fini

1. Vocabulaire : Introduction au tableau élémentaire

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

DEMANDE D INFORMATION RFI (Request for information)

CCP PSI Mathématiques 1 : un corrigé

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Cours d analyse numérique SMI-S4

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Oscillations libres des systèmes à deux degrés de liberté

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

TD1 Signaux, énergie et puissance, signaux aléatoires

Rappels sur les suites - Algorithme

= 1 si n = m& où n et m sont souvent des indices entiers, par exemple, n, m = 0, 1, 2, 3, 4... En fait,! n m

RO04/TI07 - Optimisation non-linéaire

Plus courts chemins, programmation dynamique

Étudier si une famille est une base

Cours de mathématiques

Filtres passe-bas. On utilise les filtres passe-bas pour réduire l amplitude des composantes de fréquences supérieures à la celle de la coupure.

Transcription:

Analyse en composantes principales Gilles Gasso, Stéphane Canu INSA Rouen - Département ASI Laboratoire LITIS 1 17 septembre 01 1. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane Canu Analyse en composantes principales 1 /

Plan 1 Introduction ACP Principe Formulation mathématique et résolution 3 Algorithme Propriétés Des axes factoriels De l ACP Réduction de dimension Gilles Gasso, Stéphane Canu Analyse en composantes principales /

Introduction Introduction Objectifs {x i R D },,N : ensemble de N points décrits par D attributs. Objectifs de l analyse en composantes principales 1 représentation (graphique) des points dans un sous-espace de dimension d (d << D) telle que la déformation du nuage de points soit minimale réduction de la dimension, ou approximation des points à partir de d variables (d D). Notations Observation : x i R D avec x i = ( x i,1 x i, x i,d ) Variable (attribut) : x j Gilles Gasso, Stéphane Canu Analyse en composantes principales 3 /

Introduction Les données : description Données Soit X la matrice des données (x i R D ) : x 1,1 x 1,... x 1,D x X =.. = 1. x N,1 x N,... x N,D x N = ( x 1 x... x N ) Statistiques sommaires : moyenne et variance Moyenne x = ( x 1 x... x D) avec x j = 1 N N x i,j, Variance des variables var(x j ) = 1 N N (x i,j x j ) Gilles Gasso, Stéphane Canu Analyse en composantes principales /

Introduction Covariance et Matrice de covariance Covariance entre variables j et k cov(x j, x k ) = 1 N (x i,j x j )(x i,k x k ) Si covariance grande (en valeur absolue) = variables j et k dépendantes. Covariance nulle = variables indépendantes Matrice de covariance Σ R D D Σ est une matrice symétrique de terme général Σ j,k = cov(x j, x k ) : Σ = 1 (x i x) (x i x) N données centrées : Σ = 1 N N x ix i, ou encore Σ = 1 N X X Gilles Gasso, Stéphane Canu Analyse en composantes principales 5 /

ACP Principe Analyse en Composantes Principales Principe Soit x i R D, i = 1,, N des données centrées. Objectif : trouver un sous-espace de dimension d D où projeter les x i de façon à perdre le moins d informations possibles 5 Points Moyenne Axe 1 Axe Trouver une meilleure base orthonormale de représentation des données par combinaison linéaire de la base originale. 3 1 0 p 1, p : vecteurs orthonormés (axes 1 et ). Projeter les données sur l espace engendré par p 1 et p = changement de base 1 1 0 1 3 5 Quel est le meilleur sous-espace de dimension 1? Gilles Gasso, Stéphane Canu Analyse en composantes principales /

ACP Principe Analyse en Composantes Principales Objectifs et hypothèses X R N D : matrice de données centrées. Objectif ACP : trouver un sous-espace de dimension d D qui permet d avoir une représentation réduite de X. Comment? Projection linéaire de x i R D sur t i R d t i = P x i avec P = ( p 1 p d ), pi R D P R D d : matrice de transformation linéaire Contrainte : P P = I Les vecteurs de la nouvelle base sont orthogonaux à c est-à-dire p j p i = 0 i j Gilles Gasso, Stéphane Canu Analyse en composantes principales 7 /

ACP Principe Analyse en Composantes Principales Reconstruction de x i à partir de t i Si d = D, la matrice P est orthogonale Problématique t i = P x i = Pt i = PP x i = x i = Pt i Dans ce cas, pas de réduction de dimension, juste un changement de base et donc pas de perte d information d < D (réduction de dimension) Reconstruction de x i par l approximation ˆx i = Pt i ou ˆx i = PP x i Construire P de sorte que l erreur x i ˆx i entre le vrai x i et sa reconstruction ˆx i soit minimale et ceci pour tous les points x i, i = 1,, N Gilles Gasso, Stéphane Canu Analyse en composantes principales /

ACP Formulation mathématique et résolution Minimisation d erreur/maximisation variance Soit J e (P) l erreur quadratique d estimation. On a : J e (P) = 1 N = 1 N = 1 N x i ˆx i = 1 N (x i PP x i ) (x i PP x i ) (xi x i xi PP x i + xi PP PP x i ) = trace x i ( 1 N x i 1 N xi x i 1 N x i PP x i = 1 N ) t i ti =trace x i ( 1 N x i 1 ti t i N ) x i xi 1 P x i xi P N J e (P) = trace (Σ) trace ( P ΣP ) pour des données x i centrées minj e (P) revient à maximiser par rapport à P la variance P ΣP des points projetés. Gilles Gasso, Stéphane Canu Analyse en composantes principales 9 /

ACP Formulation mathématique et résolution Le kième axe factoriel est le vecteur p k unitaire ( p k = 1) tel que la variance de c k = Xp k soit maximale et que p k soit orthogonal aux k 1 premiers axes factoriels. Gilles Gasso, Stéphane Canu Analyse en composantes principales / Axes factoriels et composantes principales Soit X la matrice des données et p R D tq p = 1. Soit le vecteur de R N, c 1 = Xp 1 = ( x 1 p 1... x N p 1). On appelle premier axe factoriel de X le vecteur p 1 tel que la variance de Xp 1 soit maximale. Le vecteur c 1 est appelé première composante principale.

ACP Formulation mathématique et résolution Minimisation de l erreur quadratique d estimation Premier axe factoriel On cherche le sous espace engendré par p 1 tq p1 p 1 = 1. Problème d optimisation sous contrainte égalité : min J e (p 1 ) = 1 p 1 N x i x i 1 N xi p 1 p1 x i avec p1 p 1 = 1 Simplification de J e (p 1 ) Le lagrangien s écrit J e (p 1 ) = p 1 ( 1 x i xi N ) p 1 = p 1 Σp 1 L(p 1, λ 1 ) = p 1 Σp 1 + λ 1 (p 1 p 1 1) Gilles Gasso, Stéphane Canu Analyse en composantes principales 11 /

ACP Formulation mathématique et résolution Minimisation de l EQE Optimisation Conditions d optimalité p1 L = 0 = Σp 1 + λ 1 p 1 et λ1 L = 0 = p 1 p 1 1 Solution Interprétation = Σp 1 = λ 1 p 1 et p 1 Σp 1 = λ 1 1 (λ 1, p 1 ) représente la paire (valeur propre, vecteur propre) de la matrice de covariance Σ J e (p 1 ) = λ 1 est la fonctionnelle que l on cherche à minimiser Le premier axe factoriel p 1 est le vecteur propre associé à la plus grande valeur propre de Σ. Gilles Gasso, Stéphane Canu Analyse en composantes principales 1 /

ACP Formulation mathématique et résolution k-ième axe factoriel Lemme Le sous-espace de dimension k minimisant l erreur quadratique d estimation des données contient nécessairement le sous-espace de dimension k 1. Calcul du e axe factoriel p sachant que p 1 est connu Exercice min p J e (p ) = p Σp tel que p p = 1, p p 1 = 0 Interprétation : on cherche un vecteur unitaire p qui maximise la variance p Σp et qui soit orthogonal au vecteur p 1 Montrer que p est le vecteur propre associé à λ, la seconde plus grande valeur propre de Σ Gilles Gasso, Stéphane Canu Analyse en composantes principales 13 /

Algorithme Algorithme 1 Centrer les données : {x i R D } N {x i = x i x R D } N Calculer la matrice de covariance Σ = 1 N X X avec X = ( x 1 ) x N 3 Calculer la décomposition en valeurs propres {p j R D, λ j R} D j=1 de Σ Ordonner les valeurs propres λ j par ordre décroissant 5 Nouvelle base de représentation des données : P = (p 1,, p d ) R D d {p 1,, p d } sont les d vecteurs propres associés aux d plus grandes λ j. Projection de tous les points via P s obtient matriciellement : C = XP = ( c 1 c d ) Note : la projection d un point quelconque x est donnée par t = P (x x) Gilles Gasso, Stéphane Canu Analyse en composantes principales 1 /

Propriétés Des axes factoriels Propriétés des axes factoriels Les valeurs propres de Σ sont positives car Σ est une matrice semi-definie positive Le nombre d axes factoriels est égal au nombre de valeurs propres non-nulles de Σ. La variance expliquée par l axe factoriel p k (homogène à une inertie) s écrit I k = p k Σp k = p k λ kp k = λ k. La variance totale des axes factoriels est I = d k=1 λ k Pourcentage de variance expliquée par les d premiers axes d k=1 λ k D k=1 λ 0 k Gilles Gasso, Stéphane Canu Analyse en composantes principales 15 /

Propriétés Des axes factoriels Propriétés des axes factoriels Choix de la dimension d du sous-espace Validation croisée Détection "d un coude" sur le graphique des valeurs propres On choisit d de sorte qu un pourcentage fixé (par exemple 95%) de la variance soit expliqué 0. Spectre de la matrice de variance covariance 0 Pourcentage de variance cumulee 0.7 0. 90 0 70 0.5 0 0. 50 0.3 0 30 0. 0 0.1 0 1 3 5 7 9 11 1 13 1 15 0 0 5 15 Gilles Gasso, Stéphane Canu Analyse en composantes principales 1 /

Propriétés De l ACP Propriétés de l ACP Les composantes principales {c i },,D sont centrées et non-corrélées ie cov(c i, c k ) = 0 si i k cov(c i, c k ) = 1 N c i c k = 1 N p i X Xp k = p i Σp k = p i (p k λ k ) = 0 Soit c k = Xp k, le vecteur représentant la projection de X sur le k-ième axe p k. La variance de la composante principale c k est 1 N c k c k = 1 N p k X Xp k = p k Σp k = p k λ kp k = λ k Gilles Gasso, Stéphane Canu Analyse en composantes principales 17 /

Propriétés De l ACP Exemple des données iris : x i R Représentation 3D Corrélation entre les variables 0.5 1 5 0 3 5 1.5 1 0. 1.5 0. 0..5 0. 3 0 3.5 0..5 0. 7 1 3 Projection en D par ACP Composante principale 1 0.5 0 0.5 1 1.5 0 Composante principale 1 Gilles Gasso, Stéphane Canu Analyse en composantes principales 1 /

Propriétés Réduction de dimension Réduction de la dimensionalité ACP représenter les données dans un espace de dim. réduite. La nouvelle base de représentation est donnée par la matrice P. Chaque vecteur de cette base est combinaison linéaire des vecteurs de la base originale. P vérifie P P = I. C = XP : matrice des composantes principales qui est en fait la matrice de projections de tous les x i sur les axes factoriels. Reconstruction des x i à partir des composantes principales x i est reconstruit par ˆx i = Pt i + x avec t i = P x i. On déduit que la matrice des données reconstruites est d ˆX = CP + 1 N x ou ˆx i = C i,k p k + x k=1 Note : un point quelconque projeté t est reconstruit par ˆx = Pt + x Gilles Gasso, Stéphane Canu Analyse en composantes principales 19 /

Propriétés Réduction de dimension Réduction de la dimensionalité Si q = d, c est à dire que le nouveau sous-espace de représentation est égale à l espace original alors ˆX = X Erreur d approximation sur un sous-espace vectoriel de dimension d E q = 1 N x i ˆx (d) i = D i=d+1 λ i L analyse en composantes principale est un outil de visualisation des données...... et permet de faire de la reduction de la dimensionalité. Gilles Gasso, Stéphane Canu Analyse en composantes principales 0 /

Propriétés Réduction de dimension Exemple : données USPS Caractères manuscripts sous forme d images 1 1 Chaque image est transformée en un vecteur de dimension 5 On a pris ici des 3 et des (quelques exemples ci-dessous) Moyenne Corrélation entre les variables 1 50 0 0.5 1 1 1 1 1 150 00 0 1 1 1 1 1 50 0.5 50 0 150 00 50 1 1 1 1 1 5 15 5 15 5 15 5 15 5 15 Gilles Gasso, Stéphane Canu Analyse en composantes principales 1 /

Propriétés Réduction de dimension Exemple : données USPS 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 5 15 1 5 15 1 5 15 Figure: Reconstruction avec d = composantes Composante principale 5 0 5 1 5 15 1 5 15 Projection en D par ACP 1 5 15 1 5 15 Figure: Reconstruction avec d = 50 composantes 3 1 5 15 5 0 5 Composante principale 1 Gilles Gasso, Stéphane Canu Analyse en composantes principales /