Analyse en composantes principales



Documents pareils
1 Complément sur la projection du nuage des individus

Analyse en Composantes Principales

Exercice : la frontière des portefeuilles optimaux sans actif certain

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Modèles et Méthodes de Réservation

Introduction au Data-Mining

Extraction d informations stratégiques par Analyse en Composantes Principales

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Introduction au Data-Mining

La classification automatique de données quantitatives

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Programmation linéaire

3. Conditionnement P (B)

Chapitre 5 : Flot maximal dans un graphe

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Exercices Corrigés Premières notions sur les espaces vectoriels

PROBABILITES ET STATISTIQUE I&II

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

NOTATIONS PRÉLIMINAIRES

Apprentissage non paramétrique en régression

Cours d analyse numérique SMI-S4

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Chapitre 3. Les distributions à deux variables

MAP 553 Apprentissage statistique

Théorie et codage de l information

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Filtrage stochastique non linéaire par la théorie de représentation des martingales

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Programmation linéaire et Optimisation. Didier Smets

Simulation de variables aléatoires

Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Introduction à l approche bootstrap

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Introduction. Préambule. Le contexte

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Programmes des classes préparatoires aux Grandes Ecoles

Durée de L épreuve : 2 heures. Barème : Exercice n 4 : 1 ) 1 point 2 ) 2 points 3 ) 1 point

FORMULAIRE DE STATISTIQUES

RO04/TI07 - Optimisation non-linéaire

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Le théorème des deux fonds et la gestion indicielle

L'analyse des données à l usage des non mathématiciens

Le Modèle Linéaire par l exemple :


de calibration Master 2: Calibration de modèles: présentation et simulation d

3 Approximation de solutions d équations

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Big Data et Graphes : Quelques pistes de recherche

Table des matières. I Mise à niveau 11. Préface

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Enjeux mathématiques et Statistiques du Big Data

Calcul différentiel sur R n Première partie

Cours d Analyse. Fonctions de plusieurs variables

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Classification non supervisée

INF6304 Interfaces Intelligentes

Interception des signaux issus de communications MIMO

Programmation linéaire

Résolution d équations non linéaires

Rappels sur les suites - Algorithme

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Cours 02 : Problème général de la programmation linéaire

Programmation Linéaire - Cours 1

Résolution de systèmes linéaires par des méthodes directes

Soutenance de stage Laboratoire des Signaux et Systèmes

ACP Voitures 1- Méthode

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Lagrange, où λ 1 est pour la contrainte sur µ p ).

Cours de méthodes de scoring

F411 - Courbes Paramétrées, Polaires

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Algorithmes d'apprentissage

Exemple 4.4. Continuons l exemple précédent. Maintenant on travaille sur les quaternions et on a alors les décompositions

Évaluation de la régression bornée

Big Data et Graphes : Quelques pistes de recherche

Mesures gaussiennes et espaces de Fock

Apprentissage Automatique

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Le modèle de régression linéaire

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Expérience 3 Formats de signalisation binaire

Algorithmes pour la planification de mouvements en robotique non-holonome

Cours 7 : Utilisation de modules sous python

Température corporelle d un castor (une petite introduction aux séries temporelles)

Oscillations libres des systèmes à deux degrés de liberté

Chapitre 2 Le problème de l unicité des solutions

Transcription:

Analyse en composantes principales Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire LITIS Analyse en composantes principales p. 1/18

Introduction Objectifs Soit {x i } i=1,,l un ensemble d observations décrit par d attributs. Les objectifs de l analyse en composantes principales sont : 1. la représentation graphique optimale des observations minimisant la déformation du nuage de points dans un sous-espace de dimension q (q < d). 2. la reduction de la dimension, ou l approximation des observations à partir de q variables (q < d). Notations Observation : x i R d avec x i =¼ xi,1 x i,2.. ½ Variable (attribut) : x j x i,d Analyse en composantes principales p. 2/18

Les données Description Soit l observations décrites par d attributs. Soit X la matrice des observations (x i R d ) : X =¼ x 1,1 x 1,2... x 1,d.. x ½ =¼ t 1..... xl t ½ = x1 x2 x l,1 x l,2... x l,d x t l Moyenne x = x 1 x 2... x d t avec x j = 1 lèl i=1 x i,j, j = 1,...,d Variance des variables var(x j ) = 1 lèl i=1 (x i,j x j ) 2 Les observations peuvent être transformées en données centrées et réduites par transformation (soustraction de la moyenne et division par l écart-type). Cette opération est importante si les ordres de grandeur des variables sont très différents. Analyse en composantes principales p. 3/18

Covariance et Matrice de covariance Covariance entre variables j et k cov(x j, x k ) = 1 l (x i,j x j )(x i,k x k ) Relations intuitives : si la covariance est grande (en valeur absolue) alors les grandes valeurs de la variable j sont associées aux grandes valeurs de la variable k (en valeur absolue). La matrice de covariance Σ des variables est la matrice de terme général Σ j,k = cov(x j, x k ). C est une matrice symétrique et si les observations sont centrées alors : Σ = 1 l Xt X Analyse en composantes principales p. 4/18

Changement de base Rappel Le but de l ACP est de trouver une meilleure base de représentation des données obtenue par combinaison linéaire de la base originale. C est donc tout simplement un problème de changement de base. Soit le cas général où X et Y sont des matrices de dimensions d l et H une matrice de changement de base de taille d d. Si Y représente les coordonnées de l vecteurs dans R d et X représentent les coordonnées de ces mêmes vecteurs dans une nouvelle base alors, on a : Y = HX avec h i,j tel que x i =Èj h j,iy j. H est la matrice de transformation linéaire qui transforme un vecteur xi en y i. Les colonnes de H forment les vecteurs de la nouvelle base. Analyse en composantes principales p. 5/18

Analyse en Composantes Principales Objectifs et hypothèses Soit X une matrice de l données appartenant à R d. On suppose que X est centré. L objectif de l Analyse en Composantes Principales est de trouver un sous-espace de dimension q d qui permet d avoir une représentation réduite de X. Pour cela, on associe un vecteur t i R q à une observation x i à travers une transformation linéaire définie par P R d,q. On a donc t i = P t x i avec P = (p 1,,p q ), p i R d On impose aussi que P t P = I. P est une matrice de changement de base où les vecteurs de la nouvelle base sont orthogonaux 2 à 2 i.e. p t j p i = 0 si i j Reconstruction de xi à partir de t i : ˆx i = Pt i On construit P de sorte que la représentation réduite minimise l erreur de représentation de X (équivalent à maximiser la variance de la représentation réduite). Analyse en composantes principales p. 6/18

P t x i x t ip Minimisation d erreur/maximisation variance Equivalence Soit J e (P) l erreur quadratique d estimation. On a : J e (P) = 1 l x i ˆx i 2 = 1 l (x i PP t x i ) t (x i PP t x i ) = 1 l (x t ix i 2x t ipp t x i + x t ipp t PP t x i ) = 1 l x t ix i 1 l x t ipp t x i = 1 l x t ix i 1 l t t it i = trace 1 l x t ix i 1 l t i t t i =trace 1 l x i x t i 1 l J e (P) = trace (Σ) trace P t ΣP pour des données x i centrées minje (P) revient à maximiser par rapport à P la variance P t ΣP des points projetés. Analyse en composantes principales p. 7/18

Axes factoriels et composantes principales Définition Soit X la matrice des données et p un vecteur unitaire ( p = 1) de R d. Soit le vecteur de R l, c 1 = Xp 1 = x t 1p 1... x t l p 1 t. On appelle premier axe factoriel de X le vecteur p 1 tel que la variance de Xp 1 soit maximale. Le vecteur c 1 est appelé première composante principale. Le kième axe factoriel de X est le vecteur p k unitaire tel que la variance de c k = Xp k soit maximale et que p k soit orthogonal aux k 1 premiers axes factoriels. Analyse en composantes principales p. 8/18

Minimisation de l erreur quadratique d estimation Premier axe factoriel On cherche un sous espace de dimension 1 engendré par p 1 avec comme contrainte p t 1p 1 = 1. On a donc le problème sous contraintes suivant : min p 1 J e (p 1 ) = 1 l x t ix i 1 l x t ip 1 p t 1x i avec p t 1p 1 = 1 Par l équivalence, on peut simplifier J e (p 1 ) par J e (p 1 ) = p t 1 1 l x i x t i p 1 = p t 1Σp 1 et donc le lagrangien s écrit L(p 1, λ 1 ) = p t 1Σp 1 + λ 1 (p t 1p 1 1) Analyse en composantes principales p. 9/18

Minimisation de l EQE Optimisation et solutions Les conditions d optimalité sont : p1 L = 0 = 2Σp 1 + 2λ 1 p 1 λ1 L = 0 = p t 1p 1 1 Ainsi on a à l optimalité : On a donc : Σp 1 = λ 1 p 1 et p t 1Σp 1 = λ 1 (1) λ 1 et p 1 qui sont respectivement valeur propre et vecteur propre de Σ (2) λ 1 la fonction que l on cherche à minimiser Le premier axe factoriel p 1 est donc le vecteur propre associé à la plus grande valeur propre de Σ. Analyse en composantes principales p. 10/18

k-ième axe factoriel Lemme Le sous-espace de dimension k minimisant l erreur quadratique d estimation des données contient nécessairement le sous-espace de dimension k 1. Calcul de la seconde composante principale Supposons que la première composante principale est connue, on a donc un autre problème d optimisation dont le lagrangien est : L(p 2, λ 2, µ) = p t 2Σp 2 + λ 2 (p t 2p 2 1) + µ(p t 2p 1 ) et p2 L = 0 = 2Σp 2 + 2λ 2 p 2 + µp 1 Vu que Σ est symétrique, et donc p t 2Σp 1 = λ 2 p t 2p 1 = 0, on montre que µ = 0 et donc Σp 2 = λ 2 p 2 λ 2 est la seconde plus grande valeur propre de Σ et p 2 le vecteur propre associé. Analyse en composantes principales p. 11/18

Algorithme 1. Centrer les données 2. Construire la matrice de covariance Σ 3. Décomposer cette matrice en vecteur propres,valeur propres {p i, λ i } 4. Ordonner les valeurs propres par ordre décroissant 5. Le sous-espace de dimension q qui représente au mieux les données au sens de l erreur quadratique moyenne est engendré par la matrice : P = (p 1,, p q ) où {p 1,, p q } sont les q vecteurs propres associés aux q plus grandes valeurs propres. 6. L ensemble des composantes principales s ecrit matriciellement : C = XP = (c 1,, c q ) Analyse en composantes principales p. 12/18

Propriétés des axes factoriels Les valeurs propres de Σ sont positives car Σ est une matrice semi-definie positive Le nombre d axes factoriels est égal au nombre de valeurs propres non-nulles de Σ. La variance expliquée par l axe factoriel pk (homogène à une inertie) s écrit I k = p t k Σp k = p t k λ kp k = λ k. la variance totale des axes factoriels est I =Èd k=1 λ k et le pourcentage de variance expliquée par un sous-espace d ordre q engendré par les q premiers axes : Èq k=1 λ k Èd k=1 λ 100 k Choix de la dimension q du sous-espace Validation croisée Examen graphique des valeurs propres et détection "d un coude" On choisit q de sorte qu un pourcentage fixé (par exemple 95%) de la variance soit expliqué Analyse en composantes principales p. 13/18

Propriétés de l ACP Les composantes principales {ci } i=1,,d sont centrées et non-corrélés ie si i k. cov(c i, c k ) = 0 cov(c i, c k ) = c t ic k = p t ix t Xp k = λ k p t ip k = 0 Soit pk le k-ième axe factoriel. Soit c k = Xp k, le vecteur renfermant représentant la projection de X sur p k. Alors, la variance de la composante principale c k s écrit : c t kc k = v t kx t Xv k = v t kλ k v k = λ k Analyse en composantes principales p. 14/18

Exemples données issues d une distribution gaussienne. représentation 3D des données iris et représentation sur les 2 premières composantes principales. 3 2 1 0 1 2 3 3 2 1 0 1 2 3 3 7 2 6 5 1 4 0 3 2 1 1 4.5 4 3.5 3 2.5 2 4 5 6 7 8 2 3 4 5 6 7 8 9 10 11 12 Analyse en composantes principales p. 15/18

Réduction de la dimensionalité Le principe même de l ACP est de représenter les données dans un espace de dimension plus faible. La nouvelle base de représentation est donnée par la matrice P. Chaque vecteur de cette base est combinaison linéaire des vecteurs de la base originale. P est une matrice unitaire ie P t P = PP t = I la matrice C est la matrice des composantes principales qui est en fait la matrice des projections de chaque x i sur les axes factoriels. Ainsi chaque x i s écrit dans la base des axes factoriels comme : q k=1 ˆX = CP t ou ˆx i = C i,k p k Analyse en composantes principales p. 16/18

Réduction de la dimensionalité Si q = d, c est à dire que le nouveau sous-espace de représentation est égale à l espace original alors ˆX = X Erreur d approximation sur un sous-espace vectoriel de dimension q E q = 1 l x i ˆx (q) i 2 = i=q+1 d λ i Analyse en composantes principales p. 17/18

Conclusions L Analyse en composantes principale est un outil de visualisation des données. et permet de faire de la reduction de la dimensionalité. Analyse en composantes principales p. 18/18