Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL

Documents pareils

1 Complément sur la projection du nuage des individus

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Introduction. Préambule. Le contexte

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Exercice : la frontière des portefeuilles optimaux sans actif certain

Exercices Corrigés Premières notions sur les espaces vectoriels

L'analyse des données à l usage des non mathématiciens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 3. Les distributions à deux variables

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

La classification automatique de données quantitatives

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Introduction à l approche bootstrap

Programmation linéaire et Optimisation. Didier Smets

Logiciel XLSTAT version rue Damrémont PARIS

Analyse des correspondances avec colonne de référence

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Fonctions de plusieurs variables

NON-LINEARITE ET RESEAUX NEURONAUX

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Une introduction aux codes correcteurs quantiques

Avant-après, amont-aval : les couples de tableaux totalement appariés

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Séries Statistiques Simples

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Enjeux mathématiques et Statistiques du Big Data

Programmation linéaire

Relation entre deux variables : estimation de la corrélation linéaire

Individus et informations supplémentaires

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Leçon N 4 : Statistiques à deux variables

MAP 553 Apprentissage statistique

Deux disques dans un carré

Mémo d utilisation de ADE-4

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

GMEC1311 Dessin d ingénierie. Chapitre 1: Introduction

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Initiation à l analyse en composantes principales

LE RÔLE ET LES COMPORTEMENTS DU GESTIONNAIRE DE PREMIER NIVEAU DANS LA MISE EN PLACE D'UNE CULTURE D'AMÉLIORATION CONTINUE

Correction du Baccalauréat S Amérique du Nord mai 2007

Structure financière et performance économique des PME : Étude empirique sur les entreprises belges

Arbres binaires de décision

Chapitre 5 : Flot maximal dans un graphe

Les indices à surplus constant

= 1 si n = m& où n et m sont souvent des indices entiers, par exemple, n, m = 0, 1, 2, 3, 4... En fait,! n m

EVALUATION DE LA SANTÉ FINANCIÈRE D UNE MUNICIPALITÉ VIA UNE APPROCHE STATISTIQUE MULTIVARIÉE.

Introduction au Data-Mining

Le Modèle Linéaire par l exemple :

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Nouveau Barème W.B.F. de points de victoire 4 à 48 donnes

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

STATISTIQUES. UE Modélisation pour la biologie

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Cercle trigonométrique et mesures d angles

Oscillations libres des systèmes à deux degrés de liberté

Exercices - Nombres complexes : corrigé. Formes algébriques et trigonométriques, module et argument

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Le théorème des deux fonds et la gestion indicielle

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Mesures gaussiennes et espaces de Fock

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Calcul différentiel sur R n Première partie

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Allocation Robuste et Restrictions sur les Contributions au Risque

Modèles pour données répétées

données en connaissance et en actions?

Plan du cours Cours théoriques. 29 septembre 2014

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe

Cours 9 : Plans à plusieurs facteurs

Corrigé du baccalauréat S Pondichéry 12 avril 2007

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Statistique : Résumé de cours et méthodes

1S Modèles de rédaction Enoncés

I. Polynômes de Tchebychev

Utiliser des fonctions complexes

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

NOTATIONS PRÉLIMINAIRES

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

3. Conditionnement P (B)

Quelques éléments de statistique multidimensionnelle

Gestion obligataire passive

Opérations de base sur ImageJ

Cours d Analyse. Fonctions de plusieurs variables

DURÉE DU JOUR EN FONCTION DE LA DATE ET DE LA LATITUDE

Transcription:

Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL LINF 2275 Stat. explor. multidim. 1

A.C.P.: Analyse en Composantes Principales Analyse de la structure de la matrice variance-covariance c-à-d de la variabilité, dispersion des données. Excepté si l une des variables peut s exprimer comme une fonction d autres, on a besoin des p variables pour prendre en compte toute la variabilité du système Objectif de l ACP: décrire à l aide de q < p composantes un maximum de cette variabilité. Ce qui permet : - une réduction des données à q nouveaux descripteurs - une visualisation des données à 2 ou 3 dimensions (si q = 2 ou 3) - une interprétation des données : liaisons inter-variables Etape intermédiaire souvent utilisée avant d autres analyses! LINF 2275 Stat. explor. multidim. 2

Recherche des composantes principales Composantes : C 1, C 2,, C k,, C q C k = nouvelle variable = combinaison linéaire des variables d origine X 1,, X p : C k = a 1k X 1 + a 2k X 2 +... + a pk X p coefficients a jk à déterminer telle que les C k soient: - 2 à 2 non corrélées, - de variance maximale, - d importance décroissante. C 1 = 1ère composante principale doit être de variance maximale Géométriquement : C 1 détermine une nouvelle direction dans le nuage de points qui suit l axe d allongement (étirement) maximal du nuage. c i1 = coordonnée du point i sur l axe C C 1 1 projection de x i sur C 1 i = (x i1, x i2,, x ip ) c i1 c i1 = C 1 de variance maximale les projections c i1 sont les plus dispersées possible. Pour fixer la droite, on impose qu elle passe par g (centre de gravité)! (sinon l ensemble des droites parallèles conviennent) LINF 2275 Stat. explor. multidim. 3 p j= 1 a x 1 j ij

C 1 = droite passant par le centre de gravité réalisant le meilleur ajustement possible du nuage c-à-d : qui conserve au mieux la distance entre les points (après projection) => droite de projection assurant une distorsion minimale. C 2 = 2ème composante, orthogonale à C 1 et de variance maximale. Géométriquement : C 2 détermine une droite perpendiculaire à C 1 (au point g), suivant un axe (perpendiculaire au 1er) d allongement maximum. => C 1 et C 2 déterminent le plan principal : le meilleur plan de projection (de distorsion minimum). p 2 β 2 C 2 p 1 f 2 β 1 f 1 λ 1 λ 2 C 1 C 1 est telle que la moyenne des d 2 (λ i, λ i ) max. C 2 est à C 1 et telle que la moyenne des d 2 (β i, β i ) max. => C 1 et C 2 déterminent le plan tel que d 2 (f i, f i ) soit maximum. => C 3 est la droite à C 1 et C 2 (par g) telle que la variance des coord. soit maximum... LINF 2275 Stat. explor. multidim. 4

Décomposition de la variance La variance se décompose de la manière suivante LINF 2275 Stat. explor. multidim. 5

Projection sur une droite L opérateur de projection orthogonale, π, sur une droite de vecteur directeur unitaire v s écrit Avec La variance des observations projetées s écrit alors LINF 2275 Stat. explor. multidim. 6

Recherche de la projection de variance Nous avons donc maximale LINF 2275 Stat. explor. multidim. 7

Et donc Recherche de la projection de variance maximale (suite) Observons que la matrice Σ est la matrice variance-covariance Cette matrice est symétrique définie positive LINF 2275 Stat. explor. multidim. 8

Recherche de la projection de variance maximale (suite) Nous devons donc maximiser cette variance des observations projetées Il s agit d un problème d optimisation sous contrainte Nous formons donc la fonction de Lagrange Et nous calculons les conditions nécessaires d optimalité LINF 2275 Stat. explor. multidim. 9

Recherche de la projection de variance maximale (suite) Nous obtenons ainsi l équation aux valeurs propres Comme la matrice variance-covariance est symétrique définie positive, les valeures propres sont réelles positives Les vecteurs propres peuvent être choisis orthonormés LINF 2275 Stat. explor. multidim. 10

Recherche de la projection de variance maximale (suite) La variance des observations projetées s écrit alors Et donc la solution est de projeter les données sur le vecteur propre ayant la valeur propre λ la plus élevée LINF 2275 Stat. explor. multidim. 11

Recherche des projections de variance maximale orthogonales au premier axe Afin de trouver le second axe de variance maximale, nous recherchons Avec v 1 étant le premier vecteur propre à valeur propre maximale Comme les vecteurs propres de Σ sont naturellement orthonormés, la solution est de choisir le deuxième vecteur propre de Σ (à deuxième valeur propre maximale) LINF 2275 Stat. explor. multidim. 12

Matrice variance-covariance Notons que si X est la matrice de données Qui contient les vecteurs (x i g) T en ligne La matrice Σ = (n 1) 1 X T X LINF 2275 Stat. explor. multidim. 13

Interprétation des valeurs propres La somme des valeurs propres correspond à la variance totale Chaque valeur propre mesure la part de variance expliquée par l axe factoriel correspondant LINF 2275 Stat. explor. multidim. 14

Approche alternative de la PCA Nous présentons une approche alternative de la PCA En utilisant cette fois-ci la notion de vecteur aléatoire Et donc en ne partant pas des données empiriques comme précédemment Soit x = [x 1, x 2,, x n ] le vecteur aléatoire des n variables aléatoires (caractéristiques) mesurées sur les individus Nous définissons une nouvelle variable y qui est une combinaison linéaire des variables aléatoires x i Nous supposons que v est normalisé LINF 2275 Stat. explor. multidim. 15

Approche alternative de la PCA Nous recherchons la projection du vecteur aléatoire x qui maximise la variance projetée: Calculons d abord la moyenne de y LINF 2275 Stat. explor. multidim. 16

Approche alternative de la PCA Et ensuite la variance: Il faut donc calculer le maximum de cette variance par rapport à v, ce qui nous ramène au problème d optimisation suivant (le même que pour l approche précédente) LINF 2275 Stat. explor. multidim. 17

Approche alternative de la PCA Avec S étant la matrice variance-covariance (notons que Σ était la matrice variance-covariance empirique): Et S peut être estimé à partir de l échantillon par Nous sommes donc amenés, comme précédemment, à calculer les valeurs/vecteurs propres de Σ LINF 2275 Stat. explor. multidim. 18

Résultats: L ACP remplace les p variables de départ (variances, corrélation inter-variable) en q nouvelles composantes (q p) C k orthogonales 2 à 2 c-à-d cov(c k, C k ) = 0 (pour tout k k ), et de variances maximales On peut noter que V(C 1 ) V(C 2 ) V(C q ) d importance décroissante le nombre maximum de composantes principales q p avec q < p dès que l une des variables d origine est une combinaison linéaire d autres! mise en évidence de relations linéaires dans les données les données occupent, en réalité, un sous-espace de dimensions réduites (q < p ) Le nombre maximum de composantes principales = dimension intrinsèque des données LINF 2275 Stat. explor. multidim. 19

Choix des r premières composantes principales r << p réduction de la dimension objectif : garder un maximum d information des données initiales. Mesure de cette information : le % de variance expliquée = r k = 1 Inertie V ( C k ) totale Si les variables originales sont fortement corrélées entre elles, un nombre réduit de composantes permet d expliquer 80% à 90% de variance! Géométriquement : revient à projeter les données dans un sous-espace de dimension r, centré sur g, reprenant les r premiers axes principaux d allongement du nuage! les projections c ij sont les plus dispersées possibles!! LINF 2275 Stat. explor. multidim. 20

Exemple : données initiales à 3 dimensions distribuées dans un «ballon de rugby» C 1. Projection... C 2! proximité sur le plan C 1, C 2 proximité dans l espace initial Plus le nuage est aplati sur C 1, C 2 moins de variance sur la 3iè dimension. % de variance expliquée par C 1, C 2 En général : - Le % de variance expliquée par C 1, C 2,, C r = mesure d aplatissement du nuage sur le sous-espace des composantes (à r dim.). Plus ce % est grand, meilleure est la représentation des données dans le sous-espace! - Les composantes principales sont entièrement déterminées par la matrice V variancecovariance (vecteurs propres). => toute modification de V modification des composantes!! LINF 2275 Stat. explor. multidim. 21

Remarques : Si certaines variables initiales sont très dispersées (σ j2 ), elles vont prendre le pas sur les autres. => les composantes principales tenteront essentiellement d expliquer la variance due à ces variables! => on peut travailler en données réduites (variables normalisées par s j ) => toutes les variables auront la même importance (il se peut qu on perde de l information) > données centrées-réduites => matrice variance-covariance = R et l ACP explique la structure de R! Autre possibilité : travailler sur les rangs => ACP non-paramétrique => plus robuste : - pour des données très hétérogènes - aux dissymétries des distributions - aux valeurs extrêmes! (augmente anormalement la variance!) => permet d intégrer des variables qualitatives ordinales! LINF 2275 Stat. explor. multidim. 22

Contributions des variables aux composantes Composante = combinaison linéaire des variables : C k = a 1k X 1 + a 2k X 2 +. + a pk X p coeff. a jk = contribution de la variable X j à la composante C k Interprétation des résultats 1/ Représentation des individus dans le plan principal => peut faire apparaître des groupes d individus présentant des similitudes. proximités abusives dues aux projections! => la représentation n est valable que si le % de variance expliquée par C 1 et C 2 est suffisamment grand! (nuage assez aplati sur le plan) => vérifier si les proximités se maintiennent dans d autres plans de projection: C 1 - C 3, C 2 - C 3, les individus les mieux représentés: points proches du plan (projection peu importante).. C 2............ C 1 LINF 2275 Stat. explor. multidim. 23

2/ Interprétation des composantes principales corrélations avec les variables initiales repérer les variables très corrélées ( r 1 ou r -1 ) X X M X 1 2 p C r r r 11 21 M 1 p1 C r r r 12 22 M 2 p2 C r r 13 23 M 3 p3 K K K K K Interprétation des 2 premières composantes C 1, C 2 : cercle des corrélations : C 1 et C 2 étant non-corrélées, on a r 2 ( c 1, x j ) + r 2 ( c 2, x j ) 1 => chaque variable représentée par les coordonnées : (r ( c 1, x j ), r ( c 2, x j )) est dans un cercle de rayon 1 C 2.X 8.X 1.X 2.X 3 C 1.X5.X4.X 6.X 7 groupes de variables liées ou opposées! si proches de la circonférence, bien représentées par les 2 composantes! LINF 2275 Stat. explor. multidim. 24

3/ Projection de points supplémentaires sur le plan principal après le calcul des composantes - individus typiques de groupes d individus : exemple t 1, t 2, t 3 pour 3 groupes C 2.t 2.t 3.t 1 C 1 permet de voir si les composantes C 1 et C 2 sont à même de les distinguer idée de ce qui est distinguable (t 1 des autres) ou non (t 2, t 3 )! LINF 2275 Stat. explor. multidim. 25