L analyse en composantes principales

Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse en Composantes Principales

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Statistique Descriptive Multidimensionnelle. (pour les nuls)

1 Complément sur la projection du nuage des individus

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

La classification automatique de données quantitatives

Extraction d informations stratégiques par Analyse en Composantes Principales

Introduction. Préambule. Le contexte

L'analyse des données à l usage des non mathématiciens

ACP Voitures 1- Méthode

Exercices Corrigés Premières notions sur les espaces vectoriels

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

Programmation linéaire

Chapitre 3. Les distributions à deux variables

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Cours d Analyse. Fonctions de plusieurs variables

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Introduction au datamining

Analyse des correspondances avec colonne de référence

Logiciel XLSTAT version rue Damrémont PARIS

Enjeux mathématiques et Statistiques du Big Data

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Relation entre deux variables : estimation de la corrélation linéaire

Initiation à l analyse en composantes principales

Arbres binaires de décision

CCP PSI Mathématiques 1 : un corrigé

Individus et informations supplémentaires

Résolution d équations non linéaires

Programmation linéaire

Data mining 1. Exploration Statistique

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Statistique Descriptive Élémentaire

I. Polynômes de Tchebychev

Étudier si une famille est une base

Calcul différentiel. Chapitre Différentiabilité

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Cours 9 : Plans à plusieurs facteurs

Optimisation Discrète

Quelques éléments de statistique multidimensionnelle

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

aux différences est appelé équation aux différences d ordre n en forme normale.

Fonctions de plusieurs variables

Introduction à l approche bootstrap

INTRODUCTION. A- Modélisation et paramétrage : CHAPITRE I : MODÉLISATION. I. Paramétrage de la position d un solide : (S1) O O1 X

Licence STS mention Mathématiques Parcours Ingénieur Télécom Bretagne (ITB)

Programmation linéaire et Optimisation. Didier Smets

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Structure financière et performance économique des PME : Étude empirique sur les entreprises belges

Chapitre 2 : Caractéristiques du mouvement d un solide

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

THOT - Extraction de données et de schémas d un SGBD

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Classification non supervisée

STATISTIQUES. UE Modélisation pour la biologie

Amphi 3: Espaces complets - Applications linéaires continues

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

données en connaissance et en actions?

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Les indices à surplus constant

Calcul intégral élémentaire en plusieurs variables

Le modèle de Black et Scholes

Un K-espace vectoriel est un ensemble non vide E muni : d une loi de composition interne, c est-à-dire d une application de E E dans E : E E E

REVUE DE STATISTIQUE APPLIQUÉE

Le produit semi-direct

Fonctions homographiques

Problème 1 : applications du plan affine

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Business Model Generation

EVALUATION DE LA SANTÉ FINANCIÈRE D UNE MUNICIPALITÉ VIA UNE APPROCHE STATISTIQUE MULTIVARIÉE.

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Introduction au Data-Mining

LES DÉTERMINANTS DE MATRICES

Optimisation, traitement d image et éclipse de Soleil

Oscillations libres des systèmes à deux degrés de liberté

Plan du cours : électricité 1

Scénario: Données bancaires et segmentation de clientèle

Leçon N 4 : Statistiques à deux variables

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Examen de Logiciels Statistiques

Comment démontrer des formules sans effort? exposé de maîtrise

Théorèmes de Point Fixe et Applications 1

Plan du chapitre «Milieux diélectriques»

Rupture et plasticité

Apprentissage Automatique

Cours de Mécanique du point matériel

Nicolas VAN LABEKE LORIA/CNRS, Université Henri Poincaré - Nancy I, BP 239, F Vandoeuvre les Nancy Cedex,FRANCE vanlabek@loria.

Modélisation géostatistique des débits le long des cours d eau.

CHAPITRE 2 : Structure électronique des molécules

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Chp. 4. Minimisation d une fonction d une variable

Cours d analyse numérique SMI-S4

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Analyse de la variance Comparaison de plusieurs moyennes

Transcription:

L analyse en composantes principales 1

La méthode 1 Les données, les objectifs de la méthode L Analyse en Composantes Principales (ACP) est la méthode adaptée à l exploration synthétique de l information contenue dans un tableau de données Individus Variables Quantitatives. Elle ne s applique directement qu aux variables quantitatives dont les valeurs sont prises sur les mêmes individus. Un tableau de données Individus Variables Quantitatives est un tableau rectangulaire pour lequel chaque case correspond àlavaleur prise par une variable j (en colonnes) pour un individu i (en lignes). 2

Les valeurs prises par p variables quantitatives sur n individus sont alors rassemblées dans un tableau X à n lignes et p colonnes : X = x 11 x 12... x 1p x 21 x 22... x 2p............ x n1 x n2... x np. x ij est la valeur prise par l individu i pour la variable j. 3

Exemple : tableau donnant les 11 mesures effectuées sur 150 vins jeunes de la région de Gaillac. Les mesures sont : l extrait sec (g/l), acidité totale, acidité volatile, degré alcoolique du vin... Les vins sont les individus en lignes et les mesures les variables en colonnes. 4

L ACP consiste à extraire l essentiel de l information d un tableau X en fournissant à l utilisateur des représentations graphiques adaptées à l interprétation. Il s agit d une méthode exploratoire multidimentionnelle. Cette exploration s articule autour de deux aspects principaux : un analyse de ressemblances entre les individus : par exemple peuton mettre en évidence une typologie des individus? une analyse des liaisons entre les variables : par exemple existe-t-il des groupes de variables corrélées entre elles? 5

Ces deux voies ne sont pas indépendantes du fait de la dualité inhérente à l étude d un tableau rectangulaire : on caractérise les classes d individus par l intermédiaire des variables ; on caractérise les groupes de variables liées entre elles par l intermédiaire des individus. 6

Nous considérons le cas où tous les individus jouent le même rôle dans l analyse. Ils auront le même poids. Il existe cependant des cas où l on peut souhaiter attribuer des poids différents aux individus. Par exemple lorsque les individus représentent chacun une population. 7

2 Exploration et transformation des données Avant de mettre en oeuvre la méthode, il est judicieux d opérer quelques vérifications et transformations sur les variables. les variables sont-elles unimodales symétriques? analyse univariée de statistique descriptive ; analyse bivariée visant à étudier s il y a lieu de transformer les variables pour rendre leurs liaisons linéaires. En effet, leurs liaisons seront décrites dans l analyse par des coefficients de corrélation linéaire. 8

Une fois ces éventuelles transformations opérées, on doit centrer les variables du tableau X. L influence des variables dans l analyse se mesure par leur variance. Si les données initiales sont réduites et si nous accordonslemêmepoids à toutes les variables dans l analyse, alors elles auront toutes la même influence. On réduit les variables si elles sont de nature différentes ; par exemple : âge, le salaire, le nombre d enfants..., on estime que leurs influences respectives dans l analyse ne doit pas dépendre de leur variabilité ; notes : une matière ayant une forte variance doit-elle avoir uneinfluence plus grande dans l analyse? 9

Nous présentons la méthode de l ACP pour des tableaux de données centrés et réduits. Nous considérons alors le tableau de données Y centré et réduit à partir du tableau de données X. Pour tout i {1,...,n} et tout j {1,...,p}, Y apourélément(i, j) : où x.j = 1 n n x ij et s j = i=1 y ij = x ij x.j s j 1 n n (x ij x.j ) 2. i=1 10

3 L espace des individus En termes géométriques, les individus du tableau de données Y correspondent à n points de R p. L ensemble de n individus, appelé nuage des individus, est un nuage des points dans R p. A - Distance entre deux individus Comme nous l avons vu, l un des objectifs de l ACP est de décrire les proximités entre les individus. Nous avons alors besoin de mesurer la similarité de deux individus. Comment mesurer la distance entre deux individus? 11

Les variables du tableau Y étant réduites, toutes les variables de Y sont exprimées dans le même ordre de grandeur. La distance d 1 entre deux individus i 1 et i 2 du tableau Y est alors définie comme étant : d 1 (i 1,i 2 )= p (y i1 j y i2 j) 2. j=1 Il s agit de la racine carrée de la somme des écarts des coordonnées des deux individus, c est-à-dire la distance euclidienne de leurs vecteurs lignes associés. 12

B - Centre de gravité du nuage des individus Le centre de gravité du nuage des individus associé au tableau de données X est défini comme étant le point moyen de coordonnées (x.1,x.2,...,x.p ). Les variables du tableau Y étant centrées, le centre de gravité du nuage des individus associé au tableau Y est le point de coordonnées (0,...,0). Le barycentre du nuage des individus associé au tableau Y est alors l origine du nuage. 13

C - L inertie La variance empirique de la j è m e s v a r i a b l e d u t a b l e a u Y, (y 1j,...,y nj ), est donnée par 1 n (y ij y.j ) 2. n i=1 C est une mesure de sa dispersion unidimentionnelle. L inertie est une mesure de la dispersion multidimentionnelle. L inertie d un tableau de données est définie comme étant la moyenne des carrés des distances entre les individus et centre de gravité du nuage. 14

Formellement, In e (Y )= 1 n p j=1 n (y ij y.j ) 2. i=1 Le tableau de données Y étant réduit, nous avons et donc In e (Y )=p. n (y ij y.j ) 2 =1 i=1 15

4 L espace des variables En terme géométrique, les variables quantitatives du tableau de données Y correspondent à p points de R n. A - Angle entre deux variables L ensemble de p variables, appelé nuage des variables, est un nuage des points dans R n. Comme nous l avons vu, l un des objectifs de l ACP est d étudier les liaisons entre les variables. Pour ce faire, nous allons munir l espace des variables d une métrique. 16

Tous les individus ayant les mêmes poids, la produit scalaire naturel entre deux variables j 1 et j 2 du tableau de données Y est : n y ij1 y ij2. i=1 Les variables du tableau de données Y étant centrées réduites n y ij1 y ij2 est le coefficient de corrélation linéaire entre les i=1 variables j 1 et j 2. Ce coefficient de corrélation n est autre que le cosinus de l angle entre les deux variables. Dans l espace des individus, on s intéresse aux distances entre les individus (points), dans l espace des variables on s intéresse aux corrélations entre les variables (vecteurs) et donc aux angles. 17

B-Inertie L inertie la même que pour le nuage des individus. Elle est égale à p (nombre de variables) lorsque ces dernières sont réduites 18

5 Réduction de dimension dans l espace des individus L un des objectifs de l ACP est de décrire les proximités entre les individus. Le nuage des individus du tableau de données Y est dans un espace de dimension p. Si p =2,pourvisualisercesproximités,onvaanalyserlenuagede points entre les 2 variables. Si p =3,onpeutessayerd analyserlenuagedesindividus,endimension 3, et les nuages de points des variables deux à deux. Si p 4, on ne peut pas visualiser le nuages des individus, c est inaccessible à notre intuition. Aussi, analyser les nuages des variables deux à deux ne permet pas une interprétation claire et une vision synthétique. 19

Le principe de l ACP dans l espace des individus est d obtenir une représentation approchée du nuages des individus dans un sous-espace de dimension faible. On obtient de nouvelles dimensions. Ainsi, si l on ne retient parmi ces nouvelles dimensions que les deux ou trois dimensions qui contiennent le plus d information, il est alors éventuellement possible de représenter les données de manières synthétique sans perdre trop d information. 20

La réduction du nombre de variables ne se fait pas par une simple sélection de certaines d entre elles. Elle se fait par la construction de nouvelles variables synthétiques, appelées composantes principales, obtenues en combinant linéairement les variables initiales. L analyse en composantes principale dans l espace des individus est une méthode factorielle linéaire. 21

A - Recherche des axes factoriels Nous cherchons un sous-espace vectoriel F k de dimension k de R p maximisant l inertie du nuage des individus projeté sur ce sous-espace e t contenant l origine. On cherche à maximiser la moyenne des carrées des distances entreles projections et l origine. Du fait du centrage, les axes factoriels peuvent être interprétés comme des directions d allongement maximum du nuage des individus. On parle aussi de principaux facteurs de variabilité 22

La matrice symétrique Y Y est diagonalisable et admet une base orthonormée de vecteurs propres. Solution du problème : Pour tout k {1,...,p},lesous-espaceF k de dimension k est engendré par les k vecteurs propres de la matrice Y Y associés aux k plus grandes valeurs propres. Le premier axe factoriel est le vecteur propre de la matrice Y Y associé à l a p l u s g r a n d e v a l e u r p r o p r e d e Y Y. 23

Le deuxième axe factoriel est orthogonal au premier axe factoriel, et il s agit du vecteur propre associé à la deuxième plus grande valeur propre de Y Y... On peut montrer que les axes factoriels rendent minimum l écart entre le nuage des individus est sa projection. Aussi, on peut montrer que la moyenne des carrées des distances entre les projections doit être la plus grande possible. Les distances ne peuvent que diminuer en projection. Les axes factoriels apparaissent alors comme les directions tellesque les distances entre les individus projetés ressemblent le plus possible aux distances entre les individus du nuage. 24

6 - Réduction de dimension dans l espace des variables Le deuxième objectif de l analyse en composantes principales consiste à analyser les liaisons entre les variables. A - Recherche des axes factoriels Pour obtenir une suite de variables synthétiques et une représentation approchée des corrélations entre les variables, l ACP applique au nuage des variables la même démarche qu aux nuage des individus. Le critère de l inertie projetée maximum pour choisir les axes est exactement le même. 25

le nuage des variables n est pas centré ; tous les vecteurs sont situés sur le sphère unité. ce sont les angles entre les variables qui sont peu déformés parles projections et non pas les distances entre les coordonnées des variables. En outre, les variables étant centrées réduites leur projection sur un axe factoriel est égal à leur coefficient de corrélation avec cette variable. 26

On recherche en fait les combinaisons linéaires les plus lié e s à l e n - semble des variables. Les axes factoriels étant orthogonaux deux à deux, on met en évidence une suite de variables synthétiques, appelées composantes principales. Elles sont non corrélées entre elles et résument l ensemble des variables initiales. 27