Analyse en Composantes Principales



Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

1 Complément sur la projection du nuage des individus

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Analyse en Composantes Principales

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Extraction d informations stratégiques par Analyse en Composantes Principales

Relation entre deux variables : estimation de la corrélation linéaire

Introduction à l approche bootstrap

Simulation de variables aléatoires

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Table des matières. I Mise à niveau 11. Préface

La classification automatique de données quantitatives

Statistiques Descriptives à une dimension

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

L'analyse des données à l usage des non mathématiciens

INF6304 Interfaces Intelligentes

Introduction. Préambule. Le contexte

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Exercice : la frontière des portefeuilles optimaux sans actif certain

Séries Statistiques Simples

ACP Voitures 1- Méthode

Arbres binaires de décision

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

FORMULAIRE DE STATISTIQUES

Data mining 1. Exploration Statistique

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Aide-mémoire de statistique appliquée à la biologie

I. Polynômes de Tchebychev

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Introduction au Data-Mining

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

Initiation à l analyse en composantes principales

Calcul élémentaire des probabilités

Programmation linéaire et Optimisation. Didier Smets

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

TD1 Signaux, énergie et puissance, signaux aléatoires

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Précision d un résultat et calculs d incertitudes

Programmes des classes préparatoires aux Grandes Ecoles

Régression linéaire. Nicolas Turenne INRA

CAPTEURS - CHAINES DE MESURES

Théorie et codage de l information

Cours de méthodes de scoring

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Analyse de la variance Comparaison de plusieurs moyennes

Intelligence précoce

3. Caractéristiques et fonctions d une v.a.

Etude des propriétés empiriques du lasso par simulations

Capital économique en assurance vie : utilisation des «replicating portfolios»

Corrigé du baccalauréat S Pondichéry 12 avril 2007

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Intégration et probabilités TD1 Espaces mesurés Corrigé

1 Importer et modifier des données avec R Commander

Evaluation de la variabilité d'un système de mesure

Python - introduction à la programmation et calcul scientifique

Le Modèle Linéaire par l exemple :

Annexe commune aux séries ES, L et S : boîtes et quantiles

Le modèle de régression linéaire

Cours 7 : Utilisation de modules sous python

TABLE DES MATIERES. C Exercices complémentaires 42

Amphi 3: Espaces complets - Applications linéaires continues

Moments des variables aléatoires réelles

Évaluation de la régression bornée

Analyse des correspondances avec colonne de référence

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Classification non supervisée

VI. Tests non paramétriques sur un échantillon

Chapitre 3 : INFERENCE

3 Approximation de solutions d équations

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Exercices Corrigés Premières notions sur les espaces vectoriels

Statistique Descriptive Élémentaire

Cours 9 : Plans à plusieurs facteurs

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Logiciel XLSTAT version rue Damrémont PARIS

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Section «Maturité fédérale» EXAMENS D'ADMISSION Session de février 2014 RÉCAPITULATIFS DES MATIÈRES EXAMINÉES. Formation visée

Le théorème des deux fonds et la gestion indicielle

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Cours 02 : Problème général de la programmation linéaire

Loi binomiale Lois normales

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Quantification Scalaire et Prédictive

Transcription:

Plan du cours Analyse en Composantes Principales Introduction Les données Leurs représentations La méthode Modèle Interprétation statistique Espace principal Composantes Principales Représentations Graphiques Individus (qualité globale et individuelle) Variables (qualité de représentation et interprétation) Choix de dimension Part d inertie Eboulis des valeurs propres Pratique de l Préparation des mesures................................... TP N o 2 Scilab Interprétation des résultats................................ TP N o 2 Scilab Bibliographie enib c mp2003-2004.... 1

' $ Introduction 1. Les donne es p variables statistiques Y j, (j = 1 p), n individus affecte s des poids wi, (i = 1 n). n X i = 1 n : wi > 0 et wi = 1 ; yij i = 1 n : y11...... Y = yi1...... yn1... i=1 j = Y (i), mesure de Y j sur le ie me individu. y1j... y1p...... j yi... yip....... ynj... ynp 2. Leurs repre sentations espace des individus : E = (IRp, E, M ) espace des variables : F = (IRn, F, D), avec D = diag(w1,, wn ) 3. La me thode repre sentations graphiques optimales de E et F & c mp2003-2004.... 2 enib %

Modèle 1. Interprétations statistiques variables centrées (vecteurs de F ). longueur d un vecteur écart-type, cosinus d un angle corrélation. 2. Espace principal Observation = Modèle + Bruit. Les u k sont les vecteurs propres D-orthonormés de la matrice XMX D associés aux valeurs propres λ k rangées par ordre décroissant. Les v k, appelés vecteurs principaux, sont les vecteurs propres M-orthonormés de la matrice X DXM = SM associés aux mêmes valeurs propres ; axes principaux = vect{v k }. Espace principal : Êq = vect{v 1 v q }. Projection sur l espace principal : P q est la matrice de projection M-orthogonale sur Êq. 3. Composantes Principales ẑ q i = P q x i + ȳ. Corrélation de Y j et Y k : Moyenne empirique de Y j : y j = y j, 1 n D = D1 yj n. Barycentre des individus : ȳ = Y D1 n. Centrage de Y j : x j = y j y j 1 n. Matrice des données centrées : X = Y 1 n y. Ecart-type de Y j : σ j = (x j Dx j ) 1/2 = x j D. Covariance de Y j et Y k : x j Dx k = x j, x k D. Matrice des covariances : S = n i=1 w ix i x i = X DX. x j,x k D x j D x k D = cos θ D (x j, x k ). {y i ; i = 1,..., n}, n vecteurs aléatoires { indépendants de E, E(εi ) = 0, var(ε y i = z i + ε i, i = 1,..., n avec i ) = σ 2 Γ, σ > 0 inconnu, Γ régulière et connue, A q, sous-espace affine de dimension q de E tel que i, z i A q (q < p). { min X Z M,D Z = Ẑq q k=1 } ; Z M n,p, rang(z) = q. λ 1/2 k u kv k = U q Λ 1/2 V q = X P q, où Pq = V q V q M. enib c mp2003-2004.... 3

Représentations Graphiques 1. Individus Projection dans l espace principal : graphiques obtenus représenter au mieux les distances inter-individus mesurées par la métrique M. Chaque individu i représenté par x i est approché par sa projection M-orthogonale ẑ i q sur le sous-espace Êq engendré par les q premiers vecteurs principaux {v 1,..., v q }. En notant e i un vecteur de la base canonique de E, la coordonnée de l individu i sur v k est donnée par x i, v k M = x i Mvk = e i XMvk = c k i. Les coordonnées de la projection M-orthogonale de x i sur Êq sont les q premiers éléments de la ième ligne de la matrice C des composantes principales. Les individus sont étiquetés dans l espace principal, afin de les reconnaître. Qualité globale : part de dispersion expliquée r q = tr(sm P q ) tr(sm) = q k=1 λ k p k=1 λ. k Qualité individuelle : cosinus carré de l angle qu il forme avec sa projection [cos θ(x i, ẑ i q )] 2 = P q x i 2 M x i 2 M = q k=1 (ck i )2 p k=1 (ck i )2 2. Variables Projection dans l espace principal : graphiques obtenus représenter au mieux les corrélations entre les variables (cosinus des angles) et, si celles-ci ne sont pas réduites, leurs variances (longueurs). Une variable X j (ou Y j ) est représentée par la projection D-orthogonale Q q x j sur le sous-espace F q engendré par les q premiers axes factoriels. La coordonnée de x j sur u k est x j, u k D = Du xj k = 1 x j DXMv k = 1 e j X DXMv k = λ k vj k. Les coordonnées de la projection λk λk D-orthogonale de x j sur le sous-espace F q sont les q premiers éléments de la jème ligne de la matrice VΛ 1/2. [ Qualité de représentation : cos θ(x j, Q ] 2 q x j Q q x j 2 q ) = D k=1 x j 2 = λ k(v j k )2 p D k=1 λ k(v j k )2. Interprétation (corrélations principales / initiales) : cor(x j, C k ) = cos θ(x j, c k ) = cos θ(x j, u k ) = xj, u k D x j D = enib c mp2003-2004.... 4 λk σ j v k j.

Choix de dimension 1. Part d inertie La qualité globale des représentations est mesurée par la part d inertie expliquée r q. La valeur de q est choisie de sorte que cette part d inertie expliquée r q soit supérieure à une valeur seuil fixée a priori par l utilisateur (r q=p = 1). C est souvent le seul critère employé. 2. Eboulis des valeurs propres C est le graphique présentant la décroissance des valeurs propres. Le principe consiste à rechercher, s il existe, un coude (changement de signe dans la suite des différences d ordre 2) dans le graphe et de ne conserver que les valeurs propres jusqu à ce coude. Intuitivement, plus l écart (λ q λ q+1 ) est significativement grand, par exemple supérieur à (λ q 1 λ q ), et plus on peut être assuré de la stabilité de Êq. 1 0.8 0.6 0.4 0.2 0 0 1 2 3 4 5 6 7 enib c mp2003-2004.... 5

Pratique de l 1. Préparation des mesures Traitement préalable à l exécution d un programme d A.C.P. afin de : (a) vérifier la cohérence et l exactitude des données, (b) éliminer certaines variables, (c) procéder à d éventuelles transformations de variables (racine, log...). On obtient alors la matrice Y (n p) qui sera centrée par le programme. Options (a) pondération des individus (par défaut 1 n ) pour regrouper des données identiques, redresser un échantillon... (b) métrique de l espace des individus : par défaut M=Ip ; pour pondérer les variables : M = diag(a 2 1,..., a 2 p). 2. Interprétation des résultats Les contributions permettent d identifier les individus très influents pouvant déterminer à eux seuls l orientation de certains axes ; ces points sont vérifiés, caractérisés, puis éventuellement considérés comme supplémentaires dans une autre analyse. Choisir le nombre de composantes à retenir, c est-à-dire la dimension des espaces de représentation. Axes factoriels interprétés par rapport aux variables initiales. Qualités de représentation des variables initiales. L A.C.P. est une technique linéaire optimisant un critère quadratique ; elle ne tient donc pas compte d éventuelles liaisons non linéaires et présente une forte sensibilité aux valeurs extrêmes. enib c mp2003-2004.... 6

Bibliographie 1. Cibois, P. (1983) L Analyse factorielle : analyse en composantes principales et analyse des correspondances. Presses Universitaires de France, ISBN : 2-13037939-7. 2. Philippeau, A. (1986) Comment interpréter les résultats d une analyse en composantes principales? Lavoisier. 3. Salles-Le Gac, D. et Herrera, R.R. (2002) Initiation a l analyse factorielle des données. Fondements mathématiques et interprétations - Cours et Exercices corrigés. Eyrolles, Ellipses, ISBN : 2-7298-1119-2. 4. Claereboudt, M. et Dufour, P. Analyse des données : Similarité des atolls et relations entre les types d atoll et les caractéristiques de leur colonne d eau en saison sèche. http ://www.com.univ-mrs.fr/ird/atollpol/typatoll/simtypsc.htm enib c mp2003-2004.... 7