Analyse en Composantes Principales

Documents pareils
MAP 553 Apprentissage statistique

1 Complément sur la projection du nuage des individus

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

CREPS DE BOULOURIS. Du 18 juillet au 22 juillet André Boutin Directeur administratif du centre de formation de Boulouris Tel :

LES BRIC: AU DELÀ DES TURBULENCES. Françoise Lemoine, Deniz Ünal Conférence-débat CEPII, L économie mondiale 2014, Paris, 11 septembre 2013

La situation en matière de pension privées et de fonds de pension dans les pays de l OCDE

Théorie des sondages : cours 5

Exercices supplémentaires sur l introduction générale à la notion de probabilité

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Aménagement numérique des territoires

COMPTE-RENDU «MATHS EN JEANS» LYCEE OZENNE Groupe 1 : Comment faire une carte juste de la Terre?

Analyse en Composantes Principales

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

NOUVEAUX REPRÉSENTANTS DES RETRAITÉS AU CIRR

Exercice : la frontière des portefeuilles optimaux sans actif certain

C est un mouvement plan dont la trajectoire est un cercle ou une portion de cercle. Le module du vecteur position OM est constant et il est égal au

véhicules vendus 6 premiers mois 2015, soit +1,4 % Croissance de l Europe (hors Suède) + 6,6% Croissance de la Suède + 6,4% Le top 3 monde

SHOPPING EN LIGNE. POURQUOI?

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

DISCOUNTED CASH-FLOW

Infrastructures Parallèles de Calcul

Un cadre d action pour une croissance verte

3 ème 2 DÉVELOPPEMENT FACTORISATIONS ET IDENTITÉS REMARQUABLES 1/5 1 - Développements

MASTER 1 Mention : Droit de l'entreprise Spécialité : Droit & éthique des affaires Parcours RH Semestre 1

"ICI LONDRES, LES ARBITRES PARLENT AUX ARBITRES" / NUMERO 13

Exercices sur le chapitre «Probabilités»

Technique RSR /DCo

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

Guide abrégé ME301-2

MIEUX TRAVAILLER AVEC L ÂGE

ANNEXE 1 LISTES DES ŒUVRES PRODUITES POUR L EXPOSITION ET VALEURS D ASSURANCE

Nettoyeur haute pression Grand Public

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Resolution limit in community detection

Étudier si une famille est une base

Federation Internationale de Judo

Calcul intégral élémentaire en plusieurs variables

Théorie Financière 4E 4. Evaluation d actions et td d entreprises

Études économiques de l OCDE TURQUIE Juillet 2014 SYNTHÈSE

LA BALANCE DES PAIEMENTS

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Assurance-maladie complémentaire (LCA)

Coefficients binomiaux

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

1 radian. De même, la longueur d un arc de cercle de rayon R et dont l angle au centre a pour mesure α radians est α R. R AB =R.

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

MOBILITE ERASMUS SUISSE STATISTIQUES Fondation ch

Unité 2 Leçon 2 Les permutations et les combinaisons

LES ASSURANCES DE BIENS ET DE RESPONSABILITÉ. Données clés 2010

Mise en place du Mécanisme de Supervision Unique (MSU)

Cinq grandes tendances de la consommation digitale : défis et opportunités pour les distributeurs

Cours de Mécanique du point matériel

La technologie, votre alliée vers le NWOW

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

CHAMPIONNAT DU MONDE SENIOR EPREUVES DE COUPE DU MONDE ARC A POULIES

Structures algébriques

INTRODUCTION. A- Modélisation et paramétrage : CHAPITRE I : MODÉLISATION. I. Paramétrage de la position d un solide : (S1) O O1 X

Fonctions de deux variables. Mai 2011

Marketing (S + 4P) Importance de l innovation

Collecter des informations statistiques

L'ELASTICITE-PRIX I- QUAND LES PRIX VARIENT...

pour les canalisations de transport 14 avril

Questionnaire RC Professionnelle Prestataires de Services Informatiques

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Exemples d utilisation de G2D à l oral de Centrale

LISTE D EXERCICES 2 (à la maison)

Rupture et plasticité

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Etude des propriétés empiriques du lasso par simulations

Enjeux. Maîtrise quantitative de la ressource en eau. Maîtrise de la qualité des ressources. Maintenir ou restaurer la fonctionnalité des cours d eau

Applications KIP Cloud Guide de l utilisateur

GUIDE D UTILISATION DU LOGICIEL DE TELE-MAINTENANCE. TEAM VIEWER Version 7.

CORRECTION EXERCICES ALGORITHME 1

PIANO. Division inférieure 1 er cycle. Texte coordonné

La coopérative Cera. Investisseur sociétal. Christophe Kevelaer- Conseiller 4 mars 2013

BREVET DE TECHNICIEN SUPÉRIEUR AGRICOLE SUJET

Les Taux de change. Grégory Corcos et Isabelle Méjean. ECO 434: Economie Internationale Ecole Polytechnique, 2ème Année

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Introduction à l approche bootstrap

LES DÉFIS DE L EXPANSION

MÉDIA GUIDE SHORT TRACK

Cuisiner, s occuper des enfants, construire ou réparer : Le travail non rémunéré à travers le monde 1

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

The Ark : Les Marketplaces

IT CENTRE DE VALEUR la transformation s opère jour après jour. Philippe Kaliky. Directeur Centre de Services. Espace Grande Arche Paris La Défense

Guide abrégé ME401-2

Plan. Définitions Objectifs Historique Etapes Avantages et Limites

Lire ; Compter ; Tester... avec R

Période de recensement Répartition par âge des cas. Hôpital test <100 lits. Hôpital test 100 à 499 lits. Hôpital test >= 500 lits

Exercices de génétique classique partie II

Mr le Depanneur. Le depanneur est un membre de la disposisition de secours financier Mr le Depanneur ayant un compte depanneur actif ou approuvé.

Horaire athlétisme mixte Caisses populaires acadiennes (12-13 ans, ans et para 17 ans et moins)

Réinventer le parcours client multicanal pour booster la rentabilité

Le bridge c'est quoi? Laval Du Breuil École de bridge Picatou, Québec

AVENANT N 3 DU 6 JUILLET 2010

Transcription:

Analyse en posantes Principales Université Paris Sud et Ecole Polytechnique Analyse en posantes Principales 1/21

Réduction de dimension : ACP Analyse en posantes Principales 2/21

Réduire la dimension: exemple Epreuve d heptathlon, jeux olympiques de Seoul, 1988. hurdles highjump shot run200m longjump javelin run800m Joyner-Kersee (USA) 12.69 1.86 15.80 22.56 7.27 45.66 128.51 John (GDR) 12.85 1.80 16.23 23.65 6.71 42.56 126.12 Behmer (GDR) 13.20 1.83 14.20 23.10 6.68 44.54 124.20 Sablovskaite (URS) 13.61 1.80 15.23 23.92 6.25 42.78 132.24 Choubenkova (URS) 13.51 1.74 14.76 23.93 6.32 47.46 127.90 Schulz (GDR) 13.75 1.83 13.50 24.65 6.33 42.82 125.79 Fleming (AUS) 13.38 1.80 12.88 23.59 6.37 40.28 132.54 Greiner (USA) 13.55 1.80 14.13 24.48 6.47 38.00 133.65 Lajbnerova (CZE) 13.63 1.83 14.28 24.86 6.11 42.20 136.05 Bouraga (URS) 13.25 1.77 12.62 23.59 6.28 39.06 134.74 Wijnsma (HOL) 13.75 1.86 13.01 25.03 6.34 37.86 131.49 Dimitrova (BUL) 13.24 1.80 12.88 23.59 6.37 40.28 132.54 Scheider (SWI) 13.85 1.86 11.58 24.87 6.05 47.50 134.93 Braun (FRG) 13.71 1.83 13.16 24.78 6.12 44.58 142.82 Ruotsalainen (FIN) 13.79 1.80 12.32 24.61 6.08 45.44 137.06 Yuping (CHN) 13.93 1.86 14.21 25.00 6.40 38.60 146.67 Hagger (GB) 13.47 1.80 12.75 25.47 6.34 35.76 138.48 Brown (USA) 14.07 1.83 12.69 24.83 6.13 44.34 146.43 Mulliner (GB) 14.39 1.71 12.68 24.92 6.10 37.76 138.02 Hautenauve (BEL) 14.04 1.77 11.81 25.61 5.99 35.68 133.90 Kytola (FIN) 14.31 1.77 11.66 25.69 5.75 39.48 133.35 Geremias (BRA) 14.23 1.71 12.95 25.50 5.50 39.64 144.02 Hui-Ing (TAI) 14.85 1.68 10.00 25.23 5.47 39.14 137.30 Jeong-Mi (KOR) 14.53 1.71 10.83 26.61 5.50 39.26 139.17 Launa (PNG) 16.42 1.50 11.78 26.16 4.88 46.38 163.43 Analyse en posantes Principales 3/21

ACP en action Résultat d une ACP sur les données d heptathlon. -0.5 0.0 0.5 1.0 PC2-4 -2 0 2 4 6 1 17 20 highjump 11 run200m 8 21 10 16 19 23 24 longjump 12 7 6 22 9 2 3 4 14 13 1518 hurdles run800m shot 5 javelin 25-0.5 0.0 0.5 1.0-4 -2 0 2 4 6 PC1 Analyse en posantes Principales 4/21

ACP : notations Epreuve d heptathlon, jeux olympiques de Seoul, 1988. [ tableau n p : X = X (v) i ] i = 1... n v = 1... p = [ X (1),..., X (p)] = X T 1. X T n p = 7 variables: 1 hurdles: results 100m hurdles. 2 highjump: results high jump. 3 shot: results shot. 4 run200m: results 200m race. 5 longjump: results long jump. 6 javelin: results javelin. 7 run800m: results 800m race. n = 25 athlètes. Analyse en posantes Principales 5/21

Réduire la dimension But: représenter les obervations X i R p dans un espace de plus petite dimension avec le moins de perte d information possible. Ex: avec p = 2 variables: axes de projections (1er en rouge, 2nd en vert). Analyse en posantes Principales 6/21

Réduire la dimension But: représenter les obervations X i R p dans un espace de plus petite dimension avec le moins de perte d information possible. X[,3] -1.0-0.5 0.0 0.5 1.0-1.0-0.5 0.0 0.5 1.0-1.0-0.5 0.0 0.5 1.0 X[,2] X[,1] Ex: avec p = 3 variables: meilleur plan approximant. Analyse en posantes Principales 7/21

Etape préliminaire Normalisation: étape préliminaire de normalisation des données: centrer: X (v) X (v) X (v) réduire: X (v) X (v) / var ( X (v)) (sauf si comparables) Dorénavant on supposera les données centrées. Analyse en posantes Principales 8/21

ACP Objectif : Obtenir un espace vectoriel V de petite dimension tel que Proj V (X i ) X i pour i = 1,..., n. Questions : on notera Σ = 1 n X T X 1 Montrer que V d := argmin dim(v )=d = argmax dim(v )=d n X i Proj V (X i ) 2 i=1 n Proj V (X i ) 2 i=1 2 Par quels vecteurs V d est-il engendré? (commencer par d = 1) 3 Que vaut n i=1 Proj V d (X i ) 2? Analyse en posantes Principales 9/21

ACP : définitions Axes principaux: a (1)... a (d) R p vecteurs propres orthonormés de Σ = 1 n X T X, ordonnés selon les valeurs propres décroissantes posantes principales: c k = Xa (k) R n pour k = 1,..., d Remarques: c 1... c d R n : car c j, c k = n(a (j) ) T Σ a (k) = nλ k δ jk a (k) = 1 et c k 2 = nλ k c 1,..., c d R n vecteurs propres de XX T Analyse en posantes Principales 10/21

ACP : projections Projection des individus: X i, a (k) = (c k ) i donc d Proj Vd (X i ) = (c k ) i a (k) k=1 Projection des variables: X (v), c k / c k 2 = (a (k) ) v donc d Proj <c1,...,c d >(X (v) ) = (a (k) ) v c k k=1 Analyse en posantes Principales 11/21

ACP: biplot -0.5 0.0 0.5 1.0 PC2-4 -2 0 2 4 6 1 17 20 highjump 11 run200m 8 21 10 16 19 23 24 longjump 12 7 6 22 9 2 3 4 14 13 1518 hurdles run800m shot 5 javelin 25-0.5 0.0 0.5 1.0-4 -2 0 2 4 6 PC1 Analyse en posantes Principales 12/21

ACP : variance expliquée valeurs propres pour les données d heptathlon. acp Variances 0 1 2 3 4 Analyse en posantes Principales 13/21

Cercle des corrélations Cercle des corrélations: pour chaque variable v on définit le vecteur ρ (v) R d par On a ρ (v) k = cor(x (v), c k ) = X (v), c k X (v), k = 1,..., d. c k ρ (v) 2 = Proj <c 1,...,c d >(X (v) ) 2 X (v) 2 1. La norme de ρ (v) représente la qualité de la représentation de la variable v par les d premiers axes. Analyse en posantes Principales 14/21

Cercle des corrélations : d = 2 PC 2-1.0-0.5 0.0 0.5 1.0 highjump gjump shot javelin run200m hurdle run800m -1.0-0.5 0.0 0.5 1.0 PC 1 Les variables sont bien expliquées par les deux premières composantes (proche du cercle) 15/21 Analyse en posantes Principales

ACP: exemple 2 Exemple: budget de l état français sur 24 années. Les variables: part du budget alloué à différents postes (en pourcentage du budget) PVP: Pouvoirs publics AGR: Agriculture CMI: merce et industrie TRA: Travail LOG: Logement EDU: Éducation ACS: Action sociale ANC: Ancien combattants DEF: Défense DET: Remboursement dette DIV: Divers donc p = 11 Observations: on a 24 observations pour chaque variable (n = 24) Analyse en posantes Principales 16/21

ACP: exemple 2 valeurs propres valeurs propres 0 1 2 3 4 5 2 4 6 8 10 Analyse en posantes Principales 17/21

ACP: exemple 2 Projection sur les 2 premiers axes Analyse en posantes Principales 18/21

ACP: exemple 2 Projection sur les 3 premiers axes Analyse en posantes Principales 19/21

ACP: exemple 2 Cercle des corrélations Variables proches du cercle: bien expliquées par les deux premiers axes. Analyse en posantes Principales 20/21

ACP : récapitulatif Axes principaux: a (1)... a (d) R p vecteurs propres orthonormés de Σ = 1 n X T X, posantes principales: c 1... c d R n, avec c k = Xa (k) Projection des individus: Proj Vd (X i ) = d k=1 (c k) i a (k) Projection des variables: Proj <c1,...,c d >(X (v) ) = d k=1 (a(k) ) v c k Ratio de variance expliquée: par les d premières composantes λ 1 +... + λ d λ 1 +... + λ p. Analyse en posantes Principales 21/21

ACP versus ALD pour re duire la dimension Exemple: X = mesure de la composition chimique (55 compose s) de n = 162 souches de E. coli. Y = souche commensale ou pathoge ne ALD 1.0 4 1.5 ACP -4-1.0-2 -0.5 0 0.0 2 0.5-1 0 1 2 3-4 -2 Analyse en posantes Principales 0 2 4 22/21