Séance 1: Analyse en composantes principales

Documents pareils
Statistique Descriptive Multidimensionnelle. (pour les nuls)

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

1 Complément sur la projection du nuage des individus

Analyse en Composantes Principales

La classification automatique de données quantitatives

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Data mining 1. Exploration Statistique

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Introduction à l approche bootstrap

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

ACP Voitures 1- Méthode

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

MAP 553 Apprentissage statistique

Extraction d informations stratégiques par Analyse en Composantes Principales

L'analyse des données à l usage des non mathématiciens

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Chapitre 3. Les distributions à deux variables

Introduction. Préambule. Le contexte

Calcul intégral élémentaire en plusieurs variables

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Analyse des correspondances avec colonne de référence

STATIQUE GRAPHIQUE ET STATIQUE ANALYTIQUE

Logiciel XLSTAT version rue Damrémont PARIS

Plan du cours : électricité 1

Mesurage de la qualité acoustique de revêtements. acoustique de revêtements

Introduction au datamining

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours.

PARTICIPATION DES ETABLISSEMENTS AUX RESEAUX STEP ET/OU STAR AU 01/01/2015

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

UNEP /UNESCO /UNCH / ECA

I. Polynômes de Tchebychev

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

On ne peut pas entendre la forme d un tambour

Relation entre deux variables : estimation de la corrélation linéaire

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Statistiques à une variable

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur

Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques

Régression linéaire. Nicolas Turenne INRA

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Continuité et dérivabilité d une fonction

Documentation Technique du programme HYDRONDE_LN

Exercice : la frontière des portefeuilles optimaux sans actif certain

Texte Agrégation limitée par diffusion interne

21 ème Observatoire des Taux meilleurtaux.com. C O N F É R E N C E D E P R E S S E 3 f é v r i e r

Les parents d élèves et L ENT

aux différences est appelé équation aux différences d ordre n en forme normale.

Dérivés Financiers Contrats à terme

Ricco.Rakotomalala

document proposé sur le site «Sciences Physiques en BTS» : BTS AVA 2015

Cours d algorithmique pour la classe de 2nde

Chapitre 1 Cinématique du point matériel

Bureau N301 (Nautile)

Latitude N Longitude E Altitude 376 m RÉSUMÉ MENSUEL DU TEMPS DE JANVIER 2014

Ce cours introduit l'électrodynamique classique. Les chapitres principaux sont :

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Corrigé du baccalauréat S Pondichéry 12 avril 2007

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

Formations et diplômes. Rapport d'évaluation. Master Finance. Université Jean Monnet Saint-Etienne - UJM. Campagne d évaluation (Vague A)

Dans ce chapitre : Sommaire 93

Sites web éducatifs et ressources en mathématiques

«Cours Statistique et logiciel R»

Equipement. électronique

ENQUETE SUR LA SITUATION DES GRANDES VILLES ET AGGLOMERATIONS EN MATIERE D ASSURANCES DOMMAGES

Le contexte. Le questionnement du P.E.R. :

SAS de base : gestion des données et procédures élémentaires

LE RESEAU Ce réseau est issu de l'identification et de la formation de personnes et d'équipes ressources en numérisation.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Choix de cours

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Effectifs et taux de réponse par discipline

Introduction. Mathématiques Quantiques Discrètes

NOTICE DOUBLE DIPLÔME

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Les débats sur l évolution des

Analyse de la variance Comparaison de plusieurs moyennes

Dimensionnement d une roue autonome pour une implantation sur un fauteuil roulant

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Initiation à l analyse en composantes principales

Programmation linéaire

Revue des Marchés. Charles Gagné

L OPTIMISATION ÉCONOMIQUE DU VOLUME DU LOT DE FABRICATION DANS LE MANAGEMENT DE LA PRODUCTION EN SÉRIE

Interception des signaux issus de communications MIMO

Mesure d angles et trigonométrie

Statistique Descriptive Élémentaire

Exercices - Polynômes : corrigé. Opérations sur les polynômes


Théorie des sondages : cours 5

possibilités et limites des logiciels existants

DYNAMIQUE DE FORMATION DES ÉTOILES

II. LE PRINCIPE DE LA BASE

Cours d analyse numérique SMI-S4

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Principe d optimisation. Optimisation technico-économique. Coût. Isolation thermique. Isolation optimale

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Corrigé des TD 1 à 5

S organiser autrement

Transcription:

Séance 1: Analyse en composantes principales Révisions Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat

Première partie I Analyse en Composantes Principales

Motivations Objectifs : Représenter graphiquement l observation de p > 3 variables. Recherche de résumés pertinents (nuages de point) dans le plan ou l espace, respectant : les distances entre individus la structure des corrélations entre variables.

Présentation élémentaire de l ACP Notes de n = 9 élèves dans p = 4 disciplines. MATH PHYS FRAN ANGL jean 6.00 6.00 5.00 5.50 alan 8.00 8.00 8.00 8.00 anni 6.00 7.00 11.00 9.50 moni 14.50 14.50 15.50 15.00 didi 14.00 14.00 12.00 12.50 andr 11.00 10.00 5.50 7.00 pier 5.50 7.00 14.00 11.50 brig 13.00 12.50 8.50 9.50 evel 9.00 9.50 12.50 12.00 Quelles analyses statistiques élémentaires?

Statistiques élémentaires Variable Moyenne Ecart-type Minimum Maximum MATH 9.67 3.37 5.50 14.50 PHYS 9.83 2.99 6.00 14.50 FRAN 10.22 3.47 5.00 15.50 ANGL 10.06 2.81 5.50 15.00 Conclusion sur la dispersion des variables? Corrélations : Variable MATH PHYS FRAN ANGL MATH 1.00 0.98 0.23 0.51 PHYS 0.98 1.00 0.40 0.65 FRAN 0.23 0.40 1.00 0.95 ANGL 0.51 0.65 0.95 1.00 Interprétation sur la dépendance entre les variables?

Statistiques élémentaires Matrice des variances-covariances : Variable MATH PHYS FRAN ANGL MATH 11.39 9.92 2.66 4.82 PHYS 9.92 + 8.94 4.12 5.48 FRAN 2.66 4.12 + 12.06 9.29 ANGL 4.82 5.48 9.29 + 7.91 Somme diagonale : 40.30. Que représente cette somme? FACTEUR VAL. PR. PCT. VAR. PCT. CUM. 1 28.23 0.70 0.70 2 12.03 0.30 1.00 3 0.03 0.00 1.00 4 0.01 0.00 1.00

Quelques questions... Comment ont-été trouvés les facteurs précédents? Ont-ils une existence réelle ou virtuelle? Que vaut l inertie totale du nuage après passage sur les 4 facteurs? En quoi ces facteurs là permettent-ils d obtenir une représentation parcimonieuse des données? Comment utiliser ces facteurs pour interpréter le jeu de données?

Représentation avec les facteurs Pour obtenir une interprétation des facteurs, et de l organisation du jeu de données, on a besoin des coefficients de corrélation variables/facteurs. A quoi vont nous servir ces coefficients? Axe 2 0.6 0.2 0.2 0.6 MATH PHYS ANGL FRAN 0.2 0.2 0.6 1.0 Axe 1 FIG.: Données fictives : Représentation des variables Pourquoi une telle représentation?

Interprétation sur les variables Avec qui le premier facteur est-il corrélé positivement? Conclusion? Qu en est-il de l axe 2? Interprétation? Comment mieux préciser cette interprétation?

Utilisation des facteurs principaux Les facteurs sont en réalité une nouvelle base de l espace vectoriel initial. On peut donc utiliser ces facteurs pour décrire les individus. Il suffit simplement pour cela de récupérer les coordonnées des individus initiaux dans la nouvelle base. Axe 2 3 1 0 1 2 3 andr jean alan brig anni evel pier didi moni 3 1 0 1 2 3 Axe 1 FIG.: Données fictives : Représentation des individus

Interprétation sur les individus Que représente le premier axe? Comment varient les individus sur le premier axe? Que représente le second axe? Comment varient les individus sur le premier axe?

Notations Motivations p variables statistiques réelles observées sur n individus de poids p i. On synthétise les données en une matrice x1 1... x j 1... x p 1........... X = xi 1... x j... i x p i........... xn 1... x j i... xn p À quoi correspond x j i? Individu i : e i Variable j : x j Matrice des poids : D Équi-répartion, Poids quelconques

Statistiques élémentaires Moyenne empirique ou point moyen : g= Matrice centrée des données : Y= Matrice de Variance/Covariance : V=

Métrique sur les individus En statistique, chaque dimension correspond à un caractère qui s exprime avec son unité particulière. Comment calculer la distance entre deux individus décrits par les trois caractères : âge, salaire, nombre d enfants? On utilise la formulation générale : d 2 (e i, e j ) = (e i e j ) M(e i e j ) Le choix de M dépend de l utilisateur. Les 2 choix en statistiques pour l ACP sont : Cas euclidien M= Variables réduites M=

Intertie et corrélations L inertie du nuage de points pondérés vaut I g = On montre que I g = = On mesure la distance entre 2 variables via D : < x j, x k > D =

Inertie et corrélations Avec des variables centrées vecteurs de (F, D) : Que représente la longueur d une variable? x j D 2 = Que représente le cosinus d un angle? cos θ j,k = < xj, x k > D x j x k =

Présentation de la méthode Objectifs : Représentation graphique optimale des individus et des variables. Réduction de dimension (compression). Le principe est d obtenir un sous-espace de dimension faible sur lequel la projection ressemble le plus au nuage initial.

Modèle Motivations Étant donné k < p, on cherche F k espace de dimension k tel que l inertie des projections orthogonales des individus soit la plus grande possible. Proposition : Maximiser l inertie du nuage projeté Minimiser la distance au sens des moindres carrés + F k contient g. Preuve :... Observation = Modèle + Bruit e i = f i + ε i, i = 1,..., n { E(εi )= avec var(ε i )= Que vaut E q et g dans l exemple introductif?

Emboîtement des solutions Proposition : Soit F k un sous-espace d inertie maximale parmi les sous-espaces de dimension k, alors le sous-espace de dimension k + 1 portant l inertie maximale est la somme directe de F k et du sous-espace de dimension 1 M-orthogonal à F k d inertie maximale. Les solutions sont donc emboîtées. Proposition : Matrice de projection sur la droite a : P = a(a Ma) 1 a M Proposition : L inertie du nuage projeté sur la droite a I proj = a MVMa a Ma

Estimation Motivations Théorème : Le sous-espace F k de dimension k est engendré par les k vecteurs propres de VM associés aux k plus grandes valeurs propres. Les vecteurs propres a i de VM normés sont les axes principaux. Ils sont M et V 1 orthogonaux. Les facteurs principaux u i sont les vecteurs propres M 1 normés de MV. Les composantes principales c i sont données par c i = Xu i La variance d une composante principale est égale à λ i, i eme valeur propre de VM (ou MV).

Formules de reconstiturion p X = c j u jm 1 j=1 Coordonnée de l individu i projeté sur l axe k MV = p λ j u j u jm 1 j=1 VM = p λ j a j a jm j=1

Représentations graphiques - Les individus On peut représenter les individus via les composantes c k i sur l axe k. Qualité de représentation de l individu i sur F k : q (c k i ) 2 k=1 p (c k i ) 2 k=1 Contribution de l individu i sur F k : γ k i = Contribution de l individu i à l inertie du nuage : γ i =

Représentations graphiques Qualité de représentation des variables sur F k : r k = Une variable x j est représentée par la projection sur le sous-espace F k engendré par les k premiers axes factoriels. La coordonnée de x j sur u k est : xj, a k D = λ k u k j C est la corrélation variable j facteur k. Qualité de la représentation de x j : q k=1 λ k(u j k )2 p k=1 λ k(u j k )2.

Critère pour choisir q Part d inertie : Règle de Kaiser : Éboulis des valeurs propres :

Un exemple : Température de ville par mois On observe des températures moyennes mensuelles de 32 villes francaises, moyennes effectuées sur 10 ans. Quelle est la taille de X? A x e 2 4 3 2 1 0-1 - 2-3 - 4-5 - 6-7 - 8-1 0 0 1 0 2 0 A x e 1 FIG.: Températures : premier plan des individus.

Cercle des corrélations : 1. 0 1. 0 A x e 2 0. 5 0. 0-0. 5 A x e 3 0. 5 0. 0-0. 5-1. 0-1. 0-0. 5 0. 0 0. 5 1. 0 A x e 1-1. 0-1. 0-0. 5 0. 0 0. 5 1. 0 A x e 2 FIG.: Températures : Premier et deuxième plan des variables.

Représentation simultanée : 10 5 0 5 10 15 20 Comp.2 0.2 0.0 0.2 0.4 0.6 bres biar renn roue dece janv nant ange lill nove toul fevr ajac ango limo stqu octo mars tour orle nice parireim bord cler perp sept avri tlse vich mai mont besa nanc aout juin juil mars nime gren dijoembr lyon stra 10 5 0 5 10 15 20 0.2 0.0 0.2 0.4 0.6 Comp.1 FIG.: Températures : Représentation simultanée ou biplot du premier plan.

Interprétation : Comment peut on interpréter les premiers axes par rapport aux variables,individus? Est-il intéressant? Combien d axes retenir? P C T V A R 1. 0 0. 8 0. 6 0. 4 0. 2 0. 0 0 1 2 3 4 5 6 7 8 9 1 1 1 0 2 K FIG.: Températures : éboulis des valeurs propres.