Chapitre 9 ANALYSE EN COMPOSANTES PRINCIPALES

Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Mesure d angles et trigonométrie

1 Complément sur la projection du nuage des individus

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Dérivation : Résumé de cours et méthodes

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Chapitre 6. Fonction réelle d une variable réelle

Continuité et dérivabilité d une fonction

Analyse en Composantes Principales

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Relation entre deux variables : estimation de la corrélation linéaire

Chapitre 1 : Évolution COURS

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

La classification automatique de données quantitatives

Cours de tracés de Charpente, Le TRAIT

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Développements limités, équivalents et calculs de limites

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Cours IV Mise en orbite

Chapitre 2 : Caractéristiques du mouvement d un solide

Calcul intégral élémentaire en plusieurs variables

CCP PSI Mathématiques 1 : un corrigé

Exprimer ce coefficient de proportionnalité sous forme de pourcentage : 3,5 %

FONCTION DE DEMANDE : REVENU ET PRIX

Angles orientés et fonctions circulaires ( En première S )

ACP Voitures 1- Méthode

Chapitre 0 Introduction à la cinématique

Les indices à surplus constant

Limites finies en un point

Évaluation de la régression bornée

progression premiere et terminale

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

CH.6 Propriétés des langages non contextuels

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

Cercle trigonométrique et mesures d angles

FORMATION ECLAIRAGE PUBLIC

Fonction réciproque. Christelle MELODELIMA. Chapitre 2 :

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours.

Dérivation : cours. Dérivation dans R

Construction d un cercle tangent à deux cercles donnés.

INF6304 Interfaces Intelligentes

F411 - Courbes Paramétrées, Polaires

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Si deux droites sont parallèles à une même troisième. alors les deux droites sont parallèles entre elles. alors

L exclusion mutuelle distribuée

Extraction d informations stratégiques par Analyse en Composantes Principales

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

M2 IAD UE MODE Notes de cours (3)

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

CHAPITRE VI - LES SOLDES COMPTABLES ET LES INDICATEURS DE REVENU

Représentation des Nombres

Table des matières. I Mise à niveau 11. Préface

CAPTEURS - CHAINES DE MESURES

Marketing stratégique : Du diagnostic au plan marketing stratégique

Comparaison de fonctions Développements limités. Chapitre 10

I. Polynômes de Tchebychev

Le patrimoine des ménages retraités : résultats actualisés. Secrétariat général du Conseil d orientation des retraites

Fonctions de plusieurs variables

Exercices Corrigés Premières notions sur les espaces vectoriels

Chafa Azzedine - Faculté de Physique U.S.T.H.B 1

Mathématiques I Section Architecture, EPFL

Fonctions de deux variables. Mai 2011

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

1 radian. De même, la longueur d un arc de cercle de rayon R et dont l angle au centre a pour mesure α radians est α R. R AB =R.

CONSTRUCTION DES PROJECTIONS TYPES DE PROJECTION. Projection => distorsions. Orientations des projections

Représentation géométrique d un nombre complexe

Nathalie Barbary SANSTABOO. Excel expert. Fonctions, simulations, Groupe Eyrolles, 2011, ISBN :

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Deux disques dans un carré

Définitions. Définitions sur le logement

Exercice 1 Trouver l équation du plan tangent pour chaque surface ci-dessous, au point (x 0,y 0,z 0 ) donné :

Table des matières. Introduction... 11

Chp. 4. Minimisation d une fonction d une variable

Cahier de l OPEQ n 136 Avril OPEQ Chambre Régionale de Commerce et d'industrie Champagne-Ardenne 10 rue de Chastillon BP 537

Théorie des sondages : cours 5

Introduction. Préambule. Le contexte

DÉVERSEMENT ÉLASTIQUE D UNE POUTRE À SECTION BI-SYMÉTRIQUE SOUMISE À DES MOMENTS D EXTRÉMITÉ ET UNE CHARGE RÉPARTIE OU CONCENTRÉE

Programme de la classe de première année MPSI

3 Approximation de solutions d équations

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

SOUS TITRAGE DE LA WEBÉMISSION DU PROGRAMME DE MATHÉMATIQUES 11 e ET 12 e ANNÉE

Introduction à MATLAB R

Modélisation aléatoire en fiabilité des logiciels

Cours Fonctions de deux variables

ERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+

Cours de Mécanique du point matériel

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

La fumée de tabac secondaire (FTS) en Mauricie et au Centre-du- Québec, indicateurs du plan commun tirés de l ESCC de

EMETTEUR ULB. Architectures & circuits. Ecole ULB GDRO ESISAR - Valence 23-27/10/2006. David MARCHALAND STMicroelectronics 26/10/2006

Image d un intervalle par une fonction continue

DISQUE DUR. Figure 1 Disque dur ouvert

Initiation à l analyse en composantes principales

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Correction de l examen de la première session

Les critères d identification des pays les moins avancés

Cours d Analyse. Fonctions de plusieurs variables

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Transcription:

Chapitre 9 ANALYSE EN COMPOSANTES PRINCIPALES On consultera aussi le document «Introduction numérique à l analyse en composantes principales». 1 NATURE DES DONNÉES ET OBJECTIFS. 1.1 Nature des données. Tableau de données quantitatives de la forme individus x variables quantitatives (ex. Euromarket) : la ligne i du tableau donne les observations X j (i) des variables X j sur l individu de rang i. N âge revenu achats nombre d enfants 1 51 195888 150.15 3 2 39 128456 173.12 2 3 39 117663 88.91 2 1.2 Objectifs Extrait du tableau de données Euromarket limité aux données quantitatives Formation de groupes d individus et typologie. Description des relations entre des variables statistiques 2 DISTANCE ENTRE DEUX UNITÉS STATISTIQUES. 2.1 Propriétés de la distance. on choisit les variables dont on tient compte pour comparer les individus ; plus les valeurs sont différentes, plus les individus sont différents ; la distance entre deux individus identiques doit être nulle ; un changement d unité de mesure ne doit pas changer la distance entre les individus. 2.2 Modélisation Les unités statistiques sont définies par les observations de p variables quantitatives ; On dit qu elles appartiennent à un espace de dimension p ; On calcule les moyennes et les variances des p variables initiales ; On en déduit les valeurs centrées réduites notées x j (i) (1 i n, 1 j p) ; La distance entre deux unités statistiques i et i est donnée par son carré : p d 2 (i,i ) = Σ [ x j (i) x j (i )] 2 j = 1

3. REPRÉSENTATIONS GRAPHIQUES DES UNITÉS STATISTIQUES. 3.1 Recherche des axes et des plans principaux. Définition : Les axes principaux sont les droites déterminées au fur et à mesure de façon que : Les unités statistiques soient aussi proches que possible des axes suivant le critère des moindres carrés ; Chaque droite soit orthogonale aux précédentes. Définition : Les composantes principales sont les variables statistiques dont les valeurs sont les coordonnées des points sur les axes. Première composante principale : c 1 (1), c 1 (2),, c 1 (i), c 1 (n) Deuxième composante principale : c 2 (1), c 2 (2),, c 2 (i), c 2 (n) Etc. Propriétés et définitions : les composantes principales sont centrées ; les composantes principales sont non corrélées deux à deux ; la variance d une composante principale est appelée valeur propre. la somme de toutes les valeurs propres est égale au nombre de variables. 3.2 Représentation graphique. Construction des plans principaux : Pour représenter graphiquement les individus par des points : on choisit deux axes principaux, en général les deux premiers ;. on range les axes principaux suivant les valeurs propres décroissantes ; on représente chaque individu par son rang ou son identificateur placé au point dont les coordonnées sont les axes sont les composantes principales de cet individu.

axe 2 C 2 (i) Individu i Centre de gravité du nuage G C 1 (i) axe 1 Figure 1 : construction du plan principal 1 x 2 Interprétation : Chaque plan défini par deux axes principaux conserve une part d information mesurée par la somme des valeurs propres correspondantes. Les distances entre les individus sont d autant mieux conservées sur le plan que la somme des valeurs propres est élevée. L origine des axes représente le point moyen (les moyennes de toutes les variables). Les plans sans axe commun contiennent des informations strictement complémentaires. 4. INTERPRÉTATION DES AXES. CERCLES DE CORRÉLATION. 4.1 Cercles de corrélation. Définition : un cercle de cercle de corrélation défini par deux composantes principales est la représentation graphique des variables en fonction de leurs coefficients de corrélation avec les composantes principales C 2 r(x 1, C 2 ) X 1 X 2 X 5 X 4 C 1 r(x 1, C 1 ) X 3 Figure 2 : construction du cercle de corrélation 1 x 2

4.2 Interprétation. Principes : Un point proche du cercle caractérise bien la variable correspondante ; un point proche du centre indique une variable dont les propriétés ne sont pas mises en évidence par le cercle de corrélation ; deux points proches du cercle et l un de l autre indiquent une forte corrélation positive entre les variables qu ils caractérisent (exemple X 1, X 2 ); deux points proches du cercle et opposés indiquent une forte corrélation négative (exemple X 2, X 3 ) ; deux points proches du centre du cercle ne donnent aucune indication sur la corrélation des variables qu ils représentent (exemple X 4, X 5 ). Relation avec les plans principaux : Si une corrélation entre une variable et une composante principale est : fortement positive : positive et élevée sera vraisemblablement largement supérieure à la moyenne ; négative et élevée en valeur absolue sera vraisemblablement largement inférieure à la moyenne ; fortement négative : positive et élevée sera vraisemblablement largement inférieure à la moyenne ; négative et élevée en valeur absolue sera vraisemblablement largement supérieure à la moyenne ; 5. COMPLÉMENTS. cosinus carrés : mesure de la proximité entre un point et l individu qu il représente Figure 3 :Projection d unités statistiques sur le plan principal 1 x 2. cos 2 θ = cos 2 θ 1 + cos 2 θ 2

cos 2 θ proche de 1 : individu proche de sa projection cos 2 θ proche de 0 : individu éloigné de sa projection La distance entre deux projections n est proche de la distance réelle que si les deux individus sont bien représentées. éléments supplémentaires : éléments figurant sur les représentations graphiques mais non pris en compte dans les calculs (par exemple, centre de gravité de groupes d individus, moyennes de certaines variables, ) 6. PRATIQUE DE L ANALYSE EN COMPOSANTES PRINCIPALES. L analyse en composantes principales est une méthode statistique qui nécessite : une bonne connaissance des données analysées ; une bonne connaissance de la méthode statistique ; un esprit critique développé et de la prudence dans les interprétations ; une aptitude à rédiger de façon claire. On procède tout d abord par : une réflexion sur les données étudies en fonction de la question posée : ces données permettent-elles de répondre à cette question? un examen rapide des données par les méthodes statistiques élémentaires ; des transformations pour «normaliser» les histogrammes (passage au logarithme, à la racine carrée à l arc sinus ou arc tangente...) Avant de procéder à l analyse en composantes principales, on réfléchit sur : le choix de la distance entre les individus : quelles sont les variables dont il faut tenir compte? l introduction de variables supplémentaires : ces variables ne sont pas prises en compte dans le calcul de la distance l introduction d individus supplémentaires : centres de gravité de groupes d u.s., par ex.. Le calcul des moyennes, variances et coefficients de corrélation ne tiennent pas compte de ces u.s. On effectue ensuite l ACP :le logiciel donne les résultats numériques et graphiques. l étude des valeurs propres permet de sélectionner les axes a priori interprétables ; le cercle de corrélation donne une interprétation aux axes ; on forme des groupes homogènes d u.s. en expliquant les points communs ; on explique les propriétés structurelles des données. En conclusion, on indique la confiance que l on peut accorder aux conclusions de l analyse suivant la taille du tableau, les données observées, les questions posées, les interprétations effectuées. On notera que ces conclusions ne sont pas toujours pertinentes : s il faut s efforcer de détecter les propriétés générales contenues dans les données, il faut inversement accepter l absence d informations intéressantes.