HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES

Documents pareils
1 Complément sur la projection du nuage des individus

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Analyse en Composantes Principales

Exercice : la frontière des portefeuilles optimaux sans actif certain

L'analyse des données à l usage des non mathématiciens

Extraction d informations stratégiques par Analyse en Composantes Principales

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

ACP Voitures 1- Méthode

Introduction à l approche bootstrap

Statistique Descriptive Multidimensionnelle. (pour les nuls)

INF6304 Interfaces Intelligentes

Programmes des classes préparatoires aux Grandes Ecoles

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Fonctions de plusieurs variables

Programmation linéaire et Optimisation. Didier Smets

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

Statistiques Descriptives à une dimension

Mesure d angles et trigonométrie

Cours de Mécanique du point matériel

Calcul différentiel sur R n Première partie

FORMULAIRE DE STATISTIQUES

Exercices Corrigés Premières notions sur les espaces vectoriels

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Cours d analyse numérique SMI-S4

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Cercle trigonométrique et mesures d angles

Introduction. Préambule. Le contexte

Cours 7 : Utilisation de modules sous python

Correction du Baccalauréat S Amérique du Nord mai 2007

Statistique : Résumé de cours et méthodes

1S Modèles de rédaction Enoncés

STATISTIQUES. UE Modélisation pour la biologie

Mesure de la dépense énergétique

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Programmation linéaire

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

I. Polynômes de Tchebychev

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Triangles isométriques Triangles semblables

STATIQUE GRAPHIQUE ET STATIQUE ANALYTIQUE

Cours 9 : Plans à plusieurs facteurs

Évaluation de la régression bornée

Chapitre 5 : Flot maximal dans un graphe

Capes Première épreuve

Simulation de variables aléatoires

MATLAB : COMMANDES DE BASE. Note : lorsqu applicable, l équivalent en langage C est indiqué entre les délimiteurs /* */.

3 Approximation de solutions d équations

Correction de l examen de la première session

Programme de la classe de première année MPSI

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Représentation géométrique d un nombre complexe

Différentiabilité ; Fonctions de plusieurs variables réelles

Calcul intégral élémentaire en plusieurs variables

Nathalie Barbary SANSTABOO. Excel expert. Fonctions, simulations, Groupe Eyrolles, 2011, ISBN :

PHYSIQUE 2 - Épreuve écrite

Le théorème des deux fonds et la gestion indicielle

Chapitre 2. Matrices

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Probabilités sur un univers fini

aux différences est appelé équation aux différences d ordre n en forme normale.

Un K-espace vectoriel est un ensemble non vide E muni : d une loi de composition interne, c est-à-dire d une application de E E dans E : E E E

Quelles sont les principales formules utiles pour l étude de cas de vente?

Angles orientés et trigonométrie

Mécanique. 1 Forces. 1.1 Rappel. 1.2 Mesurer des forces. 3BC - AL Mécanique 1

La classification automatique de données quantitatives

Probabilités sur un univers fini

Corrigé du baccalauréat S Pondichéry 12 avril 2007

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS


Relation entre deux variables : estimation de la corrélation linéaire

Data mining 1. Exploration Statistique

Les moyens d observations en astronomie & astrophysique

Cours 02 : Problème général de la programmation linéaire

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Représentation des Nombres

Le Modèle Linéaire par l exemple :

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

NOMBRES COMPLEXES. Exercice 1 :

Angles orientés et fonctions circulaires ( En première S )

= 1 si n = m& où n et m sont souvent des indices entiers, par exemple, n, m = 0, 1, 2, 3, 4... En fait,! n m

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Chapitre 5 : Le travail d une force :

Chapitre 0 Introduction à la cinématique

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Cours IV Mise en orbite

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Théorie et codage de l information

Statistiques d ordre supérieur pour le traitement du signal

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Fonctions de plusieurs variables. Sébastien Tordeux

Chaînes de Markov au lycée

Chapitre 3. Les distributions à deux variables

Calcul différentiel. Chapitre Différentiabilité

Transcription:

105 HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES 1. Introduction En statistiques il arrive fréquemment que les individus soient décrits par un grand nombre de caractères. : voitures décrites par leur prix, leur taille, puissance, finition etc, rendement d une réaction chimique en fonction de la température, pression, concentrations, nature du catalyseur etc, propriété physique d une substance chimique en fonction de données structurales. L analyse en composantes principales permet de répondre aux questions : En ce qui concernent les variables : quelles sont celles qui sont associées, lesquelles agissent dans le même sens lesquelles s opposent? Quelles sont les variables qui expliquent efficacement l une d entre elles (par exemple quels sont les paramètres qui définissent le prix d une voiture)? En ce qui concerne les individus : quels sont ceux qui se ressemblent, quelles sont celles qui sont dissemblables?. Principe de l ACP Lorsqu il y a plus de trois variables explicatives, il n est plus possible de représenter les individus dans l espace géométrique. S il y a p variables indépendantes, chaque individu est un point dans un espace à p dimensions. Il faut donc projeter les individus dans un espace de dimension plus petite, en pratique on utilise un ou plusieurs plans de projection. Mathématiquement, une projection n est jamais une bijection, elle fait toujours perdre de l information, mais parmi toutes les projections possibles il en existe qui font perdre moins d information que d autres. Fig 41 : Information transmise par une image

106 Dans l exemple ci-dessus, suivant l angle sous lequel le photographe a pris cette photo, on peut reconnaître l animal ou non. Notons que la photo sur laquelle l animal est le plus reconnaissable est cette où il occupe le plus d espace (à facteur d agrandissement constant évidemment). Si l image est représentée par des points, la projection qui transmet le maximum d information est celle qui se caractérise par le plus grand étalement des variables x et y, en d autre termes celle qui présente les variances maximales de x et y. Dans l exemple suivant, les points semblent alignés suivant une droite dans le plan xoz. Une rotation adéquate du système de référence montre que ces points se distribuent autour d un cercle. Or un changement de référentiel revient à écrire de nouvelles variables qui sont des combinaisons linéaires des anciennes variables. Fig 4 : Perte d information lors d une projection L ACP procède exactement de cette manière, elle consiste à calculer des indices synthétiques (variables transformées) qui sont des combinaisons linéaires des variables initiales de manière à rendre leur variance maximale. L ACP recherche d abord la combinaison linéaire des variables de variance maximale. Cette nouvelle variable (ou indice) est la première composante principale, elle définit le premier axe principal, ensuite on cherche un axe orthogonal, donc une nouvelle variable n ayant aucune corrélation avec la première et qui montre également la plus grande variance possible et ainsi de suite, donc l ACP transforme un ensemble de caractères plus ou moins corrélés en un nouvel ensemble de caractères non corrélés et d importance décroissante appelés composantes principales. Mathématiquement le procédé consiste à rechercher les valeurs propres et les vecteurs propres d une matrice carrée. Pour que la transformation des coordonnées puisse s appliquer correctement, il faut que tous les caractères soient centrés. On admet implicitement que tous les x i,j sont remplacés par x i,j m j c'està-dire que l origine des axes est centré sur le barycentre des caractères.

107 3. L espace des individus Chaque individu est défini par p caractères, donc est considéré comme un vecteur (ou un point) dans un espace de dimension p (x 1,i, x,i, x 3,i, x p,i ). L ensemble des individus est représenté par une matrice n*p : x1,1 x,1 L xp,1 x1, x, xp, X L = L L L L x1,n x,n x L p,n Exemple : Caractéristique des voitures (chaque individu est une voiture) Marque prix ( ) cylindrée puissance longueur largeur poids vitesse finition A 1580 1350 79 393 161 870 165 B B 0000 1588 85 468 177 1110 160 TB C 14800 194 68 44 168 1050 15 M D 14100 1 59 41 161 930 151 M E 17450 1585 98 439 164 1105 165 B F 17740 197 8 49 169 1080 160 TB G 16150 1796 79 449 169 1160 154 B H 16000 1565 55 44 163 1010 140 B I 3800 664 18 45 173 130 180 TB J 1370 1166 55 399 157 815 140 M K 100 1570 109 48 16 1060 175 TB L 17000 1798 8 445 17 1160 158 B M 000 1998 115 469 169 1370 160 TB N 17500 1993 98 438 170 1080 167 B O 19700 144 80 431 166 119 144 TB P 14000 1769 83 440 165 1095 165 M Q 16350 1979 100 459 173 110 173 B R 11050 194 68 404 161 955 140 M Dans ce cas n=18 (nombre d individus) et p=8 (nombre de caractères). Observer que les ordres de grandeurs des caractères sont très différents et que la finition est un caractère qualitatif. Il faut donc préalablement associer une valeur numérique à la finition et centrer les caractères. Le vecteur Voiture H est la ligne correspondante (vecteur à 8 composantes), le vecteur puissance correspond à la colonne puissance, il est de dimension 18.

108 Les relations entre individus sont représentées par la matrice de variance covariance. (p*p) s 1 s1, L s 1,p s1, s s,p V L = L L L L s1,p s,p s L p De même, l ensemble des coefficients de corrélations est regroupé dans la matrice de corrélation : 1 r1, L r1,p r1, 1 r,p R L = L L L L r1,p r,p 1 L La distance entre individus se calcule habituellement par le théorème de Pytagore,, = p dik ( xji, x jk, ) (105) j= 1 Habituellement, dans un espace géométrique, toutes les coordonnées sont de même nature et exprimées dans les mêmes unités, c est une condition pour que la distance ait un sens physique. Dans le cas des caractères statistiques, chaque caractère est physiquement différent et exprimé dans des unités différentes. (pour une voiture les caractères sont le prix, la puissance, le poids, la finition ). Dans la matrice de variance covariance, un caractère exprimé par une très petite unité donnera un variance et une covariance très grande et l élément matriciel correspondant écrasera tous les autres, il faut donc diviser chaque caractère par son écart-type ce qui fournit des grandeurs sans dimension. Dans cette opération, la matrice de variance covariance est remplacée par la matrice de corrélation. C est donc sur cette matrice que nous travaillerons ultérieurement. 4. L espace des caractères n Chaque caractère est un vecteur dans un espace de dimension n (p vecteurs dans un espace ) La proximité (ou l identité) de deux caractères ne se mesure pas comme une distance mais comme un angle. Des caractères non corrélés sont orthogonaux, des caractères identiques vont dans la même direction, des caractères qui s opposent vont dans des directions contraires). L angle entre deux vecteurs V 1 et V s exprime par leur produit scalaire : rr VV s cos( θ ) = r r = = (106) j k j, k jk, rjk, Vj V ss k j k Comme les caractères sont centrés, le cosinus de l angle θ n est autre que le coefficient de corrélation entre les deux caractères.

109 5. La recherche des composantes principales La recherche des composantes principales revient à calculer les valeurs propres et les vecteurs propres de la matrice de corrélation. 1 r1, L r1,p r1, 1 r,p R L = L L L L r1,p r,p 1 L matrice des vecteurs propres Matrice des valeurs propres (diagonale) λ 1 0 O 0 λ p Fig 43 Principe de la recherche des valeurs propres d une matrice carrée Cette opération fournit deux matrices : La matrice des vecteurs propres qui sont les coefficients des combinaisons linéaires fournissant les composantes principales. La matrice des valeurs propres qui sont les variances des individus suivant les axes principaux correspondants. 6. Contribution des axes principaux à la variance totale Dans la recherche des valeurs propres, la variance totale est distribuée suivant les nouvelles variables explicatives. Cette distribution se fait proportionnellement aux valeurs propres. On peut donc estimer l importance de chaque facteur par la contribution de sa variance à la variance totale (en %). On peut ainsi choisir un nombre limité de facteurs qui expliquent par exemple 80% de la variabilité des individus. Dans l exemple des voitures on a effectué une ACP sur toutes les variables excepté le prix (note fin est une note attribuée à la variable qualitative finition): Matrice de corrélation (les corrélations des variables avec elles-mêmes sont omises) cylindrée puissance longueur largeur poids vitesse puissance 0,797 longueur 0,701 0,641 largeur 0,630 0,51 0,849 poids 0,789 0,765 0,868 0,717 vitesse 0,665 0,844 0,476 0,473 0,478 note fin 0,48 0,653 0,546 0,515 0,613 0,439

110 Il est totalement logique de trouver des corrélations élevées. En effet, une voiture longue est également large et son poids est élevé. Une grosse voiture (longue, large et lourde) est également puissante. (on ne met pas de petit moteur dans une grosse voiture), quand à la relation entre cylindrée, puissance et vitesse, elle est évidente. Analyse des valeurs et vecteurs propres de la matrice de corrélation Valeur propre 4,864 0,856 0,6193 0,379 0,171 0,0779 Proportion 0,695 0,1 0,088 0,053 0,04 0,011 Cumulatif 0,695 0,817 0,906 0,959 0,983 0,995 Valeur propre 0,038 Proportion 0,005 Cumulatif 1,000 Variable CP1 CP CP3 cylindré -0,394-0,13 0,395 puissanc -0,406-0,416-0,081 longueur -0,399 0,408 0,133 largeur -0,367 0,443 0,143 poids -0,411 0,41 0,03 vitesse -0,338-0,63 0,137 note fin -0,31 0,0-0,883 On observe que les trois premières composantes principales expliquent 90% de la variabilité des individus, il n est donc pas nécessaire d utiliser 7 variables. Cela signifie aussi que les individus sont bien représentés dans un sous-espace vectoriel de dimension 3 à condition que les axes soient bien choisis. Le tableau suivant donne les coefficients des variables initiales dans le calcul des composantes principales. Si on appelle c i,j les coefficients de la matrice des vecteurs propres, les composantes principales sont une combinaison linéaire des variables de départ avec les coefficients c i,j p CP = c x (107) i i, j j i= 1 par exemple CP1=-0,394 cylindrée -0,406 puissance -0,399 longueur etc 7. Régression en fonction des composantes principales L analyse de la matrice de corrélation montre qu il est inadéquat de calculer une régression multi linéaire du prix par rapport aux 7 autres variables explicatives. Une régression pas à pas permet d éliminer brutalement les facteurs les plus corrélés, mais on ne tient pas compte du fait qu une combinaison linéaire de variables très corrélés peut être plus significative qu un nombre limité de ces variables. L ACP permet de faire un calcul de régression sur un nombre limité de nouvelles variables (les premières composantes principales) qui sont indépendantes par construction, par contre la signification physique de ces nouvelles variables est souvent délicate à interpréter

111 ANALYSE EN COMPOSANTES PRINCIPALES CE QU IL FAUT ABSOLUMENT SAVOIR Calculer et interpréter une matrice de corrélation à l aide d un tableur ou d un logiciel statistique. Comprendre le principe et l utilité de l ACP Calculer les composantes principales à l aide d un tableur ou d un logiciel statistique et interpréter les résultats.