L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ



Documents pareils
1 Complément sur la projection du nuage des individus

Analyse en Composantes Principales

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

10 leçon 2. Leçon n 2 : Contact entre deux solides. Frottement de glissement. Exemples. (PC ou 1 er CU)

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Introduction. Préambule. Le contexte

Logistique, Transports

L'analyse des données à l usage des non mathématiciens

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Extraction d informations stratégiques par Analyse en Composantes Principales

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Introduction à l approche bootstrap

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Exprimer ce coefficient de proportionnalité sous forme de pourcentage : 3,5 %

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

Angles orientés et trigonométrie

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Programmes des classes préparatoires aux Grandes Ecoles

Algèbre binaire et Circuits logiques ( )

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

LE PROCESSUS ( la machine) la fonction f. ( On lit : «fonction f qui à x associe f (x)» )

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

La classification automatique de données quantitatives

Statistiques Descriptives à une dimension

Chapitre 3. Les distributions à deux variables

Planche n o 22. Fonctions de plusieurs variables. Corrigé

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours.

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

TOUT CE QU IL FAUT SAVOIR POUR LE BREVET

Cours d Analyse. Fonctions de plusieurs variables

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Statistique Descriptive Élémentaire

aux différences est appelé équation aux différences d ordre n en forme normale.

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 6. Fonction réelle d une variable réelle

Relation entre deux variables : estimation de la corrélation linéaire

Représentation géométrique d un nombre complexe

Comparaison de fonctions Développements limités. Chapitre 10

Programmation linéaire

ACP Voitures 1- Méthode


Continuité et dérivabilité d une fonction

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Fonctions de plusieurs variables

1S Modèles de rédaction Enoncés

Problème 1 : applications du plan affine

Régression linéaire. Nicolas Turenne INRA

Chapitre 3 : INFERENCE

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

INF6304 Interfaces Intelligentes

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Séries Statistiques Simples

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Chapitre 5 : Le travail d une force :

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Cours 02 : Problème général de la programmation linéaire

Exercice : la frontière des portefeuilles optimaux sans actif certain

Statistique : Résumé de cours et méthodes

STATISTIQUES. UE Modélisation pour la biologie

Data mining 1. Exploration Statistique

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Fonctions homographiques

1 radian. De même, la longueur d un arc de cercle de rayon R et dont l angle au centre a pour mesure α radians est α R. R AB =R.

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Quelques éléments de statistique multidimensionnelle

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Initiation à l analyse en composantes principales

Évaluation de la régression bornée

Programmation linéaire

Exercices Corrigés Premières notions sur les espaces vectoriels

3 Approximation de solutions d équations

Logiciel XLSTAT version rue Damrémont PARIS

Chapitre 2 Les ondes progressives périodiques

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

Correction du Baccalauréat S Amérique du Nord mai 2007

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Optimisation, traitement d image et éclipse de Soleil

LE PRODUIT SCALAIRE ( En première S )

Aide-mémoire de statistique appliquée à la biologie

Exercices - Nombres complexes : corrigé. Formes algébriques et trigonométriques, module et argument

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Le Modèle Linéaire par l exemple :

Simulation de variables aléatoires

I. Polynômes de Tchebychev

Oscillations libres des systèmes à deux degrés de liberté

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Mesure d angles et trigonométrie

SERIE 1 Statistique descriptive - Graphiques

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Département de Génie Civil

Fonction quadratique et trajectoire

Développements limités, équivalents et calculs de limites

Traitement des données avec Microsoft EXCEL 2010

Cours de résistance des matériaux

Transcription:

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et les ressemblances entre individus. Résultats : Visualisation des individus (Notion de distances entre individus) Visualisation des variables (en fonction de leurs corrélations)

INTERPRÉTATION DES RÉSULTATS Mesurer la qualité des représentations obtenues : critère global critères individuels «Donner des noms au aes» Epliquer la position des individus Utilisation éventuelle de variables supplémentaires (illustratives) 3

I. L ANALYSE EN COMPOSANTES PRINCIPALES LE PROBLÈME. LES DONNÉES p variables quantitatives observées sur n individus. X X X j X p j p j p X (n,p) n i i j i p individu e' i n n j Variable X j p n p INDIVIDU = Élément de R p VARIABLE = Élément de R n 4

On cherche à représenter le nuage des individus. A chaque individu noté e i, on peut associer un point dans R p = espace des individus. A chaque variable du tableau X est associé un ae de R p. X 3 i 3 e i Impossible à visualiser dès que p > 3. i X i X 5

. PRINCIPE DE L A.C.P. On cherche une représentation des n individus, dans un sous-espace F k de R p de dimension k ( k petit, 3 ; par eemple un plan) Autrement dit, on cherche à définir k nouvelles variables combinaisons linéaires des p variables initiales qui feront perdre le moins d information possible. Ces variables seront appelées «composantes principales», les aes qu elles déterminent : «aes principau» les formes linéaires associées : «facteurs principau» 6

X X ae ON VISUALISE ae X i ae 3 F 3 R p aes principau 7

«Perdre le moins d information possible» F k devra être «ajusté» le mieu possible au nuage des individus: la somme des carrés des distances des individus à F k doit être minimale. F k est le sous-espace tel que le nuage projeté ait une inertie (dispersion) maimale. et sont basées sur les notions de : distance projection orthogonale 8

e i e j β j β i Δ f i f j α i α j Δ La distance entre f i et f j est inférieure ou égale à celle entre e i et e j 9

3. LE CHOIX DE LA DISTANCE ENTRE INDIVIDUS y B y A A B Dans le plan: (, ) = ( ) + ( ) d A B y y B A B A A B Dans l espace R p à p dimensions, on généralise cette notion : la distance euclidienne entre deu individus s écrit: e ( p... ) ( p e ) j = j j... j i = i i i p p ( i, j) = ( i j) + ( i j) +... ( i j ) d e e p k ( i, j) = ( k i j ) d e e Le problème des unités? k= 0

Pour résoudre ce problème, on choisit de transformer les données en données centrées-réduites. i k L observation est alors remplacée par : UNITÉS D ÉCART TYPE: Eemple : k = k i s où : moyenne de la variable X k s k = écart-type de la variable X k Puissance moyenne de 30 voitures = 9 ch Ecart-type = 4 ch La Renault TXI a une puissance de 40 ch La Renault TXI a une puissance de : 40 9 4 écarts-type au-dessus de la moyenne. k = k

4. INERTIE TOTALE I g = n d n i = ( e g) i, ou de façon plus générale n g = i i i= ( ) I p d e,g avec n i= p = i L inertie est la somme pondérée des carrés des distances des individus au centre de gravité g L inertie mesure la dispersion totale du nuage de points.

L inertie est donc aussi égale à la somme des variances des variables étudiées. En notant V la matrice de variances-covariances : V = s... s p Remarque s s... s p... s p I g I = g = p s i i= ( ) Tr V Dans le cas où les variables sont centrées réduites, la variance de chaque variable vaut. L inertie totale est alors égale à p (nombre de variables). 3

Équivalence des deu critères concernant la perte d information e i Projection orthogonale du nuage sur un sous-espace F g f i Soit F un sous-ensemble de R p f i e i la projection orthogonale de sur F i i i i e g = e f + f g i=... n 4

On va chercher F tel que : n p e f i= i i i soit minimal ce qui revient d après le théorème de Pythagore à maimiser : n i= pi f i g 5

i i i i e g = e f + f g i=... n Donc : pi ei g pi ei fi = pi fi g = = = i n i n Inertie totale minimiser cette quantité (carrés des distances entre points individus et leurs projections) i n maimiser l inertie du nuage projeté 6

II. LA SOLUTION DU PROBLÈME POSÉ La recherche d aes portant le maimum d inertie équivaut à la construction de nouvelles variables (auquelles sont associés ces aes) de variance maimale. En d autres termes, on effectue un changement de repère dans R p de façon à se placer dans un nouveau système de représentation où le premier ae apporte le plus possible de l inertie totale du nuage, le deuième ae le plus possible de l inertie non prise en compte par le premier ae, et ainsi de suite. Cette réorganisation s appuie sur la diagonalisation de la matrice de variances-covariances. 7

. SOLUTION Aes principau On appelle aes principau d inertie les aes de direction les vecteurs propres de V normés à. Il y en a p. Le premier ae est celui associé à la plus grande valeur propre. On le note u Le deuième ae est celui associé à la deuième valeur propre. On le note u... 8

Composantes principales À chaque ae est associée une variable appelée composante principale. La composante c est le vecteur renfermant les cordonnées des projections des individus sur l ae. La composante c est le vecteur renfermant les cordonnées des projections des individus sur l ae. Pour obtenir ces coordonnées, on écrit que chaque composante principale est une combinaison linéaire des variables initiales. Eemple p c = u + u +... u p 9

. PROPRIÉTÉS DES COMPOSANTES PRINCIPALES La variance d une composante principale est égale à l inertie portée par l ae principal qui lui est associé. ère composante c variance : ème composante c variance : 3 ème composante c 3 variance : λ λ λ 3 Les composantes principales sont non corrélées deu à deu. En effet, les aes associés sont orthogonau. 0

3. REPRÉSENTATION DES INDIVIDUS j c j c La j ème j composante principale c = fournit les j c coordonnées des n individus sur le j ème n ae principal.... Si on désire une représentation plane des individus, la meilleure sera celle réalisée grâce au deu premières composantes principales.

e i c i g c i e j Attention à la qualité de représentation de chaque individu!

4. REPRÉSENTATION DES VARIABLES Les «proimités» entre les composantes principales et les variables initiales sont mesurées par les covariances, et surtout les corrélations. ( j i) rc, c j i est le coefficient de corrélation linéaire entre et c (, i ) r c i r ( c, i ) c CERCLE DES CORRÉLATIONS 3

5. INTERPRETATION DES «PROXIMITÉS» ENTRE VARIABLES On utilise un produit scalaire entre variables permettant d associer au paramètres courants : écart-type, coefficient de corrélation linéaire des représentations géométriques., n i j i j = k k n k = On suppose les variables centrées. 4

( ) i j i j, = Cov,, n i i i ( i ) = = k n k= i = s Variance de i i i = s i Écart-type de i 5

Coefficient de corrélation linéaire i j ( i j) (, Cov X,X ) ( ) i j i j Cos X,X = r X,X i j X X = s s = i j Le cosinus de l angle formé par les variables X i et X j est le coefficient de corrélation linéaire de ces deu variables 6

X et X ont une corrélation proche de. X 3 X X et X 3 ont une corrélation proche de 0. X 6 X 5 X X 4 CERCLE DES CORRÉLATIONS 7

III. VALIDITÉ DES REPRÉSENTATIONS. CRITÈRE GLOBAL λ i λ + λ +... λ Eemple : p mesure la part d inertie epliquée par l ae i. λ + λ p λ i i= est la part d inertie epliquée par le premier plan principal. Ce critère (souvent eprimé en pourcentage) mesure le degré de reconstitution des carrés des distances. La réduction de dimension est d autant plus forte que les variables de départ sont plus corrélées. 8

Combien d aes? Différentes procédures sont complémentaires: Pourcentage d inertie souhaité : a priori Diviser l inertie totale par le nombre de variables initiales inertie moyenne par variable : I.M. Conserver tous les aes apportant une inertie supérieure à cette valeur I.M. (inertie > si variables centrées réduites). Histogramme....... Conserver les aes associés au valeurs propres situées avant la cassure. 4 3 λ λ λ 3 = 4,5 = 3,8 =,9 λ λ λ 3 λ 4 λ 5 λ 6 λ 7 cassure 9

. CRITÈRES INDIVIDUELS Cosinus carrés e i ae θ θ θ f i y ae cos θ= cos θ + cos θ 30

Pour chaque individu, la qualité de sa représentation est définie par le carré du cosinus de l angle entre l ae de projection et le vecteur e i. Plus la valeur est proche de, meilleure est la qualité de représentation En général, les qualités de représentation sont données ae par ae. Pour avoir la qualité de représentation dans un plan, on additionne les critères correspondant au aes étudiés. Ce critère n a pas de signification pour les individus proches de l origine. Quand on détecte un individu pour lequel le cosinus carré est faible, on doit tenir compte de sa distance à l origine avant d indiquer qu il est mal représenté 3

Contributions Il est très utile aussi de calculer pour chaque ae la contribution apportée par les divers individus à cet ae. Considérons la k ième composante principale, soit la valeur de la composante pour le i ème individu. n ( ) n c k i =λ i= k c k c i k La contribution de l individu e i à la composante n k est définie par n ( c k ) i λ k 3

Remarque : Il n est pas souhaitable qu un individu ait une contribution ecessive (car facteur d instabilité) éliminer les individus dont la contribution est trop importante. Problème des enquêtes par sondage 33

3. REPRÉSENTATION DES VARIABLES Le cercle des corrélations est la projection du nuage des variables sur le plan des composantes principales. c corrélation = cosinus c Les variables bien représentées sont celles qui sont proches du cercle, celles qui sont proches de l origine sont mal représentées. 34

4. INTERPRÉTATION EXTERNE : VARIABLES ET INDIVIDUS SUPPLÉMENTAIRES (ILLUSTRATIFS) 4. Variables Variable quantitative: On calcule le coefficient de corrélation entre la variable supplémentaire et les composantes principales. Ceci permet sa représentation sur le cercle des corrélations. 35

Variable qualitative Identification des individus de chaque catégorie de la variable Représentation de chaque catégorie par son centre de gravité. Calcul du rapport de corrélation entre la variable qualitative supplémentaire et chaque composante principale (test de Fischer-Snedecor) ou valeur-test dans SPAD. 36

Individus Individu de poids nul ne participant pas à l analyse (fichier test). Appliquer au coordonnées de l individu les epressions définissant les composantes principales. 37