Introduction sur l analyse en composantes principales (ACP)



Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

1 Complément sur la projection du nuage des individus

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

23. Interprétation clinique des mesures de l effet traitement

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Analyse en Composantes Principales

Logiciel XLSTAT version rue Damrémont PARIS

F411 - Courbes Paramétrées, Polaires

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

L'analyse des données à l usage des non mathématiciens

Extraction d informations stratégiques par Analyse en Composantes Principales

La classification automatique de données quantitatives

Relation entre deux variables : estimation de la corrélation linéaire

Optimisation, traitement d image et éclipse de Soleil

Fonctions de plusieurs variables

Comment tracer une droite représentative d'une fonction et méthode de calcul de l'équation d'une droite.

Module 16 : Les fonctions de recherche et de référence

Continuité et dérivabilité d une fonction

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Nom : Groupe : Date : 1. Quels sont les deux types de dessins les plus utilisés en technologie?

CHAPITRE IV Oscillations libres des systèmes à plusieurs degrés de liberté

Traitement des données avec Microsoft EXCEL 2010

Cours 02 : Problème général de la programmation linéaire

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Correction du Baccalauréat S Amérique du Nord mai 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Introduction à MATLAB R

Créer son questionnaire en ligne avec Google Documents

Exercice 3 (5 points) A(x) = 1-e -0039' e- 0,039x A '() -'-,..--,-,--,------:-- X = (l_e-0,039x)2

ACP Voitures 1- Méthode

avec des nombres entiers

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

3. Caractéristiques et fonctions d une v.a.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Baccalauréat L spécialité, Métropole et Réunion, 19 juin 2009 Corrigé.

La fonction exponentielle

Statistique Descriptive Multidimensionnelle. (pour les nuls)

manuellement. Le prototype ayant obtenu des résultats satisfaisants aux différents essais de labour est validé sur le plan suivant :

Définition 0,752 = 0,7 + 0,05 + 0,002 SYSTÈMES DE NUMÉRATION POSITIONNELS =

Plan. 1. La planification d un d 2. Méthodes et techniques de planification 3. Conclusion. D. Leclet

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Exercices Corrigés Premières notions sur les espaces vectoriels

Baccalauréat ES Amérique du Nord 4 juin 2008

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Les équations différentielles

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Travaux pratiques avec RapidMiner

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

CONSTRUCTION DES PROJECTIONS TYPES DE PROJECTION. Projection => distorsions. Orientations des projections

GUIDE PRATIQUE DE L INDEXEUR : LES PRINCIPES DE L INDEXATION COLLABORATIVE

Calculs de probabilités avec la loi normale

Aide-mémoire de statistique appliquée à la biologie

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Cours d Analyse. Fonctions de plusieurs variables

Complément d information concernant la fiche de concordance

Introduction à l approche bootstrap

Feuille d exercices 2 : Espaces probabilisés

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Statistique Descriptive Élémentaire

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

COMPTE-RENDU «MATHS EN JEANS» LYCEE OZENNE Groupe 1 : Comment faire une carte juste de la Terre?

Fonctions de deux variables. Mai 2011

Plan. 5 Actualisation. 7 Investissement. 2 Calcul du taux d intérêt 3 Taux équivalent 4 Placement à versements fixes.

Petit lexique de calcul à l usage des élèves de sixième et de cinquième par M. PARCABE, professeur au collège Alain FOURNIER de BORDEAUX, mars 2007

Lecture graphique. Table des matières

TOUT CE QU IL FAUT SAVOIR POUR LE BREVET

Représentation des Nombres

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Angles orientés et trigonométrie

SIG ET ANALYSE EXPLORATOIRE

Coefficients binomiaux

SPHINX Logiciel de dépouillement d enquêtes

FORMULAIRE DE STATISTIQUES

SYSTEMES LINEAIRES DU PREMIER ORDRE

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

Cours de méthodes de scoring

Activité 11 : Nuage de points ou diagramme de dispersion

TP 7 : oscillateur de torsion

Programmes des classes préparatoires aux Grandes Ecoles

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

Chapitre 3. Les distributions à deux variables

Mais comment on fait pour...

NOTICE DOUBLE DIPLÔME

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

IMAGES NUMÉRIQUES MATRICIELLES EN SCILAB

1 Définition. 2 Systèmes matériels et solides. 3 Les actions mécaniques. Le système matériel : Il peut être un ensemble.un sous-ensemble..

FIMA, 7 juillet 2005


Chapitre 11. Séries de Fourier. Nous supposons connues les formules donnant les coefficients de Fourier d une fonction 2 - périodique :

Transcription:

Introduction sur l analyse en composantes principales (CP) ) Introduction sur un exemple à 2 dimensions On veut représenter graphiquement les profils d élèves qui ont été notés sur 2 matières (Français et maths). Chaque élève est représenté par un point ayant pour coordonnées chacune des deux notes. Elève Maths Français 10 10 B, 15 13 C 8 8 D 9 9 E 19 16 F 2 4 14 12 H 5 6 I 4 5 J 8 8 K 2 4 L 1 3 On cherche un axe sur lequel projeter les données en perdant le moins d information possible Cas 1 Notes de français et de maths sont très corrélées positivement. Si on projette les points sur l axe oblique, on perd très peu d'information: les «candidats bons en tout» sont sur la droite de l'axe, les «mauvais en tout» sur la gauche xe de projection des données Elève Maths Français 10 8 B, 15 5 C 8 9 D 9 8 E 19 3 F 2 12 14 6 H 5 10 I 4 11 J 8 9 K 2 12 L 1 12 Cas 2 Notes de français et de maths sont très corrélées mais la corrélation est négative.si on projette sur l'axe on aura à droite : des matheux (bons en maths et mauvais en français); sur la gauche des "littéraires" (bons en français et mauvais en maths. Là encore on perd très peu d informations car l axe de projection conserve la quasi-totalité de la variance du nuage de points.

Elève Maths Français MaCR FrCR 4 12-0,717 1,110 B, 15 15 1,214 2,135 C 8 4-0,015-1,623 D 9 3 0,161-1,964 E 19 8 1,916-0,256 F 2 7-1,068-0,598 14 6 1,039-0,939 H 5 14-0,541 1,794 I 4 5-0,717-1,281 J 8 7-0,015-0,598 K 2 9-1,068 0,085 L 1 8-1,244-0,256 Moyenne 7,583 8,167-0,088-0,199 écart type 5,775 3,786 1,014 1,293 Cas 3 Les notes de français et de maths sont très peu corrélées.la projection sur l'axe (dont le tracé n'a rien d'évident) fait perdre beaucoup d'information. Sur la droite, on peut avoir des points correspondant à des profils très différents (les élèves et ne seront pas très éloignés). Dans les deux premiers cas en projetant sur un axe, on aura une bonne représentation des données. Dit en d autre termes, la projection sur 1 axe explique la majeure partie de la variance des données. Dans le cas 3, la projection sur l axe ne fournit pas une bonne représentation des données ; elle n explique qu une faible part de la variance totale. En conclusion, selon que les variables sont plus ou moins corrélées, la réduction de 2 dimensions à une, que l on opère en projetant sur un axe fait perdre plus ou moins d information, et fournit donc une représentation plus ou moins précise des individus.

B) énéralisation à n dimensions un examen, les élèves sont notés sur n matières ; le profil de chaque élève peut donc être représenté par un point dans un espace à n dimensions. Mais il est difficile de visualiser les choses dans un espace de plus de 3 dimensions. On va donc par des projections se ramener à un espace à deux dimensions (représentation dans un plan). Ces axes de projection vont être choisis de façon à ce que la perte d information soit minimale. Ce qui en intéresse en CP, ce ne sont pas les valeurs absolues des variables (ici les notes) mais les différences relatives entre les individus. On va donc projeter sur les axes non pas les variables elles-mêmes mais les variables centrées réduites (en retranchant la moyenne et en divisant par l écart-type). utrement dit, on neutralise ainsi les différences dans les échelles de notation qu il peut y avoir entre les disciplines. Un raisonnement mathématique qui dépasse le cadre de cette courte note montre que les axes de projection permettant de conserver le maximum d information sont obtenus par les coordonnées des vecteurs propres de la matrice des coefficients de corrélation entre les variables. Les valeurs propres associés à ces vecteurs propres permettent de mesurer la part de variance expliquée par chaque axe. Premier exemple avec 4 variables Elève Maths Français H et e Physique 10 5 8 10 B, 15 4 4 14 C 8 9 4 8 D 9 15 12 9 E 19 12 13 18 F 2 8 15 3 14 10 14 14 H 5 8 6 6 I 4 3 7 5 J 8 12 3 8 K 2 4 2 3 L 1 3 4 4 Les données font ressortir cette fois une forte corrélation positive entre maths et physique, une corrélation positive moyenne entre français et histoire et géographie, assez faible entre les autres disciplines Le traitement de ce tableau peut être fait sous XLSTT (logiciel téléchargeable gratuit en version démo) qui permet d appliquer sur EXCEL les méthodes d analyse des données (CP, FC) ou sur certains logiciels de traitement d enquête (ici Sphinx). Résultats obtenus Variables Maths Français H et e Physique Maths 1 0,432 0,340 0,993 Français 0,432 1 0,488 0,405 H et e 0,340 0,488 1 0,350 Physique 0,993 0,405 0,350 1 (ce tableau n est autre que celui des coefficients de corrélation des variables prises 2 par 2). Valeurs propres : F1 F2 F3 F4 Total Valeur propre 2,546 0,941 0,507 0,006 4 En (%) 63,660 23,514 12,678 0,148 100 % cumulé 63,660 87,174 99,852 100,000

Ce tableau signifie que le premier axe (F1) permet d expliquer 63,66% de la variance totale du nuage de points, que le second axe (F2) permet d expliquer 23,51% de la variance totale. En projetant donc chaque individu sur un plan F1 F2, on conserve donc 63,66+23,51 soit 87,17% de la variance totale (on a donc une bonne qualité de représentation). Variables (axes F1 et F2 : 87,17 %) 1 0,75 0,5 H et e Français F2 (23,51 %) 0,25 0-0,25-0,5 Physique Maths -0,75-1 -1-0,75-0,5-0,25 0 0,25 0,5 0,75 1 F1 (63,66 %) Ce graphique donne la représentation des variables dans le plan. Les points «physique et maths» sont très proches car les 2 variables sont très corrélées. Ces deux points sont très proches du cercle ce qui signifie que les 2 variables (maths et physiques sont très bien représentées). Les points histoire et géo et français (sont proches) : corrélation positive entre les matières (un peu plus éloignés du cercle) donc moins bien représentées. Sur le premier axe (axe horizontal qui contient 63% de l information) les 4 variables ont des coordonnées positives. Ce premier axe est donc représentatif du niveau des élèves (les bons à droite, les mauvais à gauche). Sur le second axe (axe vertical qui contient 23% de l information) s opposent plutôt les littéraires (en haut) et les scientifiques (en bas)

Sur Sphinx, on obtient les représentations suivantes nalyse en composantes principales Variables :Maths, Français, H et e, Physique. H et e F Français D K L I H C J B, Physique Maths La position des candidats sur le cercle permet d interpréter facilement leur profil et ce d autant qu ils sont plus proches du cercle : E (complétement à droite hors du cercle) tête de classe surtout pour les maths et la physique). (moins bon que E en maths physique) mais un peu plus littéraire (positif sur l axe 2) à l opposé K et L mauvais en tout B bon en sciences mais pas du tout littéraire à l inverse de D. La carte montre les positions des 4 critères et les coordonnées des 12 observations. 87.16% de la variance est expliquée par les deux axes représentés. Chaque observation est représentée par un point. Variables :Maths, Français, H et e, Physique. xe 1 (+63.65%) xe 2 (+23.51%) CONTRIBUTIONS POSITIVES Maths +32,0% Physique +32,0% H et e +41,0% Français +24,0% CONTRIBUTIONS NETIVES Physique -17,0% Maths -16,0% Ce tableau donne, pour les composantes les plus importantes de l axe, les contributions relatives (positives et négatives) des critères. Le contributions des variables sur l axe 2 (positives pour Français et Hist et géo) et négatives (maths physique) confirme que cet axe oppose littéraires et scientifiques. Remarque : Projeter un point sur un axe revient à affecter à un élève ayant obtenu les notes x y z et t une note unique K = ax +by+cz + dt les valeurs de a b c et d étant déterminées par l CP.

utrement dit, cela revient à affecter des coefficients aux notes ; ces coefficients au lieu d être fixés a priori (comme à l examen) sont déterminés à l CP de façon à représenter aux mieux les différences entre les candidats. Deuxième exemple à 4 dimensions Les notes ont été cette fois générées de façon aléatoire (fonction ENT(LE()*20) On n a donc aucune raison cette fois d observer des profils particuliers. Effectivement, le traitement sous SPHINX nous donne la représentations suivante : Elève Maths Français H et e Physique 19 4 7 0 B, 15 16 17 9 C 6 3 2 18 D 9 3 16 16 E 2 18 3 5 F 6 17 0 7 0 19 19 4 H 19 4 15 11 I 8 2 2 13 J 7 5 4 6 K 18 18 10 19 L 7 19 0 11 nalyse en composantes principales Variables :Maths, Français, H et e, Physique. xe 2 (27.50%) B, H et e Français Maths K E xe 1 (36.68%) D F L J Physique I C L éloignement des variables du cercle des corrélations montre que les variables sont plutôt mal représentées. La variance totale expliquée (64%) est relativement faible si on considère qu on se ramène de 4 à 2 dimensions. La position des points sur les axes ne permet aucune conclusion particulière. L application de cette méthode à des résultats réels d examens peut permettre de rechercher en quoi les épreuves auxquels les candidats sont soumis permettent de les

différencier, de repérer certains profils d élèves, de voir quelles sont les épreuves réellement significatives. Les résultats seront d autant plus probants que l analyse portera sur des centaines (ou des milliers) de candidats, notés sur cinq à dix épreuves, et que l on se ramènera à 2 dimensions.