Analyse des données et Data Mining



Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

1 Complément sur la projection du nuage des individus

Statistique Descriptive Multidimensionnelle. (pour les nuls)

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Analyse en Composantes Principales

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Extraction d informations stratégiques par Analyse en Composantes Principales

Introduction. Préambule. Le contexte

L'analyse des données à l usage des non mathématiciens

La classification automatique de données quantitatives

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Initiation à l analyse en composantes principales

Data mining 1. Exploration Statistique

Chapitre 3. Les distributions à deux variables

Exercice : la frontière des portefeuilles optimaux sans actif certain

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

MAP 553 Apprentissage statistique

Introduction à l approche bootstrap

Logiciel XLSTAT version rue Damrémont PARIS

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Individus et informations supplémentaires

Aide-mémoire de statistique appliquée à la biologie

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Exercices Corrigés Premières notions sur les espaces vectoriels

Relation entre deux variables : estimation de la corrélation linéaire

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Programmes des classes préparatoires aux Grandes Ecoles

de calibration Master 2: Calibration de modèles: présentation et simulation d

ACP Voitures 1- Méthode

INF6304 Interfaces Intelligentes

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Quelques éléments de statistique multidimensionnelle

Analyse des correspondances avec colonne de référence

Statistique Descriptive Élémentaire

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Mémo d utilisation de ADE-4

Avant-après, amont-aval : les couples de tableaux totalement appariés

Introduction au Data-Mining


Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Apprentissage Automatique

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Théorie et codage de l information

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

FORMULAIRE DE STATISTIQUES

Cours 7 : Utilisation de modules sous python

NOTATIONS PRÉLIMINAIRES

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Introduction au Data-Mining

Cours d analyse numérique SMI-S4

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Table des matières. I Mise à niveau 11. Préface

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Le Modèle Linéaire par l exemple :

Programmation linéaire et Optimisation. Didier Smets

3 Approximation de solutions d équations

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Scénario: Données bancaires et segmentation de clientèle

SAS de base : gestion des données et procédures élémentaires

Cours de méthodes de scoring

Plan du cours : électricité 1

Cours d Analyse. Fonctions de plusieurs variables

Modèles pour données répétées

Filtrage stochastique non linéaire par la théorie de représentation des martingales

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

Ricco.Rakotomalala

STATISTIQUES. UE Modélisation pour la biologie

LES DÉTERMINANTS DE MATRICES

Leçon N 4 : Statistiques à deux variables

TABLE DES MATIERES. C Exercices complémentaires 42

I. Polynômes de Tchebychev

Cours de Mécanique du point matériel

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Correction de l examen de la première session

Évaluation de la régression bornée

Statistiques Descriptives à une dimension

Cours de mathématiques

EVALUATION DE LA SANTÉ FINANCIÈRE D UNE MUNICIPALITÉ VIA UNE APPROCHE STATISTIQUE MULTIVARIÉE.

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Théorie des sondages : cours 5

Calcul différentiel sur R n Première partie

Biostatistiques : Petits effectifs

Structure financière et performance économique des PME : Étude empirique sur les entreprises belges

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Calcul intégral élémentaire en plusieurs variables

Fonctions de plusieurs variables

Calcul Formel et Numérique, Partie I

Corrigé Problème. Partie I. I-A : Le sens direct et le cas n= 2

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Calcul différentiel. Chapitre Différentiabilité

Enjeux mathématiques et Statistiques du Big Data

Résolution de systèmes linéaires par des méthodes directes

Transcription:

Analyse des données et Data Mining Analyse en composantes principales utc sy09 1

Objectif des méthodes factorielles Visualiser, traiter des données multidimensionnelles Problème difficile Information apportée par ces variables souvent redondante Exploiter cette redondance pour remplacer les variables initiales par un nombre réduit de nouvelles variables sans perdre trop d information Remplacer plusieurs variables par une seule : démarche habituelle : Moyenne àl école QI répartition des hommes politiques sur l axe droite-gauche Mieux à faire : conserver un aspect multidimensionnel Psychologues américains (Spearman, Burt, Thurstone) Données : résultats à des tests psychologiques Objectif ; facteur général d aptitude + facteurs spécifiques (mémoire, intelligence,...) utc sy09 2

Exemple de l analyse en composantes principales Variables quantitatives Nouvelles variables = combinaisons linéaires des variables initiales Non corrélées Géométriquement : chercher les droites, les plans et de manière plus générale les variétés linéaires proches du nuage des individus K. Pearson (1900) : 2 variables H. Hotelling (1933) : plus de 2 variables de variables. Référence récente : Jackson (1991) utc sy09 3

Les différentes méthodes factorielles Dépendent de la forme des données Mêmes bases mathématiques Différent de «factor analysis» Anglo-saxons Statistiques inférentielles s appuyant sur un modèle statistique Assez peu utilisées en France ACP : tableaux de variables quantitatives AFC : tableaux de contingence ACM : tableaux de variables qualitatives AFTD : tableaux de proximités AFD : Variable à discriminer utc sy09 4

Les données X tableau individus, variables quantitatives Nuage N(Ω) de R p muni de la métrique euclidienne X centré en colonne Matriciellement : X = Y 1 n Y si Y est la matrice initiale utc sy09 5

Formulation du problème Représentation fidèle du nuage des individus dans un espace plus simple : Espaces choisis : Droite, plan,... Espace affine de dimension de petite dimension Il faut fixer la dimension k<p Il existe des extensions à d autres types d espaces Type de représentation : Projection orthogonale Fidélité : Minimisation des «écarts» entre les points du nuage et leurs projections Minimisation de l inertie par rapport à l espace affine utc sy09 6

Formulation mathématique Pb1 : Trouver le sous-espace affine E k de dimension k tel que I Ek Théorème de Huygens : E k g g =0 E k sous-espace vectoriel De plus I Ek + I E k = I = cste Pb2 : Trouver le sous-espace vectoriel E k t.q. I E k soit maximum k = 1 : droite des moindres carrés ACP : régression orthogonale Différent de la droite de régression de y par rapport à x Différent de la droite de régression de x par rapport à y soit minimum utc sy09 7

Résolution du problème : axes factoriels Décomposition spectrale de la matrice de variance S = 1 n XX S sym. 0 diagonalisable, valeurs propres 0, vecteurs propres λ 1... λ p valeurs propres ordonnées u 1,...,u p les vecteurs propres normés correspondant : base orthonormée Solution : les propriétés spectrales permettent de montrer que les sous-espaces recherchés sont définis de la façon suivante : E 1 = u 1 ; E 2 = E 1 u 2... E k = E k 1 u k En outre : I u k = λ k u k : axe factoriel (ou axe principal d inertie) utc sy09 8

Résultats pratiques La recherche des sous-espaces E k est donc obtenue de la façon suivante : Diagonaliser S Ordonner les vecteurs propres dans l ordre décroissant des valeurs propres Normaliser des vecteurs propres Notations matricielles : Matrice des vecteurs propres U =(u 1,...,u p ) Matrice diagonale des valeurs propres L =diag(λ 1,...,λ p ) Remarque : UU = I U SU = L SU = UL utc sy09 9

Inerties expliquées On a I u k = λ k E k = u 1... u k et u k orthogonaux D où I E k = λ 1 +...+ λ k Remarques pour k = p : on retrouve I = trace(s) Si r est le rang de la matrice X(r min(p, n)) : λ 1,...,λ r > 0 et λ r+1,...,λ p =0 On a donc I E r = I : le nuage est donc dans E r utc sy09 10

Choix du nombre k d axes à retenir Avec le pourcentage d inertie pourcentage d inertie expliquée par E 1 = 100 λ 1 p α=1 λ = 100 λ 1 ; α trace(s) pourcentage d inertie expliquée par E 2 = 100 (λ 1+λ 2 ) p α=1 λ α... ; = 100 (λ 1+λ 2 ) trace(s) ; pourcentage d inertie expliquée par E k = 100 (λ 1+λ 2 +...λ k ) p α=1 λ α = 100 (λ 1+λ 2 +...λ k ) trace(s) Méthode graphique du «coude» Utilisation de tests : par exemple H 0 : λ k+1 =... = λ p utc sy09 11

Composantes Principales Définition Pb initial : représenter les individus dans un espace de petite dimension E k Comment obtenir cette représentation? Coordonnées d un individu i sur E k : c 1 i...,cα i,...,ck i où cα i est la position de i sur l axe α Composantes principales : c α =(c α 1,...,c α n) Pour tracer le plan factoriel (α, β), il suffit de calculer c α et c β Pour α>r,onac α = 0 (inertie expliquée nulle) i Ω (cα i )2 Expression des valeurs propres λ α = I uα = 1 n Calcul des composantes principales : projection des x i sur les vecteurs de base c α i =< x i, u α >= x iu α ou encore c α = Xu α Matriciellement si C =(c1,...,c p ): C = XU utc sy09 12

Composantes principales : nouvelles variables c α associe à chaque individu une valeur réelle : nouvelle variable Propriétes combinaisons linéaires des variables x j centrées, de variance λ α et non corrélées Vecteurs propres de 1 n XX, matrice des produits scalaires avec les valeurs propres λ α Autre interprétation de l ACP : Trouver k nouvelles variables, combinaisons linéaires normées ( u α =1)desp variables centrées initiales, non corrélées deux à deux et de variance maximum Solution : vecteurs propres normées de la matrice 1 n XX : c α Diagonaliser XX ou X X? utc sy09 13

Formule de reconstitution p r X = CU ou X = = c α u α = c α u α α=1 α=1 Décomposition de la matrice X en une somme de matrices de rang 1 «Reconstitution» de X avec les composantes principales et les axes factoriels Approximation : X X = k c α u α = CŨ. α=1 Relation quelquefois utilisée pour compresser les données utc sy09 14

Qualité delareprésentation Qualité globale : pourcentage d inertie pris en compte par E k λ 1 +...+ λ k trace(s).100 Contribution d un axe à un individu : proportion de l inertie de l individu conservée sur l axe Inertie de l individu : 1 n x i 2 (I = p i=1 1 n x i 2 ) Inertie de l individu sur l axe : 1 n (ci α) 2 Contribution COR(i, α) = (cα i )2 x i 2 Carré du cosinus de l angle (x i, u α ) Varie de 1 (i bien représenté) à0(i mal représenté) Généralisation : contribution relative de E k k k α=1 QLT (i, k) = (cα i )2 x i 2 = COR(i, α) utc sy09 15 i=1

Qualité de la représentation (suite) Contribution d un individu à un axe: proportion d inertie de l axe apportée par un individu Inertie de l axe Contribution I uα = λ α = 1 n CTR(i, α) = n (c α i ) 2 i=1 1 n (cα i )2 λ α utc sy09 16

Représentation des variables Objectif : visualiser les corrélations x j, x j et les corrélations c α, x j Représentation des variables normées ( cercle des corrélations) : les corrélations x j, x j seront visualisées par les cosinus Les composantes principales normées v α = 1 λα c α forment une base orthonormée de l espace vectoriel engendré par les variables initiales Dans cette base : les coordonnées des variables normées sur les axes sont les corrélations c α, x j Calcul des coordonnées : d j α = cor(x j, c α ) ou encore D = D 1 σ UL1 2 Qualité de représentation : dépend de la position des projections par rapport au cercle de corrélations utc sy09 17

Les éléments supplémentaires (ou illustratifs) Représentation d individus ou de variables n ayant pas participé à l analyse Principe : leur appliquer les mêmes transformations que celles qui ont été appliquées aux individus ou aux variables de départ Individu supplémentaire : coordonnée sur l axe u α de l individu y s : centrage en colonne : x s = y s x =(y 1 s x 1,...,y p s x p ) Projection sur l axe : < x s, u α >= x su α Variable supplémentaire : coordonnée sur l axe v α de la variable s s Centrage en colonne : x s =(y s 1 y s,...,y s p y s ) Projection sur l axe : < x s, v α > Dp =(x s ) D p c α λα utc sy09 18

Les éléments supplémentaires : utilisation Représentation d individus dont la fiabilité est suspecte Représentation d individus prenant des valeurs atypiques qui prendraient une part trop prépondérante à la formation des axes s ils étaient pris en compte Représentation d un groupe d individus par leur centre de gravité Représentation d éléments de natures différentes des éléments initiaux : variables actives : notes scolaires et variables supplémentaires : notes de tests psychologiques Individus actifs : malades et individus supplémentaires : personnes saines utc sy09 19

Exemple d ACP : Les données math scie fran lati d-m jean 6.0 6.0 5.0 5.5 8 aline 8.0 8.0 8.0 8.0 9 annie 6.0 7.0 11.0 9.5 11 monique 14.5 14.5 15.5 15.0 8 didier 14.0 14.0 12.0 12.5 10 andré 11.0 10.0 5.5 7.0 13 pierre 5.5 7.0 14.0 11.5 10 brigitte 13.0 12.5 8.5 9.5 12 evelyne 9.0 9.5 12.5 12.0 18 Moy. 9.67 9.83 10.22 10.05 11 Données initiales math scie fran lati dess -3.67-3.83-5.22-4.55-3 -1.67-1.83-2.22-2.05-2 -3.67-2.83 0.78-0.55 0 4.83 4.67 5.28 4.95-3 4.33 4.17 1.78 2.45-1 1.33 0.17-4.72-3.05 2-4.17-2.83 3.78 1.45-1 3.33 2.67-1.72-0.55 1-0.67-0.33 2.28 1.95 7 0 0 0 0 0 Données centrées utc sy09 20

Matrice de variance S = 1 9 X X = math scie fran lati dess math 11.389 scie 9.917 8.944 fran 2.657 4.120 12.062 lati 4.824 5.481 9.293 7.914 dess 0.111 0.056 0.389 0.667 8.667 Valeurs propres Axes factoriels Inertie % d inertie % d inertie expliquée expliquée cumulée 28.2533 57.69 57.69 12.0747 24.65 82.34 8.6157 17.59 99.94 0.0217 0.04 99.98 0.0099 0.02 100.00 u 1 u 2 u 3 u 4 u 5 0.51 0.57-0.05 0.29-0.57 0.51-0.37-0.01-0.55 0.55 0.49 0.65 0.11-0.39-0.41 0.48 0.32 0.02 0.67 0.45 0.03 0.11-0.99-0.03-0.01 utc sy09 21

Contributions relatives des axes aux individus Contributions relatives des individus aux axes 1 2 3 4 5 jean 0.89 0.03 0.08 0.00 0.00 aline 0.80 0.03 0.17 0.00 0.00 annie 0.46 0.53 0.00 0.00 0.00 monique 0.89 0.00 0.11 0.00 0.00 didier 0.88 0.10 0.02 0.00 0.00 andré 0.24 0.58 0.19 0.00 0.00 pierre 0.03 0.91 0.07 0.00 0.00 brigitte 0.17 0.74 0.09 0.00 0.00 evelyne 0.05 0.20 0.75 0.00 0.00 1 2 3 4 5 jean 0.30 0.03 0.09 0.11 0.15 aline 0.06 0.00 0.04 0.04 0.02 annie 0.04 0.11 0.00 0.15 0.00 monique 0.37 0.00 0.14 0.15 0.11 didier 0.15 0.04 0.02 0.03 0.40 andré 0.03 0.20 0.09 0.00 0.25 pierre 0.00 0.36 0.04 0.07 0.02 brigitte 0.02 0.15 0.03 0.30 0.00 evelyne 0.01 0.11 0.56 0.14 0.04 utc sy09 22

Composantes principales 1 2 3 4 5 jean -8.70-1.70 2.55 0.16 0.11 aline -3.94-0.72 1.81 0.09-0.04 annie -3.22 3.47 0.29-0.18-0.02 monique 9.75 0.22 3.54 0.18-0.09 didier 6.37-2.17 0.96-0.07 0.18 andré -2.97-4.65-2.64 0.02-0.16 pierre -1.05 6.21 1.67-0.11-0.04 brigitte 1.99-4.07-1.41-0.25 0.00 evelyne 1.77 3.40-6.62 0.15 0.07 Analyse dans R n F1 F2 F3 F4 F 5 math 0.81-0.58-0.04 0.01-0.02 scie 0.90-0.43-0.01-0.03 0.02 fran 0.75 0.65 0.09-0.02-0.01 lati 0.92 0.40 0.02 0.04 0.02 d-m 0.06 0.13-0.99 0.00 0.00 utc sy09 23

ACP : Exemple des notes (variables) 1 fran 0.5 lati Axe 2 0 d m 0.5 math scie 1 1 0.5 0 0.5 1 Axe 1 utc sy09 24

ACP : Exemple des notes (variables) 1 0.5 Axe 3 0 fran math scie lati 0.5 1 d m 1 0.5 0 0.5 1 Axe 1 utc sy09 25

ACP : Exemple des notes (individus) 6 pier 5 4 3 anni evel 2 Axe 2 1 0 moni 1 alin 2 3 jean didi 4 brig andr 8 6 4 2 0 2 4 6 8 10 Axe 1 utc sy09 26

3 2 jean alin ACP : Exemple des notes (individus) pier moni 1 didi 0 anni Axe 3 1 2 3 andr brig 4 5 6 evel 8 6 4 2 0 2 4 6 8 10 Axe 1 utc sy09 27

Taille du cerveau et intelligence Référence : Reference : Willerman, L., Schultz, R., Rutledge, J. N., and Bigler, E. (1991), In Vivo Brain Size and Intelligence, Intelligence, 15, 223-228. Description : 40 étudiants en psychologie et 7 variables Sexe 3 mesures d intelligence FSIQ : Full Scale IQ scores based on the four Wechsler (1981) subtests VIQ : Verbal IQ scores based on the four Wechsler (1981) subtests PIQ : Performance IQ scores based on the four Wechsler (1981) subtests Weight : taille de l étudiant Height : poids de l étudiant MRI (Magnetic Resonance Imaging) : taille du cerveau utc sy09 28

Les données FSIQ VIQ PIQ W H MRI 1F 133 132 124 118 65 816932 2M 140 150 124 118 73 1001121 3M 139 123 150 143 73 1038437 4M 133 129 128 172 69 965353 5F 137 132 134 147 65 951545 6F 99 90 110 146 69 928799 7F 138 136 131 138 65 991305 8F 92 90 98 175 66 854258 9M 89 93 84 134 66 904858 10M 133 114 147 172 69 955466 11F 132 129 124 118 65 833868 12M 141 150 128 151 70 1079549 13M 135 129 124 155 69 924059 14F 140 120 147 155 71 856472 15F 96 100 90 146 66 878897 16F 83 71 96 135 68 865363 17F 132 132 120 127 69 852244 18M 100 96 102 178 74 945088 19F 101 112 84 136 66 808020 20M 80 77 86 180 70 889083 FSIQ VIQ PIQ WEIG HEIG MRI 21M 83 83 86 180 70 892420 22M 97 107 84 186 77 905940 23F 135 129 134 122 62 790619 24M 139 145 128 132 68 955003 25F 91 86 102 114 63 831772 26M 141 145 131 171 72 935494 27F 85 90 84 140 68 798612 28M 103 96 110 187 77 1062462 29F 77 83 72 106 63 793549 30F 130 126 124 159 67 866662 31F 133 126 132 127 63 857782 32M 144 145 137 191 67 949589 33M 103 96 110 192 76 997925 34M 90 96 86 181 69 879987 35F 83 90 81 143 67 834344 36F 133 129 128 153 67 948066 37M 140 150 124 144 71 949395 38F 88 86 94 139 65 893983 39M 81 90 74 148 74 930016 40M 89 91 89 179 76 935863 utc sy09 29

Corrélations FSIQ VIQ PIQ WEIG HEIG MRI FSIQ 1.00 0.95 0.93 0.13 0.10 0.36 VIQ 0.95 1.00 0.78 0.16 0.08 0.34 PIQ 0.93 0.78 1.00 0.05 0.09 0.39 WEIG 0.13 0.16 0.05 1.00 0.63 0.43 HEIG 0.10 0.08 0.09 0.63 1.00 0.60 MRI 0.36 0.34 0.39 0.43 0.60 1.00 ACP : valeurs propres 1 2 3 4 5 6 Variance 2.97 2.09 0.453 0.287 0.189 0.0026 Pourc. de variance 49.57 34.90 7.549 4.790 3.146 0.0432 Pourcentage cumulé 49.57 84.47 92.021 96.810 99.957 100.0000 utc sy09 30

ACP (correlation) : Taille du cerveau (variables) 1 MRI HEIG WEIG 0.5 PC 2 0 PIQ FSIQ VIQ 0.5 1 utc sy09 31 1 0.5 0 0.5 1 PC 1

ACP (correlation) : Taille du cerveau (individus) 28 3 33 2 18 22 40 1 12 3 26 32 104 34 39 2120 PC 2 0 1 2 37 24 7 5 13 14 36 30 17 6 15 19 8 9 38 16 35 27 2 3111 25 1 29 23 3 2 1 0 1 2 3 utc sy09 PC 1 32

ACP (correlation) : Taille du cerveau (individus) 3 f m 2 1 PC 2 0 1 2 3 2 1 0 1 2 3 utc sy09 PC 1 33

Fichier notes.rd math scie fran lati d-m jean 6.0 6.0 5.0 5.5 8.0 aline 8.0 8.0 8.0 8.0 9.0 annie 6.0 7.0 11.0 9.5 11.0 monique 14.5 14.5 15.5 15.0 8.0 didier 14.0 14.0 12.0 12.5 10.0 andre 11.0 10.0 5.5 7.0 13.0 pierre 5.5 7.0 14.0 11.5 10.0 brigitte 13.0 12.5 8.5 9.5 12.0 evelyne 9.0 9.5 12.5 12.0 18.0 Y <- as.matrix(data) n <- dim(y)[1] Programme R # Centrage du tableau X <- Y-matrix(1,n,1)%*% apply(y,2,mean) # Reduction du tableau (eventuellement) #X <- X/matrix(1,n,1)%*% apply(x,2,sd) # Calcul de la matrice de covariance ou de correlation S <- (1/n)*t(X)%*%X # Calcul des valeurs propres et des axes d inertie tmp<-eigen(s,symmetric=true) L <- diag(tmp$values) U <- tmp$vectors # Calcul des composantes principales des individus C <- X%*% U # Représentation des variables D <- diag(1/(sqrt((n-1)/n)*sd(x))) %*% U %*% sqrt(l) # Calcul des contributions COR <- diag(1/apply(x^2,1,sum))%*% C^2 CTR <- (1/n)*C^2 %*% diag(1/diag(l)) # Tracé des graphiques plot(c[,1],c[,2],type="n") text(c[,1],c[,2],rownames(data));abline(h=0);abline(v=0) plot(c[,1],c[,3],type="n") text(c[,1],c[,3],rownames(data));abline(h=0);abline(v=0) plot(-1:1,-1:1,type="n",xlab= Axe 1,ylab= Axe 2 ) text(d[,1],d[,2],colnames(data));abline(h=0);abline(v=0) curve(sqrt(1-x^2),-1,1,add=true) curve(-sqrt(1-x^2),-1,1,add=true) plot(-1:1,-1:1,type="n",xlab= Axe 1,ylab= Axe 3 ) text(d[,1],d[,3],colnames(data));abline(h=0);abline(v=0) curve(sqrt(1-x^2),-1,1,add=true) curve(-sqrt(1-x^2),-1,1,add=true) utc sy09 34