Analyse en Composantes Principales

Documents pareils
La classification automatique de données quantitatives

Chapitre 3. Les distributions à deux variables

Resolution limit in community detection

Introduction au Data-Mining

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Relation entre deux variables : estimation de la corrélation linéaire

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Théorie des sondages : cours 5

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

données en connaissance et en actions?

Introduction au Data-Mining

FORMULAIRE DE STATISTIQUES

Statistique : Résumé de cours et méthodes

Cours de méthodes de scoring

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

L'analyse des données à l usage des non mathématiciens

Programmation linéaire

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Apprentissage Automatique

Rappel sur les bases de données

Manuel de validation Fascicule v4.25 : Thermique transitoire des structures volumiques

PROGRAMME (Susceptible de modifications)

AUTRES ASPECTS DU GPS. Partie I : tolérance de Battement Partie II : tolérancement par frontières

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

UNIVERSITE DES ANTILLES et DE LA GUYANE Campus de Fouillole BP Pointe-à-Pitre Cedex CONTRAT LE MASTER NOM DU DOMAINE STS

Améliorer les performances du site par l'utilisation de techniques de Web Mining

La fraude à la carte bancaire

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Recherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Programmation Linéaire - Cours 1

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Extraction d informations stratégiques par Analyse en Composantes Principales

SEO Campus 2009 : Pagerank et optimisation

Température corporelle d un castor (une petite introduction aux séries temporelles)

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Introduction. Préambule. Le contexte

Annexe commune aux séries ES, L et S : boîtes et quantiles

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

EVALUATION DE LA SANTÉ FINANCIÈRE D UNE MUNICIPALITÉ VIA UNE APPROCHE STATISTIQUE MULTIVARIÉE.

Jean-Philippe Préaux

Algorithmique I. Algorithmique I p.1/??

MABioVis. Bio-informatique et la

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Introduction au datamining

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain?

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

1 Complément sur la projection du nuage des individus

Plus courts chemins, programmation dynamique

Corrigé des TD 1 à 5

ESIEA PARIS

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Programmes des classes préparatoires aux Grandes Ecoles

Coup de Projecteur sur les Réseaux de Neurones

LEAN MANUFACTURING. 18h10 18h40 : Le Lean Manufacturing : les origines, les objectifs. Description du système et des outils Lean.

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Canevas théoriques du projet sur le poker Partie A

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

Analyse en Composantes Principales

ACP Voitures 1- Méthode

Fluctuation d une fréquence selon les échantillons - Probabilités

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

ITIL Gestion de la capacité

Modélisation aléatoire en fiabilité des logiciels

TSTI 2D CH X : Exemples de lois à densité 1

Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image

Guide du/de la candidat/e pour l élaboration du dossier ciblé

STATISTIQUES A DEUX VARIABLES

Le management des risques de l entreprise Cadre de Référence. Synthèse

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Comparaison de Relevés 3D issus de plusieurs Systèmes de Numérisation

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

CHAPITRE 5. Stratégies Mixtes

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

EXERCICE 2 : SUIVI CINETIQUE D UNE TRANSFORMATION PAR SPECTROPHOTOMETRIE (6 points)

Introduction à l approche bootstrap

Chapitre 2/ La fonction de consommation et la fonction d épargne

Évaluation de la régression bornée

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

Analyse des correspondances avec colonne de référence

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Big Data et Graphes : Quelques pistes de recherche

Probabilités sur un univers fini

: seul le dossier dossier sera cherché, tous les sousdomaines

NON-LINEARITE ET RESEAUX NEURONAUX

Logiciel SCRATCH FICHE 02

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

FORMATION ECLAIRAGE PUBLIC

Atelier Transversal AT11. Activité «Fourmis» Pierre Chauvet.

La méthode des scores, particulièrement de la Banque de France

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Transcription:

Analyse en Composantes Principales Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim.univ-amu.fr

Objectif Étudier simultanément un nombre important de variables quantitatives 2 variables quantitatives nuage de points (espace de dimension 2) n variables espace de dimension n! Méthode pour obtenir un résumé «pertinent» des données initiales Travail sur les intercorrélations entre les variables pour en extraire des dimensions plus globales Revenir à un espace de dimension réduite

Exemple de Présentation (1) Enquête sur les consommateurs de bière sur leurs motivations d achat (Wuensch, 2005) n=220 7 variables (cotées sur une échelle de 1 à 100) Coût faible d un pack de 6 bières Quantité de la bouteille Haut degré d alcool Prestige de la marque Couleur de la bière Arôme Goût

Exemple de Présentation (2) Résultats univariés Statisti ques descripti ves Prix Quantité Alcool Prest ige Couleur Arôme Goût N v alide (listwise) N Minimum Max imum Moy enne Ecart ty pe 220 0 100 47, 25 34, 264 220 0 100 43, 50 33, 733 220 10 100 46, 50 32, 249 220 0 100 48, 25 24, 204 220 0 95 51, 00 26, 875 220 0 90 44, 75 25, 821 220 25 100 67, 25 24, 111 220 Comment ces informations sont liées entre elles? Quel est le profil des consommateurs de bière? Qu est-ce qui motive leurs achats?

Exemple de Présentation (3) De 7 variables => 2 composantes (à interpréter selon les variables) Économie prix alcool quantité Composante 1 Réputation prestige Économie Qualité couleur gout arome Qualité Composante 2

Principe (1) Analyse reposant sur la dispersion des données observées (variance observée) Utilisation de la matrice des variances-covariances (ou des corrélations) Procédure mathématique pour «extraire» des composantes (transformations mathématiques des variables initiales) expliquant la structure des données Composante coef.v coef.v... coef.v c 1 1 2 2 où les coefficients sont à estimer k k

Principe (2) Algorithme ayant 2 contraintes La première composantes doit maximiser la proportion de variance expliquée dans les variables initiales (V 1,, V k ) ˆ ˆ ˆ 1 1 1 C1 a1v1 a2v 2... a k V k Extraction des composantes suivantes indépendantes des précédentes ˆ ˆ ˆ 2 2 2 C2 a1v1 a2v 2... a k V k C aˆ V aˆ V... aˆ V k k k k 1 1 2 2 k k

Principe (3) La proportion de variance expliquée diminue avec le nombre de composantes La proportion de variance totale cumulée pourra atteindre 100 % Nombre de composantes extraites = nombre de variables Critères statistiques pour déterminer le nombre de composantes pertinentes à extraire Réalisation de graphiques dans l espace de dimension défini par le nombre de composantes extraites Représentation des distances euclidiennes inter individus Représentation des corrélations inter variables

Exemple de Présentation (suite) Enquête sur les consommateurs de bière sur leurs motivations d achat (Wuensch, 2005) n=220 7 variables (cotées sur une échelle de 1 à 100) Coût faible d un pack de 6 bières Quantité de la bouteille Haut degré d alcool Prestige de la marque Couleur de la bière Arôme Goût

Résultats Univariés Statisti ques descripti ves Prix Quantité Alcool Prest ige Couleur Arôme Goût N v alide (listwise) N Minimum Max imum Moy enne Ecart ty pe 220 0 100 47, 25 34, 264 220 0 100 43, 50 33, 733 220 10 100 46, 50 32, 249 220 0 100 48, 25 24, 204 220 0 95 51, 00 26, 875 220 0 90 44, 75 25, 821 220 25 100 67, 25 24, 111 220

Matrice de Corrélation (1) Matrice de corrélation Corrélat ion Prix Quantité Alcool Prest ige Couleur Arôme Goût Prix Quantité Alcool Prest ige Couleur Arôme Goût 1, 000,832,767 -, 406,018 -, 046 -, 064,832 1, 000,904 -, 392,179,098,026,767,904 1, 000 -, 463,072,044,012 -,406 -,392 -,463 1,000 -,372 -,443 -,443,018,179,072 -, 372 1, 000,909,903 -, 046,098,044 -, 443,909 1, 000,870 -, 064,026,012 -, 443,903,870 1, 000 Coefficients de corrélation linéaire des variables prises 2 à 2 Diagonale ne comporte que des 1 Matrice symétrique par rapport à la diagonale Coefficients Positifs ou négatifs Faibles ou forts De 1 à +1 Un certain degré d intercorrélation est nécessaire pour extraire une composante correspondant à une fonction linéaire des variables initiales

Matrice de Corrélation (2) La matrice ne doit pas être singulière Matrice singulière Au moins une variable est parfaitement corrélée avec une autre variable ou avec une combinaison de plusieurs variables (ex : total des scores) Déterminant = 0 Son déterminant doit être de 0 ( > 0,00001) La matrice ne doit pas être la matrice d identité Matrice d identité Matrice ne comportant que des 0 sauf des 1 sur la diagonale Déterminant = 1 Son déterminant doit être de 1 Testé par le test de sphéricité de Barlett

Matrice de Corrélation (3) Chaque variable doit être en relation avec les autres variables Inspection visuelle de la matrice de corrélation Mesure d adéquation de l échantillonnage de Kaiser-Meyer-Olkin Calculées pour chacune des variables et pour la matrice globale Doivent être 0,5 Indice d'adéquation de KMO Couleur 0,779 Arôme 0,550 Prestige 0,630 Goût 0,763 Prix 0,590 Alcool 0,801 Quantité 0,676 Global 0,665

Extraction des Composantes Principales (1) Critère de Kaiser Repose sur la notion de la valeur propre (eigenvalue) variance de chaque CP Composante Valeurs propres initiales % de la Total variance % cumulés 1 3,313 47,327 47,327 2 2,616 37,369 84,696 3 0,575 8,209 92,905 4 0,24 3,427 96,332 5 0,134 1,921 98,252 6 0,085 1,221 99,473 7 0,037 0,527 100 Total 7 100 Réduire les données de 7 variables à 2 composantes permet de rendre compte de 84,7% de la variance initiale Chaque variable à 1 unité de variance Ne pas retenir les composantes dont la VP < 1

Extraction des Composantes Principales (2) Test d accumulation de variance de Cattel (scree test) Critère graphique Arrêt de l extraction des composantes déterminé par le changement de pente Changement de pente Relativement homogène

Extraction des Composantes Principales (3) Analyse parallèle de Horn Possibilité de découvrir par chance une composante pouvant expliquer une proportion de variance Comparaison des VP empiriques et celles obtenues sur une matrice de corrélation générée au hasard en fonction du nombre d individus et du nombre de variables initiales 4 Empirique Aléatoire Valeur propre 3 2 Composantes dont les variances sont supérieures à celles obtenues par chance 1 0 1 2 3 4 5 6 7 Numéro de la composante

Extraction des Composantes Principales (4) Facilité à interpréter les facteurs à extraire Difficultés d interprétation si trop de composantes Mais une surestimation du nombre de composantes est moins dommageable qu une sous-estimation Confrontation des méthodes pour décider

Matrice des Composantes (1) Extraction de 2 composantes (dans notre exemple) Orthogonales, donc indépendantes Matrice des poids des composantes Correspond aux coefficients de corrélation entre les variables et les composantes V bˆc bˆ C U 1 2 i i 1 i 2 i Où U est la variance non explicable pour aucune des composantes

Matrice des Composantes (2) Composante 1 2 Couleur 0,760-0,576 Arôme 0,736-0,614 Prestige -0,735-0,071 Goût 0,710-0,646 Prix 0,550 0,734 Alcool 0,632 0,699 Quantité 0,667 0,675 Prix = 0,550.C 1 + 0,734.C 2 de 1 unité de C 1 de 0,550 dans le prix de 1 unité de C 2 de 0,734 dans le prix Corrélation(C 1, Prix) = 0,550 Variance commune(c 1, Prix) = (0,550) 2 =30,23% Variance commune(c 2, Prix) = (0,734) 2 =54,18% 84,41% de la variable prix expliquée par C 1 et C 2

Proportion de Variance Commune Composante 1 2 Couleur 0,760-0,576 Arôme 0,736-0,614 Prestige -0,735-0,071 Goût 0,710-0,646 Prix 0,550 0,734 Alcool 0,632 0,699 Quantité 0,667 0,675 Qualité de représentation Initial Extraction Prix 1 0,842 Quantité 1 0,901 Alcool 1 0,889 Prestige 1 0,546 Couleur 1 0,910 Arôme 1 0,918 Goût 1 0,922 Prix = (0,550) 2 + (0,734 ) 2 = 84,2% de variance commune Quantité = (0,667) 2 + (0,675 ) 2 = 90,1% de variance commune Prestige = (-0,735) 2 + (-0,071 ) 2 = 54,6% de variance commune et donc (1-0,546)=45,7% de variance unique

Matrice des Composantes (3) Composante 1 2 Couleur 0,760-0,576 Arôme 0,736-0,614 Prestige -0,735-0,071 Goût 0,710-0,646 Prix 0,550 0,734 Alcool 0,632 0,699 Quantité 0,667 0,675 Expression des variables sur chacune des composantes -1 +1 C 1 Prestige Les autres C 2 Couleur Arôme Goût Prix Alcool Quantité

Graphe des Composantes Économie Réputation Économie Qualité Qualité

Rotation des Axes Identification des axes souvent délicate Plusieurs variables peuvent avoir une pondération importante sur C 1 (inhérent à la technique) Transformation de la solution obtenue par une rotation des axes définissant les composantes Préserve la variance expliquée de chaque variable Réassignée à des composantes transformées Rotation orthogonale VARIMAX : minimise le nombre de variables ayant une forte corrélation sur C 1 Rotation oblique Modifie les angles formés par les axes Introduit une corrélation entre les composantes

Rotation des Axes : VARIMAX (1) Sans rotation Rotation VARIMAX

Rotation des Axes : VARIMAX (2) Buveur Dégustateur

Remarques Nombre de sujets / Nombre de variable n < 100 5 à 10 fois plus de sujets que de variables analysées Rapport surtout fonction du nombre de communalité des variables utilisées et de la détermination des composantes Contrôler la matrice de corrélation Critères multiples pour décider du nombre de composantes à extraire Essayer des rotations, orthogonales puis obliques

Sources Baillargeon J. L analyse en composantes principales (2003) http://www.uqtr.ca/cours/srp-6020/acp/acp.pdf Wuensch K.L. Principal component analysis (2004) http://core.ecu.edu/psyc/wuenschk/mv/fa/pca.doc) Besse P., Baccini A. Data mining I - Exploration statistique (2005) http://www.lsp.ups-tlse.fr/besse/pub/explo_stat.pdf Dunlap W.P. Logiciel pour générer des valeurs propres aléatoires. http://www.tulane.edu/~dunlap/psylib/pa.exe