Analyse de Données. Analyse en Composantes Principales (ACP)



Documents pareils
1 Complément sur la projection du nuage des individus

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse en Composantes Principales

Introduction. Préambule. Le contexte

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Extraction d informations stratégiques par Analyse en Composantes Principales

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Programmes des classes préparatoires aux Grandes Ecoles

La classification automatique de données quantitatives

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Corrigé Problème. Partie I. I-A : Le sens direct et le cas n= 2

Cours 02 : Problème général de la programmation linéaire

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Introduction à l étude des Corps Finis

Quelques éléments de statistique multidimensionnelle

L'analyse des données à l usage des non mathématiciens

[ édité le 30 avril 2015 Enoncés 1


Calcul différentiel sur R n Première partie

Théorie et codage de l information

Enjeux mathématiques et Statistiques du Big Data

NOTATIONS PRÉLIMINAIRES

Un K-espace vectoriel est un ensemble non vide E muni : d une loi de composition interne, c est-à-dire d une application de E E dans E : E E E

Cours d Analyse. Fonctions de plusieurs variables

Introduction à l approche bootstrap

Cinétique et dynamique des systèmes de solides

Exercice : la frontière des portefeuilles optimaux sans actif certain

Chapitre 2. Matrices

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Le Modèle Linéaire par l exemple :

Cours de Mécanique du point matériel

ENSAE - DAKAR BROCHURE D'INFORMATION SUR LE CONCOURS DE RECRUTEMENT D ÉLÈVES INGÉNIEURS STATISTICIENS ÉCONOMISTES (I S E) Option Mathématiques CAPESA

Probabilités sur un univers fini

Probabilités sur un univers fini

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Différentiabilité ; Fonctions de plusieurs variables réelles

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

Fonctions de plusieurs variables

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

INF6304 Interfaces Intelligentes

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

Relation entre deux variables : estimation de la corrélation linéaire

Modèles pour données répétées

Avant-après, amont-aval : les couples de tableaux totalement appariés

Géométrie dans l espace Produit scalaire et équations

Exercices Corrigés Premières notions sur les espaces vectoriels

Structures algébriques

Cours de méthodes de scoring

Simulation de variables aléatoires

Data mining 1. Exploration Statistique

Introduction à la théorie des files d'attente. Claude Chaudet

Cours de mathématiques

Programmation linéaire et Optimisation. Didier Smets

Cours d analyse numérique SMI-S4

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

1S Modèles de rédaction Enoncés

Durée de L épreuve : 2 heures. Barème : Exercice n 4 : 1 ) 1 point 2 ) 2 points 3 ) 1 point

Individus et informations supplémentaires

Initiation à l analyse en composantes principales

Tests semi-paramétriques d indépendance

Module 2 : Déterminant d une matrice

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Autoroute A16. Système de Repérage de Base (SRB) - Localisation des Points de repère (PR) A16- A16+

Introduction à la Statistique Inférentielle

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

I. Polynômes de Tchebychev

Statistique : Résumé de cours et méthodes

ILT. Interfacultair Instituut voor Levende Talen. Actes de communication. Serge Verlinde Evelyn Goris. Katholieke Universiteit Leuven

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

MAP 553 Apprentissage statistique

FORMULAIRE DE STATISTIQUES

Résolution d équations non linéaires

Coefficients binomiaux

Statistiques d ordre supérieur pour le traitement du signal

SEANCE 4 : MECANIQUE THEOREMES FONDAMENTAUX

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

Exemples d application

Systèmes de communications numériques 2

Implémentation de Nouveaux Elements Finis dans Life et Applications

Correction de l examen de la première session

Résolution de systèmes linéaires par des méthodes directes

Mesure agnostique de la qualité des images.

Fonctions de plusieurs variables. Sébastien Tordeux

STATISTIQUES. UE Modélisation pour la biologie

NOTICE DOUBLE DIPLÔME

Contributions aux méthodes d estimation en aveugle

Cours 7 : Utilisation de modules sous python

VI. Tests non paramétriques sur un échantillon

Capes Première épreuve

Simulations de systèmes quantiques fortement corrélés:

Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe

EVALUATION DE LA SANTÉ FINANCIÈRE D UNE MUNICIPALITÉ VIA UNE APPROCHE STATISTIQUE MULTIVARIÉE.

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Centre d'etudes Nucléaires de Fontenay-aux-Roses Direction des Piles Atomiques Département des Etudes de Piles

TSTI 2D CH X : Exemples de lois à densité 1

Transcription:

Analyse de Données Analyse en Composantes Principales (ACP)

Analyse en composantes principales (ACP) ** Sur toute la fiche, on notera M' la transposée de M. Cadre de travail : On a des données statistiques regroupant n individus et faisant intervenir p variables. On les modélise alors par une matrice nxp. p X =( x,, x )= x x 2 x2 x2 x p... 2 j xi x n... x np

A partir de la matrice initiale, on a les vecteurs représentant les individus et ceux représentant les variables : X =( x,..., x p )= x x 2 x 2 x 22... xp x ij x n... x np x i Vecteur représentant le ième individu : x i ei=... x ip xj Vecteur représentant la jème variable : x 2j Xj=... x nj

Exemple : Files d'attente Proba. Devt dur. Romain L. 0,5 2 Victor C. 5 X= e= 0,5 2 e2= 5 0,5 2 5 X= X2= 0,5 X3= 2 5

Autre manière de représenter ces données, de façon plus visuelle : le nuage de points. Dim = 3 Dim = 2

Comme on peut le voir, il y a deux manières de considérer ces données statistiques : - un nuage d'individus dans un repère de plusieurs variables - un nuage de variables dans un repère de plusieurs individus Dans le premier cas on utilise la matrice X : p X =( x,, x )= x x 2 x 2 x 22 x p x ij x n x np Dans le second on utilise sa transposée X' X '=( x,..., x p )' = x x 2 x 2 x 22 x p x ij x n x np

Si l'on veut faire apparaître une importance différente pour chaque individu dans les données, alors on leur accorde un poids respectifs ( p,,p2 ). Ces poids apparaissent dans la matrice D de taille nxn : D= p 0 0 p2 0 pj 0 pn La plupart du temps, la même importance est accordée à chaque individu et : D = (/n).in On définit également le vecteur g représentant les moyennes de chaque variable : x x 2 g=... x p où x j est la moyenne de la jème variable On montre que g = X ' D px

Pour centrer notre matrice de données initiale par rapport aux moyennes, il faut retrancher la moyenne concernée à chaque valeur pour la variable d'un individu : Autrement dit, on obtient le «tableau centré» de cette manière : Y = X px g ' = x x 2 x 2 x 22 x p j xi x n x np. x x 2... x p

Autres matrices statistiques : Matrice de variance-covariance : V = ( sij ) i;j ϵ ;p ;p Et pour tout i,j, sij = cov( Xi, Xj ) V = Y'DY Matrice de corrélation : R = ( rij ) i;j ϵ ;p ;p Et pour tout i,j, R = D/sVD/s r ij = cov ( Xi, Xj) var ( Xi)Var ( Xj) D / s = / s 0 0 /s 2 0 / s j 0 / s p

Inertie : Elle quantifie la dispersion des individus dans le nuage de point. Le but de l'acp va être de projeter ce nuage de points sur un espace de dimension plus petit ( faisant intervenir moins de paramètres ) tout en gardant une inertie la plus grande possible pour perdre peu d'information. - Par rapport à un vecteur u n Iu = pi d M (ei, u)2 i=0 - Inertie totale : n Ig = n n p i p j d M (ei, ej)2 j=0 i=0 = p j I ej j =0 Pour définir la distance dm(. ) il faut d'abord définir le produit scalaire : <.,.>M. Celui-ci se définit à partir d'une matrice M qui a comme propriété d'être symétrique définie positive. Dans le produit scalaire usuel, on prend M = In. On montre alors que : I g =Tr (VM ) Où V est la matrice de covariance.

Or VM est M-symétrique. Donc elle diagonalisable ( Thm. Spectral ), ses v.p ( λ,, λp ) sont positives et on peut construire une B.O.N à partir des vecteurs propres. p Alors, Ig = λj j=0 Ainsi, pour maximiser l'inertie sur un sev de dim k ( < p ), il suffit de projeter le nuage de points sur le sous-espace vectoriel engendré par les vecteurs propres ( a,, ak) associés aux k plus grandes valeurs propres. Les axes principaux d'inertie ( a,, ak) sont alors ces vecteurs propres orthogonaux et normés. Et le taux d inertie expliquée par un axe ai représente simplement la quantité λi/ Ig. ACP centrée : Le plus souvent, on prend la métrique M = In, et la matrice de poids D = (/n)in. On a alors LA matrice à diagonaliser : Y 'Y = Z' Z n x ij x j où Z = Y et v ij = n n VM = V =

ACP centrée réduite : On peut aussi prendre M = D(/s)'.D(/s), et la matrice de poids D = (/n)in. On a alors LA matrice à diagonaliser : VM = YD /s ' YD / s = Z ' Z n x x j où Z = YD / s et VM ij = ij n nσ j Ici, l'acp est réalisée de manière à projeter le nuage de points-individus sur un sev. Mais on a vu que l'on pouvait également voir les données comme un nuage de points-variable. Pour effectuer l'acp sur ce nouveau nuage de points, il suffit de remplacer, dans l'acp, notre précédente matrice Z : Z= z z 2 z2 z2 z p 2 z ij z n z np Par sa transposée Z '= z z 2 2 z2 z... z p z ij 2 z n... Alors, la nouvelle matrice à diagonaliser est simplement Z.Z'. On obtient alors une B.O.N de vecteurs propres ( b,, bp). z np

Bien sûr, Z'Z et ZZ' ont les mêmes valeurs propres et quand aux vecteurs propres normés, on peut passer d'un cas à un autre par ces relations : Notations : Prof. Nous matrice X Z Vecteurs pr. u a Vecteurs pr. v b