Cours 2-3 Analyse des données multivariées



Documents pareils
1 Complément sur la projection du nuage des individus

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

La classification automatique de données quantitatives

Fonctions de plusieurs variables

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Programmes des classes préparatoires aux Grandes Ecoles

Cours d Analyse. Fonctions de plusieurs variables

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

3. Conditionnement P (B)

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

L'analyse des données à l usage des non mathématiciens

Relation entre deux variables : estimation de la corrélation linéaire

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

MAP 553 Apprentissage statistique

Introduction. Préambule. Le contexte

I. Polynômes de Tchebychev

Chapitre 2 Le problème de l unicité des solutions

3 Approximation de solutions d équations

Le contexte. Le questionnement du P.E.R. :

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Calcul intégral élémentaire en plusieurs variables

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Statistique Descriptive Multidimensionnelle. (pour les nuls)

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»


Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Correction de l examen de la première session

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Simulation de variables aléatoires

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Un K-espace vectoriel est un ensemble non vide E muni : d une loi de composition interne, c est-à-dire d une application de E E dans E : E E E

Théorie et codage de l information

Logiciel XLSTAT version rue Damrémont PARIS

Initiation à l analyse en composantes principales

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Programmation linéaire

Chapitre 3. Les distributions à deux variables

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Texte Agrégation limitée par diffusion interne

Exercices Corrigés Premières notions sur les espaces vectoriels

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

M2 IAD UE MODE Notes de cours (3)

Correction du Baccalauréat S Amérique du Nord mai 2007

Polynômes à plusieurs variables. Résultant

Introduction à l étude des Corps Finis

Introduction à l approche bootstrap

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

Régression linéaire. Nicolas Turenne INRA

Cours d analyse numérique SMI-S4

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Structures algébriques

Le Modèle Linéaire par l exemple :

Évaluation de la régression bornée

Calcul différentiel sur R n Première partie

Optimisation Discrète

Cours 7 : Utilisation de modules sous python

Intégration et probabilités TD1 Espaces mesurés Corrigé

Introduction au Data-Mining

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Deux disques dans un carré

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Cours de mathématiques

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Le modèle de régression linéaire

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe

Optimisation des fonctions de plusieurs variables

Nom : Groupe : Date : 1. Quels sont les deux types de dessins les plus utilisés en technologie?

Exercice : la frontière des portefeuilles optimaux sans actif certain

Angles orientés et trigonométrie

2.4 Représentation graphique, tableau de Karnaugh

Statistique Descriptive Élémentaire

Quelques contrôle de Première S

Sites web éducatifs et ressources en mathématiques

Intégration et probabilités TD1 Espaces mesurés

Optimisation, traitement d image et éclipse de Soleil

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Cours de Tests paramétriques

Modélisation géostatistique des débits le long des cours d eau.

SEANCE 4 : MECANIQUE THEOREMES FONDAMENTAUX

Chapitre 7. Récurrences

Cours 02 : Problème général de la programmation linéaire

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

NOTATIONS PRÉLIMINAIRES

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Enoncé et corrigé du brevet des collèges dans les académies d Aix- Marseille, Montpellier, Nice Corse et Toulouse en Énoncé.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

ACP Voitures 1- Méthode

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Etude des propriétés empiriques du lasso par simulations

Transcription:

Cours 2-3 des données s Ismaël Castillo École des Ponts, 13 Novembre 2012

Plan 1 2 3 4

1. On s intéresse à un jeu de données multi-dimensionel, avec n individus observés et p variables d intérêt ( variables explicatives") Réduire la dimension des données Déterminer les éventuelles relations linéaires dans un ensemble de variable On souhaite résumer les données à l aide d un petit nombre de facteurs explicatifs".

Notations Les données se présentent sous forme d une matrice X de taille n p p est le nombre de variables n est le nombre d individus Vecteurs colonnes X 1,..., X p Vecteurs lignes X 1,..., X n 0 x1 1 x1 2 x p 1 1 x2 1 x2 2 x p 2 X = B @........ C A x 1 n x 2 n x p n

s s Echantillon de billets de banque, avec pour chacun différentes caractéristiques (longueur, largeur, diagonale...) Echantillon de performances de sportifs à différentes épreuves Echantillon de notes d étudiants à différents examens

: étude descriptive, boxplot 0 20 40 60 80 mechanics vectors algebra analysis statistics

: étude descriptive, scatter plot 20 40 60 80 10 30 50 70 mechanics 20 40 60 80 10 30 50 70 vectors algebra analysis 0 20 40 60 80 20 40 60 80 statistics 10 30 50 70 0 20 40 60 80 20 40 60 80 10 30 50 70

: étude descriptive, mechanics vectors algebra analysis statistics mechanics 1.0000000 0.5534052 0.5467511 0.4093920 0.3890993 vectors 0.5534052 1.0000000 0.6096447 0.4850813 0.4364487 algebra 0.5467511 0.6096447 1.0000000 0.7108059 0.6647357 analysis 0.4093920 0.4850813 0.7108059 1.0000000 0.6071743 statistics 0.3890993 0.4364487 0.6647357 0.6071743 1.0000000

Problématique Questions Comment faire pour résumer la globalité des données? (au delà des interactions deux à deux) Réduire la dimension intrinsèque" de l échantillon?

2. Les données X forment un nuage de points dans R p On munit R p de son produit scalaire canonique,, de norme euclidienne associée px X i X i 2 = (x j i x j i ) 2. j=1 Pour H sous-espace linéaire de R p, on note P H le projecteur orthogonal sur H P H X i la projection de la variable X i sur H

s Soit X j variable d intérêt moyenne x j = 1 n P n i=1 xj i variance s 2 j = 1 n P n i=1 (xj i x j ) 2 Definition La représentation centrée de l individu i est x j i = x j i x j, j = 1,..., p La représentation centrée-réduite de l individu i est x j i = xj i x j, j = 1,..., p s j

s Si la représentation centrée-réduite est utilisée, on parle d ACP normée. En ACP normée, les variables X j sont centrées de variance 1 Intérêt : Hétérogénéité entre les variables = cas où les variables correspondent à des quantités très différentes, par exemple mesurées avec différentes unités. Dans la suite, nous utiliserons la représentation centrée seulement, i.e. on supposera seulement P n i=1 X i = 0

du nuage X 1,..., X n nuage de points centré (le barycentre du nuage est l origine) Definition L inertie I du nuage de points est I = 1 nx X i 2 n i=1

du nuage X 1,..., X n nuage de points centré (le barycentre du nuage est l origine) Definition L inertie I du nuage de points est I = 1 nx X i 2 n i=1 L inertie J H autour du sous-espace linéaire H R p est J H = 1 nx X i P H X i 2 n i=1

du nuage X 1,..., X n nuage de points centré (le barycentre du nuage est l origine) Definition L inertie I du nuage de points est I = 1 nx X i 2 n i=1 L inertie J H autour du sous-espace linéaire H R p est J H = 1 nx X i P H X i 2 n i=1 I = 1 nx X i P H X i 2 + 1 nx P H X i 2 = J H + I H n n i=1 i=1 I H s appelle inertie du nuage projeté J H mesure la du nuage due à la projection

du nuage X 1,..., X n nuage de points centré (le barycentre du nuage est l origine) Definition L inertie I du nuage de points est I = 1 nx X i 2 n i=1 L inertie J H autour du sous-espace linéaire H R p est J H = 1 nx X i P H X i 2 n i=1 I = 1 nx X i P H X i 2 + 1 nx P H X i 2 = J H + I H n n i=1 i=1 I H s appelle inertie du nuage projeté J H mesure la du nuage due à la projection Question: Par rapport à quel point l inertie est-elle minimale?

On voudrait trouver un plan qui approche bien les données Cela revient à chercher H sous-espace, dim(h) = 2, telle que la du nuage soit minimale. On cherche donc H 2 = argmin J H H:dim(H)=2 De façon équivalente, un tel H 2 maximise l inertie du nuage projeté H 2 = argmax I H H:dim(H)=2

On voudrait trouver un plan qui approche bien les données Cela revient à chercher H sous-espace, dim(h) = 2, telle que la du nuage soit minimale. On cherche donc H 2 = argmin J H H:dim(H)=2 De façon équivalente, un tel H 2 maximise l inertie du nuage projeté H 2 = argmax I H H:dim(H)=2 Plus généralement, pour k {1,..., p 1}, on définit H k = argmin J H = argmax I H H:dim(H)=k H:dim(H)=k

Matrice de variance covariance Matrice de variance-covariance Γ associée au nuage de points Son terme général est Γ j,j = 1 n Remarques les variables sont centrées Γ = 1 n (X)T X P n i=1 xj i xj i cela généralise bien la def. du cours 1 si les variables sont réduites, Γ=matrice des

Matrice de variance covariance Matrice de variance-covariance Γ associée au nuage de points Son terme général est Γ j,j = 1 n Remarques les variables sont centrées Γ = 1 n (X)T X P n i=1 xj i xj i cela généralise bien la def. du cours 1 si les variables sont réduites, Γ=matrice des Γ est symétrique : Γ T = Γ Γ est positive y R p, y T Γy = 1 n y T X T Xy = 1 n Xy 2 0

Matrice de variance covariance Γ est réelle, symétrique, donc diagonalisable à l aide d une matrice P orthogonale PΓP T = PP T = Id p, avec Id p la matrice identité de taille p et diagonale = Diag(λ 1,..., λ p), où les λ i sont les valeurs propres de Γ, supposées rangées par ordre décroissant λ 1 λ 2... λ p Γ est positive donc λ i 0 pour tout i = 1,..., p. Pour simplifier on supposera que les λ i sont toutes distinctes (et non-nulles) soit λ 1 > λ 2 >... > λ p > 0 Enfin on note u k le vecteur propre associé à λ k. On supposera u k unitaire (quitte à poser u k = u k/ u k )

, résolution Théorème Le problème de réduction de dimension par moindre se résout séquentiellement à partir des valeurs propres et vecteurs propres de Γ H k est l e.v. engendré par les k premiers vecteurs propres H k = Vect(u 1,..., u k ) L inertie du nuage projeté sur le k-ième axe propre est I uk L inertie du nuage projeté sur H k vaut I Hk = = λ k kx λ l l=1

Preuve du théorème, k = 1 Exercice

et inertie expliquée L inertie totale I du nuage est P p l=1 λ l. Question : Pouvait-on le deviner?

et inertie expliquée L inertie totale I du nuage est P p l=1 λ l. Question : Pouvait-on le deviner? La part d inertie expliquée par le l-ième axe propre est τ l = λ l I Ainsi, un sous-espace quelconque de dim. k porte une inertie qui est au plus ( P k l=1 τ l ) % de l inertie totale.

Definition A partir des données initiales X, vues comme la donnée de n vecteurs ligne X i, i = 1,..., n, on peut redéfinir p nouvelles variables. Pour α {1,..., p}, on pose 2 3 X 1, u α C α 6 = Xu α = 4. X n, u α Les C α s appelent les composantes. 7 5 R n

Definition A partir des données initiales X, vues comme la donnée de n vecteurs ligne X i, i = 1,..., n, on peut redéfinir p nouvelles variables. Pour α {1,..., p}, on pose 2 3 X 1, u α C α 6 = Xu α = 4. X n, u α Les C α s appelent les composantes. 7 5 R n Les C α sont combinaisons linéaires de variables d intérêt X j Les C α sont centrées Les covariances mutuelles sont Var(C α ) = λ α et, si α β, Cov(C α, C β ) = 0. Les composantes sont non corrélées. 1 n C αt C β = 1 n uαt X T Xu β = 1 n uαt Γu β = λ β n uα, u β = λ β 1 α=β

, propriétés Pour tous α, j dans {1,..., p}, avec sj 2 = Var(X j ), Cov(C α, X j ) = λ αuj α Corr(C α, X j ) = λαu j α s j px sj 2 Corr(C α, X j ) 2 = λ α j=1 Par ailleurs, pour tout j fixé et tout k p, on a kx Corr(C l, X j ) 2 1 (= 1 si k = p) l=1

, propriétés Exercice Pour tous α, j dans {1,..., p}, avec s 2 j = Var(X j ), Cov(C α, X j ) = λ αuj α Corr(C α, X j ) = λαu j α s j px sj 2 Corr(C α, X j ) 2 = λ α j=1 Par ailleurs, pour tout j fixé et tout k p, on a kx Corr(C l, X j ) 2 1 (= 1 si k = p) l=1 1 Montrer les identités précédentes 2 En déduire que pour tout j le vecteur (Corr(C 1, X j ), Corr(C 2, X j )) est à l intérieur du cercle unité dit cercle des.

3. Outils de visualisation, scree plot Le scree plot (en anglais scree"= éboulis") représente la décroissance des valeurs propres λ On l utilise pour répondre à la question Combien d axes analyser"? Parmi les critères de décisions, on peut citer Le critère de Kaiser" : on ne garde que les axes correspondant à des valeurs propres λ j supérieures à la moyenne Le critère du coude" : dans le cas où il y a une rupture dans la décroissance des λ j, on ne garde que les axes correspondant à des valeurs propres λ j qui précèdent la décroissance régulière".

Outils de visualisation, scree plot 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 des notes du décathlon

Outils de visualisation, projection On décide donc de garder (on "réduit la dimensionalité du problème") les axes Vect(u 1 ),..., Vect(u r ). Souvent, même si r 3, on s intéressera déjà au plan engendré par les 2 premiers axes Le plan P R p engendré par u 1 et u 2 s appelle le premier plan factoriel P = Vect(u 1 ) Vect(u 2 )

Outils de visualisation, projection 2 Au passage, on a également prouvé la deuxième assertion du théorème : I uk = λ k. La troisième assertion découle alors du théorème de Pythagore. L inertie I du nuage de points est donc égale à la trace de matrice de variance-covariance, ce qui implique I = p, en ACP normée. (En ACP non normée, elle vaut la somme des variances : I = On décide p donc de garder (on "réduit la dimensionalité du problème") les axes j=1 s2 j = p l=1 λ l.) On définit la part d inertie expliquée sur le l-ième axe propre : τ Vect(u 1 ),..., Vect(u r ). Souvent, même si r 3, on s intéressera déjà au plan l = λ l /I. L inertie portée par un sous-espace de dimension k est donc au mieux k l=1 engendré par les 2 premiers axes τ l pour cent de l inertie totale I. Le plan P R p engendré par u 1 et u 2 s appelle le premier plan factoriel 2.4 s graphiques et interprétation P = Vect(u 1 ) Vect(u 2 ) Sur notre exemple concernant les billets suisses, on peut chercher à visualiser les proximités (enles termes individus, de distance c est-à-dire normée lessur vecteurs les 6 caractéristiques) X 1,... X n, éléments entrede billets R p se surprojettent le premier sur plan factoriel ce plan. (u 1 On horizontalement, parle de projection u 2 verticalement) (voir sur le Fig.2.4 premier à gauche). plan factoriel. Dans cet exemple, FIGURE 2.4 A gauche : projection sur le premier plan factoriel. A droite :

Outils de visualisation, cercle des On se place maintenant du point de vue des variables X 1,..., X p R n.

Outils de visualisation, cercle des On se place maintenant du point de vue des variables X 1,..., X p R n. On a vu que les variables d intérêt X j et les composantes C l (="les nouvelles variables") vérifient la relation px Corr(C l, X j ) 2 1 l=1 Ainsi (Corr(C 1, X j ), Corr(C 2, X j )) est à l intérieur d un cercle appelé cercle des. Interprétation Si le point dans le disque correspondant à X j est près du cercle, alors on peut considérer que X j est bien expliquée par C 1, C 2. Si des points associés à X i et X j sont près du cercle, et si les vecteurs unitaires correspondants sont approximativement orthogonaux, on peut considérer que X i et X j sont faiblement corrélées

, exemple des notes algebra mechanics vectors analysis statistics

, exemple du décathlon poid disq jave 1500 400 perc haut 100 110 long

4., propriétés Exercice 1 1 Montrer que pour tout j fixé, avec C l les composantes, px Corr(C l, X j ) 2 1 l=1 2 En déduire que pour tout j le vecteur (Corr(C 1, X j ), Corr(C 2, X j )) est à l intérieur du cercle unité dit cercle des. Exercice 2 Montrer que le sous-espace H k, qui maximise l inertie du nuage projeté parmi tous les sous-espaces G de dimension k, maximise aussi K G = 1 X n 2 P G X i P G X j 2 i j

, propriétés Exercice 3 On se propose de démontrer le théorème principal. Sans utiliser le théorème, montrer que 1 Si E et F sont des sous-espaces orthogonaux, I E F = I E + I F 2 Montrer que pour tout sous-espace E k+1 de dimension k + 1, I Ek+1 I Hk + I Vect(u ), où u est le vecteur de H k qui maximise l inertie I Vect(u) parmi les u de H k. 3 En déduire 4 Conclure que H k+1 = H k Vect(u ), H k = Vect(u 1,..., u k ), où les u l sont les valeurs propres de Γ rangées par ordre décroissant des valeurs propres associées.

Exercice, situation Exercice 4 cf. Exercice photocopié Dépenses annuelles de ménages