LM347 : ANALYSE DE DONNÉES ET RÉGRESSION. Arnak Dalalyan. Université Paris 6. X n1 X np. X ik, k = 1,...,p, 1 avec 1 =. X j Xk, k,j = 1,...

Documents pareils
Chapitre 3 : Fonctions d une variable réelle (1)

Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

Statistique descriptive bidimensionnelle

Les Nombres Parfaits.

SÉRIES STATISTIQUES À DEUX VARIABLES

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

Polynésie Septembre Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

1 Mesure et intégrale

Dénombrement. Chapitre Enoncés des exercices

CHAPITRE 2 SÉRIES ENTIÈRES

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre Quelques dénitions

Séquence 5. La fonction logarithme népérien. Sommaire

Exercice I ( non spé ) 1/ u 1 = u / Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

Limites des Suites numériques

Comportement d'une suite

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

[ édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ ] [correction] Si n est un entier 2, le rationnel H n =

Statistique Numérique et Analyse des Données

STATISTIQUE AVANCÉE : MÉTHODES

4 Approximation des fonctions

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

Séries réelles ou complexes

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent machaven/

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

DETERMINANTS. a b et a'

Baccalauréat S Asie 19 juin 2014 Corrigé

Initiation à l analyse factorielle des correspondances

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

Etude de la fonction ζ de Riemann

STATISTIQUE : TESTS D HYPOTHESES

20. Algorithmique & Mathématiques

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

14 Chapitre 14. Théorème du point fixe

Processus et martingales en temps continu

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

Chap. 5 : Les intérêts (Les calculs financiers)

2 ième partie : MATHÉMATIQUES FINANCIÈRES

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Suites et séries de fonctions

EXERCICES : DÉNOMBREMENT

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

Cours 5 : ESTIMATION PONCTUELLE

RECHERCHE DE CLIENTS simplifiée

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Probabilités et statistique pour le CAPES

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Principes et Méthodes Statistiques

UV SQ 20. Automne Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1

Donnez de la liberté à vos données. BiBOARD.

c. Calcul pour une évolution d une proportion entre deux années non consécutives

Cours de Statistiques inférentielles

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

Un nouvel opérateur de fusion adaptatif. A new adaptive operator of fusion. 1. introduction

Exercices de mathématiques

Le marché du café peut être segmenté en fonction de deux modes de production principaux : la torréfaction et la fabrication de café soluble.

RESOLUTION PAR LA METHODE DE NORTON, MILLMAN ET KENNELY

Chapitre 3 : Transistor bipolaire à jonction

Université Pierre et Marie Curie. Biostatistique PACES - UE

Solutions particulières d une équation différentielle...

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

La maladie rénale chronique

Introduction : Mesures et espaces de probabilités

Compte Sélect Banque Manuvie Guide du débutant

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

Processus géométrique généralisé et applications en fiabilité

PROBLEMES DIOPTIMISATION EN NOMBRES ENTIERS J. L. NICOLAS

Module 3 : Inversion de matrices

RÈGLES ORDINALES : UNE GÉNÉRALISATION DES RÈGLES D'ASSOCIATION

Faites prospérer vos affaires grâce aux solutions d épargne et de gestion des dettes

Chaînes de Markov. Arthur Charpentier

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

55 - EXEMPLES D UTILISATION DU TABLEUR.

Des résultats d irrationalité pour deux fonctions particulières

Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation

Simulations interactives de convertisseurs en électronique de puissance

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

Formation d un ester à partir d un acide et d un alcool

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

LE PRINCIPE DU RAISONNEMENT PAR RÉCURRENCE

Télé OPTIK. Plus spectaculaire que jamais.

MESURE DE L'INFORMATION

Logiciel de synchronisation de flotte de baladeurs MP3 / MP4 ou tablettes Androïd

INTRODUCTION AUX MATRICES ALÉATOIRES. par. Djalil Chafaï

POLITIQUE ECONOMIQUE ET DEVELOPPEMENT

La tarification hospitalière : de l enveloppe globale à la concurrence par comparaison

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

Contribution à la théorie des entiers friables

Résolution numérique des équations aux dérivées partielles (PDE)

Les algorithmes de tri

Comment les Canadiens classent-ils leur système de soins de santé?

UNIVERSITÉ DE SFAX École Supérieure de Commerce

Transcription:

Notes de cours LM347 : ANALYSE DE DONNÉES ET RÉGRESSION Arak Dalalya Uiversité Paris 6 Résumé : Les séaces 6 et 7 sot cosacrées à l itroductio à l Aalyse e Composates Pricipales (ACP), qui costitue u outil très fréquemmet utilisé e pratique pour traiter et visualiser des doées multidimesioelles. 1. Doées multivariées. Soiet 1,..., des vecteurs de R p. Das ce chapitre, X ij désigera la j ème composate du vecteur i, c est-à-dire la ième réalisatio de la variable aléatoire ξ j. Les X ij formet la matrice aléatoire X 11 X 1p X =..... X 1 X p = T 1. T que l o appelle matrice des doées ou tableau des doées. A partir de la matrice des doées X, o peut calculer les statistiques suivates : a) Les moyees empiriques qui formet le vecteur X k = 1 X ik, k = 1,...,p, X 1 =. = 1 i = 1 1 XT 1 avec 1 =. R. X 1 b) Les covariaces empiriques qui formet la matrice s jk = 1 X ij X ik X j Xk, k,j = 1,...,p S = (s jk ) k,j=1,...,p que l o appelle matrice de covariace empirique. 1

2 DALALYAN, ARNAK c) Les corrélatios empiriques r jk = qui formet la matrice s jk skk s jj, k,j = 1,...,p R = (r jk ) k,j=1,...,p que l o appelle matrice de corrélatio empirique. Il est facile de voir que S = 1 XT X T = 1 XT X 1 2 XT 11 T X = 1 XT HX où la matrice H = I 1 11 T est appelée matrice cetrig. Eercice 1.1. Motrer que H est u projecteur, i.e. H = H 2 et H T = H. Sur quel sous-espace vectoriel de R projette-t-il? Notos que la matrice de covariace empirique S est positive, e effet pour tout vecteur a R p o a a T Sa = 1 at X T HXa = 1 at X T HHXa = 1 yt y 0, où y = H T Xa. De plus, si l o ote par D la matrice diagoale ayat σ ii pour i ème élémet diagoal, o obtiet S = D 1/2 RD 1/2. Il e découle e particulier que la matrice de corrélatio empirique R est égalemet positive. 2. L idée de l Aalyse e composates pricipales (ACP). L Aalyse e composates pricipales (ACP) est ue méthode de traitemet des doées multidimesioelles qui poursuit les deu objectifs suivats : visualiser les doées, réduire la dimesio effective des doées. Géométriquemet, les doées multidimesioelles représetet u uage des poits das R p (u poit ce ce uage correspod à u i ). Si la dimesio p est supérieure à 3, ce qui est le plus souvet le cas, o e peut pas visualiser ce uage. Le seul moye de visualiser les doées est alors de cosidérer leurs projectios sur des droites, sur des plas ou évetuellemet sur des espaces de dimesio 3. Aisi, si a = (a 1,...,a p ) R p est ue directio de projectio (c est-à-dire u vecteur de orme u : a 2 = a 2 1 a2 p = 1), les doées projetées (a T 1,...,a T ) formet u échatillo de dimesio 1 que l o

ANALYSE EN COMPOSANTES PRINCIPALES 3 peut visualiser et qui est doc plus facile à iterpréter que l échatillo de départ ( 1,..., ). Si la dimesio p est grade, elle est d habitude redodate. E réalité la vraie" dimesio des doées p est souvet beaucoup plus petite que p. L ACP a pour objectif de trouver u sous-espace liéaire de R p de dimesio p p tel que la projectio sur ce sous-espace capte" presque toute la structure des doées. Ý ½µ ¾µ Ü Fig. 7.1. Boe et mauvaise directios de projectio. Das l eemple de la Figure 7.1, o voit que si l o projette les doées i (représetées par des poits oirs) sur la directio a (1), certaies projectios coïciderot. Par cotre, la projectio de ces doées sur la directio a (2) doe des valeurs deu à deu distictes. O voit que la projectio sur cette derière directio est plus iformative que sur la première, doc plus itéressate. L idée de base de l ACP est de chercher la directio a R p la plus itéressate", pour laquelle les doées projetées serot le plus dispersées possibles, c est-à-dire la directio qui maimise e a la variace empirique de l échatillo uidimesioel (a T 1,...,a T ) (cf. défiitio de la variace empirique au Chapitre 4) : s 2 a := 1 ( 1 ) 2 (a T i ) 2 (a T i ) = 1 ( ) at i T i a 1 ( 2 at i T i ) a = a T Sa, où S désige la matrice de covariace empirique itroduite au paragraphe précédet. Par coséquet, la directio la plus itéressate â est ue solutio de ma a R p : a =1 at Sa = â T Sâ,

4 DALALYAN, ARNAK où est la orme euclidiee de R p. O peut écrire cette égalité sous la forme équivalete â = arg ma a T Sa. (2.1) a R p : a =1 Le vecteur â aisi défii maimise la variace empirique uidimesioelle s 2 a e a tels que a = 1. 3. ACP : commet ça marche. Nous ous itéresseros ici à la solutio du problème de maimisatio (2.1). Soit S = ULU T ue décompositio spectrale de la matrice de covariace, où U est ue matrice p p orthogoale et L est ue matrice p p diagoale. O otera l 1 0 0 0 l 2 0 L =......., U = ( ) u (1),...,u (p),. 0 0 l p où les l i sot les valeurs propres de Σ et les u (i) sot les vecteurs propres orthoormés de Σ correspodats, u (i) = 1, u T (j) u (k) = 0, j k. Défiitio 3.1. Le vecteur y j = (u T (j) ( 1 ),...,u T (j) ( 1 )) R est dit j ème composate pricipale des doées X. Eemple 3.1. Soit u vecteur aléatoire de R 2 de moyee ulle et de matrice de covariace ( ) 1 ρ Σ =, 0 ρ 1. ρ 1 Cosidéros les vecteurs propres orthoormés de cette matrice u (1) = 1 ( ) 1, u 2 1 (2) = 1 ( ) 1. 2 1 Doc si les coordoées de sot ξ 1 et ξ 2, les composates pricipales de valet η 1 = ξ 1 ξ 2, η 2 = ξ 1 ξ 2. 2 2

ANALYSE EN COMPOSANTES PRINCIPALES 5 D ue part, o peut facilemet vérifier que l échatillo y j = (y j1,...,y j ) est cetré, c est-à-dire 1 y j = 0. D autre part, e utilisat le fait que les u (j) sot les vecteurs propres de la matrice de covariace S, o obtiet 1 yji 2 = 1 u (j) ( i )( i ) T u (j) = u (j) Su (j) = u (j) l ju (j) = l j, où l j désige la valeur propre correspodat au vecteur propre u (j). De même, pour j k, C(η j,η k ) = E[u (j) ( µ)( µ)t u (k) ] = u (j) Su (k) = u (j) l ku (k) = 0, car les vecteurs u (j) sot orthoormés. Theorem 3.1. Le vecteur â = u (1) est ue solutio du problème (2.1), c est-à-dire : s 2 â = 1 (â T â T ) 2 1 = ma a R p : a =1 s2 a = ma (a T a T ) 2. a R p : a =1 Démostratio. La décompositio spectrale de la matrice S est de la forme p S = ULU T = l j u (j) u (j). O a doc j=1 p p s 2 a = l j (a T u (j) )(u (j) a) = l j c 2 j, j=1 j=1 où c j = a T u (j) est la projectio du vecteur a sur la directio u (j). Puisque les vecteurs u (j) formet ue base orthoormée de R p, o a c 2 1 c2 p = a 2. Comme l j l 1, o e déduit que p p s 2 a = l j c 2 j l 1 c 2 j = l 1 a 2 = l 1. j=1 j=1 Par ailleurs, si a = â = u (1), les coefficiets c j sot tous uls sauf le premier : c 1 = 1. O a doc s 2 â = l 1. Par coséquet, â est ue solutio du problème de maimisatio (2.1) et s 2 â = l 1 = V[y 1 ]. Deuième composate pricipale. De la même faço, o peut prouver que u (2) est l u des vecteurs qui maimise la variace s 2 a sur l esemble A 1 =

6 DALALYAN, ARNAK {a R p : a = 1 et a u (1) }. E effet, comme a est orthogoal à u (1) = â, sa projectio c 1 sur u (1) est ulle. Par coséquet, pour tout vecteur de A 1, o a p p s 2 a = l j c 2 j l 2 c 2 j = l 2 a 2 = l 2. j=2 j=2 O voit doc que V[u T (2) ] = l 2 = V(y 2 ). k-ème composate pricipale. O démotre de la même maière que u (k) est l u des vecteurs a R p qui maimise s 2 a sur l esemble A k 1 de tous les vecteurs de orme 1 orthogoau au u (1),...,u (k 1). O trouve das ce cas ma a Ak 1 s 2 a = V[y k ]. O voit doc que, du poit de vue mathématique, l ACP se réduit à la diagoalisatio de la matrice de covariace de. Soit y ij la j ème coordoée de y j. Cosidéros la matrice Y = (y ij ),...,,j=1,...,p, de dimesio p. Elle remplace la matrice des doées X iitiale. Les vecteurs-liges η 1,...,η de la matrice Y peuvet être cosidérés comme u ouveau échatillo de doées trasformées (il s agit d ue trasformatio affie de l échatillio iitial 1,..., ). Das la pratique, l applicatio de l ACP est itéressate s il s avère que les η i résidet essetiellemet" das u sous-espace affie de R p de dimesio beaucoup plus petite que p. Remarques 3.1. 1. Si les variables ξ i sot de ature différete (par eemple, ξ 1 est le pri d u produit e dollars et ξ 2 est so poids e kilogrammes), das la pratique o utilise l ACP sur la matrice de corrélatio R plutôt que l ACP sur la matrice de covariace S, i.e. o cherche à maimiser a T Ra au lieu de maimiser a T Sa. Ceci est motivé par le fait que les élémets de R ot pas d uité de mesure. 2. Si tous les élémets de la matrice S sot strictemet positifs, comme das l eemple umérique qui sera aalysé à la fi de ce chapitre, toutes les coordoées de u (1) ot le même sige (cf. Théorème de Perro Frobeius démotrée ci-après). Das ce cas, la première composate pricipale y 1 s appelle facteur de taille. La valeur y 1i est alors iterprétée comme ue caractéristique de taille" ou d importace de l idividu i. Aisi, das l eemple umérique qui sera eamié à la fi de ce chapitre, y 1i peut être cosidérée comme ue caractéristique du iveau gééral de l étudiat uméro i calculée à partir de ses otes. Propositio 3.1. (Théorème de Perro Frobeius.) Soit A = (a ij ) i,j=1,...,p ue matrice p p symétrique dot tous les élémets sot stric-

ANALYSE EN COMPOSANTES PRINCIPALES 7 temet positifs. Alors toutes les coordoées du premier vecteur propre de A ot le même sige. Démostratio. Soit g = (g 1,...,g p ) u vecteur propre orthoormé de A correspodat à sa plus grade valeur propre. Notos g = ( g 1,..., g p ) le vecteur dot les coordoées sot les valeurs absolues des coordoées respectives de g. D ue part, il est évidet que g = g = 1 et g T Ag = ma ḡ =1 ḡt Aḡ, ce qui implique que g T Ag g T A g. D autre part, comme tous les élémets a ij de A sot positifs, o obtiet g T Ag = p i,j=1 a ij g i g j p i,j=1 a ij g i g j = g T A g. O a alors g T Ag = g T A g. De plus, g T Ag = g T A g, car la matrice A est symétrique. Ces deu égalités impliquet que (g g) T A(g g) = 0. (3.1) Soit maiteat w = A(g g). Comme tous les élémets de A sot strictemet positifs et g i g i 0, toutes les coordoées du vecteur w sot positives. O peut avoir les deu cas suivats. Cas 1 : toutes les coordoées w 1,...,w p de w sot strictemet positives. Das ce cas, les relatios (g g)w = 0 et g i g i impliquet que g i = g i pour tout i = 1,...,p. Par coséquet, tous les g i sot positifs. Cas 2 : il eiste j 0 tel que w j0 = 0. Comme w = A(g g), la coordoée w j0 vaut w j0 = a ij0 ( g i g i ). i D après l hypothèse de la propositio, tous les coefficiets a ij0 sot strictemet positifs. Il e résulte que g i g i = 0 pour tout i. O e déduit que toutes les coordoées de g sot égatives. 4. Etude des corrélatios. Soit 1,..., R p les vecteurs format la matrice X de moyee et de matrice de covariace S. O défiit la variace totale de X par 1 i 2 = 1 ( ) T ( ) = 1 ( ) T UU T ( ).

8 DALALYAN, ARNAK où, d après les défiitios itroduites au Paragraphe 3, u T (1) ( i ) U T ( i ) =. = η i. u T (p) ( i ) Compte teu de ces otatios et de l égalité 1 (ηij 2 ) = l j, où η ij = y ji est la j ème coordoée de η i, o obtiet l epressio suivate pour la variace totale : 1 ( 2 ) = 1 η k 2 = l 1 l p = tr(s). k=1 Rappelos que la trace tr(s) est la somme de ses élémets diagoau. 4.1. La part de variace epliqueé. Défiitio 4.1. O appelle part de la variace totale de X epliquée par les k premières composates pricipales (y 1,...,y k ) la quatité l 1 l k = l 1 l k l 1 l p tr(s) O appelle part de la variace totale de X epliquée par la j ème composate pricipale y j la quatité l j l 1 l p. Si pour u k < p, la part de la variace totale epliquée par les k premières composates pricipales est égale à 1, alors o dit que la variace totale est etièremet epliquée par les composates y 1,...,y k. Cela sigifie que seules les k premières composates pricipales cotribuet à la variace totale de l échatillo 1,...,, les (p k) composates restates sot ulles. Aalysos maiteat l ifluece de la composate pricipale y j sur la variable ξ i, la i ème coloe de X. Nous allos caractériser cette ifluece par la valeur du coefficiet de corrélatio Corr(y j,ξ i ). Plus la valeur absolue de Corr(y j,ξ i ) est proche de 1, mieu la composate pricipale y j eplique" la variable ξ i. Calculos d abord la matrice de covariace des vecteurs i et η i. O a C(,y) = 1 [( i )η i T ] = 1 [( i )( i ) T U] = SU = ULU T U = UL..

ANALYSE EN COMPOSANTES PRINCIPALES 9 Comme C(ξ i,y j ) est le (i,j)ème élémet de cette matrice, o obtiet C(ξ i,y j ) = u ji l j, où u ji est la i ème coordoée du j ème vecteur propre u j. Par coséquet, la corrélatio r ij = Corr(y j,ξ i ) etre ξ i et y j vaut r ij = C(ξ i,y j ) V(ξ i )V(y j ) = u l j ji. σ ii Propositio 4.1. Si σ ii > 0 pour tout i = 1,...,p, alors p r ij 2 = 1 pour i = 1,...,p. j=1 Démostratio. Soit R la matrice carrée dot les élémets sot les corrélatios r ij, i = 1,...,p, j = 1,...,p et soit la matrice diagoale dot les élémets diagoau sot σ ii : = diag(σ 11,...,σ pp ). O vérifie aisémet que P = 1/2 UL 1/2. Par coséquet, R R T = 1/2 UL 1/2 L 1/2 U T 1/2 = 1/2 S 1/2 = R, (4.1) où R est la matrice formée par les corrélatios ρ ij = Corr(ξ i,ξ j ) etre les variables ξ i et ξ j. Pour coclure, il suffit de remarquer que d ue part r ii = 1 et d autre part, d après (4.1), r ii = p j=1 r2 ij. Défiitio 4.2. O appelle r 2 ij part de variace de la variable ξ i epliquée par la j ème composate pricipale y j. Propositio 4.2. Supposos que les hypothèses de la Propositio 4.1 soiet vérifiées. Alors, pour tout sous-esemble J de {1,..., p}, p l j = σ ii r ij 2, où r 2 ij = j J r2 ij. j J Démostratio. p p σ ii r ij 2 = σ ii u 2 ji j J l j σ ii = j J p l j u 2 ji. Le résultat de la propositio découle du fait que la derière somme vaut 1, car u (j) 2 = p u2 ji = 1.

10 DALALYAN, ARNAK 4.2. Disque des corrélatios. D après la Propositio 4.1, la somme des carrés des deu corrélatios r i1 2 r2 i2 est iférieure ou égale à 1, doc tous les poits de R 2 ayat les coordoées ( r i1, r i2 ) appartieet au disque de rayo 1 cetré e 0, que l o appelle das le cotete de l ACP disque des corrélatios. Sa frotière est appelée cercle des corrélatios. Plus le poit ( r i1, r i2 ) est proche du cercle des corrélatios, mieu la variable ξ i est epliquée par les deu premières composates pricipales. Cosidéros maiteat la situatio idéale quad les poits ( r i1, r i2 ) et ( r k1, r k2 ) se trouvet eactemet sur le cercle, ce qui correspod au fait que les variables ξ i et ξ k sot etièremet epliquées par les deu premières composates pricipales. Propositio 4.3. Soiet ξ i et ξ k deu variables etièremet epliquées par les deu premières composates pricipales, i.e. r 2 i1 r 2 i2 = 1 et r 2 k1 r 2 k2 = 1. Alors, la corrélatio de ξ i et ξ k est doée par la formule ρ ik = r i1 r k1 r i2 r k2 = cos(ϕ), où ϕ est l agle formé par les vecteurs ( r i1, r i2 ) et ( r k1, r k2 ). Démostratio. Vu que la variable ξ i est etièremet epliquée par y 1 et y 2, o a r im = 0, quel que soit m 3. De même, pour ξ k, o a r km = 0 pour tout m 3. Comme R = R R T (cf. la preuve de la Propositio 4.1), cela implique que r ik = r i1 r k1 r i2 r k2. Soit ϕ 1 l agle formé par les vecteurs ( r i1, r i2 ) et (1,0), et ϕ 2 l agle formé par les vecteurs ( r k1, r k2 ) et (1,0). Il est évidet que ϕ = ϕ 1 ϕ 2 et r i1 r k1 r i2 r k2 = cos(ϕ 1 )cos(ϕ 2 ) si(ϕ 1 )si(ϕ 2 ) = cos(ϕ 1 ϕ 2 ) = cos(ϕ). D après cette propositio, si les variables ξ i et ξ k sot etièremet epliquées par les deu premières composates pricipales, l agle formé par les vecteurs ( r i1, r i2 ) et ( r k1, r k2 ) décrit la dépedace mutuelle de ces variables. E effet, si l agle ϕ est zéro, alors r ik = 1, ce qui sigifie qu il y a u lie liéaire détermiiste etre ces variables : a > 0, b R tels que ξ i = aξ k b.

ANALYSE EN COMPOSANTES PRINCIPALES 11 Si les deu poits ( r i1, r i2 ) et ( r k1, r k2 ) de R 2 sot diamétralemet opposés, alors cos ϕ = ρ ik = 1 et a > 0, b R tels que ξ i = aξ k b. Das le cotete de l ACP, o dit das ce cas que les variables ξ i et ξ k sot opposées. Fialemet, si l agle ϕ est de 90, alors r ik = 0, doc les variables ξ i et ξ k sot o-corrélées. Il est clair que, das la pratique, ces trois propriétés peuvet avoir lieu seulemet de faço approimative, car il s agit ici de corrélatios empiriques r ij qui approchet les corrélatios théoriques lorsque la taille d échatillo est assez grade.

12 DALALYAN, ARNAK 5. Eemple d applicatio umérique de l ACP. Aalysos ici u eemple d applicatio de l ACP empruté du livre de K.V.Mardia, J.T. Ket et J.M. Bibby Multivariate Aalysis (Academic Press, Lodo, 1992). Le tableau suivat doe les otes (sur 100) de 88 étudiats obteues à l issue de différetes épreuves écrites (E) et orales (O). C est u eemple de tableau des doées X. Les = 88 liges de ce tableau sot les vecteurs 1,..., 88. Il y a p = 5 variables : les otes des 5 eames. Mécaique Algèbre li. Algèbre Aalyse Statistique (O) (O) (E) (E) (E) 1. 77 82 67 67 81 2. 63 78 80 70 81 3. 75 73 71 66 81 4. 55 72 63 70 68 5. 63 63 65 70 63 6. 53 61 72 64 73 7. 51 67 65 65 68 8. 59 70 68 62 56 9. 46 52 53 41 40 10. 62 60 58 62 70 11. 64 72 60 62 45 12. 52 64 60 63 54 13. 55 67 59 62 44 14. 50 50 64 55 63 15. 65 63 58 56 37 16. 31 55 60 57 73 17. 60 64 56 54 40 18. 44 69 53 53 53 19. 42 69 61 55 45 20. 62 46 61 57 45 21. 31 49 62 63 62 22. 44 61 52 62 46 23. 49 41 61 49 64 24. 12 58 61 63 67 25. 49 53 49 62 47 26. 54 49 56 47 53 27. 54 53 46 59 44 28. 44 56 55 61 36

ANALYSE EN COMPOSANTES PRINCIPALES 13 Mécaique Algèbre li. Algèbre Aalyse Statistique (O) (O) (E) (E) (E) 29. 18 44 50 57 81 30. 46 52 65 50 35 31. 32 45 49 57 64 32. 30 69 50 52 45 33. 46 49 53 59 37 34. 40 27 54 61 61 35. 31 42 48 54 68 36. 36 59 51 45 51 37. 56 40 56 54 35 38. 46 56 57 49 32 39. 45 42 55 56 40 40. 42 60 54 49 33 41. 40 63 53 54 25 42. 23 55 59 53 44 43. 48 48 49 51 37 44. 41 63 49 46 34 45. 46 61 46 38 41 46. 40 57 51 52 31 47. 49 49 45 48 39 48. 22 58 53 56 41 49. 35 60 47 54 33 50. 48 56 49 42 32 51. 31 57 50 54 34 52. 17 53 57 43 51 53. 49 57 47 39 26 54. 59 50 47 15 46 55. 37 56 49 28 45 56. 40 43 48 21 61 57. 35 35 41 51 50 58. 38 44 54 47 24 59. 43 43 38 34 49 60. 39 46 46 32 43 61. 62 44 36 22 42 62. 48 38 41 44 33 63. 34 42 50 47 29 64. 18 51 40 56 30 65. 35 36 46 48 29

14 DALALYAN, ARNAK Mécaique Algèbre li. Algèbre Aalyse Statistique (O) (O) (E) (E) (E) 66. 59 53 37 22 19 67. 41 41 43 30 33 68. 31 52 37 27 40 69. 17 51 52 35 31 70. 34 30 50 47 36 71. 46 40 47 29 17 72. 10 46 36 47 39 73. 46 37 45 15 30 74. 30 34 43 46 18 75. 13 51 50 25 31 76. 49 50 38 23 9 77. 18 32 31 45 40 78. 8 42 48 26 40 79. 23 38 36 48 15 80. 30 24 43 33 25 81. 3 9 51 47 40 82. 7 51 43 17 22 83. 15 40 43 23 18 84. 15 38 39 28 17 85. 5 30 44 36 18 86. 12 30 32 35 21 87. 5 26 15 20 20 88. 0 40 21 9 14 La moyee et la matrice de covariace empiriques associées à ce tableau des doées sot 38.95 305.77 127.22 101.58 106.27 117.40 50.59 127.22 172.84 85.16 94.67 99.01 = 50.60, S = 101.58 85.16 112.88 112.11 121.87. 46.68 106.27 94.67 112.11 220.38 155.53 42.31 117.40 99.01 121.87 155.53 297.75 E utilisat la décompositio spectrale de la matrice S, o trouve ses vecteurs

ANALYSE EN COMPOSANTES PRINCIPALES 15 propres orthoormés : 0.50 0.75 0.30 0.37 0.21 0.42 u (1) = 0.35, u (2) = 0.08, u (3) = 0.14, 0.45 0.30 0.60 0.53 0.55 0.60 0.30 0.08 0.78 0.19 u (4) = 0.00, u (5) = 0.92, 0.52 0.28 0.18 0.15 et les valeurs propres correspodates : l 1 = 687.00, l 2 = 202.11, l 3 = 103.75, l 4 = 84.63, l 5 = 32.15. E portat ces valeurs das la défiitio l j r ij = u ji, σ ii o obtiet le tableau des corrélatios empiriques suivat : r ij 1 2 3 4 5 1 0.76 0.61 0.17 0.16 0.03 2 0.73 0.22 0.32 0.55 0.08 3 0.85 0.10 0.14 0.00 0.49. 4 0.80 0.29 0.41 0.32 0.11 5 0.81 0.45 0.35 0.09 0.05 Das ce tableau, la i ème lige correspod au racies carrées des parts de la variace de la variable ξ i (où, par eemple, ξ 2 est le vecteur des otes de l épreuve d algèbre liéaire) epliquées par les composates pricipales. 6. Représetatio graphique des résultats de l ACP. 1. Scree graph. Il s agit de représeter das u repère orthogoal l iterpolatio liéaire des parts de la variace empirique epliquées par la première, deuième,...,

16 DALALYAN, ARNAK p ème composates pricipales. Pour l eemple umérique du paragraphe précédet, p = 5 et l 1 5j=1 l j = 62, l 2 5j=1 = 18, l j l 3 5j=1 = 9, l j (6.1) l 4 5j=1 = 8, l j l 5 5j=1 = 3. l j Le scree graph est doc la courbe présetée das la Figure 7.3. O utilise le scree graph pour choisir le ombre des composates pricipales qu il faut reteir. Plus précisémet, o se doe u seuil α (par eemple, α = 0,05) et o retiet toutes les composates pricipales pour lesquelles la part de la variace epliquée est supérieure à ce seuil. 2. Projectio des idividus. Das le cotete de l ACP, o appelle idividus les porteurs des doées 1,...,. Aisi, das l eemple umérique du paragraphe précédet, les idividus sot les = 88 étudiats. Le vecteur i représete l esemble des caractéristiques observées de l idividu uméro i. Si les i sot de dimesio supérieure à deu, o e peut pas représeter ces doées de faço graphique sur le pla. Afi de visualiser les doées statistiques multidimesioelles, o les projette sur le pla egedré par les deu premiers vecteurs propres u (1) et u (2) de la matrice de covariace empirique S. O obtiet aisi la projectio bidimesioelle de l échatillo iitial : ( y11,y 21 ), ( y12,y 22 ),..., ( y1,y 2 ), (6.2) qui peut être visualisée à l aide d u uage des poits sur le pla. Ici y 1 ( ) et y 2 ( ) sot les deu premières composates pricipales empiriques. Le graphique du uage des poits (6.2) sur R 2 s appelle projectio des idividus. Pour l eemple umérique du paragraphe précédet, la projectio des

ANALYSE EN COMPOSANTES PRINCIPALES 17 idividus est présetée sur la Figure 7.2. Projectio des idividus 2ème composate pricipale 20 0 20 40 60 40 20 0 20 40 60 1ère composate pricipale Fig. 7.2. Projectio des idividus. 3. Projectio des variables. Les deu premières composates pricipales sot souvet les plus importates, e ce ses qu elles epliquet la part domiate de la variace empirique. Aisi, das l eemple umérique du paragraphe précédet, cette part est égale à 80% (cf. (6.1)). Das ce cas, les corrélatios empiriques r i1, r i2, i = 1,...,p, etre les p variables et les deu premières composates pricipales sot beaucoup plus iformatives que les corrélatios restates r ij pour j 3. Cette remarque justifie l utilisatio de l outil graphique appelé projectio des variables sur le disque des corrélatios (ou, e abrégé, projectio des variables). C est u graphique sur lequel o trace le cercle des corrélatios et les p poits ( r i1, r i2 ), i = 1,...,p, qui se trouvet das le disque des corrélatios. Si ces poits sot proches du cercle, le graphique ous permet de juger de la dépedace liéaire ou de l absece de corrélatio etre la i ème et la k ème variables e utilisat les remarques faites à la fi du Paragraphe 4 (cf. Propositio

18 DALALYAN, ARNAK 4.3). Variaces 100 200 300 400 500 600 700 Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Fig. 7.3. Scree graph. 1.0 0.5 0.0 0.5 1.0 1 2 3 4 5 1.0 0.5 0.0 0.5 1.0 Fig. 7.4. Projectio des variables. 7. Limites d utilisatio de l ACP. Comme il a été epliqué au Chapitre 2, les coefficiets de corrélatio sot essetiellemet adaptés pour décire u lie liéaire etre des variables aléatoires, si u tel lie eiste. L ACP est aussi u outil liéaire, e ce ses qu elle est basée sur l iformatio coteue das les corrélatios. C est pourquoi l ACP est souvet sas itérêt si les doées présetet des lies o-liéaires, tels que, par eemple, des lies

ANALYSE EN COMPOSANTES PRINCIPALES 19 quadratiques. De maière schématique, o peut cosidérer que l ACP fourit u bo résultat lorsque les doées i formet u uage des poits das R p de structure ellipsoïdale, alors qu elle doe u résultat peu satisfaisat si les doées ot ue structure très différete de l ellipsoïdale, par eemple, celle de baae" qui correspod plutôt à u lie quadratique (cf. Figure 7.5). 2 3 4 5 6 7 2 1 0 1 2 1.0 0.5 0.0 0.5 1.0 2 1 0 1 2 Fig. 7.5. Deu uages des poits : structure de baae" et structure ellipsoïdale. Fialemet, il est utile de oter que, comme les corrélatios empiriques e sot pas stables par rapport au observatios aberrates, les résultats de l ACP e le sot pas o plus. Cela sigifie que la présece d ue seule observatio aberrate (i.e. d ue observatio j très éloigée de tous les autres i ) peut chager de faço radicale les résultats de l ACP.