Statistique et analyse des données

Documents pareils
1 Complément sur la projection du nuage des individus

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

3 Approximation de solutions d équations

Introduction. Préambule. Le contexte

Programmation linéaire

Cours d analyse numérique SMI-S4

Géométrie dans l espace Produit scalaire et équations

Introduction à l étude des Corps Finis

3. Conditionnement P (B)

Résolution d équations non linéaires

Corps des nombres complexes, J Paul Tsasa

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Cours 02 : Problème général de la programmation linéaire

OPTIMISATION À UNE VARIABLE

Statistique Descriptive Multidimensionnelle. (pour les nuls)

1S Modèles de rédaction Enoncés

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Construction d un cercle tangent à deux cercles donnés.

Optimisation des fonctions de plusieurs variables

Analyse en Composantes Principales

Programmation linéaire

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Calcul intégral élémentaire en plusieurs variables

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

La géométrie du triangle III IV - V Cercles remarquables - Lieux géométriques - Relations métriques

CCP PSI Mathématiques 1 : un corrigé

Carl-Louis-Ferdinand von Lindemann ( )

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

Texte Agrégation limitée par diffusion interne

Sujet 4: Programmation stochastique propriétés de fonction de recours

statique J. Bertrand To cite this version: HAL Id: jpa

Correction de l examen de la première session

Cours de Mécanique du point matériel

I. Ensemble de définition d'une fonction

Le modèle de Black et Scholes

Statistique : Résumé de cours et méthodes

L'analyse des données à l usage des non mathématiciens

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Analyse des correspondances avec colonne de référence

1 radian. De même, la longueur d un arc de cercle de rayon R et dont l angle au centre a pour mesure α radians est α R. R AB =R.

Fonctions homographiques

Chapitre 3: TESTS DE SPECIFICATION

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Principe de symétrisation pour la construction d un test adaptatif

Introduction à la Statistique Inférentielle

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Probabilités sur un univers fini

Équations non linéaires

Approximations variationelles des EDP Notes du Cours de M2

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Algèbre binaire et Circuits logiques ( )

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

NOTIONS DE PROBABILITÉS

Résolution de systèmes linéaires par des méthodes directes

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours.

Continuité et dérivabilité d une fonction

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Différentiabilité ; Fonctions de plusieurs variables réelles

ANALYSE GÉNÉRALE - PROPOSITION DE CORRIGÉ. Exercice 1

Fonctions de plusieurs variables

Théorèmes de Point Fixe et Applications 1

INFO-F-425 Modèles mathématiques et algorithmes pour l ordonnancement. Bernard Fortz

Intégration et probabilités TD1 Espaces mesurés Corrigé

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

La classification automatique de données quantitatives

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Chapitre 1 Cinématique du point matériel

Planche n o 22. Fonctions de plusieurs variables. Corrigé

Analyse de la variance Comparaison de plusieurs moyennes

Démonstration de la conjecture de Dumont

[ édité le 30 avril 2015 Enoncés 1

Séquence 10. Géométrie dans l espace. Sommaire

Cours 9 : Plans à plusieurs facteurs

Deux disques dans un carré

PRIME D UNE OPTION D ACHAT OU DE VENTE

Introduction. Mathématiques Quantiques Discrètes

Cours Fonctions de deux variables

Chapitre 1 : Évolution COURS

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Chapitre 2 Le problème de l unicité des solutions

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Image d un intervalle par une fonction continue

BACCALAUREAT GENERAL MATHÉMATIQUES

Chapitre 2. Matrices

rf( 1 f(x)x dx = O. ) U concours externe de recrutement de professeurs agreg6s composition d analyse

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

PROBLEME(12) Première partie : Peinture des murs et du plafond.

Date : Tangram en carré page

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

MAP 553 Apprentissage statistique

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

CNAM UE MVA 210 Ph. Durand Algèbre et analyse tensorielle Cours 4: Calcul dierentiel 2

Compression Compression par dictionnaires

LE PRODUIT SCALAIRE ( En première S )

Transcription:

Statistique et analyse des données PABLO GONZALEZ VICENTE Recherche de la dimension de l espace latent en ACP Statistique et analyse des données, tome 11, n o 3 (1986), p. 19-29 <http://www.numdam.org/item?id=sad_1986 11_3_19_0> Association pour la statistique et ses utilisations, 1986, tous droits réservés. L accès aux archives de la revue «Statistique et analyse des données» implique l accord avec les conditions générales d utilisation (http://www.numdam.org/ legal.php). Toute utilisation commerciale ou impression systématique est constitutive d une infraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright. Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques http://www.numdam.org/

Statistique et Analyse des Données 1986 - vol.11 n 3 pp.19-29 RECHERCHE DE LA DIMENSION DE L'ESPACE LATENT EN ACP GONZALEZ VICENTE Pablo Electricité de France Direction des Etudes et Recherches Résumé : On étudie une condition nécessaire et une condition suffisante de positivité pour des matrices symétriques et on donne une interprétation géométrique de ces résultats. On propose ensuite une interprétation de VACP et un critère simple pour la recherche de la dimension de l m espace latent". Abstract : In this paper we give one sufficient condition and one necessary for symétrie matrices to be positive. We also give a geometrical interprétation to thèse results. Finally we suggest a new way of considering Principal Compenent Analysis and a simple criterion for determining the latent space dimension. Indices ce classification STMA : 06-070, 06-080. 1 - GENERALITES Soit S(n) l'espace vectoriel réel des matrices symétriques n x n à coefficients réels. Nous fournissons cet espace du produit interne : <A,B> = Trace (AB') A,B C S(n) et de la norme associée : Manuscrit reçu le 22 juin 1986 Révisé le 1 juin 1987 A = (Trace (AA 1 ))*

.20. Si T dénote le sous-ensemble de S(n) des matrices symétriques et définies (semi)-positives, alors : * T est un cône convexe fermé avec sommet à l'origine* o * T est l'ensemble des matrices strictement définies positives, Frontière (c) est l'ensemble des matrices semi-définies positives de rang non complet. Rappelons finalement que pour toute matrice A C S(n) existe P orthogonale tel que : P* AP = D D matrice diagonale PP' = P'P = I et, en plus : A = D, trace (A) - trace (D). 2 - CONDITIONS DE SEMI-P0SITIV1TE Théorème 1 Soit A C S (n) Si ra^e \ A J Vn-1 alors A est semi-définie positive A L'inégalité stricte implique la stricte positivité de A Démonstration : Soit A G S(n) tel que : Tr *Ç e ( A?» V^ï A Si A n'est pas semi-définie positive alors A à une valeur propre négative ; soit celle-ci X,. \ < 0. Soit D* et A = PDP', D nj avec Alors : <I-D*, D> = X. < 0 =» <I, D>< <D*, D> «D* D

.21, Donc : Trace (A) = Trace (P) < I D* - A-l A D ' ' ce qui contredit l'hypothèse du départ. Théorème 2 : Soit A C S(n) Si A est semi-définie positive alors Trace ( A? ^ i Démonstration : Soit A semi-définie positive ; alors : dim.n A = PDP*, D = X l avec X ^ O V- = 1,.-.,n * X n Soit {DjJ i $ i $ n la base canonique des matrices diagnonales de Alors A = D = X D- X o\ = X = Trace (D) = Trace (A). i-1 i=l i=l Donc : Tra, ce, < A > * 1. A Corolaire : Soit A C S(n) ; alors : Si n=2, A est semi-définie positive P> Trace ^» 1 I " I Si rang (A) = K alors A semi-définie positive => Trace (A)? \/ < I A l

.22. 3 - INTERPRETATION GEOMETRIQUE Remarquons que : Jrace,(A) > J^ <A t b _J& # <A,1>,,VnT Notons E 1 = I - D x = 1 alors 1 <E,,I> Le théorème 1 se réécrit donc : A C S(n) et angle (A,I) «angle (E^l) ^ A semi-définie positive. D'autre part : Trace i*l>! m<±ï>-, JL =ial.l^l A A I I \^\ I D X I Le théorème 2 se réécrit donc : A C S(n) et A semi-définie positive => angle (A,I) < angle (D^I). Nous pouvons conclure que le cône "6 des matrices semi-définie positives est contenu dans un cône de révolution maximal, dont la génératrice est la matrice D, et l'axe de rotation la matrice identité I.

.23. Evidemment toutes les matrices dans ce cône-là ne sont pas semi-définies positives, mais il existe un cône de révolution minimal, dont la génératrice est la matrice, = I - D 1 et l*axe de rotation est 1* identité I, tel que toutes les matrices contenues dans lui sont semi-définies positives. Dans la figure 1 nous donnons cette interprétation pour les matrices diagonales de 3 x 3 : X > 0 Figure 1 Une interprétation géométrique très intéressante peut être donnée dans S(2) grâce a l'identification : 6 3 X Y ZJ G IR J Dans ce cas particulier ô est exactement le cône de révolution {X S(2) tel que angle (X,I) «angle (D^I) = 45 }

.24. La classe de similarité 8 (D) associée à une matrice diagonale D ts(d) = {X C S(2) tel que X = PDP' avec P orthogonale} est une circonférence qui a pour centre une matrice proportionnelle à l'identité. (x x +X 2-1) Q = PDP' SJ X 2 D 1 + X 2 D 2 Figure 2 Toute matrice semi-définie positive peut être interprétée alors comme une "rotation" autour de l'axe { X I ; X s* 0 } d'une matrice diagonale D (à composantes non négatives), dont les paramètres de cette rotation sont donnés par la matrice orthogonale P. 4 - INTERPRETATION DE L'ACP Soit X un tableau de données à q variables et n individus et X'X la matrice de covariances empiriques (nous supposons les variables centrées) ; alors X'X C 6 c S(q). Nous pouvons mai tenant associer à X'X une base de S(q), où sa représentation est particulièrement portant : X'X = PDP' = P (V X D.) P' = T X p D- P' = V X Q avec Q, = PD, P* 1 1 1¾ 1=1 1 1 1¾ 1 1 1 '

.25. La base {û^} ^ ^. ^ est une base orthonormée et chaque Q i peut être écrit en fonction des vecteurs propres P i de X'X : Q i = P i P'^ Dans l'espace S(2) l'interprétation géométrique est évidente (figure 3) : "rotation" définie par P (Trace (X'X) = 1) Figure 3 Retenir les n premiers axes dans l'acp revient à projeter la matrice X'X sur le sous espace vectoriel engendré par les matrices Q. associés aux n plus grandes valeurs propres X-. Etant donné que {Q ^ }, ^ est une base orthonormée, cette projection est : et le "résidus" R n : Rn = Q " 5 «= V *iqi rang (Q n ) = n i5 + i Reprenant la fig. 3 nous avons : XiQi avec IIQ " ^l 2 = il + i x? et " Q * ±Q ' 5 " A, 0, + X 2 0 2 = X'X 0, = \ 0, A 2 0 2 =R 2

.26. Le problème qui se pose tout naturellement est le choix optimal de n dans la décomposition X'X = Q n + R R. Si l'on interprète Q comme la matrice de variance expliquée par les premiers n facteur, il est naturel de supposer que la matrice de variance de résidus soit de la forme R = o 1. Evidemment cette condition sera difficilement réalisée dans la pratique. Mais lorsque Ton utilise l'acp comme approximation du modèle factoriel, on peut chercher n, de façon que cette condition soit le mieux satisfaite. La proximité entre R n et a l est mesurée par le cosinus de l'angle 6 entre ces deux matrices : cose,r - "'T5jTïi Le critère sera donc Max n 5 - APPLICATION < R n,i> Trace (R ) n --ncr q Xi P^ # M n n e(r n,i) q? i n n i^n+1 1 Nous reprenons ici les exemples donnés par ANASTASSAKOS et D'AUBIGNY (1) ; nous arrivons au mêmes résultats avec un critère plus simple que le test de sphérécité empirique (VELICER) pour eux exemplifié. Cas 1 On considère le modèle Y J = a io x i = U J j = ^-- 6

.27. Les variables X^ (1 «i ^ 3) ont été générées de 3 échantillons gaussiens indépendants (N = 100, m = 0, o = 1) et les u- ont été générés de 6 échantillons indépendants (entre eux et des échantillons précédents) gaussiens (m = 0, a = 0.01). Les coefficients sont : *1 = H " *3 = y 5 = *6 =. 5X. 7X. 9X. 3X.OU. 2X 3X 2 + 2X 2 + 2X 3 1X 0 8X 2 +,02X 3 Matrice de 1X 2 +. 6X 3 corrélations = 8X 2 +.19X 0,35X 2 +.45X 3 1.928.821.677 1.964 1.532.416.448.150 -.066.752.502.309 1.215 1.872.645 1 L'ACP fournit les valeurs propres : tf (Rn,l) Xj=3.874 X 2 =1.425 X 3 =0.675 X 4 =0.012 X 5 =0.009 X 6 =0.006 L'angle entre R n = X'X-Q n et I : Nb de facteurs retenus : 0 1 2 3 4 5 6 (R n,i) : 54 57 65 47 56 66 Cas 2 : Nb de facteurs retenus Nous étudions maintenant une situation d'équicorrélation : Matrice de corrélations 0 < P «1 LP P... 1 L'ACP de cette matrice fournit les valeurs propres \ = 1 + (q-1) P X

.28. Calcul de e (R n, I) : 70 6 (Rn,l) n=0 => R =X'X cos 6 = VWq(q-l) P*+q 60 w n>0 => R =X'X-Q n cos 6 = -9rIL n ^n V q Dans le graphique nous considérons q = 6 Nb de facteurs retenus : 0 1 2 3 4 5 8 (R n,i) : 18 24 35 45 55 66 pour P=0,5 50" 30 20 tt 10 Nb de facteurs retenus Cas 3 1 0.7 0.6 0.4 1 0.4 0.6 La matrice de corrélations 1 0.7 1_ correspond à une situation où les coefficients de corrélation multiple de chacune des q variables, sachant les q-1 autres, sont tous égaux ; les vecteurs propres fournissent les q contrastes orthogonaux du plan d'expérience à 2 q facteurs. Les valeurs propres fournies par TACP sont : X L =2.7 X 2 =0.7 X 3 =0.5 X 4 =0.1 Nb de facteurs retenus : 0 6(R n,i) : 45 41 54 60 70 60 50 f0 30" 20 fl (Rn,I) 3 Nb de facteurs retenus

.29. REFERENCES (1) ANASTASSAKOS I., D'AUBIGNY G. "L'utilisation des tests de sphéricité pour la recherche de la dimension de l'espace latent en analyse factorielle classique et en analyse en composantes principales", Revue de Statistique Appliquée, 1984, Vol XXXII, n 2, pp 45-57.