Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments actifs et illustratifs... 7 ANALYSE DU NUAGE DES INDIVIDUS... 9 a - Comment voir les distances entre individus?... 9 b - Comment trouver les plans de projection... 10 c - Principe de l'ajustement... 11 d - Distance entre individus... 13 e - Matrice à diagonaliser... 14 f - Composantes Principales... 15 PROJECTIONS DES VARIABLES... 17 a - Nature de la projection... 17 b - Facteur de taille... 0 c - Les matrices implicites des distances... 0 INDIVIDUS ET VARIABLES SUPPLEMENTAIRES... 1 a - Individus supplémentaires... b - Contribution d un individu à la fabrication d un axe... c - Qualité du positionnement d un point... 3 d - Notion de représentation simultanée en ACP... 5 e - Détails sur la représentation simultanée... 5 f - Variables continues supplémentaires... 8 g - Variables nominales supplémentaires... 30 LA CARACTERISATION STATISTIQUE PAR LES VALEURS-TEST... 33 a - Principe... 33 b - La valeur-test pour la caractérisation des modalités... 34 c - La valeur-test pour la caractérisation des axes... 36 d - Les valeurs-tests et le Data mining.... 37 ACP NON NORMEE... 40 Retenir l essentiel... 4 RELATIONS ENTRE LES AJUSTEMENTS DES NUAGES... 43 RECONSTITUTION APPROCHEE. COMBIEN D AXES RETENIR?... 45 GLOSSAIRE SUCCINCT... 47 QUELQUES REFERENCES... 49 Alain Morineau Page 1 DeeNov
Préambule Ce document, téléchargeable sur le site www.deenov.com, illustre les différents aspects de l analyse en composantes principales, ses fondements, ses caractéristiques techniques et pratiques, ses domaines d application et ses règles d interprétation. Il constitue aussi une introduction à l utilisation de la méthode et comporte les principaux développements techniques. En complément, on pourra se procurer, à la page Formation du site www.deenov.com, un support de formation à cette technique. Ce support inclut plus de 100 diapositives animées, réparties en plusieurs chapitres et largement commentées de vive voix. La formation en question s appuie sur une présentation visuelle accompagnée d un commentaire audio complet. Le texte peut être visualisé en même temps que les commentaires des diapos seront écoutés. L utilisateur navigue librement entre les chapitres, les réécoute à volonté et fait les pauses qui lui conviennent. Introduction Le contexte L analyse en composantes principales, souvent notée ACP, fait partie des techniques descriptives multidimensionnelles. Elle appartient aussi au domaine du Data mining tel qu il est mis en œuvre par exemple dans le logiciel SPAD dont nous avons dirigé le développement jusqu en 004. Ces techniques d exploration sont exécutées dans le cadre d'enchaînements de procédures complémentaires de visualisation et de synthèse utilisées pour démêler la complexité et la redondance des données brutes et faire émerger des informations cachées dans les données. L'opération de l'analyse de Composantes Principales consiste à passer d un tableau des données brutes, contenant toute l'information recueillie sur le phénomène que nous souhaitons étudier, à certaines représentations visuelles des données. Cette opération entraînera une certaine perte "d'information" que l on essaie de minimiser. En échange, on obtient un gain en "signification", en particulier grâce aux représentations graphiques. Autrement dit, on passe du "magma" des données d origine à des graphiques interprétables par l'utilisateur. Pour l'interprétation, il est important d'avoir un minimum de connaissances sur le fonctionnement de l'acp et la naturevdes résultats qu'elle produit. On trouvera une présentation détaillée des méthodes dans les ouvrages cités en bibliographie : "Technique de la Description Statistique" (Lebart, Morineau, Tabard, 1977), et "Traitement des Données Statistiques" (Lebart, Morineau, Piron, 1995, 006). L'ouvrage "Multivariate Descriptive Statistical Analysis" (Lebart, Morineau, Warwick, 1984) est un manuel en anglais comportant des exemples d'application et incluant la description des techniques. Alain Morineau Page DeeNov
Les techniques multidimensionnelles Le développement de ces techniques procède de l'effet conjugué de plusieurs facteurs : la possibilité de traiter des tableaux de données complexes et de grandes tailles, le regain d'intérêt suscité par de tels tableaux, la possibilité d exécuter des algorithmes complexes et le désir de s'affranchir d hypothèses techniques de commodité souvent irréalistes. Schématiquement, ces techniques comprennent deux familles de méthodes: les méthodes faisant appel à l'algèbre linéaire, désignées en France sous le nom de méthodes factorielles, et les techniques de classification automatique. Ana. factorielles et Classifications Présentation invisible dans l'espace complet F 1 F Visualisation dans le "meilleur" espace réduit Classification (dans l'espace complet) A. Morineau 3 DeeNov,, 005 Les techniques factorielles Il est toujours possible de calculer des distances entre lignes et entre colonnes d'un tableau rectangulaire de valeurs numériques. Ces distances peuvent s'interpréter en termes de corrélations ou de similarités. En revanche, il n'est pas possible de visualiser ces distances de façon exacte: il est nécessaire de procéder à des transformations ou à des approximations pour en obtenir une représentation plane. C'est l'une des tâches dévolues à l'analyse factorielle : opérer une réduction de dimension de certaines représentations "multidimensionnelles". Visualisation et Ana. de données Eclairage d un objet 3D et sa visualisation sur des plans de projection Certaines projections apportent plus d information que d autres La clé de l anayse factorielle est dans le choix des meilleures projections A. Morineau 4 DeeNov,, 005 Alain Morineau Page 3 DeeNov
Les techniques factorielles reposent toutes sur une propriété mathématique des tableaux rectangulaires : la décomposition aux valeurs singulières (décomposition due à Eckart et Young). Cette propriété qui concernera le tableau de données lui-même, et non pas seulement la matrice de corrélation ou un tableau de distances construit à partir des données, a ceci de remarquable qu'elle implique de façon similaire les lignes et les colonnes du tableau, et donc en général les individus (lignes) et les variables (colonnes). Cette "restitution des individus à la statistique", essentiellement due à Jean-Paul Benzécri, induit une attitude nouvelle vis-à-vis des traitements statistiques des données multidimentionnelles. Bref historique de l ACP Conçue par Karl Pearson en 1901, intégrée à la statistique mathématique par Harold Hotelling en 1933, l'analyse en composantes principales (ACP) n'est vraiment utilisée que depuis la large diffusion des moyens de calcul informatique. La technique d'analyse en composantes principales peut être présentée de divers points de vue. Pour le statisticien classique, il s'agit de la recherche des axes principaux de l'ellipsoïde d'une distribution normale multidimensionnelle, ces axes étant estimés à partir d'un échantillon. C'est la présentation initiale de Hotelling (l933), puis celle des manuels classiques d'analyse multivariée. Pour le factorialiste classique, il s'agit d'un cas particulier de la méthode d'analyse factorielle des psychométriciens (cas de variances spécifiques nulles ou égales). Enfin, du point de vue plus récent des analystes de données, il s'agit d'une technique de représentation des données, ayant un caractère optimal selon certains critères algébriques et géométriques, et que l'on utilise en général sans référence à des hypothèses de nature statistique ni à un modèle particulier. Ce point de vue, fort répandu actuellement est peut-être le plus ancien. C'est celui qui avait été adopté par Pearson (1901). Bien entendu, il ne s'agissait pas de l'analyse en composantes principales telle que nous la présentons, mais les idées essentielles de la méthode étaient déjà présentées par cet auteur. L'analyse en composantes principales présente de nombreuses variantes selon les transformations apportées au tableau de données : le nuage des points-individus peut être centré ou non, réduit ou non. Parmi ces variantes, l'analyse en composantes principales normée (nuage centréréduit) est certainement la plus utilisée et c'est celle-ci que nous choisissons pour présenter les principes de l'analyse. Alain Morineau Page 4 DeeNov
Domaine d'application L'utilisateur de l'analyse en composantes principales se trouve dans la situation suivante : il possède un tableau rectangulaire de mesures, dont les colonnes figurent des variables à valeurs numériques continues (des mensurations, des taux, etc.) et dont les lignes représentent les individus sur lesquels ces variables sont observées. D'une manière générale, la condition que doivent remplir ces tableaux numériques pour être l'objet d'une description par l'analyse en composantes principales est la suivante : l'une au moins des dimensions du tableau (les lignes en général) est formée d'unités ayant un caractère répétitif, l'autre pouvant être éventuellement plus hétérogène. Les lignes (qui ont ce caractère répétitif) sont désignées en général sous le nom d'individus ou d'observations, les colonnes étant désignées sous le nom de variables. A titre d esemple, nous considérons le tableau X des mesures prises sur quelques milliers d individus actifs concernant leurs temps d'activités quotidiennes. On dispose par exemple de 16 variables décrivant des temps d'activité, en minutes par jour (sommeil, repos, repas chez soi, etc.). Tableau des données X (n,p) Variables (dizaines, centaines) continues nominales ordinales textuelles etc.... Individus statistiques (centaines, milliers) A. Morineau 1 DeeNov,, 005 Le tableau X aura donc en colonne les mesures caractérisant ces observations. Le terme général x ij de ce tableau décrit la durée de l'activité j de l individu i. L objectif est de donner une idée de la structure de l'ensemble des 16 activités, ainsi que des similitudes éventuelles de comportement entre les groupes d'individus. Alain Morineau Page 5 DeeNov
Interprétations géométriques Les représentations géométriques entre les lignes et entre les colonnes du tableau de données permettent de visualiser les proximités entre les individus et entre les variables. Principe géomg ométrique de l ACPl X(n,p) i i' j j' R p Ressemblance entre individus R n Liaisons entre variables A. Morineau 11 DeeNov,, 005 a - Pour les n individus Dans l'espace à p coordonnées où se trouvent les individus, les n(n-1) distances attachées aux couples de points individus ont une interprétation directe pour l'utilisateur : p (, ) ( ij i' j ) j1 d i i x x Il s'agit ici de la distance euclidienne classique. Deux points sont très voisins si, dans l'ensemble, leurs p coordonnées sont très proches. Les deux individus concernés sont alors caractérisés par des valeurs presque égales pour chaque variable. Dans l'exemple évoqué ci-dessus, deux individus représentés par des points proches consacrent les mêmes temps aux mêmes activités. Similitude entre individus Nuage de n points individus d i,' i x ij xi ' j dans R p j1 La «meilleure» image approchée e du nuage en projection sur une droite H : respecter au mieux les inter-distances entre tous les couples p (H) MaxH dh i,' i i i' A. Morineau 1 DeeNov,, 005 Alain Morineau Page 6 DeeNov
b - Pour les p variables Si les valeurs prises par deux variables particulières sont très voisines pour tous les individus, ces variables seront représentées par deux points très proches dans l espace à n coordonnées où elles se trouvent. Cela peut vouloir dire que ces variables mesurent une même chose ou encore qu'elles sont liées par une relation particulière. Toutefois la définition de ces proximités dans les deux espaces est assez fruste. Des problèmes d'échelle de mesure se posent d'emblée : par exemple, le temps consacré au sommeil est toujours beaucoup plus important que le temps passé à la lecture. Liaisons entre les variables Une variable est définie d par les n valeurs qu elle prend sur les individus Les variables sont centrées es réduitesr On a donc pour la variable «j» : n 1 n i i1 d ( O, j) x 1 C est l él équation d une d sphère de rayon 1 : les vecteurs variables sont donc des points sur la surface d une d sphère dans n A. Morineau 13 DeeNov,, 005 Par ailleurs, dans un cadre plus général, comment calculer la distance entre deux variables si l'une est exprimée en centimètre et l'autre en kilogramme? Comment interpréter un éloignement moyen dans R p? Est-ce que deux individus assez proches dans R p ont des valeurs assez voisines pour chacune des variables, ou au contraire très proches pour certaines et éloignées pour d'autres? L'analyse en composantes principales normée permet de donner des éléments de réponses à ces questions. c - Notion d éléments actifs et illustratifs Le tableau de données contient une assez grande quantité de variables, ce qui est une caractéristique habituelle des études appliquées. En fait les variables peuvent se regrouper selon des thèmes. Si l analyse cherche à comparer des villes en fonction des caractéristiques de leur population, on trouvera une série de variables relatives aux dépenses sur différents postes (vêtement, loyer, véhicule, services, etc.) dont l ensemble doit concourrir à Alain Morineau Page 7 DeeNov
Villes www.deenov.com donner une idée de la cherté de la vie. D'autres variables informent sur le niveau des salaires, répartis selon 1 professions. Enfin, d'autres variables donnent plutôt une idée du mode de vie, comme les congés payés, les jours de travail, etc. Pour comparer les villes entre elles, il est certes possible de prendre en compte toutes les variables disponibles. Cela conduira ici à comparer les villes en tenant compte simultanément du niveau des prix, des salaires, des impôts, des heures nécessaires pour acquérir un hamburger, etc. Les différences observées entre les villes sont alors difficiles à interpréter car elles peuvent avoir des causes multiples et de nature très différentes. Il est plus raisonnable de sélectionner un groupe de variables, ce groupe étant homogène par rapport à un thème bien défini, et cohérent avec l'objectif propre de l'étude. Un thème, c est-à-dire un groupe de variables, définit un certain point de vue choisi par l utilisateur pour comparer les individus (ici les villes). Ce faisant, l'interprétation des proximités entre éléments sera plus facile à interpréter. Les variables choisies, appelées variables actives, constituent donc les seuls éléments utilisés pour comparer les éléments entre eux. Cela ne signifie pas que le reste de l'information soit abandonné: il servira ensuite à illustrer ou peut-être suggérer des explications pour les similitudes et différences observées entre les éléments. C'est pour cela que l on appelle illustratives ou supplémentaires les autres variables. Toute analyse statistique commence donc par le choix des éléments actifs. Variables p=40 n=51 Variables actives Variables illustratives Choix du thème actif et des variables illustratives Dans ce qui suit on s intéresse aux éléments actifs seuls. Les éléments illustratifs sont introduits plus tard. Alain Morineau Page 8 DeeNov
Analyse du nuage des individus Nous considérons tout d'abord le nuage des n individus (non pondérés ou pondérés suivant les nécessités de l analyse). Nous voulons, dans l'espace des variables, ajuster le nuage de n points par un sous-espace à une, puis deux dimensions, de façon à obtenir sur un graphique une représentation visuelle la plus fidèle possible des proximités existant entre les n individus vis-à-vis des p variables. a - Comment voir les distances entre individus? Situé dans un espace de dimension élevée, le nuage des points-lignes (comme celui des points-colonnes) n est pas visible. L essentiel de l analyse en composantes principales réside dans la recherche d un plan (appelé premier plan factoriel) sur lequel on projette le nuage de telle sorte que la configuration des points projetés sur ce plan soit aussi semblable que possible à la configuration réelle des points dans l espace complet. Nous y parviendrons en rendant globalement les distances entre les points projetés sur ce plan aussi proches que possible des distances réelles entre les points de l'espace d'origine. Considérons par exemple le nuage des n points-individus dans l espace où chaque axe représente une variable d'origine. La figure schématise la situation dans le cas de 3 variables seulement. var 3 F i d X (i,i') i' var d F (i,i') i i' F 1 var 1 Espace d'origine Représentation du nuage des points- lignes dans le premier plan factoriel Espace factoriel (plan de projection) Il s'agit de trouver le plan tel que, globalement, l ensemble des d F (i,i' ) mesurés dans le plan pour tous les couples de points, se rapproche autant que possible des distances réelles d X (i,i' ) mesurées dans l'espace d'origine. Alain Morineau Page 9 DeeNov
b - Comment trouver les plans de projection L objectif est de choisir le sous-espace de dimension réduite qui fournisse le maximum d'information sur la configuration du nuage d'origine. Quel plan choisir? Quel critère d'ajustement entre les distances réelles et les distances projetées peut-on utiliser pour déterminer le plan de projection? On cherche le plan qui maximise la dispersion (l étalement) des points projetés: MaxH dh ( i, i ') i i' formule où H représente le sous-espace de projection. On peut montrer que la somme des carrés des distances entre tous les couples de points est égale à la somme des carrés des distances au centre de gravité (multipliée par n). Pour la recherche du maximum, on a : MaxH dh ( i, i') MaxH n dh ( i, G) i i' i Ainsi, maximiser la somme des distances projetées revient à maximiser la dispersion autour du centre de gravité dans le plan de projection. La formule, qui n est autre que l expression du théorème de Pythagore, décompose la dispersion du nuage (une quantitée fixe), en deux termes: la dispersion dans le plan de projection et un terme complémentaire qui est la somme des distances des points au plan de projection (voir la figure). i d(i,g) d i G H (, ) i H H G dh ( i, G ) Décomposition de la distance d'un point- ligne au centre de gravité du nuage. Ainsi, le plan de projection qui assure la dispersion maximale des points est aussi le plan qui passe au plus près du nuage (au sens du critère des moindres carrés). Alain Morineau Page 10 DeeNov
C est ce qu exprime l égalité : d ( i, G) dh ( i, G) d ( i, G) H i i i Par conséquent : Max dh ( i, G) Min d ( i, G) H i i c - Principe de l'ajustement On va chercher à rendre maximum la somme des carrés des distances entre tous les couples d'individus : Max (H ) n i n d H (i,i' ) i' La droite d'ajustement H 1 que l on cherche doit passer au plus près du nuage de points sans être astreinte à passer par l'origine. H 0 espace R p O H 1 Droite d'ajustement du nuage de n points individus Si h i et h i' désignent les valeurs des projections de deux pointsindividus i et i' sur H 1, on a la relation classique : n d n (i,i' ) (h i h i' ) n n n n nh i nh i' h i h i' i,i' i,i' i,i' i,i' i i' n ( 1 n h i h n ) n (h i h ) n i i O i d(i,i') h h i' i d (i,i') H 1 i' H 1 Projections sur H 1 Alain Morineau Page 11 DeeNov
où h désigne la moyenne des projections des n individus : h 1 n n i h i et correspond à la projection sur H 1 du centre de gravité G du nuage dont la j ème coordonnée vaut : r j 1 n n i r ij Par conséquent, on a : n d n (i,i' ) n d (i,g) i,i' i Analyse Générale G : problème X x i u y y i = x i u y = Xu Maximiser {u X Xu} avec u u = 1 0 u x i y i F A. Morineau 7 DeeNov,, 005 Rendre maximum la somme des carrés des distances entre tous les couples d'individus revient à maximiser la somme des carrés des distances entre les points et le centre de gravité du nuage G : est équivalent à : n Max ( H ) d H (i, i' ) i, i n Max ( H ) d H (i,g) i Si l'origine est prise en G, la quantité à maximiser sera à nouveau la somme des carrés des distances à l'origine. Le sous-espace cherché résulte de l'analyse générale du tableau transformé X, de terme général (données brutes notées r) : x ij r ij r j Alain Morineau Page 1 DeeNov
Meilleur plan de projection Axes factoriels z Nuage Facteur n x Meilleur plan A. Morineau 5 DeeNov,, 005 y Facteur n1 A. Morineau 6 DeeNov,, 005 d - Distance entre individus La distance entre deux individus i et i' est la distance euclidienne usuelle. Il peut exister des valeurs de j pour lesquelles les variables correspondantes sont d'échelles très diverses, (exemple : temps passé au sommeil, temps passé à la lecture) ; on veut que la distance entre deux points soit indépendante des unités sur les variables. Par ailleurs, on peut désirer, surtout lorsque les unités de mesures ne sont pas les mêmes, faire jouer à chaque variable un rôle identique dans la définition des proximités entre individus : on parle alors d'analyse en composantes principales normée. Pour cela on corrige les échelles en adoptant la distance : d (i,i' ) p j1 s j désignant l'écart-type de la variable j : s j 1 n ( r ij r i' j s j n ) (r ij r j ) Finalement, nous retiendrons que l'analyse normée dans R p du tableau brut R est l'analyse du tableau X des données centrées er réduites, de terme général : x ij n i1 r ij r j s j n Toutes les variables ainsi transformées sont "comparables" et ont même dispersion : s (x j ) = 1 Alain Morineau Page 13 DeeNov
Les variables sont centrées réduites, ce qui signifie qu on mesure l'écart à la moyenne en nombre d'écarts-types de la variable j. e - Matrice à diagonaliser L'analyse du nuage des points-individus dans R p nous a amené à effectuer une translation de l'origine au centre de gravité de ce nuage et à changer, dans le cas de l'analyse normée, les échelles sur les différents axes. L'analyse du tableau transformé X nous conduit à diagonaliser la matrice C = X'X. Le terme général c jj' de cette matrice s'écrit : soit : c'est-à-dire : c jj ' 1 n n i c jj ' n i x ij x ij ' (r ij r j )(r ij ' r j' ) s j s j' c jj ' cor(j, j' ) c jj' n'est autre que le coefficient de corrélation entre les variables j et j' (d'où l'utilité du coefficient n introduit au dénominateur dans la transformation des données). La matrice à diagonaliser est donc la matrice de corrélations. Distance entre variables Distance basée sur la corrélation, 1, d j k cor j k j o o o j k k j k cor(j,k) 1 d(j,k) 0 ( d² 0 ) cor(j,k) 0 d(j,k) ( d² ) cor(j,k) -1 d(j,k) ( d² 4 ) A. Morineau 16 DeeNov,, 005 Corrélations et distances entre points-variables Alain Morineau Page 14 DeeNov
f - Composantes Principales Nous allons considérer en premier lieu le nuage de points-ligne. Dans cet espace, il s'agit de décomposer l'inertie de ce nuage selon une série de directions orthogonales. Nous allons commencer par le sous-espace le plus simple, c'est à dire une ligne droite. Nous pouvons imaginer une droite définie par un vecteur de longueur unité u. Nous essayerons de définir u de telle manière que les projections des points sur cette direction aient une inertie maximale (voir la figure). Les distances représentées entre couples de points doivent être aussi proches que possible des distances réelles entre points. La projection (ou coordonnée) d'un point sur la direction définie par le vecteur unitaire u, est égale à: p i x ij u j j1 par conséquent, l'inertie (ou variance) de tous les points projetés sur u sera : n p i i1 i Matrice des données i i i u i u Projection d'un point-ligne sur la direction définie par un vecteur unitaire Il s'agit donc de chercher la droite u qui rende maximale la valeur de. Si on appelle X le tableau des données (données centrées), cela conduit à diagonaliser la matrice X'X. Cette matrice est égale à la matrice de corrélations entre les variables dans le cas d'une ACP normée, et elle est égale à la matrice des covariances dans le cas d'une ACP non normée. Le vecteur unitaire recherché u est le vecteur propre associé à la plus grande valeur propre obtenue dans la diagonalisation de X'X. Alain Morineau Page 15 DeeNov
L'opération de diagonalisation consiste à chercher les directions de la dispersion maximale de l'ellipsoïde défini par X'X. Le résultat de l'opération de diagonalisation est q vecteurs propres ( axes d'inertie de l'ellipsoïde) et q valeurs propres (inertie de chaque axe), où q est le rang de X'X.. De manière analogue, la direction orthogonale à u, qui en même temps maximise l'inertie projetée, correspond au vecteur propre associé à la seconde valeur propre obtenue en diagonalisant la matrice X'X. Cette inertie projetée est égale à la seconde valeur propre, et ainsi de suite. Diagonalisation de X'X Valeurs propres Vecteurs propres 1 u 1 u p u p Les valeurs propres donnent directement les inerties projetées sur chacune des directions que nous cherchons. L'addition de toutes les valeurs propres est la somme de l'inertie sur les directions orthogonales et, elle est égale à l'inertie du nuage de points. IT 1 p R S T p p j var(j) en ACP normee en ACP non norme e Les vecteurs propres donnent les directions d'inertie maximale, que nous appellons les axes factoriels. Sur ces directions se projettent les individus, obtenant ce que nous appelons les composantes principales. Ces composantes principales s'obtiennent donc comme combinaisons linéaires particulières des variables d'origine. Leur variance est égale à leur valeur propre. u 1 x 1 u p x p var( ) L'Analyse en Composantes Principales consiste donc à passer des p variables d'origine x j, chacune d'elles avec une importance mesurée par sa variance, à p nouvelles variables combinaisons linéaires de celles d'origine, chacune avec une importance mesurée par sa variance, égale à le valeur propre (voir la figure). Alain Morineau Page 16 DeeNov
Variables Axes factoriels Var 3 Axe 1 Axe Var Var 1 Changement de base et réduction de la dimentionnalité Projections des Variables a - Nature de la projection De même que nous avons réalisé l'ajustement des points-lignes, nous pouvons procéder à l'ajustement des points-colonnes (les variables) dans un espace de dimension réduit qui préserve au mieux les distances d'origine (les corrélations). Mathématiquement, cela conduit à diagonaliser la matrice XX. Ajustement des points-lignes p Diagonaliser p X'X X= Matrice de Données p Ajustement des points-colonnes n n XX' n Matrices à diagonaliser dans les deux ajustements. Comme précédemment, on obtient la décomposition de l'inertie selon les directions définies par les vecteurs propres de la matrice XX'. L'inertie projetée sur chaque direction est égale à la valeur propre associée. Alain Morineau Page 17 DeeNov
Nuage des variables Nuage des p variables (approximation dans R n ) Un plan factoriel (v1,v) coupe la sphère suivant un grand cercle (de rayon 1) Les points-variables tombent à l intérieur Espace R n 4 F 1 F 1 F1 F1 4 3 3 Projection de quatre variables A. Morineau 17 DeeNov,, 005 Représentation de la sphère et du cercle des corrélations La droite d'inertie maximale se trouve définie par le vecteur propre v (définissant la direction F1), associé à la plus grande valeur propre. Le plan d'inertie maximale s'obtient en ajoutant à cette droite, la direction F du vecteur propre associé à la seconde valeur propre, et ainsi de suite. ind 3 v 3 Axe 1 v v 4 v 1 ind ind 1 Axe Nuage des variables et axes factoriels dans l espace des individus. La représentation des variables sur un axe s'obtient par projection des points variables sur le vecteur unitaire v qui définit la direction de l'axe. Soit j la coordonnée de la variable j sur l axe. On aura: n xij x j vi i1 s j Alain Morineau Page 18 DeeNov
v v 3 Axe 1 v 4 v 1 v Axe v 3 v 4 Axe 1 Axe v 1 Projection des variables sur le premier plan factoriel. L'inertie des projections de tous les points variables sur un axe s'obtient par addition des inerties de chaque point. En ACP, il n existe pas de pondération des points-variables (les variables jouent un rôle qui est fonction de leurs variances). p j1 j On remarque que l'inertie des points-variables projeté sur un axe est la même que celle des points-lignes sur l axe de même rang (mathématiquement, on dira que les valeurs propres non nulles de XX' sont identiques à celles de X'X.) Entre les axes factoriels des deux nuages de points, il existe des relations qui permettent, connaissant les directions dans un espace, obtenir les directions dans l'autre espace. On les appelle relations de transition. Dans la pratique, il suffit de réaliser un seul ajustement; à partir de celui-ci, on obtient l autre. On réalise en général l'ajustement de plus faible coût, celui du nuage de points-lignes (on diagonalise une matrice plus petite). On obtient la projection des points-lignes par la formule. La projection des variables est calculée en fonction des axes factoriels du nuage des points-ligne : j u j Cette formule permettra ultérieurement d'interpréter la représentation simultanée des villes et des variables (lignes et colonnes du tableau). Il est clair que le nuage de points-variable n'est pas centré. Il arrive que tous les points-variables soient situés du même côté par rapport à l origine sur le premier axe. Alain Morineau Page 19 DeeNov
On peut voir que, dans le cas d une analyse normée, la coordonnée d une variable sur un axe coïncide avec la corrélation de cette variable avec la composante principale (projection des individus sur l axe factoriel de même rang): j cor( x j, ) Cette formule joue un rôle important pour l'interprétation des résultats. Elle met en relation les représentations des points-lignes avec les représentations des points-colonnes. Une corrélation élevée indique que la disposition des individus sur l'axe factoriel est semblable à l'ordonnance des individus selon la variable (la corrélation unité signifierait que la composante principale est fonction linéaire de la variable). Une corrélation proche de zéro indique qu'il n'y a pas d'association linéaire entre la composante principale et la variable. b - Facteur de taille Dans certains cas, la première composante principale nait de la forte corrélation entre les variables actives. La première composante se situe alors au milieu du faisceau des variables actives. Cette situation peut s interprêter de la façon suivante. D une façon générale, si une valeur est forte pour une variable, les valeurs sont fortes pour l ensemble des variables. C est la généralité de cette observation sur l ensemble du tableau qui constitue dans ce cas la structure la plus forte des données et engendre le premier facteur. C'est la raison pour laquelle nous appelons facteur de taille la composante principale obtenue. Ce résultat est assez fréquent en ACP. Dans ce cas, la matrice de corrélations des variables ordonnées selon leur projection sur ce facteur, présente une structure particulière: corrélations élevées près de la diagonale et décroissantes quand on s éloigne de la diagonale (on obtient une sériation des corrélations). c - Les matrices implicites des distances Les matrices des distances existent mais on ne les calcule pas explicitement. Les lignes sont situées dans un espace usuel où la distance se mesure par une formule classique. Dans le cas de l'analyse normée: d p x ij x i' j (i,i' ) s j j1 Alain Morineau Page 0 DeeNov
et pour l'analyse non normée: d p (i,i' ) (x ij x i 'j ) j1 Dans le nuage des points-variables, la distance est définie pour l'analyse normée par la formule : d ( j, j') (1 cor ( j, j')) et, pour l'analyse non normée, par: d (j, j' ) var(j) var(j') cov(j, j' ) Toutes ces distances peuvent être rassemblées dans des matrices carrées: matrice (n,n) des distances entre lignes et matrice (p,p) des distances entre colonnes. L'analyse factorielle pourrait être appliquée directement à ces matrices de distances. Dans ce cas, les configurations graphiques des nuages de points-lignes et de pointscolonnes sont identiques à celles fournies par l'acp du nuage des points-lignes et l'acp du nuage des points-colonnes. Individus et variables supplémentaires Dans l exemple de l'analyse des temps d'activités des personnes actives regroupées en catégories, on dispose de nombreuses autres informations complémentaires. Par exemple, on veut enrichir cette analyse par une série d'indicateurs concernant les habitudes de fréquentation-média (constituant des variables continues) et par le niveau d'éducation, le sexe et l'âge (qui sont des variables nominales). On désire également positionner, dans le nuage analysé, des groupes spécifiques de femmes actives, que l'on va mettre en lignes supplémentaires. Le tableau de données brutes R peut être ainsi complété en colonne par un tableau à n lignes et p s colonnes R + et en ligne par un tableau R + à n s lignes et p colonnes. Remarque : il n'est pas nécessaire de connaître le tableau R à ns lignes et p s colonnes croisant individus et variables supplémentaires. Les tableaux R + et R + vont être respectivement transformés en tableaux X + et X + de façon à rendre ces nouvelles lignes et colonnes comparables à celles de X. Alain Morineau Page 1 DeeNov
p p s n R R + X X + n s R + R + + X + Lignes et colonnes supplémentaires Dans l'espace R n les p s points-variables supplémentaires peuvent être continues ou nominales. a - Individus supplémentaires Pour situer les individus supplémentaires par rapport aux autres dans l'espace R p, il est nécessaire de les positionner par rapport au centre de gravité du nuage (calculé sur les n individus actifs) et de diviser les coordonnées par les écarts-types des variables (calculés sur les n individus actifs). D'où la transformation : x ij r ij r j s j Les coordonnées des nouveaux points-individus sont donc les n s lignes du vecteur X u. En appelant X s le tableau X X on obtient simultanément les n + n s coordonnées des individus analysés et supplémentaires en effectuant le produit matriciel X s u. b - Contribution d un individu à la fabrication d un axe Si i est la coordonnée du point-ligne i sur l axe, nous pouvons mesurer la part d'inertie d'un point-ligne par le quotient : CTR( i, ) p i i 100 Il s'agit de la contribution du point i à la fabrication de l'axe. Les contributions des points-lignes servent à détecter les éléments qui contribuent le plus à la formation des axes factoriels. Alain Morineau Page DeeNov
Si tous les éléments avaient la même contribution, celle-ci devrait osciller autour d une valeur moyenne (100% divisé par le nombre d éléments). Quand la valeur d'une contribution est-elle "élevée"? La réponse n'est pas simple. Une contribution sera jugée élevée quand, en la comparant au reste des contributions, elle aura une valeur "anormalement" grande. Influence des individus : les contributions Axe factoriel u u = direction de plus max. grande inertie du fi. i u i nuage autour de G. Dans quelle proportion chaque point contribue-t-il il à l inertie du nuage projeté sur l axe l u? G i G i G i G i' G i' G i' ' ca i ' ca i cai ' cai ca i ca i Utilité Pour donner une signification à un axe, s ints intéresser surtout aux points ayant une forte contribution. (Ils fixent la position de l axe dans R p ) A. Morineau 1 DeeNov,, 005 c - Qualité du positionnement d un point Les cosinus carrés sont utilisables pour apprécier la qualité du positionnement des points en représentation factorielle comparé à leur configuration réelle. En effet, les images obtenues sont des approximations de la configuration réelle. Il y aura des distances entre couples de points bien représentées, tandis que d'autres ne reflèteront pas fidèlement la distance réelle entre les points. Si deux points sont proches du plan factoriel, alors la distance représentée sera une bonne approximation à la distance réelle. Mais si au moins un point est éloigné du plan de projection, alors la distance réelle peut être différente de celle représentée sur le plan. Alain Morineau Page 3 DeeNov
Cette proximité du plan factoriel de projection est mesurée par les cosinus carrés de chaque point avec les axes factoriels. La figure illustre la définition : i d(i,g) Axe i G. Le cosinus carré comme mesure de proximité COS i ( i, ) d ( i, G) Un cosinus carré égal à 1 indique que l élément se trouve situé sur l'axe (l'angle est nul). Un cosinus carré égal à 0 indique que l élément est dans une direction orthogonale à l'axe. En additionnant les cosinus carrés par rapport aux p axes factoriels, nous obtiendrons l'unité, car il faut utiliser tous les axes factoriels pour positioner exactement le point dans l'espace complet. p 1 COS ( i, ) 1 Qualité de représentation des individus : les cosinus carrés Le point (i) dans R p est plus ou moins «proche» de chaque axe ()( de projection. En projection, la proximité entre points est d autant d plus «véridique» que les points sont proches de l axe l de projection. Pour analyser les proximités s entre points, s ints intéresser surtout aux points ayant un fort cosinus carré.. (Proximités s peu modifiées en projection.) G (i) cos i 0 i i est mal i représenté sur u u cos 1 est bien représenté sur u G (i) u Utilité A. Morineau DeeNov,, 005 Alain Morineau Page 4 DeeNov
L'addition des cosinus carrés d'un point sur différents axes, donne, en pourcentage, la "qualité" de la représentation du point sur le sousespace défini par ces axes. A partir de quelle valeur des cosinus carrés dira-t-on qu'un point est "bien représenté" sur le plan factoriel? Comme pour les contributions, la réponse n'est pas simple. On appréciera une valeur par rapport à l'ensemble des autres valeurs. Nous devrons comparer les cosinus carrés (ou leur somme sur les deux premiers axes si nous travaillons sur le premier plan factoriel) pour pouvoir répondre à cette question. d - Notion de représentation simultanée en ACP Le nuage des individus et celui des variables ne sont pas superposables, n ayant aucun point commun. On peut cependant représenter, au sein du nuage des individus, les directions des anciens axes porteurs des variables : ce sont des individus «fictifs» supplémentaires. Dans la représentation simultanée, ces axes indiquent dans quelle direction la variable correspondante est croissante. Variables en représentation simultanée Les variables sont des individus particuliers qui en caractérisent risent les directions Ces individus valent 1 dans la direction de la variable et 0 dans les autres directions A. Morineau 19 DeeNov,, 005 X Individu (i) Variable (j) Variable (1) (j) 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 e - Détails sur la représentation simultanée Dans l'analyse en Composantes Principales les deux nuages sont définis dans des espaces différents, avec des origines différentes et des bases distinctes. Pour le nuage des points-lignes, l'origine est le centre de gravité des individus. Le nuage est dans un espace de dimension p et nous désignons par u la base des axes factoriels. Pour le nuage des points-colonnes, l'origine des coordonnées est le point zéro, il est par construction dans un espace de dimension n Alain Morineau Page 5 DeeNov
(mais les variables actives définissent un sous-espace de dimension p) et nous désignons les axes factoriels par v. Les points-lignes et les points-colonnes étant donc dans des espaces différents, il est a priori impossible de les visualiser ensemble dans un espace qui respecterait les proximités internes des nuages. Cependant, nous pouvons représenter les directions définies par chaque variable d'origine sur la base des axes factoriels u. x 3 R p e 3 F 1 Nouvelle base orthogonale des axes factoriels u 1 Ancienne base e des variables d origine x 1 e 1 u e F x Ancienne base de R p et la nouvelle base constituée par les axes factoriels. Les vecteurs qui définissent les directions des variables d'origine sont les vecteurs (1,0,0,0,...), (0,1,0,0,...), (0,0,1,0,...), etc. Soit e j le j-ème vecteur de cette base. Sa projection sur la base définie par les u est définie par le produit scalaire des deux vecteurs ej ' u u j C'est la j-ème composante du vecteur u. Ainsi la projection des anciens axes porteurs des variables d origine sur la nouvelle base est donnée par les composantes des vecteurs propres u de l'analyse des points-lignes. Un ancien axe j, porteur de la j-ème variable d origine, peut être considéré comme un individu artificiel dans l espace des individus: il a la coordonnée 1 sur le j-ème axe et des coordonnées nulles ailleurs. A ce titre le point-variable j peut apparaître au sein des individus dans toute représentation factorielle. L interprétation s en déduit. Ce point j est l extrémité du vecteur unitaire qui définit, au sein du nuage des individus, la direction de croissance de la variable j. Notons qu il n y a pas d unité commune entre la longueur 1 du vecteur unitaire qui porte la variable j et les valeurs des coordonnées des individus sur un axe. Puisque seule la direction compte, on aura Alain Morineau Page 6 DeeNov
tout loisir de dilater ces vecteurs unitaires pour que les directions soient clairement lisibles dans le nuage des individus. Ainsi il apparait que les p variables sont des points aux extrémités de p vecteurs-unitaires situés au sein du nuage des individus, et représentent en fait la translation du repère d origine au pointmoyen du nuage des individus. Ces p points sont sur une hypersphère de rayon unité. Sur le premier plan factoriel du nuage des individus, ces p vecteurs unitaires vont apparaître à l intérieur d un cercle de rayon unité comme écrasement du repère orthonormé des variables d origine. O x 3. x e 3 F e 1 e F 1 x 1 Projection sur le plan factoriel des axes de la base d'origine avec le nuage de points-lignes Il est clair que ce nouveau nuage de points-variable diffère du nuage des points-variable étudié plus haut, dans lequel l angle entre j et j était une mesure de la corrélation entre les deux variables (ici tous les angles sont droits, et on observe en fait la projection de ces angles droits sur le plan factoriel). Si l extrémité d un point-variable est assez proche du cercle de rayon unité, la direction de croissance de cette variable est bien définie dans le plan factoriel que l on étudie: les individus proches du centre prennent des valeurs proches de la moyenne de cette variable; les individus éloignés dans la direction indiquée ont des valeurs très fortes; ceux à l opposé auront des valeurs très faibles. C est aussi qu est définie et interprétée la représentation simultanée des individus et des variables en ACP. Noter que si tous les vecteurs-unitaires, dans cette représentation simultanée, forment un fasceau assez étroit autour du premier axe factoriel, on identifiera un facteur taille: dans la direction du premier axe, toutes les variables croissent simultanément et décroissent simultanément. Alain Morineau Page 7 DeeNov
Remarque sur les deux représentations des points-variables. Considérons le nuage des points-variable d une ACP normée. La coordonnée de la variable j sur l axe est : u j Considérons la coordonnée sur l axe du point représentant la direction de croissance de la variable j dans le graphique d une représentation simultanée : u j Le rapprochement de ces deux formules nous assure que les deux représentations des variables vont en réalité être graphiquement assez semblables (à une dilatation prés le long de chaque axe). Cette similitude graphique conduit parfois à des abus d interprétation sur les graphiques de la représentation simultanée (où l on mélange analyse des angles et analyse des directions de croissance). Dans ce cadre, on notera qu il est interdit de faire apparaître une variable illustrative dans une représentation simultanée des variables et des individus en ACP. Les variables illustratives ne participent pas au repère d origine du nuage des individus et ne peuvent donc pas être représentées par une direction de croissance au sein du nuage des individus. Pour toute ACP, on retiendra qu il y a: la représentation du nuage des points-variables: ce sont des directions (vecteurs unitaires si l ACP est normée) et on étudie les angles entre ces directions. la représentation simultanée des individus et des variables actives: les points-variables sont les extrémités de vecteurs unitaires orthogonaux indiquant les directions dans lesquelles les variables correspondantes prennent des valeurs croissantes dans le nuage des individus. f - Variables continues supplémentaires Dans R n, pour que les distances entre variables s'interprètent encore en termes de corrélations, ces variables doivent être à valeurs numériques continues et il est indispensable d'effectuer la transformation de centrage et réduction des données brutes : x ij r ij r j s j Alain Morineau Page 8 DeeNov
On calcule donc les nouvelles moyennes et les nouveaux écarts-types correspondant aux variables supplémentaires, pour positionner celles-ci sur la sphère de rayon unité. Les coordonnées des p s variables supplémentaires sur cet axe sont donc les p s lignes du vecteur X + 'v et correspondent chacune au coefficient de corrélation entre la variable et l axe (appelé le facteur, colonne à n coordonnées). Les variables continues illustratives sont positionnées en utilisant les mêmes formules que pour les variables actives. Dans le cas de l'acp normée, on utilise la corrélation avec les composantes principales. j cor( x j, ) en ACP normee (l exposant + indique qu'il s'agit de variables illustratives). La position des variables par rapport aux axes factoriels s'interprète comme pour les variables actives. La position d'une variable illustrative dans le plan factoriel permet de visualiser la relation de la variable avec l'ensemble des variables actives par l'intermédiaire des axes factoriels. On notera cependant qu'aucune distance n'a été définie entre deux variables illustratives. Leurs positions relatives ne présupposent aucune corrélation entre ces variables. Cependant, dans la mesure où les variables illustratives sont bien représentées sur le premier plan factoriel et proches l'une de l'autre, on peut s attendre à ce que la similitude de leurs corrélations avec les axes (similitude de leurs coordonnées) soit la conséquence d'une forte corrélation entre elles. Régression visualisée. Le positionnement d'une variable continue en élément supplémentaire est assimilable à une "régression visuelle": la variable illustrative joue le rôle de variable de réponse (ou endogène) et le sous-espace de projection (constitué par les premiers axes factoriels), joue le rôle des variables explicatives (ou exogènes). L'analogie est illustrée par la figure. Dans une régression, on s'intéresse essentiellement à la valeur des coefficients des variables (coordonées sur les variables d'origine): il s'agit de savoir si les variables d'origine permettent de bien "prévoir" la variable y. Alain Morineau Page 9 DeeNov
y variable continue illustrative Axe x 1 b 1 x b ^ y Axe 1 Régression Projection en supplémentaire Équivalence entre la régression et la projection en supplémentaire Dans une ACP, les variables de type "y" sont souvent nombreuses. Leurs projections sur le premier plan factoriel indiquent rapidement celles qui sont globalement bien ou mal liées à l'ensemble des variables actives. Leurs positions relatives aux axes fournit par ailleurs des éléments d'interprétation des axes (car la coordonnée est égale à la corrélation). Qualité de la représentation des variables illustratives. Nous pouvons calculer la qualité de la représentation pour les variables illustratives grâce aux cosinus carrés avec les différents axes. Nous devons néanmoins prendre en compte que maintenant, la somme complète des cosinus carrés sur les p axes sera en générale inférieure à l'unité. cos ( j, ) { cor(variable,facteur)} Pour positionner une variable illustrative dans l'espace d'origine, on a besoin de ses n composantes (ses valeurs pour les n individus). Il en est de même pour une variable active, mais l'ensemble des variables actives se trouve dans un sous-espace de dimension p (le rang de X, ou encore de X'X). Donc en réalité les coordonnées sur les p axes factoriels permettent de situer exactement toute variable active. Cette propieté n'est pas vraie pour les variables illustratives. Il n'y a pas lieu de calculer les contributions des variables illustratives à l'inertie des axes, car ces variables ne sont pas intervenues dans la formation des axes. g - Variables nominales supplémentaires Si la variable à mettre en supplémentaire est nominale, on ne peut plus effectuer la même transformation. Alain Morineau Page 30 DeeNov
Dans ce cas, on ramène la variable nominale ayant m modalités, à m groupes d'individus définis par les modalités de la variable. On traite ensuite ces m groupes d'individus comme des individus supplémentaires. Ce sont les centres de gravité de ces groupes d'individus qui vont être positionnés dans l'espace R p. Toute variable nominale définit une partition des individus en autant de groupes que la variable possède de modalités. On peut représenter avec des symboles différents ces groupes d'individus définis par chaque modalité. Pour chaque groupe de points, nous pouvons calculer son point moyen ou centre de gravité (voir la figure). Données actives 1 1 1 1 G G 1 Variable nominale supplémentaire à modalités Partition du nuage des points-ligne en deux groupes (=1, =) Partition définie par une variable nominale. La figure fournit donc une simplification du nuage des pointsindividus vu du point-de-vue de la variable nominale choisie. La configuration des points-modalités permet en général de qualifier certaines zones du graphique. Elle peut suggérer des éléments d interprétation des directions factorielles. Supposons, par exemple, que l'on mesure la taille et le poids de 10 individus et que l'on désire mettre en supplémentaire la variable sexe. Nous disposons des mesures représentées dans le tableau plus bas. On calcule alors la taille et le poids moyens des hommes (177; 75) et celui des femmes (167; 59). Ce sont ces points moyens qui vont être positionnés parmi les points-individus. Alain Morineau Page 31 DeeNov
1 i lignes supplém. 10 variables continues actives taille 150 45 168 68 1 175 7 1 178 70 185 70 1 160 53 165 49 180 90 1 175 65 174 7 177 75 167 59 p o id s sex e variable nominale supplémentaire à modalités modalité 1 (h o mme) 168 68 175 7 185 70 180 90 177 75 modalité (femme) taille p o id s taille p o id s 150 45 178 70 160 53 165 49 175 65 174 7 167 59 Les modalités de la variable nominale supplémentaire sont des individus supplémentaires La représentation par deux points G 1 et G d'une variable nominale à deux modalités est esquissée sur la figure ci-dessus. F G F 1 F : hom : fem G G F G 1 1 Représentation d'une variable nominale supplémentaire L'analyse d'une variable nominale supplémentaire ne se fait donc pas dans R n mais dans R p. La figure schématise le positionnement des modalités supplémentaires comme points moyens des individus qui les composent. Alain Morineau Page 3 DeeNov
La caractérisation statistique par les valeurs-test a - Principe La position d'une modalité est calculée comme position de l'individu moyen de ce groupe. Cette position peut être plus ou moins proche du centre de gravité de tous les individus (origine des coordonnées factorielles). Une bonne proximité avec le centre de gravité global suggère que le groupe d individus correspondant est tiré au hasard parmi tous les individus. Au contraire, l éloignement entre une modalité et le point moyen global suggère une relation forte entre certaines variables actives et la modalité (Noter qu une modalité sera d'autant plus proche du centre de gravité global, qu'un nombre important d'individus l'auront choisie. Si tous les individus l'avaient choisie, elle coïnciderait avec le centre de gravité global). On veut évaluer dans quelle mesure une modalité (un groupe d individus) signale, par sa position, une zône intéressante dans le plan factoriel. Le centre de gravité général étant le lieu d attraction des points moyens de tout groupe d individus tirés au hasard, on va provilégier les points moyens qui diffèrent significativement du centre de gravité global: les individus qui forment un tel groupe seront assez typés et assez semblables entre eux pour s écarter suffisamment du centre de gravité. Supposons que nous sélectionnions au hasard un groupe de nj individus parmi les n individus disponibles. L'image graphique de ces individus sur le premier plan factoriel sera celle d une répartition aléatoire sur le plan. Le point moyen de ces nj individus ne va différer de la moyenne globale, représentée par l'origine des coordonnées, que par des fluctuations aléatoires (voir la figure). Axe G Axe 1 Tirage au hasard d'un groupe d'individus. Alain Morineau Page 33 DeeNov
Supposons que nous répétions plusieurs fois le tirage aléatoire de nj individus et le calcul du point moyen des individus sélectionnés. Le centre de ces individus coïncidera, aux fluctuations près, avec le centre de gravité global. Supposons maintenant que les nk individus ne sont pas sélectionnés au hasard. Ils sont situés dans une certaine zône du plan factoriel (voir la figure). Axe G mod Axe 1 Groupe d'individus définis par une modalité Calculons le point moyen de ces individus et sa distance au centre de gravité global. La position de ce point-moyen est-elle compatible avec l hypothèse que les individus sont tirés au hasard? Plus le non sera catégorique (en terme statistique), plus on trouvera intéressante la modalité pour caractériser la zône du plan factoriel oú elle se trouve. b - La valeur-test pour la caractérisation des modalités On procède comme pour un test statistique classique. L'hypothèse "nulle", notée H0, est l'hypothèse d'un tirage au hasard des nk valeurs parmi les n observations. Le tirage est supposé sans remise car chacune des nk valeurs est une et une seule des observations. Avec cette hypothèse de travail, on calcule la probabilité d'observer une configuration de valeurs au moins aussi extrême que celle de l'échantillon. C'est la probabilité critique associée au test de l'hypothèse nulle H0 (on dit aussi p-value). Plus cette probabilité est faible, plus on est amené à mettre en cause l'hypothèse du tirage au hasard. En effet c'est cette hypothèse utilisée dans le calcul qui donne à l'événement réalisé une probabilité aussi faible de réalisation. Pour classer les variables par ordre d'importance, on les range en fonction des probabilités critiques. La variable la plus typique du groupe est celle qui correspond à la plus petite probabilité. Alain Morineau Page 34 DeeNov
La "valeur-test" est un outil qui participe à l'approche exploratoire et descriptive des grands tableaux numériques (A. Morineau, "Note sur la Caractérisation Statistique d'une Classe et les Valeurs-tests", Bulletin Technique Centre Statistique Informatique Appliquées., Vol, n 1-, p 0-7, 1984). Le logiciel SPAD dédié au traitement statistique des grands tableaux en fait un usage intensif. On considère l'écart entre la moyenne des coordonnées dans le groupe k et la moyenne générale. Plus cet écart est "significatif", mieux la variable caractérise le groupe k. Soit m la moyenne des coordonnées (nulle ici) et s la variance empirique calculées sur les n observations. Elle est égale à la valeur-propre de l axe correspondant. Soit mk la moyenne des nk observations du groupe. Appelons Mk la variable aléatoire "moyenne des nk tirages". Sous l'hypothèse H0 d'un tirage uniforme et sans remise, on a: E H 0 Var H M 0 k M 0 k n nk s n 1 n k k Si n et nk ne sont pas très petits, le théorème de la limite centrale s'applique (bien que les tirages ne soient pas indépendants) et dans ce cas la variable: U M k m s k suit approximativement une loi normale centrée réduite. La probabilité critique associée à cette variable est donc la probabilité pour une loi normale de dépasser la valeur numérique u calculée dans l'échantillon pour la variable U ci-dessus. On obtient les modalités les plus typiques pour un axe en sélectionnant les plus petites probabilités critiques. Il est équivalent de sélectionner les modalités correspondant aux plus grandes valeurs prises par la variable normale: mk m u s k Cette quantité est appelée valeur-test. Elle est exprimée en nombre d'écarts types d'une loi normale. Elle s'interprète de la façon suivante: la probabilité d'un écart aussi grand entre les deux moyennes est égale aux chances d'atteindre ce nombre d'écarts types pour une loi normale. On évalue en quelque sorte la distance entre la moyenne générale et la moyenne dans le groupe, en nombre d'écarts types d'une loi normale. C'est cette unité Alain Morineau Page 35 DeeNov
commune qui permet les comparaisons entre les modalités et conduit aux tris par ordre d'importance. La position du point moyen du groupe d'individus permet donc d évaluer la vraisemblance de l'hypothèse de tirage au hasard de ces individus (figure). Probabilité critique G valeur-test G mod Axe 1 V-test associée à une probabilité critique. Plus la valeur-test est grande (en valeur absolue), plus il est clair que le groupe d'individus occupe une position significative et caractérise la zône du graphique où il se trouve. Pour les tableaux de taille «raisonnable», nous utilisons souvent le seuil de écarts-types pour juger si la position d'une modalité est significative. Les valeurs supérieures à indiquent des valeurs peu probables sous l'hypothèse d'extraction au hasard. Nous pouvons donc penser que ces individus gardent une certaine relation avec l'ensemble des variables actives qui les font apparaître en positions excentriques du nuage. Cependant, il faut tenir compte du nombre total d'individus. Ce nombre peut être très grand (problèmes de data mining). Noter qu il suffit de doubler indéfiniment le tableau des données pour rendre les valeurs-test aussi grandes que l on veut. La valeur-test est en réalité utilisée comme simple critère pour ordonner les modalités selon leur association avec les axes factoriels (et non formellement pour rejeter ou non une hypothèse nulle). c - La valeur-test pour la caractérisation des axes On a vu comment la v-test est un critère permettant de ranger par ordre d'importance les variables continues caractéristiques d'un groupe d'individus (c'est-à-dire caractéristiques d'une certaine modalité). Si maintenant on fixe la variable continue, le même critère permet de ranger l'ensemble des modalités susceptibles de caractériser cette variable. Alain Morineau Page 36 DeeNov
En analyse de données, la "variable" dont les valeurs sont les abscisses des individus sur un axe factoriel peut être assimilée à une variable continue. A ce titre, on peut chercher quels sont les groupes d'individus (les modalités "j") qui caractérisent au mieux un facteur (où un plan factoriel, par l intermedière de la caractérisation de ses deux axes). Appelons i la coordonnée de l'individu i sur l'axe numéro, et j la coordonnée de la modalité j sur ce même axe. Une modalité est le point moyen des individus qui la composent: 1 nk j i i Sous l'hypothèse nulle d'un tirage au hasard, l'espérance de i est nulle et sa variance est égale à. Pour un tirage sans remise de n j valeurs, la variance d'une moyenne doit être corrigée par ( n n ) ( n 1 ). On a donc: j E H0 Var H0 j 0 j n n j 1 n 1 n j La v-test associée à la modalité j sur l'axe sera donc: u j j n ( n 1) j n n j Elle évalue, en nombre d'écarts types d'une loi normale, la distance sur l'axe de la modalité j au centre du graphique. On caractérise donc l'axe en rangeant les modalités "j" dans l'ordre décroissant des v-test. d - Les valeurs-tests et le Data mining. Les v-tests constituent un outil rapide pour le Data mining (débroussaillage) aussi bien des données brutes que des résultats des analyses factorielles ou des classifications. Dans les grands tableaux de données et pour la lecture des analyses multidimensionnelles complexes, le rangement des éléments par valeurs-tests décroissantes fait apparaître les traits saillants au premier coup d'œil, montre rapidement où sont les cohérences et permet l'accumulation progressive des connaissances. Toute information disponible dans le tableau des données peut être rangée par sa v-test sur un plan factoriel. Ainsi dans une enquête par exemple, parmi les attributs utilisables on peut introduire Alain Morineau Page 37 DeeNov
l'ensemble des paramètres techniques ou instrumentaux de l'enquête: l'heure de l'entrevue ou le croisement sexe-âge du couple enquêteur-enquêté. Ces attributs, positionnés sur les plans factoriels et accompagnés des v-tests les plus significatives, constituent souvent un moyen de validation des résultats de l'enquête. La figure montre le positionnement de l'heure d'entrevue et de l'âge de l'enquêteur. Dans une enquête d opinion par exemple, le point "interview du soir" par exemple est le centre de gravité des personnes ayant été enquêtées le soir. Enquêteur < 40 ans Interview du soir Interview de jour Enquêteur > 40 ans Positionnement de paramètres techniques Les v-tests permettent détecter toutes les liaisons significatives mais ne tiennent pas compte des dépendances entre les éléments. Ce trait est d'ailleurs à l'origine des redondances multiples et donc des effets accumulateurs de connaissance. On voit ici la complémentarité avec les analyses exploratoires multidimensionnelles dont le principal objectif est de tirer le meilleur parti du tissu des dépendances. Considérons à titre d'exemple la trajectoire dans un plan factoriel des catégories d'âge de personnes enquêtées et supposons que celleci s'allonge régulièrement le long du premier axe. La Figure schématise cette situation avec les groupes 1 à 4. La forme de cette trajectoire résulte de l'ensemble des liaisons existant entre les éléments actifs dans l'analyse. Il est probable que les v-tests associées à la position des catégories extrêmes 1 et 4 seront élevées. Cependant les catégories plus centrales et 3 n'apparaîtront pas distinctes de l'origine au vu de Alain Morineau Page 38 DeeNov
valeurs-tests trop faibles. Doit-on cependant ignorer ces catégories "non-significatives", alors que leur alignement dans la trajectoire montre la cohérence de leur position? Groupe 1 Groupe Groupe 4 Groupe 3 Cohérence sur une trajectoire On voit qu'une notion de cohérence est contenue dans le tissu proprement dit des liaisons entre les données, alors que les éléments pris isolément peuvent avoir des v-tests faibles et donc ne pas se révéler directement significatifs. Remarque La proximité entre les modalités A et B de deux variables peut être le résultat de deux effets distincts. Soit les deux modalités ont une majorité d individus en commun, ce qui assure la proximité des points-moyens; soit les individus sont différents mais ils sont dans la même zône du graphique. Dans tous les cas on interprète la proximité en terme de similitude des individus constituant les groupes. A B A B Les mêmes individus partagent les deux modalités Les individus sont semblables mais distincts Proximité de modalités. Alain Morineau Page 39 DeeNov
C est ainsi que catégories d âge peuvent être proches, bien qu elles concernent des individus distincts. D un autre coté, les personnes qui votent de telle façon seront dans la même zône graphique que les personnes qui consomment tel produit, parce qu ils ont globalement le même profil socio-culturel, sans être exactement les mêmes individus. ACP non normée Dans une ACP, l'inertie du nuage d'origine est décomposée dans des directions orthogonales successives prenant en compte à chaque fois une part d inertie maximale. Quelle est la contribution de chaque variable à l inertie totale du nuage? La formule de distance entre points-variables fait que la contribution de chaque variable à l'inertie totale est la même et égale à 1/p. En effet, on va voir que l'inertie du nuage de points-variables par rapport à l'origine est égale au nombre de variables actives. p IT d ( j,0) p j1 Il suffit de travailler avec les données centrées et réduites définies par: z ij x ij x j s j où x j est la moyenne de la variable j et s j est son écart type. Nous parlons alors d'analyse en composantes principales normée. Dans ce cas, la distance de chaque variable à l'origine est égale à l'unité: d 1 x ij x n 1 j (j,0) n (x ij x j ) i n s j 1 i1 s j Tous les points-variables sont situés à une même distance de l'origine (sur une hyper-sphère de rayon unité) et participent de façon égale à l'inertie totale. Cette situation n est pas toujours justifiée. Par exemple, dans une analyse réalisée pour le compte d'une entité banquaire, il sera intéressant de donner plus de poids aux produits qui contribuent le plus au volume de ses dépôts. Autrement dit, l'importance accordée aux différentes variables doit être conforme aux objectifs de l analyse. Alain Morineau Page 40 DeeNov
Si l on travaille avec des données brutes (simplement centrées, sans avoir réalisé la réduction par l écart-type), nous pouvons voir quelle serait la contribution à l'inertie totale de chaque variable. La distance (au carré) de la variable à l'origine est: d n 1 (j,0) n (x ij x j ) var(j) i1 Dans ce cas les variables ne sont pas sur la sphère de rayon unité, mais la longueur du segment de chaque variable est définie par son écart-type. Nous devons donc imaginer le nuage des pointsvariables comme un ensemble de vecteurs, chacun de longueur égale à l écart type de la variable et formant des angles définis par le coefficient de corrélation entre les variables. Il s agit alors d'analyse en composantes principales non normée. Remarquons que les distances entre deux points variables dépendent dans ce cas, de la corrélation (c est-à-dire de l'angle qu'elles forment), mais aussi des variances des variables: ind 3 R n Nuage de variables var j s j ind ind 1 Nuage de points variables dans une Analyse en Composantes Principales non normée L inertie globale du nuage des points-variables est alors égale à la somme des variances de chaque variable. p I T d p (j, 0) var(j) j1 j1 La contribution de chaque variable à l'inertie globale est donc: var(j) var( j) j La variance est, comme on le sait, fonction de l'unité de mesure de la variable. Cela fournit donc un moyen de moduler l'importance de chaque variable dans une analyse (Ces modifications auront également des répercusions sur les distances entre individus). Alain Morineau Page 41 DeeNov
La variable à plus grande variance sera celle qui contribuera le plus à l inertie du nuage, donc au calcul des directions principales d inertie. Nous verrons que la première composante principale tend à se rapprocher des variables ayant de grandes variances. Dans la pratique, il est souvent justifié de donner aux variables une importance égale en utilisant l ACP normée. C est en particulier indispensable quand les variables actives sont mesurées avec des unités différentes (des euros, des grammes, etc.). Dans l ACP non normée comme dans l ACP normée, les deux nuages de points, individus et variables, ont la même inertie. En effet, l'inertie du nuage des points-individus est la somme des distances au carré de chaque point au centre de gravité, pondérée par le poids de chaque point. Nous pouvons l'exprimer par rapport à chaque axe de l'espace des points-lignes, où chaque axe représente une variable. n p 1 I T (x ij x j ) p n 1 i1n j1 j1i1 n (x ij x j ) p var(j) j1 Par conséquent, la variance le long de chaque axe est la dispersion du nuage projeté sur cet axe. Il est facile de voir que, les axes étant orthogonaux, l'inertie globale est la somme des inerties sur chacun des axes et que l'inertie des points-individus est égale à l'inertie des points-variables. Retenir l essentiel Lorsque les variables actives ne sont pas toutes exprimées dans la même unité de mesure, l opération de réduction par l écart-type permet de rendre comparables les variables puisque toute valeur d une variable devient un écart à sa moyenne exprimé en nombre d écarts-types de la variable. Toutes les observations ainsi recodées deviennent des valeurs comparables, de moyenne nulle et d écarttype unité (ce sont des mesures sans unité). Cette transformation n est donc plus indispensable lorsque toutes les variables actives d origine sont exprimées dans la même unité (des cm, ou des kg, ou des euros, etc.). Dans ce cas, on notera : La distance d une variable à l origine est égale à la variance de la variable : Les points variables ne sont plus sur une hypersphère de rayon 1. les variables les plus dispersées sont les plus excentrées et donc auront une propension à jouer un rôle plus important dans le calcul des axes de plus grande dispersion. Alain Morineau Page 4 DeeNov
La distance entre les variables j et j est la quantité : var(j) + var(j ) cov(j,j ) Elle augmente donc avec les dispersions mais diminue quand leur dépendance linéaire augmente. On considère le triangle (O,j,j ) dont l écart-type de j est la longueur de Oj ; l écart-type de j la longueur de Oj ; dont l angle est aigu si la covariance est positive, et obtus sinon. La matrice analysée pour calculer les directions de plus grand allongement n est plus la matrice des corrélations mais la matrice des covariances. ACP normée e et non normée Normée x ij z ij z s corrélations j j Non normée Distance entre individus d i,' i x ij xij ' x j ij zij z j Matrice diagonalisée X'X covariances Distance entre variables d j, j ' var j var j ' d j, j ' 1 cor j, j ' cov j, j' A. Morineau 14 DeeNov,, 005 On notera que l analyse non normée peut être justifiée même dans le cas où toutes les variables actives sont à l origine exprimées dans la même unité. Une telle analyse correspond alors au souci de faire jouer aux variables un rôle proportionnel à leur dispersion (alors que l analyse normée fait jouer à toutes les variables le même rôle dans le calcul des distances). Relations entre les ajustements des nuages Considérons le tableau X ayant n lignes et p colonnes, donnant naissance à un nuage de n points lignes et un autre nuage de p points colonnes. La technique d analyse factorielle de ce tableau conduit à des réductions de volume de données, à des reconstitutions approchées et à des représentations graphiques. Elle consiste pour Alain Morineau Page 43 DeeNov
l essentiel à trouver les sous espaces qui s approchent au plus près de ces nuages. Ces sous espaces sont définis par des vecteurs unitaires orthogonaux successifs, porteurs des directions successives de plus grand allongement des nuages : u1, u,, up pour le nuage des n points-lignes v1, v,, vp pour le nuage des p points-colonnes Noter que ces deux espaces, sans avoir de points communs, ont en fait la même dimension p (le rang de la matrice X : la plus petite des valeurs n et p, c est-à-dire p en général). Les n points-lignes projetés sur le plan (u1,u) fournissent la meilleure représentation approchée (au sens des moindres carrés) de la configuration du nuage de ces points. De la même façon, la projection des p points-colonnes sur le plan (v1,v) fournit la meilleure visualisation dans un plan du nuage des points-variables. Dans chaque cas, le critère des moindres carrés invoqué est le suivant : la somme des carrés des distances entre tous les couples de points sur le plan est la plus proche possible de la somme réelle des carrés des distances dans l espace complet. Relations de transition 1 u X v 1 v X u Le tableau X et son transposé X sont les matrices de passage entre les axes des deux espaces Les coordonnées des projections sur les axes dans R p et R n sont les lignes de Xu et de X v A. Morineau 8 DeeNov,, 005 Alain Morineau Page 44 DeeNov
Reconstitution approchée. Combien d axes retenir? Avec les premières composantes principales, nous recomposons la majeure partie de la dispersion entre les points. Mais combien d'axes faut-il retenir? Reconstitution approchée p X v u v u 1 1 si les p q plus petites valeurs propres sont jugées «négligeables» q (Compression des données ) A. Morineau 9 DeeNov,, 005 La question est difficile et n'admet certainement pas de réponse définitive. Il faut d'abord savoir à quoi l on destine les axes que l'on veut retenir. Prenons quelques exemples: On peut vouloir retenir les axes pour faire des représentations graphiques qu'il faudra examiner visuellement. Dans ce cas le nombre d'axes le plus confortable est, car on regardera les nuages sur une feuille de papier: ce sont les axes F1 et F. On peut essayer de représenter le "volume" dans l'espace (F1, F et F3), mais les réalisations graphiques sont souvent difficiles à lire. On ne peut rien voir au delà de trois dimensions. On peut imaginer regarder des projections telles que (F, F3) ou (F1, F4) mais là encore, l'effort "intellectuel" est énorme pour visualiser les configurations de points où les distances lues sont le résultats de compressions dans des directions qui ont disparu. S'il s'agit de visualisation plane donc, on se contentera le plus souvent du premier plan factoriel. Poir "voir" au delà de ce plan, on aura recours en général à la complémentarité apportée par les méthodes de classification. Si on retient des axes factoriels comme support pour réaliser une classification, le problème est différent. On cherche à retenir beaucoup d'axes (pour rester aussi proche que possible des données observées), mais on supprimera les directions Alain Morineau Page 45 DeeNov
correspondant aux plus petites valeurs propres (fluctuations aléatoires des données, ne correspondant à aucune liaison réelle entre les variables) pour assainir l'information utilisée pour comparer les individus. Si on veut utiliser les axes factoriels pour une analyse discriminante ou une régression multiple, on cherchera à retenir un petit nombre d'axes, mais pas nécessairement les premiers. On trouvera éventuellement des directions discriminantes dans des axes de rangs assez élevés. Quel que soit le cas, la réponse n'est pas immédiate, elle est liée à la stabilité des résultats obtenus. Nous devons nous méfier des règles automatiques, et la pratique démontre qu'il est possible de trouver des axes factoriels stables même s'ils correspondent à des valeurs propres faibles. Remarque. Pour diminuer la part d inertie de chaque axe, il suffit d ajouter au tableau de données des nouvelles variables aléatoires non corrélées (bruit blanc). Le paradoxe est que (s il s agissait d information) "l information" apportée par les premiers axes reste inchangée. Alain Morineau Page 46 DeeNov
Glossaire succinct On rassemble ici quelques mots du vocabulaire utilisé de façon courante dans le texte. Il y a une large part d arbitraire dans le choix de tel mot plutôt que tel autre mais l important est de lever d éventuelles ambiguïtés. continues actives Composantes principales ind. Act. F F1 cont. act. X4 X1 F X3 X F1 Eléments actifs F F H F âge F1 F1 Eléments illustratifs nomi. ill. cont. ill. A. Morineau 10 DeeNov,, 005 Tableau de synthèse de l ACP Tableau de données: C est un tableau rectangulaire composé de lignes et de colonnes. Dans chaque case, intersection d une ligne avec une colonne, se trouve une donnée, codée numériquement pour une variable continue, et numériquement ou alphabétiquement pour une nominale. On dit aussi matrice des données. On parle également du tableau individus x variables. Le tableau est souvent noté X; il aura n lignes et p colonnes. Individu (individu statistique): Pour nous, ce sera ici une ligne du tableau de données. C est la dimension répétitive du tableau de données: on a des relevés statistiques, des mesures, des réponses pour un individu (première ligne du tableau), puis pour un autre (deuxième ligne), etc. Variable: Toute colonne du tableau de données sera appelée une variable. Pour chaque individu, on fait les mêmes mesures, les mêmes relevés, on pose les mêmes questions. Au lieu de variable, on peut dire mesure, ou paramètre, ou question, etc. Variable continue: On parle de variable continue quand la mesure faite sur l individu est de type quantitatif. Pour fixer les idées, une variable est continue quand la notion de moyenne a un sens. Variable nominale: La variable est nominale quand les valeurs qu elle prend sont des noms de catégories. C est le cas du statut matrimonial, de l âge s il est découpé en classes, des régions géographiques. On dit parfois variable qualitative, variable catégorielle, etc. Alain Morineau Page 47 DeeNov
Modalité: Les modalités sont les valeurs que prend une variable nominale. La variable Sexe a deux modalités. On peut dire aussi: groupe, catégorie, classe, etc. Nuage de points: Dans le plan ou dans l espace à trois dimensions, la notion usuelle de nuage de points est claire: les points sont positionnés en fonctions de leurs coordonnées sur un repère d axes orthogonaux et on sait calculer la distance (usuelle) entre deux points. Avec plus de trois axes de coordonnées, le nuage de points continue à exister, mais naturellement on ne peut plus le visualiser. Distance: La distance entre deux points au sein d un nuage de points est la notion usuelle de distance (calculable en fonction des coordonnées des points par le célèbre théorème de Pythagore). Inertie: C est une notion mécanique mais en tout point équivalente ici à la notion statistique de variance. Elle est liée à la notion de dispersion dans l espace d un nuage de points pesants. Ainsi, si les individus ont des poids égaux, la direction de plus grande inertie d un nuage de points est sa direction de plus grand allongement. Centre de gravité: Le centre de gravité est le point moyen d un nuage de points pesants. Il y a équivalence ici entre la notion mécanique de centre de gravité et la notion statistique de point moyen. Analyse factorielle: Visualisation optimale d'un espace multidimensionel sur un ou plusieurs plans factoriels. ACP: Acronyme pour Analyse en Composantes Principales. Variables actives: Variables qui participent à la construction des axes, du nuage de points projetés. Variables illustratives: Variables qui n'ont pas participé à la construction des axes, mais permettent d'illustrer les différents plans factoriels. Contribution: Mesure la participation d'un élément (modalité, variable, fréquence ou individu)à la construction de l'axe. Cosinus: Mesure la qualité de la projection d'un élément élément (modalité, variable, fréquence ou individu) sur l'axe. Valeur-test: (ou v-test) Mesure, en nombre d'écarts-types d'une loi normale, la distance entre une valeur statistique observée et sa valeur sous l'hypothèse nulle (=tirage au hasard). Sert à caracteriser les axes, les modalités, les classes, etc. Alain Morineau Page 48 DeeNov
Quelques références La littérature sur le sujet est de plus en plus abondante d année en année. Pour une bibliographie plus détaillée dans l esprit de ce contenu, consulter par exemple nos publications : Lebart L., Morineau A., Tabard N. Techniques de la Description Statistique. Dunod, Paris, 1977. Lebart L., Morineau A., Piron M. Statistique Exploratoire Multidimensionnelle. Dunod, Paris, 1995 (1 ère édition), 006 (4 ème édition). Lebart L., Morineau A., Warwick K. Multivariate Descriptive Statistical Analysis. J. Wiley, New York, 1984. Morineau A., Aluja-Banet T. L Analyse en Composantes Principales. CISIA, Paris, 1998. Références historiques incontournables : Eckart C., Young G. (1936) The approximation of one matrix by another of lower rank. Psychometrika, 1, p 11-18. Rao C. R. (1964) The use and interpretation of principal component analysis in applied research. Sankhia serie A, 6, p 39-357. Benzécri J-P. (1973) L analyse des données ( tomes). Dunod, Paris. Alain Morineau Page 49 DeeNov