GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID goutte@math.univ-paris13.fr Master 2 EID 07/08 1

1 Introduction 1.1 Les Analyses Factorielles Nous étudierons les diérents types d'analyses factorielles. Le choix du type dépendra des variables à analyser. ACP : des variables quantitatives (Analyse en Composante Principale) AFC : deux variables qualitatives (Analyse Factorielle des Correspondances ) ACM : plusieurs variables qualitatives (Analyse des Correspondances Multiples ) Le nom de ces procedures sous SAS sont: PROC FACTOR (ACP avec Rotation des axes) PROC PRINCOMP (Regression logistique linéaire methode maximum de vraisemblance) PROC CORRESP (Analyse des correspondances simples et multiples) 1.2 Pourquoi? Les méthodes d'analyses factorielles sont souvent regroupées sous le terme générique d'analyse des données. Les méthodes d'analyses factorielles ou d'analyse des données se situent essentiellement dans un contexte exploratoire. En eet, l'analyse des données peut être dénie comme l'extension de la statistique descriptive au cas multidimensionnel. Les analyses factorielles sont avant tout descriptives et permettent une analyse simultanée d'un ensemble de variables. Les analyses factorielles ont pour but de «résumer» au mieux des tableaux rectangulaires de données Pour cela diérentes techniques se distinguent selon la nature des données analysées: quantitatives, qualitatives, les deux. Leurs démarches consistenet à remplacer les variables d'origine, nombreuses, par de nouvelles variables, synthétiques, en nombre inférieur et à conserver les premières d'entre elles. Au sens qu'on ne conservera que celle apportant le plus d'informations. Au nal, les variables d'origine sont remplacées par des axes, combinaisons des variables d'origine, et perpendiculaires deux à deux. Ces axes permettent de positionner les individus et les variables origines sur des plans en 2D. C'est ce que nous appelerons projection ( ou nuages)des individus, ou des variables sur les deux meilleurs axes factorielles. 1.3 Les méthodes Comme nou sl'avons vu plus haut il y a trois principales méthodes: ACP : des variables quantitatives (Analyse en Composante Principale) goutte@math.univ-paris13.fr Master 2 EID 07/08 2

AFC : deux variables qualitatives (Analyse Factorielle des Correspondances ) ACM : plusieurs variables qualitatives (Analyse des Correspondances Multiples ) Avant de s'interesser en détail à l'acp, parlons des deux autres méthodes. Analyse Factorielle des Correspondances: AFC L'AFC traite des données diérentes de celles requises par l'acp. En eet, l'acp traite des données quantitatives alors que l'afc permet le traitement des tableaux croisés encore appelés tableaux de contingence. Un tableau de contingence doit vérier la propriété suivante : la somme des éléments en ligne possède une signication, de même que la somme des éléments en colonnes. L'objectif de l'afc est alors d'étudier la nature de la liaison éventuelle entre les deux caractères. D'un point de vue algorithmique, la diérence entre l'acp et l'afc réside seulement dans le choix de la métrique. En ce sens qu'une métrique permet de mesurer une distance entre deux vecteurs (un individu est un vecteur dans l'espace des variables, une variable est un vecteur dans l'espace des individus). En ACP, la métrique utilisée est la distance euclidienne. En AFC, la métrique est la distance du Khi-2. A part la métrique et la nature des données, la démarche en AFC est identique à la démarche en ACP. Analyse des Correspondances Multiples: ACM Historiquement, l'acm est un simple prolongement de l'afc aux tableaux de données mis sous forme binaire ou tableaux logiques. En eet, faire une ACM sur deux variables qualitatives est identique à faire une AFC sur le tableau de contingence de ces deux variables. Cependant si l'acm ressemble à l'afc sur le plan technique, sur le plan des objectifs elle s'apparente plus à l'acp à travers l'analyse de tableaux individus-variables. Remarque : L'ACM peut traiter des variables quantitatives, mais celles-ci doivent au préalable être découper en classes. Initialement, le tableaux des données se résume à une matrice X, où une ligne correspond à un individu et une colonne à une modalité d'une variable. Ce tableau est composé de 0 et de 1. La méthode est alors semblable à celle de l'acp que nous verrons par la suite. 2 L'Analyse en Composantes Principales (ACP) 2.1 Représentation mathématique On possède un tableau rectangulaire de mesure (comme une matrice) dont les colonnes sont des variables (mensurations, taux, températures,...) et dont les lignes représentent des goutte@math.univ-paris13.fr Master 2 EID 07/08 3

individus statistiques (unités élémentaires telles que des êtres humains, des pays, des années...). On note X ce tableau de données. X: Tableau de données X 11 X 1p. X ij. X n1 X np X ij : Valeur de la i me observation pour la j ime variable X i. : i me observation du tableau X.j : j me variable du tableau n : Eectif des individus p: Nombre de variables 2.2 Objectif Notre objectif est d'extraire l'essentiel de l'information contenue dans le tableau de données X et d'en fournir une représentation se prêtant plus aisément à l'interprétation. Autrement dit, nous nous proposons de rechercher une représentation des n individus dans un sousespace de l'espace initial. Nous cherchons donc à dénir k nouvelles variables, combinaison des p de l'espace initial, qui font perdre le moins d'information possible. Ces k variables seront appelées composantes principales et les axes qu'elles déterminent axes principaux. 2.3 Rappels mathématiques L'analyse du nuage de points utilise la notion fondamentale de distance. On munit l'espace des individus de la distance euclidienne classique. d(x i., X j. ) 2 = n k=1 X ik X jk 2 On désigne par g le centre de gravité du nuage : g = 1 n n i=1 X i. g est donc un vecteur de dimension n. La matrice X est généralement centrée sur le centre de gravité : X 11 X 1 X 1p X p X =..... X n1 X 1 X np X p Elle peut être aussi réduite : goutte@math.univ-paris13.fr Master 2 EID 07/08 4

X 11 X 1 X 1p X p σ(x p) σ(x 1 ) X =..... X n1 X 1 σ(x 1 ) X np X p σ(x p) On peut alors calculer les matrices de covariances et de corrélations. En eet une fois la matrice X transformée en X ou X, il sut de la multiplier par sa transposée X t pour obtenir: la matrice de variance-covariance si X est juste centrée. la matrice de corrélation si X est centrée réduite, autrement dit normée. Covariances = 1/n X t X Correlations = 1/n X t X Ces deux matrices sont des matrice carrées de taille p, symétriques, et réelles. Elles sont diagonalisables dans une base orthonormée. Dans la suite nous noterons par X les matrices X et/ou X. 2.4 Projections sur un sous-espace Le principe de l'acp est de trouver un axe u, issu d'une combinaison linéaire des X.j, tel que la variance du nuage autour de cet axe soit maximale. Nous cherchons donc le vecteur u tel que la pojection orthogonale du nuage sur u ait une variance maximale. Soit C la matrice de covariance ou de corrélation précédement calculée. La projection de l'échantillon des X sur u s'écrit : La variance empirique de π u (X) vaut donc : π u (X) = X u π u (X) t 1/n π u (X) = u t X t 1/n X u } {{ } C Comme nous l'avons vu plus haut C est diagonalisable dans une base orthonormée, notons P la matrice de changement de base associée et la matrice diagonale associée. On obtient ainsi que : π u (X) 1/n π u (X) = u t P t P u = (P u) t (P u) } {{ } v Avec cette réécriture, nous cherchons le vecteur unitaire v qui maximise v t v où = Diag(λ 1,..., λ p ) est diagonale. Rangeons les valeurs de la diagonale de en ordre décroissant. On peut rapidement vérier qu'il sut de prendre le premier vecteur unitaire on a alors : v t v = λ 1 goutte@math.univ-paris13.fr Master 2 EID 07/08 5

On a donc que la diagonalisation de la matrice de corrélation (ou de covariance si on se place dans un modèle non réduit), nous a permis d'écrire que le vecteur qui explique le plus d'inertie du nuage est le premier vecteur propre correspondant au vecteur propre de la plus grande valeur propre. De même le deuxième vecteur qui explique la plus grande part de l'inertie restante est le deuxième vecteur propre, etc. Finalement, la question de l'acp se ramène donc à un problème de diagonalisation de la matrice de corrélation. 2.5 ACP sous SAS Deux procédures SAS permettent de réaliser des Analyses en composantes principales: PROC PRINCOMP PROC FACTOR Pour dessiner les plans factoriels (nuages des individus et des variables), deux autres procédures sont utilisées Pour adapter les tables : la PROC TRANSPOSE Pour éditer le graphique : la PROC PLOT Remarque : Quand on utilise une PROC PRINCOMP, il est nécessaire d'enchaîner sur une PROC FAC- TOR METHOD=SCORE si on souhaite dessiner les plans factoriels. PROC PRINCOMP <options>; BY variables; VAR variables; RUN; Algorithme 1: Procédure PRINCOMP Les options sont: DATA=Table-SAS OUT=Table-SAS: Table SAS qui contient les données initiales plus les scores des individus sur les composantes principales. OUTSTAT=Table-SAS: Table SAS qui contient les moyennes, variances, nombres d'observations, corrélations ou covariances, les valeurs propres et les composantes principales (scores des variables). goutte@math.univ-paris13.fr Master 2 EID 07/08 6

PROC FACTOR <options>; BY variables; VAR variables; RUN. Algorithme 2: Procédure FACTOR Les options sont: DATA=Table-SAS OUT=Table-SAS OUTSTAT=Table-SAS METHOD=Name Name=PRINCIPAL : réalise une ACP à partir d'un tableau individus-variables Name=SCORE : réalise une ACP à partir des scores des variables sur des composantes principales (par exemple, la table OUSTAT d'une PROC PRINCOMP). NFACTORS=n : détermine le nombre de facteur maximum qui doit être extrait. Nécessaire si on utilise l'option OUT= goutte@math.univ-paris13.fr Master 2 EID 07/08 7