Atelier N 6 : Analyse en composantes principales (ACP) Présentation des méthodes d analyses multivariées

Atelier N 6 : Analyse en composantes principales (ACP) Contenu : Présentation des méthodes d analyses multivariées Présentation des méthodes d analyses multivariées Classification des méthodes : Les méthodes d analyse multivariées sont classées selon deux critères : l objectif de l analyse : on distingue les méthodes descriptives ; qui fournissent une information synthétisée ou résumée ; des méthodes explicatives qui permettent qui permettent de déceler des relations entre les différents variables. Nature des variables : le type de mesure (nominale, ordinale ou échelle) conditionne le choix d une méthode. Objectif de l analyse Réduire Simplifier Synthétiser Méthodes descriptives (Toutes les variables sont analysées ensemble.) Expliquer Identifier Méthodes explicatives (les variables sont scindées en deux groupes : variables à expliquer et variables explicatives) Nature des variables Nominale Analyse des Analyse discriminante correspondances Ordinale Analyse des similarités Analyse des mesures conjointes Métrique Analyse en composantes Analyse de régression multiple principales Analyse en composante principale : Objectifs : L ACP a pour objectif de simplifier un tableau de données initiales en passant d un grand nombre de variables à un petit nombre de nouvelles variables obtenues en regroupant les variables initiales présentant un coefficient de corrélation relativement important. Page 1/7

Etapes de l analyse en composantes principales : Exemple : Une entreprise multinationale souhaite implanter en France l une de ses unités de production. Elle réalise une étude pour évaluer l attractivité économique des 22 régions françaises. Objectif de l analyse : Est il possible de résumer les 7 variables en 2 ou 3 variables maximum avec un minimum de perte d information, de manière à pouvoir interpréter plus facilement cette dernière? Etape 1 : Repérage des observations aberrantes : Les individus présentant des valeurs extrêmes sur les variables risquent de fausser les analyses, de même pour les individus qui ont beaucoup d informations manquantes. Il est donc préférable de ne pas tenir compte de ces deux catégories. Pour la Corse quatre informations sur sept sont manquantes, donc cette région sera écartée de l analyse. Le croisement des variables POPUL et SUPERF montre que la région Île de France est très en dehors du nuage de points, il en va de même pour le croisement des autres variables. Les statistiques univariées pour les 7 variables confirment la situation extrême de la région Île de France, elle sera donc également écartée de l analyse. 1200000 Île-de-France Hte-Norm. 1000000 Fr.-Comté Corse 800000 Champ.-Ard. Centre 600000 Bretagne 400000 Bourgogne Basse-Norm. POPUL 200000 0 0 1000000 2000000 3000000 4000000 5000000 Auvergne Aquitaine Alsace SUPERF Remarque : Pour afficher dans SPSS les légendes des points dans un diagramme de dispersion: Menu Graphe ; Commande Diagramme de dispersion ; Choisir Simple et cliquez sur Définir ; dans la fenêtre diagramme de dispersion simple faites les choix suivants : Axe des Y : POPUL Axe des X : SUPERF Définir les marques par : région Région POPUL TACT SUPERF NBENTR NBBREV CHOM TELEPH Alsace 162400 3914 828000 3597600 24100 520 70000 Aquitain 279500 3662 4130800 8553100 25600 1020 130000 Auvergne 132000 3748 2601300 4049400 12900 930 60000 Basse-No 139000 3863 1758900 3588800 9100 900 60000 Bourgogn 160000 3826 3158200 4071400 22300 810 75000 Page 2/7

Bretagne 279500 3662 2720800 7376300 29600 950 130000 Centre 237000 3878 3915100 5675300 22900 790 110000 Champ.-A 134000 3785 2560600 2406000 15500 930 55000 Corse 24000, 868000 827300,,, Fr.-Comt 109000 3727 1620200 2748100 15900 710 45000 Hte-Norm 173000 3780 1231700 3746100 18100 1080 75000 Île-de-F 1066000 4604 1201200 27360400 672200 730 580000 Lang.-Ro 211000 3212 2737600 6220200 17900 1320 100000 Limousin 72000 3806 1694200 2172100 7300 790 35000 Lorraine 230000 3434 2354700 4835300 18500 860 95000 Midi-Pyr 243000 3714 4534800 7877100 23700 900 110000 Nord.PdC 396000 3205 1241400 7850400 27800 1260 160000 P. de Lo 306000 3793 3208200 7202700 33900 960 130000 Picardie 181000 3439 1939900 3628500 13900 980 75000 Poit.-Ch 159000 3682 2580900 4459800 13300 1010 75000 Pr.-Cte 426000 3496 3140000 13255200 61000 1100 230000 Rh.-Alpe 535000 3944 4869800 15963400 147400 740 250000 Légende : POPUL : Population de la région en milliers d individus. TACT : Taux d activité (population active /population totale de la région) en %. SUPERF : superficie de la région NBENTR : nombre d entreprises NBNREV : Nombre de brevets déposés au cours de l année CHOM : Taux de chômage, en %. TELEPH : Nombre de lignes téléphoniques en place dans la région, en milliers. Etape 2 : Calcul d une matrice de corrélation entre variables initiales Les différentes corrélations entre les variables initiales doivent être calculées et regroupées dans une matrice afin de savoir si le calcul d une ACP a un sens ou non. En effet l ACP crée les nouvelles variables en groupant les variables initiales selon leur corrélation, et chaque groupe de variables initiales corrélées est remplacé par une nouvelle variable (qui est définie comme une combinaison linéaire des variables corrélées de ce groupe). Donc si les initiales sont totalement indépendantes les unes des autres (non corrélées), l ACP ne peut pas être appliqué dans ce cas là. Procédure de calcul de la matrice des corrélations : Page 3/7

Dans le menu Analyse Choisir la commande Corrélations/Indice. Sélectionner les sept variables et déplacer les dans la zone Variables. Dans la zone Calcul des indices choisir Entre variables. Dans la, zone Mesure sélectionner Similarités. Cliquer sur Mesures. Dans la zone Mesure sélectionner Intervalle et Corrélation de Pearson. Dans la zone Transformer les valeurs Sélectionner la standardisation Centrer-réduire : Pour transformer les variables de sorte à ce que leurs moyennes soient égales à 0 (variables centrées) et leurs variances égales à 1 (variables réduites). En utilisant des variables centrées et réduites aucune variable n aura un poids plus important que les autres dans la construction des nouvelles variables. Cliquer successivement sur Poursuivre et OK. Page 4/7

Dans la matrice des corrélations (appelée Matrice de proximité) ci-dessus on peut distinguer trois cas : des corrélations élevées proches de 0,8-0,9 indiquant le premier groupe de variables corrélées (qui va constituer la première nouvelle variable appelée facteur ou dimension). Deux variables faiblement corrélées avec les autres (CHOM et TACT) mais assez corrélées entre elles (r=0,76), qui constituent la deuxième dimension. Enfin la variable SUPERF est corrélée avec le premier groupe, mais plus faiblement (r entre 0,5 et 06), elle pourrait constituer la troisième dimension. Etape 3 : Calcul des facteurs (nouvelles variables) L ACP construit des combinaisons linéaires des variables de départ, en regroupant les variables corrélées. Procédure de calcul de l ACP avec SPSS : Dans le menu Factorisation sélectionner la commande Analyse factorielle ( L ACP est une méthode d analyse factorielle, on appelle ainsi les méthodes descriptives qui créent de nouvelles variables appelées facteurs en calculant des combinaisons linéaires des variables de départ). Sélectionner toutes les variables et déplacer les dans la zone V variables. Cliquer sur le bouton Caractéristiques et cocher la case Coefficients dans la zone Matrice des corrélations ( Pour avoir la matrice des coefficients de corrélation dans la fenêtre des résultats de l ACP, qui sera identique à celle obtenue dans l étape précédente) Cliquer sur le bouton Extraction. Page 5/7

Sélectionner la méthode Composantes principales Dans la zone Extraire on fixe la manière dont SPSS doit sélectionner les nouvelles variables appelées composantes ou facteurs. Le premier choix valeurs propres supérieures à nous offre la possibilité de sélectionner uniquement les composantes dont la variance est supérieure à une valeur, dans le second choix on fixe le nombre de nouvelles variables à retenir. Dans la zone Afficher sélectionner Graphique des valeurs propres (pour afficher un graphique représentant la variance des composantes). Interprétation des résultats de l ACP : La matrice de corrélation : Cette matrice est identique à celle obtenue dans l étape 2 (appelée Matrice de proximité). Variance des composantes principales ou facteurs SPSS a calculé 7 composantes principales ou facteurs, la première par exemple a une valeur propre ( variance) de 4,158 qui représente 59,39 % de la variance des variables initiales, les trois premières composantes représentent donc 95% de la variance des variables initiales Page 6/7

Il faut choisir un nombre de composantes suffisant pour résumer les variables avec une perte d information minimale. Pour le choix du nombre des composantes à retenir il existe deux critères : Valeur propre ou (critère de Kaiser) : les variables initiales ont une variance égale à 1, puisqu elles sont réduites. On retient les composantes dont la variance est supérieure à 1, parce qu elles apportent plus d information (variance) que les variables de départ. Utilisation du graphique des valeurs propres (Scree-test): On relier par une droite les points presque alignés, en partant de la dernière composante, le nombre de composantes à retenir est alors représenté par les points ne figurant pas sur la droite. En utilisant le critère de Kaiser SPSS a retenu 2 composantes : qui restituent 86,521 % de la variance des variables de départ. En utilisant le critère du Scree-Test d après le graphique des valeurs propres les composantes 4,5,6 et 7 peuvent être considérées comme alignés sur une même droite, donc les composantes à retenir sont les composantes 1,2 et 3 qui restituent 95% de la variance des valeurs initiales. Donc si vous voulez opter pour l utilisation du Scree-Test, il faut refaire l ACP et dans la fenêtre Extraction il faut sélectionner Nombre de facteurs : 3 ( et non l option valeurs propres supérieures à : 1). Page 7/7