Analyse en Composantes Principales avec XLSTAT

Analyse en Composantes Principales avec XLSTAT Une feuille Excel contenant à la fois les données et les résultats peut-être téléchargée en cliquant ici. Les données proviennent du US Census Bureau (le fichier original peut-être obtenu sur http://eire.census.gov/popest/states_dataset.csv). Elles correspondent à la mesure de paramètres démographiques dans 51 Etats des Etats-Unis en 2000 et 2001. Dans le cadre de ce tutoriel, seules les données de l'année 2001 ont été conservées, et afin de supprimer les effets d'échelle, les variables initiales ont été converties en taux pour 1000 habitants. Le but est ici d'analyser les corrélations entre les variables et d'identifier des états se différenciant fortement des autres. Ces données sont aussi utilisées pour le tutoriel de la Classification Ascendante Hiérarchique (CAH). L'ACP est une méthode très efficace pour l'analyse de données quantitatives (continues ou discrètes) se présentant sous la forme de tableaux à M observations / N variables. Elle permet de : visualiser et analyser rapidement les corrélations entre les N variables, visualiser et analyser les M observations initialement décrites par N variables sur un graphique à deux ou trois dimensions, construit de manière à ce que la dispersion entre les données soit aussi bien préservée que possible, construire un ensemble de P facteurs non corrélés (P<=N) qui peuvent ensuite être réutilisés par d'autres méthodes (la régression par exemple). Les limites de l'acp viennent du fait que c'est une méthode de projection, et que la perte d'information induite par la projection peut entraîner des interprétations erronées. Des astuces permettent cependant d'éviter ces inconvénients. Une fois qu'xlstat-pro est activé, cliquez sur le menu XLSTAT/Analyse de données/analyse en Composantes Principales, ou cliquez sur le bouton correspondant de la barre "Analyse de données" (voir cidessous). Une fois le bouton cliqué, la boîte de dialogue correspondant à l'analyse en composantes principales apparaît. Vous pouvez alors sélectionner les données sur la feuille Excel. Il y a plusieurs façon de sélectionner les données dans la boîtes de dialogue XLSTAT (voir le tutoriel sur le sujet). Dans l'exemple étudié ici les données commencent dès la première ligne; il est donc plus rapide de choisir le mode de sélection par colonnes. C'est pourquoi dans la boîte de dialogue ci-dessous, les sélections apparaissent sous forme de colonnes. Toutes les options par défaut de la boîte de dialogue sont laissées telles quelles. L'option "Libellés présents" est activée, car la première ligne de données contient le nom des variables. Le "Type" choisi ici est "Obs/Variables" car c'est le bien le format des données de départ. Les autres possibilités sont "Matrice des corrélations" ou "Matrice de covariance". Le "Type de matrice " choisi est Pearson, ce qui signifie que les calculs seront basés sur une matrice composée des coefficients de corrélations de Pearson, qui est le coefficient de corrélation communément utilisé.

Les calculs commencent lorsque vous cliquez sur le bouton "OK". Si vous avez choisi dans le panneau des options XLSTAT l'option "saisie assistée", XLSTAT vous demande de confirmer le nombre de lignes et de colonnes. Ensuite une boîte de dialogue vous présente les options pour l'affichage des graphiques. Nous choisissons ici d'afficher les libellés sur l'ensemble des graphiques. Lorsqu'il y a beaucoup d'individus (de lignes), l'affichage des libellés peu être considérablement ralentir l'affichage des résultats. Vous avez cependant la possibilité dans ce cas de n'afficher qu'un sous-ensemble des individus. Puis une nouvelle boîte vous permet de choisir. Dans notre cas, le % de variabilité représenté par les deux premiers facteurs n'est pas particulièrement élevé (67.72%) ; pour éviter une mauvaise interprétation des graphiques, un affichage sur les axes 1 et 3 est donc demandé. Le premier résultat intéressant à analyser est la matrice des corrélations. On remarque le résultat évident que les taux de la proportion de gens étant agés de plus et moins de 65 ans sont parfaitement corrélés (r = -1). Les deux variables sont donc redondantes. On remarque l'immigration provenant d'autres états des USA est très peu corrélée avec les autres variables, y compris avec l'immgration provenant de pays étrangers. Cela indique que les raisons d'immigration sont sûrement différentes pour les deux populations concernées.

Le tableau suivant et le graphique associé sont liées à un objet mathématique, les valeurs propres, qui sont heureusement liées à un concept très simple : la qualité de la projection lorsque l'on passe de N dimensions (N étant le nombre de variables, ici 7) à un nombre plus faible de dimensions. Dans notre cas, on voit que la première valeur propre vaut 3.567 et représente 51% de la variabilité. Cela signifie que si l'on représente les données sur un seul axe, alors on aura toujours 51% de la variabilité totale qui sera préservée. A chaque valeur propre correspond un facteur. Chaque facteur est en fait une combinaison linéaire des variables de départ. Les facteurs ont la particularité de ne pas être corrélés entre eux. Les valeurs propres et les facteurs sont triés par ordre décroissant de variabilité représentée. Idéalement, les deux premières valeurs propres correspondent à un % élevé de la variabilité, si bien que la représentation sur les deux premiers axes factoriels est de bonne qualité. Dans notre exemple, cela n'est pas tout à fait le cas, d'où la nécessité de valider les hypothèse formulées par l'utilisation des graphiques sur les facteurs F1 et F2 d'une part, et F1 et F3 d'autre part. Nous voyons ici que le nombre de facteurs est 6, alors que nous avions au départ 7 variables. Cela est dû aux deux variables redondantes. On comprend bien que l'information puisse être synthétisée sur 6 dimensions. Le nombre de dimensions "utiles" maximum est automatiquement détecter par la méthode utilisée. Le premier graphique particulier à la méthode est le cercle des corrélations (voir ci-dessous le cercle sur les axes F1 et F2). Il correspond à une projection des variables initiales sur un plan à deux dimensions constitué par les deux premiers facteurs. Lorsque deux variables sont loin du centre du graphique, alors si elles sont : proches les unes par rapport aux autres, alors elles sont significativement positivement corrélées (r proche de 1), orthogonales les unes par rapport aux autres, alors elles sont significativement non-corrélées (r proche de 0), symétriquement opposées par rapport au centre, alors elles sont significativement négativement corrélées (r proche de -1). Lorsque les variables sont relativement proches du centre du graphique, alors toute interprétation est hasardeuse, et il est nécessaire de se réferrer à la matrice de corrélations à d'autres plans factoriels pour

interpréter les résultats. Dans notre exemple, nous pourrions déduire du graphique ci-dessous que les variables Immigration domestique, et Immigration Internationale sont corrélées, alors qu'elles ne le sont pas, ce que l'on peut voir sur la matrice des corrélations ou sur le cercle des corrélations sur les axes F1 et F3. En revanche, on voit bien la forte corrélation entre le taux de mortalité et le taux de personnes dont l'âge est supérieur à 65 ans. Le cercle des corrélations est aussi utile pour interpréter la signification des axes. Dans notre cas, l'axe F1 est clairement lié à l'âge de la population et à son renouvellement, alors que l'axe F2 est essentiellement lié à l'immigration domestique. Ces tendances sont particluièrement intéressantes à dégager pour l'interprétation du graphique des individus (voir ci-dessous). Pour confirmer le fait qu'une variable est fortement liée à un facteur, il suffit de consulter la table des cosinus : plus le cosinus est élevé (en valeur absolue), plus la variable et liée à l'axe. Plus le cosinus est proche de zéro, moins la variable est liée à l'axe. Dans notre cas, nous voyons que ce qui concerne l'immigration internationale sera mieux interprétée sur les F2/F3. Le graphique ci-dessous correspond à l'un des objectifs de l'acp. Il permet de représenter les individus sur une carte à deux dimensions, et ainsi d'itenfier des tendances. On voit dans notre exemple que sur la base des variables démographiques dont on dispose, le Nevada et la Floride sont assez particuliers, de même que l'utah et Alaska qui semblent partager des caractéristiques : en regardant les données, on s'aperçoit que ces deux états ont une population nettement plus jeune que la moyenne, et une natalité très élevée.

L'Analyse en Composantes Principales est souvent utilisée avant une régression car elle permet d'éviter d'utiliser des variables redondantes, ou avant une classification car elle permet d'identifier la structure de la population et éventuellement de déterminer le nombre de groupes à construire. Les données utilisées dans ce tutoriel sont aussi utilisées dans le tutoriel sur la Classification Ascendante Hiérarchique. En tenant compte des remarques faites ci-dessus, la variable "pop >65" a été supprimée afin de ne pas rendre le poids des variables liées à l'âge trop important pour le regroupement des états.