Ces supports de cours ont été construits dans le cadre d'un enseignement d'analyse de données et représentation cartographique à l'université Paris 1 Panthéon-Sorbonne. Sources Sources ayant servi à la construction de ce support de cours : - Cours de Marie-Hélène Vandersmissen, Professeur Université Laval, QC ; - Notes de cours «Cartographie Assistée par Ordonateur», de Jean Raveneau, Université Laval, QC ; - Pumain D., Béguin M., 2003, «La représentation des données statistiques : Statistique et cartographie» ; - Lebart L., Morineau A., Piron M., 2000, «Statistique exploratoire multidimensionnelle», 3 ème édition. Plan de cours Introduction : Chapitre 1 : L analyse en composante principale (analyse multivariée sur tableau élémentaire) Chapitre 3 : La classification ascendante hiérarchique (CAH) Conclusion Chapitre 2 : L analyse factorielles des correspondances (analyse multivariée sur tableau de contingence) 1
A- Qu est ce que classer? Organiser l information; Mettre ensemble dans une même classe les objets qui se ressemblent; Obtenir des classes d éléments formant une partition de l ensemble étudié; Associer à chaque classe un type généralisant les éléments de la classe. B- Différences entre analyse factorielle et analyse de classification : L analyse factorielle cherche à réduire le nombre de variables (repose sur la similarité des variables). L analyse de classification cherche à regrouper les observations similaires (repose sur la similarité des observations). Technique de réduction de données : réduire les n observations originale en g groupes (1 g n); Le but est de minimiser la variation intra-classes et maximiser la variation inter-classes. C- Complémentarités entre analyse factorielle et analyse de classification : L analyse factorielle met en évidence des structures. Toutefois, les analyses factorielles conduisent : 1- Des résultats souvent difficiles à interpréter; 2- Une visualisation à deux ou très peu de dimensions, alors que les nombre de facteurs «significatifs» peut être supérieur; 3- Une visualisation pouvant manquer de robustesse (un individu au profil aberrant peut influencer notablement les facteurs; 4- Une visualisation en graphique chargé et peu lisible. 2
C- Complémentarités entre analyse factorielle et analyse de classification : L analyse de classification cherche à partitionner l ensemble des individus statistiques élémentaires à partir de l ensemble des individus ou des facteurs les plus significatifs d une analyse factorielle : 1 et 2- Les classes (ou clusters) prennent en compte la dimension réelle du nuage de points. Elles corrigent des déformations dues à l opération de projection. Elles aident à la compréhension des axes factoriels; 3- Algorithmes d agglomération plus robustes. Les classes sont indépendantes d éventuels points marginaux isolés (valeurs extrêmes); 4- Les classes sont plus simples à décrire que des espaces continus. La sortie graphique est allégée (une carte en classe). Introduction à l AFC C- Complémentarités entre analyse factorielle et analyse de classification : -Tableau de mesures -Tableau de % -Tableau de contingence - Variables qualitatives codées en «disjonctif complet» ACP - des individus et des variables - Distance euclidienne AFC -des lignes et des colonnes Idée de symétrie - distance du chi 2 Facteurs CAH -Distance euclidienne - distance du chi2 D- Applications de l analyse de classification : Géo-démographie : réduction d un grand nombre de sous-régions (secteurs de dénombrement) en les reclassant dans un plus petit nombre de régions; Méthode de régionalisation dont l objectif est de diviser une région en plus petit nombre de régions contiguës : Vise à définir des régions = ensemble de lieux voisins aux caractéristiques semblables. Constitution d une typologie : groupes différents composés chacun d objets semblables, indépendamment de la localisation géographique de ces objets; ex : typologie des villes d Île de France sur la base de la structure de la population active. 3
E- 2 grands types d analyse de classification : Méthodes hiérarchiques : Débute avec n groupes (cluster), soit, n = nombre d observations; Ensuite joint 2 groupes, ne reste que n-1 groupes; Processus se poursuit jusqu à ce qu il n y ait qu un seul groupe (qui contient l ensemble des observations); Processus hiérarchique car la fusion de deux observations à n importe quelle étape ne peut pas se défaire plus tard; E- 2 grands types d analyse de classification : Méthodes non-hiérarchiques : Décision a priori de former n groupes = désavantage; Choix de points de base et groupement des autres autour d eux : - Choisis aléatoirement, systématiquement, sur un maillage géographique ou à partir d exigences propres au problème. A- La CAH qu est ce que c est? La CAH organise les observations, définies par des caractères (variables), elles-mêmes divisées en modalités/valeurs, en les regroupant hiérarchiquement. Agrégation des plus semblables puis les observations ou groupes d observations un peu moins semblables ainsi de suite jusqu au regroupement trivial de l ensemble de l échantillon. C est parce que cette technique part du particulier pour remonter au général qu elle est dite «ascendante» ou agglomérative. Cette démarche est à l inverse de techniques beaucoup moins utilisées en analyse de données. 4
B- Les principe de la CAH? Débute avec n groupes (cluster), soit, n = nombre d observations; Ensuite joint 2 groupes, ne reste que n-1 groupes; Processus se poursuit jusqu à ce qu il n y ait qu un seul groupe (qui contient l ensemble des observations); Processus hiérarchique car la fusion de deux observations à n importe quelle étape ne peut pas se défaire plus tard; C- Comment obtenir de bonnes classes? En minimisant l inertie intra-classes et en maximisant l inertie inter-classes C- Comment obtenir de bonnes classes? En minimisant l inertie intra-classes et en maximisant l inertie inter-classes 5