UNIVERSITÉ LUMIÈRE LYON 2 UFR DE SCIENCES ÉCONOMIQUES ET DE GESTION M1- Economie quantitative Analyse des données Polycopié 2 : Classification automatique Année Universitaire 2013-2014 Courriel ; rafik.abdesselam@univ-lyon2.fr http://eric.univ-lyon2.fr/~rabdesselam/documents/
Introduction Les techniques de classification 1 automatique constituent le deuxième volet des méthodes d'analyse des données, elles ont pour objectif de structurer les individus (objets). Cette approche consiste à faire des regroupements les moins arbitraires possibles des individus à partir de leurs caractères de description. La classification automatique est un terme générique pour des méthodes d'analyse des données permettant de traiter de grands tableaux de données rectangulaires, où les lignes représentent généralement les individus et les colonnes des caractères ou des questions. Le but de telles techniques est de découvrir des structures cachées de l ensemble des individus, ces structures étant des groupes ou des hiérarchies de groupes emboîtés. Elles visent à mettre en évidence des groupes d'individus aussi homogènes que possible, c est-à-dire que les individus soient très ressemblants entre eux, tandis que deux individus appartenant à des groupes différents doivent être très dissemblants. Les classes de la classification regroupent des individus ayant des caractéristiques (variables) similaires et séparent les individus ayant des caractéristiques différentes : homogénéité interne et hétérogénéité externe. Enfin, ces groupes d'individus sont obtenus au moyen d'algorithmes formalisés. Il n'y a pas de classification parfaite et c'est seulement dans une optique déterminée ou en vue d'une application bien précise que telle classification peut être considérée comme meilleure que telle autre. Les opération dites de typologie, de segmentation ou de classification (qui sont toutes des "partitions" répétées d'un ensemble au sens mathématique du mot) doivent toujours être considérées étroitement liées à l'ensemble des caractères actifs choisis pour définir le thème. Les techniques de classification présentent une synthèse des données différente de celle des techniques factorielles : il y a complémentarité entre les deux approches. Les regroupements peuvent en effet permettre de corriger les déformations opérées lors des projections des individus sur les plans factoriels. En général, pour aller au delà de l'interprétation des premiers axes factoriels, on enchaîne commodément une classification sur l'ensemble des individus caractérisés par leurs premières coordonnées factorielles. On distingue deux types de méthodes de classification : - les méthodes non hiérarchiques (nuées dynamiques) qui produisent directement une partition en un nombre de classes fixé par l'utilisateur, - les méthodes hiérarchiques qui produisent des suites de partitions en classes de plus en plus vastes. Contrairement aux méthodes factorielles, les méthodes de classification ne sont pas déterministes (les différentes méthodes peuvent mener à des résultats très différents, et même certaines méthodes peuvent fournir plusieurs résultats). Ces méthodes dépendent toutes d'une notion de distance. D une part, pour regrouper les individus et d autre part, pour regrouper un individu avec un groupe d'individus. Le choix de ces distances peut fortement influencer les résultats de la méthode, et il n'y a pas de distance qui soit meilleure que toutes les autres. Les deux méthodes de classification qui seront présentées optimisent localement un critère de type inertie. Un critère usuel de classification consiste à chercher la partition telle que l inertie intraclasse soit minimale pour avoir en moyenne des classes bien homogènes, ce qui revient à maximiser l inertie interclasse. La classification est une méthode descriptive et non prédictive. 1 Clustering, segmentation ou typologie (marketing), nosologie (médecine), taxinomie ou taxonomie (biologie et zoologie) M1 : Economie Quantitative Analyse des Données - 2 -
1. Classification non hiérarchique Les regroupements d'individus se font par une recherche directe d'une partition, en affectant les individus à des centres provisoires de groupes, puis en recentrant ces groupes, et en affectant de façon itérative ces individus ( méthode d agrégation autour des centres mobiles ). L utilisateur choisit le nombre de classes à obtenir et une partition initiale. Cette partition initiale peut être tirée au hasard ou bien représenter une répartition plausible des individus en groupes obtenue empiriquement ou par d autres méthodes. L algorithme réitère alors deux étapes successives, une étape de recentrage et une étape de réaffectation. Méthode des nuées dynamiques Pour obtenir efficacement une partition des données, la méthode des nuées dynamiques est la plus utilisée, c est une variante de la méthode des centres mobiles, à savoir qu au lieu de faire un recentrage dès qu un individu change de classe, la méthode des nuées dynamiques effectue un recentrage global après que tous les individus aient été réaffectés. Les deux principales étapes de la méthode : - une étape de recentrage : l'individu moyen de chaque groupe ( centre de classe ) est redéfini en fonction des individus qui lui sont affectés, - une étape d'affectation : chaque individu est placé dans le groupe dont le centre de classe est le plus proche. Ces deux étapes sont répétées jusqu à ce qu'il n'y ait plus de réaffectation c est-à-dire obtenir la stabilité des classes ou encore lorsque l une de ces étapes ne produit plus de modification dans la composition des classes d individus. Cette méthode présente plusieurs particularités : - selon le choix initial des centres des classes, on aboutit à des résultats différents en effet la solution obtenue n'est pas forcément la solution optimale, - le nombre de classes désiré n'est pas déterminé par la méthode mais par l'utilisateur. Il en résulte que les résultats ne sont pas nécessairement optimaux ( à l'heure actuelle, il n'existe aucune méthode optimale nécessitant un temps de calcul raisonnable ). En pratique, pour pallier à ce défaut, on effectue plusieurs essais et l on retient la partition optimale qui présente l inertie intraclasse minimale. 2 Classification Hiérarchique Les méthodes hiérarchiques cherchent à établir des groupes d individus dont les regroupements se font par agglomération progressive des individus similaires puis des assemblages de groupes formant des super-groupes eux mêmes réunis dans des classes plus hétérogènes, etc. On distingue 2 types de classification hiérarchique (ascendante ou descendante). Dans les 2 cas, on obtient une classification des n individus en 1,2,..,n groupes; ces classifications étant emboîtées les unes dans les autres. Un arbre hiérarchique, ou dendogramme, est dessiné pour représenter ces emboîtements de groupes d individus. Les deux types de classification hiérarchique possibles; ascendante ou descendante, correspondent au sens dans lequel l'arbre est construit. 2.1 Classification Hiérarchique Ascendante La Classification Hiérarchique Ascendante (CHA) dite «agglomérative» est un algorithme «ascendant» qui procède par regroupements successifs des individus en vue de fournir une hiérarchie de partitions. A l'initialisation, cette méthode considère que chaque individu constitue un groupe à lui tout seul. M1 : Economie Quantitative Analyse des Données - 3 -
Etape 1, parmi les n individus à classer, on cherche les 2 individus les plus proches 'semblables', que l on regroupe. Ces deux individus sont ensuite agrégés en un nouveau groupe. Etape 2, on calcule les distances entre le nouveau groupe et les individus restants. La configuration est identique à celle de l étape 1, à la différence près que l on a seulement n-1 individus à classer. Ainsi de suite, on cherche de nouveau les 2 individus ou groupes d individus les plus proche, que l on agrège et ainsi jusqu à ce qu il n y ait plus qu un seul groupe d individus. Les différents regroupements d individus obtenus sont présentés sous la forme d une arborescence. A noter que cette méthode est basée sur le critère de Ward qui consiste, à chaque étape de regroupement ou d agrégation, à rendre minimale la perte d inertie interclasse résultant de l agrégation de deux individus ou encore d un individu à un groupe d individus. La figure ci-dessous représente la suite de partitions d'un ensemble de 5 individus. Les individus ou objets (I1, I2, I3, I4, I5) sont les éléments terminaux de l'arbre (ou de la hiérarchie). Les classes d'individus (6), (7), (8), (9) sont les noeuds de l'arbre : ce sont des classes issues de regroupements de deux éléments numérotés à la suite des éléments terminaux et dont chacune détermine une nouvelle partition. Les éléments groupés constituant un noeud sont appelés aîné et benjamin. Arbre hiérarchique br e : dendogramme h iér ar c hiq ue : den do gr a m m e (9) Noeud Effectif Aîné Benjamin (9) (8) (7) (6) 5 3 2 2 (7) I1 I3 I2 (8) (7) I4 I5 «coupure» Partition en 2 classes Classe 1 (8) (7) (6) &&1& &&2& &&4& &&3& &&5& Classe 2 I1 I3 I4 I2 I5 (1) (2) (3) (4) (5) Eléments terminaux de l arbre A la 1 étape : I2 et I5 sont regroupés à la 2 étape : I3 et I4 sont regroupés à la 3 étape : I1 et I3+I4 sont regroupés à la 4 étape : I1+I3+I4 et I2+I5 sont regroupés L'avantage de la méthode hiérarchique par rapport à la méthode des nuées dynamiques est qu'il n'est pas nécessaire de spécifier le nombre de groupes désirés. Les partitions sont obtenues en tronquant l'arbre à un niveau quelconque par une droite horizontale. Par exemple, pour obtenir une partition en 2 classes, on tronque l'arbre au niveau du noeud (8) : 1 ère classe {I1, I3, I4} à 3 individus, la 2 ème classe {I2, I5} à 2 individus. A chaque niveau, où ont lieu les regroupements, correspond une valeur numérique appelée "indice d'agrégation" ; plus cet indice est élevé, plus les classes d'individus regroupés sont hétérogènes. Plus les individus se regroupent au bas de l'arbre hiérarchique, plus ils se ressemblent au sens de l indice de Ward. Une partition est d'autant plus fine que la coupure de l'arbre est proche des éléments terminaux. M1 : Economie Quantitative Analyse des Données - 4 -
2.2 Classification hiérarchique descendante La Classification Hiérarchique Descendante (CHD) dite «divisive» est une méthode inverse de la précédente. Les classes sont créées de proche en proche, on considère initialement que tous les individus appartiennent à une même classe, et successivement on découpe en 2 la classe la plus dispersée jusqu'à ce que l'on obtienne autant de classes que d'individus. 2.3 Exemples de classification hiérarchique Les données ( Principaux indicateurs économiques et financiers de UE-2000 ) Reprenons l'exemple des indicateurs économiques et financiers des 15 pays de l Union Européenne traité en Analyse en Composantes Principales (ACP). L'objectif est de structurer cet ensemble de pays et de mettre en évidence des groupes de pays les plus proches possibles en fonction des variables actives du thème Finances publiques ( interprétation interne des classes de la partition obtenue ). L information supplémentaire apportée par la variable qualitative Etat membre et toutes autres variables quantitatives sont présentées comme variables illustratives ( interprétation externe des classes de la partition obtenue ). M1 : Economie Quantitative Analyse des Données - 5 -
SELECTION DES INDIVIDUS ET DES VARIABLES UTILES VARIABLES CONTINUES ACTIVES 4 VARIABLES 4. Recettes totales des APU ( CONTINUE ) 5. Dépenses totales des APU ( CONTINUE ) 6. Solde des finances publiques ( CONTINUE ) 7. Dette brute des APU ( CONTINUE ) VARIABLES NOMINALES ILLUSTRATIVES 1 VARIABLES 3 MODALITES ASSOCIEES 1. Etat membre ( 3 MODALITES ) VARIABLES CONTINUES ILLUSTRATIVES 6 VARIABLES 2. Population (%) UE-2000 ( CONTINUE ) 3. Produit Intérieur Brut (%) UE-2000 ( CONTINUE ) 8. Taux de chômage en % population active ( CONTINUE ) 9. Ventes au détail en volume (%) ( CONTINUE ) 10. Production industrielle hors bâtiment ( CONTINUE ) 11. Taux de croissance en volume du PIB ( CONTINUE ) INDIVIDUS ----------------------------- NOMBRE -------------- POIDS --------------- POIDS DES INDIVIDUS: Poids des individus, uniforme egal a 1. UNIF RETENUS... NITOT = 17 PITOT = 17.000 SELECTION APRES FILTRAGE ACTIFS... NIACT = 15 PIACT = 15.000 SUPPLEMENTAIRES... NISUP = 2 PISUP = 2.000 ------------------------------------------------------------------------- 2.4 Résultats Les variables continues du thème Finances publiques des 15 pays de l UE a fait l objet d une analyse typologique, Classification Hiérarchique Ascendante (CHA), sur les premières composantes principales de l ACP afin de mettre en évidence des groupes de pays aussi homogènes que possible à partir de leurs finances publiques. 2.4.1 Description des classes de la partition Caractéristiques En inscrivant l analyse dans une démarche de type «thèmascope 2» ou analyse structurelle des données, une Classification Hiérarchique Ascendante a donc été réalisée à partir des deux premières composantes principales significatives de l ACP du thème Finances publiques. Ces deux premières composantes principales, qui restituent environ 90% de l information initiale, ont été retenues pour l analyse typologique. Quatre classes ont été identifiées à partir de l arbre hiérarchique (dendogramme) ci-dessous. Classification Hiérarchique Ascendante - Finances publiques Luxembourg Finlande Suède Danemark Royaume-Uni Pays-bas Espagne Portugal Irlande Allemagne Autriche Italie Belgique Grèce France 2 Technique d exploration des données mettant en pratique des méthodes d analyse de données connues, dans un contexte méthodologique en fonction de l objectif recherché et de la nature des variables retenues. M1 : Economie Quantitative Analyse des Données - 6 -
CLASSIFICATION HIERARCHIQUE (VOISINS RECIPROQUES) SUR LES 2 PREMIERS AXES FACTORIELS DESCRIPTION DES NOEUDS NUM. AINE BENJ EFF. POIDS INDICE HISTOGRAMME DES INDICES DE NIVEAU 16 5 12 2 2.00 0.00567 * 17 9 4 2 2.00 0.00602 * 18 14 11 2 2.00 0.01684 ** 19 2 3 2 2.00 0.02238 ** 20 15 13 2 2.00 0.03191 *** 21 17 7 3 3.00 0.03226 *** 22 21 1 4 4.00 0.05668 **** 23 10 6 2 2.00 0.08615 ****** 24 18 16 4 4.00 0.08628 ****** 25 19 22 6 6.00 0.10297 ******* 26 24 8 5 5.00 0.32804 ********************** 27 23 20 4 4.00 0.44851 ****************************** 28 27 26 9 9.00 1.16136 ***************************************************************************** 29 28 25 15 15.00 1.21195 ********************************************************************************* SOMME DES INDICES DE NIVEAU = 3.59702 NOUVEL ORDRE DES INDIVIDUS : NOUVEAU, NUMERO ET IDENTIFICATEURD'ORIGINE. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Fran Grèc Belg Ital Autr Alle Irla Port Espa Pays Roya Dane Suèd Finl Luxe DESCRIPTION DES NOEUDS DE LA HIERACHIE (INDICES EN POURCENTAGE DE LA SOMME DES INDICES : 3.59702) +-----------------+---------------+------------------+-------------------+ NOEUD SUCCESSEURS COMPOSITION NUMERO INDICE AINE BENJ EFFECT. POIDS PREMIER DERNIER +-----------------+---------------+------------------+-------------------+ 16 0.16 9 8 2 2.00 8 9 17 0.17 4 3 2 2.00 3 4 18 0.47 11 10 2 2.00 10 11 19 0.62 6 5 2 2.00 5 6 20 0.89 13 12 2 2.00 12 13 21 0.90 17 2 3 3.00 2 4 22 1.58 21 1 4 4.00 1 4 23 2.39 15 14 2 2.00 14 15 24 2.40 18 16 4 4.00 8 11 25 2.86 19 22 6 6.00 1 6 26 9.12 24 7 5 5.00 7 11 27 12.47 23 20 4 4.00 12 15 28 32.29 27 26 9 9.00 7 15 29 33.69 28 25 15 15.00 1 15 +-----------------+---------------+------------------+-------------------+ PARTITION PAR COUPURE D'UN ARBRE HIERARCHIQUE Coupure 'a' de l'arbre en 4 classes FORMATION DES CLASSES (INDIVIDUS ACTIFS) DESCRIPTION SOMMAIRE +--------+----------+-----------+-----------+ CLASSE EFFECTIF POIDS CONTENU +--------+----------+-----------+-----------+ aa1a 6 6.00 1 A 6 aa2a 5 5.00 7 A 11 aa3a 2 2.00 12 A 13 aa4a 2 2.00 14 A 15 +--------+----------+-----------+-----------+ COORDONNEES ET VALEURS-TEST AVANT CONSOLIDATION AXES 1 A 2 +---------------------------------------------+-------------------------------+------------------------------------+----------+ CLASSES VALEURS-TEST COORDONNEES --------------------------------------------- ------------------------------- ------------------------------------ ---------- IDEN - LIBELLE EFF. P.ABS 1 2 0 0 0 1 2 0 0 0 DISTO. +---------------------------------------------+-------------------------------+------------------------------------+----------+ Coupure 'a' de l'arbre en 4 classes aa1a - CLASSE 1 / 4 6 6.00-2.4 1.7 0.0 0.0 0.0-1.18 0.65 0.00 0.00 0.00 1.82 aa2a - CLASSE 2 / 4 5 5.00 2.4 1.5 0.0 0.0 0.0 1.35 0.68 0.00 0.00 0.00 2.28 aa3a - CLASSE 3 / 4 2 2.00-1.2-2.3 0.0 0.0 0.0-1.21-1.86 0.00 0.00 0.00 4.92 aa4a - CLASSE 4 / 4 2 2.00 1.4-2.2 0.0 0.0 0.0 1.38-1.78 0.00 0.00 0.00 5.09 +---------------------------------------------+-------------------------------+------------------------------------+----------+ CONSOLIDATION DE LA PARTITION AUTOUR DES 4 CENTRES DE CLASSES, REALISEE PAR 10 ITERATIONS A CENTRES MOBILES PROGRESSION DE L'INERTIE INTER-CLASSES +-----------+------------+------------+------------+ ITERATION I.TOTALE I.INTER QUOTIENT +-----------+------------+------------+------------+ 0 3.59702 2.82182 0.78449 1 3.59702 2.82182 0.78449 2 3.59702 2.82182 0.78449 +-----------+------------+------------+------------+ ARRET APRES L'ITERATION 2 L'ACCROISSEMENT DE L'INERTIE INTER-CLASSES PAR RAPPORT A L'ITERATION PRECEDENTE N'EST QUE DE 0.000 %. DECOMPOSITION DE L'INERTIE CALCULEE SUR 2 AXES. +----------------+-----------------+-------------+-------------------+-----------------+ INERTIES EFFECTIFS POIDS DISTANCES INERTIES AVANT APRES AVANT APRES AVANT APRES AVANT APRES +----------------+-----------------+-------------+-------------------+-----------------+ INTER-CLASSES 2.8218 2.8218 INTRA-CLASSE CLASSE 1 / 4 0.2203 0.2203 6 6 6.00 6.00 1.8179 1.8179 CLASSE 2 / 4 0.4368 0.4368 5 5 5.00 5.00 2.2816 2.2816 CLASSE 3 / 4 0.0319 0.0319 2 2 2.00 2.00 4.9205 4.9205 CLASSE 4 / 4 0.0861 0.0861 2 2 2.00 2.00 5.0854 5.0854 TOTALE 3.5970 3.5970 +----------------+-----------------+-------------+-------------------+-----------------+ QUOTIENT (INERTIE INTER / INERTIE TOTALE) : AVANT... 0.7845 APRES... 0.7845 M1 : Economie Quantitative Analyse des Données - 7 -
COORDONNEES ET VALEURS-TEST APRES CONSOLIDATION AXES 1 A 2 +---------------------------------------------+-------------------------------+------------------------------------+----------+ CLASSES VALEURS-TEST COORDONNEES --------------------------------------------- ------------------------------- ------------------------------------ ---------- IDEN - LIBELLE EFF. P.ABS 1 2 0 0 0 1 2 0 0 0 DISTO. +---------------------------------------------+-------------------------------+------------------------------------+----------+ Coupure 'a' de l'arbre en 4 classes aa1a - CLASSE 1 / 4 6 6.00-2.4 1.7 0.0 0.0 0.0-1.18 0.65 0.00 0.00 0.00 1.82 aa2a - CLASSE 2 / 4 5 5.00 2.4 1.5 0.0 0.0 0.0 1.35 0.68 0.00 0.00 0.00 2.28 aa3a - CLASSE 3 / 4 2 2.00-1.2-2.3 0.0 0.0 0.0-1.21-1.86 0.00 0.00 0.00 4.92 aa4a - CLASSE 4 / 4 2 2.00 1.4-2.2 0.0 0.0 0.0 1.38-1.78 0.00 0.00 0.00 5.09 +---------------------------------------------+-------------------------------+------------------------------------+----------+ COMPOSITION DE: Coupure 'a' de l'arbre en 4 classes CLASSE 1 / 4 France Allemagne Autriche Belgique Grèce Italie CLASSE 2 / 4 Espagne Irlande Pays-bas Portugal Royaume-Uni CLASSE 3 / 4 Danemark Suède CLASSE 4 / 4 Finlande Luxembourg APPARTENANCE DE CHAQUE INDIVIDU A: Coupure 'a' de l'arbre en 4 classes France : 1 Allemagne : 1 Autriche : 1 Belgique : 1 Espagne : 2 Finlande : 4 Grèce : 1 Irlande : 2 Italie : 1 Luxembourg : 4 Pays-bas : 2 Portugal : 2 Danemark : 3 Royaume-Uni : 2 Suède : 3 INDIVIDUS ILLUSTRATIFS AFFECTATION DANS LES CLASSES +------------+---------+------------+ CLASSE EFFECTIF POIDS +------------+---------+------------+ CLASSE 1 1 1.00 CLASSE 2 1 1.00 CLASSE 3 0 0.00 CLASSE 4 0 0.00 +------------+---------+------------+ COMPOSITION DE: Coupure 'a' de l'arbre en 4 classes CLASSE 1 / 4 CLASSE 2 / 4 CLASSE 3 / 4 CLASSE 4 / 4 Japon Etats-Unis APPARTENANCE DE CHAQUE INDIVIDU A: Coupure 'a' de l'arbre en 4 classes Etats-Unis : 2 Japon : 1 3 L'analyse d'une partition - Description statistique des classes de la partition Une fois que l'on a choisi une partition, il reste à préciser quelles sont les variables actives qui sont à l'origine des regroupements observés. Sachant que les individus d'une classe se ressemblent vis-à-vis de l'ensemble des caractéristiques actives choisies pour les décrire, on procède alors à une description automatique des classes qui constitue en pratique une étape indispensable de toute procédure de classification. Les aides à l'interprétation, afin de donner un profil significatif de chaque classe, sont généralement basées sur des comparaisons de moyennes ( variables continues ) ou de pourcentages ( variables qualitatives ) à l'intérieur des classes avec les moyennes ou les pourcentages obtenus sur l'ensemble des caractéristiques des individus à classer. Pour sélectionner les variables continues ou les modalités des variables nominales les plus caractéristiques de chaque classe, on mesure l'écart entre les valeurs relatives à la classe et les valeurs globales. Ces statistiques d'écarts sont résumées par un critère appelé valeur-test qui permet de ranger les variables par ordre d'intérêt, et de désigner ainsi les variables les plus caractéristiques et donc significatives de la classe. Les tableaux suivant donnent la description statistique des 4 classes de la partition retenue à partir des variables quantitatives actives c est-à-dire l interprétation interne et éventuellement quantitatives illustratives (interprétation externe). Le profil-type de chaque classe est présenté à partir de résultats significatifs ( V.TEST > 1.96 équivalent à PROB < 5%) de comparaisons de moyennes dans la classe (CLASSE) et hors de la classe (GENERALE). M1 : Economie Quantitative Analyse des Données - 8 -
DESCRIPTION DE PARTITION(S) DESCRIPTION DE LA Coupure 'a' de l'arbre en 4 classes CARACTERISATION PAR LES CONTINUES DES CLASSES OU MODALITES DE Coupure 'a' de l'arbre en 4 classes CLASSE 1 / 4 V.TEST PROBA MOYENNES ECARTS TYPES VARIABLES CARACTERISTIQUES CLASSE GENERALE CLASSE GENERAL NUM.LIBELLE IDEN CLASSE 1 / 4 ( POIDS = 6.00 EFFECTIF = 6 ) aa1a 2.63 0.004 84.32 60.71 24.10 27.38 7.Dette brute des APU DETB 1.72 0.042 47.37 44.01 3.10 5.94 5.Dépenses totales des APU DEPE -2.55 0.005-0.85 1.37 0.53 2.66 6.Solde des finances publiques SDFP CLASSE 2 / 4 V.TEST PROBA MOYENNES ECARTS TYPES VARIABLES CARACTERISTIQUES CLASSE GENERALE CLASSE GENERAL NUM.LIBELLE IDEN CLASSE 2 / 4 ( POIDS = 5.00 EFFECTIF = 5 ) aa2a -2.59 0.005 38.20 44.01 4.26 5.94 5.Dépenses totales des APU DEPE -2.89 0.002 39.84 45.77 2.94 5.43 4.Recettes totales des APU RECE CLASSE 3 / 4 V.TEST PROBA MOYENNES ECARTS TYPES VARIABLES CARACTERISTIQUES CLASSE GENERALE CLASSE GENERAL NUM.LIBELLE IDEN CLASSE 3 / 4 ( POIDS = 2.00 EFFECTIF = 2 ) aa3a 2.43 0.008 54.75 45.77 2.05 5.43 4.Recettes totales des APU RECE 1.84 0.033 51.45 44.01 1.25 5.94 5.Dépenses totales des APU DEPE CLASSE 4 / 4 V.TEST PROBA MOYENNES ECARTS TYPES VARIABLES CARACTERISTIQUES CLASSE GENERALE CLASSE GENERAL NUM.LIBELLE IDEN CLASSE 4 / 4 ( POIDS = 2.00 EFFECTIF = 2 ) aa4a 2.56 0.005 6.00 1.37 0.70 2.66 6.Solde des finances publiques SDFP 1.66 0.048 7.10 4.46 1.40 2.33 11.Taux de croissance en volume du PIB TCRO -1.93 0.027 24.65 60.71 19.35 27.38 7.Dette brute des APU DETB CARACTERISATION PAR LES MODALITES DES CLASSES OU MODALITES DE Coupure 'a' de l'arbre en 4 classes CLASSE 1 / 4 V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES CLASSE 2 / 4 V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES CLASSE 3 / 4 V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES 13.33 CLASSE 3 / 4 aa3a 2 1.90 0.029 66.67 100.00 20.00 UENM : Zone Non uro Etat membre UE 3-1.90 0.029 0.00 0.00 80.00 UEM-Zone Euro Etat membre ZE 12 CLASSE 4 / 4 V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES Dans le cas de variables qualitatives, les aides à l interprétation des modalités illustratives sont basées sur des comparaisons de pourcentages de la modalité dans la classe (FRE / CLA) et hors de la classe (GLOBAL). Mais cette comparaison est insuffisante : il faut tenir compte du degré d inclusion de la classe dans la modalité (CLAS / MOD). On mesure alors l écart entre les valeurs relatives à la classe et les valeurs globales. Ces statistiques sont converties en un critère de valeur-test 3 (V.TEST) permettant d opérer un tri sur les modalités des variables, et de présenter dans un ordre décroissant les modalités illustratives représentatives, avec un risque d erreur (PROB) inférieur à 5%. 3 Comparaison d effectifs dans le cadre d une loi hypergéométrique transformée en nombre d écart-types d une loi normale centrée réduite. La valeur absolue de la valeur-test est l analogue de la valeur absolue d une variable normale centrée réduite. M1 : Economie Quantitative Analyse des Données - 9 -
CARACTERISATION PAR LES AXES DES CLASSES OU MODALITES DE Coupure 'a' de l'arbre en 4 classes CLASSE 1 / 4 AXES CARACTERISTIQUES COORDONNEE COS.CARRE VALEUR-TEST PROBABILITE aa1a - CLASSE 1 / 4 ( POIDS = 6.00 EFFECTIF = 6 ) AXE 1-1.18 0.768-2.431 0.0075 AXE 2 0.65 0.232 1.681 0.0464 CLASSE 2 / 4 AXES CARACTERISTIQUES COORDONNEE COS.CARRE VALEUR-TEST PROBABILITE aa2a - CLASSE 2 / 4 ( POIDS = 5.00 EFFECTIF = 5 ) AXE 1 1.35 0.799 2.404 0.0081 CLASSE 3 / 4 AXES CARACTERISTIQUES COORDONNEE COS.CARRE VALEUR-TEST PROBABILITE aa3a - CLASSE 3 / 4 ( POIDS = 2.00 EFFECTIF = 2 ) AXE 2-1.86 0.702-2.313 0.0104 CLASSE 4 / 4 AXES CARACTERISTIQUES COORDONNEE COS.CARRE VALEUR-TEST PROBABILITE aa4a - CLASSE 4 / 4 ( POIDS = 2.00 EFFECTIF = 2 ) AXE 2-1.78 0.624-2.218 0.0133 Interprétation La première classe, représentant 40% de l ensemble des 15 pays actifs de l UE à classer, regroupe les pays dont la dette brute et les dépenses totales des APU sont significativement importantes et un faible solde des finances publiques. Elle est composée de la France, de la Grèce, de la Belgique, de l Italie, de l Autriche et de l Allemagne. La deuxième classe regroupe cinq pays dont les dépenses et les recettes totales des APU sont significativement plus faible, relativement à la moyenne de l ensemble des pays de l UE15. A l opposé de la deuxième classe, les pays dont les dépenses et les recettes totales des APU sont regroupées dans la troisième classe : le Danemark et la Suède. Ce sont plutôt des pays de l UE : Zone Non uro. Enfin, la quatrième classe est composée de deux pays, la Finlande et le Luxembourg, caractérisés par un fort solde des finances publiques et une faible dette brute des APU. De plus, c est plutôt une classe de pays dont le taux de croissance en volume du PIB est significativement élevé relativement au taux moyen de l ensemble des pays de l UE15. Sur le graphique de la figure 1, on peut visualiser les positions des 15 pays de l Union et des quatre centres de classes de la partition, sur le premier plan factoriel de l ACP. On peut également visualiser les proximités entre les pays illustratifs (Japon et Etats-Unis) et les centres des classes de la partition. M1 : Economie Quantitative Analyse des Données - 10 -
Figure 1 : Individus actifs et illustratifs - Partition Sur le même principe que dans une analyse factorielle (figure 2), les variables illustratives qui n'ont pas contribué à la construction des classes, peuvent participer à la description des classes (interprétation externe). Ces variables permettent a posteriori d'identifier et de caractériser les regroupements établis à partir des variables actives. Figure 2 : Modalités de la variable illustrative Etat membre & Partition M1 : Economie Quantitative Analyse des Données - 11 -
4. Partition ou hiérarchie? Quand faut-il utiliser l'une plutôt que l'autre? Par construction, une hiérarchie définit une suite de partitions. C'est donc une structure plus riche mais plus compliquée qu'une partition. D'autant plus que la plupart du temps l'utilisateur ne retient que quelques partitions d'une hiérarchie. Pourquoi ne pas rechercher directement une partition? L'examen de l'arbre hiérarchique est un moyen de déterminer un nombre de classes raisonnable, problème toujours difficile en classification. La méthode hiérarchique est très sensible aux effets de chaînes : elle peut regrouper des individus très différents s'il existe une suite d'individus proches 2 à 2 les reliant. De plus, elle n'est applicable que lorsque le nombre d'individus est petit (inférieur à 50) de telle sorte à présenter l'arbre hiérarchique. Lorsque le nombre d'individus est trop élevé, on recourra plutôt à des méthodes de partitionnement (nuées dynamiques) ; ces méthodes permettent de traiter rapidement de grands ensembles d'individus mais elles supposent que le nombre de classes est fixé a priori. Il faut alors réessayer plusieurs fois la méthode avec un nombre de classes différent, afin d'arriver à une partition qui corresponde au mieux à la configuration véritable du nuage des individus ( améliorer la valeur du critère d'inertie ). D'une manière générale, il est recommandé d utiliser la stratégie analyse factorielle + classification car les deux approches sont complémentaires pour une meilleure interprétation globale. De plus l'analyse factorielle permettant en outre d'interpréter rapidement en fonction des variables actives les regroupements obtenus par une classification. Le fait d abandonner une partie de l information initiale en ne conservant qu un nombre restreint d axes factoriels, loin d être un inconvénient, peut se révéler avantageux en éliminant les fluctuations aléatoires pouvant masquer les phénomènes importants. L analyse factorielle agit alors comme un filtre préservant l information utile. Par contre si on veut tenir compte de toute l'information (classification globale), il suffit de sélectionner pour la classification l'ensemble des axes factoriels qui résument l'information totale. Enfin, on peut transformer ( archiver ) les résultats d une classification en k classes en une question ( variable qualitative à k modalités ) afin de l utiliser pour d autres traitements. M1 : Economie Quantitative Analyse des Données - 12 -