UNIVERSITÉ LUMIÈRE LYON 2 UFR DE SCIENCES ÉCONOMIQUES ET DE GESTION. M1- Economie quantitative. Analyse des données

Documents pareils
La classification automatique de données quantitatives

La révision des indices du cours du franc suisse, nominaux et réels, pondérés par les exportations

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

QUELLE DOIT ÊTRE L AMPLEUR DE LA CONSOLIDATION BUDGÉTAIRE POUR RAMENER LA DETTE À UN NIVEAU PRUDENT?

Principaux partenaires commerciaux de l UE, (Part dans le total des échanges de biens extra-ue, sur la base de la valeur commerciale)

Améliorer la gouvernance des Services Publics d'emploi pour de meilleurs résultats sur l'emploi

L Europe des consommateurs : Contexte international Rapport Eurobaromètre 47.0

Quel est le temps de travail des enseignants?

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Âge effectif de sortie du marché du travail

1 - PRESENTATION GENERALE...

Classification non supervisée

Quelle part de leur richesse nationale les pays consacrent-ils à l éducation?

ESIEA PARIS

ACP Voitures 1- Méthode

TARIFICATION DES INSTRUMENTS FINANCIERS AU 01 JANVIER 2015

Actifs des fonds de pension et des fonds de réserve publics

Le creusement des inégalités touche plus particulièrement les jeunes et les pauvres

REGARDS SUR L ÉDUCATION 2013 : POINTS SAILLANTS POUR LE CANADA

à la Consommation dans le monde à fin 2012

Premières estimations pour 2014 Le revenu agricole réel par actif en baisse de 1,7% dans l UE28

OBSERVATION ET STATISTIQUES

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

La situation financière des SNF françaises Quelques éléments de diagnostic élaborés à partir des comptes nationaux

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

La situation en matière de pension privées et de fonds de pension dans les pays de l OCDE

Le point sur les marchés des pensions. des pays de l OCDE OCDE

Compétitivité française : Quelques constats

relative à l établissement d un bureau international des poids et mesures

Extraction d informations stratégiques par Analyse en Composantes Principales

Prix du gaz et de l électricité dans l Union européenne en 2011

OBSERVATOIRE DE L EPARGNE EUROPEENNE

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

LA RÉDUCTION DU TEMPS DE TRAVAIL : UNE COMPARAISON DE LA POLITIQUE DES «35 HEURES» AVEC LES POLITIQUES D AUTRES PAYS MEMBRES DE L OCDE

Thème 1: l environnement pédagogique et scolaire dans le primaire et le secondaire

BANQUES DE DONNÉES PÉDAGOGIQUES

DISPOSITIF D INTERVENTION REGIONALE AIDE À LA MOBILITE ETUDIANTE A L'ETRANGER Année universitaire 2015/2016

Pourquoi l apprentissage?

Les comptes nationaux et le SEC 2010

REGARDS SUR L ÉDUCATION RAPPORT INTERMÉDIAIRE MISE À JOUR DES INDICATEURS RELATIFS A L EMPLOI ET AU NIVEAU DE FORMATION

INSTITUT BELGE DES SERVICES POSTAUX ET DES TÉLÉCOMMUNICATIONS

Agrégation des portefeuilles de contrats d assurance vie

Arbres binaires de décision

Les perspectives économiques

LE PROBLEME DU PLUS COURT CHEMIN

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Niveau de scolarité et emploi : le Canada dans un contexte international

Régimes publics de retraite État de la situation. Perspectives des différents régimes publics de retraite. Plan

Ebauche Rapport finale

Les questions relatives aux finances publiques, longtemps réservées aux spécialistes, sont

Le marché de l assurance de protection juridique en Europe. Octobre 2013

Introduction. Préambule. Le contexte

Prix de l énergie dans l Union européenne en 2010

Taux de risque de pauvreté ou d exclusion sociale le plus élevé en Bulgarie, le plus faible en République tchèque

12. Le système monétaire

BASE DE DONNEES - MONDE

Copropriété: 31, rue des Abondances Boulogne-Billancourt

Vous avez eu ou élevé des enfants Vos droits

Logement aux frais du membre du personnel 3,82 EUR 19,22 EUR 43,78 EUR 23,04 EUR

RAPPORT TECHNIQUE CCE

L immobilier de bureaux en Europe 2010 : une parenthèse dans la crise

APPLICATION DU SCN A L'EVALUATION DES REVENUS NON DECLARES DES MENAGES

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Agricultural Policies in OECD Countries: Monitoring and Evaluation Les politiques agricoles des pays de l OCDE: Suivi et évaluation 2005.

1. Vocabulaire : Introduction au tableau élémentaire

PARTIE I - Données de cadrage. Sous-indicateur n 9-1 : Nombre de consultations de médecins par habitant, perspective internationale

Prendre sa retraite en France Droits, conditions et formalités de résidence. Natasha Lavy-Upsdale Service des Relations avec les Pays-hôtes

La fiscalité européenne de l épargne. Ce qui va changer pour vous

LES EUROPEENS ET LA QUALITE DE VIE

Assurance en responsabilité civile automobile en Europe

Préparez-vous au virement SEPA

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Définitions. Définitions sur le logement

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

VI. TENDANCES DE L INVESTISSEMENT DIRECT ÉTRANGER DANS LES PAYS DE L OCDE

Les perspectives mondiales, les déséquilibres internationaux et le Canada : un point de vue du FMI

La correction des erreurs d'enregistrement et de traitement comptables

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Préparez-vous au virement

chapitre 4 Nombres de Catalan

La coordination des soins de santé en Europe

Logiciel XLSTAT version rue Damrémont PARIS

Introduction au datamining

Le commerce de détail en Europe : la diversité des tissus commerciaux

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Market Data Feed. Maîtrisez le flux.

Nom. les. autres États. n de l aviation. Organisation. ATConf/6-WP/49 14/2/12. Point 2 : 2.2. Examen de. des accords bilatéraux. consultées.

Présentation de GnuCash

Qui sont les enseignants?

REPÈRES ÉCONOMIQUES POUR UNE RÉFORME DES RETRAITES JUILLET 2015

Transcription:

UNIVERSITÉ LUMIÈRE LYON 2 UFR DE SCIENCES ÉCONOMIQUES ET DE GESTION M1- Economie quantitative Analyse des données Polycopié 2 : Classification automatique Année Universitaire 2013-2014 Courriel ; rafik.abdesselam@univ-lyon2.fr http://eric.univ-lyon2.fr/~rabdesselam/documents/

Introduction Les techniques de classification 1 automatique constituent le deuxième volet des méthodes d'analyse des données, elles ont pour objectif de structurer les individus (objets). Cette approche consiste à faire des regroupements les moins arbitraires possibles des individus à partir de leurs caractères de description. La classification automatique est un terme générique pour des méthodes d'analyse des données permettant de traiter de grands tableaux de données rectangulaires, où les lignes représentent généralement les individus et les colonnes des caractères ou des questions. Le but de telles techniques est de découvrir des structures cachées de l ensemble des individus, ces structures étant des groupes ou des hiérarchies de groupes emboîtés. Elles visent à mettre en évidence des groupes d'individus aussi homogènes que possible, c est-à-dire que les individus soient très ressemblants entre eux, tandis que deux individus appartenant à des groupes différents doivent être très dissemblants. Les classes de la classification regroupent des individus ayant des caractéristiques (variables) similaires et séparent les individus ayant des caractéristiques différentes : homogénéité interne et hétérogénéité externe. Enfin, ces groupes d'individus sont obtenus au moyen d'algorithmes formalisés. Il n'y a pas de classification parfaite et c'est seulement dans une optique déterminée ou en vue d'une application bien précise que telle classification peut être considérée comme meilleure que telle autre. Les opération dites de typologie, de segmentation ou de classification (qui sont toutes des "partitions" répétées d'un ensemble au sens mathématique du mot) doivent toujours être considérées étroitement liées à l'ensemble des caractères actifs choisis pour définir le thème. Les techniques de classification présentent une synthèse des données différente de celle des techniques factorielles : il y a complémentarité entre les deux approches. Les regroupements peuvent en effet permettre de corriger les déformations opérées lors des projections des individus sur les plans factoriels. En général, pour aller au delà de l'interprétation des premiers axes factoriels, on enchaîne commodément une classification sur l'ensemble des individus caractérisés par leurs premières coordonnées factorielles. On distingue deux types de méthodes de classification : - les méthodes non hiérarchiques (nuées dynamiques) qui produisent directement une partition en un nombre de classes fixé par l'utilisateur, - les méthodes hiérarchiques qui produisent des suites de partitions en classes de plus en plus vastes. Contrairement aux méthodes factorielles, les méthodes de classification ne sont pas déterministes (les différentes méthodes peuvent mener à des résultats très différents, et même certaines méthodes peuvent fournir plusieurs résultats). Ces méthodes dépendent toutes d'une notion de distance. D une part, pour regrouper les individus et d autre part, pour regrouper un individu avec un groupe d'individus. Le choix de ces distances peut fortement influencer les résultats de la méthode, et il n'y a pas de distance qui soit meilleure que toutes les autres. Les deux méthodes de classification qui seront présentées optimisent localement un critère de type inertie. Un critère usuel de classification consiste à chercher la partition telle que l inertie intraclasse soit minimale pour avoir en moyenne des classes bien homogènes, ce qui revient à maximiser l inertie interclasse. La classification est une méthode descriptive et non prédictive. 1 Clustering, segmentation ou typologie (marketing), nosologie (médecine), taxinomie ou taxonomie (biologie et zoologie) M1 : Economie Quantitative Analyse des Données - 2 -

1. Classification non hiérarchique Les regroupements d'individus se font par une recherche directe d'une partition, en affectant les individus à des centres provisoires de groupes, puis en recentrant ces groupes, et en affectant de façon itérative ces individus ( méthode d agrégation autour des centres mobiles ). L utilisateur choisit le nombre de classes à obtenir et une partition initiale. Cette partition initiale peut être tirée au hasard ou bien représenter une répartition plausible des individus en groupes obtenue empiriquement ou par d autres méthodes. L algorithme réitère alors deux étapes successives, une étape de recentrage et une étape de réaffectation. Méthode des nuées dynamiques Pour obtenir efficacement une partition des données, la méthode des nuées dynamiques est la plus utilisée, c est une variante de la méthode des centres mobiles, à savoir qu au lieu de faire un recentrage dès qu un individu change de classe, la méthode des nuées dynamiques effectue un recentrage global après que tous les individus aient été réaffectés. Les deux principales étapes de la méthode : - une étape de recentrage : l'individu moyen de chaque groupe ( centre de classe ) est redéfini en fonction des individus qui lui sont affectés, - une étape d'affectation : chaque individu est placé dans le groupe dont le centre de classe est le plus proche. Ces deux étapes sont répétées jusqu à ce qu'il n'y ait plus de réaffectation c est-à-dire obtenir la stabilité des classes ou encore lorsque l une de ces étapes ne produit plus de modification dans la composition des classes d individus. Cette méthode présente plusieurs particularités : - selon le choix initial des centres des classes, on aboutit à des résultats différents en effet la solution obtenue n'est pas forcément la solution optimale, - le nombre de classes désiré n'est pas déterminé par la méthode mais par l'utilisateur. Il en résulte que les résultats ne sont pas nécessairement optimaux ( à l'heure actuelle, il n'existe aucune méthode optimale nécessitant un temps de calcul raisonnable ). En pratique, pour pallier à ce défaut, on effectue plusieurs essais et l on retient la partition optimale qui présente l inertie intraclasse minimale. 2 Classification Hiérarchique Les méthodes hiérarchiques cherchent à établir des groupes d individus dont les regroupements se font par agglomération progressive des individus similaires puis des assemblages de groupes formant des super-groupes eux mêmes réunis dans des classes plus hétérogènes, etc. On distingue 2 types de classification hiérarchique (ascendante ou descendante). Dans les 2 cas, on obtient une classification des n individus en 1,2,..,n groupes; ces classifications étant emboîtées les unes dans les autres. Un arbre hiérarchique, ou dendogramme, est dessiné pour représenter ces emboîtements de groupes d individus. Les deux types de classification hiérarchique possibles; ascendante ou descendante, correspondent au sens dans lequel l'arbre est construit. 2.1 Classification Hiérarchique Ascendante La Classification Hiérarchique Ascendante (CHA) dite «agglomérative» est un algorithme «ascendant» qui procède par regroupements successifs des individus en vue de fournir une hiérarchie de partitions. A l'initialisation, cette méthode considère que chaque individu constitue un groupe à lui tout seul. M1 : Economie Quantitative Analyse des Données - 3 -

Etape 1, parmi les n individus à classer, on cherche les 2 individus les plus proches 'semblables', que l on regroupe. Ces deux individus sont ensuite agrégés en un nouveau groupe. Etape 2, on calcule les distances entre le nouveau groupe et les individus restants. La configuration est identique à celle de l étape 1, à la différence près que l on a seulement n-1 individus à classer. Ainsi de suite, on cherche de nouveau les 2 individus ou groupes d individus les plus proche, que l on agrège et ainsi jusqu à ce qu il n y ait plus qu un seul groupe d individus. Les différents regroupements d individus obtenus sont présentés sous la forme d une arborescence. A noter que cette méthode est basée sur le critère de Ward qui consiste, à chaque étape de regroupement ou d agrégation, à rendre minimale la perte d inertie interclasse résultant de l agrégation de deux individus ou encore d un individu à un groupe d individus. La figure ci-dessous représente la suite de partitions d'un ensemble de 5 individus. Les individus ou objets (I1, I2, I3, I4, I5) sont les éléments terminaux de l'arbre (ou de la hiérarchie). Les classes d'individus (6), (7), (8), (9) sont les noeuds de l'arbre : ce sont des classes issues de regroupements de deux éléments numérotés à la suite des éléments terminaux et dont chacune détermine une nouvelle partition. Les éléments groupés constituant un noeud sont appelés aîné et benjamin. Arbre hiérarchique br e : dendogramme h iér ar c hiq ue : den do gr a m m e (9) Noeud Effectif Aîné Benjamin (9) (8) (7) (6) 5 3 2 2 (7) I1 I3 I2 (8) (7) I4 I5 «coupure» Partition en 2 classes Classe 1 (8) (7) (6) &&1& &&2& &&4& &&3& &&5& Classe 2 I1 I3 I4 I2 I5 (1) (2) (3) (4) (5) Eléments terminaux de l arbre A la 1 étape : I2 et I5 sont regroupés à la 2 étape : I3 et I4 sont regroupés à la 3 étape : I1 et I3+I4 sont regroupés à la 4 étape : I1+I3+I4 et I2+I5 sont regroupés L'avantage de la méthode hiérarchique par rapport à la méthode des nuées dynamiques est qu'il n'est pas nécessaire de spécifier le nombre de groupes désirés. Les partitions sont obtenues en tronquant l'arbre à un niveau quelconque par une droite horizontale. Par exemple, pour obtenir une partition en 2 classes, on tronque l'arbre au niveau du noeud (8) : 1 ère classe {I1, I3, I4} à 3 individus, la 2 ème classe {I2, I5} à 2 individus. A chaque niveau, où ont lieu les regroupements, correspond une valeur numérique appelée "indice d'agrégation" ; plus cet indice est élevé, plus les classes d'individus regroupés sont hétérogènes. Plus les individus se regroupent au bas de l'arbre hiérarchique, plus ils se ressemblent au sens de l indice de Ward. Une partition est d'autant plus fine que la coupure de l'arbre est proche des éléments terminaux. M1 : Economie Quantitative Analyse des Données - 4 -

2.2 Classification hiérarchique descendante La Classification Hiérarchique Descendante (CHD) dite «divisive» est une méthode inverse de la précédente. Les classes sont créées de proche en proche, on considère initialement que tous les individus appartiennent à une même classe, et successivement on découpe en 2 la classe la plus dispersée jusqu'à ce que l'on obtienne autant de classes que d'individus. 2.3 Exemples de classification hiérarchique Les données ( Principaux indicateurs économiques et financiers de UE-2000 ) Reprenons l'exemple des indicateurs économiques et financiers des 15 pays de l Union Européenne traité en Analyse en Composantes Principales (ACP). L'objectif est de structurer cet ensemble de pays et de mettre en évidence des groupes de pays les plus proches possibles en fonction des variables actives du thème Finances publiques ( interprétation interne des classes de la partition obtenue ). L information supplémentaire apportée par la variable qualitative Etat membre et toutes autres variables quantitatives sont présentées comme variables illustratives ( interprétation externe des classes de la partition obtenue ). M1 : Economie Quantitative Analyse des Données - 5 -

SELECTION DES INDIVIDUS ET DES VARIABLES UTILES VARIABLES CONTINUES ACTIVES 4 VARIABLES 4. Recettes totales des APU ( CONTINUE ) 5. Dépenses totales des APU ( CONTINUE ) 6. Solde des finances publiques ( CONTINUE ) 7. Dette brute des APU ( CONTINUE ) VARIABLES NOMINALES ILLUSTRATIVES 1 VARIABLES 3 MODALITES ASSOCIEES 1. Etat membre ( 3 MODALITES ) VARIABLES CONTINUES ILLUSTRATIVES 6 VARIABLES 2. Population (%) UE-2000 ( CONTINUE ) 3. Produit Intérieur Brut (%) UE-2000 ( CONTINUE ) 8. Taux de chômage en % population active ( CONTINUE ) 9. Ventes au détail en volume (%) ( CONTINUE ) 10. Production industrielle hors bâtiment ( CONTINUE ) 11. Taux de croissance en volume du PIB ( CONTINUE ) INDIVIDUS ----------------------------- NOMBRE -------------- POIDS --------------- POIDS DES INDIVIDUS: Poids des individus, uniforme egal a 1. UNIF RETENUS... NITOT = 17 PITOT = 17.000 SELECTION APRES FILTRAGE ACTIFS... NIACT = 15 PIACT = 15.000 SUPPLEMENTAIRES... NISUP = 2 PISUP = 2.000 ------------------------------------------------------------------------- 2.4 Résultats Les variables continues du thème Finances publiques des 15 pays de l UE a fait l objet d une analyse typologique, Classification Hiérarchique Ascendante (CHA), sur les premières composantes principales de l ACP afin de mettre en évidence des groupes de pays aussi homogènes que possible à partir de leurs finances publiques. 2.4.1 Description des classes de la partition Caractéristiques En inscrivant l analyse dans une démarche de type «thèmascope 2» ou analyse structurelle des données, une Classification Hiérarchique Ascendante a donc été réalisée à partir des deux premières composantes principales significatives de l ACP du thème Finances publiques. Ces deux premières composantes principales, qui restituent environ 90% de l information initiale, ont été retenues pour l analyse typologique. Quatre classes ont été identifiées à partir de l arbre hiérarchique (dendogramme) ci-dessous. Classification Hiérarchique Ascendante - Finances publiques Luxembourg Finlande Suède Danemark Royaume-Uni Pays-bas Espagne Portugal Irlande Allemagne Autriche Italie Belgique Grèce France 2 Technique d exploration des données mettant en pratique des méthodes d analyse de données connues, dans un contexte méthodologique en fonction de l objectif recherché et de la nature des variables retenues. M1 : Economie Quantitative Analyse des Données - 6 -

CLASSIFICATION HIERARCHIQUE (VOISINS RECIPROQUES) SUR LES 2 PREMIERS AXES FACTORIELS DESCRIPTION DES NOEUDS NUM. AINE BENJ EFF. POIDS INDICE HISTOGRAMME DES INDICES DE NIVEAU 16 5 12 2 2.00 0.00567 * 17 9 4 2 2.00 0.00602 * 18 14 11 2 2.00 0.01684 ** 19 2 3 2 2.00 0.02238 ** 20 15 13 2 2.00 0.03191 *** 21 17 7 3 3.00 0.03226 *** 22 21 1 4 4.00 0.05668 **** 23 10 6 2 2.00 0.08615 ****** 24 18 16 4 4.00 0.08628 ****** 25 19 22 6 6.00 0.10297 ******* 26 24 8 5 5.00 0.32804 ********************** 27 23 20 4 4.00 0.44851 ****************************** 28 27 26 9 9.00 1.16136 ***************************************************************************** 29 28 25 15 15.00 1.21195 ********************************************************************************* SOMME DES INDICES DE NIVEAU = 3.59702 NOUVEL ORDRE DES INDIVIDUS : NOUVEAU, NUMERO ET IDENTIFICATEURD'ORIGINE. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Fran Grèc Belg Ital Autr Alle Irla Port Espa Pays Roya Dane Suèd Finl Luxe DESCRIPTION DES NOEUDS DE LA HIERACHIE (INDICES EN POURCENTAGE DE LA SOMME DES INDICES : 3.59702) +-----------------+---------------+------------------+-------------------+ NOEUD SUCCESSEURS COMPOSITION NUMERO INDICE AINE BENJ EFFECT. POIDS PREMIER DERNIER +-----------------+---------------+------------------+-------------------+ 16 0.16 9 8 2 2.00 8 9 17 0.17 4 3 2 2.00 3 4 18 0.47 11 10 2 2.00 10 11 19 0.62 6 5 2 2.00 5 6 20 0.89 13 12 2 2.00 12 13 21 0.90 17 2 3 3.00 2 4 22 1.58 21 1 4 4.00 1 4 23 2.39 15 14 2 2.00 14 15 24 2.40 18 16 4 4.00 8 11 25 2.86 19 22 6 6.00 1 6 26 9.12 24 7 5 5.00 7 11 27 12.47 23 20 4 4.00 12 15 28 32.29 27 26 9 9.00 7 15 29 33.69 28 25 15 15.00 1 15 +-----------------+---------------+------------------+-------------------+ PARTITION PAR COUPURE D'UN ARBRE HIERARCHIQUE Coupure 'a' de l'arbre en 4 classes FORMATION DES CLASSES (INDIVIDUS ACTIFS) DESCRIPTION SOMMAIRE +--------+----------+-----------+-----------+ CLASSE EFFECTIF POIDS CONTENU +--------+----------+-----------+-----------+ aa1a 6 6.00 1 A 6 aa2a 5 5.00 7 A 11 aa3a 2 2.00 12 A 13 aa4a 2 2.00 14 A 15 +--------+----------+-----------+-----------+ COORDONNEES ET VALEURS-TEST AVANT CONSOLIDATION AXES 1 A 2 +---------------------------------------------+-------------------------------+------------------------------------+----------+ CLASSES VALEURS-TEST COORDONNEES --------------------------------------------- ------------------------------- ------------------------------------ ---------- IDEN - LIBELLE EFF. P.ABS 1 2 0 0 0 1 2 0 0 0 DISTO. +---------------------------------------------+-------------------------------+------------------------------------+----------+ Coupure 'a' de l'arbre en 4 classes aa1a - CLASSE 1 / 4 6 6.00-2.4 1.7 0.0 0.0 0.0-1.18 0.65 0.00 0.00 0.00 1.82 aa2a - CLASSE 2 / 4 5 5.00 2.4 1.5 0.0 0.0 0.0 1.35 0.68 0.00 0.00 0.00 2.28 aa3a - CLASSE 3 / 4 2 2.00-1.2-2.3 0.0 0.0 0.0-1.21-1.86 0.00 0.00 0.00 4.92 aa4a - CLASSE 4 / 4 2 2.00 1.4-2.2 0.0 0.0 0.0 1.38-1.78 0.00 0.00 0.00 5.09 +---------------------------------------------+-------------------------------+------------------------------------+----------+ CONSOLIDATION DE LA PARTITION AUTOUR DES 4 CENTRES DE CLASSES, REALISEE PAR 10 ITERATIONS A CENTRES MOBILES PROGRESSION DE L'INERTIE INTER-CLASSES +-----------+------------+------------+------------+ ITERATION I.TOTALE I.INTER QUOTIENT +-----------+------------+------------+------------+ 0 3.59702 2.82182 0.78449 1 3.59702 2.82182 0.78449 2 3.59702 2.82182 0.78449 +-----------+------------+------------+------------+ ARRET APRES L'ITERATION 2 L'ACCROISSEMENT DE L'INERTIE INTER-CLASSES PAR RAPPORT A L'ITERATION PRECEDENTE N'EST QUE DE 0.000 %. DECOMPOSITION DE L'INERTIE CALCULEE SUR 2 AXES. +----------------+-----------------+-------------+-------------------+-----------------+ INERTIES EFFECTIFS POIDS DISTANCES INERTIES AVANT APRES AVANT APRES AVANT APRES AVANT APRES +----------------+-----------------+-------------+-------------------+-----------------+ INTER-CLASSES 2.8218 2.8218 INTRA-CLASSE CLASSE 1 / 4 0.2203 0.2203 6 6 6.00 6.00 1.8179 1.8179 CLASSE 2 / 4 0.4368 0.4368 5 5 5.00 5.00 2.2816 2.2816 CLASSE 3 / 4 0.0319 0.0319 2 2 2.00 2.00 4.9205 4.9205 CLASSE 4 / 4 0.0861 0.0861 2 2 2.00 2.00 5.0854 5.0854 TOTALE 3.5970 3.5970 +----------------+-----------------+-------------+-------------------+-----------------+ QUOTIENT (INERTIE INTER / INERTIE TOTALE) : AVANT... 0.7845 APRES... 0.7845 M1 : Economie Quantitative Analyse des Données - 7 -

COORDONNEES ET VALEURS-TEST APRES CONSOLIDATION AXES 1 A 2 +---------------------------------------------+-------------------------------+------------------------------------+----------+ CLASSES VALEURS-TEST COORDONNEES --------------------------------------------- ------------------------------- ------------------------------------ ---------- IDEN - LIBELLE EFF. P.ABS 1 2 0 0 0 1 2 0 0 0 DISTO. +---------------------------------------------+-------------------------------+------------------------------------+----------+ Coupure 'a' de l'arbre en 4 classes aa1a - CLASSE 1 / 4 6 6.00-2.4 1.7 0.0 0.0 0.0-1.18 0.65 0.00 0.00 0.00 1.82 aa2a - CLASSE 2 / 4 5 5.00 2.4 1.5 0.0 0.0 0.0 1.35 0.68 0.00 0.00 0.00 2.28 aa3a - CLASSE 3 / 4 2 2.00-1.2-2.3 0.0 0.0 0.0-1.21-1.86 0.00 0.00 0.00 4.92 aa4a - CLASSE 4 / 4 2 2.00 1.4-2.2 0.0 0.0 0.0 1.38-1.78 0.00 0.00 0.00 5.09 +---------------------------------------------+-------------------------------+------------------------------------+----------+ COMPOSITION DE: Coupure 'a' de l'arbre en 4 classes CLASSE 1 / 4 France Allemagne Autriche Belgique Grèce Italie CLASSE 2 / 4 Espagne Irlande Pays-bas Portugal Royaume-Uni CLASSE 3 / 4 Danemark Suède CLASSE 4 / 4 Finlande Luxembourg APPARTENANCE DE CHAQUE INDIVIDU A: Coupure 'a' de l'arbre en 4 classes France : 1 Allemagne : 1 Autriche : 1 Belgique : 1 Espagne : 2 Finlande : 4 Grèce : 1 Irlande : 2 Italie : 1 Luxembourg : 4 Pays-bas : 2 Portugal : 2 Danemark : 3 Royaume-Uni : 2 Suède : 3 INDIVIDUS ILLUSTRATIFS AFFECTATION DANS LES CLASSES +------------+---------+------------+ CLASSE EFFECTIF POIDS +------------+---------+------------+ CLASSE 1 1 1.00 CLASSE 2 1 1.00 CLASSE 3 0 0.00 CLASSE 4 0 0.00 +------------+---------+------------+ COMPOSITION DE: Coupure 'a' de l'arbre en 4 classes CLASSE 1 / 4 CLASSE 2 / 4 CLASSE 3 / 4 CLASSE 4 / 4 Japon Etats-Unis APPARTENANCE DE CHAQUE INDIVIDU A: Coupure 'a' de l'arbre en 4 classes Etats-Unis : 2 Japon : 1 3 L'analyse d'une partition - Description statistique des classes de la partition Une fois que l'on a choisi une partition, il reste à préciser quelles sont les variables actives qui sont à l'origine des regroupements observés. Sachant que les individus d'une classe se ressemblent vis-à-vis de l'ensemble des caractéristiques actives choisies pour les décrire, on procède alors à une description automatique des classes qui constitue en pratique une étape indispensable de toute procédure de classification. Les aides à l'interprétation, afin de donner un profil significatif de chaque classe, sont généralement basées sur des comparaisons de moyennes ( variables continues ) ou de pourcentages ( variables qualitatives ) à l'intérieur des classes avec les moyennes ou les pourcentages obtenus sur l'ensemble des caractéristiques des individus à classer. Pour sélectionner les variables continues ou les modalités des variables nominales les plus caractéristiques de chaque classe, on mesure l'écart entre les valeurs relatives à la classe et les valeurs globales. Ces statistiques d'écarts sont résumées par un critère appelé valeur-test qui permet de ranger les variables par ordre d'intérêt, et de désigner ainsi les variables les plus caractéristiques et donc significatives de la classe. Les tableaux suivant donnent la description statistique des 4 classes de la partition retenue à partir des variables quantitatives actives c est-à-dire l interprétation interne et éventuellement quantitatives illustratives (interprétation externe). Le profil-type de chaque classe est présenté à partir de résultats significatifs ( V.TEST > 1.96 équivalent à PROB < 5%) de comparaisons de moyennes dans la classe (CLASSE) et hors de la classe (GENERALE). M1 : Economie Quantitative Analyse des Données - 8 -

DESCRIPTION DE PARTITION(S) DESCRIPTION DE LA Coupure 'a' de l'arbre en 4 classes CARACTERISATION PAR LES CONTINUES DES CLASSES OU MODALITES DE Coupure 'a' de l'arbre en 4 classes CLASSE 1 / 4 V.TEST PROBA MOYENNES ECARTS TYPES VARIABLES CARACTERISTIQUES CLASSE GENERALE CLASSE GENERAL NUM.LIBELLE IDEN CLASSE 1 / 4 ( POIDS = 6.00 EFFECTIF = 6 ) aa1a 2.63 0.004 84.32 60.71 24.10 27.38 7.Dette brute des APU DETB 1.72 0.042 47.37 44.01 3.10 5.94 5.Dépenses totales des APU DEPE -2.55 0.005-0.85 1.37 0.53 2.66 6.Solde des finances publiques SDFP CLASSE 2 / 4 V.TEST PROBA MOYENNES ECARTS TYPES VARIABLES CARACTERISTIQUES CLASSE GENERALE CLASSE GENERAL NUM.LIBELLE IDEN CLASSE 2 / 4 ( POIDS = 5.00 EFFECTIF = 5 ) aa2a -2.59 0.005 38.20 44.01 4.26 5.94 5.Dépenses totales des APU DEPE -2.89 0.002 39.84 45.77 2.94 5.43 4.Recettes totales des APU RECE CLASSE 3 / 4 V.TEST PROBA MOYENNES ECARTS TYPES VARIABLES CARACTERISTIQUES CLASSE GENERALE CLASSE GENERAL NUM.LIBELLE IDEN CLASSE 3 / 4 ( POIDS = 2.00 EFFECTIF = 2 ) aa3a 2.43 0.008 54.75 45.77 2.05 5.43 4.Recettes totales des APU RECE 1.84 0.033 51.45 44.01 1.25 5.94 5.Dépenses totales des APU DEPE CLASSE 4 / 4 V.TEST PROBA MOYENNES ECARTS TYPES VARIABLES CARACTERISTIQUES CLASSE GENERALE CLASSE GENERAL NUM.LIBELLE IDEN CLASSE 4 / 4 ( POIDS = 2.00 EFFECTIF = 2 ) aa4a 2.56 0.005 6.00 1.37 0.70 2.66 6.Solde des finances publiques SDFP 1.66 0.048 7.10 4.46 1.40 2.33 11.Taux de croissance en volume du PIB TCRO -1.93 0.027 24.65 60.71 19.35 27.38 7.Dette brute des APU DETB CARACTERISATION PAR LES MODALITES DES CLASSES OU MODALITES DE Coupure 'a' de l'arbre en 4 classes CLASSE 1 / 4 V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES CLASSE 2 / 4 V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES CLASSE 3 / 4 V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES 13.33 CLASSE 3 / 4 aa3a 2 1.90 0.029 66.67 100.00 20.00 UENM : Zone Non uro Etat membre UE 3-1.90 0.029 0.00 0.00 80.00 UEM-Zone Euro Etat membre ZE 12 CLASSE 4 / 4 V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES Dans le cas de variables qualitatives, les aides à l interprétation des modalités illustratives sont basées sur des comparaisons de pourcentages de la modalité dans la classe (FRE / CLA) et hors de la classe (GLOBAL). Mais cette comparaison est insuffisante : il faut tenir compte du degré d inclusion de la classe dans la modalité (CLAS / MOD). On mesure alors l écart entre les valeurs relatives à la classe et les valeurs globales. Ces statistiques sont converties en un critère de valeur-test 3 (V.TEST) permettant d opérer un tri sur les modalités des variables, et de présenter dans un ordre décroissant les modalités illustratives représentatives, avec un risque d erreur (PROB) inférieur à 5%. 3 Comparaison d effectifs dans le cadre d une loi hypergéométrique transformée en nombre d écart-types d une loi normale centrée réduite. La valeur absolue de la valeur-test est l analogue de la valeur absolue d une variable normale centrée réduite. M1 : Economie Quantitative Analyse des Données - 9 -

CARACTERISATION PAR LES AXES DES CLASSES OU MODALITES DE Coupure 'a' de l'arbre en 4 classes CLASSE 1 / 4 AXES CARACTERISTIQUES COORDONNEE COS.CARRE VALEUR-TEST PROBABILITE aa1a - CLASSE 1 / 4 ( POIDS = 6.00 EFFECTIF = 6 ) AXE 1-1.18 0.768-2.431 0.0075 AXE 2 0.65 0.232 1.681 0.0464 CLASSE 2 / 4 AXES CARACTERISTIQUES COORDONNEE COS.CARRE VALEUR-TEST PROBABILITE aa2a - CLASSE 2 / 4 ( POIDS = 5.00 EFFECTIF = 5 ) AXE 1 1.35 0.799 2.404 0.0081 CLASSE 3 / 4 AXES CARACTERISTIQUES COORDONNEE COS.CARRE VALEUR-TEST PROBABILITE aa3a - CLASSE 3 / 4 ( POIDS = 2.00 EFFECTIF = 2 ) AXE 2-1.86 0.702-2.313 0.0104 CLASSE 4 / 4 AXES CARACTERISTIQUES COORDONNEE COS.CARRE VALEUR-TEST PROBABILITE aa4a - CLASSE 4 / 4 ( POIDS = 2.00 EFFECTIF = 2 ) AXE 2-1.78 0.624-2.218 0.0133 Interprétation La première classe, représentant 40% de l ensemble des 15 pays actifs de l UE à classer, regroupe les pays dont la dette brute et les dépenses totales des APU sont significativement importantes et un faible solde des finances publiques. Elle est composée de la France, de la Grèce, de la Belgique, de l Italie, de l Autriche et de l Allemagne. La deuxième classe regroupe cinq pays dont les dépenses et les recettes totales des APU sont significativement plus faible, relativement à la moyenne de l ensemble des pays de l UE15. A l opposé de la deuxième classe, les pays dont les dépenses et les recettes totales des APU sont regroupées dans la troisième classe : le Danemark et la Suède. Ce sont plutôt des pays de l UE : Zone Non uro. Enfin, la quatrième classe est composée de deux pays, la Finlande et le Luxembourg, caractérisés par un fort solde des finances publiques et une faible dette brute des APU. De plus, c est plutôt une classe de pays dont le taux de croissance en volume du PIB est significativement élevé relativement au taux moyen de l ensemble des pays de l UE15. Sur le graphique de la figure 1, on peut visualiser les positions des 15 pays de l Union et des quatre centres de classes de la partition, sur le premier plan factoriel de l ACP. On peut également visualiser les proximités entre les pays illustratifs (Japon et Etats-Unis) et les centres des classes de la partition. M1 : Economie Quantitative Analyse des Données - 10 -

Figure 1 : Individus actifs et illustratifs - Partition Sur le même principe que dans une analyse factorielle (figure 2), les variables illustratives qui n'ont pas contribué à la construction des classes, peuvent participer à la description des classes (interprétation externe). Ces variables permettent a posteriori d'identifier et de caractériser les regroupements établis à partir des variables actives. Figure 2 : Modalités de la variable illustrative Etat membre & Partition M1 : Economie Quantitative Analyse des Données - 11 -

4. Partition ou hiérarchie? Quand faut-il utiliser l'une plutôt que l'autre? Par construction, une hiérarchie définit une suite de partitions. C'est donc une structure plus riche mais plus compliquée qu'une partition. D'autant plus que la plupart du temps l'utilisateur ne retient que quelques partitions d'une hiérarchie. Pourquoi ne pas rechercher directement une partition? L'examen de l'arbre hiérarchique est un moyen de déterminer un nombre de classes raisonnable, problème toujours difficile en classification. La méthode hiérarchique est très sensible aux effets de chaînes : elle peut regrouper des individus très différents s'il existe une suite d'individus proches 2 à 2 les reliant. De plus, elle n'est applicable que lorsque le nombre d'individus est petit (inférieur à 50) de telle sorte à présenter l'arbre hiérarchique. Lorsque le nombre d'individus est trop élevé, on recourra plutôt à des méthodes de partitionnement (nuées dynamiques) ; ces méthodes permettent de traiter rapidement de grands ensembles d'individus mais elles supposent que le nombre de classes est fixé a priori. Il faut alors réessayer plusieurs fois la méthode avec un nombre de classes différent, afin d'arriver à une partition qui corresponde au mieux à la configuration véritable du nuage des individus ( améliorer la valeur du critère d'inertie ). D'une manière générale, il est recommandé d utiliser la stratégie analyse factorielle + classification car les deux approches sont complémentaires pour une meilleure interprétation globale. De plus l'analyse factorielle permettant en outre d'interpréter rapidement en fonction des variables actives les regroupements obtenus par une classification. Le fait d abandonner une partie de l information initiale en ne conservant qu un nombre restreint d axes factoriels, loin d être un inconvénient, peut se révéler avantageux en éliminant les fluctuations aléatoires pouvant masquer les phénomènes importants. L analyse factorielle agit alors comme un filtre préservant l information utile. Par contre si on veut tenir compte de toute l'information (classification globale), il suffit de sélectionner pour la classification l'ensemble des axes factoriels qui résument l'information totale. Enfin, on peut transformer ( archiver ) les résultats d une classification en k classes en une question ( variable qualitative à k modalités ) afin de l utiliser pour d autres traitements. M1 : Economie Quantitative Analyse des Données - 12 -