Université de Thessalie Département d Aménagement, D Urbanisme et Développement Régional

Documents pareils
Arrondissage des résultats de mesure. Nombre de chiffres significatifs

2.1 Comment fonctionne un site?

Voyez la réponse à cette question dans ce chapitre.

THESE. Applications des algorithmes d'auto-organisation à la classification et à la prévision

Les bases de données. Historique

L indice des prix à la consommation

Abstract. Key-words: The flowshop problem, Heuristics, Job scheduling, Total flowtime.

ÉTUDE BDC LES CINQ FACTEURS CLÉS ET LES CINQ PIÈGES À ÉVITER POUR RÉUSSIR EN AFFAIRES

Utiliser Internet Explorer

DOSSIER SUR LE SECTEUR DES NOMS DE DOMAINE VOLUME 11 - NUMÉRO 4 - JANVIER 2015

innovation / construction / territoire Crèche modulaire-bois La Rose des Vents GAILLAC (81) COMMUNAUTÉ DE COMMUNES

Mécanique : Cinématique du point. Chapitre 1 : Position. Vitesse. Accélération

La classification automatique de données quantitatives

L étalonnage par traceur Compton, une nouvelle méthode de mesure primaire d activité en scintillation liquide

Tolérance aux fautes-2 Serveurs à haute disponibilité

«Des places de jeux pour tous» Formulaire de demande

La mémoire C HAPITRE S EPT. 7.1 Qu est-ce que la mémoire? L utilisation de la mémoire à court terme 169

OBJECTIFS. I. A quoi sert un oscilloscope?

Équations générales des milieux continus

2.4 Représentation graphique, tableau de Karnaugh

Excel 2010 Module 13. Comment créer un tableau d amortissement dégressif d une immobilisation. Enseignant : Christophe Malpart

SNC du Chemin de Paris Création d un bâtiment d activité industrielle et de stockage ZAC du Chemin de Paris Nanteuil le Haudouin

Autour des nombres et des polynômes de Bernoulli

Le Centre de Tri. Projet d espace de coworking à Bègles 21 janvier 2011

Lyon. HUB numérique. * Accro à Lyon

e-commerce+ Passez au e-commerce pour simplifier vos process de vente! RENCONTREZ-NOUS Salon E-commerce septembre - Paris

CHAPITRE VIII : Les circuits avec résistances ohmiques

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

PHANTOM 3. Guide de démarrage rapide PROFESSIONAL V1.0

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte

Réseaux Évidentiels pour la fusion de données multimodales hétérogènes : application à la détection de chutes

Compte-rendu technique complet et détaillé des cookies

données en connaissance et en actions?

LOT 10 PLOMBERIE SANITAIRES

Module 16 : Les fonctions de recherche et de référence

Un service transport adapté à vos besoins

EXERCICE II : LE TELEPHONE "POT DE YAOURT" (5 points)

les Formulaires / Sous-Formulaires Présentation Créer un formulaire à partir d une table...3

Cours d Analyse. Fonctions de plusieurs variables

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Échafaudage de façade UNI 70/100

Window Dressing des comptes consolidés : les écarts de consolidation positifs

Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013

Simulation numérique de la réponse d un pieu en cours de battage

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Statistiques Descriptives à une dimension

Gamme et conseils de mise en œuvre

Bien lire l énoncé 2 fois avant de continuer - Méthodes et/ou Explications Réponses. Antécédents d un nombre par une fonction

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Pour tout renseignement complémentaire, veuillez contacter le service technique au HORAIRES MONTAGE-DEMONTAGE

Logiciel XLSTAT version rue Damrémont PARIS

IPPAC * Nous sommes à vos côtés. Internet & Publication

INTRODUCTION GENERALE...1 LA CONNEXION ODBC :...1. CONNEXION AU TRAVERS D EXCEL(tm)...6. LOGICIEL QUANTUM GIS (Qgis)... 10

RÉALISATION D UN SITE DE RENCONTRE

OPERATIONS MANAGEMENT

ACP Voitures 1- Méthode

Analyse des coûts. 1 ère année DUT GEA, 2005/2006 Analyse des coûts

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

XCube XML For Data Warehouses

1 Complément sur la projection du nuage des individus

Les droites (d 1 ) et (d 2 ) sont sécantes en A Le point A est le point d intersection des 2 droites

Classification non supervisée

PROPRIETES ELASTIQUES DU PLI UNIDIRECTIONNEL APPROCHE MICROMECANIQUE

Chapitre 4 : les stocks

IMAGES NUMÉRIQUES MATRICIELLES EN SCILAB

Excel avancé. Frédéric Gava (MCF)

WINDOWS SHAREPOINT SERVICES 2007

Séries Statistiques Simples

La création de l'état de frais Déplacements temporaires

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Créer son questionnaire en ligne avec Google Documents

Guide d usage pour Word 2007

Excel 2007 Niveau 3 Page 1

Écriture de journal. (Virement de dépense)

Cours pratique Excel. Dans chacune des feuilles, les donnés sont déjà entrées afin de gagner du temps.

avec des nombres entiers

INF6304 Interfaces Intelligentes

LE GUIDE COMPLET PRETS A PARIER

Travaux pratiques avec RapidMiner

Chapitre 5. Le ressort. F ext. F ressort

Leçon N 5 PICASA Généralités

Gestion de Projet. Génie Logiciel. Renaud Marlet. LaBRI / INRIA. (d'après A.-M. Hugues) màj 19/04/2007

15E. PEUGEOT Nouvelle 508 TARIFS, ÉQUIPEMENTS ET CARACTÉRISTIQUES TECHNIQUES. APPLICABLES AU 1er SEPTEMBRE 2015

BIRT (Business Intelligence and Reporting Tools)

Planifier et contrôler un projet avec Microsoft Project

Qu est-ce que l analyse des données qualitatives? TAMS Analyzer n est: Projets collaboratifs. TAMS Analyzer permet:

LES DÉTERMINANTS DE MATRICES

DÉVERSEMENT ÉLASTIQUE D UNE POUTRE À SECTION BI-SYMÉTRIQUE SOUMISE À DES MOMENTS D EXTRÉMITÉ ET UNE CHARGE RÉPARTIE OU CONCENTRÉE

Définition 0,752 = 0,7 + 0,05 + 0,002 SYSTÈMES DE NUMÉRATION POSITIONNELS =

1. Introduction Création d'une macro autonome Exécuter la macro pas à pas Modifier une macro... 5

Introduction au datamining

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Gamme BUSINESS 15E PEUGEOT TARIFS, ÉQUIPEMENTS ET CARACTÉRISTIQUES TECHNIQUES. APPLICABLES AU 1er SEPTEMBRE 2015

Université de Picardie - Jules Verne UFR d'economie et de Gestion

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

PLAQUES DE PLÂTRE CLOISONS - DOUBLAGES

Chapitre 2 Le problème de l unicité des solutions

Transcription:

Université de Thessalie Départeent d Aénageent, D Urbanise et Développeent Régional Enseignant : As. Pr. Marie-Noelle Duquenne II. Les Méthodes de Classification Ces éthodes ont pour objectif de parvenir à définir une partition des individus en un nobre restreint de classes hoogènes, perettant une typologie des individus considérés. Les classes sont obtenues à l aide d algorithes foralisés et elles doivent décrire des types de coporteents. Il s agit en d autres teres de faire apparaître des profils types. Les données se présentent sous la fore d un tableau de n individus et k variables. Nous travaillerons ici sur les éthodes de classification autoatique et plus particulièreent sur les éthodes hiérarchiques et non hiérarchiques. Dans tous les cas, il nous faut définir (a) un critère de distance qui reflète la disseblance entre les individus, c'est-à-dire leur dissiilarité grâce auquel on pourra regrouper les individus et (b) une stratégie de classification..1. La Classification Hiérarchique Cette éthode repose sur le principe de la foration de partitions eboitées. Elle a pour but de forer un enseble de partitions de l enseble des n individus en classes de oins en oins fines. Ces classes sont obtenues par regroupeents successifs des individus, en coençant par les individus les plus proches. A chaque étape de regroupeent, le principe sera le êe, réunir dans une classe, les individus les plus proches (objectif d hoogénéité des classes). Certes plus on avance dans le regroupeent des individus et plus les individus présenteront des différences. Il faut donc tenir copte de cet aspect pour déliiter le nobre de classes finaleent retenu. Il ne s agit pas d une éthode anuelle ais d une classification basée sur l algorithe qui utilise un critère d agrégation (regroupeent des individus dans diverses classes), basé sur un critère de distance. 1. Définition du critère de distance Le plus souvent on utilise la distance euclidienne usuelle. Supposons que nous observions k caractères (X 1, X X k ) sur un enseble d individus, la distance euclidienne entre deux des individus du groupe (individus A et B) sera donnée par : Docuent interne / Marie Noelle Duquenne (011 01) 1

d k A, B ( X A, j X B, j ) j1 Considérons les 4 grandes villes de Thessalie pour lesquelles nous avons calculé leur densité ainsi que le nobre de résidents en 001 qui vivaient déjà dans la êe ville en 1995 pour 100 résidents en 001. (Par exeple, pour 100 résidents à Larissa en 001, 83 y vivaient déjà en 1995). Lorsque l on regarde les données brutes (tableau de gauche), il est clair que les échelles de esure sont très différentes et donc que les différences concernant la deuxièe variable ne joueront quasient aucun rôle dans le calcul de la distance. C est pourquoi avons-nous centrés et réduites les deux variables (standardisation) pour prendre en copte les deux variables. Variables initiales Variables centrées réduites Villes Densite Part en 95 Villes Densite Part en 95 Karditsa 376 86, Karditsa -1,7 1,50 Larissa 1083 83, Larissa 1,37-1,3 Volos-Nea Ionia 570 84,6 Volos-Nea Ionia -0,55-0,04 Trikala 837 84,5 Trikala 0,45-0,14 A partir des deux variables centrées - réduites, nous pouvons calculer à les distances entre les villes. La distance entre Karditsa et Larissa est 1 : d ( 1,7 1,37) (1,50 ( 1,3)) 14,9 K, L Cette distance en elle-êe ne nous dit rien, il faut la coparer avec les autres distances pour coprendre les siilarités et dissiilarités. La distance entre Karditsa et Volos est : d K, V ( 1,7 ( 0,55)) (1,50 ( 0,04)),9 Calculées deux à deux les distances peuvent être retranscrites au travers de la atrice carrée dite atrice des proxiités : Villes Karditsa Larissa Volos- Nea Ionia Trikala Karditsa 0,0 14,9,9 5,6 Larissa 14,9 0,0 5,3, Volos-Nea Ionia,9 5,3 0,0 1,0 Trikala 5,6, 1,0 0,0 1 Si nous n avions pas noré les variables, la distance entre Karditsa et Larissa, basée sur les deux variables, serait de 499830 alors que la êe distance en ne prenant en copte que la 1 ère variable serait de 49981. Le rôle de la seconde variable est alors annulé. Ainsi, avec les variables brutes, on pourrait ontrer facileent que la plus petite distance concerne Karditsa et Volos. Cela est dû au fait que l ipact de la èe variable n est en fait pas pris en copte lorsque les variables ne sont pas norées. Docuent interne / Marie Noelle Duquenne (011 01)

Conduite de la Classification La procédure coprend un enseble d étapes successives qui vont se répéter. Etape initiale = Etape 0 a) On associe à chaque individu un poids. On considère généraleent que tous les individus au départ, ont une êe poids (=1). b) Au départ, chaque individu fore une classe, donc la partition initiale correspond au nobre d individus que l on exaine. c) Puisque chaque classe initiale a un seul individu, le centre de gravité de chacune des classes initiales se confond l unique point qui les copose et le poids de chaque classe k est noté k = 1 d) On calcule alors des distances entre les individus à, ce qui revient à calculer les distances entre les centres de gravité des clases initiales. e) On fore alors une nouvelle partition en réunissant dans une classe, les deux preiers individus qui sont les plus proches, au sens de la plus petite distance euclidienne (critère de Ward), ce qui signifie de la plus faible perte d inertie (inforation). D autant plus les individus sont proches l un à l autre, d autant plus les individus se resseblent et donc en les réunissant dans une êe classe, on perd d autant oins d inforation. Le critère d agrégation retenu est donc le critère de WARD = Miniisation de la perte d inertie. Si nous avons n individus initialeent, donc une partition initiale en n classes, à la fin de l étape 0, nous avons désorais n-1 classes. La nouvelle classe coprenant les deux individus les plus proches a donc un poids k = alors que tous les autres classes ont toujours un poids k = 1. 1 ère Etape a) puisque la partition obtenue a peris de définir de nouvelles classes en nobre réduit, les centres de gravités se sont odifiés et il faut alors calculer ces nouveaux centres. b) Puis on calcule les distances entre chacun de n-1 nouveaux centres de gravité, c'est-à-dire entre chacune des n-1 classes de la partition. c) On fore une nouvelle partition en réunissant dans une êe classe, les individus / classes qui sont les plus proches, ceux qui font perdre le oins d inertie. d) Selon ce critère de iniisation de la perte d inertie, nous obtenons alors n- classes. Docuent interne / Marie Noelle Duquenne (011 01) 3

èe Etape a) on procède exacteent de la êe façon qu à l étape 1. b) On obtient alors une nouvelle partition avec n-3 classes. c) Si le nobre de classes obtenues est supérieur à 1, on continue, sinon la procédure est terinée. On peut alors, représenter cette agrégation des individus par un arbre de classification hiérarchique, sur lequel apparaissent les nœuds successifs de réunion des classes, la valeur de chaque nœud correspondant à la perte d inertie provoquée par la réunification des classes. Présentation de l algorithe à l aide d un exeple siple Nous considérons 5 individus caractérisés par une variable qui prend les valeurs suivantes : Individus A B C D E Variable 5 9 8 3 1 Etape 0 Tableau des distances initiales d (i,j)= (xi-xj) A B C D E A 0 16 9 4 16 B 0 1 36 64 C 0 5 49 D 0 4 E 0 d² (A,B) = (5-9) =16 Calcul de la perte d inertie par la réunion de classes k et k P k. k ' d ²( k, k' ) Forule 1 k k ' Chaque classe a un poids = 1 ( k ). Lorsque l on réunit points en un seul, la perte d inforation correspond donc à la distance entre les deux points, pondérés par le poids relatif de ces points. Tableau des pertes d inertie possible par réunion de classes A B C D E A 0 8 4.5 8 B 0 0.5 18 3 C 0 1.5 4.5 D 0 E 0 Docuent interne / Marie Noelle Duquenne (011 01) 4

Résultat : La plus faible d inertie est de 0,5 par la réunion de B et C. 1 er Nœud est entre B et C avec une perte de 0,5. Nouvelle partition : A D E F=B+C Poids = k 1 1 1 Etape 1 Nous devons aintenant calculer les nouvelles distances prenant en copte la réunification de B et C. La distance entre A et D, A et E ainsi que D et E ne change pas. Tableau des distances Etape 1 A D E F A 0 4 16 1.5 D 0 4 30.5 E 0 56.5 F 0 Il a fallu calculer les nouvelles distances selon le critère d agrégation de Ward ; pour les réunions de A à F, D à F et E à F. Le calcul de la distance de A à F (= B+C) se fait ainsi : 1 B. C d²( A, F) Bd ²( B, A) Cd ²( C, A) d²( B, C) B C B C Forule De la êe façon, on calcule d (D,F) et d (E,F) Quel est le sens de cette forule? B F C A La distance entre la classe A et la nouvelle classe F qui est la réunification de B et C n est autre que la distance de A et B plus la distance de A à C oins la distance de B à C, ces distances étant pondérées par le poids relatif de chaque classe. Tableau des pertes d inertie en Etape 1 A D E F A 0 8 8.17 D 0 0.17 E 0 37.5 F 0 Docuent interne / Marie Noelle Duquenne (011 01) 5

Pour cela, on utilise la preière forule, en tenant copte des poids de chaque classe. En fait, les classes A, D et E ont 1 individu donc leur poids =1 tandis que la classe F a deux individus et son poids =. Perte d inertie due à la réunion de A et F (B+C) = 1 1,5 1,5 8, 17 1 3 La perte iniale est égale à soit par réunion de A et D soit par réunion de D et E Choisissons la réunion de D et E. Nous avons une nouvelle classe G coposée de individus. Le èe Nœud est entre D et E avec une perte de. Nouvelle partition A F G=D+F Poids = k 1 Etape Nous devons à nouveau calculer les nouvelles distances prenant en copte la réunification de D et F Tableau des distances Etape A F G=D+E A 0 1,5 9 F 0 4,5 G 0 La distance entre A et F ne change pas puisqu il s agit toujours de individus uniques. Il faut calculer les nouvelles distances selon le critère d agrégation de Ward pour les réunions de A à G et F à G. Calcul de la distance de A à G (=D+E) 1 D. E d²( A, G) Dd ²( D, A) Ed ²( E, A) d²( D, E) D E D E Forule De la êe façon, on calcule d² (D,G) Tableau des partes d inertie en Etape A F G=D+E A 0 8,1 6 F 0 4,5 G 0 Pour cela, on a utilisé la preière forule, en tenant copte des poids de chaque classe. En fait, la classe A contient 1 individu donc son poids =1 tandis que les classes F et G ont deux individus et leur poids =. Docuent interne / Marie Noelle Duquenne (011 01) 6

La perte iniale est égale à 6. Le 3 èe nœud est entre A et G avec une perte de 6 Nouvelle partition : F H= A + G Poids = k 3 Etape 3 Il ne reste que deux classes dans la partition précédente, que signifie que cette étape est la dernière. Il suffit de calculer la perte d inertie qui subviendra lorsque les deux dernières classes F et H vont s agréger. La nouvelle est distance est donnée par la forule soit : 1 A. G d ²( F, H ) Ad ²( A, F ) G d ²( G, F ) d ²( A, G ) A G A G D² (F, H) = 30.5 Le 4 èe Nœud réunissant F et H engendre une perte d inertie égale à : P F F. H H d ²( F, H ),3 3 * 30,5 36,3 Critère Taux Taux cuulés d agrégation = niveau du noeud Nœud 4 A,B,C,D,E 36,3 81,0% 81,0% Nœud 3 A,D,E 6 13,4% 94,4% Nœud D,E 4,5% 98,9% Nœud 1 D,C 0,5 1,1% 100% 44,8 100% Docuent interne / Marie Noelle Duquenne (011 01) 7

Docuent interne / Marie Noelle Duquenne (011 01) 8

Exeple de dérouleent d une Classification Hiérarchique à l aide du logiciel SPSS Les données portent sur les 13 régions de Grèce et plus préciséent sur leur population totale (ainsi que population Hoes et Fees) lors des deux derniers recenseents 001 et 011. L objectif de l analyse est de produire une partition des 13 régions en fonction du taux de variation intercensitaire de leur population. Nous coençons donc par créer la variable Taux = taux de variation de la population entre 001 et 011, à l aide de la coande : Transfor Copute variable. On utilisera l une ou l autre forule ci-dessous. Pop11_ T Pop01_ T Pop11_ T Taux 100 * 100 * 1 Pop01_ T Pop01_ T Docuent interne / Marie Noelle Duquenne (011 01) 9

La nouvelle variable Taux est ainsi créée et apparait à la dernière colonne du fichier de données. L observation des valeurs prises par la variable Taux et en évidence - selon les régions considérées - des évolutions relativeent disparates entre 001 et 011. La plupart des régions ont du al à aintenir leur population, certaines êes subissent une perte relativeent iportantes, seules deux régions présentent un taux relativeent positif (> 3,4%) Nous allons réaliser une siple classification hiérarchique afin de ettre en évidence les partitions successives (regroupeents successifs des 13 régions) et proposer une classification de ces régions. Coande utilisée : Analyze Classify Hierarchical Cluster Choix de la variable à partir de laquelle sera effectuée la classification Sélection de la variable d identification de chaque région de façon à ieux lire les résultats Docuent interne / Marie Noelle Duquenne (011 01) 10

Résultats Statistiques (Coande : Statistics) Lorsque le nobre d individus est liité, il est intéressant de produire la atrice de proxiité qui n est autre que la atrice initiale des distances à entre les individus. Attention, il s agit d une atrice carrée donc plus le nobre d individus est élevé et plus cette atrice sera grande. Vous pouvez néanoins la copier dans Excel pour faciliter sa lecture. Vous pouvez deander la production d un certain nobre de partitions de façon à lire le regroupeent des individus par classe, en fonction du nobre de classes que vous aurez choisi. Ici nous avons choisi de produire les résultats de trois partitions, celles correspondant à 3, 4 et 5 classes. Nous aurons ainsi, un tableau qui nous perettra de ieux suivre les regroupeents. Méthode retenue (Coande : Method) La éthode de Ward est l une des éthodes les plus habituelles et counéent utilisées La esure choisie pour regrouper les individus doit être la distance euclidienne. Coe nous n avons qu une variable, la question de la noralisation ne se pose pas Représentation graphique des partitions (Coande Plots) Se liiter à l arbre des partitions car c est la représentation la plus explicite Docuent interne / Marie Noelle Duquenne (011 01) 11

Une fois toutes les sélections effectuées, les résultats apparaissent sur une nouvelle feuille de travail (feuille output). Ces résultats nous donnent : (a) un résué de la éthode appliquée : nobre d individus retenus, nobre d individus pour lesquels nous détenons des données valides, critère de regroupeent. (b) la atrice initiale de proxiité qui n est lisible que si le nobre d individus est liité Nous observons une très forte proxiité entre quelques régions, tandis que la Grèce de l Ouest, la Crète et le Sud de l Egée présentent en général de fortes distances avec les autres régions. Par contre, la Crète et le Sud de l Egée ont une relativeent faible distance entre elles. (c) l historique de la classification, c'est-à-dire la présentation des étapes de regroupeent. Puisque nous avons 13 individus, il y a donc 1 étapes successives jusqu à ce que le dernier individu (le plus éloigné de tous) ait été regroupé. Si nous avons N individus, nous avons donc n-1 nœuds successifs. Le tableau qui fait suite, reprend en détail la foration des 1 nœuds. Docuent interne / Marie Noelle Duquenne (011 01) 1

Aggloeration Schedule Cluster Cobined Stage Cluster First Appears Stage Cluster 1 Cluster Coefficients Cluster 1 Cluster Next Stage 1 4,003 0 0 4 6 10,007 0 0 6 3 5 7,033 0 0 8 4 1,060 0 1 10 5 3 11,199 0 0 9 6 6 9,40 0 8 7 1 13 1,049 0 0 1 8 5 6 1,951 3 6 10 9 3 8 4,33 5 0 11 10 1 5 10,816 4 8 11 11 1 3 34,540 10 9 1 1 1 1 96,86 11 7 0 1er nœud : Les régions les plus proches sont les régions et 4 (Macédoine Centrale et Epire). Taux pour Région = 0,00 et Taux pour Région 4 = 0,08. Leur distance euclidienne est donc : (0,00-0,08) = 0,0064. En forant ce preier nœud, la perte d inforation est alors de = 0,003 (voir Forule 1). Il faut attendre le 4 èe nœud (colonne next stage) pour que ces deux régions soient regroupées avec une autre région. èe nœud : Régions 6 (Grèce Centrale) et 10 (Attique) dont la distance est de 0,008, entrainant une perte totale d inforation de 0,007 (0,003 au 1 er nœud + 0,004 au ee). Il faut attendre le 6 èe nœud pour que ces régions soient regroupées à une autre (colonne next stage). Au 6ee nœud apparait en effet l inforation selon laquelle, la région 6 fut rattachée à la région 10, lors du ee nœud. 3 èe nœud : Régions 5 et 7 (Thessalie et Iles Ioniennes) dont la distance est de : (-1,7-(-1,50)) = 0,053. La perte d inforation à ce 3 èe nœud, toujours selon la êe forule, est de 0,06, soit donc une perte totale de 0,033. 4 èe nœud : il réunit la région 1 à la région, plus exacteent la région 1 aux régions et 4 qui ont foré le 1 er nœud. Il faudra attendre le 10ee nœud pour que d autres régions soient rattachées aux trois régions 1, et 4. Au total, après la réunion de toutes les régions, la perte cuulée d inforation est de 96,86. A partir du tableau qui suit, on observe que la perte d inforation totale reste très liitée jusqu au 9ee nœud. Elle est de oins de 5%. Par contre au 10ee nœud, nous avons effectiveent un saut non négligeable puisque l on passe à 11%. Quant au 11ee nœud, il correspond a une perte totale de près de 36%, ce qui est un niveau non acceptable. On adet en général qu une bonne partition ne doit pas entrainer une perte supérieure à 5%. La lecture du dendrograe nous peret de lire plus aiséent l historique des partitions. Certes, le nobre liité de régions facilite largeent cette lecture, ce qui ne sera plus le cas lorsque le nobre d individus statistiques ser relativeent grand. Docuent interne / Marie Noelle Duquenne (011 01) 13

Nœuds Perte cuulée % 1 0,003 0,0 0,007 0,0 3 0,033 0,0 4 0,06 0,1 5 0,199 0, 6 0,40 0,4 7 1,049 1,1 8 1,951,0 9 4,33 4,4 Quatre partitions avec très faible perte d inforation 10 10,816 11, Trois partitions acceptables 11 34,54 35,7 Deux partitions non acceptables 1 96,86 100,0 Une seule partition coprenant les 13 régions A la lecture du tableau et du dendrograe, il seble que la partition en 4 groupes soit la eilleure. Le tableau qui suit, nous peret de lire la foration des groupes selon que l on en retient 5, 4 ou 3. Docuent interne / Marie Noelle Duquenne (011 01) 14

Cluster Mebership Case 5 Clusters 4 Clusters 3 Clusters 1:Macedoine de l'est et Thrace 1 1 1 :Macedoine Centrale 1 1 1 3:Macedoinde de l'ouest 4:Epire 1 1 1 5:Thessalie 3 3 1 6:Grece Centrale 3 3 1 7:Iles Ioniennes 3 3 1 8:Grece de l' Ouest 4 9:Peloponnese 3 3 1 10:Attique 3 3 1 11:Nord de l'egee 1:Sud de l'egee 5 4 3 13:Crete 5 4 3 La partition en 4 groupes que nous privilégierons ici, revient à considérer : a) Les régions bénéficiant d une croissance déographique supérieure à 3,4% (Sud de l Égée et Crète) b) Les régions qui parviennent tout juste à aintenir leur population (croissance nulle) : Macédoine de l Est et Thrace, Macédoine Centrale et Épire c) Les régions arquées par une légère baisse de population. Elles sont au nobre de cinq, la perte variant entre -1,7% (Thessalie) et -,6% (Péloponnèse) d) Les régions subissant la plus forte perte de population (supérieure a 3,6%). Il s agit du Nord de l Égée, de la Macédoine de l Ouest et enfin de la Grèce de l Ouest. Cette éthode peut être utilisée en considérant non pas une ais plusieurs variables. Dans ce dernier cas, il faudra prendre soin de standardiser les variables afin d éviter les problèes que peuvent engendrer les différences d échelle de esure entre les diverses variables. Docuent interne / Marie Noelle Duquenne (011 01) 15