1 - PRESENTATION GENERALE...



Documents pareils
La classification automatique de données quantitatives

Image d un intervalle par une fonction continue

LE PROBLEME DU PLUS COURT CHEMIN

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Raisonnement par récurrence Suites numériques

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Classification non supervisée

Pourquoi l apprentissage?

Date : Tangram en carré page

Recherche dans un tableau

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Introduction au Data-Mining

Introduction au datamining

Limites finies en un point

Introduction. Préambule. Le contexte

3 Approximation de solutions d équations

6. Les différents types de démonstrations

Statistiques Descriptives à une dimension

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Chapitre 2 Le problème de l unicité des solutions

Structures algébriques

Chapitre 1 : Introduction aux bases de données

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Probabilités sur un univers fini

chapitre 4 Nombres de Catalan

D'UN THÉORÈME NOUVEAU

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

1. Vocabulaire : Introduction au tableau élémentaire

CHAPITRE VIII : Les circuits avec résistances ohmiques

modélisation solide et dessin technique

Exercices de dénombrement

Fonctions de plusieurs variables

Probabilités sur un univers fini

Introduction au Data-Mining

Théorème du point fixe - Théorème de l inversion locale

Université Paris-Dauphine DUMI2E 1ère année, Applications

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Cours 02 : Problème général de la programmation linéaire

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Suites numériques 3. 1 Convergence et limite d une suite

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Intégration et probabilités TD1 Espaces mesurés Corrigé

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

I. Polynômes de Tchebychev

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

La fonction exponentielle

Les indices à surplus constant

BACCALAUREAT GENERAL MATHÉMATIQUES

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

1. Introduction Création d'une requête...2

5 ème Chapitre 4 Triangles

Nombre de marches Nombre de facons de les monter

Journal officiel de l'union européenne

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Cours d Analyse. Fonctions de plusieurs variables

Programmation linéaire

NOTIONS DE PROBABILITÉS

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Couples de variables aléatoires discrètes

Continuité et dérivabilité d une fonction

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Extraction d informations stratégiques par Analyse en Composantes Principales

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

Rappels sur les suites - Algorithme

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

données en connaissance et en actions?

Chapitre V : La gestion de la mémoire. Hiérarchie de mémoires Objectifs Méthodes d'allocation Simulation de mémoire virtuelle Le mapping

Leçon N 4 : Statistiques à deux variables

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Les algorithmes de base du graphisme

Ebauche Rapport finale

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques

Entrepôt de données 1. Introduction

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

La persistance des nombres

COURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Coefficients binomiaux

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

NOTATIONS PRÉLIMINAIRES

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

OPTIMISATION À UNE VARIABLE

Rapport d'analyse des besoins

Résolution de systèmes linéaires par des méthodes directes

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Le modèle de Black et Scholes

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Carl-Louis-Ferdinand von Lindemann ( )

Transcription:

Contenu PREAMBULE... 2 INTRODUCTION... 2 1 - PRESENTATION GENERALE... 4 Qualité et optimalité... 8 2 - AGREGATION AUTOUR DE CENTRES MOBILES... 9 2.1 LES BASES DE L'ALGORITHME... 10 2.2 TECHNIQUES CONNEXES... 13 3 - CLASSIFICATION HIERARCHIQUE... 14 3.1 DISTANCES ET INDICES D AGREGATION... 16 Critères d agrégation... 16 Critère de Ward... 17 Comparaison des critères d agrégation... 18 3.2 ALGORITHME DE CLASSIFICATION... 18 3.3 ELEMENTS DE VOCABULAIRE... 20 4 STRATEGIE DE CLASSIFICATION MIXTE... 22 5 - COMPLEMENTARITE CLASSES ET PLANS FACTORIELS... 24 6 - LES CARTES DE KOHONEN... 26 LE PRINCIPE... 26 L ALGORITHME D APPRENTISSAGE... 28 DIFFICULTES ET LIMITATIONS... 31 NOS REFERENCES... 31 ANNEXES... 32 ANNEXE A CONVERGENCE DE L'ALGORITHME DES CENTRES MOBILES... 32 ANNEXE B SAUT MINIMAL ET ARBRE DE LONGUEUR MINIMALE... 34 Alain Morineau Page 1 DeeNov

Préambule Ce document, téléchargeable sur le site www.deenov.com, illustre les différents aspects des méthodes de classification, leurs fondements, les caractéristiques techniques et pratiques, les domaines d application et les règles d interprétation. Il constitue aussi une introduction à l utilisation de la classification et comporte les principaux développements techniques. On trouvera une présentation détaillée des méthodes dans nos ouvrages cités en référence. Ils ont servi de base à cette présentation : "Technique de la Description Statistique" (Lebart, Morineau, Tabard, 1977), et "Traitement des Données Statistiques" (Lebart, Morineau, Piron, 1995, 2006). L'ouvrage "Multivariate Descriptive Statistical Analysis" (Lebart, Morineau, Warwick, 1984) est un manuel en anglais comportant des exemples d'application et incluant la description des techniques. Ces manuels contiennent les références précises correspondant aux repères bibliographiques indiqués dans ce tutoriel. Introduction Le contexte La classification fait partie des techniques descriptives multidimensionnelles. Elle appartient aussi au domaine du Data mining tel qu il est mis en œuvre par exemple dans le logiciel SPAD dont nous avons dirigé le développement jusqu en 2004. Ces techniques d exploration sont exécutées dans le cadre d'enchaînements de procédures complémentaires de visualisation et de synthèse utilisées pour démêler la complexité et la redondance des données brutes et faire émerger des informations cachées dans les données. La classification est une branche de l'analyse des données et du Data mining qui a donné lieu à des publications nombreuses et diversifiées. Les ouvrages spécialisés (notamment, en langue française, les deux tomes du traité d'analyse des données de Benzécri, 1973) contiennent en général d'importantes considérations historiques et de rigoureux développements formels sur la notion de classification. Nous nous bornerons ici aux principes de base des méthodes les plus largement utilisées. Les techniques multidimensionnelles Le développement de ces techniques procède de l'effet conjugué de plusieurs facteurs : la possibilité de traiter des tableaux de données complexes et de grandes tailles, le regain d'intérêt suscité par de tels tableaux, la possibilité d exécuter des algorithmes souvent lourds et le désir de s'affranchir d hypothèses techniques de commodité souvent irréalistes. Schématiquement, ces techniques comprennent deux familles de méthodes: les méthodes faisant appel à l'algèbre linéaire, désignées en France sous le nom de méthodes factorielles, et les techniques de classification automatique. Alain Morineau Page 2 DeeNov

Les techniques factorielles Il est toujours possible de calculer des distances entre lignes et entre colonnes d'un tableau rectangulaire de valeurs numériques. Ces distances peuvent s'interpréter en termes de corrélations ou de similarités. En revanche, il n'est pas possible de visualiser ces distances de façon exacte: il est nécessaire de procéder à des transformations ou à des approximations pour en obtenir une représentation plane. C'est l'une des tâches dévolues à l'analyse factorielle : opérer une réduction de dimension de certaines représentations "multidimensionnelles" afin de les approcher visuellement. Les techniques de classification Les techniques de classification automatique sont destinées à produire des groupements de lignes ou de colonnes d'un tableau. Il s'agit le plus souvent d'objets ou d'individus (les lignes) décrits par un certain nombre de variables ou de caractères (les colonnes). Ces groupements peuvent se faire par agglomération progressive des éléments deux à deux (comme cela se fait en classification hiérarchique), ou par recherche directe d'une partition, en affectant les éléments à des centres provisoires de classes, puis en recentrant ces classes (méthode itérative des centres mobiles). On présentera une méthode d un autre type, les cartes de Kohonen, affiliée aux réseaux de neurones, produisant une partition dont les classes sont positionnées par voisinage sur un plan. Alain Morineau Page 3 DeeNov

1 - Présentation générale Les circonstances d'utilisation de la classification sont sensiblement les mêmes que celles des méthodes d'analyse factorielle descriptive : l'utilisateur se trouve face à un tableau rectangulaire de valeurs numériques. Ce tableau peut être un tableau de valeurs numériques continues (valeur de la variable j pour l'individu i, à l'intersection de la ligne i et de la colonne j du tableau), un tableau de contingence (croisant deux partitions d'une même population), ou encore un tableau de présence-absence (valeurs 0 ou 1 selon que tel individu ou objet possède tel caractère ou attribut). Dans certaines applications, l'utilisateur peut disposer d'un tableau carré symétrique de similarités ou de distances. Le recours aux techniques de classification automatique est soustendu par quelques idées générales concernant le champ d'observation. On suppose que certains regroupements doivent exister, ou au contraire on exige que certains regroupements soient effectués. Autrement dit, on ne se satisfait pas d'une visualisation plane et continue des associations statistiques et l'on manifeste, implicitement ou explicitement, un intérêt pour la mise en évidence de classes d'individus ou de caractères. Alain Morineau Page 4 DeeNov

Les représentations synthétiques se manifestent soit sous la forme de partitions des ensembles étudiés (lignes ou colonnes du tableau analysé), soit sous la forme de hiérarchie de partitions que nous définirons de façon plus précise ultérieurement. Quelquefois, il s'agira d'arbres au sens de la théorie des graphes, arbres dont les sommets sont les objets à classer. Enfin on pourra rechercher des classes empiétantes ou simplement mettre en évidence des zones à forte densité, laissant de nombreux individus ou caractères non classés. A une même famille de résultats correspond parfois des démarches et des interprétations différentes. Il peut s'agir de découvrir une partition ayant une existence réelle (cette existence étant conjecturée avant l'analyse statistique ou étant révélée à l'issue des calculs) ou l'on veut au contraire utiliser les partitions produites comme des outils ou des intermédiaires de calculs permettant une exploration des données. Pour l'essentiel, les techniques de classification font appel à une démarche algorithmique et non aux calculs formalisés usuels. Alors que les valeurs des composantes des axes factoriels, par exemple, sont la solution d'une équation pouvant s'écrire sous une forme très condensée (même si sa résolution est complexe), la définition des classes ne se fera qu'à partir d'une formulation algorithmique: une série d'opérations est définie de façon récursive et répétitive. Alain Morineau Page 5 DeeNov

Il en découle que la mise en œuvre de la plupart des techniques de classification ne nécessite que des notions mathématiques relativement élémentaires. Il existe plusieurs familles d'algorithmes de classification : les algorithmes conduisant directement à des partitions comme les méthodes d'agrégation autour de centres mobiles; les algorithmes ascendants (ou encore agglomératifs) qui procèdent à la construction des classes par agglomérations successives des objets deux à deux, et qui fournissent une hiérarchie de partitions des objets; enfin les algorithmes descendants (ou encore divisifs) qui procèdent par dichotomies successives de l'ensemble des objets, et qui peuvent encore fournir une hiérarchie de partitions. Alain Morineau Page 6 DeeNov

On se limitera ici aux deux premières techniques de classification : - les groupements peuvent se faire par recherche directe d'une partition, en affectant les éléments à des centres provisoires de classes, puis en recentrant ces classes et en affectant de façon itérative ces éléments. Il s'agit des techniques d'agrégation autour de centres mobiles, apparentées à la méthode des "nuées dynamiques", ou méthode "k-means", qui sont particulièrement intéressantes dans le cas des grands tableaux. - les groupements peuvent se faire par agglomération progressive des éléments deux à deux. C'est le cas de la classification ascendante hiérarchique qui est présentée ici suivant plusieurs critères d'agrégation. Nous envisagerons d'une part la technique "du saut minimal" (single linkage) équivalente, d'un certain point de vue, à la recherche de l'arbre de longueur minimale, et d'autre part la technique d'agrégation "selon la variance", intéressante par la compatibilité de ses résultats avec certaines analyses factorielles. Ces techniques présentent des avantages différents et peuvent être utilisées conjointement. Il est ainsi possible d'envisager une stratégie de classification basée sur un algorithme mixte, particulièrement adapté au partitionnement d'ensembles de données comprenant des centaines de milliers d'individus à classer. Un des avantages des méthodes de classification est de créer des éléments qui sont des groupements d individus qui se ressemblent (les classes) souvent plus faciles à décrire et interpréter que les axes factoriels. Enfin, la pratique montre que l'utilisateur a intérêt à Alain Morineau Page 7 DeeNov

utiliser de façon conjointe les méthodes factorielles et les méthodes de classification. Qualité et optimalité Pourquoi tant de méthodes et tant de variantes pour regrouper des objets? Le problème de créer une partition en classes à partir d un ensemble fini d objets a la particularité d avoir un nombre (presque) infini de solutions. Quelque soient les critères utilisés, les distances et autres paramètres, il n y aura jamais la certitude d avoir atteint la solution «la meilleure» Alain Morineau Page 8 DeeNov

2 - Agrégation autour de centres mobiles Bien qu'elle ne fasse appel qu'à un formalisme limité et que son efficacité soit dans une large mesure attestée par les seuls résultats expérimentaux, la méthode de classification autour de centres mobiles est probablement la technique de partitionnement la mieux adaptée actuellement aux vastes recueils de données ainsi que la plus utilisée pour ce type d'application. Produisant des partitions des ensembles étudiés, elle est utilisée aussi bien comme technique de description et d'analyse que comme technique de réduction, généralement en association avec des analyses factorielles et d'autres méthodes de classification. L'algorithme peut être imputé principalement à Forgy (1965), bien que de nombreux travaux (parfois antérieurs : Thorndike, 1953), le plus souvent postérieurs (MacQueen, 1967; Ball and Hall, 1967) aient été menés parallèlement et indépendamment pour introduire des variantes ou des généralisations. Cette méthode peut être considérée comme un cas particulier de techniques connues en France sous le nom de nuées dynamiques (Diday, 1971). Elle est particulièrement intéressante pour les gros fichiers numériques car les données sont traitées en lecture directe : le tableau des données, stocké sur une mémoire auxiliaire, est lu plusieurs fois de façon séquentielle, sans encombrer de zones importantes dans la mémoire centrale de l'ordinateur. La lecture directe permet également d'utiliser au mieux les particularités du codage des Alain Morineau Page 9 DeeNov

données et la nature de la formule de distance utilisée pour réduire le coût des calculs. 2.1 Les bases de l'algorithme Soit un ensemble I de n individus à partitionner, caractérisés par p caractères ou variables. On suppose que l'espace R p supportant les n points-individus est muni d'une distance appropriée notée d (par exemple la distance euclidienne usuelle si les variables sont continues, ou la distance du 2 si elles sont nominales). On désire constituer au maximum q classes. Les étapes de l'algorithme sont illustrées par la figure cidessous. Étape 0 : On détermine q centres provisoires de classes (par exemple, par tirage pseudo-aléatoire sans remise de q individus dans la population à classifier, selon une préconisation de MacQueen). Les q centres : 0 0 0 C 1,,Ck,,Cq induisent une première partition P 0 de l'ensemble des individus I en q classes : 0 0 0 I 1,, Ik,, Iq Ainsi l'individu i appartient à la classe I k 0 s'il est plus proche de C k 0 que de tous les autres centres (Les classes sont alors délimitées dans l'espace par les cloisons polyédrales convexes formées par les plans médiateurs des segments joignant tous les couples de centres). Étape 1: On détermine q nouveaux centres de classes : Etc....... C 1 1,,Ck 1,,Cq 1 en prenant les centres de gravité des classes qui viennent d'être obtenues : 0 0 0 I 1,, Ik,, Iq Ces nouveaux centres induisent une nouvelle partition P 1 de I construite selon la même règle que pour P 0. La partition P 1 est formée des classes notées : I 1 1,, Ik 1,, Iq 1 Alain Morineau Page 10 DeeNov

Étape m: On détermine q nouveaux centres de classes : C 1 m,,ck m,,cq m en prenant les centres de gravité des classes qui ont été obtenues lors de l'étape précédente, I 1 m 1,, Ik m 1,,Iq m 1 Ces nouveaux centres induisent une nouvelle partition P m de l'ensemble I formée des classes : I 1 m,,ik m,, Iq m C 0 1 C 0 2 Tirage au hasard des centres C 1 0 et C2 0 I 0 1 I 0 2 Constitution des classes I 1 0 et I2 0 C 1 1 C 1 I 1 2 1 I 1 2 Nouveaux centres C 1 1 et C2 1 et nouvelles classes I 1 1 et I2 1 I 2 1 C 2 1 C 2 2 I 2 2 Nouveaux centres C 1 2 et C2 2 et nouvelles classes I 1 2 et I2 2 Les étapes de l'algorithme des centres mobiles Alain Morineau Page 11 DeeNov

Le processus se stabilise nécessairement comme on le montre en annexe. L'algorithme s'arrête soit lorsque deux itérations successives conduisent à la même partition, soit lorsqu'un critère convenablement choisi (par exemple, la mesure de la variance intraclasses ou inertie intra- classe) cesse de décroître de façon sensible, soit encore parce qu'un nombre maximal d'itérations a été fixé a priori. Remarque Théorème de Huygens : I.tot = I.inter + I.intra Noter que la partition obtenue dépend généralement du choix initial des centres. On améliore la solution en menant simultanément deux ou trois partitions indépendantes que l on croise ensuite. En croisant par exemple deux partitions en 10 classes, on crée une nouvelle partition qui aura au plus 100 classes (certaines peuvent être vides). Alain Morineau Page 12 DeeNov

Les individus qui se retrouvent dans chacune d elles se sont retrouvés deux fois dans une même classe, ce qui préjuge d une partition croisée plus «robuste» vis-à-vis de l arbitraire des centres initiaux des classes. Il restera à mener une procédure de regroupement des classes croisées pour définir une partition finale (voir plus loin la procédure de classification mixte). 2.2 Techniques connexes Il existe de nombreux algorithmes dont le principe général est voisin de l'algorithme d'agrégation autour de centres mobiles mais qui en diffèrent cependant sur certains points. Pour des informations plus détaillées sur les techniques d'agrégation autour des centres mobiles, on pourra consulter les ouvrages de Benzécri (1973) et Anderberg (1973). Ainsi, dans la technique des nuées dynamiques (Diday, 1972, 1974), les classes ne sont pas caractérisées par un centre de gravité, mais par un certain nombre d'individus à classer, dénommés "étalons", qui constituent alors un "noyau" ayant pour certaines utilisations un meilleur pouvoir descriptif que des centres ponctuels. Ce formalisme a permis plusieurs généralisations de la méthode. La méthode dite des k-means (k-moyennes) introduite par MacQueen (1967) commence également par un tirage pseudo-aléatoire de centres ponctuels. Cependant la règle de calcul des nouveaux centres n'est pas la même. On n'attend pas d'avoir procédé à la réaffectation de tous les individus pour modifier la position des centres : chaque réaffectation d'individus entraîne une modification de la position du Alain Morineau Page 13 DeeNov

centre correspondant. En une seule itération, cette procédure peut ainsi donner une partition de bonne qualité. Mais celle-ci dépendra de l'ordre des individus sur le fichier, ce qui n'est pas le cas pour la technique exposée précédemment. 3 - Classification hiérarchique Les principes généraux communs aux diverses techniques de classification ascendante hiérarchique (notée souvent CAH) sont également très simples. Il est difficile de leur trouver une paternité car ces principes relèvent plus du bon sens que d'une théorie formalisée. Les exposés les plus systématiques et les plus anciens sont peut-être ceux de Sokal et Sneath (1963), puis de Lance et Williams (1967). Pour une revue synthétique, voir l article général de Gordon (1987). Le principe de l'algorithme consiste à créer, à chaque étape, une partition obtenue en agrégeant deux à deux les éléments les plus proches. On désignera ici par élément à la fois les individus ou objets à classer eux-mêmes et les regroupements d'individus générés par l'algorithme. Il y a différentes manières de considérer le nouveau couple d'éléments agrégés, d'où un nombre important de variantes de cette technique. Alain Morineau Page 14 DeeNov

Classification hiérarchique : ascendante (agglomérative) et descendante (divisive) L'algorithme ne fournit pas une partition en q classes d'un ensemble de n objets mais fournit une hiérarchie de partitions, se présentant sous la forme d'arbres appelés également dendrogrammes et contenant n - 1 partitions. L'intérêt de ces arbres est qu'ils peuvent être utilisés pour donner une idée du nombre de classes existant effectivement dans la population. Dendrogramme (ou arbre hiérarchique) et partition par coupure de l arbre Chaque coupure d'un arbre fournit une partition. Cette partition aura d'autant moins de classes et des classes d'autant moins homogènes que l'on coupe l arbre plus haut. Alain Morineau Page 15 DeeNov

3.1 Distances et indices d agrégation On suppose que l'ensemble des individus à classer est muni d'une distance (il s'agira parfois simplement d'une mesure de dissimilarité ; dans ce cas, l'inégalité triangulaire d(x,y) d(x,z) + d(y,z) n'est pas exigée). Ceci ne suppose pas que les distances soient toutes calculées en même temps : il faut pouvoir les calculer ou les recalculer à partir des coordonnées des points-individus, celles-ci devant être accessibles rapidement. On peut calculer ainsi une matrice de distances entre tous les individus deux à deux. Critères d agrégation Une fois constitué un groupe d'individus, il est nécessaire ensuite de savoir évaluer une distance entre un individu et un groupe, et par la suite une distance entre deux groupes. Ceci revient à définir une stratégie de regroupements des éléments, c'est-à-dire se fixer des règles de calcul des distances entre groupements disjoints d'individus. Ces règles sont appelées critères (ou indices) d'agrégation. La distance entre ces groupements pourra en général se calculer directement à partir des distances des différents éléments impliqués dans le regroupement. Par exemple, si x, y, z sont trois objets, et si les objets x et y sont regroupés en un seul élément noté h, on peut définir la distance de ce groupement à z par la plus petite distance des divers éléments de h à z : d(h,z) = Min {d(x,z), d(y,z) } Cette distance s'appelle le saut minimal (single linkage) (Sneath, 1957 ; Johnson, 1967) et constitue un critère d'agrégation. On peut également définir la distance du saut maximal (ou diamètre) en prenant la plus grande distance des divers éléments de h à z : d(h,z) = Max {d(x,z), d(y,z) } Une autre règle simple et fréquemment employée est celle de la distance moyenne ; pour deux objets x et y regroupés en h : d(h,z) {d(x,z) d(y, z)} 2 Alain Morineau Page 16 DeeNov

Plus généralement, si x et y désignent des sous-ensembles disjoints de l'ensemble des objets, ayant respectivement n x et n y éléments, h est alors un sous-ensemble formé de n x + n y éléments et on définit la distance entre l ensemble h et un élément z par : Critère de Ward {n x d(x,z) n y d(y,z)} d(h,z) n x n y Considérons deux sous-ensembles ou classes A et B, de tailles na et nb, de centres ga et gb. Lorsqu'on remplace deux classes A et B par leur réunion, on montre que la diminution de l'inertie interclasse (et donc l augmentation de l inertie intraclasse) est égale à: nn A B d 2 ( g A, gb) n( n n ) A B Alain Morineau Page 17 DeeNov

La méthode de Ward consiste à choisir à chaque regroupement le couple de classes qui minimise l augmentation de l inertie intraclasse. Comparaison des critères d agrégation L agrégation selon le lien minimum a l inconvénient de produire des «effets de chaîne» (les objets s agrègent l un après l autre au groupe déjà constitué), mais déforme peu si on reconstitue les similarités à partir de l arbre. L agrégation selon le lien maximum présente l inconvénient de déformer beaucoup les similarités. La méthode de Ward est particulièrement adaptée lorsque la classification est effectuée après une analyse factorielle, les objets à classer étant repérés par leurs coordonnées sur les premiers axes factoriels (on obtient directement le carré de la distance en additionnant les carrés des coordonnées). De plus le critère d inertie mis en œuvre dans la méthode de Ward la rend particulièrement compatible avec les analyses factorielles pour une utilisation complémentaire des approches. 3.2 Algorithme de classification L'algorithme fondamental de classification ascendante hiérarchique se déroule de la façon suivante : Étape 1 : il y a n éléments à classer (qui sont les n individus); Étape 2 : on construit la matrice de distances entre les n éléments et l'on cherche les deux plus proches, que l'on agrège en un Alain Morineau Page 18 DeeNov

nouvel élément. On obtient une première partition à n-1 classes; Étape 3 : on construit une nouvelle matrice des distances qui résultent de l'agrégation, en calculant les distances entre le nouvel élément et les éléments restants (les autres distances sont inchangées). On se trouve dans les mêmes conditions qu'à l'étape 1, mais avec seulement (n-1) éléments à classer et en ayant choisi un critère d'agrégation. On cherche de nouveau les deux éléments les plus proches, que l'on agrège. On obtient une deuxième partition avec n-2 classes et qui englobe la première; Etc..... Étape m : on calcule les nouvelles distances, et l'on réitère le processus jusqu'à n'avoir plus qu'un seul élément regroupant tous les objets et qui constitue la dernière partition. Nous illustrons cette procédure en prenant comme objets à classer cinq points. 1 2 3 5 4 1 2 3 5 4 1 2 3 5 4 Etape 1 Etape 2 Etape 3 1 2 3 5 4 1 2 3 5 4 Etape 4 Etape 5 Agglomération progressive de 5 points Les regroupements successifs peuvent être représentés par un arbre ou dendrogramme, comme le montre la figure où l'on a porté en ordonnée les valeurs des indices (ou encore distances) correspondant aux différents niveaux d'agrégation. Alain Morineau Page 19 DeeNov

Arbre hiérarchique et éléments de vocabulaire 3.3 Eléments de vocabulaire Quelques remarques vont nous permettre d'introduire les notions et la terminologie habituellement utilisées en classification hiérarchique. Le fonctionnement de l'algorithme nous montre que les distances n'interviennent que par les inégalités qui existent entre elles. Le même arbre (à une dilatation près des ordonnées) aurait été obtenu à partir d'un simple classement des couples d'objets dans l'ordre des distances croissantes. Un tel classement s'appelle une ordonnance (une préordonnance s'il y a des distances égales). Dans ce cas on tracera conventionnellement l'arbre avec des niveaux équidistants. La famille H des parties de l'ensemble I des objets construite à partir d'algorithmes ascendants forme ce que l'on appelle une hiérarchie. Cette famille a pour propriété de contenir l'ensemble tout entier (I H) ainsi que chacun des objets pris isolément (i I => {i} H). Les autres couples de parties h, h' de H sont alors soit disjointes, soit incluses l'une dans l'autre. En effet lors du fonctionnement de l'algorithme, chaque fois qu'une classe se forme à partir d'éléments disjoints, elle est elle-même considérée comme un nouvel élément, donc strictement incluse dans une classe ultérieure (voir la figure). Les objets ou individus (1, 2, 3, 4, 5) sont les éléments terminaux de l'arbre (ou de la hiérarchie). Les classes 6, 7, 8, 9 sont les nœuds de l'arbre : ce sont des classes issues de regroupements de deux éléments (terminaux ou non) numérotés à la suite des éléments terminaux et dont chacune détermine une nouvelle partition. On Alain Morineau Page 20 DeeNov

appelle arbitrairement aîné et benjamin, les deux éléments groupés constituant un nœud (voir la figure). On a une hiérarchie indicée si à toute partie h de la hiérarchie est associée une valeur numérique v(h) 0 compatible avec la relation d'inclusion au sens suivant: si h h' alors v(h) < v(h') La hiérarchie de la figure est indicée de façon naturelle par les valeurs des distances correspondant à chaque étape d'agrégation (ces distances sont portées en ordonnées). L'indice est la distance déterminant le regroupement. En "coupant" l arbre par une droite horizontale (voir la figure), on obtient une partition, d'autant plus fine que la coupure est proche des éléments terminaux. Si par exemple l'indice est supérieur à 4 et inférieur à 9, on obtient une partition en deux classes {1,3,4} et {2,5}. Si l indice vaut 3, on obtient trois classes {1,3}, {4} et {2,5}. Une hiérarchie permet donc de fournir une chaîne de n partitions emboitées ayant de 1 à n classes. Alain Morineau Page 21 DeeNov

4 Stratégie de classification mixte Principaux avantages et inconvénients des deux familles de classification, les partitions et les arbres hiérarchiques : L'algorithme de classification actuellement le mieux adapté au partitionnement des gros ensembles de données est un algorithme mixte procédant en quatre phases: a) Partitionnement initial en quelques dizaines de classes (par une technique du type "nuées dynamiques" ou "k-means") b) Agrégation des classes obtenues L'agrégation hiérarchique est assez coûteuse si elle s'applique à des dizaines de milliers d'individus, c'est pourquoi il est utile de réduire la dimension du problème en opérant un regroupement préalable en quelques dizaines de classes (50 ou 100 par exemple) c) Choix du nombre de classes par coupure de l'arbre (en général après une inspection visuelle) et optimisation de la partition obtenue par réaffectations (centres mobiles) d) Caractérisation statistique des classes Une fois les individus regroupés en classes, il est facile d'obtenir une description automatique de ces classes: on peut en effet, pour les variables numériques comme pour les Alain Morineau Page 22 DeeNov

variables nominales, calculer des statistiques d'écarts entre les valeurs internes à la classe et les valeurs globales; on peut également convertir ces statistiques en valeurs-tests et opérer un tri sur ces valeurs-test. On obtient finalement, pour chaque classe, les modalités et les variables les plus caractéristiques. Présentation schématique : Alain Morineau Page 23 DeeNov

5 - Complémentarité classes et plans factoriels Les techniques de classification fournissent un éclairage des données différent de celui des techniques factorielles: il y a complémentarité entre les deux approches. Les regroupements peuvent en effet permettre de corriger les déformations opérées lors des projections sur les plans factoriels. De plus, il est plus facile de décrire des sousensembles d individus (les classes) qu'un continuum spatial (les plans factoriels). La démarche fondée sur les représentations graphiques a en effet deux graves inconvénients: 1) Les visualisations sont limitées à deux, ou en général à très peu de dimensions, alors que le nombre d'axes significatifs peut souvent atteindre en pratique 8 ou 10, parfois plus. 2) Ces visualisations peuvent inclure des milliers de points, et donner lieu à des graphiques chargés ou illisibles. Il faut donc à ce stade se tourner vers d autres méthodes pour compléter, alléger et clarifier la présentation des résultats. L'utilisation conjointe de la classification automatique et des analyses factorielles permet de remédier à ces lacunes. Lorsqu'il y a trop de points sur un graphique, il paraît utile de procéder à des regroupements en familles homogènes. Les algorithmes utilisés pour ces regroupements fonctionnent de la même façon, que les points soient situés dans un espace à deux ou à dix dimensions. Autrement dit, l'opération va présenter un double intérêt: allégement des sorties graphiques d'une part, prise en compte de la dimension réelle du nuage de points d'autre part. La notion de classe est intuitive (groupes d'individus les plus semblables possibles). La description des classes fait appel à des classements de libellés en clair et donc faciles à lire, ces classements étant fondés sur de simples comparaisons de pourcentages ou de moyennes. Alain Morineau Page 24 DeeNov

Mais ce sont les méthodes factorielles qui permettent de visualiser les positions relatives des classes dans l'espace, et aussi de mettre en évidence certaines variations continues ou certaines dérives dans cet espace qui auraient pu être masquées par la discontinuité des classes. Les deux techniques sont donc complémentaires, et se valident mutuellement. Alain Morineau Page 25 DeeNov