MÉTHODES DE CLASSIFICATION



Documents pareils
La classification automatique de données quantitatives

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Classification non supervisée

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Limites finies en un point

1 - PRESENTATION GENERALE...

Agrégation des portefeuilles de contrats d assurance vie

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Continuité et dérivabilité d une fonction

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

ACP Voitures 1- Méthode

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Arbres binaires de décision

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Analyse en Composantes Principales

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Objets Combinatoires élementaires

Algèbre binaire et Circuits logiques ( )

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Extraction d informations stratégiques par Analyse en Composantes Principales

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Logiciel XLSTAT version rue Damrémont PARIS

Développement décimal d un réel

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Chaînes de Markov au lycée

1 Complément sur la projection du nuage des individus

3 Approximation de solutions d équations

Introduction au datamining

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Optimisation, traitement d image et éclipse de Soleil

introduction Chapitre 5 Récursivité Exemples mathématiques Fonction factorielle ø est un arbre (vide) Images récursives

LE PROBLEME DU PLUS COURT CHEMIN

Statistiques Descriptives à une dimension

Programmes des classes préparatoires aux Grandes Ecoles

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Texte Agrégation limitée par diffusion interne

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

REVUE DE STATISTIQUE APPLIQUÉE

Relation entre deux variables : estimation de la corrélation linéaire

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

Chapitre 3. Les distributions à deux variables

Raisonnement par récurrence Suites numériques

Probabilités sur un univers fini

Fonctions homographiques

2.4 Représentation graphique, tableau de Karnaugh

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Individus et informations supplémentaires

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Exprimer ce coefficient de proportionnalité sous forme de pourcentage : 3,5 %

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Introduction au Data-Mining

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

VI. Tests non paramétriques sur un échantillon

Planche n o 22. Fonctions de plusieurs variables. Corrigé

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

PLAN. Ricco Rakotomalala Tutoriels Tanagra - 2

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

1. Vocabulaire : Introduction au tableau élémentaire

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Rappels sur les suites - Algorithme

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction au Data-Mining

Moments des variables aléatoires réelles

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Les algorithmes de fouille de données

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Qu est-ce qu une probabilité?

Cours Fonctions de deux variables

Correction de l examen de la première session

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

données en connaissance et en actions?

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Résolution de systèmes linéaires par des méthodes directes

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Correction du baccalauréat ES/L Métropole 20 juin 2014

Quelques éléments de statistique multidimensionnelle

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Séries Statistiques Simples

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

Intégration et probabilités TD1 Espaces mesurés Corrigé

Correction du Baccalauréat S Amérique du Nord mai 2007

Introduction à l approche bootstrap

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Corrigé du baccalauréat S Asie 21 juin 2010

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Cours d Analyse. Fonctions de plusieurs variables

Transcription:

MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ

MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous la forme d un tableau individus variables. 1. Ayant défini un critère de distance (dissemblance) ou dissimilarité (pas nécessairement d inégalité triangulaire) entre les individus, on procède au regroupement des individus. 2. Ce regroupement nécessite une stratégie de classification : critère de classification. 2

MÉTHODES NON HIERARCHIQUES Partition en k classes Eemples : Centres mobiles Nuées dynamiques Avantages : Permettent la classification d ensembles volumineu. Inconvénients : On impose au départ le nombre de classes. 3

HIÉRARCHIQUES : suites de partitions emboîtées a b c d e OU a, b, c, d, e ab, c, d, e abc, de abcde Avantages : La lecture de l arbre permet de déterminer le nombre optimal de classes. Inconvénients : Coûteu en temps de calcul. 4

Éléments de vocabulaire classification automatique classification non supervisée apprentissage sans professeur Le terme «classification» en anglais fait référence à l affectation d un individu à une classe (eistant a priori) dans le cadre de l analyse discriminante. Il se traduit en français par le terme classement. L équivalent en anglais de «classification automatique» est «cluster analysis». 5

Éléments de vocabulaire E : ensemble des n objets à classer Dissimilarité : dij (, ) = dji (, ) dii (, ) = 0 dij (, ) 0 Similarité : sij (, ) = sji (, ) sij (, ) 0 sii (, ) sij (, ) 6

I. MÉTHODES DE PARTITIONNEMENT 1. Considérations combinatoires P nk, = nombre de partitions en k classes de n individus P nk, = Pn 1, k 1+ k Pn 1, k (récurrence) (nombre de Stirling de 2 ème espèce) E : P 12, 5 = 1379400 P n = nombre total de partitions (nombres de Bell) E : P 12 = 4 213 597 Nécessité d algorithmes pour trouver une bonne partition. Comment définir la qualité d une partition? 7

2. Inertie intra-classe et Inertie inter-classe n points dans un espace euclidien d 2 ( i i ), distance euclidienne Soit une partition en k classes de poids P i g 1, g 2... g k centres de gravité I 1, I 2... I k inerties associées I W = PI inertie intra i i ( ) I = Pd 2 g, g inertie inter B i i I + I = I g = centre de gravité des n individus B W g 1 g g2 g k 8

Comparaison de deu partitions en k classes : La meilleure est celle qui a l inertie I W la plus faible (ou l inertie I B la plus forte). Remarque : Ce critère ne permet pas de comparer des partitions à nombres différents de classe. 3. Méthode des centres mobiles c 1 c 2 c 3 1 ère étape : choi de centres c i et partition associée (les c i sont choisis au hasard). La classe E ci est formée de tous les points plus proches de c i que de tout autre centre. 9

2 ème étape : calcul des centres de gravité de chaque classe définition d une nouvelle partition. ( ) g 1 2 ( ) g 3 2 ( ) g 2 2 + itérations successives RÉSULTAT FONDAMENTAL L inertie intra-classe diminue à chaque étape. Démonstration : Soit E gi la classe obtenue en remplaçant c i par ( 2 g ) i centre de gravité de E ci. D après le théorème de Konig-Huygens, g i n étant pas le centre de gravité de E gi k 1 d 2 ( g ) n i= 1 E gi partition E gi., i est supérieur à l inertie intra-classe de la 10

Il suffit de montrer alors que : k 1 2 1 d ( j g ) n, i i j E n c i = 1 i= 1 k 2 d (,g i ) E g i Or, si on considère un point quelconque, il figurera dans le membre de droite avec son carré de distance au g i qui sera le plus proche de lui par construction des E gi, tandis que dans le membre de gauche, il figurera avec sa distance à un g i qui ne sera pas forcément le plus proche de lui, mais qui sera seulement son centre de gravité dans la partition E ci. Le nuage étant fini, l algorithme converge. L epérience montre que le nombre d itérations nécessaires est en général faible. 11

EXEMPLE : Méthode des Centres Mobiles 2 c c 1 Etape 0 Choi des centres c 1 c 2 Etape 1 2 c c 1 Constitution de classes autour des centres c 1 et c 2 Classe 1 : points plus proches de c 1 que de c 2 Classe 2 : points plus proches de c 2 que de c 1 Etape 2 ( 2) g 1 ( 2) g 2 + Calcul des centres de gravité des 2 classes formées à l' étape 1 g g 1 2 Définition de nouvelles classes autour des centres de gravité Etape 3 ( 3) g 1 ( 3) g 2 Calcul des centres de gravité des classes formées à l' étape 2. Nouvelle définition des classes autour de ces centres STABILITE FIN de l algorithme 12

4. Généralisation : nuées dynamiques L idée est d associer à une classe un représentant différent de son centre de gravité. Par eemple : un ensemble d individus (noyau formé de q points appelés les étalons) une droite une loi de probabilité Algorithme - Principe Il faut faire décroître le critère U mesurant l adéquation entre les classes et leurs représentants. 13

Initialisation Deu possibilités : 1. Soit on se donne au départ une fonction d affectation qui génère une partition ( ) chaque classe sont calculés. Q= Q1... Q k sur E. Les noyau pour 2. Soit on se donne k noyau. Étape d affectation Pour chaque individu, déterminer la classe à laquelle on doit l affecter (nécessité d avoir défini une distance entre un point et un noyau, ou un groupe de points). Étape de représentation Pour chaque classe définie, calculer le nouveau noyau. 14

La convergence vers un minimum local est obtenue si chaque étape fait décroître le critère U. ARRÊT DE L ALGORITHME quand la décroissance atteint un seuil fié a priori. Pratique de la méthode Comme la partition finale peut dépendre de l initialisation, on recommence s fois (eemple : s tirages aléatoires de noyau). Formes fortes Ensemble d éléments ayant toujours été regroupés lors de la partition finale. 15

Eemples : Première partition 113 38 35 40 Deuième partition 30 5 25 0 43 30 8 5 40 3 2 35 partition-produit 1000 individus Trois partitions de base en 6 classes : Partition 1 127 188 229 245 151 60 Partition 2 232 182 213 149 114 110 Partition 3 44 198 325 99 130 204 Ces trois partitions sont ensuite croisées entre elles 6 3 = 216 classes Groupements stables rangés par effectifs décroissants : 168 114 110 107 88 83 78 26 22 16 15 14 12 12 12 11 10 7 7 7 7 formes fortes d effectifs importants 16

5. Variantes des méthodes «centres mobiles» K-means (Mac Queen 1967) On effectue un recentrage dès qu un objet change de classe. Isodata (Ball et Hall 1965) Un certain nombre de contraintes sont imposées pour empêcher la formation de classes d effectifs trop faibles ou de diamètre trop grand. 17

II. LA CLASSIFICATION HIÉRARCHIQUE Elle consiste à fournir un ensemble de partitions de E en classes de moins en moins fines obtenues par regroupements successifs de parties. Arbre de classification ou dendrogramme a b c d e Démarche : Cet arbre est obtenu dans la plupart des méthodes de manière ascendante : On regroupe d abord les deu individus les plus proches qui forment un «sommet» Il ne reste plus que (n-1) objets et on itère le processus jusqu à un regroupement complet. Un des problèmes consiste à définir une mesure de dissimilarité entre classes. Remarque : Les méthodes descendantes ou algorithmes divisifs sont pratiquement inutilisées. 18

1. Stratégies d agrégation sur dissimilarités Le problème est de définir la dissimilarité entre la réunion de deu éléments et un troisième : ( b,c ) d a différente.. A chaque solution correspond une ultramétrique A c d (A, c)? a. Le saut minimum Cette méthode (connue sous le nom de «single linkage» en anglais») consiste à écrire que : { ( ) ( ) } d ( a b,c) = inf d a, c ; d b,c La distance entre parties est donc la plus petite distance entre éléments des deu parties. 19

b. Le diamètre («complete linkage») On prend ici comme distances entre parties la plus grande distance entre deu éléments. [(, ) ; ] = sup (, ), (, ) [ ] d a b c d a c d b c 20

2. Stratégies diverses saut minimum (plus proche) diamètre moyenne des distances médiane des distances distance au centre de gravité. Indice i(a) A L indice ou niveau d agrégation est le niveau auquel on trouve agrégés pour la première fois tous les constituants de A. 21

3. La méthode de Ward pour distance Euclidienne Si on peut considérer E comme un nuage d un espace R p, on agrège les individus qui font le moins varier l inertie intra-classe. A chaque pas, on cherche à obtenir un minimum local de l inertie intraclasse ou un maimum de l inertie inter-classe. L indice de dissimilarité entre deu classes (ou niveau d agrégation de ces deu classes) est alors égal à la perte d inertie inter-classe résultant de leur regroupement. Calculons cette perte d inertie : g A = centre de gravité de la classe A (poids p A ) g B = centre de gravité de la classe B (poids p B ) g AB = centre de gravité de leur réunion g AB = p g p + p g + p A A B B A B 22

L intertie inter-classe étant la moyenne des carrés des distances des centres de gravité des classes au centre de gravité total, la variation d inertie inter-classe, lors du regroupement de A et B est égale à : (, ) + (, ) ( + ) (, ) 2 2 2 p d g g p d g g p p d g g A A B B A B AB Elle vaut : A B 2 (, ) = (, ) δ AB p p p p d g g A + A B B Remarque : Cette méthode entre dans le cadre de la formule de Lance et Williams généralisée : δ [( AB, ) ; C] = ( p + p ) δ ( A, C) + ( p + p ) δ ( B, C) p δ( A, B) A C B C C p + p + p A B C On peut donc utiliser l algorithme général. On notera que la somme des niveau d agrégation des différents noeuds de l arbre doit être égale à l inertie totale du nuage, puisque la somme des pertes d inertie est égale à l inertie totale. Cette méthode est donc complémentaire de l analyse en composantes principales et repose sur un critère d optimisation assez naturel. Elle constitue à notre avis la meilleure méthode de classification hiérarchique sur données euclidiennes. Il ne faut pas oublier cependant que le choi de la métrique dans l espace des individus conditionne également les résultats. 23

III. LA PRATIQUE DE LA CLASSIFICATION 1. Les méthodes mites En présence d un grand nombre d individus (>10 3 ), il est impossible d utiliser directement les méthodes de classification hiérarchique. On combine les techniques non hiérarchiques et hiérarchiques. Etape 1 : Méthode «centres mobiles» ou «nuées dynamiques». On forme par eemple 50 classes. Etape 2 : Construction d un arbre à partir des k classes formées à l étape 1. Coupure de l arbre en un nombre judicieu de classes. Etape 3 : Consolidation de la partition obtenue à l étape 2 (méthode de type «centres mobiles»). 24

2. Interprétation d une partition 2-1. Utilisation des outils de base de la statistique Pour chaque variable : Calcul de paramètres caractéristiques de chaque classe (moyenne, écart-type, min, ma...) Représentations graphiques : boîtes à moustaches, intervalle de confiance pour les moyennes. Analyse de la variance à un facteur pour chaque variable (on peut ainsi «classer» les variables par ordre de contribution à la création des classes). 2-2. En liaison avec une analyse factorielle (A.C.P. dans le cas de variables quantitatives) On peut repérer les classes formées dans le plan des individus. Projeter les points moyens représentant chaque classe. Utiliser les valeurs-tests pour chaque classe sur les aes interprétés. 2-3. Les deu approches sont complémentaires, la première approche peut être longue à mettre en oeuvre si le nombre de variables est élevé. 25

IV. LA CLASSIFICATION DE DONNÉES QUALITATIVES 1. Les n individus à classer sont décrits par des variables qualitatives a. Données de présence - absence On utilise un des indices de dissimilarité déduit des indices de similarité proposés qui combinent de diverses manières les quatre nombres suivants associés à un couple d individus. a = nombre de caractéristiques communes b = nombre de caractéristiques possédées par i et pas par j c = nombre de caractéristiques possédées par j et pas par i d = nombre de caractéristiques que ne possèdent ni i, ni j. Les indices compris entre 0 et 1 sont aisément transformables en dissimilarité par complémentation à 1. Jaccard a a b c + + Dice ou Czekanowski 2a 2a + b + c Ochiaï a ( a+ b) ( a+ c) Russel et Rao a a + b + c + d Rogers et Tanimoto a+ d a+ d+ 2 b+ c ( ) 26

b. Individus décrits par des variables qualitatives à m 1 m 2... m p modalités On utilise la représentation disjonctive complète et la distance du χ 2 entre lignes du tableau. d 2 χ 2 ( i i ), = j np n j ij p i j 2 (Elle traduit le fait que deu individus ayant en commun une modalité rare sont plus proches que deu individus ayant en commun une modalité fréquente). On utilise alors la méthode de Ward (puisque la distance du χ 2 est euclidienne) sur le tableau des distances. Autre solution : Classification hiérarchique sur le tableau des coordonnées factorielles des n individus après A.C.M. de X. Les deu approches sont équivalentes si on utilise tous les facteurs de l A.C.M. soit m i p, en conservant la normalisation de chaque ae à μ. 27

2. Classification hiérarchique des lignes (ou des colonnes) d un tableau de contingence Elle s effectue avec la méthode de Ward et la distance du χ 2 entre lignes (ou entre colonnes). Cette méthode revient à regrouper les catégories d une variable qualitative de la façon suivante : à chaque étape, on réunit les deu catégories (en sommant les effectifs) qui font diminuer le moins possible le φ 2 puisque l inertie totale est ici égale à χ2 n. 28