Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)



Documents pareils
Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

La classification automatique de données quantitatives

LES DIFFERENTS TYPES DE MESURE

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Introduction au Data-Mining

INF6304 Interfaces Intelligentes

Agrégation des portefeuilles de contrats d assurance vie

Enjeux mathématiques et Statistiques du Big Data

Maria RIFQI. Mesures de similarité, raisonnement et modélisation de l utilisateur

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Statistiques Descriptives à une dimension

Classification non supervisée

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Expression des contraintes. OCL : Object C o n t r a i n t L a n g u a g e

Logiciel XLSTAT version rue Damrémont PARIS

Introduction au Data-Mining

Loi binomiale Lois normales

Arbres binaires de décision

Qu est-ce qu une probabilité?

Optimisation, traitement d image et éclipse de Soleil

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Licence Sciences et Technologies Examen janvier 2010

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

2.4 Représentation graphique, tableau de Karnaugh

Baccalauréat L spécialité, Métropole et Réunion, 19 juin 2009 Corrigé.

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

TSTI 2D CH X : Exemples de lois à densité 1

Probabilités sur un univers fini

1 Définition et premières propriétés des congruences

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Résolution de systèmes linéaires par des méthodes directes

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Structures algébriques

Vers une Optimisation de l Algorithme AntTreeStoch

Représentation des Nombres

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

3 ème 2 DÉVELOPPEMENT FACTORISATIONS ET IDENTITÉS REMARQUABLES 1/5 1 - Développements

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Conversion d un entier. Méthode par soustraction

Identification de nouveaux membres dans des familles d'interleukines

Talend Technical Note

Architecture des ordinateurs TD1 - Portes logiques et premiers circuits

1/24. I passer d un problème exprimé en français à la réalisation d un. I expressions arithmétiques. I structures de contrôle (tests, boucles)

Modélisation Conceptuelle. Partie 2: Le modèle Entité-Association

Cours de méthodes de scoring

La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

Chapitre 5 : Flot maximal dans un graphe

L apprentissage automatique

DATAMINING C4.5 - DBSCAN

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Exercice : la frontière des portefeuilles optimaux sans actif certain

IFT1215 Introduction aux systèmes informatiques

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

1 Recherche en table par balayage

Extraction d informations stratégiques par Analyse en Composantes Principales

1 Complément sur la projection du nuage des individus

données en connaissance et en actions?

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

STAGE IREM 0- Premiers pas en Python

Analyse dialectométrique des parlers berbères de Kabylie

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

TP : Gestion d une image au format PGM

CHAPITRE 2. Les variables

Chapitre 7. Récurrences

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

RE SOLUTIONS CHAPITRE 1

Résolution d équations non linéaires

Annexe 6. Notions d ordonnancement.

Plan. Data mining (partie 2) Data Mining : Utilisateur ou Statisticien? Data Mining : Cocktail de techniques. Master MIAGE - ENITE.

Objets Combinatoires élementaires

Les droites (d 1 ) et (d 2 ) sont sécantes en A Le point A est le point d intersection des 2 droites

IBM SPSS Direct Marketing 21

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Une Démarche pour la sélection d outils de cartographie des processus métiers

Logique binaire. Aujourd'hui, l'algèbre de Boole trouve de nombreuses applications en informatique et dans la conception des circuits électroniques.

Bases de données réparties: Fragmentation et allocation

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Algorithmes d'apprentissage

Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes.

Théorie et codage de l information

1. Vocabulaire : Introduction au tableau élémentaire

Projet de Traitement du Signal Segmentation d images SAR

Texte Agrégation limitée par diffusion interne

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Transcription:

1 Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)

C est quoi? Regroupement (Clustering): construire une collection d objets Similaires au sein d un même groupe Dissimilaires quand ils appartiennent à des groupes différents Le Clustering est de la classification non supervisée: pas de classes prédéfinies

3 Qu est ce qu un bon regroupement? Une bonne méthode de regroupement permet de garantir Une grande similarité intra-groupe Une faible similarité inter-groupe La qualité d un regroupement dépend donc de la mesure de similarité utilisée par la méthode et de son implémentation.

4 Structures de données Matrice de données [ x11... x1f... x1p............... x i1... x if... x ip............... x n1... x nf... x np ] Matrice de similarité [ 0 ] d (2,1 ) 0 d (3,1 ) d (3,2 ) 0 : : : d(n,1) d (n,2 )...... 0

5 Mesurer la qualité d un clustering Métrique pour la similarité : La similarité est exprimée par le biais d une mesure de distance. Une autre fonction est utilisée pour la mesure de la qualité. Les définitions de distance sont très différentes que les variables soient des intervalles (continues), des catégories, booléennes ou ordinales. En pratique, on utilise souvent une pondération des variables.

6 Types des variables Intervalles Binaires catégories, ordinales, ratio Différents types

Intervalle (continues) Standardiser les données On utilise l'écart type (possible aussi avec l'écart absolu moyen) où σ f = (( x 1f m f )2 +( x 2f m f ) 2 + +( x nf m f ) 2 n m f = ( x 1f + x 2f + + x nf ) n Calculer la mesure standardisée (z-score) z if = x if m f σ f 7

8 Exemple Age Salaire Personne1 50 11000 Personne2 70 11100 Personne3 60 11122 Personne4 60 11074 M Age =60 λ Age =8,16 M salaire =11074 λ salaire =53,09 Personne1-1,23-1,39 Personne2 1,23 0,49 Personne3 0 0,9 Personne4 0 0

9 Similarité entre objets Les distances expriment une similarité Ex: la distance de Minkowski : d (i, j )= q ( x i1 x j1 q + x i 2 x j2 q +...+ x i p x j p q ) où i = (x i1, x i2,, x ip ) et j = (x j1, x j2,, x jp ) sont deux objets p-dimensionnels et q un entier positif Si q = 1, d est la distance de Manhattan d (i, j )= x i1 x j 1 + x i 2 x j2 +...+ x i p x j p

10 Similarité entre objets(i) Si q = 2, d est la distance Euclidienne : d (i, j )= ( x i1 x j1 2 + x i2 x j2 2 +...+ x i p x j p 2 ) Propriétés d(i,j) 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j)

11 Exemple: distance de Manhattan Age Salaire Personne1 50 11000 Personne2 70 11100 Personne3 60 11122 Personne4 60 11074 d(p1,p2)=120 d(p1,p3)=132 Conclusion: p1 ressemble plus à p2 qu à p3 Personne1-1,23-1,39 Personne2 1,23 0,49 Personne3 0 0,9 Personne4 0 0 d(p1,p2)=3,1 d(p1,p3)=2,6 Conclusion: p1 ressemble plus à p3 qu à p2

Variables binaires Une table de contingence pour données binaires Objet i Objet j 1 0 sum 1 a b a+b 0 c d c+d sum a+c b+d p a = nombre de positions où i a 1 et j a 1 Exemple o i =(1,1,0,1,0) et o j =(1,0,0,0,1) a=1, b=2, c=1, d=1 12

Mesures de distances Coefficient d appariement (matching) simple (invariant pour variables symétriques): Exemple o i =(1,1,0,1,0) et o j =(1,0,0,0,1) d(o i, o j )=3/5 d (i, j )= b+c a+b+c+d Coefficient de Jaccard d(o i, o j )=3/4 d (i, j )= b+c a+b+c Généralisation du rapport entre le cardinal de l'intersection et le cardinal de l'union 13

14 Variables binaires (I) Variable symétrique : Ex. le sexe d une personne, i.e. coder masculin par 1 et féminin par 0 c est pareil que le codage inverse. Variable asymétrique : Ex. Test HIV. Le test peut être positif ou négatif (1 ou 0) mais il y a une valeur qui sera plus présente que l autre. Généralement, on code par 1 la modalité la moins fréquente. 2 personnes ayant la valeur 1 pour le test sont plus similaires que 2 personnes ayant 0 pour le test

Exemple Variables binaires(ii) Nom Sexe Fièvre Toux Test-1 Test-2 Test-3 Jack M O N P N N Mary F O N P N P Sexe est un attribut symétrique Les autres attributs sont asymétriques O et P 1, N 0, la distance n est mesurée que sur les asymétriques d( jack, mary )= 0+1 2+0+1 =0. 33 d( jack, jim )= 1+1 1+1+1 =0.67 d( jim, mary )= 1+2 1+1+2 =0. 75 Les plus similaires sont Jack et Mary atteints du même mal 15

16 Variables Nominales Une généralisation des variables binaires, ex: rouge, vert et bleu Méthode 1: Matching simple m: # d appariements, p: # total de variables d (i, j )= p m p Méthode 2: utiliser un grand nombre de variables binaires Créer une variable binaire pour chaque modalité (ex: variable rouge qui prend les valeurs vrai ou faux)

Variables Ordinales Une variable ordinale peut être discrète ou continue. L ordre peut être important, ex: classement. Peuvent être traitées comme les variables intervalles r if {1,, M f } remplacer x if par son rang Remplacer le rang de chaque variable par une valeur dans [0, 1] en remplaçant la variable f dans l objet I par z if = r if 1 M f 1 Utiliser une distance pour calculer la similarité 17

18 En Présence de Variables de différents Types Pour chaque type de variables utiliser une mesure adéquate. Problèmes: les clusters obtenus peuvent être différents. On utilise une formule pondérée pour faire la p ( f ) combinaison : f est binaire ou nominale: d (i, j )= Σ f =1 p Σ f =1 ( f δ ) ij d ij (f ) δ ij d (f) ij = 0 si x if = x jf f est de type intervalle: utiliser une distance normalisée f est ordinale calculer les rangs rif et z if = r if 1 M f 1 Ensuite traiter zif comme une variable de type intervalle

19 Quelques approches pour le clustering Algorithmes de Partitionnement: Construire plusieurs partitions puis les évaluer selon certains critères Algorithmes hiérarchiques: Créer une décomposition hiérarchique des objets selon certains critères Algorithmes basés sur la densité: basés sur des notions de connectivité et de densité Algorithmes à modèles: Un modèle est supposé pour chaque cluster ensuite vérifier chaque modèle sur chaque groupe pour choisir le meilleur

20 Algorithmes à partionnement Construire une partition à k clusters d une base D de n objets Les k clusters doivent optimiser le critère choisi Global optimal: Considérer toutes les k-partitions Heuristic methods: Algorithmes k-means k-means (MacQueen 67): chaque cluster est représenté par son centre

21 La méthode des k-moyennes (K-Means) L algorithme k-means est en 4 étapes : 1. Choisir k objets formant ainsi k clusters. 2. (Ré)affecter chaque objet O restant au cluster C i de centre M i tel que dist(o,m i ) est minimale. 3. Recalculer M i de chaque cluster (le barycentre). 4. Aller à l étape 2 si on vient de faire une affectation.

K-Means :Exemple A={1,2,3,6,7,8,13,15,17} Créer 3 clusters à partir de A. On prend 3 objets au hasard. Supposons que c est 1, 2 et 3. Ça donne C 1 ={1}, M 1 =1, C 2 ={2}, M 2 =2, C 3 ={3} et M 3 =3 Chaque objet O restant est affecté au cluster au milieu duquel, O est le plus proche. 6 est affecté à C 3 car dist(m 3,6)<dist(M 2,6) et dist(m 3,6)<dist(M 1,6) On a C 1 ={1}, M 1 =1, C 2 ={2}, M 2 =2 C 3 ={3, 6,7,8,13,15,17}, M 3 =69/7=9.86 22

23 K-Means :Exemple (suite) dist(3,m2 )<dist(3,m 3 )3 passe dans C 2. Tous les autres objets ne bougent pas. C 1 ={1}, M 1 =1, C 2 ={2,3}, M 2 =2.5,C 3 ={6,7,8,13,15,17} et M 3 = 66/6=11 dist(6,m2 )<dist(6,m 3 )6 passe dans C 2. Tous les autres objets ne bougent pas. C 1 ={1}, M 1 =1, C 2 ={2,3,6}, M 2 =11/3=3.67, C 3 ={7,8,13,15,17}, M 3 = 12 dist(2,m1 )<dist(2,m 2 )2 passe en C 1. dist(7,m 2 )<dist(7,m 3 ) 7 passe en C 2. Les autres ne bougent pas. C 1 ={1,2}, M 1 =1.5, C 2 ={3,6,7}, M 2 =5.34, C 3 = {8,13,15,17}, M 3 =13.25 dist(3,m1 )<dist(3,m 2 )3 passe en 1. dist(8,m 2 )<dist(8,m 3 )8 passe en C 2. C 1 ={1,2,3}, M 1 =2, C 2 ={6,7,8}, M 2 =7, C 3 ={13,15,17}, M 3 =15

24 Commentaires sur la méthode des K-Means Forces Relativement efficace: O(tkn), où n est # objets, k est # clusters (C), et t est # itérations. Normalement, k, t << n. Tend à réduire la distance entre les élements de chaque partition : k E= p m i 2 i=1 p C i Faiblesses N est pas applicable en présence d attributs qui ne sont pas du type intervalle (moyenne=?) On doit spécifier k (nombre de clusters) Les clusters sont construits par rapports à des objets inexistants (les milieux) Sensible aux exceptions

Clustering Hiérarchique Utiliser la matrice de distances comme critère de regroupement. k n a pas à être précisé, mais a besoin d une condition d arrêt. Etape 0 Étape 1 Étape 2 Étape 3 Étape 4 a a b b a b c d e c c d e d d e e Etape 4 Étape 3 Étape 2 Étape 1 Étape 0 agglomerative (AGNES) divisive (DIANA) 25

26 AGNES (Agglomerative Nesting) Utilise la matrice de dissimilarité. Fusionne les nœuds qui ont la plus faible dissimilarité On peut se retrouver dans la situation où tous les nœuds sont dans le même groupe

27 DIANA (Divisive Analysis) L ordre inverse de celui d AGNES Il se peut que chaque objet forme à lui seul un groupe

28 Critères de fusion-éclatement Exemple: pour les méthodes agglomératives, C1 et C2 sont fusionnés si il existe o1 C1 et o2 C2 tels que Lien unique dist(o1,o2) seuil, ou il n existe pas o1 C1 et o2 C2 tels que dist(o1,o2) seuil, ou distance entre C1 et C2 seuil avec dist (C 1,C 2 )= 1 n1 n2 o1 C1, o2 C2 dist ( o1,o2 ) et n1= C1. Ces techniques peuvent être adaptées pour les méthodes divisives.

CURE (Clustering Using REpresentatives ) Les méthodes précédentes donnent les groupes (b) CURE: (1998) Arrête la création de clusters dès qu on en a k Utilise plusieurs points représentatifs clusters 29

30 Cure : l algorithme Chaque élément forme un cluster (singleton) Calculer les représentants de chaque cluster Ordonner les clusters dans un tas en mettant en premier les clusters les plus proches Tant que le nombre de clusters > k Prendre les deux premiers clusters les plus proches dans le tas Fusionner les clusters Calculer les nouveaux représentants Mettre le nouveau cluster dans le tas