Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)

Dimension: px

Commencer à balayer dès la page:

Download "Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)"

Stéphane Boisvert
il y a 10 ans
Total affichages :

1 1 Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)

2 C est quoi? Regroupement (Clustering): construire une collection d objets Similaires au sein d un même groupe Dissimilaires quand ils appartiennent à des groupes différents Le Clustering est de la classification non supervisée: pas de classes prédéfinies

3 3 Qu est ce qu un bon regroupement? Une bonne méthode de regroupement permet de garantir Une grande similarité intra-groupe Une faible similarité inter-groupe La qualité d un regroupement dépend donc de la mesure de similarité utilisée par la méthode et de son implémentation.

similarité intra-groupe Une faible similarité inter-groupe La

4 4 Structures de données Matrice de données [ x11... x1f... x1p x i1... x if... x ip x n1... x nf... x np ] Matrice de similarité [ 0 ] d (2,1 ) 0 d (3,1 ) d (3,2 ) 0 : : : d(n,1) d (n,2 )

5 5 Mesurer la qualité d un clustering Métrique pour la similarité : La similarité est exprimée par le biais d une mesure de distance. Une autre fonction est utilisée pour la mesure de la qualité. Les définitions de distance sont très différentes que les variables soient des intervalles (continues), des catégories, booléennes ou ordinales. En pratique, on utilise souvent une pondération des variables.

Les définitions de distance sont très différentes que les variables soient des intervalles

6 6 Types des variables Intervalles Binaires catégories, ordinales, ratio Différents types

7 Intervalle (continues) Standardiser les données On utilise l'écart type (possible aussi avec l'écart absolu moyen) où σ f = (( x 1f m f )2 +( x 2f m f ) 2 + +( x nf m f ) 2 n m f = ( x 1f + x 2f + + x nf ) n Calculer la mesure standardisée (z-score) z if = x if m f σ f 7

f )2 +( x 2f m f ) 2 + +( x nf m f ) 2 n m f = ( x 1f + x 2f + + x

8 8 Exemple Age Salaire Personne Personne Personne Personne M Age =60 λ Age =8,16 M salaire =11074 λ salaire =53,09 Personne1-1,23-1,39 Personne2 1,23 0,49 Personne3 0 0,9 Personne4 0 0

9 9 Similarité entre objets Les distances expriment une similarité Ex: la distance de Minkowski : d (i, j )= q ( x i1 x j1 q + x i 2 x j2 q x i p x j p q ) où i = (x i1, x i2,, x ip ) et j = (x j1, x j2,, x jp ) sont deux objets p-dimensionnels et q un entier positif Si q = 1, d est la distance de Manhattan d (i, j )= x i1 x j 1 + x i 2 x j x i p x j p

..+ x i p x j p q ) où i = (x i1, x i2,, x ip ) et j = (x j1, x j2,, x jp ) sont deux

10 10 Similarité entre objets(i) Si q = 2, d est la distance Euclidienne : d (i, j )= ( x i1 x j1 2 + x i2 x j x i p x j p 2 ) Propriétés d(i,j) 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j)

11 11 Exemple: distance de Manhattan Age Salaire Personne Personne Personne Personne d(p1,p2)=120 d(p1,p3)=132 Conclusion: p1 ressemble plus à p2 qu à p3 Personne1-1,23-1,39 Personne2 1,23 0,49 Personne3 0 0,9 Personne4 0 0 d(p1,p2)=3,1 d(p1,p3)=2,6 Conclusion: p1 ressemble plus à p3 qu à p2

p1 ressemble plus à p2 qu à p3 Personne1-1,23-1,39 Personne2 1,23 0,49 Personne3 0

12 Variables binaires Une table de contingence pour données binaires Objet i Objet j 1 0 sum 1 a b a+b 0 c d c+d sum a+c b+d p a = nombre de positions où i a 1 et j a 1 Exemple o i =(1,1,0,1,0) et o j =(1,0,0,0,1) a=1, b=2, c=1, d=1 12

a+c b+d p a = nombre de positions où i a 1 et j a 1

13 Mesures de distances Coefficient d appariement (matching) simple (invariant pour variables symétriques): Exemple o i =(1,1,0,1,0) et o j =(1,0,0,0,1) d(o i, o j )=3/5 d (i, j )= b+c a+b+c+d Coefficient de Jaccard d(o i, o j )=3/4 d (i, j )= b+c a+b+c Généralisation du rapport entre le cardinal de l'intersection et le cardinal de l'union 13

d (i, j )= b+c a+b+c+d Coefficient de Jaccard d(o i, o j )=3/4 d (i, j )= b+c a+b+c

14 14 Variables binaires (I) Variable symétrique : Ex. le sexe d une personne, i.e. coder masculin par 1 et féminin par 0 c est pareil que le codage inverse. Variable asymétrique : Ex. Test HIV. Le test peut être positif ou négatif (1 ou 0) mais il y a une valeur qui sera plus présente que l autre. Généralement, on code par 1 la modalité la moins fréquente. 2 personnes ayant la valeur 1 pour le test sont plus similaires que 2 personnes ayant 0 pour le test

Le test peut être positif ou négatif (1 ou 0) mais il y a une valeur qui sera plus présente que l autre.

15 Exemple Variables binaires(ii) Nom Sexe Fièvre Toux Test-1 Test-2 Test-3 Jack M O N P N N Mary F O N P N P Sexe est un attribut symétrique Les autres attributs sont asymétriques O et P 1, N 0, la distance n est mesurée que sur les asymétriques d( jack, mary )= =0. 33 d( jack, jim )= =0.67 d( jim, mary )= =0. 75 Les plus similaires sont Jack et Mary atteints du même mal 15

distance n est mesurée que sur les asymétriques d( jack, mary )= 0+1 2+0+1 =0.

16 16 Variables Nominales Une généralisation des variables binaires, ex: rouge, vert et bleu Méthode 1: Matching simple m: # d appariements, p: # total de variables d (i, j )= p m p Méthode 2: utiliser un grand nombre de variables binaires Créer une variable binaire pour chaque modalité (ex: variable rouge qui prend les valeurs vrai ou faux)

)= p m p Méthode 2: utiliser un grand nombre de variables binaires Créer une

17 Variables Ordinales Une variable ordinale peut être discrète ou continue. L ordre peut être important, ex: classement. Peuvent être traitées comme les variables intervalles r if {1,, M f } remplacer x if par son rang Remplacer le rang de chaque variable par une valeur dans [0, 1] en remplaçant la variable f dans l objet I par z if = r if 1 M f 1 Utiliser une distance pour calculer la similarité 17

Peuvent être traitées comme les variables intervalles r if {1,, M f } remplacer x if par son rang

18 18 En Présence de Variables de différents Types Pour chaque type de variables utiliser une mesure adéquate. Problèmes: les clusters obtenus peuvent être différents. On utilise une formule pondérée pour faire la p ( f ) combinaison : f est binaire ou nominale: d (i, j )= Σ f =1 p Σ f =1 ( f δ ) ij d ij (f ) δ ij d (f) ij = 0 si x if = x jf f est de type intervalle: utiliser une distance normalisée f est ordinale calculer les rangs rif et z if = r if 1 M f 1 Ensuite traiter zif comme une variable de type intervalle

On utilise une formule pondérée pour faire la p ( f ) combinaison : f est binaire ou nominale: d (i, j )= Σ f =1 p Σ f =1 ( f δ )

19 19 Quelques approches pour le clustering Algorithmes de Partitionnement: Construire plusieurs partitions puis les évaluer selon certains critères Algorithmes hiérarchiques: Créer une décomposition hiérarchique des objets selon certains critères Algorithmes basés sur la densité: basés sur des notions de connectivité et de densité Algorithmes à modèles: Un modèle est supposé pour chaque cluster ensuite vérifier chaque modèle sur chaque groupe pour choisir le meilleur

certains critères Algorithmes basés sur la densité: basés sur des notions de connectivité et de densité Algorithmes à

20 20 Algorithmes à partionnement Construire une partition à k clusters d une base D de n objets Les k clusters doivent optimiser le critère choisi Global optimal: Considérer toutes les k-partitions Heuristic methods: Algorithmes k-means k-means (MacQueen 67): chaque cluster est représenté par son centre

Global optimal: Considérer toutes les k-partitions Heuristic methods:

21 21 La méthode des k-moyennes (K-Means) L algorithme k-means est en 4 étapes : 1. Choisir k objets formant ainsi k clusters. 2. (Ré)affecter chaque objet O restant au cluster C i de centre M i tel que dist(o,m i ) est minimale. 3. Recalculer M i de chaque cluster (le barycentre). 4. Aller à l étape 2 si on vient de faire une affectation.

22 K-Means :Exemple A={1,2,3,6,7,8,13,15,17} Créer 3 clusters à partir de A. On prend 3 objets au hasard. Supposons que c est 1, 2 et 3. Ça donne C 1 ={1}, M 1 =1, C 2 ={2}, M 2 =2, C 3 ={3} et M 3 =3 Chaque objet O restant est affecté au cluster au milieu duquel, O est le plus proche. 6 est affecté à C 3 car dist(m 3,6)<dist(M 2,6) et dist(m 3,6)<dist(M 1,6) On a C 1 ={1}, M 1 =1, C 2 ={2}, M 2 =2 C 3 ={3, 6,7,8,13,15,17}, M 3 =69/7=

23 23 K-Means :Exemple (suite) dist(3,m2 )<dist(3,m 3 )3 passe dans C 2. Tous les autres objets ne bougent pas. C 1 ={1}, M 1 =1, C 2 ={2,3}, M 2 =2.5,C 3 ={6,7,8,13,15,17} et M 3 = 66/6=11 dist(6,m2 )<dist(6,m 3 )6 passe dans C 2. Tous les autres objets ne bougent pas. C 1 ={1}, M 1 =1, C 2 ={2,3,6}, M 2 =11/3=3.67, C 3 ={7,8,13,15,17}, M 3 = 12 dist(2,m1 )<dist(2,m 2 )2 passe en C 1. dist(7,m 2 )<dist(7,m 3 ) 7 passe en C 2. Les autres ne bougent pas. C 1 ={1,2}, M 1 =1.5, C 2 ={3,6,7}, M 2 =5.34, C 3 = {8,13,15,17}, M 3 =13.25 dist(3,m1 )<dist(3,m 2 )3 passe en 1. dist(8,m 2 )<dist(8,m 3 )8 passe en C 2. C 1 ={1,2,3}, M 1 =2, C 2 ={6,7,8}, M 2 =7, C 3 ={13,15,17}, M 3 =15

24 24 Commentaires sur la méthode des K-Means Forces Relativement efficace: O(tkn), où n est # objets, k est # clusters (C), et t est # itérations. Normalement, k, t << n. Tend à réduire la distance entre les élements de chaque partition : k E= p m i 2 i=1 p C i Faiblesses N est pas applicable en présence d attributs qui ne sont pas du type intervalle (moyenne=?) On doit spécifier k (nombre de clusters) Les clusters sont construits par rapports à des objets inexistants (les milieux) Sensible aux exceptions

25 Clustering Hiérarchique Utiliser la matrice de distances comme critère de regroupement. k n a pas à être précisé, mais a besoin d une condition d arrêt. Etape 0 Étape 1 Étape 2 Étape 3 Étape 4 a a b b a b c d e c c d e d d e e Etape 4 Étape 3 Étape 2 Étape 1 Étape 0 agglomerative (AGNES) divisive (DIANA) 25

26 26 AGNES (Agglomerative Nesting) Utilise la matrice de dissimilarité. Fusionne les nœuds qui ont la plus faible dissimilarité On peut se retrouver dans la situation où tous les nœuds sont dans le même groupe

27 27 DIANA (Divisive Analysis) L ordre inverse de celui d AGNES Il se peut que chaque objet forme à lui seul un groupe

28 28 Critères de fusion-éclatement Exemple: pour les méthodes agglomératives, C1 et C2 sont fusionnés si il existe o1 C1 et o2 C2 tels que Lien unique dist(o1,o2) seuil, ou il n existe pas o1 C1 et o2 C2 tels que dist(o1,o2) seuil, ou distance entre C1 et C2 seuil avec dist (C 1,C 2 )= 1 n1 n2 o1 C1, o2 C2 dist ( o1,o2 ) et n1= C1. Ces techniques peuvent être adaptées pour les méthodes divisives.

29 CURE (Clustering Using REpresentatives ) Les méthodes précédentes donnent les groupes (b) CURE: (1998) Arrête la création de clusters dès qu on en a k Utilise plusieurs points représentatifs clusters 29

30 30 Cure : l algorithme Chaque élément forme un cluster (singleton) Calculer les représentants de chaque cluster Ordonner les clusters dans un tas en mettant en premier les clusters les plus proches Tant que le nombre de clusters > k Prendre les deux premiers clusters les plus proches dans le tas Fusionner les clusters Calculer les nouveaux représentants Mettre le nouveau cluster dans le tas

Documents pareils

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55