Master 2 Informatique UAG. Classification de documents/textes

Dimension: px

Commencer à balayer dès la page:

Download "Master 2 Informatique UAG. Classification de documents/textes"

Eric Nolet
il y a 8 ans
Total affichages :

1 Data Mining Master 2 Informatique UAG Classification de documents/textes Utilisée en text mining, information retrieval : amélioration du recall et de la précision Moyen de trouver les voisins les plus proches d un document navigation dans une collection de documents organisation des résultats retournés par un moteur de recherche génération automatique d'une hiérarchie de documents

voisins les plus proches d un document navigation dans une collection de documents organisation

2 Classification de textes 1. Représentation 2. Techniques 3. Evaluation des clusters 4. K-Means et Bi-Section K-Means 5. Techniques hiérarchiques agglomératives 6. Comparaison K-Means, Bi-Section K-Means, UPGMA 7. Fonctions Objectif 8. Outil CLUTO 1. Représentation Représentation vectorielle un document d est représenté, dans l'espace des termes (mots) par le (TF) vecteur d tf = (tf 1, tf 2,, tf n ) où tf i est la fréquence du ième terme dans le document d

Comparaison K-Means, Bi-Section K-Means, UPGMA 7. Fonctions Objectif 8. Outil CLUTO 1.

3 Représentation T1 T2 T3 T4 T5 T6 T7 T8 doc doc doc doc doc Représentation T1 T2 T3 T4 T5 T6 T7 T8 doc doc doc doc doc

Représentation T1 T2 T3 T4 T5 T6 T7 T8 doc1 0 10 0 0 0 2 1 3 doc2 3 20 4

4 TF-IDF IDF Inverse Document Frequency un document d est représenté, dans l'espace des termes par le vecteur d tf = (tf 1 log(n/df 1 ), tf 2 log(n/df 2 ),, tf n log(n/df n ) ) où tf i est la fréquence du ième terme dans le document df i est le nombre de documents contenant le ième terme Distance entre document Formules les plus usitées Cosinus Distance euclidienne

tf i est la fréquence du ième terme dans le document df i est le nombre de documents

5 2. Techniques Hiérarchiques agglomératives Agglomératives (ascendantes) ou divisives (descendantes) Technique agglomérative stnadard 1. Calcul de la similarité entre clusters 2 à 2 (calcul d'une matrice de similarité) 2. Fusion des clusters les plus proches. 3. Re-calcul de la similarité entre le nouveau cluster et les autres clusters. 4. Itération des pas 2 et 3 jusqu'à obtenir un seul cluster Classification hierarchique pas 0 pas 1 pas 2 pas 3 pas 4 a a b b a b c d e c c d e d d e e pas 4 pas 3 pas 2 pas 1 pas 0 agglomeration division

Re-calcul de la similarité entre le nouveau cluster et les autres clusters. 4.

6 Classification hierarchique T1 0 T1 T2 T3 T4 T5 T6 T7 T8 T2 d(t1,t2) 0 T3 d(t1,t3)... 0 T4 0 T5 0 T6 0 T7 0 T8 0

7 Méthodes agglomeratives distances entre clusters Single linkage Complete linkage Average linkage Centroid linkage Ward distance minimum distance maximum distance moyenne distance entre les centroides distance euclidienne pondérée entre moyennes Distance between clusters Single Link: smallest distance between points Complete Link: largest distance between points Average Link: average distance between points Centroid: distance between centroids

euclidienne pondérée entre moyennes Distance between clusters Single Link: smallest distance between points

8 Exemple

10 Techniques par partitionnement K-Means basé sur la notion de centroide, point central d'un cluster 1. Selectionner K objets comme centroides initiaux 2. Assigner les points au centroide le plus proche 3. Re-calcul du centroide de chaque cluster 4. Iteration de 2 et 3 jusqu'à obtenir des clusters stables

Selectionner K objets comme centroides initiaux 2.

11 Clustering hiérarchique : produit un dendrogramme Peut être utilisé pour produire un ensemble de clusters "plats" K-means ou autre algo. par partitionnement peut être utilisé itérativement pour produire une hiérarchie de clusters K-Means utilise le cosinus pour calculer le centroide le plus proche d'un document Centroide calculé comme une moyenne Distance Document - centroide

par partitionnement peut être utilisé itérativement pour produire une hiérarchie de clusters

12 Produit scalaire entre un document et un centroide : d 1.c Similarité moyenne avec les documents du clusters Bi-sections K-Means Méthode démarre avec un seul cluster regroupant tous les objets (documents) 1. Choisit un cluster à éclater 2. Extrait deux clusters en utilisant K-Means avec k=2 3. Itère en 2 et choisit l'éclatement qui produit le meilleure similarité globale 4. Itère 1, 2 et 3 jusqu'à obtenir le nombre de clusters demandé Choix du cluster à éclater : critères nombreux, en général, on choisit le plus grand

objets (documents) 1. Choisit un cluster à éclater 2. Extrait deux clusters en utilisant K-Means avec k=2 3.

13 Bi-sections K-Means Méthode hiérarchique divisive Evaluation des clusters résultats Entropie calculée par rapport à un ensemble de classes Classes C 1, C i C p Clusters Cl 1, Cl j Cl m

14 F-Measure calculée par rapport à un ensemble de classes n ij nombre d'objets du cluster j dans la classe i n j nombre d'objets du cluster j n nombre d'objets du jeu de données Similarité globale ou

15 Méthodes agglomeratives : comparaison Critères de fusion des clusters Critères de similarité K-Means, Bisect. Kmeans, UPGMA Cf [Steinbach et al. 2000]

16 Fonctions objectifs Adéquation des fonctions objectif au clustering de documents : Similarité intra-cluster, interclusters, combinaisons Méthode d'optimisation Performance globale dépendante de la sensibilité à la variation de densité des clusters Certaines méthodes produisent des clusters de densités peu différentes (ex Bisect K-Means)

Performance globale dépendante de la sensibilité à la variation de densité des

Documents pareils

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55