Reconnaissance des formes : Classification d ensembles d objets

Dimension: px

Commencer à balayer dès la page:

Download "Reconnaissance des formes : Classification d ensembles d objets"

Mathieu Lepage
il y a 7 ans
Total affichages :

1 Reconnaissance des formes : Classification d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR 6168 Année 2006

2 Méthodes en RF non supervisé Visualisation Classification Classement Supervisé régression

3 Méthodes en RF Visualisation - classification - classement - régression Extraction de caractéristiques clustering DIM = 16384

4 Méthodes en RF non supervisé Visualisation Classification Classement régression Segmentation par centres mobiles K-means Nués dynamiques Classification ascendante hierarchique Cartes de kohonen

5 Segmentation par centres mobiles Principe Regrouper les individus en fonction de leur distance au «centre» des différentes classes (centres mobiles, K-moyennes) Variante Définir plusieurs «centres» par classe (nuées dynamiques)

6 P Variables (colonnes) n Individus (lignes) Taille + + poids taille Poids Segmentation par centres mobiles

7 P Variables (colonnes) n Individus (lignes) Taille + + poids taille Poids Segmentation par centres mobiles

8 P Variables (colonnes) n Individus (lignes) Taille + + poids taille Poids Segmentation par centres mobiles

9 P Variables (colonnes) n Individus (lignes) Taille + + poids taille Poids Segmentation par centres mobiles

10 P Variables (colonnes) n Individus (lignes) Taille + + poids taille Poids Segmentation par centres mobiles

12 Méthodes de type centres mobiles Avantages Complexité linéaire (grand volume de données) Détection des outliers Amélioration incrémentale si nouvelles données Inconvénients Partition dépend du choix initial des centres Nombre de classes déterminé à l avance Efficaces essentiellement sur les formes sphériques

13 Formes fortes But: remédier à la variabilité liée au choix initial des centres Approche: rechercher les individus partageant les mêmes groupes lors de partitions répétées Implémentation: partition produit 6 3 =216 classes

14 Segmentation par Classification ascendante hiérarchique Principe Regrouper les individus par ordre de proximité décroissante Point sensible Définir une distance entre groupes

15 P Variables (colonnes) n Individus (lignes) Taille d1 4 5 poids taille Poids Segmentation par classification ascendante hiérarchique

16 P Variables (colonnes) n Individus (lignes) Taille 6 1 d2 4 5 poids taille Poids Segmentation par classification ascendante hiérarchique

17 P Variables (colonnes) n Individus (lignes) poids taille Taille 6 1 d Poids Segmentation par classification ascendante hiérarchique

18 P Variables (colonnes) n Individus (lignes) poids taille Taille 8 d Poids Segmentation par classification ascendante hiérarchique

19 Segmentation par Classification ascendante hiérarchique Interpellations: Pourquoi ne pas regarder directement les données? Comment calculer la distance entre clusters? Comment déterminer «objectivement» le nombre de clusters?

20 Segmentation par Classification ascendante hiérarchique Distances entre groupes: Saut minimum (single linkage) d(c 1,C 2 )= min[d(c 1i,c 2j )] Saut maximum (complete linkage) d(c 1,C 2 )= max[d(c 1i,c 2j )] C1 C2 Saut moyen (average linkage) d(c 1,C 2 )= moyenne[d(c 1i,c 2j )] Distance barycentrique (centroid method) d(c 1,C 2 )= d(centre(c 1,),centre(C 2 )) Distance de ward (caractérise la baisse d inertie après fusion) d(c 1,C 2 )= dbar 2 /(1/nC 1 +1/nC 2 )

21 Qualité de classification Inertie totale : somme des carrés des distances des individus au barycentre de la population Inertie d une classe: idem pour les individus de la classe Inertie intraclasse: somme des inerties des classes Inertie interclasse: somme pondérée par les effectifs des carrés des distances des barycentres des classes au barycentre de la population Inertie totale = Inertie intraclasse + Inertie interclasse

22 Classification ascendante hiérarchique Avantages Pas de problème d initialisation Donne des indications sur le nombre de classes Peut trouver des classes de forme variable Peut raffiner les résultats des centres mobiles Inconvénients Complexité de l algorithme n 3 (n 2 par l algo des voisins réciproques) Critère de partitionnement local (pas de réaffectation possible)

23 Classification par cartes de Kohonen Principe 1 - Regrouper les individus en fonction de leur distance au «centre» des différentes classes (du type centres mobiles, K-moyennes) 2 - préserver la topologie des données (voisinage entre classes) implémentation Projeter les données sur une grille déformable de faible dimension

24 Cartes de Kohonen 1- Carte: réseau de k neurones positionnés sur une grille 2- Voisinage: défini sur la grille 3- métrique (fondée sur le produit scalaire) 4- algorithme d apprentissage itératif (neurone gagnant et voisinage) Détails de l algorithme d apprentissage Le neurone gagnant et ceux du voisinage sont rapprochés de la donnée examinée (les poids sont modifiés en fonction d un taux d apprentissage). Le voisinage et le taux d apprentissage sont réduits au cours de l apprentissage

26 Méthode de Kohonen Avantages Modéliser des relations non linéaires entre données Visualisation des données Compromis entre visualisation et classification Utile en prétraitement (prototypes) Inconvénients Peu performante pour la détection d un petit nombre de classes Composition des classes opaque Echantillon d apprentissage de taille consequent Sensible aux outliers Sensible à la décroissance des paramètres du réseau

27 K-means et cartes de Kohonen similitudes Mise à jour itérative (on line) ou par lots (batch) Nombre de classes défini à priori Fonctionnement non déterministe différences Méthode de mise à jour des «centres» Espace d analyse

28 Méthodes en RF non supervisé Prochains cours : Techniques de visualisation Analyse en composantes principales Multi-dimensional scaling Techniques de classification K means Réseaux de Kohonen Métriques Validation Individus Variables Supervisé Classification hiérarchique Techniques de classement Régression logistique Perceptron multicouches K plus proches voisins

Documents pareils

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data