Méthodes de classifications

Transcription

1 Méthodes de classifications Dhafer Malouche ESSAI-U2S-ENIT Juin-2013 ANR Do Well Be, Saint Nectaire

2 Plan Introduction Classification hiérarchique Partionnement Indices de validité Méthodes probabilistes pour la classification

3 Introduction 3 Introduction Classification hiérarchique Partionnement Indices de validité Méthodes probabilistes pour la classification

4 Introduction 4 Définition Algorithmes qui permettent de classer des objets observés dans des classes (appelées clusters). Les objets d une même classe doivent être similaires et les objets de deux classes différentes doivent être distincts. Différents algorithmes de classification Méthodes Hiérarchiques (classification hiérarchiques...) Partitionnement (k-means..) Méthodes Probabilistes (EM-algorithme...) et encore d autres...

5 Introduction 5 Les objets E = {w 1,..., w n } un ensemble de n objets (individus) pour lesquels on a observé d variables (qualitatives et/ou quantitatives) x 1,..., x d où x j i = x j (w i ) est la ième observation de w i selon x j. On considère w i = (x i,t ) t Ti temporelles (ST). i = 1,..., n des signaux ou séries Une matrice D = (d ii ), n n (n est le nombre d objets à classer), où d ii est une mesure de similarité entre deux objets w i et w i,

6 Introduction 6 Etape 1 : calcul des similarités Cas de variables quantitatives. Distance Euclidienne d(w i, w i ) = d (x j i x j i ) 2. j=1 ou la distance de Minkowski pour tout p > 0 d d(w i, w i ) = (x j i x j i ) p j=1 1/p encore d autres exemples de distances : Canberra, Manhattan... Sous R : dist, il faut spécifier une matrice de données quantitative le type de distance.

7 Introduction 7 Distance entre signaux ou ST Distance Euclidienne ou l une des distances déjà définies (Séries sont toutes de même longueurs ). Dynamic time wrapping ou Déformation temporelle dynamique (par Keogh & Pazzani, ) Permet de comparer deux séquences de ST pas forcément de même longueur. Dilatation ou compression des séquence pour obtenir le meilleur alignement possible Sous R, package dtw. 1 Keogh, E. J. and Pazzani, M. J. (2001). Derivative dynamic time warping. In the 1st SIAM Int. Conf. on Data Mining (SDM-2001), Chicago, IL, USA.

8 Classification hiérarchique 8 Introduction Classification hiérarchique Partionnement Indices de validité Méthodes probabilistes pour la classification

9 Classification hiérarchique 9 Algorithme ascendant (agrégatif) hiérarchique 1. k = n le nombre de classes 2. Chaque classes contient une observation : n classes C 1,..., C n. 3. Calculer la matrice de distances entre classes (phase agrégative de l algorithme). 4. Considérer les deux classes C i et C j telles que. d(c i, C j ) = min (i,j ) d(c i, C j ) 5. Agréger C i et C j dans une seule classe C ij. Donc k = k k = 1? Si oui STOP, sinon, aller à 3.

10 Classification hiérarchique 10 Cluster Dendrogram Florida North Carolina California Maryland Arizona New Mexico Delaware Alabama Louisiana Illinois New York Michigan Nevada Alaska Mississippi South Carolina Washington Oregon Wyoming Oklahoma Virginia Rhode Island Massachusetts New Jersey Missouri Arkansas Tennessee Georgia Colorado Texas Idaho Nebraska Kentucky Montana Ohio Utah Indiana Kansas Connecticut Pennsylvania Hawaii West Virginia Maine South Dakota North Dakota Vermont Minnesota Wisconsin Iowa New Hampshire Height dist(usarrests) hclust (*, "average")

11 Classification hiérarchique 11 Méthodes d agrégations d(c l, C ij ) = α i d(c l, C i ) + α j d(c l, C j ) + βd(c i, C j )+ γ d(c l, C i ) d(c l, C j ) Algorithme de classification α i α j β γ Single Linkage 1/2 1/2 0 1/2 Complete Linkage 1/2 1/2 0 1/2 Centroïd Linkage n i n i +n j n j n i +n j n i n j n i +n j 0 Méthode de Ward n i +n l n i +n j +n l n j +n l n i +n j +n l n l n i +n j +n l 0

12 Classification hiérarchique 12 Méthodes d agrégations Single Linkage : d(c l, C ij ) = min(d(c l, C i ), d(c l, C j )) Complete Linkage : d(c l, C ij ) = max(d(c l, C i ), d(c l, C j )) Centroïd Linkage : d(c l, C ij ) = d(m l, m ij ) où m l et m ij sont resp. les centres de gravité de C l et C ij. Méthode de Ward (après une ACP 2 ) : elle a pour objectif de minimiser l accroissement dans la variance intra-classe : E = k l=1 x i C l d(x i, m l ) 2. 2 Analyse en composantes principales

13 Classification hiérarchique 13 Algorithme descendant hiérarchique (DIANA). 1. k = 1, Toutes sont dans la même classe C 1 2. Considérer C i la classe de diamètre maximale (d(c i ) = max w,w C i d(w, w )). 3. Introduire C j =. 3.1 Pour chaque w C i, calculer d (w, C i \ {w}) = 1 C i 1 w C i \{w} 3.2 Calculer la différence (w, C i, C j ) = d (w, C i \ {w}) d(w, C j ) d(w, w ). 4. Si w m = argmax w Ci d (w, C i \ {w}) et (w m, C i, C j ) > 0 alors w m C j 5. si k < n alors k = k + 1 revient à 1/ sinon STOP.

14 Partionnement 14 Introduction Classification hiérarchique Partionnement Indices de validité Méthodes probabilistes pour la classification

15 Partionnement 15 Objectif A partir d une fonction critère J donnée, partitionner w 1,..., w n en K classes (K est fixé d avance) en minimisant ou maximisant la fonction J Méthode exhaustive : calculer pour toute les partitions possible C, le critère J(C) et la solution est alors C sol = argmaxj(c). Solution impossible si n devient grand. En effet le nombre de partitions possible est égal à P(n, K) = 1 m = 1 K! K ( 1)K m CK m m N. Pour n = 30, et K = 3, P(n, K) est de l ordre de

16 Partionnement 16 K means Critère à minimiser : la somme des carrées des erreurs (SSE) : J(C) = d(w, m(c)) c C w c où m(c) est le centre de gravité de c. Algorithme : 1. Initialise K centres m 1,..., m K et 2. Affecter chaque individu vers la classe la plus proche C = {c 1,..., c K } : w c l si d(w, m l ) = min d(w, m l l ). =1,...,K 3. Re-calculer les centres de gravité des nouvelles classes, 4. Répéter 2 et 3 jusqu à convergence.

17 Indices de validité 17 Introduction Classification hiérarchique Partionnement Indices de validité Méthodes probabilistes pour la classification

18 Indices de validité 18 Mesure de la validité d une classification Deux types de mesures : Indices de validité interne : à partir d un résultat de classification et de l information intrinsèque dans la base de données on mesure la qualité du résultat : indice de connectivité indice de silhouette indice de Dunn Indice de validité externe : comparer la classification obtenue avec une autre classification (soit une partition déjà connue ou une autre classification obtenue par une autre méthode)

19 Indices de validité 19 Notations Soit n le nombre des observations, d le nombre des variables, x 1,..., x n les vecteurs d observations à classer, C = {C 1,..., C k } une classification à tester, C(i) est la classe contenant x i, i.e., C(i) x i. Pour tout x i, et j {1,..., n} \ {i} : x (j) i est le j ième voisin le plus proche de x i : d(x i, x (1) ) d(x i, x (2) )... d(x i, x (j) )... d(x i, x (n 1) ) On pose pour tout i, j {1,..., n} δ(x i, x (j) i ) = 0 si x i, x (j) i 1/j sinon C(i)

20 Indices de validité 20 Indices de Connectivité Pour une classification C, Conn(C) = i,j=1,...,n δ(x i, x (j) i ) Conn(C) prend ses valeurs dans [0, + [ et c est un cœfficient qui doit être minimisée : Conn(C) proche de zéro une bonne connectivité à l intérieure des classes. R : clvalid package, connectivity

21 Indices de validité 21 Largeur de la silhouette C est la moyenne de toutes les valeurs de la silhouette. Valeur de la silhouette pour une observation x i : où S(i) = b i a i max(b i, a i ) ai est la distance moyenne entre x i et tous les autres x j C(i). a i = 1 n(c(i)) x C(i) d(x i, x). bi est la distance moyenne entre x i et les observations dans la classe la pus proche de x i : b i = min C C\C(i) 1 n(c) d(x i, x). x C

22 Indices de validité 22 Largeur de la silhouette Définie par S(C) = 1 S(i) n La largeur de la silhouette est un nombre qui est toujours compris entre 1 et +1. S doit être maximisée. une valeur de S(i) négative indique que cet individu n est pas dans la bonne classe et il pourrait être déplacé vers la classe la plus proche. R, package cluster, silhouette i

23 Indices de validité 23 Indices externes P une partition existante de l ensemble des individus E, P = {G 1,..., G r }. C = {C 1,..., C k } une classification obtenue à l aide d un algorithme de classification (hiérarchique, kmeans...) Objectif : comparer la classification C et la partition P Définition de quelques indices de validité externes : package clv sour R

24 Indices de validité 24 Calcul des indices externes Soient deux individus x i et x i. Quatre cas sont possibles Cas 1 C C et G P tel que x i, x i C et x i, x i G Cas 2 C C et G G P tel que x i, x i C et x i G, x i G Cas 3 C C C et G P tel que x i C, x i C et x i, x i G Cas 4 C C C et G G P tel que x i C, x i C et x i G, x i G

25 Indices de validité 25 Calcul des indices externes Notons par A l l ensemble des paires (x i, x i ) vérifiant le cas l et par a l = A l. Trois indices : Indice de Rand Rand = a 1 + a 4 a 1 + a 2 + a 3 + a 4 Indice de Jaccard Jaccard = a 1 a 1 + a 2 + a 3. Indice de Folkes et Mallows a1 a 1 FM = a 1 + a 3 a 1 + a 2

26 Méthodes probabilistes pour la classification 26 Introduction Classification hiérarchique Partionnement Indices de validité Méthodes probabilistes pour la classification

27 Méthodes probabilistes pour la classification 27 l EM-algorithme Soit X = (X 1,..., X n ) g(x θ) un n échantillon de vecteurs aléatoire dans R d. On suppose g(x θ) = f (x, z θ)dz Objectif : calculer θ = argmax θ L(x θ) = argmax θ où x = (x 1,..., x n ) est une réalisation de X. n g(x i θ) On pose (X, Z) f (x, z θ), et la densité de Z θ, X = x est i=1 k(z θ, x) = f (x, z θ) g(x θ).

28 Méthodes probabilistes pour la classification 28 l EM-algorithme Donc log g(x θ) = log f (x, z θ) log k(z θ, x) Pour un θ 0 fixé, log g(x θ)k(z θ 0, x) = log f (x, z θ)k(z θ 0, x) log k(z θ, x)k(z θ 0, x) (1) En intégrant (1) par rapport à z, on obtient log g(x θ) = E θ0 (log f (x, Z θ)) E θ0 (log k(z x, θ))

29 Méthodes probabilistes pour la classification 29 l EM-algorithme La fonction vraisemblance s écrit alors log L(x θ) = n log g(x i θ) i=1 = E θ0 (log L c (x, Z θ)) }{{} Q(θ x,θ 0 ) n E θ0 (log k(z x i, θ)) i=1 où L c est appelée la vraisemblance complète. Ainsi, dans la recherche du maximum de log L(x θ), dans l EM-algorithme on maximize, d une façon itérative, Q(θ x, θ 0 ).

30 Méthodes probabilistes pour la classification 30 l EM-algorithme 1. Considérons une valeur initiale θ (0) 2. Calculer l espérance (E step) Q(θ x, θ (m) ) = (log L c (x, Z θ)) E θ(m) où la moyenne a été calculée par rapport à k(z θ (m), x) et m = 0 3. Maximiser la fonction Q(θ x, θ (m) ) en θ (M step) : et m = m + 1. θ (m+1) = argmax θ Q(θ x, θ (m) ) 4. Répéter les étapes 2-3 jusqu à le point fix soit atteint : θ (m+1) = θ (m)

31 Méthodes probabilistes pour la classification 31 l EM-algorithme, dans la classification On suppose que les données x = (x 1,..., x n ) (R d ) n est un n échantillon qu on suppose issu d une loi de probabilité g(x θ) = k α l g l (x θ l ) l=1 où α l ]0, 1[, l = 1,..., k et k l=1 α l = 1 et g l (x θ l ) est la densité d une loi Gaussienne multivariée : f l (x θ l ) = 1 (2π) d/2 exp Σ l 1/2 ( 1 2 (x µ l) Σ 1 l (x µ l ) Donc X g(x θ) et Z est la variable à valeurs dans {1,..., k}, où k est la nombre de classes et P(Z = l) = α l, l = 1,..., k. )

32 Méthodes probabilistes pour la classification 32 Mise en œuvre sous R : le package mclust Description détaillé du package dans C. Fraley and A. E. Raftery (2006). MCLUST Version 3 for R : Normal Mixture Modeling and Model-Based Clustering, Technical Report no. 504, Department of Statistics, University of Washington C. Fraley and A. E. Raftery (2002). Model-based clustering, discriminant analysis, and density estimation. Journal of the American Statistical Association 97 : Utiliser la commande Mclust, Mclust applique l EM-algorithme (avec des différentes paramétrisations), et utilise le BIC comme critère de sélection du modèle : chercher le modèle M k correspondant au BIC maximal. BIC = 2 log Vraisemblance Nbre paramètres log(n)