Classification de Données Multidimensionnelles Techniques de Projection des Données dans des Espaces de Dimension Réduite Denis HAMAD ULCO LASL Denis.Hamad@laslIuniv-littoral.fr Présenté dans la journée LA RECONNAISSANCE DES FORMES : QUELLES METHODES POUR QUELLES APPLICATIONS? ENST, 23 & 24 mars 2006 1
Principe 1 : Clustering Ceux qui se ressemblent d assemblent 2
Principe 2 : Visualisation Mettons tout à plat pour voir! 3
On dispose d'un ensemble de points dans R N 4
On désire un ensemble de points dans un plan En espérant que la structure des données reste inchangée 5
Motivations L'homme est capable d'analyser, avec aisance, le contenu d'une image et en extraire les informations utiles. Par contre, il a beaucoup de difficultés pour comprendre le contenu d'un tableau de nombres. L'implication de l'utilisateur présente divers avantages : (a) il peut faire intervenir ses connaissances durant le processus de classification, (b) les résultats sont plus facilement interprétables grâce à l'emploi de son raisonnement intuitif, (c) le contact visuel lui donne plus de confiance dans les résultats, (d) le retour d expérience permet d affiner le processus de classification. 6
La projection plane dx Méthode de Projection dy Données d entrée Données de sortie 7
Applications Les méthodes de visualisation reçoivent de plus en plus d'attention : Application dans différents domaines tels que : Fouille de données, Recherche par le contenu, Supervision et diagnostic. L'analyste, à partir d'une visualisation 2-D, peut découvrir des tendances, décider du nombre des classes, initialiser les paramètres des classes etc. En général, la projection induit une perte d'information et une distorsion de la forme des points (artefact), 8
Problèmes Évaluer la distorsion est important pour l'utilisateur pour savoir si les données de sortie (projetées) sont une image fidèle des données dans l'espace d'entrée, Par contre, en analyse exploratoire des données, il peut être intéressant d'avoir les points groupés. Pour comparer la qualité de la projection 2 critères peuvent être utilisés : la distorsion et l'exactitude de la classification, Pour le critère distorsion, la représentation "dx-dy" est en général utilisée : On affiche sur l'abscisse les distances inter-points dx d'entrées et sur l'ordonnée les distances inter-points dy de sorties, Pour la classification, on propose d'utiliser l'algorithme K-means. Il permet de savoir si les points sont groupés ou non. 9
Critère de comparaison dx-dy 10
Critère d'exactitude de la classification Critère du K-means : E MS = K L y i c k 2 k= 1 y Cl i k C k est le centre de la k ème classe Cl k 11
Méthodes de projection Supervisée? Les méthodes de projection sont aussi variées que les critères d'optimisation dont ils sont issus, Linéaire? OUI NON Ces méthodes ont été revisitée sous l'angle neuronal : SOM, MLP Auto-associateur, SAMANN etc., OUI DA PCA Dans la suite, on se focalise sur les méthodes non supervisées. NON NLDA NLPCA 12
Algorithme PCA On dispose d'un ensemble de L points centrée dans un espace R N. Chercher un nouvel espace R 2 dans lequel les points sont les mieux dispersés i.e. variances maximum : C = Cv 1 L = λ L = l 1 v ( x l ).( x l ) T Y = W T X 13
Exemple de projection PCA : projette les points sur l axe y de symétrie Alors qu'il est plus intéressant de projeter sur : y = - x 2-4 Parabole : y = - x 2-4 14
15 Kernel PCA Chercher une fonction : Matrice de covariance : Solution vecteurs - valeurs propres: Nouvel espace : l l x l x y ) ( R F R : 2 N φ φ = φ φ = L 1 T ) ( ) ( L 1 C ~ l x l x l v ~ ~ v ~ C ~ λ = ( ) = = φ = L 1 T m ), K( a v ~ y ~ j j mj m x x x )) ( ) ( ( ), K( T i l i l x x x x φ φ =
16 Algorithme de Sammon Dissimilarité dans R N entre x i, x j : Dissimilarité dans R M entre y i, y j : Fonction critère E S : La solution : ), d( d j i ij x x = ), ( d j i ij y y = δ < δ = L j 1 2 S d ) (d D 1 E i ij ij ij < = L 1 d D j i ij 1 2 ij S 2 ij S i y E y E y α =
Algorithme CCA Fonction critère E CCA : E CCA = 1 2 1 i< j L 2 ( d δ ) G( δ ) ij ij ij Solution : y i = α (t) d ij δ d ij ij [2G( δ ij ) (d ij δ ij ) G' ( δ ij )](y i y j ) La fonction G est monotone, positive et décroissante pour favoriser la distance locale 17
Exemples de comparaison Exemple 1. 3 Gaussiennes dans R 3 Exemple 2. Une boule dans une sphère Exemple 3. Iris de Fisher Exemple 3. Wines 18
Exemple 1. 3 Gaussiennes dans R 3 3 classes dans R 3 Chacune est de 30 points N1[(-0.5, -0.2, 0) ; 0.1] N2[(0, 0.02, 0) ; 0.1] Performances du K-means : KPCA : 100% CCA : 100% PCA : 100% Sammon : 100% N3[(0.5, 0, 0) ; 0.1] 19
Visualisation par PCA Fig. 1.1: PCA projected space 20
Visualisation par KPCA Fig. 1.2: KPCA projected space. 21
Visualisation par Sammon Fig. 1.3: Sammon projected space. 22
Visualisation par CCA Fig. 1.4: CCA projected space. 23
Exemple 2. Une boule dans une sphère Deux classes dans R 3 de 400 points chacune: Une sphère de rayon : 0.6 Un anneau ayant le centre de la sphère et d'épaisseur : 2 < e < 2.013 24
Visualisation par PCA Fig. 2.1: PCA projected space 25
Visualisation par KPCA Fig. 2.2: KPCA projected space. 26
Visualisation par Sammon Fig. 2.3: Sammon projected space. 27
Visualisation par CCA Fig. 2.4: CCA projected space. 28
Performances du K-means KPCA : 100% CCA : 81.1% PCA : 78.9% Sammon : 77.9% 29
Exemple 3. Iris de Fisher 3 classes dans R 4 Chacune est de 50 points Performances du K-means : KPCA : 96% CCA : 89.3% PCA : 88.6% Sammon : 88% 30
Visualisation par PCA Fig. 3.1: PCA projected space 31
Visualisation par KPCA Fig. 3.2: KPCA projected space. 32
Visualisation par Sammon Fig. 3.3: Sammon projected space. 33
Visualisation par CCA Fig. 3.4: CCA projected space. 34
Exemple 4. Wines 3 classes dans R 12 ; total 178 points Classe 1 : 59 points Classe 2 : 71 points Classe 3 : 48 points Performances du K-means : KPCA 95.5% Sammon 93.2% PCA 90.4% CCA 88.8% 35
Visualisation par PCA Fig. 4.1: PCA projected space 36
Visualisation par KPCA Fig. 4.2: KPCA projected space. 37
Visualisation par Sammon Fig. 4.3: Sammon projected space. 38
Visualisation par CCA Fig. 4.4: CCA projected space. 39
Récapitulatif Exemples PCA KPCA Sammon CCA 3 Gaussiennes 100 100 100 100 Sphere - Anneau 78.87 100 77.87 81.12 Iris 88.6 96 88 89.33 Wines 90.4 95.5 93.2 89.8 40
Conclusion Nous avons présenté 4 méthodes de visualisation : PCA, KPCA, Sammon, et CCA. Elles ont été comparées sur des données générées artificiellement et des données réelles, Le critère de comparaison de la qualité de la visualisation est l'exactitude des résultats par l'algorithme des K-means, Pour le partitionnement, la méthode KPCA produit les meilleures performances, Ceci est dû au fait que KPCA effectue une transformation NL dans un espace de grande dimension où les données sont plus vraisemblablement linéairement séparables et ensuite effectue une projection linéaire type PCA. 41
Références Agrawal C., "A Human-Computer Interactive Method for Projected Clustering", IEEE Trans. Knowledge & Data Engineering, vol, 16, No 4, pp. 448-460, April 2004. Agrawal R. and al, "Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications". Proc. ACM SIGMOD conf., pp. 94-105, 1998. Chen Q., R.J. Wynne, P.Goulding and D. Sandoz, "The Application of Principal Component Analysis and Kernel Density Estimation to Enhance Process Monitoring". Control Engineering Practice, pp. 531-543, 2000. Demartines P. and J. Hérault, "Curvilinear Component Analysis: A self-organizing Neural Network for Nonlinear Mapping of Data Sets", IEEE Trans. on Neural Networks, vol. 8, no. 1, pp. 148-154, January 1997. Haykin, S., "Neural Networks. A comprehensive foundation". Prentice-Hall, Englewood Cliffs, NJ, 1999. Jain A.K. and J. Mao, "Artificial Neural Network for Nonlinear Projection of Multivariate Data", Proc. IEEE Int. Joint. Conf. on Neural Networks, Vol. 3, pp. 335-340, Baltimore-Maryland, 1992. Jolliffe I.T., "Principal Component Analysis". Springer-Verlag, 1986. Mao J. and A. K. Jain, "Artificial neural networks for features extraction and multivariate data projection", IEEE Trans. Neural Networks, vol. 6, no. 2, pp. 296-317, 1995. Sammon J.W., "A non linear mapping for data structure analysis". IEEE Transactions on computers, Vol. C-18, No. 5, pp. 401-409, 1969. Shölkopf B., A.J. Smola, "Learning with Kernels: Support Vector Machines, Regularization, Optimization and Beyond". The MIT Press, Cambridge, Massachusetts, London, England, 2002. Siedlecki W., K. Siedlecka and J. Slansky, "An overview of mapping techniques for exploratory analysis". Pattern Recognition, Vol. 21, No. 5, pp. 411-429, 1988. Siedlecki W., K. Siedlecka and J. Slansky, "Experiments on mapping techniques for exploratory pattern recognition". Pattern Recognition, Vol. 21, pp. 431-438, 1988. 42