Classification de Données Multidimensionnelles Techniques de Projection des Données dans des Espaces de Dimension Réduite



Documents pareils
Application de K-means à la définition du nombre de VM optimal dans un cloud

Laboratoire d Automatique et Productique Université de Batna, Algérie

La classification automatique de données quantitatives

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Vers une Optimisation de l Algorithme AntTreeStoch

Laboratoire 4 Développement d un système intelligent

Introduction au Data-Mining

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Reconnaissance de gestes : approches 2D & 3D

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche

Charles BOUVEYRON. Docteur en Mathématiques appliquées Maître de Conférences (section CNU 26) Université Paris 1 Panthéon-Sorbonne

Extraction d informations stratégiques par Analyse en Composantes Principales

Économétrie, causalité et analyse des politiques

Représentation et analyse des systèmes linéaires

Vérification audiovisuelle de l identité

Exercice : la frontière des portefeuilles optimaux sans actif certain

Analyse d images. Edmond.Boyer@imag.fr. Edmond Boyer UFRIMA 1

intelligence artificielle et cognitique"

Réglage de la largeur d'une fenêtre de Parzen dans le cadre d'un apprentissage actif : une évaluation

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Interception des signaux issus de communications MIMO

Travaux pratiques avec RapidMiner

Introduction au Data-Mining

Caractérisation système d un Botcloud par une analyse en composantes principales

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Atelier Visualisation d informations, interactions et fouille de données (VIF)

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

Filtrage stochastique non linéaire par la théorie de représentation des martingales

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Modélisation du comportement habituel de la personne en smarthome

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Druais Cédric École Polytechnique de Montréal. Résumé

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Les datas = le fuel du 21ième sicècle

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Classification supervisée et non supervisée des données de grande dimension

Enjeux mathématiques et Statistiques du Big Data

APPLICATION DE RESEAUX DE NEURONES ARTIFICIELS A LA RECONNAISSANCE AUTOMATIQUE DE CARACTERES MANUSCRITS

Mesure agnostique de la qualité des images.

Ingénierie et gestion des connaissances

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Une Démarche pour la sélection d outils de cartographie des processus métiers

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Présentations personnelles. filière IL

Propriétés du Document EMA. Résumé

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes.

Etude d Algorithmes Parallèles de Data Mining

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Spécificités, Applications et Outils

Apprentissage actif pour le clustering semi-supervisé

Visualisation en Fouille de Données

NON-LINEARITE ET RESEAUX NEURONAUX

Application de K-Means à la définition du nombre de VM optimal dans un Cloud

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Équation de Langevin avec petites perturbations browniennes ou

TRAVAUX DE RECHERCHE DANS LE

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Analyse des variations entre partitions générées par différentes techniques de classification automatique de textes

Introduction au datamining

Entrepôt de données 1. Introduction

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

MCMC et approximations en champ moyen pour les modèles de Markov

Classification Automatique de messages : une approche hybride

Calcul intégral élémentaire en plusieurs variables

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Apprentissage symbolique et statistique à l ère du mariage pour tous


Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Apprentissage Automatique

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

Plus courts chemins, programmation dynamique

Apprentissage statistique dans les graphes et les réseaux sociaux

Colloque Du contrôle permanent à la maîtrise globale des SI. Jean-Louis Bleicher Banque Fédérale des Banques Populaires

Luc Grivel (*, **)

= 1 si n = m& où n et m sont souvent des indices entiers, par exemple, n, m = 0, 1, 2, 3, 4... En fait,! n m

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Analyse de grandes bases de données en santé

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Étude de données multisources par simulation de capteurs et clustering collaboratif

TABLE DES MATIERES. C Exercices complémentaires 42

Transcription:

Classification de Données Multidimensionnelles Techniques de Projection des Données dans des Espaces de Dimension Réduite Denis HAMAD ULCO LASL Denis.Hamad@laslIuniv-littoral.fr Présenté dans la journée LA RECONNAISSANCE DES FORMES : QUELLES METHODES POUR QUELLES APPLICATIONS? ENST, 23 & 24 mars 2006 1

Principe 1 : Clustering Ceux qui se ressemblent d assemblent 2

Principe 2 : Visualisation Mettons tout à plat pour voir! 3

On dispose d'un ensemble de points dans R N 4

On désire un ensemble de points dans un plan En espérant que la structure des données reste inchangée 5

Motivations L'homme est capable d'analyser, avec aisance, le contenu d'une image et en extraire les informations utiles. Par contre, il a beaucoup de difficultés pour comprendre le contenu d'un tableau de nombres. L'implication de l'utilisateur présente divers avantages : (a) il peut faire intervenir ses connaissances durant le processus de classification, (b) les résultats sont plus facilement interprétables grâce à l'emploi de son raisonnement intuitif, (c) le contact visuel lui donne plus de confiance dans les résultats, (d) le retour d expérience permet d affiner le processus de classification. 6

La projection plane dx Méthode de Projection dy Données d entrée Données de sortie 7

Applications Les méthodes de visualisation reçoivent de plus en plus d'attention : Application dans différents domaines tels que : Fouille de données, Recherche par le contenu, Supervision et diagnostic. L'analyste, à partir d'une visualisation 2-D, peut découvrir des tendances, décider du nombre des classes, initialiser les paramètres des classes etc. En général, la projection induit une perte d'information et une distorsion de la forme des points (artefact), 8

Problèmes Évaluer la distorsion est important pour l'utilisateur pour savoir si les données de sortie (projetées) sont une image fidèle des données dans l'espace d'entrée, Par contre, en analyse exploratoire des données, il peut être intéressant d'avoir les points groupés. Pour comparer la qualité de la projection 2 critères peuvent être utilisés : la distorsion et l'exactitude de la classification, Pour le critère distorsion, la représentation "dx-dy" est en général utilisée : On affiche sur l'abscisse les distances inter-points dx d'entrées et sur l'ordonnée les distances inter-points dy de sorties, Pour la classification, on propose d'utiliser l'algorithme K-means. Il permet de savoir si les points sont groupés ou non. 9

Critère de comparaison dx-dy 10

Critère d'exactitude de la classification Critère du K-means : E MS = K L y i c k 2 k= 1 y Cl i k C k est le centre de la k ème classe Cl k 11

Méthodes de projection Supervisée? Les méthodes de projection sont aussi variées que les critères d'optimisation dont ils sont issus, Linéaire? OUI NON Ces méthodes ont été revisitée sous l'angle neuronal : SOM, MLP Auto-associateur, SAMANN etc., OUI DA PCA Dans la suite, on se focalise sur les méthodes non supervisées. NON NLDA NLPCA 12

Algorithme PCA On dispose d'un ensemble de L points centrée dans un espace R N. Chercher un nouvel espace R 2 dans lequel les points sont les mieux dispersés i.e. variances maximum : C = Cv 1 L = λ L = l 1 v ( x l ).( x l ) T Y = W T X 13

Exemple de projection PCA : projette les points sur l axe y de symétrie Alors qu'il est plus intéressant de projeter sur : y = - x 2-4 Parabole : y = - x 2-4 14

15 Kernel PCA Chercher une fonction : Matrice de covariance : Solution vecteurs - valeurs propres: Nouvel espace : l l x l x y ) ( R F R : 2 N φ φ = φ φ = L 1 T ) ( ) ( L 1 C ~ l x l x l v ~ ~ v ~ C ~ λ = ( ) = = φ = L 1 T m ), K( a v ~ y ~ j j mj m x x x )) ( ) ( ( ), K( T i l i l x x x x φ φ =

16 Algorithme de Sammon Dissimilarité dans R N entre x i, x j : Dissimilarité dans R M entre y i, y j : Fonction critère E S : La solution : ), d( d j i ij x x = ), ( d j i ij y y = δ < δ = L j 1 2 S d ) (d D 1 E i ij ij ij < = L 1 d D j i ij 1 2 ij S 2 ij S i y E y E y α =

Algorithme CCA Fonction critère E CCA : E CCA = 1 2 1 i< j L 2 ( d δ ) G( δ ) ij ij ij Solution : y i = α (t) d ij δ d ij ij [2G( δ ij ) (d ij δ ij ) G' ( δ ij )](y i y j ) La fonction G est monotone, positive et décroissante pour favoriser la distance locale 17

Exemples de comparaison Exemple 1. 3 Gaussiennes dans R 3 Exemple 2. Une boule dans une sphère Exemple 3. Iris de Fisher Exemple 3. Wines 18

Exemple 1. 3 Gaussiennes dans R 3 3 classes dans R 3 Chacune est de 30 points N1[(-0.5, -0.2, 0) ; 0.1] N2[(0, 0.02, 0) ; 0.1] Performances du K-means : KPCA : 100% CCA : 100% PCA : 100% Sammon : 100% N3[(0.5, 0, 0) ; 0.1] 19

Visualisation par PCA Fig. 1.1: PCA projected space 20

Visualisation par KPCA Fig. 1.2: KPCA projected space. 21

Visualisation par Sammon Fig. 1.3: Sammon projected space. 22

Visualisation par CCA Fig. 1.4: CCA projected space. 23

Exemple 2. Une boule dans une sphère Deux classes dans R 3 de 400 points chacune: Une sphère de rayon : 0.6 Un anneau ayant le centre de la sphère et d'épaisseur : 2 < e < 2.013 24

Visualisation par PCA Fig. 2.1: PCA projected space 25

Visualisation par KPCA Fig. 2.2: KPCA projected space. 26

Visualisation par Sammon Fig. 2.3: Sammon projected space. 27

Visualisation par CCA Fig. 2.4: CCA projected space. 28

Performances du K-means KPCA : 100% CCA : 81.1% PCA : 78.9% Sammon : 77.9% 29

Exemple 3. Iris de Fisher 3 classes dans R 4 Chacune est de 50 points Performances du K-means : KPCA : 96% CCA : 89.3% PCA : 88.6% Sammon : 88% 30

Visualisation par PCA Fig. 3.1: PCA projected space 31

Visualisation par KPCA Fig. 3.2: KPCA projected space. 32

Visualisation par Sammon Fig. 3.3: Sammon projected space. 33

Visualisation par CCA Fig. 3.4: CCA projected space. 34

Exemple 4. Wines 3 classes dans R 12 ; total 178 points Classe 1 : 59 points Classe 2 : 71 points Classe 3 : 48 points Performances du K-means : KPCA 95.5% Sammon 93.2% PCA 90.4% CCA 88.8% 35

Visualisation par PCA Fig. 4.1: PCA projected space 36

Visualisation par KPCA Fig. 4.2: KPCA projected space. 37

Visualisation par Sammon Fig. 4.3: Sammon projected space. 38

Visualisation par CCA Fig. 4.4: CCA projected space. 39

Récapitulatif Exemples PCA KPCA Sammon CCA 3 Gaussiennes 100 100 100 100 Sphere - Anneau 78.87 100 77.87 81.12 Iris 88.6 96 88 89.33 Wines 90.4 95.5 93.2 89.8 40

Conclusion Nous avons présenté 4 méthodes de visualisation : PCA, KPCA, Sammon, et CCA. Elles ont été comparées sur des données générées artificiellement et des données réelles, Le critère de comparaison de la qualité de la visualisation est l'exactitude des résultats par l'algorithme des K-means, Pour le partitionnement, la méthode KPCA produit les meilleures performances, Ceci est dû au fait que KPCA effectue une transformation NL dans un espace de grande dimension où les données sont plus vraisemblablement linéairement séparables et ensuite effectue une projection linéaire type PCA. 41

Références Agrawal C., "A Human-Computer Interactive Method for Projected Clustering", IEEE Trans. Knowledge & Data Engineering, vol, 16, No 4, pp. 448-460, April 2004. Agrawal R. and al, "Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications". Proc. ACM SIGMOD conf., pp. 94-105, 1998. Chen Q., R.J. Wynne, P.Goulding and D. Sandoz, "The Application of Principal Component Analysis and Kernel Density Estimation to Enhance Process Monitoring". Control Engineering Practice, pp. 531-543, 2000. Demartines P. and J. Hérault, "Curvilinear Component Analysis: A self-organizing Neural Network for Nonlinear Mapping of Data Sets", IEEE Trans. on Neural Networks, vol. 8, no. 1, pp. 148-154, January 1997. Haykin, S., "Neural Networks. A comprehensive foundation". Prentice-Hall, Englewood Cliffs, NJ, 1999. Jain A.K. and J. Mao, "Artificial Neural Network for Nonlinear Projection of Multivariate Data", Proc. IEEE Int. Joint. Conf. on Neural Networks, Vol. 3, pp. 335-340, Baltimore-Maryland, 1992. Jolliffe I.T., "Principal Component Analysis". Springer-Verlag, 1986. Mao J. and A. K. Jain, "Artificial neural networks for features extraction and multivariate data projection", IEEE Trans. Neural Networks, vol. 6, no. 2, pp. 296-317, 1995. Sammon J.W., "A non linear mapping for data structure analysis". IEEE Transactions on computers, Vol. C-18, No. 5, pp. 401-409, 1969. Shölkopf B., A.J. Smola, "Learning with Kernels: Support Vector Machines, Regularization, Optimization and Beyond". The MIT Press, Cambridge, Massachusetts, London, England, 2002. Siedlecki W., K. Siedlecka and J. Slansky, "An overview of mapping techniques for exploratory analysis". Pattern Recognition, Vol. 21, No. 5, pp. 411-429, 1988. Siedlecki W., K. Siedlecka and J. Slansky, "Experiments on mapping techniques for exploratory pattern recognition". Pattern Recognition, Vol. 21, pp. 431-438, 1988. 42