Mclust : Déceler des groupes dans un jeu de données grâce aux mélanges gaussiens.



Documents pareils
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

La classification automatique de données quantitatives

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Soutenance de stage Laboratoire des Signaux et Systèmes

Contributions à l apprentissage statistique en grande dimension, adaptatif et sur données atypiques

Classification non supervisée

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Introduction au Data-Mining

Analyse en Composantes Principales

Modèles pour données répétées

PROBABILITES ET STATISTIQUE I&II

Arbres binaires de décision

Logiciel XLSTAT version rue Damrémont PARIS

Resolution limit in community detection

MCMC et approximations en champ moyen pour les modèles de Markov

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Économetrie non paramétrique I. Estimation d une densité

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Big Data et Graphes : Quelques pistes de recherche

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

Optimisation Discrète

Ministère de l Enseignement Supérieur et de la Recherche Scientifique

Big Data et Graphes : Quelques pistes de recherche

Interception des signaux issus de communications MIMO

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Post-processing of multimodel hydrological forecasts for the Baskatong catchment

Introduction au datamining

Quantification Scalaire et Prédictive

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Scénario: Données bancaires et segmentation de clientèle

Modélisation prédictive et incertitudes. P. Pernot. Laboratoire de Chimie Physique, CNRS/U-PSUD, Orsay

Enjeux mathématiques et Statistiques du Big Data

Introduction au Data-Mining

INF6304 Interfaces Intelligentes

Master Informatique Spécialité Développement et Applications sur Plateformes Mobiles

Aide-mémoire de statistique appliquée à la biologie

TABLE DES MATIERES. C Exercices complémentaires 42

Apprentissage Automatique

Caroline Hurault-Delarue 1, Cécile Chouquet 2, Nicolas Savy 2, Isabelle Lacroix 1, Christine Damase- Michel 1

I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Programmation linéaire

Une approche non paramétrique Bayesienne pour l estimation de densité conditionnelle sur les rangs

Programmation linéaire

Simulation de variables aléatoires

MAP 553 Apprentissage statistique

Méthodes de Simulation

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Charles BOUVEYRON. Docteur en Mathématiques appliquées Maître de Conférences (section CNU 26) Université Paris 1 Panthéon-Sorbonne

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

4.2 Unités d enseignement du M1

Classification supervisée et non supervisée des données de grande dimension

Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux

Introduction aux Statistiques et à l utilisation du logiciel R

Reconnaissance de gestes : approches 2D & 3D

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

TSTI 2D CH X : Exemples de lois à densité 1

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Modélisation du risque opérationnel Approche Bâle avancée

Lire ; Compter ; Tester... avec R

Analyse de grandes bases de données en santé

Données longitudinales et modèles de survie

Le modèle de Black et Scholes

SEMIN- Gestion des couleurs sous R. Michel BAYLAC. MNHN Département Systématique et Evolution OSEB

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Modélisation du comportement habituel de la personne en smarthome

Mesure agnostique de la qualité des images.

De la mesure à l analyse des risques

Agrégation des portefeuilles de contrats d assurance vie

Programmes des classes préparatoires aux Grandes Ecoles

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Évaluation de la régression bornée

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

1 Complément sur la projection du nuage des individus

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Cours de méthodes de scoring

Abstract : Mots clefs : Résistance thermique de contact ; Modèles prédictifs. 1 Introduction

IBM SPSS Regression 21

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Paramétrisation adaptée de transitoires pour la reconnaissance d instruments de musique

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Filtrage stochastique non linéaire par la théorie de représentation des martingales

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Contributions aux méthodes d estimation en aveugle

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Transcription:

Adrien Perrard. UMR 7205, MNHN Mclust : Déceler des groupes dans un jeu de données grâce aux mélanges gaussiens.

Partition et mélanges gaussiens

Partition et mélanges gaussiens

Partition et mélanges gaussiens

Partition et mélanges gaussiens Density 0.000 0.001 0.002 0.003 0.004 0.005 0 100 200 300 400 500 600 Dry weight (mg)

Partition et mélanges gaussiens Density 0.000 0.001 0.002 0.003 0.004 0.005 0 100 200 300 400 500 600 Dry weight (mg) Méthodes de partition («clustering»): - classification hiérarchique (hclust) - moyennes mobiles (kmeans) - mélanges gaussiens (Mclust)

Partition et mélanges gaussiens Ici, on a 2 groupes bien définis dans nos «mesures»... A<-rnorm(100,0,2) B<-rnorm(100,3,0.5) N<-c(A,B) plot(n,xlim=c(-2,5),ylim=c(0,0.5),type="n") abline(h=0); rug(a,col=2);rug(b,col=3) lines(density(a),col=2); lines(density(b),col=3);

Partition et mélanges gaussiens

Partition et mélanges gaussiens Fonction «Mclust» En supposant que les groupes aient une variation suivant une distribution Normale : library(mclust) Mclust(N)->McN > str(mcn) List of 11 $ modelname : chr "V" $ n : int 200 $ d : num 1 $ G : int 2 $ BIC : num [1:9, 1:2] $ bic : num -715 $ loglik : num -344 $ parameters :List of 4 $ z : num [1:200, 1:2] $ classification: num [1:200] $ uncertainty : num [1:200] plot(n,xlim=c(-2,5),ylim=c(0,0.5),type="n") abline(h=0) rug(n) lines(density(n))

Partition et mélanges gaussiens Fonction «Mclust» En supposant que les groupes aient une variation suivant une distribution Normale : - Combien de groupes? > McN$G [1] 2

Partition et mélanges gaussiens Fonction «Mclust» En supposant que les groupes aient une variation suivant une distribution Normale : - Combien de groupes? - Classification des individus? rug(n[which(mcn$classification==1)],col=2) rug(n[which(mcn$classification==2)],col=3) > classerror(mcn$class,gl(2,300))$errorrate [1] 0.025

Partition et mélanges gaussiens Fonction «Mclust» En supposant que les groupes aient une variation suivant une distribution Normale : - Combien de groupes? - Classification des individus? - Degré d incertitude d attribution des individus aux groupes? points(n,mcn$uncertainty,pch=20)

Partition et mélanges gaussiens Différents groupes dont la moyenne est équivalente? C<-rnorm(300,0,2) D<-rnorm(300,0,0.5) E<-c(C,D) plot(e,ylim=c(0,0.5),type="n") abline(h=0,v=0) rug(c,col=3);rug(d,col=2) lines(density(a),col=2); lines(density(b),col=3);

Partition et mélanges gaussiens Différents groupes dont la moyenne est équivalente?

Partition et mélanges gaussiens Différents groupes dont la moyenne est équivalente? - Les groupes sont détectés Mclust(E)->McE > McE$G [1] 2

Partition et mélanges gaussiens Différents groupes dont la moyenne est équivalente? - Les groupes sont détectés - Mais le taux de classification correcte est plus faible rug(e[which(mce$classification==1)],col=2) rug(e[which(mce$classification==2)],col=3) > classerror(mce$class,gl(2,300))$errorrate [1] 0.21

Partition et mélanges gaussiens Différents groupes dont la moyenne est équivalente? - Les groupes sont détectés - Mais le taux de classification correcte est plus faible - Et l incertitude d attribution plus forte points(e,mce$uncertainty,pch=20)

Partition et mélanges gaussiens Mais quand même!

Dans les coulisses... Mélanges gaussiens (Gaussian mixture models) : Maximiser la vraisemblance d une partition par une méthode de mélange ( = «mixture») : attribution à un groupe K une probabilité ( ) (méthode de «classification» valeurs discrètes)

Dans les coulisses... Mélanges gaussiens (Gaussian mixture models) : Maximiser la vraisemblance d une partition par une méthode de mélange ( = «mixture») : attribution à un groupe K une probabilité ( ) (méthode de «classification» valeurs discrètes) Modèle du groupe K Probabilité qu une observation appartienne au groupe K Probabilité que l observation i appartienne au groupe K Fonction de densité du groupe K

Dans les coulisses... Mélanges gaussiens (Gaussian mixture models) : Maximiser la vraisemblance d une partition par une méthode de mélange ( = «mixture») : attribution à un groupe K une probabilité ( ) (méthode de «classification» valeurs discrètes) Modèle du groupe K Probabilité qu une observation appartienne au groupe K Probabilité que l observation i appartienne au groupe K Fonction de densité du groupe K Le modèle θ est défini par la moyenne (μ) et la variance (σ)

Dans les coulisses... Algorithme EM «Expectation-Maximization» Optimisation du maximum de vraisemblance de la partition des données

Dans les coulisses... Algorithme EM «Expectation-Maximization» Optimisation du maximum de vraisemblance de la partition des données Première partition (classification) z ik

Dans les coulisses... Algorithme EM «Expectation-Maximization» Optimisation du maximum de vraisemblance de la partition des données Première partition (classification) z ik, μ k, σ k Etape «M»: calcul des paramètres maximisant la vraisemblance

Dans les coulisses... Algorithme EM «Expectation-Maximization» Optimisation du maximum de vraisemblance de la partition des données Etape «E»: estimation de z ik Première partition (classification) z ik, μ k, σ k Etape «M»: calcul des paramètres maximisant la vraisemblance Répété jusqu à la convergence

Dans les coulisses... Sélection du modèle par critère Bayesien (BIC ~ 2 log(bayes factor) )

Dans les coulisses... Sélection du modèle par critère Bayesien (BIC ~ 2 log(bayes factor) ) Vraisemblance maximisée du mélange gaussien du modèle M BIC 2 loglik M (x, θ k ) (# params )M log(n)

Dans les coulisses... Sélection du modèle par critère Bayesien (BIC ~ 2 log(bayes factor) ) Vraisemblance maximisée du mélange gaussien du modèle M BIC 2 loglik M (x, θ k ) (# params )M log(n) Sélection du modèle M Sélection du nombre de groupes plot(mce) #Apparait après validation dans la barre des tâches du terminal.

Et avec plus de dimensions... Mesure des ailes en morphométrie géométrique : 38 variables Mélanges gaussiens : Même principe qu en uni-varié Seul les modèles θ k changent : μ k (scalaire) μ k (vecteur) σ k Σ k (Matrice de variances-covariances)

Et avec plus de dimensions...

Et avec plus de dimensions...

Et avec plus de dimensions...

Et avec plus de dimensions...

Et avec plus de dimensions...

Et avec plus de dimensions...

Et avec plus de dimensions...

Et avec plus de dimensions... Correspond aux groupes biologiques (erreur de classification ~ 5%) Groupes 1 2 3 4 Sp1 ouv. 37 2 1 Sp1 reine 44 Sp2 ouv. 5 35 Sp2 reine 40 1

Warnings et limites de la méthode Nécessité de données de plein rang Messages d'avis : 1: In summary.mclustbic(bic, data, G = G, modelnames = modelnames) : best model occurs at the min or max # of components considered 2: In Mclust(Vcaste2$scores) : optimal number of clusters occurs at min choice Tailles des échantillons Nombre de groupe maximal Temps de calcul...

Autres fonctions de mclust Partition hiérarchique: -hc Estimation de densité: - densitymclust Analyses discriminantes - MclustDA(trainData, trainclass) - cv.mclustda(objmclustda) - predict.mclustda(objmclustda,otherdata) Plot - mclust2dplot / surfaceplot # plot pour données bivariées - coordproj / MclustDR # plot pour données multivariées Autres: - classerror (McObj$classification,groups)

Merci de votre attention! Banfield, J. D., & Raftery, A. E. 1993. Model-based Gaussian and non-gaussian clustering. Biometrics 49: 803 821. Fraley, C., & Raftery, A. E. 1998. How many clusters? Which clustering method? Answers via model-based cluster analysis. The Computer Journal 41: 578 588. Fraley, C., & Raftery, A. 2009. mclust: Model-based clustering/normal mixture modeling. R package version 3.