Classification non supervisée multi-stratégie

Documents pareils
GUIDE PRATIQUE déplacements professionnels temporaires en France et à l étranger

LA MESURE DES PERFORMANCES DES COMPAGNIES D ASSURANCES

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Cours Informatique 1. Monsieur SADOUNI Salheddine

Comme chaque ligne de cache a 1024 bits. Le nombre de lignes de cache contenu dans chaque ensemble est:

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Tactical Currency Allocation Revisited: Four Simple Currency Trading Rules

Votre Réseau est-il prêt?

Algorithmes d'apprentissage

un module de simulation des évolutions urbaines Présentation

Les grands enjeux B2B du marketing mobile. Etude quantitative Vague 2 édition 2015

Introduction au Data-Mining

Apprentissage Automatique

7. ECONOMIE 7.3. COMMERCE GESTIONNAIRE DE TRES PETITES ENTREPRISES

Structure fonctionnelle d un SGBD

Conseils et astuces pour un déploiement réussi de la solution VMware Mirage

Chapitre 1 : Introduction aux bases de données

ANeXiti 33 quai Arloing lyon cedex

Machines virtuelles Cours 1 : Introduction

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Transmission de données. A) Principaux éléments intervenant dans la transmission

ELP 304 : Électronique Numérique. Cours 1 Introduction

Optimiser les images pour l affichage sur votre site

INTRODUCTION GENERALE...1 LA CONNEXION ODBC :...1. CONNEXION AU TRAVERS D EXCEL(tm)...6. LOGICIEL QUANTUM GIS (Qgis)... 10

nom : Collège Ste Clotilde

Diagnostic CRM en 2 parties. Votre organisation a-t-elle besoin d un CRM? Quels sont vos besoins?

Diagrammes de Package, de déploiement et de composants UML

SQL. Oracle. pour. 4 e édition. Christian Soutou Avec la participation d Olivier Teste

Tutoriel : utilisation de l outil de veille TaDaweb

TP Service HTTP Serveur Apache Linux Debian

FileZilla. Sauvegarder son site Guppy à l aide de. Sommaire:

Unity Real Time 2.0 Service Pack 2 update

Traitement bas-niveau


La santé de votre entreprise mérite notre protection.

Passage du marketing par à l automatisation du marketing

Disponibilité et fiabilité des services et des systèmes

INTRODUCTION AU DATA MINING

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Transformations nucléaires

CONSEILS PRATIQUES PRÉVENTION. Le patrimoine communal est le bien de tous : le protéger est de votre responsabilité ASSOCIATIONS BÂTIMENTS COMMUNAUX

L exclusion mutuelle distribuée

Codage d information. Codage d information : -Définition-

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Clé USB. Quel type de données peut contenir une clé USB?

Offre Référentiel d échange

PLAN DE COURS. Département de sociologie Université du Québec à Montréal

LA GESTION DES SOLUTIONS TECHNIQUES D ACCÈS

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

1 Introduction au codage

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Formation analyse des accidents du travail avec l arbre des causes

Module de sécurité Antivirus, anti-spam, anti-phishing,

Structure de base d un ordinateur

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Prévention des TMS-MS dans les entreprises de moins de 50 salariés. Dr Olivier PALMIERI

I. Objectifs de ce document : II. Le changement d architecture :

ARCHIVAGE DES BASES DE

Traitement numérique de l'image. Raphaël Isdant

Carré parfait et son côté

VIRTUALISATION : MYTHES & RÉALITÉS

Regard sur hybridation et infogérance de production

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

Formula Negator, Outil de négation de formule.

La Banque Postale / CNP Assurances

Les Réseaux sans fils : IEEE F. Nolot

Economical présente un aperçu du projet de règlement sur la démutualisation des sociétés d assurances multirisques

"La santé des étudiants en 2013"

Le disque dur. Le disque dur est l'organe servant à conserver les données sous forme de dossiers de manière permanente.

LES DIFFÉRENTS FORMATS AUDIO NUMÉRIQUES

Introduction au datamining

Projet. Politique de gestion des documents et archives. Service du greffe (Avril 2012)

Arbres binaires de décision

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

White Paper - Livre Blanc

IFT2255 : Génie logiciel

LECON 2 : PROPRIETES DE L'AFFICHAGE Version aout 2011

Développement ebusiness

Datawarehouse and OLAP

RÉUNION D INFORMATION Jeudi 26 février 2015

PHPWEBSITE -Tutoriel image

Critères de qualité des projets

Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel

ENQUETE DE BRANCHE Prothésistes dentaires

et les Systèmes Multidimensionnels

Conservation des documents numériques

Chapitre V : La gestion de la mémoire. Hiérarchie de mémoires Objectifs Méthodes d'allocation Simulation de mémoire virtuelle Le mapping

ANNEXE 1 LA BASE DE DONNEES 1

DÉMATÉRIALISATION DES DOCUMENTS ET AUTOMATISATION DES PROCESSUS UN PREMIER PAS VERS LA BANQUE SANS PAPIER

NF26 Data warehouse et Outils Décisionnels Printemps 2010

Université de Bangui. Modélisons en UML

4D v11 SQL Release 5 (11.5) ADDENDUM

ENQUÊTE SUR LA PRÉVENTION DES RISQUES PROFESSIONNELS

«Bases de données géoréférencées pour la gestion agricole et environnementale en Roumanie»

Créer le schéma relationnel d une base de données ACCESS

Business Intelligence avec SQL Server 2014 Maîtrisez les concepts et réalisez un système décisionnel

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Transcription:

Classification non supervisée multi-stratégie http://lsiit.u-strasbg.fr/afd Pierre Gançarski Cédric Wemmert

Le problème Données de plus en plus complexes Différents types (numérique, symbolique, hétérogène ) Différentes origines (sources différentes) Différents domaines d analyse 2

Le problème Données de plus en plus complexes Différents types (numérique, symbolique, hétérogène ) Différentes origines (sources différentes) Différents domaines d analyse Méthodes nombreuses Différentes familles de classifieurs Différentes méthodes dans une même famille Nombreux paramètres par méthode 3

Le problème Données de plus en plus complexes Différents types (numérique, symbolique, hétérogène ) Différentes origines (sources différentes) Différents domaines d analyse Méthodes nombreuses Différentes familles de classifieurs Différentes méthodes dans une même famille Nombreux paramètres par méthode Comment aider l utilisateur? 4

Image SPOT : 200*250 / 3 bandes sur 1 octet Un exemple Quelle(s) méthode(s) choisir pour extraire les classes de pixels de cette image? 5

Le problème Comment aider l utilisateur dans son choix de la méthode en fonction : des données manipulées (symbolique vs numérique) du «type» du résultat (hiérarchie vs partitionnement) 6

Le problème ou Kmeans - acuité 3,5 - K = 20 Cobweb 20 classes 23 classes 7

Le problème Comment aider l utilisateur dans son choix de la méthode en fonction : des données manipulées (symbolique vs numérique) du «type» du résultat (hiérarchie vs partitionnement) des paramètres de la méthode exemple : nombre de classes, acuité 8

Le problème Cobweb : influence de l acuité - acuité 1 - acuité 3,5 23 classes 73 classes 9

Le problème Kmeans : influence du nombre de classes - K =5 - K = 20 10

Le problème Comment aider l utilisateur dans son choix de la méthode suivant : les données manipulées (symbolique vs numérique) le «type» du résultat (hiérarchie vs partitionnement) des paramètres de la méthode Ex : nombre de classes, acuité Une possibilité : apprentissage guidé Mais 11

Notre proposition Les méthodes sont (dans une certaine mesure) complémentaires Sur leurs types de données de prédilection Sur la structures de leurs résultats Notre proposition : offrir à l utilisateur le meilleur de chacune des méthodes 12

Notre proposition Offrir à l utilisateur le meilleur de chacune des méthodes L utilisateur au lieu d un seul résultat dispose du résultat de plusieurs méthodes pouvant être différents mais mutuellement «optimisés» Hiérarchie élaguée automatiquement Nombre de classes évoluant dynamiquement L utilisateur dispose en plus d un résultat unifiant 13

Notre proposition Offrir à l utilisateur le meilleur de chacune des méthodes L utilisateur dispose de résultats mutuellement optimisés et d un résultat unifiant Avec un critère d optimisation indépendant des méthodes utilisées : intervalle pour K, critère intra-classes. 14

Notre proposition Offrir à l utilisateur le meilleur de chacune des méthodes L utilisateur dispose de résultats mutuellement optimisés et d un résultat unifiant Avec un critère d optimisation indépendant des méthodes utilisées : intervalle pour K, critère intra-classes. et utilisation possible de plusieurs sources de données : De même nature (ex : images à même résolution) Ou hétérogènes : «découpage» des données et affectation aux méthodes en fonction de leur nature 15

combinaison de classifieurs Première approche Méthode 3 Méthode 2 Méthode 1 combinaison multi-étapes 16

mécanisme d unification Méthode 1 Méthode 2 Méthode 3 combinaison de classifieurs Deuxième approche combinaison multi-experts 17

combinaison de classifieurs méthodologie employée multi-experts : classifications en parallèle puis unification des résultats multi-étapes : classifications en série méthodes différentes mono-stratégie : plusieurs occurrences d une même méthode sont utilisées multi stratégies : plusieurs occurrences de plusieurs méthodes sont utilisées 18

combinaison de classifieurs nature des données uni-représentationnelle : toutes les méthodes utilisent les mêmes données pour réaliser leurs classifications multi-représentationnelle : les méthodes utilisent des jeux de données différents ex : télédétection (radiométrie, radar, photo, ) 19

Classification non supervisée multi-stratégie Notre proposition : classification multi-experts multi stratégies multi-représentationnelle principe retenu : faire collaborer différentes méthodes de classification de natures différentes afin qu elles proposent des résultats «similaires» système d apprentissage multi-agent par raffinement automatique de hiérarchies 20

cobweb SOM kmeans kmeans Classification non supervisée multi-stratégie 21

kmeans Classification non supervisée multi-stratégie cobweb SOM kmeans «négociation» 22

cobweb SOM kmeans kmeans Classification non supervisée multi-stratégie 23

cobweb SOM kmeans kmeans Classification non supervisée multi-stratégie 24

kmeans vote kmeans SOM Classification non supervisée multi-stratégie cobweb résultat unifiant 25

La méthode Trois phases Classifications initiales Raffinement Unification 26

La méthode Trois phases Classifications initiales Raffinement : Détection de conflits Résolution locale des conflits Prise en compte globale des résolutions locales Unification 27

La méthode Trois phases Classifications initiales Raffinement : Détection de conflits Résolution locale des conflits Prise en compte globale des résolutions locales Unification 28

Exemple classification 1 C2 classification 2 C1 C2 C1 C4 C3 C3 C6 C4 C5 29

La méthode Trois phases Classifications initiales Raffinement : Détection de conflits : Taux conflit T (C, Cl ) = 1 ω Similarité locale i k ω i, j k j =ρ α i, j k i, j k j,i km,k avec Cl = corresp j (C ) avec α j j,i km,k = max{α i k j,i l,k : l } nj Coefficient de répartition local ρ ki, j = (α ki,,lj ) 2 l =1 30

La méthode classification 1 C1 classification 2 C2 C1 C4 C3 ω 32,1 = 0.8 C4 C5 C2 C3 C6 C3 de R2 est très similaire à sa classe corresp. C2 de R1 31

La méthode classification 1 C1 C3 ω 62,1 = 0.17 classification 2 C2 C4 C1 C2 C4 C3 C5 C6 C6 de R2 est peu similaire à sa classe corresp. C4 de R1 32

La méthode Trois phases Classifications initiales Raffinement : Détection de conflits Résolution locale des conflits : scission d une classe fusion de plusieurs classes suppression d une classe et reclassement 33

La méthode Mais cette résolution n a-t-elle pas dégradé la solution locale (effet «red queen»)? 34

La méthode Trois phases Classifications initiales Raffinement : Détection de conflits Résolution locale des conflits :: application d opérateurs choix des résultats : γ i, j qualité «interne» des résultats : δ similitude locale des résultats : ω 1 1 = ps 2 ni ni 1 i, j ω + k nj k =1 ω + pq δ i + δ k =1 nj j,i k ( j ) avec p + p = 1 s q 35

La méthode 1 1b 2 γ 1 1, 2 2 γ 1b,2 = 0,51 = 0,49 1b 2b 2b γ 1, 2b = 0,61 γ 1b,2b = 0,47 36

La méthode mais cette résolution ne dégrade-t-elle pas le résultat global? On ne garde que les résultats de résolution de conflit qui améliore le résultat global Deux aspect sà prendre en compte : la convergence des résultats la «qualité» du résultat 37

La méthode Mais cette résolution ne dégrade-t-elle pas la solution globale? On ne garde les résultats de résolution de conflit qui améliore le résultat global (en admettant des chutes temporaires de la qualité globale) Deux aspects à prendre en compte : la convergence des résultats la «qualité» du résultat 38

La méthode Trois phases Classifications initiales Raffinement : Détection de conflits Résolution locale des conflits Prise en compte globale des résolutions locales Γ = cγ.γ1 +cq.q Avec similitude globale M M 1 i, j Γ1 = γ M ( M 1) i =1 j =1, j i 39

La méthode Trois phases Classifications initiales Raffinement : Détection de conflits Résolution locale des conflits Prise en compte globale des résolutions locales Unification : Un méthode de vote adaptée car il n y a pas nécessairement bijection entre les classes des résultats 40

Classification non supervisée multi-stratégie Enfin des exemples. 41

Exemple Image SPOT : 200*250 / 3 bandes sur 1 octet 42

Exemple Γ = 0,36 agent 1 - k-means - 5 noyaux agent 2 - k-means - 20 noyaux agent 3 - cobweb - acuité 3,5 agent 4 - cobweb - acuité 1-5 classes - 20 classes - 23 classes - 73 classes Γ 1 = 0,35 Γ 2 = 0,39 Γ 3 = 0,38 Γ 4 = 0,33 43

Exemple avant : 15raffinement classes 15 classes Pixels non consensuels 44

Exemple Γ = 0,55 agent 1 - k-means agent 2 - k-means agent 3 - cobweb agent 4 - cobweb - 13 classes - 12 classes - 6 classes - 12 classes Γ 1 = 0,56 Γ 2 = 0,58 Γ 3 = 0,48 Γ 4 = 0,59 45

Exemple après raffinement : 10 classes Pixels non consensuels 46

Exemple 47

Exemple classification initiale régions construites 48

Exemple Fusion/agrégation de régions 49

Exemple On construit l histogramme des régions incluses Région verte : composée de 3 classes différentes 89 pixels 1 pixel 7 pixels 50

Exemple on ré-applique une classification multistratégie 51

Exemple Classification initiale Classification des régions 52

Exemple Classification initiale Classification de régions 53

Exemple Classification initiale Classification de régions 54

Exemple 55

Exemple Γ = 0,31 agent 1 - kohonen - 4 neurones agent 2 - k-means - 8 noyaux agent 3 - cobweb - acuité 8-4 classes - 8 classes - 11 classes Γ 1 = 0,35 2 Γ = 0,30 Γ 3 = 0,28 56

Exemple Γ = 0,68 agent 1 - kohonen agent 2 - k-means agent 3 - cobweb - 5 classes - 5 classes - 5 classes Γ 1 = 0,73 Γ 2 = 0,72 Γ 3 = 0,60 57

Exemple classification automatique 6 classes classification par l expert 58

Conclusion Méthode de collaboration entre classifieurs Stabilité des résultats Convergence en fonction d'un critère indépendant de la méthode et de ses paramètres Résultat unifiant avec un «coefficient de confiance» mais Coût CPU Ratio entre : Qualité interne des classes Similitude entre les résultats Qualité globale du résultats à déterminer en fonction de l application 59

Perspectives Intégration d'un critère de qualité dépendant du domaine d'application et des connaissances a priori disponibles Introduction de la sémantique dans le processus de classification Au niveau «image» Classification multi-image : plusieurs représentation pour un objet Classification multi-résolution : comparaison entre des classification sur des objets différents mais représentant une même réalité 60

Classification non supervisée multi-stratégie merci c est fini, vous pouvez reprendre une activité normale 61