MIXMOD. Un ensemble logiciel de classification des données par modèles de mélanges MIXMOD. F. Langrognet () MIXMOD Avril 2012 1 / 28



Documents pareils
Introduction au Data-Mining

Introduction au Data-Mining

Apprentissage Automatique

Classification non supervisée

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

La classification automatique de données quantitatives

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Introduction au datamining

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

PROBABILITES ET STATISTIQUE I&II

Arbres binaires de décision

Mesure agnostique de la qualité des images.

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

TABLE DES MATIERES. C Exercices complémentaires 42

CRM pour le Service clients et l Assistance technique

Offre Référentiel d échange

Sybase PowerAMC 16. Guide des nouvelles fonctionnalités générales. DOCUMENTATION

FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS

STATISTIQUES. UE Modélisation pour la biologie

Validation probabiliste d un Système de Prévision d Ensemble

DATA ANALYTICS Des données aux connaissances et à la création de valeur

Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

ArtemiS 12 HEAD Data Portal 2.0 HEAD Recorder

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Soutenance de stage Laboratoire des Signaux et Systèmes

Agenda de la présentation

DEMANDE D INFORMATION RFI (Request for information)

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Les algorithmes de fouille de données

ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

IBM SPSS Direct Marketing

Cours de méthodes de scoring

CRM pour le marketing

Formation GISEH Module rédacteur 7, 9 juin 5, 12 juillet 2011

Voulez-vous offrir le service libre-service bancaire ultime?

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Expérience 3 Formats de signalisation binaire

Les outils actuels permettent-ils d automatiser la production de cartes? De quels outils dispose-t-on?

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Algorithmes d'apprentissage

Devenir une banque relationnelle de référence : pourquoi et comment?

IBM SPSS Regression 21

CarrotAge, un logiciel pour la fouille de données agricoles

Base de données opérationnelle pour les phénomènes PAN Commission SIGMA 2 - AAAF

MCMC et approximations en champ moyen pour les modèles de Markov

Méthodes de Simulation

Lois de probabilité. Anita Burgun

DESCRIPTION DES PRODUITS ET MÉTRIQUES

Projet de mise en place de l Enquête Emploi du temps en Algérie

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Toute la puissance de DoYouBuzz pour votre école. Présentation de DoYouBuzz Campus

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Outils pour les réseaux de neurones et contenu du CD-Rom

Reconnaissance du locuteur

Extraction d informations stratégiques par Analyse en Composantes Principales

Probabilités Loi binomiale Exercices corrigés

Catalogue Formation «Vanilla»

WHITE PAPER Une revue de solution par Talend & Infosense

Travailler avec les télécommunications

1. Développement embarqué. André KPOZEHOUE DOMAINES DE COMPETENCES CONNAISSANCES TECHNIQUES

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Sélection du Reader s Digest ajoute un nouveau chapitre au marketing direct personnalisé à l aide du Lab 1:1 de Xerox

Scénario: Données bancaires et segmentation de clientèle

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Simulation de variables aléatoires

Nos webmasters, web designers et ingénieurs de développement vous accompagnent dans vos projets afin de vous apporter entière satisfaction.

CRM pour le marketing

Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies

Calcul Scientifique avec 3

Diagnostic adaptatif d'un flux d'alarmes par méta diagnostic distribué Application à la détection d'intrusions dans un serveur Web

Hypervision et pilotage temps réel des réseaux IP/MPLS

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Comment gérer toutes mes tâches logicielles d automatisation dans un seul environnement?

RGROSS R.GROSS 11/09/2007

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Relation entre deux variables : estimation de la corrélation linéaire

Démarrage avec Tableau Desktop

Modèles pour données répétées

L externalisation de vos logiciels entreprises : une solution aux problèmes de coûts, de sécurités et de réactivités

données en connaissance et en actions?

Système de gestion des données RAPIDComm 3.0 : la solution avancée de connectivité et de communication en biologie délocalisée

Introduction aux Logiciels libres

Méthodes d apprentissage statistique «Machine Learning»

Comment mettre en oeuvre une gestion de portefeuille de projets efficace et rentable en 4 semaines?

performance commerciale

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Salon Progiciels 2007 Conférence «La description visuelle des flux d information» Avec le témoignage de la société

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

Spécificités, Applications et Outils

Transcription:

MIXMOD Un ensemble logiciel de classification des données par modèles de mélanges MIXMOD F. Langrognet () MIXMOD Avril 2012 1 / 28

PLAN 1 La classification des données 2 MIXMOD, ensemble logiciel de classification par modèles de mélange Les modèles de mélanges L ensemble logiciel MIXMOD Fonctionnalités Perspectives F. Langrognet () MIXMOD Avril 2012 2 / 28

PLAN 1 La classification des données 2 MIXMOD, ensemble logiciel de classification par modèles de mélange Les modèles de mélanges L ensemble logiciel MIXMOD Fonctionnalités Perspectives F. Langrognet () MIXMOD Avril 2012 3 / 28

Classification des données Classer les individus Problématiques - Objectifs Trouver le bon nombre de classes Caractériser les classes proportion, moyenne, dispersion Définir une règle de classement à partir d un échantillon d apprentissage F. Langrognet () MIXMOD Avril 2012 4 / 28

Classification des données La question du nombre de classes 2 classes F. Langrognet () MIXMOD Avril 2012 5 / 28

Classification des données La question du nombre de classes 3 classes? F. Langrognet () MIXMOD Avril 2012 6 / 28

Classification des données La question du nombre de classes 4 classes? F. Langrognet () MIXMOD Avril 2012 7 / 28

Classification des données Pour qui? Large spectre de domaines concernés Génome, reconnaissance de formes, biologie, climatologie, marketing, finance, banque,... Exemples : Classification d actifs financiers Segmentation de clientèle F. Langrognet () MIXMOD Avril 2012 8 / 28

PLAN 1 La classification des données 2 MIXMOD, ensemble logiciel de classification par modèles de mélange Les modèles de mélanges L ensemble logiciel MIXMOD Fonctionnalités Perspectives F. Langrognet () MIXMOD Avril 2012 9 / 28

PLAN 1 La classification des données 2 MIXMOD, ensemble logiciel de classification par modèles de mélange Les modèles de mélanges L ensemble logiciel MIXMOD Fonctionnalités Perspectives F. Langrognet () MIXMOD Avril 2012 10 / 28

Mixmod : un logiciel de classification des données Les modèles de mélange (1) Traitement de données quantitatives (lois gaussiennes) données qualitatives (lois multinomiales) F. Langrognet () MIXMOD Avril 2012 11 / 28

Mixmod : un logiciel de classification des données Les modèles de mélange (2) Une approche probabiliste pour répondre à des questions clés Choix du modèle / nombre de classes Critères basés sur la notion de vraisemblance et prise en compte d objectifs (ex : classes bien séparées) Mesurer la probabilité d appartenance des individus aux classes Caractériser les classes (proportion, individu moyen, dispersion) F. Langrognet () MIXMOD Avril 2012 12 / 28

La question de la métrique Quelle métrique? F. Langrognet () MIXMOD Avril 2012 13 / 28

La question de la métrique Métrique sphérique F. Langrognet () MIXMOD Avril 2012 14 / 28

La question de la métrique Avec une métrique adaptée F. Langrognet () MIXMOD Avril 2012 15 / 28

Mixmod : un logiciel de classification des données Modèles et métriques Données quantitatives 14 modèles gaussiens basés sur la décomposition en valeur sigulière de la matrice de variance Données quantitatives en grande dimension 8 modèles spécifiques pour la grande dimension Données qualitatives 5 modèles multinomiaux basés sur une reparamétrisation de la distribution de Bernoulli F. Langrognet () MIXMOD Avril 2012 16 / 28

PLAN 1 La classification des données 2 MIXMOD, ensemble logiciel de classification par modèles de mélange Les modèles de mélanges L ensemble logiciel MIXMOD Fonctionnalités Perspectives F. Langrognet () MIXMOD Avril 2012 17 / 28

MIXMOD Fiche d identité Ensemble logiciel adossé à un projet de recherche Compétences complémentaires en informatique et statisitiques Diffusion : www.mixmod.org Licence : GNU GPL et autre si besoin (ex : intégration) Rencontres Mixmod Relation enrichissante avec les utilisateurs et intégrateurs Accompagnement, demandes d évolutions,... F. Langrognet () MIXMOD Avril 2012 18 / 28

L ensemble logiciel MIXMOD (1) mixmodlib Bibliothèque de calcul Rapide, robuste, éprouvée Ensemble de classes C++ Env. 500 téléchargements par an depuis 2001 GNU GPL ou adaptée aux besoins Intégration possible dans un logiciel non GNU GPL Possibilité d avoir une autre licence Aide à l intégration F. Langrognet () MIXMOD Avril 2012 19 / 28

L ensemble logiciel MIXMOD (2) mixmodgui Interface graphique Conviviale Entrées/Sorties XML Utilisation des bibilothèques QT et Qwt Disponible depuis 2011 env. 500 téléchargements sur un an Licence GNU GPL F. Langrognet () MIXMOD Avril 2012 20 / 28

L ensemble logiciel MIXMOD (3) mixmodformatlab Package pour Matlab Interface de mixmodlib pour Matlab Ensemble de fonctions Matlab : Classification supervisée et non supervisée Outils de visualisation Disponible depuis 2003 env. 300 téléchargements par an Licence GNU GPL F. Langrognet () MIXMOD Avril 2012 21 / 28

L ensemble logiciel MIXMOD (4) Rmixmod Package pour R Interface de mixmodlib pour R Ensemble de fonctions R : Classification supervisée et non supervisée Outils de visualisation Disponible depuis 2012 Licence GNU GPL F. Langrognet () MIXMOD Avril 2012 22 / 28

PLAN 1 La classification des données 2 MIXMOD, ensemble logiciel de classification par modèles de mélange Les modèles de mélanges L ensemble logiciel MIXMOD Fonctionnalités Perspectives F. Langrognet () MIXMOD Avril 2012 23 / 28

Fonctionnalités (1) Problématiques traitées Classification non supervisée Classification supervisée (analyse discriminante) Estimation de densité Cadre de travail - Type de données traitées Modèles de mélanges Gaussiens (données quantitatives) Multinomiaux (données qualitatives) Modèles spécifiques pour les données en grande dimension F. Langrognet () MIXMOD Avril 2012 24 / 28

Fonctionnalités (2) Algorithmes Maximisation de la vraisemblance (ou vraisemblance complétée) EM (Expectation Maximisation) SEM (Stochatitic EM) CEM (Classification EM) Critères BIC (Bayesian Information Criterion) ICL (Integrated Completed Likelihood) NEC (Normalized Entropy Criterion) CV (Cross Validation) Initialisations et Stratégies 6 initialisations Ex : random, short runs of EM,... Algorithmes chaînés Ex : 100 iterations de SEM puis 50 iterations de EM Et aussi... Connaissance partielle des labels des individus (semi-supervisé) Individus pondérés F. Langrognet () MIXMOD Avril 2012 25 / 28

PLAN 1 La classification des données 2 MIXMOD, ensemble logiciel de classification par modèles de mélange Les modèles de mélanges L ensemble logiciel MIXMOD Fonctionnalités Perspectives F. Langrognet () MIXMOD Avril 2012 26 / 28

Perspectives Evolutions informatiques Perspectives Travail de fond sur les 4 produits Travail spécifique sur mixmodlib Performances Interfaçage plus aisé Traitement de très gros jeux de données Nouvelles fonctionnalités Données hétérogènes (quantitatives/qualitatives) Données manquantes Données bruitées Classification croisée Encore plus de support, d accompagnement Utilisateurs finaux Intégrateurs F. Langrognet () MIXMOD Avril 2012 27 / 28

MIXMOD, ensemble logiciel de classification des données par modèles de mélanges MIXMOD FIN F. Langrognet () MIXMOD Avril 2012 28 / 28