Rmixmod Le package R de MIXMOD R



Documents pareils
Introduction au Data-Mining

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Introduction au Data-Mining

La classification automatique de données quantitatives

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab

Création d installateurs pour Windows avec InnoSetup

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Linux embarqué: une alternative à Windows CE?

Apprentissage Automatique

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Classification non supervisée

Les services de la PLM Mathrice. Et quelques outils de web-conférence

21 mars Simulations et Méthodes de Monte Carlo. DADI Charles-Abner. Objectifs et intérêt de ce T.E.R. Générer l'aléatoire.

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Travaux pratiques avec RapidMiner

Logiciel XLSTAT version rue Damrémont PARIS

Laboratoire 4 Développement d un système intelligent

Arbres binaires de décision

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Pourquoi l apprentissage?

LABO 5 ET 6 TRAITEMENT DE SIGNAL SOUS SIMULINK

STATISTIQUES. UE Modélisation pour la biologie

Sybase PowerAMC 16. Guide des nouvelles fonctionnalités générales. DOCUMENTATION

Méthodes de Simulation

CRM pour le Service clients et l Assistance technique

PROBABILITES ET STATISTIQUE I&II

Calcul Scientifique avec 3

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Offre Référentiel d échange

Mesure agnostique de la qualité des images.

NOVA BPM. «Première solution BPM intégr. Pierre Vignéras Bull R&D

Examen de Logiciels Statistiques

Introduction à MATLAB R

as Architecture des Systèmes d Information

Logiciel Libre Cours 3 Fondements: Génie Logiciel

Soutenance de stage Laboratoire des Signaux et Systèmes

Expérience 3 Formats de signalisation binaire

Master CCI. Compétences Complémentaires en Informatique. Livret de l étudiant

Supervision système et réseau avec Zabbix. Anne Facq Centre de Recherche Paul Pascal 17 avril 2008

Les algorithmes de fouille de données

Nos webmasters, web designers et ingénieurs de développement vous accompagnent dans vos projets afin de vous apporter entière satisfaction.

Probabilités Loi binomiale Exercices corrigés

Votre solution professionnelle Open Source pour archiver, trouver, gérer, partager... tous vos fichiers multimédia!

Plateforme AnaXagora. Guide d utilisation

Présentation et installation PCE-LOG V4 1-5

Analyse en Composantes Principales

Teste et mesure vos réseaux et vos applicatifs en toute indépendance

Simulation de variables aléatoires

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

IBM SPSS Regression 21

Business Intelligence avec Excel, Power BI et Office 365

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

1. Développement embarqué. André KPOZEHOUE DOMAINES DE COMPETENCES CONNAISSANCES TECHNIQUES

Toute la puissance de DoYouBuzz pour votre école. Présentation de DoYouBuzz Campus

UN PROCEDE DE SUPERVISION ET TELESURVEILLANCE A DISTANCE : UN OUTIL PEDAGOGIQUE FAVORISANT L INITIATION AU TRAVAIL DE GROUPE

Gènes Diffusion - EPIC 2010

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Projet de mise en place de l Enquête Emploi du temps en Algérie

L externalisation de vos logiciels entreprises : une solution aux problèmes de coûts, de sécurités et de réactivités

MCMC et approximations en champ moyen pour les modèles de Markov

Hypervision et pilotage temps réel des réseaux IP/MPLS

Détection des deux roues motorisés par télémétrie laser à balayage

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Comment IBM Maximo vous permet d'optimiser géographiquement vos actifs de production?

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

ArtemiS 12 HEAD Data Portal 2.0 HEAD Recorder

Comment gérer toutes mes tâches logicielles d automatisation dans un seul environnement?

Comment mettre en oeuvre une gestion de portefeuille de projets efficace et rentable en 4 semaines?

CRM PERFORMANCE CONTACT

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

INF6304 Interfaces Intelligentes

Introduction à la Programmation Parallèle: MPI

WordPress : principes et fonctionnement

MSP Center Plus. Vue du Produit

UTILISER UN SITE COLLABORATIF

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

DEMANDE D INFORMATION RFI (Request for information)

Loi binomiale Lois normales

1 Description générale de VISFIELD

Spécificités, Applications et Outils

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

OpenText Content Server v10 Cours (ex 101) L essentiel de la gestion des connaissances

PloneLabs un gestionnaire de contenu pour les laboratoires

Modèles pour données répétées

Outils de développement collaboratif

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Cours de Java. Sciences-U Lyon. Java - Introduction Java - Fondamentaux Java Avancé.

Stages de Formation en Statistique Appliquée et Logistique

Extraction d informations stratégiques par Analyse en Composantes Principales

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Diagnostic adaptatif d'un flux d'alarmes par méta diagnostic distribué Application à la détection d'intrusions dans un serveur Web

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Cours de méthodes de scoring

Présentation du logiciel

FusionInventory. Guillaume Rousse Journées francophones de Perl 2011

Compte-rendu re union Campus AAR 3 mars 2015

pythonocc: une plateforme de développement agile d applications CAO.

Transcription:

Rmixmod Le package R de MIXMOD R MIXMOD Rencontres R 2012 - Bordeaux Florent Langrognet Laboratoire de Mathématiques de Besançon F. Langrognet () Rmixmod Juillet 2012 1 / 41

Rmixmod 1 Contexte Le projet Mixmod Principales fonctionnalités Composants logiciels Mixmod 2 Rmixmod Vue d ensemble Classification non supervisée Classification supervisée 3 Perspectives F. Langrognet () Rmixmod Juillet 2012 2 / 41

Rmixmod 1 Contexte Le projet Mixmod Principales fonctionnalités Composants logiciels Mixmod 2 Rmixmod Vue d ensemble Classification non supervisée Classification supervisée 3 Perspectives F. Langrognet () Rmixmod Juillet 2012 3 / 41

Rmixmod : le package R de Mixmod Architecture Avantages Atouts de R Environnement R reconnu, efficace et apprécié Interface avec d autres packages Outils de visualisation Atouts de mixmodlib (C++) Développée depuis 2001 Largement diffusée, et utilisée Eprouvée, robuste, rapide F. Langrognet () Rmixmod Juillet 2012 4 / 41

Rmixmod 1 Contexte Le projet Mixmod Principales fonctionnalités Composants logiciels Mixmod 2 Rmixmod Vue d ensemble Classification non supervisée Classification supervisée 3 Perspectives F. Langrognet () Rmixmod Juillet 2012 5 / 41

MIXMOD Fiche d identité Projet débuté en 2001 Compétences complémentaires en informatique et statisitiques Diffusion : www.mixmod.org Licence : GNU GPL Rencontres Mixmod Forum d utilisateurs, accompagnement, demandes d évolutions,... F. Langrognet () Rmixmod Juillet 2012 6 / 41

Rmixmod 1 Contexte Le projet Mixmod Principales fonctionnalités Composants logiciels Mixmod 2 Rmixmod Vue d ensemble Classification non supervisée Classification supervisée 3 Perspectives F. Langrognet () Rmixmod Juillet 2012 7 / 41

Fonctionnalités (1) Problématiques traitées Classification non supervisée Classification supervisée (analyse discriminante) Estimation de densité Cadre de travail - Type de données traitées Modèles de mélanges Gaussiens (données quantitatives) Multinomiaux (données qualitatives) Modèles spécifiques pour les données en grande dimension F. Langrognet () Rmixmod Juillet 2012 8 / 41

Fonctionnalités (2) Modèles et métriques Données quantitatives 14 modèles gaussiens basés sur la décomposition en valeur sigulière de la matrice de variance Données quantitatives en grande dimension 8 modèles spécifiques pour la grande dimension Données qualitatives 5 modèles multinomiaux basés sur une reparamétrisation de la distribution de Bernoulli F. Langrognet () Rmixmod Juillet 2012 9 / 41

Fonctionnalités (3) Algorithmes Maximisation de la vraisemblance (ou vraisemblance complétée) EM (Expectation Maximisation) SEM (Stochatitic EM) CEM (Classification EM) Critères BIC (Bayesian Information Criterion) ICL (Integrated Completed Likelihood) NEC (Normalized Entropy Criterion) CV (Cross Validation) Initialisations et Stratégies 6 initialisations Ex : random, short runs of EM,... Algorithmes chaînés Ex : 100 iterations de SEM puis 50 iterations de EM Et aussi... Connaissance partielle des labels des individus (semi-supervisé) Individus pondérés F. Langrognet () Rmixmod Juillet 2012 10 / 41

Rmixmod 1 Contexte Le projet Mixmod Principales fonctionnalités Composants logiciels Mixmod 2 Rmixmod Vue d ensemble Classification non supervisée Classification supervisée 3 Perspectives F. Langrognet () Rmixmod Juillet 2012 11 / 41

L ensemble logiciel MIXMOD (1) mixmodlib Bibliothèque de calcul Rapide, robuste, éprouvée Ensemble de classes C++ Env. 500 téléchargements par an depuis 2001 F. Langrognet () Rmixmod Juillet 2012 12 / 41

L ensemble logiciel MIXMOD (2) mixmodgui Interface graphique Conviviale Entrées/Sorties XML Utilisation des bibilothèques QT et Qwt Disponible depuis 2011 env. 500 téléchargements sur un an F. Langrognet () Rmixmod Juillet 2012 13 / 41

L ensemble logiciel MIXMOD (3) mixmodformatlab Package pour Matlab Interface de mixmodlib pour Matlab Ensemble de fonctions Matlab : Classification supervisée et non supervisée Outils de visualisation Disponible depuis 2003 env. 300 téléchargements par an F. Langrognet () Rmixmod Juillet 2012 14 / 41

L ensemble logiciel MIXMOD (4) Rmixmod Package pour R Interface de mixmodlib pour R Ensemble de fonctions R : Classification supervisée et non supervisée Outils de visualisation Disponible depuis 2012 F. Langrognet () Rmixmod Juillet 2012 15 / 41

Rmixmod 1 Contexte Le projet Mixmod Principales fonctionnalités Composants logiciels Mixmod 2 Rmixmod Vue d ensemble Classification non supervisée Classification supervisée 3 Perspectives F. Langrognet () Rmixmod Juillet 2012 16 / 41

Rmixmod 1 Contexte Le projet Mixmod Principales fonctionnalités Composants logiciels Mixmod 2 Rmixmod Vue d ensemble Classification non supervisée Classification supervisée 3 Perspectives F. Langrognet () Rmixmod Juillet 2012 17 / 41

Rmixmod Architecture F. Langrognet () Rmixmod Juillet 2012 18 / 41

Classes - Fonctions Classes Rmixmod Fonctions Rmixmod F. Langrognet () Rmixmod Juillet 2012 19 / 41

Rmixmod 1 Contexte Le projet Mixmod Principales fonctionnalités Composants logiciels Mixmod 2 Rmixmod Vue d ensemble Classification non supervisée Classification supervisée 3 Perspectives F. Langrognet () Rmixmod Juillet 2012 20 / 41

Classification non supervisée mixmodcluster mixmodcluster(data, nbcluster, datatype=null, models=null, strategy=mixmodstrategy(), criterion= BIC, weight=null, knownlabels=null) Entrées data (matrice ou data frame) nbcluster (vecteur d entiers) datatype (chaîne de caractères) models : liste des modèles gaussiens ou multinomiaux (objet [Model]) strategy : stratégie Mixmod (initialisation + algorithme) (objet [Strategy]) criterion : liste de critères de sélection (chaîne de caractères) weight : vecteur de poids knownlabels : vecteur des labels connus Sortie : Un objet [MixmodCluster] Contenant notamment 2 objets [MixmodResults] : bestresult : le meilleur modède results : liste des modèles triés (selon le 1 er crtière) F. Langrognet () Rmixmod Juillet 2012 21 / 41

Classification non supervisée Illustration Geyser (données quantitatives) F. Langrognet () Rmixmod Juillet 2012 22 / 41

Illustration 1 Commandes Rmixmod F. Langrognet () Rmixmod Juillet 2012 23 / 41

Illustration 1 Plot F. Langrognet () Rmixmod Juillet 2012 24 / 41

Plusieurs modèles et plusieurs critères Commandes Rmixmod F. Langrognet () Rmixmod Juillet 2012 25 / 41

Illustration 1 bis plot (3 classes) F. Langrognet () Rmixmod Juillet 2012 26 / 41

Illustration 1 bis Tri selon ICL F. Langrognet () Rmixmod Juillet 2012 27 / 41

Illustration 1 bis plot (2 classes) 2 classes F. Langrognet () Rmixmod Juillet 2012 28 / 41

Rmixmod 1 Contexte Le projet Mixmod Principales fonctionnalités Composants logiciels Mixmod 2 Rmixmod Vue d ensemble Classification non supervisée Classification supervisée 3 Perspectives F. Langrognet () Rmixmod Juillet 2012 29 / 41

Classification supervisée : 1 re étape mixmodlearn mixmodlearn(data, knownlabels, datatype=null, models=null, criterion= CV, nbcvblocks=10, weight=null) Entrées data : échantillon d apprentissage (matrice ou data frame) knownlabels : étiquettes de l échantillon d apprentissage (vecteur d entiers) datatype (chaîne de caractères) models : liste des modèles gaussiens ou multinomiaux (objet [Model]) criterion : liste de critères de sélection (chaîne de caractères nbcvblocks : nombre de blocs pour la Validation Croisée weight : vecteur de poids Sortie : Un objet [MixmodLearn] Contenant notamment 2 objets [MixmodResults] : bestresult : le meilleur modède results : liste des modèles triés (selon le 1 er crtière) F. Langrognet () Rmixmod Juillet 2012 30 / 41

Classification supervisée : 2 e étape mixmodpredict mixmodpredict(data, classificationrule) Entrées data : individus à classer (matrice ou data frame) classificationrule : règle de classement issue de l étape mixmodlearn (objet [MixmodResults]) Sortie : Un objet [MixmodPredict] avec : labels : labels obtenus par la règle de classement proba : probabilité d appartenance à chaque classe F. Langrognet () Rmixmod Juillet 2012 31 / 41

Classification supervisée Illustration (données qualitatives) : puffins variable nombre de valeurs niveaux de réponse sexe 2 mâle, femelle sourcils 5 absent -> très prononcé collier 6 absent -> continu sous-caudales 5 blanc, noir, noir&blanc, noir&blanc, NOIR&blanc liseret 4 absent,..., beaucoup F. Langrognet () Rmixmod Juillet 2012 32 / 41

Observations Données Nombre d individus : n = 69 Nombre d espèces (classes) : K = 2 Nombre de variables : d = 5 Individu i : (x i, z i ) = ((x j i ) j=1,...,d, z i ) n o z i xi 1 xi 2 xi 3 xi 4 xi 5 1 1 1 2 2 2 2 2 1 2 1 3 3 1.. 68 2 1 4 1 2 1 69 2 1 3 1 2 1. F. Langrognet () Rmixmod Juillet 2012 33 / 41

Illustration 2 - Apprentissage Apprentissage (1) F. Langrognet () Rmixmod Juillet 2012 34 / 41

Illustration 2 - Apprentissage Apprentissage (2) F. Langrognet () Rmixmod Juillet 2012 35 / 41

Illustration 2 - Apprentissage Visualisation (1) F. Langrognet () Rmixmod Juillet 2012 36 / 41

Illustration 2 - Apprentissage Visualisation (2) F. Langrognet () Rmixmod Juillet 2012 37 / 41

Illustration 2 - Classement Classement F. Langrognet () Rmixmod Juillet 2012 38 / 41

Rmixmod 1 Contexte Le projet Mixmod Principales fonctionnalités Composants logiciels Mixmod 2 Rmixmod Vue d ensemble Classification non supervisée Classification supervisée 3 Perspectives F. Langrognet () Rmixmod Juillet 2012 39 / 41

Perspectives Perspectives Intégrer toutes les fonctionnalités actuelles de mixmodlib. Reste à faire : Initialisations PARAM (/USER) et LABEL Modèles Haute Dimension pour la classification supervisée... et les prochaines fonctionnalités Activer une communauté autour de Rmixmod Inciter les contributions Les idées, les contributions sont les bienvenues F. Langrognet () Rmixmod Juillet 2012 40 / 41

Rmixmod Ressources Site web : http ://www.mixmod.org Forum de discussion : https ://gforge.inria.fr/forum/forum.php?forum_id=10462 contact : contact@mixmod.org florent.langrognet@univ-fcomte.fr FIN Merci de votre attention F. Langrognet () Rmixmod Juillet 2012 41 / 41