WEKA, un logiciel libre d apprentissage et de data mining



Documents pareils
Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Travaux pratiques avec RapidMiner

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

INF6304 Interfaces Intelligentes

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

1 Modélisation d être mauvais payeur

La classification automatique de données quantitatives

Cours de méthodes de scoring

Application de K-means à la définition du nombre de VM optimal dans un cloud

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Bouzerda Feriel- Hadjira Louati Mortadha Maâtallah Amine

Introduction aux Statistiques et à l utilisation du logiciel R

Spécificités, Applications et Outils

F1 Security Requirement Check List (SRCL)

Validation probabiliste d un Système de Prévision d Ensemble

AGROBASE : un système de gestion de données expérimentales

Comment Définir une Plage de données Pour Utiliser Fonctions de Filtres et de Tris

Extraction d informations stratégiques par Analyse en Composantes Principales

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

Introduction au Data-Mining

MCMC et approximations en champ moyen pour les modèles de Markov

TangibleData. Manipulation tangible et multitouch de bases de données

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Data Mining. Master 1 Informatique - Mathématiques UAG

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

BIRT (Business Intelligence and Reporting Tools)

IBM System i. DB2 Web Query for System i : le successeur de Query/400? Oui, mais bien plus!!!

Algorithmes d'apprentissage

données en connaissance et en actions?

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Arbres binaires de décision

TANAGRA : un logiciel gratuit pour l enseignement et la recherche

WEB page builder and server for SCADA applications usable from a WEB navigator

Laboratoire 4 Développement d un système intelligent

10 mn pour se connecter à un fichier Excel. Pas à Pas.

Exemple PLS avec SAS

Once the installation is complete, you can delete the temporary Zip files..

De la mesure à l analyse des risques

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Lois de probabilité. Anita Burgun

MEMORANDUM POUR UNE DEMANDE DE BOURSE DE RECHERCHE DOCTORALE DE LA FONDATION MARTINE AUBLET

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Introduction à l approche bootstrap

Introduction au datamining

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Jérôme FESSY. IUT de Paris 5. Base de Données. Cours Introductif. Base de Données

MEMORANDUM POUR UNE DEMANDE DE BOURSE DE RECHERCHE DOCTORALE DE LA FONDATION MARTINE AUBLET

Wealth Effect on Labor Market Transitions

Ricco Rakotomalala. SQL Server Data Mining Add-Ins (incluant Data Mining Client pour Excel).

WDpStats Procédure d installation

Comment Accéder à des Bases de Données MySQL avec Windows lorqu'elles sont sur un Serveur Linux

PROBABILITES ET STATISTIQUE I&II

OpenOffice.org Calc Ouvrir un classeur

Introduction à la présentation graphique avec xmgrace

Introduction au Data-Mining

Etude des propriétés empiriques du lasso par simulations

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Comment faire des étiquettes

Application Form/ Formulaire de demande

Tutoriel. Votre site web en 30 minutes

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Publications, ressources, liens, logiciels,

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

INTRODUCTION AU DATA MINING

De la mesure à l analyse des risques

8. Gestionnaire de budgets

Une méthode d apprentissage pour la composition de services web

GEIDE MSS /IGSS. The electronic document management system shared by the Luxembourg

Déploiement OOo en environnement Windows Terminal Server

Gestion obligataire passive

Transmission d informations sur le réseau électrique

TD d économétrie appliquée : Introduction à STATA

Tutoriel code::blocks

1 - Introduction : Déroulement du déploiement avec WDS / MDT :

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

Cours 1. I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Big Data et Graphes : Quelques pistes de recherche

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

Laboratoire d Automatique et Productique Université de Batna, Algérie

Forthcoming Database

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Préparer un état de l art

COURS DE MS EXCEL 2010

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

Économetrie non paramétrique I. Estimation d une densité

Face Recognition Performance: Man vs. Machine

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Transcription:

Approche Data Mining par WEKA WEKA, un logiciel libre d apprentissage et de data mining Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr Yves Lechevallier Dauphine 1 1

WEKA 3.4 : Plan Présentation de WEKA 3.4 Format ARFF WEKA Explorer WEKA Experiment Environment WEKA KnowledgeFlow Yves Lechevallier Dauphine 2 2

WEKA 3.4 Site WEB : http://www.cs.waikato.ac.nz/ml/weka/ Weka Machine Learning Project (GNU Public License) Format ARFF Beaucoup de méthodes de classification supervisées Quelques méthodes de classification automatiques Quelques méthodes de recherches de sous-ensembles fréquents Fichiers de résultats standardisés Yves Lechevallier Dauphine 3 3

WEKA 3.4 Le Site Yves Lechevallier Dauphine 4 4

WEKA 3.4 Documentation (1/2) Ian H. Witten and Eibe Frank (2005) "Data Mining: Practical machine learning tools and techniques", 2nd Edition, Morgan Kaufmann, San Francisco, 2005. Le livre Les auteurs Yves Lechevallier Dauphine 5 5

WEKA 3.4 Documentation (2/2) Documentation en ligne A presentation demonstrating all graphical user interfaces in Weka. (Warning: this is a large Powerpoint file.) Une présentation très bien faite. A lire avant de commencer. An introduction, written by Alex K. Seewald, to using Weka 3.4.4 from the command line. A lire pour les concepts de base A page documenting the ARFF data format used by Weka. A lire car c est le format d entrèe de Weka A page describing how to load your MS Access database into the Weka Explorer. Indispensable pour le monde Windows A page describing the use of XML in WEKA. pour le futur Yves Lechevallier Dauphine 6 6

GUI : Interfaces utilisateurs Yves Lechevallier Dauphine 7 7

Interface «ligne de commande» Yves Lechevallier Dauphine 8 8

Les concepts Un tableau des données ou une collection d exemples (dataset). Chaque ligne de ce tableau représente une observation qui est décrite par un vecteur (instance) Chaque colonne représente une variable (attribute) qui peut être quantitative (numeric), qualitative (nominal) ou textuelle (string). Yves Lechevallier Dauphine 9 9

Format ARFF, un exemple % 1. Title: Iris Plants Database % (a) Creator: R.A. Fisher % (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov) % (c) Date: July, 1988 @RELATION iris @ATTRIBUTE sepallength NUMERIC @ATTRIBUTE sepalwidth NUMERIC @ATTRIBUTE petallength NUMERIC @ATTRIBUTE petalwidth NUMERIC @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} Entête @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 5.4,3.9,1.7,0.4,Iris-setosa 4.6,3.4,1.4,0.3,Iris-setosa Les données Yves Lechevallier Dauphine 10 10

Format ARFF, l entête @RELATION iris Le nom du tableau de données @ATTRIBUTE sepallength NUMERIC @ATTRIBUTE sepalwidth NUMERIC @ATTRIBUTE petallength NUMERIC @ATTRIBUTE petalwidth NUMERIC Variables continues @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} Variable discrète Yves Lechevallier Dauphine 11 11

Format ARFF, Les données @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 5.4,3.9,1.7,0.4,Iris-setosa 4.6,3.4,1.4,0.3,Iris-setosa Le séparateur est la virgule. Si le nom d une modalité contient un blanc mettre entre guillemets Numérique Nominal Yves Lechevallier Dauphine 12 12

Explorer : Interface «utilisation des méthodes» Objectifs : Le Weka Explorer permet de lancer une méthode à partir d un fichier ARFF. Les résultats sont mis sous la forme d un fichier texte normalisé. Permet de sélectionner la méthode la mieux adaptée ou la plus efficace. Yves Lechevallier Dauphine 13 13

Explorer : Multiplot Sélection de la taille de l image, des variables de la grosseur des points Ne pas oublier Yves Lechevallier Dauphine 14 14

Explorer : Interface «utilisation des méthodes» (1) Lecture du tableau de données au format ARFF La dernière variable est la variable à prédire. Yves Lechevallier Dauphine 15 15

Explorer : Interface «utilisation des méthodes» (2) Choix de la méthode Visualize Select attribute Classify Cluster Associate (3) Les résultats Yves Lechevallier Dauphine 16 16

Règle de Bayes d erreur minimale x Y *( x) = k où k est telquepr( k / x) = maxpr( h / x) Cette définition est peu opérationnelle, en effet, on connaît rarement la probabilité d'un classement sachant une description. Théorème de Bayes π k = = L k Pr[ Y k] ( x) = Pr[ X = x / Y = Pr( k / x) = π k Lk ( x) L( x) k] est la densité de la classe k x Y *( x) = k où k est telquepr( k / x) = max L ( x) π k k Yves Lechevallier Dauphine 17 17

Les descriptions suivent une loi normale Le descripteur X des exemples est constitué de p descripteurs numériques et que sa distribution, conditionnellement aux classes, suit une loi normale multidimensionnelle centrée sur le vecteur μ k et de matrice de variance-covariance Σ. k La vraisemblance conditionnelle de X pour la classe k s'écrit alors L k ( x) = ( p ) (2 ) det 1 exp( 1 ( ) ( )) 2 1 t π Σ x μ Σ x μ k 2 k k k Yves Lechevallier Dauphine 18 18

Exemple Les variances et les probabilités a priori sont égales La taille moyenne des femmes est égale à 1,67 1.0 0.8 densité de deux lois normales de variances égales mu = 1.67, sigma = 0.1 F mu = 1.76, sigma = 0.1 H La taille moyenne des hommes est égale à 1,76 μ 1 =1,67 et μ 2 =1,76 densité -> 0.6 0.4 0.2 0.0 12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0 x -> L k (x) Yves Lechevallier Dauphine 19 19

Règle de Bayes Pr( k / x) = π k Lk ( x) L( x) Cette règle minimise le pourcentage de mauvais classement probabilité a posteriori 1.0 posteriori F posteriori H 0.8 densité -> 0.6 0.4 0.2 0.0 12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0 x -> Région de F Région de H Yves Lechevallier Dauphine 20 20

Construction d un tableau de confusion à partir d une fonction de décision densité de deux lois normales de variances égales densité -> 1.0 0.8 0.6 0.4 A mu = 1.67, sigma = 0.1 F mu = 1.76, sigma = 0.1 H C D Qualité de la décision : (A+D)/(A+B+C+D) 0.2 0.0 12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0 x -> Classes a priori F H B Classes d affectation R F R H A C B D Yves Lechevallier Dauphine 21 21

Qualité d un score Chaque sortie du réseau est associée à une classe a priori. L objectif est d analyser les scores de cette sortie Les exemples sont les observations de la classe a priori associée à cette sortie Les contre-exemples sont les observations des autres classes Yves Lechevallier Dauphine 22 22

courbe ROC (1/3) Receiver Operating Characteristic curve Pour un score s nous avons quatre comptages (A) Les Vrais Positifs sont les exemples ayant une valeur supérieure à s. (D) Les Vrais Négatifs sont les contre-exemples ayant une valeur inférieure à s. (B) Les Faux Négatifs sont les exemples ayant une valeur inférieure à s. (C) Les Faux Positifs sont les contre-exemples ayant une valeur supérieure à s. Yves Lechevallier Dauphine 23 23

Courbe ROC (2/3) On se fixe la classe a priori G et F est l ensemble des autres classes a priori La sensibilité du score s est égale à P[S>s/G], la sensibilité est le pourcentage de Vrais Positifs La spécificité du score s est égale à P[S<s/F], la spécificité est le pourcentage de Vrais Négatifs Yves Lechevallier Dauphine 24 24

Courbe ROC Groupe à détecter : H Quand le score augmente Prob -> 1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 specificite(x) sensibilite(x) la sensibilité diminue cela signifie que le % d exemples dépassant cette valeur diminue: A/(A+C) 0.20 0.10 0.00 1.2 1.3 1.5 1.6 1.7 1.8 2.0 2.1 2.2 Si s=1,6 on a 90% des exemples dépassent cette valeur et 40% des contre-exemples sont en dessous de cette valeur x -> La spécificité augmente cela signifie que le % de contreexemples en dessous de cette valeur augmente: D/(B+D) Yves Lechevallier Dauphine 25 25

Courbe ROC L k (x) 1.0 0.8 densité de deux lois normales de variances égales mu = 1.67, sigma = 0.1 F mu = 1.76, sigma = 0.1 H densité -> 0.6 0.4 0.2 Sensibilité=VP 0.0 12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0 x -> Spécificité=VN Yves Lechevallier Dauphine 26 26

Courbe ROC : interprétation La diagonale représente la courbe ROC d un échantillon d exemples et contreexemples complètement mélangés La courbe ROC de gauche est celle de notre exemple (μ 1 =1,67 et μ 2 =1,76) La courbe ROC de droite est celle obtenue avec μ1=1,57 et μ 2 =1,86 Courbe ROC Courbe ROC 1.00 ROC 1.00 ROC 0.90 0.90 0.80 0.80 0.70 0.70 0.60 0.60 sensibilite 0.50 0.40 sensibilite 0.50 0.40 0.30 0.30 0.20 0.20 0.10 0.10 0.00 0.00 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-specificite 1-specificite La surface entre la diagonale et la courbe ROC est une mesure de séparabilité des exemples avec les contre-exemples. Yves Lechevallier Dauphine 27 27

F-mesure : évaluation externe L'évaluation de la qualité des classes d affectation C i générées par la méthode de classement est basée sur sa comparaison avec les classes a priori U k n ki est le nombre d exemples classées dans la classe U k et ayant été affectés au groupe C i obtenu par la méthode de classification. n k. est le nombre d exemples mises dans la classe a priori U k n.i est le nombre d exemples de la classe C i n est le nombre d exemples. Yves Lechevallier Dauphine 28 28

F mesure La F-measure combine les mesures de précision et de rappel entre deux classes U ik et C i. de deux partitions. La mesure de rappel est définie par R(i,k)=n ki /n k. C est le pourcentage d exemples de la classe a priori k que l on retrouve dans la classe i obtenue par classification. Le rappel diminue quand le nombre de classes de la partition obtenue par classification diminue. La mesure de précision est définie par P(i,k)= n ki /n.i C est le pourcentage d exemples de la classe i que l on retrouve dans la classe a priori k. La précision augmente quand le nombre de classes de la partition obtenue par classification diminue. Yves Lechevallier Dauphine 29 29

F F-mesure La F-measure proposée par (Van Rijsbergen, 1979) combine les mesures de précision et de rappel entre U k et C i. La mesure de rappel est définie par R(i,k)=n ik /n k. La mesure de précision est définie par P(i,k)= n ik /n.i La F-measure entre la partition a priori U en K groupes et la partition P par la méthode de classification est : K = ( n. k / n) max(2. R( k, j). P( k, j) ( R( k, j) + P( k, j))) k = 1 F mesure pour la classe a priori k : j F( k) = max(2. R( k, j). P( k, j) ( R( k, j) + P( k, j))) j Yves Lechevallier Dauphine 30 30

Résultats d une méthode de classement === Run information === Scheme: weka.classifiers.trees.j48 -C 0.25 -M 2 Relation: iris Instances: 150 Attributes: 5 sepallength sepalwidth petallength petalwidth class Test mode: split 66% train, remainder test === Classifier model (full training set) === J48 pruned tree ------------------ petalwidth <= 0.6: Iris-setosa (50.0) petalwidth > 0.6 petalwidth <= 1.7 petallength <= 4.9: Iris-versicolor (48.0/1.0) petallength > 4.9 petalwidth <= 1.5: Iris-virginica (3.0) petalwidth > 1.5: Iris-versicolor (3.0/1.0) petalwidth > 1.7: Iris-virginica (46.0/1.0) Number of Leaves : 5 Sizeofthetree: 9 Yves Lechevallier Dauphine 31 31

Critères de qualité === Evaluation on test split === === Summary === Correctly Classified Instances 49 96.0784 % Incorrectly Classified Instances 2 3.9216 % Kappa statistic 0.9408 Mean absolute error 0.0396 Root mean squared error 0.1579 Relative absolute error 8.8979 % Root relative squared error 33.4091 % Total Number of Instances 51 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 1 0 1 1 1 Iris-setosa 1 0.063 0.905 1 0.95 Iris-versicolor 0.882 0 1 0.882 0.938 Iris-virginica === Confusion Matrix === a b c <-- classified as 15 0 0 a = Iris-setosa 0 19 0 b = Iris-versicolor 0 2 15 c = Iris-virginica En ligne les classes d affectation En colonne les classes a priori Yves Lechevallier Dauphine 32 32

Critères de qualité === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 1 0 1 1 1 Iris-setosa 1 0.063 0.905 1 0.95 Iris-versicolor 0.882 0 1 0.882 0.938 Iris-virginica TP rate : taux des «vrais positifs» 15/17 R V R NV FP rate : taux des «faux positifs» 0/34 V 15 2 Precision : 15/15 Rappel : «recall» 15/17 NV 0 34 F-Measure : 2*1*0.882/(1+0.882)= 0.938 Yves Lechevallier Dauphine 33 33

Estimation de la qualité d une règle de décision Donner une mesure de qualité à une règle de décision c est réaliser une estimation du taux ou du coût d erreur de classement que fournira cette règle sur la population. Ensemble d apprentissage C est sur cet ensemble qu une méthode de classement construit la règle de décision. Ensemble test C est sur cet ensemble qu une méthode de classement est validée Yves Lechevallier Dauphine 34 34

Estimation des taux d erreur de classement La probabilité d erreur de classement ERR sur la population: K R( Yˆ ) = π k = 1 k l k Pr( l / k ) Le taux d erreur de classement sur l ensemble d apprentissage : (Taux apparent) Trop optimiste et avec biais Le taux d erreur de classement sur l ensemble test : (Taux actuel) Sans biais mais il faut un échantillon important Yves Lechevallier Dauphine 35 35

Techniques de rééchantillonnage (1) Ensemble de données trop petit (taille n) Validation croisée : (cross-validation) découper l échantillon en k parties de même effectif (k-1) parts servent d ensembles d apprentissage la part restante sert d ensemble test Ceci est répété k fois et le taux d erreur de classement est la moyenne des taux d erreur des ensembles test Si k=n (leave one out) Yves Lechevallier Dauphine 36 36

Techniques de rééchantillonnage (2) Tirage avec remise : bootstrap On tire au hasard et avec remise n exemples qui constituent alors un échantillon On calcule pour chaque tirage α le taux apparent Err α et le taux d erreur apparent sur l échantillon de base ERR α D où le taux d erreur bootstrap de k dans l : Err B ( l / k) = ERR( l / k) + 1/ α ERRα ( l / k) Errα ( l / k) α Yves Lechevallier Dauphine 37 37

Experiment : planifier des expériences Objectifs : Weka Experiment Environment permet créer analyse de comparaison de méthodes (classifiers) ou de stratégies d utilisation de ces méthodes On peut sauvegarder le plan d expérience et les résultats obtenus Une analyse des performances peut être faite via un tableur Yves Lechevallier Dauphine 38 38

Experiment : planifier des expériences (3) Choix du format de conservation des résultats Choix de la base Choix des méthodes ou classifieurs (1) (2) Yves Lechevallier Dauphine 39 39

Experiment : comparer des classifieurs Deux jeux de données et trois méthodes de discrimination Yves Lechevallier Dauphine 40 40

KnowledgeFlow : Créer un enchaînement de modules Objectif : Créer les liens entre les entrées et sorties de différents modules de manipulation, de visualisation, de décision et d analyse. Permet de créer un traitement complet d analyse d un jeu de données Programmation «iconique» Yves Lechevallier Dauphine 41 41

KnowledgeFlow : Créer un enchaînement de modules Yves Lechevallier Dauphine 42 42

WEKA: http://www.cs.waikato.ac.nz/ml/weka/ Copyright: Martin Kramer (mkramer@wxs.nl) Yves Lechevallier Dauphine 43 43