Construire des règles d association avec TANAGRA



Documents pareils
Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Ce document décrit la démarche à suivre pour installer les outils de développement et compiler le projet TANAGRA.

BIRT (Business Intelligence and Reporting Tools)

Travaux pratiques avec RapidMiner

Université de Picardie - Jules Verne UFR d'economie et de Gestion

Business Intelligence simple et efficace

SOMMAIRE. Présentation assistée sur ordinateur. Collège F.Rabelais 1/10

Créer sa première base de données Access Partie 4/4 - Création d un état

Installation de SQL Server Reporting Services avec l intégration dans un site Windows SharePoint Services V3

Reporting Services - Administration

Correction des Travaux Pratiques Organiser son espace de travail

ESPACE COLLABORATIF SHAREPOINT

Cher utilisateur, Nous vous souhaitons une excellente utilisation d INES.FreeEdition. L équipe INES info@ines.eu

Groupe Eyrolles, 2003, ISBN : X

Comment paramétrer et sauvegarder les configurations d Altium Designer?

Connexions à un projet CVS via Eclipse en accès local et distant. 15 Mai 2007

Censio Tutorial Sharepoint Cloud Connector exporter les données d un fichier plat dans Sharepoint Online. Version 1.

SOMMAIRE. Accéder à votre espace client. Les Fichiers communs. Visualiser les documents. Accéder à votre espace client. Changer de Workspace

Manuel d utilisation du site web de l ONRN

Créer sa première base de données Access Partie 3/4 - Création d un formulaire

ht t p: // w w w.m e di al o gis.c om E - Ma i l : m ed i a l og i m e di a l o g i s. c om Envoi des SMS

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8

Installation de Microsoft Office Version 2.1

Guide de l enseignant. pour le Passeport Sécurité. Mise à jour : 10 août 2015

Création de Site Web. Atelier Cyber-Base Emploi Pays Beaujolais

Guide d utilisation commandes des pièces de rechange Rev.1.0.3

Sage Customer View (ios) Guide d installation et d utilisation

Le cas «BOURSE» annexe

Enregistrement de votre Géorando Maxi Liberté

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

1 Modélisation d être mauvais payeur

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Le cas «BOURSE» annexe

Introduction à Eclipse

Gestion des fichiers sur micro-ordinateur

Tutoriel code::blocks

Utiliser SQL Server 2008 R2 Reporting Services comme source de donne es pour Microsoft Excel

Création d'un questionnaire (sondage)

Le Logiciel de traitement sur site IMS

Sommaire. G. Pujolle, F. Ravat, C. Soulé-Dupuy, G. Zurfluh

Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services

Guide de prise en main rapide

Construire des plug-ins pour SAS Management Console SAS 9.1

1 CRÉER UN TABLEAU. IADE Outils et Méthodes de gestion de l information

UTILISATEUR. Notice d utilisation du service Support de Psi Informatique

Spécificités, Applications et Outils

Comment accéder à une vision synthétique de mon activité commerciale?

Installation d'un Active Directory et DNS sous Windows Server 2008

LogicSports MANUEL UTILISATEUR

NOTICE D INSTALLATION ET D UTILISATION DE LIVE BACKUP

DATALOGGERS SEFRAM LOG1601 et LOG1620

Rapports d activités et financiers par Internet. Manuel Utilisateur

Sauvegarder sa messagerie Gmail sur son ordinateur

TANAGRA : un logiciel gratuit pour l enseignement et la recherche

AnaXagora LMS v3.0. Guide d utilisation

Comment accéder à d Internet Explorer

DEVAKI NEXTOBJET PRESENTATION. Devaki Nextobjects est un projet sous license GNU/Public.

SOMMAIRE. 01_Installation ESXi Serveur HP.doc. Chapitre 1 Installation ESXi 5.1 2

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1

la littératie critique

FICHIERS ET DOSSIERS

PRISE EN MAIN D UN TABLEUR. Version OPEN OFFICE

Depuis votre ordinateur de bureau

MyBank. Gérer son budget personnel. SoftChris Concept

Éléments de Data Mining avec Tanagra. Vincent ISOZ, (V3.0 Revision 6) {ouuid 1.679}

SFEA. Ce document peut être imprimé au format livret. Guide utilisateurs du site "Se Former en Alsace"

DATA MINING - Analyses de données symboliques sur les restaurants

Évaluation des compétences. Identification du contenu des évaluations. Septembre 2014

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

CREG : versailles.fr/spip.php?article803

Business Intelligence

PLANIFIER UNE RÉUNION AVEC DOODLE

Tutoriel. Votre site web en 30 minutes

Documentation Suivi S.E.O

Petit memo rapide pour vous guider dans la gestion des engagements de vos compétitions FFM

Atelier Le gestionnaire de fichier

PRESENTATION DU LOGICIEL

Notice d Installation et d utilisation d une liaison Bluetooth avec un PDA ipaq.

Guide d utilisation Billetterie FFR. Avril 2014 V0

Plateforme AnaXagora. Guide d utilisation

Guide de l'utilisateur

EndNote Web. Quick Reference Card THOMSON SCIENTIFIC

MISE AU POINT FINANCIÈRE GUIDE DE L UTILISATEUR. Le logiciel MISE AU POINT FINANCIÈRE est offert sous licence par EquiSoft.

Online Workflow. Approbation factures

Utiliser un tableau de données

EmonCMS sur EWATTCH Cloud

Utiliser Internet Explorer 7

les Formulaires / Sous-Formulaires Présentation Créer un formulaire à partir d une table...3

Freeway 7. Nouvelles fonctionnalités

1. Création de l objet de stratégie

Créer un publipostage avec Word 2007.

Gestion des Factures


Mes premiers diaporamas avec Open Office Impress?

Installation du logiciel Windows Suivant Démarrer Tous les programmes Démarrer Tous les programmes Marketing Manager Marketing Manager Linux ici Mac

Revit - Masquage temporaire ou permanent

Tutorial Terminal Server sous

Guide d utilisation de PL7 Pro Récupérer ou transférer un programme

Transcription:

Objectif Comparer TANAGRA, ORANGE et WEKA lors de la recherche de règles d association. S agissant de la construction de règles d association, quel que soit le logiciel utilisé, nous devons impérativement passer par les étapes suivantes : Importer les données dans le logiciel ; Définir le problème à résoudre, c.-à-d. sélectionner les descripteurs ; Paramétrer la recherche des règles, il s agit essentiellement de fixer leur support et leur confiance minimale ; Lancer l apprentissage et visualiser les règles. Nos trois logiciels s accordent sur un point : ils prennent en entrée des données tabulaires (individus x variables) et procèdent à un codage disjonctif complet : chaque couple attributvaleur devient alors un item candidat à la génération des règles. Fichier Nous utilisons le fichier VOTE.TXT (source UCI IRVINE), le fichier contient 435 observations. Construire des règles d association avec TANAGRA Charger les données Première étape toujours, après le lancement du logiciel, nous devons charger les données. Nous activons le menu FILE/NEW pour créer un nouveau diagramme et nous sélectionnons le fichier VOTE.TXT. 16/03/2006 Page 1 sur 11

Définir les variables de l analyse Nous ajoutons le composant DEFINE STATUS dans le diagramme en cliquant sur le raccourci dans la barre d outils. Nous plaçons toutes les variables en INPUT. 16/03/2006 Page 2 sur 11

Définir et paramétrer l algorithme de génération des règles d apprentissage Il existe toute une série d algorithmes de génération de règles d association dans TANAGRA, certaines d ailleurs proviennent de bibliothèques externes. Dans ce didacticiel, nous choisirons la méthode A PRIORI qui correspond aux caractéristiques définies dans les articles originels d AGRAWAL. Après l avoir placé dans le diagramme, nous activons le menu contextuel PARAMETERS pour accéder aux paramètres, nous définissons les valeurs suivantes. 16/03/2006 Page 3 sur 11

Le support minimal des règles est fixé à 0.5, leur confiance minimale à 0.75, nous générons les règles à partir des itemsets fréquents ayant un cardinal inférieur ou égal à 4, les règles présentant un LIFT inférieur à 1 sont éliminés. Exécution Pour voir les résultats, nous devons activer le menu VIEW du composant A PRIORI, les règles apparaissent dans la fenêtre de droite, 14 règles ont été générées. Remarque : Les règles sont triées selon un LIFT décroissant. Il est possible de les trier différemment en les copiant dans un tableur, bien entendu il faut pour cela qu il y ait moins de 65536 règles générées. Construire les règles d association avec WEKA Au lancement de WEKA, un panneau permet de choisir le mode d exécution du logiciel. Nous choisissons le mode KNOWLEDGE FLOW. Nous avons utilisé la version 3.5.1 dans ce didacticiel. Nous parvenons alors dans l espace de travail dans lequel nous allons définir nos 16/03/2006 Page 4 sur 11

traitements. Dans la partie haute, nous trouvons les icônes organisées dans des palettes, ils représentent les opérateurs de traitement. Charger les données Le composant CSV LOADER (onglet DATASOURCES) permet de charger les données. Nous ajoutons donc ce composant dans notre espace de travail, nous pouvons le paramétrer à l aide de l option CONFIGURE de son menu contextuel. Nous chargeons le fichier VOTE.TXT. 16/03/2006 Page 5 sur 11

Apprentissage des règles d association Par défaut, toutes les observations et toutes les variables sont sélectionnées dans WEKA. Il nous reste donc à placer le composant permettant de générer les règles. Nous trouvons le composant A PRIORI dans l onglet ASSOCIATION. DATASET est le type de connexion à utiliser lorsque nous relions les données à la méthode de génération de règles. Le menu contextuel CONFIGURE permet de paramétrer la recherche des règles. 16/03/2006 Page 6 sur 11

LOWERBOUNDMINSUPPORT permet de fixer le support minimal des règles ; MINMETRIC correspond à la confiance minimale si on a bien sélectionné CONFIDENCE dans la zone METRICTYPE ; enfin, NUMRULES permet de limiter le nombre maximal de règles que l on peut générer. Il faut placer l outil de visualisation des résultats pour avoir accès aux règles. Nous utilisons le composant TEXT VIEWER, nous la relions à A PRIORI en utilisant la connexion TEXT. Pour lancer les calculs, il nous faut revenir sur le composant de données et activer le menu START LOADING. 16/03/2006 Page 7 sur 11

Les règles sont accessibles dans le composant TEXTVIEWER en cliquant sur le menu SHOW RESULTS. Nous obtenons les mêmes 14 règles qu avec TANAGRA. Construire les règles d association avec ORANGE ORANGE propose une interface composée de deux parties distinctes : un espace pour définir les traitements ; une palette d outils située dans la partie haute de la fenêtre principale. Tool palettes Components : Data Mining tools << Workspace 16/03/2006 Page 8 sur 11

Importer les données ORANGE peut importer des données au format texte (séparateur tabulation). Il suffit de cliquer sur l outil pour qu il s insère automatiquement dans l espace de travail. Nous sélectionnons donc notre fichier VOTE.TXT en cliquant sur le menu contextuel OPEN. Placer la méthode d apprentissage Par défaut, toutes les observations et toutes les variables sont sélectionnées dans ORANGE. Il nous faut donc placer le composant ASSOCIATION RULES de l onglet ASSOCIATE. Nous le paramétrons en cliquant sur le menu OPEN, les paramètres sont très explicites dans ORANGE. 16/03/2006 Page 9 sur 11

Les calculs sont automatiquement exécutés lorsque nous relions le composant FILE à ASSOCIATION RULE. Pour voir les règles, nous ajoutons le composant ASSOCIATION RULE PRINT dans le diagramme. Nous cliquons sur le menu OPEN pour voir les règles. Assez curieusement, nous n obtenons que 4 règles dans ORANGE, contre 14 avec nos deux précédents logiciels. ORANGE semble avoir une préférence pour les règles plus «simples». Je n ai pas trouvé les raisons de cette différence. 16/03/2006 Page 10 sur 11

Conclusion Pour une fois, nos logiciels rivalisent de simplicité pour produire des résultats. Ces logiciels sont largement suffisants pour la plupart des études. La situation est un peu plus difficile si nous souhaitons traiter de grandes bases de données avec des milliers d items. Le nombre de règles générées peut devenir très important et, les performances, la possibilité de réaliser les calculs même, dépendent très fortement de la taille mémoire de la machine utilisée. 16/03/2006 Page 11 sur 11