RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources



Documents pareils
Travaux pratiques avec RapidMiner

Auguria_PCM Product & Combination Manager

Utilisation du logiciel Epson Easy Interactive Tools

Dessiner dans Galaad FRANÇOIS PALLUT

1. Utilisation du logiciel Keepass

KeePass - Mise en œuvre et utilisation

GUIDE D UTILISATION DE L ISU SEPTEMBRE 2013 GUIDE D UTILISATION DU NAVIGATEUR UIS.STAT (VERSION BÊTA)

MANUEL TBI - STARBOARD

Fête de la science Initiation au traitement des images

1. Introduction Création d'une macro autonome Exécuter la macro pas à pas Modifier une macro... 5

Date de diffusion : Rédigé par : Version : Mars 2008 APEM 1.4. Sig-Artisanat : Guide de l'utilisateur 2 / 24

A - Créer une Base de données au format dbase

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Table des matières. F. Saint-Germain / S. Carasco Document réalisé avec OpenOffice.org Page 1/13

Saisissez le login et le mot de passe (attention aux minuscules et majuscules) qui vous ont

Premiers pas sur e-lyco

Google Drive, le cloud de Google

Création d'un questionnaire (sondage)

YAPBA M. Logiciel libre de suivi de vos comptes

Freeway 7. Nouvelles fonctionnalités

Manuel M O D U L E D I M P O R T A T I O N

Les 1 er pas sur. Guide d utilisation

Ladibug TM 2.0 Logiciel de présentation visuel d'image Manuel de l utilisateur - Français

BANQUES DE DONNÉES PÉDAGOGIQUES

INFORM :: DEMARRAGE RAPIDE A service by KIS

Table des matières. Table des matières

Découverte et prise en main de SWEET HOME 3D

Guide d'utilisation du logiciel de NEWSLETTERS

Université Ferhat ABBAS -Sétif

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Création d un site Internet

Securexam Consignes pour l EFU Les 2, 3 et 4 juin 2015

Tutoriel Prise en Main de la Plateforme MetaTrader 4. Mise à jour : 7/09/

CAP BOX Note utilisateurs

1. Création d'un état Création d'un état Instantané Colonnes Création d'un état Instantané Tableau... 4

ACCUEIL / Introduction. Introduction. Présentation de StarBoard Software Éléments de l écran Guide de démarrage rapide

DOCUMENTATION VISUALISATION UNIT

Tapez le titre de la page «BASTIA ville méditerranéenne», puis allez deux fois à la ligne à l aide de la touche Entrée.

Automatisation d'une Facture 4. Liste Déroulante Remises Case à cocher Calculs

Infolettre #12 : Office Live Workspace

Le portfolio numérique Tutoriel de prise en main

Tutoriel Inscription et utilisation basique d'un blog hébergé chez Blogger.com

AGASC / BUREAU INFORMATION JEUNESSE Saint Laurent du Var Tel : bij@agasc.fr Word: Les tableaux.

Gestion du parc informatique des collèges du département du Cher. Manuel d utilisation de la solution de gestion de Parc

Installation et utilisation de Cobian Backup 8

BML Informatique Tableur OpenOffice.org Calc Mercredi 8 avril 2015

Designer d escalier GUIDE DE L UTILISATEUR. Stair Designer-1

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

Gestion des documents avec ALFRESCO

Guide de l utilisateur. Faites connaissance avec la nouvelle plateforme interactive de

Guide de démarrage rapide

Jexcel. V1.1.4 Manuel d'utilisation. modifié le 16 nov. 2004

Edutab. gestion centralisée de tablettes Android

Réaliser un PUBLIPOSTAGE

Créer un diaporama avec Open Office. Sommaire

Espace FOAD IRTS Guide de l étudiant Septembre 2009

Télécharger et Installer OpenOffice.org sous Windows

Manuel d utilisation de l outil collaboratif

Logiciel SCRATCH FICHE 02

OneDrive, le cloud de Microsoft

COURS EN LIGNE DU CCHST Manuel du facilitateur/de l administrateur

SOMMAIRE. Accéder à votre espace client. Les Fichiers communs. Visualiser les documents. Accéder à votre espace client. Changer de Workspace

Correction des Travaux Pratiques Organiser son espace de travail

AGASC / BUREAU INFORMATION JEUNESSE Saint Laurent du Var - E mail : bij@agasc.fr / Tel : CONSIGNE N 1 :

MEGA ITSM Accelerator. Guide de Démarrage

Assistance à distance sous Windows

Premiers Pas avec OneNote 2013


Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Inspiration 7.5. Brève description d Inspiration. Avantages d Inspiration. Inconvénients d Inspiration

Avenir Concept Monaco

Tutoriaux : Faites vos premiers pas avec Microsoft Visio 2010

PRÉSENTÉ PAR : NOVEMBRE 2007

Prise en main du logiciel Smart BOARD

1. Création du profil

Manuel Cartes ristournes

Systèmes d'exploitation virtuels

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

LIMESURVEY. LimeSurvey est une application permettant de créer des questionnaires d enquête en ligne et d en suivre le dépouillement.

Tutoriel. Votre site web en 30 minutes

Portail étudiant de la Faculté des sciences Notice d'utilisation du site d'inscription aux unités d enseignement

Le générateur d'activités

Sommaire. I.1 : Alimentation à partir d un fichier Access (.mdb)...2

Interwrite Workspace version 8 avec le projecteur Epson

Débuter avec OOo Base

La technologie au collège

Guide pour la réalisation d'un document avec Open Office Writer 2.2

Bureau Virtuel Lyon 2

Comment se connecter au VPN ECE sous vista

les Formulaires / Sous-Formulaires Présentation Créer un formulaire à partir d une table...3

Business Intelligence simple et efficace

Un exemple avec WORKSPACE d'interwrite

Manuel d utilisation du site web de l ONRN

Petit guide à l'usage des profs pour la rédaction de pages pour le site Drupal du département

Manuel d Utilisateur - Logiciel ModAFi. Jonathan ANJOU - Maud EYZAT - Kévin NAVARRO

TUTORIAL REUTERS. Utilisation de l'utilitaire de recherche Reuters

Transcription:

Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils pour traiter des données : lecture de diérents formats d'entrée, préparation et nettoyage des données, statistiques, tous les algorithmes de data mining, évaluation des performances et visualisations diverses. C'est un logiciel puissant, il n'est pas facile à manipuler au premier abord, mais avec un peu de pratique, il permet de mettre en place rapidement une chaîne complète de traitement de données, de la saisie des données à leur classication. 1.2 Ressources RapidMiner est disponible sur le site http://rapid-i.com, où l'on trouve aussi des tutoriaux, un blog et des forums. 2 Prise en main A l'ouverture du programme, RapidMiner présente l'écran de la gure 1, qui vous propose soit de commencer un nouveau schéma de traitement de données, soit d'en ouvrir un précédemment écrit, soit de suivre le tutoriel en ligne (celui-ci suppose une connaissance préalable des méthodes et du vocabulaire du data mining, et devient vite très compliqué à suivre). Choisissez 'new', ce qui vous amène à l'écran de la gure 2, où vous devez choisir l'endroit où se trouvera votre espace de travail.choisissez 'NewLocalRepository' et entrez un nom. On arrive maintenant à l'écran de travail proprement dit, illustré sur la gure 3. Cet espace de travail se divise en cinq zones principales : Figure 1 Le premier écran La zone centrale servira à dessiner le schéma du ux de données : il partira d'une source, qui passera successivement à travers plusieurs outils (préparation des données, traitement, évaluation de performances...).

2 Master Maths Finances 2010/2011 : Data Mining Figure 2 Choix du dépôt Le catalogues des outils, à gauche, où nous irons chercher les composants à utiliser dans la zone centrale. Ces composants peuvent être des sources de données, des modicateurs de données, des algorithmes de data mining, des évaluateurs de performances. Nous les utiliserons chacun à leur tour, un peu à la fois. Pour chaque outil utilisé, la zone de droite listera ses paramètres. La zone des informations en bas à droite renseigne sur le fonctionnement de l'outil courant. En bas, la fenêtre des messages d'erreurs. Figure 3 Espace de travail 3 Premier schéma La première approche de RapidMiner consistera à ouvrir un chier de données, et à l'inspecter, an d'avoir une idée de sa conguration et des caractéristiques des données qui le composent. L'exemple que nous allons utiliser est un exemple célèbre en statistiques, et souvent utilisé pour illustrer les algorithmes de data mining : les Iris de Fischer. Cet ensemble regroupe la descriptions de 150 iris, de trois sortes diérentes. Chaque individu est décrit par 4 paramètres entiers : la longueur et la

RapidMiner 3 largeur des pétales et des sépales, et la cinquième valeur est la sorte d'iris de l'exemple. Le but du jeu est d'écrire un algorithme qui, à partir des quatre premiers paramètres, devine correctement la sorte d'iris. En regardant les données, comme nous allons le faire par la suite on pourra se rendre compte visuellement de la complexité (ou de la facilité) de cette tache. 3.1 Importation d'un chier RapidMiner n'est pas le seul programme de traitement de données : il contient des outils qui permettent d'importer des données au format d'un autre logiciel. 3.2 Importation d'un chier Excell Sur le portail (www.fil.univ-lille1.fr, >Portail Pédagogique > Masters > Math-Fi M1 >FDD >Documents), allez chercher le chier iris.xls, et recopiez-le dans votre espace de travail. Dans la fenêtre des Outils de RapidMiner, allez chercher l'outil Import>Data>Read Excell (maintenez cliqué, puis déposez dans l'espace de travail : gure 4). Sur cet outil, gure un point rouge, avec Figure 4 L'outil de lecture d'un chier Excell un panneau routier 'Attention' : il y a un problème avec cet outil, il est expliqué dans la fenêtre message. Le problème ici est simple, cet outil n'est pas encore relié à un chier. Utilisons le sorcier pour associer un chier à cet outil : sélectionnez la boîte Read Excell, puis cliquez sur le bouton Import Configuration Wizard de la zone des paramètres (gure 5), puis suivez les étapes. Figure 5 Les paramètres de l'outil de lecture de chier Excell Figure 6 Fixer les types et les rôles

4 Master Maths Finances 2010/2011 : Data Mining Step 1 : sélectionnez le chier iris.xls que vous venez de charger. Step 2 : Rien à faire ici, puisque le chier ne contient qu'une feuille (sinon, sélectionnez la feuille qui vous interesse). Step 3 : Possibilité de rajouter des annotations : on passe. Step 4 : Fixer le rôle et le type des paramètres. Le sorcier a déjà fait une partie du travail, les seules modications à apporter ici concernent la dernière colonne : l'attribut Class est polynominal (plus de deux valeurs textuelles) et il joue le rôle d'un label (la classe à deviner) : faites les modications (gure 6) et cliquez sur Finish. Si tout s'est passé dans les règles, l'avertissement a disparu. Connectez maintenant la cosse de sortie (out) de l'outil à la cosse res sur le bord droit de la zone des schémas. Vous remarquez qu'une nouvelle cosse non connectée est apparu : elle est prête à servir si nous voulons accéder à plus d'informations (gure 7). Les résultats produits par RapidMiner sont ceux pour lesquels un chemin conduit à une de ces cosses res. Le schéma étant (enn) terminé, on peut lancer le processus, qui consiste ici à produire un certain nombre de statistiques élémentaires sur les données en entrée. Pour cela, cliquez sur le triangle bleu dans la barre des icônes en haut de l'environnement. Répondez, dans l'ordre No, Yes, Yes aux trois questions qui vous sont posées : No : on n'a pas besoin de sauvegarder ce schéma. Yes : on ferme les éventuels résultats obtenus précédemment (sinon, il y a des risques de confusion). Yes : on bascule dans la perspective contenant les résultats. Figure 7 Un schéma terminé 3.3 Lecture des résultats Le premier process (lecture d'un chier Excell) a été exécuté, on a changé d'écran et on peut maintenant consulter les résultats. Aucune manipulation de données n'ayant eu lieu, ces résultats sont essentiellement des statistiques sur les données lues, ainsi que des visualisations. Il y a quatre façons de consulter les informations sur les données, qui correspondent aux quatre boutons de la gure 8. Meta Data View Des informations sur les données : Rôle de chaque champ (ou attribut) : standard(regular) ou caractéristique (label : ce que les algorithmes de classication devront deviner). Nom de l'attribut. Type : numérique, date, polynominal... Statistiques élémentaires. Intervalles de valeurs. Valeurs manquantes Data View : la liste de tous les exemples avec leurs valeurs.

RapidMiner 5 Figure 8 Les diérentes vues sur les données Plot View ore la possibilité de visualiser les données sous de nombreux angles. Annotations permet d'ajouter des commentaires ou des informations au chier de données. 3.4 Visualisation des données Passez dans Plot View. Vous pouvez choisir le type de graphique (menu Plotter), l'attribut correspondant à chaque axe de coordonnées, et la couleur des points. Explorez les diérentes possibilités. En colorant les points relativement à l'attriibut class, quels sont les deux attributs qui vous semblent permettre de bien distinguer les exemples de classes diérentes? Existe-t-il une façon de visualiser les données qui permette de répondre rapidement à la question précédente? Y a-t-il une combinaison de trois attributs qui semble bien diérencier les exemples selon leur classe? Le problème de deviner la classe d'un exemple en fonction de ses autres attributs vous semble-telle dicile? Pourquoi? 4 Deuxième schéma : un algorithme de classication Les algorithmes de classication et de clustering seront vu plus tard dans le cours, mais on peut déjà les utiliser dans RapidMiner, et regarder les résultats produits, même si on ne sait rien de l'algorithme utilisé. Reprenez le schéma précédent (on revient dans la perspective de dénition de schéma en cliquant sur le bouton représentant un crayon et un bloc-note). Dans la fenêtre des outils, choisissez Decision Tree (Modelling>Classification>Tree Induction >Decision Tree), et intercalez-le à droite de l'outil de lecture des données (gure 9). Figure 9 Ajouter un classieur Decision Tree reçoit en entrée un ensemble d'exemples dont un des attributs est un label et construit un arbre de décision qui essaie de deviner ce label en se servant des autres attributs. Il a deux sorties :

6 Master Maths Finances 2010/2011 : Data Mining mod le modèle, i.e. l'arbre de décision lui-même : connectez-le à la borne res. exa : l'ensemble d'exemples présenté à l'entrée. Connectez-le aussi à la borne res : on pourra ainsi examiner l'arbre et les données originales. Exécutez le schéma : vous avez maintenant deux onglets dans la perspective résultat : un pour les données (la même que tout à l'heure), l'autre pour l'arbre de décision. Comment lire l'arbre? Combien d'erreurs fait-il? Comparez les attributs qu'il utilise pour prendre ses décisions avec les observations que vous avez pu faire sur les données initiales. 5 Troisième schéma Le classieur (dans notre cas, un arbre de décision, mais il en existe plein d'autres) a utilisé les attributs des exemples pour prendre sa décision. Mais peut-être que ce ne sont pas les dimensions des iris qui sont importantes. C'est peut-être la surface des pétales, ou le rapport entre la longueur des pétales et la longueur des sépales? Pour vérier ces hypothèses, nous allons intercaler entre les données initiales et l'arbre de décision un outil de génération d'attributs (Data Transformation>Attribute Set Reduction and Transformation>Generation>Generate Attributes). Editez la liste des descriptions de fonctions (fenêtre paramètres de Genarate Attributes), et créez un nouvel attribut SurfacePetale en multipliant la longueur et la largeur des pétales. Figure 10 Ajouter un attribut Petit problème maintenant : le nouvel attribut n'a pas de rôle. Qu'à celà ne tienne : intercalez un outil Set Role (Data Transformation>Name and Role Modification>Set Role) et dénissez le nouvel attribut comme regular. On obtient nalement le schéma complet de la gure 10. Comparez l'arbre obtenu avec le précédent. Introduire un nouvel attribut a-t-il été utile? Testez d'autres créations d'attributs.