Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils pour traiter des données : lecture de diérents formats d'entrée, préparation et nettoyage des données, statistiques, tous les algorithmes de data mining, évaluation des performances et visualisations diverses. C'est un logiciel puissant, il n'est pas facile à manipuler au premier abord, mais avec un peu de pratique, il permet de mettre en place rapidement une chaîne complète de traitement de données, de la saisie des données à leur classication. 1.2 Ressources RapidMiner est disponible sur le site http://rapid-i.com, où l'on trouve aussi des tutoriaux, un blog et des forums. 2 Prise en main A l'ouverture du programme, RapidMiner présente l'écran de la gure 1, qui vous propose soit de commencer un nouveau schéma de traitement de données, soit d'en ouvrir un précédemment écrit, soit de suivre le tutoriel en ligne (celui-ci suppose une connaissance préalable des méthodes et du vocabulaire du data mining, et devient vite très compliqué à suivre). Choisissez 'new', ce qui vous amène à l'écran de la gure 2, où vous devez choisir l'endroit où se trouvera votre espace de travail.choisissez 'NewLocalRepository' et entrez un nom. On arrive maintenant à l'écran de travail proprement dit, illustré sur la gure 3. Cet espace de travail se divise en cinq zones principales : Figure 1 Le premier écran La zone centrale servira à dessiner le schéma du ux de données : il partira d'une source, qui passera successivement à travers plusieurs outils (préparation des données, traitement, évaluation de performances...).
2 Master Maths Finances 2010/2011 : Data Mining Figure 2 Choix du dépôt Le catalogues des outils, à gauche, où nous irons chercher les composants à utiliser dans la zone centrale. Ces composants peuvent être des sources de données, des modicateurs de données, des algorithmes de data mining, des évaluateurs de performances. Nous les utiliserons chacun à leur tour, un peu à la fois. Pour chaque outil utilisé, la zone de droite listera ses paramètres. La zone des informations en bas à droite renseigne sur le fonctionnement de l'outil courant. En bas, la fenêtre des messages d'erreurs. Figure 3 Espace de travail 3 Premier schéma La première approche de RapidMiner consistera à ouvrir un chier de données, et à l'inspecter, an d'avoir une idée de sa conguration et des caractéristiques des données qui le composent. L'exemple que nous allons utiliser est un exemple célèbre en statistiques, et souvent utilisé pour illustrer les algorithmes de data mining : les Iris de Fischer. Cet ensemble regroupe la descriptions de 150 iris, de trois sortes diérentes. Chaque individu est décrit par 4 paramètres entiers : la longueur et la
RapidMiner 3 largeur des pétales et des sépales, et la cinquième valeur est la sorte d'iris de l'exemple. Le but du jeu est d'écrire un algorithme qui, à partir des quatre premiers paramètres, devine correctement la sorte d'iris. En regardant les données, comme nous allons le faire par la suite on pourra se rendre compte visuellement de la complexité (ou de la facilité) de cette tache. 3.1 Importation d'un chier RapidMiner n'est pas le seul programme de traitement de données : il contient des outils qui permettent d'importer des données au format d'un autre logiciel. 3.2 Importation d'un chier Excell Sur le portail (www.fil.univ-lille1.fr, >Portail Pédagogique > Masters > Math-Fi M1 >FDD >Documents), allez chercher le chier iris.xls, et recopiez-le dans votre espace de travail. Dans la fenêtre des Outils de RapidMiner, allez chercher l'outil Import>Data>Read Excell (maintenez cliqué, puis déposez dans l'espace de travail : gure 4). Sur cet outil, gure un point rouge, avec Figure 4 L'outil de lecture d'un chier Excell un panneau routier 'Attention' : il y a un problème avec cet outil, il est expliqué dans la fenêtre message. Le problème ici est simple, cet outil n'est pas encore relié à un chier. Utilisons le sorcier pour associer un chier à cet outil : sélectionnez la boîte Read Excell, puis cliquez sur le bouton Import Configuration Wizard de la zone des paramètres (gure 5), puis suivez les étapes. Figure 5 Les paramètres de l'outil de lecture de chier Excell Figure 6 Fixer les types et les rôles
4 Master Maths Finances 2010/2011 : Data Mining Step 1 : sélectionnez le chier iris.xls que vous venez de charger. Step 2 : Rien à faire ici, puisque le chier ne contient qu'une feuille (sinon, sélectionnez la feuille qui vous interesse). Step 3 : Possibilité de rajouter des annotations : on passe. Step 4 : Fixer le rôle et le type des paramètres. Le sorcier a déjà fait une partie du travail, les seules modications à apporter ici concernent la dernière colonne : l'attribut Class est polynominal (plus de deux valeurs textuelles) et il joue le rôle d'un label (la classe à deviner) : faites les modications (gure 6) et cliquez sur Finish. Si tout s'est passé dans les règles, l'avertissement a disparu. Connectez maintenant la cosse de sortie (out) de l'outil à la cosse res sur le bord droit de la zone des schémas. Vous remarquez qu'une nouvelle cosse non connectée est apparu : elle est prête à servir si nous voulons accéder à plus d'informations (gure 7). Les résultats produits par RapidMiner sont ceux pour lesquels un chemin conduit à une de ces cosses res. Le schéma étant (enn) terminé, on peut lancer le processus, qui consiste ici à produire un certain nombre de statistiques élémentaires sur les données en entrée. Pour cela, cliquez sur le triangle bleu dans la barre des icônes en haut de l'environnement. Répondez, dans l'ordre No, Yes, Yes aux trois questions qui vous sont posées : No : on n'a pas besoin de sauvegarder ce schéma. Yes : on ferme les éventuels résultats obtenus précédemment (sinon, il y a des risques de confusion). Yes : on bascule dans la perspective contenant les résultats. Figure 7 Un schéma terminé 3.3 Lecture des résultats Le premier process (lecture d'un chier Excell) a été exécuté, on a changé d'écran et on peut maintenant consulter les résultats. Aucune manipulation de données n'ayant eu lieu, ces résultats sont essentiellement des statistiques sur les données lues, ainsi que des visualisations. Il y a quatre façons de consulter les informations sur les données, qui correspondent aux quatre boutons de la gure 8. Meta Data View Des informations sur les données : Rôle de chaque champ (ou attribut) : standard(regular) ou caractéristique (label : ce que les algorithmes de classication devront deviner). Nom de l'attribut. Type : numérique, date, polynominal... Statistiques élémentaires. Intervalles de valeurs. Valeurs manquantes Data View : la liste de tous les exemples avec leurs valeurs.
RapidMiner 5 Figure 8 Les diérentes vues sur les données Plot View ore la possibilité de visualiser les données sous de nombreux angles. Annotations permet d'ajouter des commentaires ou des informations au chier de données. 3.4 Visualisation des données Passez dans Plot View. Vous pouvez choisir le type de graphique (menu Plotter), l'attribut correspondant à chaque axe de coordonnées, et la couleur des points. Explorez les diérentes possibilités. En colorant les points relativement à l'attriibut class, quels sont les deux attributs qui vous semblent permettre de bien distinguer les exemples de classes diérentes? Existe-t-il une façon de visualiser les données qui permette de répondre rapidement à la question précédente? Y a-t-il une combinaison de trois attributs qui semble bien diérencier les exemples selon leur classe? Le problème de deviner la classe d'un exemple en fonction de ses autres attributs vous semble-telle dicile? Pourquoi? 4 Deuxième schéma : un algorithme de classication Les algorithmes de classication et de clustering seront vu plus tard dans le cours, mais on peut déjà les utiliser dans RapidMiner, et regarder les résultats produits, même si on ne sait rien de l'algorithme utilisé. Reprenez le schéma précédent (on revient dans la perspective de dénition de schéma en cliquant sur le bouton représentant un crayon et un bloc-note). Dans la fenêtre des outils, choisissez Decision Tree (Modelling>Classification>Tree Induction >Decision Tree), et intercalez-le à droite de l'outil de lecture des données (gure 9). Figure 9 Ajouter un classieur Decision Tree reçoit en entrée un ensemble d'exemples dont un des attributs est un label et construit un arbre de décision qui essaie de deviner ce label en se servant des autres attributs. Il a deux sorties :
6 Master Maths Finances 2010/2011 : Data Mining mod le modèle, i.e. l'arbre de décision lui-même : connectez-le à la borne res. exa : l'ensemble d'exemples présenté à l'entrée. Connectez-le aussi à la borne res : on pourra ainsi examiner l'arbre et les données originales. Exécutez le schéma : vous avez maintenant deux onglets dans la perspective résultat : un pour les données (la même que tout à l'heure), l'autre pour l'arbre de décision. Comment lire l'arbre? Combien d'erreurs fait-il? Comparez les attributs qu'il utilise pour prendre ses décisions avec les observations que vous avez pu faire sur les données initiales. 5 Troisième schéma Le classieur (dans notre cas, un arbre de décision, mais il en existe plein d'autres) a utilisé les attributs des exemples pour prendre sa décision. Mais peut-être que ce ne sont pas les dimensions des iris qui sont importantes. C'est peut-être la surface des pétales, ou le rapport entre la longueur des pétales et la longueur des sépales? Pour vérier ces hypothèses, nous allons intercaler entre les données initiales et l'arbre de décision un outil de génération d'attributs (Data Transformation>Attribute Set Reduction and Transformation>Generation>Generate Attributes). Editez la liste des descriptions de fonctions (fenêtre paramètres de Genarate Attributes), et créez un nouvel attribut SurfacePetale en multipliant la longueur et la largeur des pétales. Figure 10 Ajouter un attribut Petit problème maintenant : le nouvel attribut n'a pas de rôle. Qu'à celà ne tienne : intercalez un outil Set Role (Data Transformation>Name and Role Modification>Set Role) et dénissez le nouvel attribut comme regular. On obtient nalement le schéma complet de la gure 10. Comparez l'arbre obtenu avec le précédent. Introduire un nouvel attribut a-t-il été utile? Testez d'autres créations d'attributs.