Data Mining TP M2DS / Novembre 2017

Documents pareils
RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

BIRT (Business Intelligence and Reporting Tools)

Travaux pratiques avec RapidMiner

SOMMAIRE. Accéder à votre espace client. Les Fichiers communs. Visualiser les documents. Accéder à votre espace client. Changer de Workspace

TUTORIEL CartoDB 11/03/15

Big Data et Graphes : Quelques pistes de recherche

Guide de l utilisateur Faronics System Profiler Standard

Big Data et Graphes : Quelques pistes de recherche

La classification automatique de données quantitatives

Avertissement : Nos logiciels évoluent rendant parfois les nouvelles versions incompatibles avec les anciennes.

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

ENVOI EN NOMBRE DE SMS

PROTEGER SA CLE USB AVEC ROHOS MINI-DRIVE

Mendeley, pour gérer sa bibliographie et la partager. Patricia Volland-Nail

FEN FICHE EMPLOIS NUISANCES

[Ministère des Affaires étrangères et du Développement international] DEFI MANUEL UTILISATEUR ESPACE DEMANDEUR

WebSMS. Avril WebSMS Orange Mali - Guide utilisateur

Tutoriel d utilisation du Back-Office du site de la ligue

ENVOI EN NOMBRE DE SMS

pas à pas prise en main du service sur le web Le Cloud

Utilisation de la Plateforme Office365 et d Oultlook Web App

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Business Intelligence

INTRODUCTION AU DATA MINING

Les technologies du Big Data

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Publication dans le Back Office

Baccalauréat professionnel GESTION ADMINISTRATION

2 Serveurs OLAP et introduction au Data Mining

Travaux pratiques. DECOUVERTE PDMLink - PTC

Bases de données. Table des matières. Introduction. (ReferencePlus.ca)

données en connaissance et en actions?

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

MANIPULATION ET VISUALISATION DE GROSSES BASES DE DONNÉES AVEC R

HTTP Commander. Table des matières. 1-Présentation de HTTP Commander

RECUPEREZ DES FICHIERS SUPPRIMES AVEC RECUVA

PARTAGE DE DOCUMENTS EN LIGNE AVEC ONEDRIVE

Guide à l usage des bibliothécaires du réseau départemental

Guide d utilisation commandes des pièces de rechange Rev.1.0.3

1-Introduction 2. 2-Installation de JBPM 3. 2-JBPM en action.7

Tutoriel Création d une source Cydia et compilation des packages sous Linux

Plateforme académique de partage de documents - owncloud

Gestion de contenu d un site web avec TYPO3 Manuel de l administrateur

Référencement naturel

Démonstrateur libre Application des données Open Street Map à l analyse géographique de réseaux de voirie et Transports Collectifs

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Intégrer des médias. Plateforme e-tourisme. demo.minisites.encharentemaritime.com

Gérer son Google Drive pour gérer ses informations : le tutoriel

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

INSTALLATION CONFIGURATION D OWNCLOUD. La réponse informatique

Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services

1 Modélisation d être mauvais payeur

CRÉER SON SITE INTERNET. Créer son site Internet. Méd de Roanne. FG 16/09/08

TUTORAT DU PORTAIL FAMILLES

Créer son blog pas à pas

1. Visualiser la «carte» de mon réseau social

matthieumarce.com - Fiches pratiques - ing ing

PLATEFORME DES ACHATS DE L ANFH CÔTÉ PRESTATAIRES. Version juin 2014

L Expertise numérique avec la tablette

Lire ; Compter ; Tester... avec R

Informations techniques préparatoires

3 L'arborescence Windows

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Compte-rendu re union Campus AAR 3 mars 2015

Installation et configuration du serveur syslog sur Synology DSM 4.0

I - J inscris mon enfant pour le mois suivant (du 5 au 20 du mois en cours)

Import des utilisateurs depuis Sconet et STSweb - mise à jour du 04/10/06

Table des Matières. Pages 3-4. A propos d emblue. Page 5. L environnement emblue. Création d une campagne d marketing. Pages 6-15.

Cours de Master Recherche

Importation et exportation de contenu

Installation et utilisation de Cobian Backup 8

Iobit Malware Fighter

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Apps Sage : les 10 étapes pour publier vos données dans le Cloud.

Vous venez d acquérir un fichier de données issues de la Base de données SIRENE. Comment utiliser votre fichier?

Focus sur : Comparatif de 3 logiciels de gestion des références bibliographiques

ENVOI EN NOMBRE DE MESSAGES AUDIO

Créer une base de données vidéo sans programmation (avec Drupal)

Hervé Couturier EVP, SAP Technology Development

Atelier E-TOURISME Optimiser la visibilité de son site sur les moteurs de recherche. ecotourismepro.jimdo.com

BUREAU VIRTUEL. Utilisation de l application sur ipad. Guide utilisateur. Sciences Po Utilisation du bureau virtuel sur ipad 1 / 6

Gnuplot. Chapitre Lancer Gnuplot. 3.2 Options des graphes

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Studio. HERITIER Emmanuelle PERSYN Elodie. SCHMUTZ Amandine SCHWEITZER Guillaume

Data Tier Application avec SQL Server 2008 R2

PARTAGER UN ANNUAIRE COLLECTIF DE SIGNETS AVEC DEL.ICIO.US

Création d un site Internet

Gestion des documents avec ALFRESCO

WEB15 IBM Software for Business Process Management. un offre complète et modulaire. Alain DARMON consultant avant-vente BPM

Business Talk IP Centrex. guide. web utilisateur. pour. les services standards

AGASC / BUREAU INFORMATION JEUNESSE Saint Laurent du Var Tel : E mail : bij@agasc.fr CONSEILS ET ASTUCES

IBM SPSS Modeler Text Analytics Server for Windows. Instructions d installation

Guide d exploration de base de données de IBM SPSS Modeler 15

Gestion Électronique des Documents

ENVOI EN NOMBRE DE Mails PERSONNALISES

SQL Server 2012 et SQL Server 2014

Transcription:

Data Mining TP M2DS - 2017/2018 24 Novembre 2017 1 Installation de Knime Knime est un logiciel disponible gratuitement. Le lien suivant https://www.knime.org/ downloads/overview permet le téléchargement de ce logiciel. Cette page demande tout d abord une inscription. Ensuite, elle fournit les installables pour les différents systèmes d exploitation. Knime offre une interface graphique conviviale. La Figure 1 présente les rubriques principales de Knime. Figure 1 Interface graphique de Knime Un projet Knime est tout simplement un workflow, plus précisément, c est une suite de nœuds où chacun fait une opération spécifique. La Figure 2 illustre un workflow. Par exemple, Le nœud «File Reader» permet de lire un fichier csv contenant les 2 Téléchargement de données Les données sont disponibles à l adresse suivante : goo.gl/nu2olb. Il contient les deux jeux de données suivants : 1. Iris : C est une base de différentes variétés d iris. Chaque iris (objet) est décrit par 5 attributs : 1

Figure 2 Exemple d un workflow Knime Longueur du sépale. Largeur du sépale. Longueur du pétale. Largeur du pétale. Variété d Iris (Classe), il existe 3 classes : Iris Setosa, Iris Versicolour, Iris Virginica. La base contient 150 instances (50 fleurs pour chaque classe). 2. Bears : C est une base où chaque objet décrit un ours à l aides des attributs suivants : Age : L age en mois. Month : le mois où les mesures sur cet ours ont été prises. Sex : le sexe de l ours. Headlen : taille de la tête en pouce. Headwth : la largeur de la tête en pouce. Neck : Le tour du cou en pouce. Length : La taille du corps en pouce. Chest : le tour de la poitrine en pouce. Weight : le poids de l ours en livres. La base contient 54 enregistrements (ours). 3 Exercice 1 - Jeu de données Iris L objectif de cet exercice est l exploration et la fouille du jeu de données Iris. Tout d abord, on crée un nouveau projet (File New New Knime Workflow). Chargement de données : Pour charger les données, on sélectionne le nœud «File Reader». Ensuite, on ouvre la fenêtre de configuration du nœud (clique droit sur le nœud, choisir «configure»). Sur cette fenêtre, on spécifie le fichier de données à charger. Exploration de données : Dans cet étape, on fait l exploration et la visualisation des Pour identifier facilement les trois classes de fleurs dans les visualisations, il est intéressant de colorer les données (attribuer une couleur à chaque classe). Pour ce faire, on peut utiliser le module «Color Manager». Knime regroupe les nœuds de visualisation dans la rubrique «Views» située dans le répertoire des nœuds. Par exemple, on peut utiliser le nœud «Box Plot», «Conditional 2

Box Plot», et «Scatter Plot». On peut voir la corrélation entre les attributs en utilisant le nœud «Linear Correlation». La Figure 3 montre un exemple de workflow pour cette étape. Figure 3 Exploration de données Iris Clustering : En utilisant les 4 attributs numériques des fleurs, on vise à partitionner les 1. Pour équilibrer l impact des attributs sur le clustering, on normalise ces attributs. On peut utiliser le nœud «Normalizer». Ce nœud offre plusieurs types de normalisation, par exemple : la normalisation min-max. 2. Pour faire le clustering, on peut choisir une des méthodes offertes dans la rubrique (Analytics Mining Clustering). 3. Enfin, on peut visualiser le résultat pour voir la relation entre les clusters trouvés et les différents attributs. La Figure 4 montre un exemple de workflow pour cette étape. Figure 4 Clustering de données Iris Fouille de motifs et règles d association : Cette partie vise à découvrir les motifs fréquents et les règles d associations qui caractérisent les Knime implémente une méthode de fouille de motifs booléens. Pour cela, il faut tout d abord transformer les attributs numériques en attributs booléens. Par exemple, on peut appliquer une discrétisation sur les attributs. 4 Exercice 2 - Jeu de données Ours L objectif de cet exercice est d explorer la base de données «Ours» et d appliquer des tâches de fouille sur cette dernière. Plusieurs tâches peuvent être faites : Appliquer un clustering, afin de voir s il y a des clusters distingués d ours, avec des caractéristiques assez différentes. 3

Pour les gardes forestiers, il est plus facile de mesurer les longueurs d un ours (taille de la tête, taille du corps...) que de peser l ours. Alors, il peut être intéressant de pouvoir estimer le poids de l ours en se basant sur les autres mesures qui sont plus facile à avoir. Pour ce faire, on peut utiliser la classification supervisée. Par ailleurs, on peut faire la fouille de motifs et règles d association sur cette base de 5 Exercice 3 - Exemples workflow Voici deux exemples de workflows plus complexes : http://liris.cnrs.fr/~mplantev/ens/tp/050004_lastfm_recommendations.zip http://liris.cnrs.fr/~mplantev/ens/tp/008001_apachelogfileanalytics.zip Comprendre et décrire un de ces workflows. 6 Exercice 4 - Détection de points d intérêt L objectif de cet exercice est de trouver de manière automatique des points d intérêts intéressants dans la ville de Lyon, définis par une activité forte de prise de photos. Pour cela, on veillera à détailler chaque étape du processus de KDD (à l aide du logiciel Knime). Compréhension, nettoyage des données, visualisation et statistiques. Il faudra par exemple : vérifier la cohérence des données (dates, positions GPS) ; supprimer les doublons, afficher les points sur une carte monde,... On utilisera entre autres les noeuds File Reader, GroupBy, Row Filter, Geo- Coordinate Row Filter, OSM Map View, Missing Value. Sélection des attributs intéressants pour l analyse courante (Column Filter ). Fouille de données avec du clustering : comparer, discuter k-means et DBSCAN. On utilisera les noeuds k-means, Color Manager, Color Appender, OSM Map View, DBScan 3.x, Weka Cluster Assigner, Missing Value. Évaluation, interprétation, visualisation (sur une carte), discussion des résultats. Comment votre analyse peut-elle aider le Grand Lyon? Quelles connaissances lui apporte-telle? La dernière étape est souvent négligée, mais elle est capitale. Un résultat de fouille de données ne sert à rien s il n est pas actionnable : il doit servir à quelque chose, et le mode d emploi doit être donné. Les données sont disponibles sur le lien suivant : http://liris.cnrs.fr/~mplantev/ens/dmtp/flickr_data.csv 6.1 Un évènement : zone dense dans le temps et/ou dans l espace On cherchera alors à caractériser divers types d évènements. Un point d intérêt peut être ponctuel, récurrent,... On veillera à adapter certaines étapes de préparation/clustering/fouille de motifs et de justifier ses choix. La capacité à manipuler les blocs de base de fouille est attendue. 6.2 Description des points d intérêt grâce à la fouille de motifs Si l étape précédente nous a permis d extraire des points d intérêt candidats intéressants, une étape de validation/compréhension est manquante. On va alors chercher à décrire les clusters 4

obtenus non plus en extension, mais en intension. Pour cela, on s intéressera à trouver des explications dans les légendes et tags associées au photos de chaque cluster. On affichera par exemple des nuage de mots (word cloud). Les plus motivés pourront aussi utiliser le tutoriel proposé par Knime sur la fouille de texte, construire une table document/terme binaire. On peut alors y chercher chercher des motifs fréquents de termes pour chaque cluster, ou encore des règles d association qui concluent sur des numéro de cluster. 5