INTRODUCTION AU DATA MINING



Documents pareils
données en connaissance et en actions?

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Le langage SQL Rappels

Langage SQL : créer et interroger une base

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Introduction à la B.I. Avec SQL Server 2008

1 Introduction et installation

Les bases de données

1 Modélisation d être mauvais payeur

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

TP Bases de données réparties

Logiciel XLSTAT version rue Damrémont PARIS

Introduction au datamining

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

La place de SAS dans l'informatique décisionnelle

Localisation des fonctions

TD n 10 : Ma première Base de Données

ANNEXE 8 : Le Mailing

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Le Langage SQL version Oracle

Business Intelligence avec Excel, Power BI et Office 365

Langage SQL (1) 4 septembre IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes

Traitement des données avec Microsoft EXCEL 2010

Business Intelligence

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

2 Serveurs OLAP et introduction au Data Mining

Programmes des classes préparatoires aux Grandes Ecoles

Complet Intuitif Efficace. Références

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

SQL SERVER 2008, BUSINESS INTELLIGENCE

SQL Serveur Programme de formation. France Belgique Suisse - Canada. Formez vos salariés pour optimiser la productivité de votre entreprise

Bases de données cours 4 Construction de requêtes en SQL. Catalin Dima

La classification automatique de données quantitatives

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Formations 2015 Bureautique

Évaluation et optimisation de requêtes

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Bases de données élémentaires Maude Manouvrier

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

SPHINX Logiciel de dépouillement d enquêtes

Objectifs du TP : Initiation à Access

GUIDE Excel (version débutante) Version 2013

Bases de données avancées Introduction

CESI Bases de données

Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013

SUGARCRM MODULE RAPPORTS

Note de cours. Introduction à Excel 2007

TP base de données SQLite. 1 Différents choix possibles et choix de SQLite : 2 Définir une base de donnée avec SQLite Manager

Introduction à Business Objects. J. Akoka I. Wattiau

Extraction d informations stratégiques par Analyse en Composantes Principales

BIRT (Business Intelligence and Reporting Tools)

Utiliser Access ou Excel pour gérer vos données

CATALOGUE DES FORMATIONS 2014

Bases de Données. Le cas des BD relationnelles ouverture sur les BD relationnelles spatiales Séance 2 : Mise en oeuvre

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

LIMESURVEY. LimeSurvey est une application permettant de créer des questionnaires d enquête en ligne et d en suivre le dépouillement.

Optimisation SQL. Quelques règles de bases

Accélérer l agilité de votre site de e-commerce. Cas client

Travailler avec les télécommunications

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

F0RMAT I0N BUREAUTIQUE

TP2 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

SharePoint 2013 L'environnement de travail collaboratif

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Base de données relationnelle et requêtes SQL

ECR_DESCRIPTION CHAR(80), ECR_MONTANT NUMBER(10,2) NOT NULL, ECR_SENS CHAR(1) NOT NULL) ;

clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE

Travaux pratiques avec RapidMiner

Cours: Les Jointures 1

1 Modélisation d une base de données pour une société de bourse

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Initiation à la bureautique

Utilisation de Solid Edge Embedded Client

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Suivi de la formation

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

BUSINESS INTELLIGENCE

Entrepôt de données 1. Introduction

DATA MINING - Analyses de données symboliques sur les restaurants

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Access et Org.Base : mêmes objectifs? Description du thème : Création de grilles d écran pour une école de conduite.

Guide de l utilisateur de IBM SPSS Modeler 15

4.2 Unités d enseignement du M1

et les Systèmes Multidimensionnels

Les Entrepôts de Données

Université de Picardie - Jules Verne UFR d'economie et de Gestion

INSTITUT NATIONAL DES TELECOMMUNICATIONS CONTROLE DES CONNAISSANCES. 2. Les questions sont indépendantes les unes des autres.

Bases de données cours 1

EXCEL et base de données

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Sommaire. BilanStat manuel de présentation et d utilisation Page 2

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Le Sphinx Millenium Modes opératoires Préparer, administrer, Dépouiller les enquêtes

Business Intelligence simple et efficace avec Excel et PowerPivot

Logiciel Le Sphinx Plus 2 version 5. Le Sphinx Développement Chavanod

Silfid : Agence de création de site internet, formations et Conseils Retour sommaire

KIELA CONSULTING. Microsoft Office Open Office Windows - Internet. Formation sur mesure

Transcription:

INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre en application les principes du data mining avec le logiciel Clementine de SPSS. Un mode d emploi succinct de Clementine est proposé à la fin de ce document. Préparation des données Jeu de données : 01 Cours : Exemple 3.2 et suivants 1) Afficher le tableau des données 1) Afficher l audit de données. Quelles conclusions pouvez-vous en tirer? Expliquer la signification de chaque donnée. 2) À partir des histogrammes de l audit de données, mettez à jour les problèmes et corrigez les (données aberrantes, type non reconnu (cas du poids). Jeu de données : 02 Cours : Exemple 2.1 et suivants 1) Afficher le tableau des données 2) Afficher l audit de données. Quelles conclusions pouvez-vous en tirer? Expliquer la signification de chaque donnée. 3) À partir des histogrammes de l audit de données, mettez à jour les problèmes et corrigez les (données aberrantes, type non reconnu (cas du poids). On s intéressera particulièrement à : Région US et Code département (afficher les proportions de l un dans l autre). Numéro de téléphone : trop de valeur => clé primaire possible => à extraire des modèles. On affiche les proportions pour vérifier. 4) Afficher les statistiques et les corrélations pour les variables numériques : quelles corrélations apparaissent? EPF-2006-Data mining-tp et Projet : utilisation de Clementine-p. 1

5) Afficher le nuage des points pour les corrélations que vous avez trouvées. 6) Analyser les corrélations entre données non numériques : afficher les proportions de churn dans l international avec un graphique (proportion) et en chiffres (matrice). De même avec les proportions de churn dans la messagerie. Afficher les proportions de churn dans le nombre d appels au service client (histogramme). 7) Faire l équivalent d un «group by» internationale et churn (agréger). De même avec mail et churn ; et enfin international, mail et churn. 8) Afficher la répartition du churn dans la consommation. 9) Créer un attribut calculé qui soit la somme de toutes les consommations et afficher le churn dans la consommation totale. 10) Superposer le churn dans un nuage de points correspondant à consommation jour et appels service client. 11) Du nuage de points précédent, extraire une zone de données intéressante et réafficher le nuage de points pour cette zone. 12) Calculer la répartition de la consommation jour par rapport aux appels au service client (matrice + discrétiser). 13) Faite un nuage de points en trois dimensions avec le chiffre d affaire total, le nombre de messages et le nombre d appels au service client. 14) Refaite l exercice précédent pour un nombre de messages > 0 15) Faire un «résumé» consommation totale, appel au service client, dans les deux sens, sans et avec superposition du churn. Qu en déduisez-vous. Jeu de données : Emp et Dept 1) Afficher le tableau des données pour Emp et Dept 2) Dans la table des employés, l attribut NumDept donne le numéro du département dans la table des départements. Faite la jointure SQL entre les deux tables (fusionner, clé pour fusion : NumDept, jointure interne). On en profitera pour filtrer les champs 4 et 5 de Dept qui ne servent à rien. Jeu de données : 03 Cours : Exemple 4.1 et suivants (inférences statistiques et composantes principales) 16) Afficher le tableau des données 17) Afficher l audit de données. Quelles conclusions pouvez-vous en tirer? Expliquer la signification de chaque donnée. 18) Dans toute la suite de l exercice, on ne travaillera que sur les données avec Sucre >=0 et Ka >=0 19) Afficher les statistiques et les corrélations numériques : quelles conclusions peut-on tirer? 20) Proposer une équation de régression linéaire permettant de calculer l apport nutritionnel en fonction du maximum d autres paramètres significatifs. Modélisation EPF-2006-Data mining-tp et Projet : utilisation de Clementine-p. 2

Pour les jeux de données 01, 02 et 03 Suite de la préparation des données : 1) Faire une analyse en composantes principales (pas de variable cible => typer : in ; ACP facteur, à partir du nœud typer). Lister les données particulières d après cette analyse. Essayer de déterminer les caractéristiques de ces données. 2) Faire une classification par la méthode des K Moyennes (pas de variable cible => typer in). Analyser les classes obtenues. Pour cela on peut lire le détail des résultats. 3) À partir du résultat de la classification K Moyennes (un champ supplémentaire : champs «classe»), faite les analyses qui vous semblent pertinentes. 4) Produire des règles d association (n variables cibles : typer : direction inout ; type ensemble ; GRI). Il faut discrétiser certaines données. Analyser et commenter les résultats. 5) Produire des arbres décision : choisir une variable cible et les variables en entrée pour la décision. Il faut discrétiser certaines données. 6) Quelles conclusions générales pouvez-vous tirer? PROJET DE DATA MINING On va travailler sur le fichier population.txt Faire une analyse de data mining Préparation des données Application des différents modèles de données. RENDU Un CD contenant : Les flux Clémentine Un rapport (document word) contenant pour chaque analyse : Le dictionnaire des données Des résultats graphiques et des commentaires appropriés. Les conclusions pour chaque analyse UTILISATION DE CLEMENTINE - SPSS Clementine est un logiciel de data mining. Comme tous les logiciels de data mining, il comporte deux parties : Une partie d analyse et de manipulation des données «classique» Une partie de modélisation propre au data mining EPF-2006-Data mining-tp et Projet : utilisation de Clementine-p. 3

La partie d analyse et de manipulation des données reprend les notions de base de l algèbre relationnelle (SQL). La partie de modélisation propre au data mining utilise les algorithmes spécifiques du data mining. Didacticiel Dans le logiciel : Aide / Didacticiel Vocabulaire de base : flux et processus Flux : traitement complet de données produisant un résultat exploitable. Processus : étape d un traitement complet, qui lui est appelé «flux». Dans Clémentine, le processus est une icône ou un nœud qu on peut relier à d autres processus pour former des flux. Les nœuds sont regroupés en bas, dans la zone d outils de données et de modélisation : sources, opérations sur ligne, opérations sur champs, graphisme, modélisation, sortie. Présentation des outils de Clémentine Dans la «palette de nœuds», zone horizontale en bas de la fenêtre de Clémentine, le logiciel propose toutes les opérations possibles regroupées logiquement : Sources Opérations sur les lignes Opérations sur les champs Graphiques Modélisation Sortie Dans ces opérations, on va retrouver la logique de l algèbre relationnelle : Select : choix des attributs, attributs calculés, élimination des doublons, fonctions de groupe From : choix des tables, produit cartésien, jointure Where : choix des lignes Order by : tris Group by : regroupements On a aussi la possibilité de faire des opérations ensemblistes : Union, Minus, Intersection EPF-2006-Data mining-tp et Projet : utilisation de Clementine-p. 4

Sources Les outils SGBD, Délimité, Fixe, SPSS, SAS permettent de choisir un fichier de données sur lequel se feront les opérations de data mining. Le fichier de données ne sera pas modifié par les opérations du data mining. Pour travailler à partir d un fichier excel enregistré en format texte, on utilise l outil «Délimité». Opérations sur les lignes 8 opérations proposées par Clémentine : Sélectionner, Echantillonner, Equilibrer, Agréger, Trier, Fusionner, Ajouter, Distinguer Les opérations correspondant à l algèbre relationnelle (SQL) : Clémentine SQL Exemple Sélectionner Where Agréger Group by Trier Order by Distinguer Distinct Fusionner Jointure Emp-Dept Ajouter Union 3333-Churn-2.20 Opérations spécifiques au data mining Opération Échantillonner Équilibrer Explications Permet de produire un échantillon à partir d un ensemble de départ Permet de modifier la répartition des valeurs d une variable. Opérations sur les champs (sur les colonnes) 10 opérations proposées par Clémentine : Typer, Filtrer, Calculer, Remplacer, Recoder, Discrétiser, Partitionner, Binariser, Historiser, Retrier Les opérations correspondant à l algèbre relationnelle (SQL) : Clémentine SQL Exemple Re-trier Select Permet de définir l ordre d affichage des EPF-2006-Data mining-tp et Projet : utilisation de Clementine-p. 5

colonnes Filtrer Select Permet de choisir les colonnes et de les renommer Calculer Select Permet de générer de nouveaux champs et des champs calculer Opérations spécifiques au data mining Opération Typer Remplacer / Recoder Discrétiser Partitionner Binariser Historiser Explications Permet de modifier le type des champs Permet de modifier les valeurs des variables d un champ selon certains critères Graphiques 7 opérations proposées par Clémentine : Nuage, Proportion, Histogramme, Résumé, Courbe, Relation, Evaluation Clémentine Nuage Proportion Histogramme Résumé Courbe Relation Evaluation 2 ou 3 variables, plus une superposition 1 var. non numérique + superposition 1 var. numérique + superposition Histogramme à deux variables Modélisation 5 opérations proposées par Clémentine en version d évaluation : Arbre de décision, K moyennes, Règles d association, Composantes principales, Régression Clémentine EPF-2006-Data mining-tp et Projet : utilisation de Clementine-p. 6

Arbre C & RT K-means GRI (règles d asso) ACP / Facteur Régression Sorties 14 opérations proposées par Clémentine qu on peut regrouper en 4 genres : 4 outils d observation des données : Table Matrice Audit données Statistiques Qualité Analyse la qualité initiale des données 2 outils de rapport : Analyse Rapport Crée un rapport comparant l exactitude des modèles prédictifs 1 outil de calcul statistique : V. Globales 6 outils d exportation des données : Excel Fichier plat SGBD Export SPSS Export SAS Commande SPSS EPF-2006-Data mining-tp et Projet : utilisation de Clementine-p. 7