INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre en application les principes du data mining avec le logiciel Clementine de SPSS. Un mode d emploi succinct de Clementine est proposé à la fin de ce document. Préparation des données Jeu de données : 01 Cours : Exemple 3.2 et suivants 1) Afficher le tableau des données 1) Afficher l audit de données. Quelles conclusions pouvez-vous en tirer? Expliquer la signification de chaque donnée. 2) À partir des histogrammes de l audit de données, mettez à jour les problèmes et corrigez les (données aberrantes, type non reconnu (cas du poids). Jeu de données : 02 Cours : Exemple 2.1 et suivants 1) Afficher le tableau des données 2) Afficher l audit de données. Quelles conclusions pouvez-vous en tirer? Expliquer la signification de chaque donnée. 3) À partir des histogrammes de l audit de données, mettez à jour les problèmes et corrigez les (données aberrantes, type non reconnu (cas du poids). On s intéressera particulièrement à : Région US et Code département (afficher les proportions de l un dans l autre). Numéro de téléphone : trop de valeur => clé primaire possible => à extraire des modèles. On affiche les proportions pour vérifier. 4) Afficher les statistiques et les corrélations pour les variables numériques : quelles corrélations apparaissent? EPF-2006-Data mining-tp et Projet : utilisation de Clementine-p. 1
5) Afficher le nuage des points pour les corrélations que vous avez trouvées. 6) Analyser les corrélations entre données non numériques : afficher les proportions de churn dans l international avec un graphique (proportion) et en chiffres (matrice). De même avec les proportions de churn dans la messagerie. Afficher les proportions de churn dans le nombre d appels au service client (histogramme). 7) Faire l équivalent d un «group by» internationale et churn (agréger). De même avec mail et churn ; et enfin international, mail et churn. 8) Afficher la répartition du churn dans la consommation. 9) Créer un attribut calculé qui soit la somme de toutes les consommations et afficher le churn dans la consommation totale. 10) Superposer le churn dans un nuage de points correspondant à consommation jour et appels service client. 11) Du nuage de points précédent, extraire une zone de données intéressante et réafficher le nuage de points pour cette zone. 12) Calculer la répartition de la consommation jour par rapport aux appels au service client (matrice + discrétiser). 13) Faite un nuage de points en trois dimensions avec le chiffre d affaire total, le nombre de messages et le nombre d appels au service client. 14) Refaite l exercice précédent pour un nombre de messages > 0 15) Faire un «résumé» consommation totale, appel au service client, dans les deux sens, sans et avec superposition du churn. Qu en déduisez-vous. Jeu de données : Emp et Dept 1) Afficher le tableau des données pour Emp et Dept 2) Dans la table des employés, l attribut NumDept donne le numéro du département dans la table des départements. Faite la jointure SQL entre les deux tables (fusionner, clé pour fusion : NumDept, jointure interne). On en profitera pour filtrer les champs 4 et 5 de Dept qui ne servent à rien. Jeu de données : 03 Cours : Exemple 4.1 et suivants (inférences statistiques et composantes principales) 16) Afficher le tableau des données 17) Afficher l audit de données. Quelles conclusions pouvez-vous en tirer? Expliquer la signification de chaque donnée. 18) Dans toute la suite de l exercice, on ne travaillera que sur les données avec Sucre >=0 et Ka >=0 19) Afficher les statistiques et les corrélations numériques : quelles conclusions peut-on tirer? 20) Proposer une équation de régression linéaire permettant de calculer l apport nutritionnel en fonction du maximum d autres paramètres significatifs. Modélisation EPF-2006-Data mining-tp et Projet : utilisation de Clementine-p. 2
Pour les jeux de données 01, 02 et 03 Suite de la préparation des données : 1) Faire une analyse en composantes principales (pas de variable cible => typer : in ; ACP facteur, à partir du nœud typer). Lister les données particulières d après cette analyse. Essayer de déterminer les caractéristiques de ces données. 2) Faire une classification par la méthode des K Moyennes (pas de variable cible => typer in). Analyser les classes obtenues. Pour cela on peut lire le détail des résultats. 3) À partir du résultat de la classification K Moyennes (un champ supplémentaire : champs «classe»), faite les analyses qui vous semblent pertinentes. 4) Produire des règles d association (n variables cibles : typer : direction inout ; type ensemble ; GRI). Il faut discrétiser certaines données. Analyser et commenter les résultats. 5) Produire des arbres décision : choisir une variable cible et les variables en entrée pour la décision. Il faut discrétiser certaines données. 6) Quelles conclusions générales pouvez-vous tirer? PROJET DE DATA MINING On va travailler sur le fichier population.txt Faire une analyse de data mining Préparation des données Application des différents modèles de données. RENDU Un CD contenant : Les flux Clémentine Un rapport (document word) contenant pour chaque analyse : Le dictionnaire des données Des résultats graphiques et des commentaires appropriés. Les conclusions pour chaque analyse UTILISATION DE CLEMENTINE - SPSS Clementine est un logiciel de data mining. Comme tous les logiciels de data mining, il comporte deux parties : Une partie d analyse et de manipulation des données «classique» Une partie de modélisation propre au data mining EPF-2006-Data mining-tp et Projet : utilisation de Clementine-p. 3
La partie d analyse et de manipulation des données reprend les notions de base de l algèbre relationnelle (SQL). La partie de modélisation propre au data mining utilise les algorithmes spécifiques du data mining. Didacticiel Dans le logiciel : Aide / Didacticiel Vocabulaire de base : flux et processus Flux : traitement complet de données produisant un résultat exploitable. Processus : étape d un traitement complet, qui lui est appelé «flux». Dans Clémentine, le processus est une icône ou un nœud qu on peut relier à d autres processus pour former des flux. Les nœuds sont regroupés en bas, dans la zone d outils de données et de modélisation : sources, opérations sur ligne, opérations sur champs, graphisme, modélisation, sortie. Présentation des outils de Clémentine Dans la «palette de nœuds», zone horizontale en bas de la fenêtre de Clémentine, le logiciel propose toutes les opérations possibles regroupées logiquement : Sources Opérations sur les lignes Opérations sur les champs Graphiques Modélisation Sortie Dans ces opérations, on va retrouver la logique de l algèbre relationnelle : Select : choix des attributs, attributs calculés, élimination des doublons, fonctions de groupe From : choix des tables, produit cartésien, jointure Where : choix des lignes Order by : tris Group by : regroupements On a aussi la possibilité de faire des opérations ensemblistes : Union, Minus, Intersection EPF-2006-Data mining-tp et Projet : utilisation de Clementine-p. 4
Sources Les outils SGBD, Délimité, Fixe, SPSS, SAS permettent de choisir un fichier de données sur lequel se feront les opérations de data mining. Le fichier de données ne sera pas modifié par les opérations du data mining. Pour travailler à partir d un fichier excel enregistré en format texte, on utilise l outil «Délimité». Opérations sur les lignes 8 opérations proposées par Clémentine : Sélectionner, Echantillonner, Equilibrer, Agréger, Trier, Fusionner, Ajouter, Distinguer Les opérations correspondant à l algèbre relationnelle (SQL) : Clémentine SQL Exemple Sélectionner Where Agréger Group by Trier Order by Distinguer Distinct Fusionner Jointure Emp-Dept Ajouter Union 3333-Churn-2.20 Opérations spécifiques au data mining Opération Échantillonner Équilibrer Explications Permet de produire un échantillon à partir d un ensemble de départ Permet de modifier la répartition des valeurs d une variable. Opérations sur les champs (sur les colonnes) 10 opérations proposées par Clémentine : Typer, Filtrer, Calculer, Remplacer, Recoder, Discrétiser, Partitionner, Binariser, Historiser, Retrier Les opérations correspondant à l algèbre relationnelle (SQL) : Clémentine SQL Exemple Re-trier Select Permet de définir l ordre d affichage des EPF-2006-Data mining-tp et Projet : utilisation de Clementine-p. 5
colonnes Filtrer Select Permet de choisir les colonnes et de les renommer Calculer Select Permet de générer de nouveaux champs et des champs calculer Opérations spécifiques au data mining Opération Typer Remplacer / Recoder Discrétiser Partitionner Binariser Historiser Explications Permet de modifier le type des champs Permet de modifier les valeurs des variables d un champ selon certains critères Graphiques 7 opérations proposées par Clémentine : Nuage, Proportion, Histogramme, Résumé, Courbe, Relation, Evaluation Clémentine Nuage Proportion Histogramme Résumé Courbe Relation Evaluation 2 ou 3 variables, plus une superposition 1 var. non numérique + superposition 1 var. numérique + superposition Histogramme à deux variables Modélisation 5 opérations proposées par Clémentine en version d évaluation : Arbre de décision, K moyennes, Règles d association, Composantes principales, Régression Clémentine EPF-2006-Data mining-tp et Projet : utilisation de Clementine-p. 6
Arbre C & RT K-means GRI (règles d asso) ACP / Facteur Régression Sorties 14 opérations proposées par Clémentine qu on peut regrouper en 4 genres : 4 outils d observation des données : Table Matrice Audit données Statistiques Qualité Analyse la qualité initiale des données 2 outils de rapport : Analyse Rapport Crée un rapport comparant l exactitude des modèles prédictifs 1 outil de calcul statistique : V. Globales 6 outils d exportation des données : Excel Fichier plat SGBD Export SPSS Export SAS Commande SPSS EPF-2006-Data mining-tp et Projet : utilisation de Clementine-p. 7