Thomas André Manuel Brisville. Data Mining. Compte-rendu de l activité d évaluation 11/02/2015 UTFPR



Documents pareils
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Annexe commune aux séries ES, L et S : boîtes et quantiles

Travailler avec les télécommunications

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

IBM SPSS Direct Marketing 21

Statistique : Résumé de cours et méthodes

Séries Statistiques Simples

données en connaissance et en actions?

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Introduction à la B.I. Avec SQL Server 2008

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

TP2 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Pourquoi l apprentissage?

Statistiques Descriptives à une dimension

INTRODUCTION AU DATA MINING

Filière Informatique de gestion. Facturation par APDRG : prédiction des recettes des cas non codés

Logiciel XLSTAT version rue Damrémont PARIS

ESIEA PARIS

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Formation continue. Ensae-Ensai Formation Continue (Cepe)

IBM SPSS Statistics Base 20

Générer du code à partir d une description de haut niveau

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Agenda de la présentation

2 Serveurs OLAP et introduction au Data Mining

1. Vocabulaire : Introduction au tableau élémentaire

IBM SPSS Direct Marketing

Leçon N 4 : Statistiques à deux variables

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Classe de première L

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

Travaux pratiques avec RapidMiner

1 Modélisation d être mauvais payeur

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Les algorithmes de fouille de données

La classification automatique de données quantitatives

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Cartographie avec R. Baptiste Coulmont. 16 septembre 2010

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

Cybermarché et analyse comportementale

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Algorithmes d'apprentissage

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Aide - mémoire gnuplot 4.0

Université de Bangui. Modélisons en UML

Bouzerda Feriel- Hadjira Louati Mortadha Maâtallah Amine

Cabri et le programme de géométrie au secondaire au Québec

SQL Server 2012 et SQL Server 2014

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Statistiques à une variable

Introduction au datamining

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Enjeux mathématiques et Statistiques du Big Data

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Business Intelligence Reporting

HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences.

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1

Docteur en Informatique. Haytham ELGHAZEL. Classification et Prévision des Données Hétérogènes : Application aux Trajectoires et Séjours Hospitaliers

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

INF6304 Interfaces Intelligentes

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

DATA QUERY : MODÉLISATION AVANCÉE DE VOS DONNÉES

Intelligence Inventive & Mapping des réseaux de Recherche. Expernova & Active Innovation Management GFII 5 Mars 2015

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Aide-mémoire de statistique appliquée à la biologie

Créer le schéma relationnel d une base de données ACCESS

XML, PMML, SOAP. Rapport. EPITA SCIA Promo janvier Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services

Brève introduction à la fouille de grandes bases de données océaniques

SQL SERVER 2008, BUSINESS INTELLIGENCE

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Ricco Rakotomalala. SQL Server Data Mining Add-Ins (incluant Data Mining Client pour Excel).

Communiqué de Lancement

Plan. Data mining (partie 2) Data Mining : Utilisateur ou Statisticien? Data Mining : Cocktail de techniques. Master MIAGE - ENITE.

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Traduction des Langages : Le Compilateur Micro Java

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Emploi du temps prévisionnel

DATA MINING - Analyses de données symboliques sur les restaurants

DATA MINING FOR SCIENTISTS

Programmation découverte du monde (autre que mathématiques):

Représentation d une distribution

Correction : E = Soit E = -1,6. F = 12 Soit F = y = 11. et G = -2z + 4y G = 2 6 = 3 G = G =

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Spécificités, Applications et Outils

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

L ARBORESCENCE. Qu est-ce qu un dossier? L arborescence?

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

1 Importer et modifier des données avec R Commander

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique

Statistique Descriptive Élémentaire

Transcription:

Thomas André Manuel Brisville Data Mining Compte-rendu de l activité d évaluation 11/02/2015 UTFPR

1 Table des matières 2 Introduction... 2 3 La base de données utilisée... 3 3.1 Origine de la base... 3 3.2 Ses attributs et leurs caractéristiques... 3 3.3 Exploration des données... 4 4 Classification... 6 4.1 Arbres de décision... 6 4.1.1 Avec le package Party... 6 4.1.2 Avec le package Rpart... 6 4.2 Naïve-Bayes... 8 5 Cluster... 9 5.1 K-means... 9 6 Conclusion... 10 1

2 Introduction Le rapport suivant a pour but d exposer les résultats du travail d évaluation du cours de Data Mining dispensé à l UTFPR par le professeur Celso Kaestner dans le cadre du programme de Post-Graduation en Informatique appliquée. Ce travail d évaluation a pour objectif de solliciter et de mettre en œuvre les concepts abordés en cours en utilisant une base de données comme support d études. Tout au long de ce rapport, le langage de programmation employé est le langage R et sera utilisé dans son environnement de développement dédié : R Studio. 2

3 La base de données utilisée Pour ce travail, j utilise la base «Wine recognition data». Cette base a déjà été utilisée pour des travaux visant à comparer plusieurs classificateurs. 3.1 Origine de la base Ces données sont les résultats d analyses chimiques de vins qui ont vieillis dans la même région en Italie mais issus de 3 vignobles différents. Les analyses déterminent les quantités de 13 composants trouvés dans chacun de ces 3 types de vins. 3.2 Ses attributs et leurs caractéristiques La base de données est composée de 13 attributs représentant les 13 composants trouvés dans les vins. Tous ces attributs sont continus. Elle possède également un attribut qui représente l identifiant de classe, c est-à-dire, de quel vignoble est issu le vin concerné. 3

3.3 Exploration des données Le langage R permet d explorer les données du Dataset, de façon individuelle ou multidimensionnelle. On peut, par exemple connaitre la distribution des types de vin dans l ensemble de données et recourir à une représentation graphique de ces résultats. La fonction hist() permet d avoir une représentation graphique de la distribution d un attribut dans l intervalle de ses valeurs. Il existe de nombreuses façons de représenter les données, en voici quelques exemples. Le Boxplot est une représentation graphique de données statistiques. Il s'agit de tracer un rectangle allant du premier quartile au troisième quartile et coupé par la médiane. On ajoute alors des segments aux extrémités menant jusqu'aux valeurs extrêmes, ou jusqu'aux premier et neuvième déciles. Quartile : En statistique descriptive, un quartile est chacune des 3 valeurs qui divisent les données triées en 4 parts égales, de sorte que chaque partie représente 1/4 de l'échantillon de population. le 1er quartile sépare les 25 % inférieurs des données ; le 2e quartile est la médiane de la série ; le 3e quartile sépare les 25 % supérieurs des données. Décile : En statistique descriptive, un décile est chacune des 9 valeurs qui divisent un jeu de données, triées selon une relation d'ordre, en 10 parts égales, de sorte que chaque partie représente 1/10 de l'échantillon de population. le seuil du 1er décile sépare le jeu de données entre les 10 % inférieurs et le reste des données ; le seuil du 9e décile sépare les 90 % inférieurs des données des 10 % supérieurs. 4

Prenons l exemple de la représentation en Boxplot des valeurs du taux d alcool en fonction du type de vin : Le scatter plot permet également d avoir une représentation graphique des données en utilisant 2 attributs. Les symboles et couleurs mettent ici en évidence les types de vins. Une représentation graphique des données en utilisant 3 attributs est également possible. Nous avons alors une représentation en 3D des données. 5

4 Classification 4.1 Arbres de décision 4.1.1 Avec le package Party Le but des arbres de décisions et de pouvoir prédire les nouvelles données. Pour cela, j ai d abord utilisé le package Party qui fournit les fonctions ctree() pour construire l arbre de décision et predict() qui prédit les nouvelles données. J utilise l ensemble de base pour avoir un ensemble training et un ensemble test. Je construis ensuite mon arbre avec pour variable cible, Classe qui correspond au type de vin. 4.1.2 Avec le package Rpart Ici, on utilise la fonction rpart() pour construire un arbre, l arbre avec le minimum d erreurs de prédiction est sélectionné. 6

On utilise ensuite cet arbre pour faire des prédictions et les comparer aux données actuelles. 7

4.2 Naïve-Bayes Pour construire un classificateur Naive-Bayes, on a besoin du package e1071. Le classificateur génère trois gaussiennes représentant chaque valeur de l attribut Classe. 8

5 Cluster 5.1 K-means Pour le k-means clustering, j ai commencé par mettre de côté la colonne de l attribut Classe. J ai ensuite appliqué la fonction kmeans() sur mes données pour 3 clusters. J ai ensuite comparé ces clusters à l attribut Classe. On peut voir que le cluster 3 représente assez bien le vin du vignoble 2. 9

6 Conclusion Ce travail m a permis de mettre en œuvre des concepts vus en cours, même si je n ai pas réussi à tout faire, j ai eu l opportunité d acquérir des connaissances sur un domaine pointu de l informatique. 10