Thomas André Manuel Brisville. Data Mining. Compte-rendu de l activité d évaluation 11/02/2015 UTFPR

Dimension: px
Commencer à balayer dès la page:

Download "Thomas André Manuel Brisville. Data Mining. Compte-rendu de l activité d évaluation 11/02/2015 UTFPR"

Transcription

1 Thomas André Manuel Brisville Data Mining Compte-rendu de l activité d évaluation 11/02/2015 UTFPR

2 1 Table des matières 2 Introduction La base de données utilisée Origine de la base Ses attributs et leurs caractéristiques Exploration des données Classification Arbres de décision Avec le package Party Avec le package Rpart Naïve-Bayes Cluster K-means Conclusion

3 2 Introduction Le rapport suivant a pour but d exposer les résultats du travail d évaluation du cours de Data Mining dispensé à l UTFPR par le professeur Celso Kaestner dans le cadre du programme de Post-Graduation en Informatique appliquée. Ce travail d évaluation a pour objectif de solliciter et de mettre en œuvre les concepts abordés en cours en utilisant une base de données comme support d études. Tout au long de ce rapport, le langage de programmation employé est le langage R et sera utilisé dans son environnement de développement dédié : R Studio. 2

4 3 La base de données utilisée Pour ce travail, j utilise la base «Wine recognition data». Cette base a déjà été utilisée pour des travaux visant à comparer plusieurs classificateurs. 3.1 Origine de la base Ces données sont les résultats d analyses chimiques de vins qui ont vieillis dans la même région en Italie mais issus de 3 vignobles différents. Les analyses déterminent les quantités de 13 composants trouvés dans chacun de ces 3 types de vins. 3.2 Ses attributs et leurs caractéristiques La base de données est composée de 13 attributs représentant les 13 composants trouvés dans les vins. Tous ces attributs sont continus. Elle possède également un attribut qui représente l identifiant de classe, c est-à-dire, de quel vignoble est issu le vin concerné. 3

5 3.3 Exploration des données Le langage R permet d explorer les données du Dataset, de façon individuelle ou multidimensionnelle. On peut, par exemple connaitre la distribution des types de vin dans l ensemble de données et recourir à une représentation graphique de ces résultats. La fonction hist() permet d avoir une représentation graphique de la distribution d un attribut dans l intervalle de ses valeurs. Il existe de nombreuses façons de représenter les données, en voici quelques exemples. Le Boxplot est une représentation graphique de données statistiques. Il s'agit de tracer un rectangle allant du premier quartile au troisième quartile et coupé par la médiane. On ajoute alors des segments aux extrémités menant jusqu'aux valeurs extrêmes, ou jusqu'aux premier et neuvième déciles. Quartile : En statistique descriptive, un quartile est chacune des 3 valeurs qui divisent les données triées en 4 parts égales, de sorte que chaque partie représente 1/4 de l'échantillon de population. le 1er quartile sépare les 25 % inférieurs des données ; le 2e quartile est la médiane de la série ; le 3e quartile sépare les 25 % supérieurs des données. Décile : En statistique descriptive, un décile est chacune des 9 valeurs qui divisent un jeu de données, triées selon une relation d'ordre, en 10 parts égales, de sorte que chaque partie représente 1/10 de l'échantillon de population. le seuil du 1er décile sépare le jeu de données entre les 10 % inférieurs et le reste des données ; le seuil du 9e décile sépare les 90 % inférieurs des données des 10 % supérieurs. 4

6 Prenons l exemple de la représentation en Boxplot des valeurs du taux d alcool en fonction du type de vin : Le scatter plot permet également d avoir une représentation graphique des données en utilisant 2 attributs. Les symboles et couleurs mettent ici en évidence les types de vins. Une représentation graphique des données en utilisant 3 attributs est également possible. Nous avons alors une représentation en 3D des données. 5

7 4 Classification 4.1 Arbres de décision Avec le package Party Le but des arbres de décisions et de pouvoir prédire les nouvelles données. Pour cela, j ai d abord utilisé le package Party qui fournit les fonctions ctree() pour construire l arbre de décision et predict() qui prédit les nouvelles données. J utilise l ensemble de base pour avoir un ensemble training et un ensemble test. Je construis ensuite mon arbre avec pour variable cible, Classe qui correspond au type de vin Avec le package Rpart Ici, on utilise la fonction rpart() pour construire un arbre, l arbre avec le minimum d erreurs de prédiction est sélectionné. 6

8 On utilise ensuite cet arbre pour faire des prédictions et les comparer aux données actuelles. 7

9 4.2 Naïve-Bayes Pour construire un classificateur Naive-Bayes, on a besoin du package e1071. Le classificateur génère trois gaussiennes représentant chaque valeur de l attribut Classe. 8

10 5 Cluster 5.1 K-means Pour le k-means clustering, j ai commencé par mettre de côté la colonne de l attribut Classe. J ai ensuite appliqué la fonction kmeans() sur mes données pour 3 clusters. J ai ensuite comparé ces clusters à l attribut Classe. On peut voir que le cluster 3 représente assez bien le vin du vignoble 2. 9

11 6 Conclusion Ce travail m a permis de mettre en œuvre des concepts vus en cours, même si je n ai pas réussi à tout faire, j ai eu l opportunité d acquérir des connaissances sur un domaine pointu de l informatique. 10

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS) MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour

Plus en détail

IBM SPSS Direct Marketing 21

IBM SPSS Direct Marketing 21 IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail

Séries Statistiques Simples

Séries Statistiques Simples 1. Collecte et Représentation de l Information 1.1 Définitions 1.2 Tableaux statistiques 1.3 Graphiques 2. Séries statistiques simples 2.1 Moyenne arithmétique 2.2 Mode & Classe modale 2.3 Effectifs &

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

TP2 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

TP2 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3 TP2 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3 30/11/2011 Plan du TP 2 Rappel sur la chaine de BI Présentation de la suite Microsoft BI Ateliers sur SSIS (2H) Ateliers sur RS (2H) 3 Rappel sur la chaine de

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Filière Informatique de gestion. Facturation par APDRG : prédiction des recettes des cas non codés

Filière Informatique de gestion. Facturation par APDRG : prédiction des recettes des cas non codés Travail de diplôme 2007 Filière Informatique de gestion Facturation par APDRG : prédiction des recettes des cas non codés PrediRec Etudiant : Mathieu Giotta Professeur : Henning Mueller www.hevs.ch SIMAV

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

ESIEA PARIS 2011-2012

ESIEA PARIS 2011-2012 ESIEA PARIS 2011-2012 Examen MAT 5201 DATA MINING Mardi 08 Novembre 2011 Première Partie : 15 minutes (7 points) Enseignant responsable : Frédéric Bertrand Remarque importante : les questions de ce questionnaire

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Formation continue. Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist Formation continue Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist La demande de data scientists est croissante mais peu de formations existent. Ce certificat

Plus en détail

IBM SPSS Statistics Base 20

IBM SPSS Statistics Base 20 IBM SPSS Statistics Base 20 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 316. Cette version s applique à IBM SPSS

Plus en détail

Générer du code à partir d une description de haut niveau

Générer du code à partir d une description de haut niveau Cedric Dumoulin Générer du code à partir d une description de haut niveau Ce projet vise à fournir un environnement de développement permettant de modéliser des UI Android à un haut niveau d abstraction,

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

2 Serveurs OLAP et introduction au Data Mining

2 Serveurs OLAP et introduction au Data Mining 2-1 2 Serveurs OLAP et introduction au Data Mining 2-2 Création et consultation des cubes en mode client-serveur Serveur OLAP Clients OLAP Clients OLAP 2-3 Intérêt Systèmes serveurs et clients Fonctionnalité

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

IBM SPSS Direct Marketing

IBM SPSS Direct Marketing IBM SPSS Statistics 19 IBM SPSS Direct Marketing Comprenez vos clients et renforcez vos campagnes marketing Points clés Avec IBM SPSS Direct Marketing, vous pouvez : Comprendre vos clients de manière plus

Plus en détail

Leçon N 4 : Statistiques à deux variables

Leçon N 4 : Statistiques à deux variables Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Classe de première L

Classe de première L Classe de première L Orientations générales Pour bon nombre d élèves qui s orientent en série L, la classe de première sera une fin d étude en mathématiques au lycée. On a donc voulu ici assurer à tous

Plus en détail

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master 2 SRO Année scolaire 2009/2010 Crédit Scoring Professeur : RICHARD EMILION Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master_2_SRO_Data-Mining 1 Table des matières PARTIE 1 1. Résumé

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...) Avant-propos 1. À qui s'adresse ce livre? 15 2. Pré-requis 15 3. Objectifs du livre 16 4. Notations 17 Introduction à la Business Intelligence 1. Du transactionnel au décisionnel 19 2. Business Intelligence

Plus en détail

Les algorithmes de fouille de données

Les algorithmes de fouille de données Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3 TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3 03/11/2014 Plan du TP 2 Présentation de la suite Microsoft BI Ateliers sur SSIS (2H) Ateliers sur RS (2H) 3 Présentation de la suite Microsoft BI Présentation

Plus en détail

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! "##$ % &!

 # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! ##$ % &! "# $ %%& ' ( )*+, '()*+,'+''-++.+/0112134+1.50*406 "##$ %& 8CC "#$%& ' ( )* +,-./ 0 123 456+7 3 7-55-89.*/ 0 +3 *+:3 ;< =3 3-3 8 0 23 >-8-3 >5? //*/*0;* @A: *53,,3 / * $/ >B+? - 5, 2 34*56 7 /+#** //8

Plus en détail

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Incertitude et variabilité : la nécessité de les intégrer dans les modèles Incertitude et variabilité : la nécessité de les intégrer dans les modèles M. L. Delignette-Muller Laboratoire de Biométrie et Biologie Evolutive VetAgro Sup - Université de Lyon - CNRS UMR 5558 24 novembre

Plus en détail

Cartographie avec R. Baptiste Coulmont. 16 septembre 2010

Cartographie avec R. Baptiste Coulmont. 16 septembre 2010 Cartographie avec R Baptiste Coulmont 16 septembre 2010 Introduction Ce document est à considérer comme une introduction à certaines formes de cartographie avec le logiciel R. Je suppose ici que l installation

Plus en détail

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE CHAPITRE Statistiques Population (en milliers) 63 6 6 6 Évolution de la population en France 9 998 999 3 Année Le graphique ci-contre indique l évolution de la population française de 998 à. On constate

Plus en détail

Cybermarché et analyse comportementale

Cybermarché et analyse comportementale Cybermarché et analyse comportementale Antoine-Eric Sammartino aesammartino@e-laser.fr Séminaire Data Mining - Educasoft Formations 18 juin 2001-1- MENU Le Groupe LaSer Le processus Data Mining L industrialisation

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication R. Carlos Nana Mbinkeu 1,3, C. Tangha 1, A. Chomnoue 1, A. Kuete

Plus en détail

Aide - mémoire gnuplot 4.0

Aide - mémoire gnuplot 4.0 Aide - mémoire gnuplot 4.0 Nicolas Kielbasiewicz 20 juin 2008 L objet de cet aide-mémoire est de présenter les commandes de base pour faire rapidement de très jolis graphiques et courbes à l aide du logiciel

Plus en détail

Université de Bangui. Modélisons en UML

Université de Bangui. Modélisons en UML Université de Bangui CRM Modélisons en UML Ce cours a été possible grâce à l initiative d Apollinaire MOLAYE qui m a contacté pour vous faire bénéficier de mes connaissances en nouvelles technologies et

Plus en détail

Bouzerda Feriel- Hadjira Louati Mortadha Maâtallah Amine

Bouzerda Feriel- Hadjira Louati Mortadha Maâtallah Amine Cours : Data Mining Enseignant : Professeur. Kilian Stoffel Assistant : Iulian Ciorascu Switzernet Élaboré par : Bouzerda Feriel- Hadjira Louati Mortadha Maâtallah Amine 1 Table des matières Introduction

Plus en détail

Cabri et le programme de géométrie au secondaire au Québec

Cabri et le programme de géométrie au secondaire au Québec Cabri et le programme de géométrie au secondaire au Québec Benoît Côté Département de mathématiques, UQAM, Québec cote.benoit@uqam.ca 1. Introduction - Exercice de didactique fiction Que signifie intégrer

Plus en détail

SQL Server 2012 et SQL Server 2014

SQL Server 2012 et SQL Server 2014 SQL Server 2012 et SQL Server 2014 Principales fonctions SQL Server 2012 est le système de gestion de base de données de Microsoft. Il intègre un moteur relationnel, un outil d extraction et de transformation

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

Statistiques à une variable

Statistiques à une variable Statistiques à une variable Calcul des paramètres statistiques TI-82stats.fr? Déterminer les paramètres de la série statistique : Valeurs 0 2 3 5 8 Effectifs 16 12 28 32 21? Accès au mode statistique Touche

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Business Intelligence Reporting

Business Intelligence Reporting Maître de stage : Claude Bordanave Sirinya ON-AT Année 2011 / 2012 Master1 Informatique Université Bordeaux 1 SOMMAIRE REMERCIEMENTS...4 INTRODUCTION...4 I) PRESENTATION DE L ENTREPRISE... 5 1) Raison

Plus en détail

HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences.

HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences. Notre alliance, Votre atout. HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences. C est de cette philosophie qu est née notre partenariat avec la société toulousaine (31) Bewise,

Plus en détail

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1 Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1 V. Fiolet Université de Mons-Hainaut 2006-2007 Nous allons aujourd hui nous intéresser à la tâche de classification

Plus en détail

Docteur en Informatique. Haytham ELGHAZEL. Classification et Prévision des Données Hétérogènes : Application aux Trajectoires et Séjours Hospitaliers

Docteur en Informatique. Haytham ELGHAZEL. Classification et Prévision des Données Hétérogènes : Application aux Trajectoires et Séjours Hospitaliers Université Claude Bernard Lyon 1 École Doctorale Informatique et Information pour la Société 2007 2008 THÈSE pour obtenir le grade de Docteur en Informatique (arrêté du 7 août 2006) présentée et soutenue

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2 éducalgo Manuel d utilisation 26 juin 2011 Table des matières 1 Tâche à effectuer : écrire un algorithme 2 2 Comment écrire un algorithme? 3 2.1 Avec quoi écrit-on? Avec les boutons d écriture........

Plus en détail

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Lecture critique d article Rappels Bio statistiques Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Plan du cours Rappels fondamentaux Statistiques descriptives Notions de tests statistiques

Plus en détail

DATA QUERY : MODÉLISATION AVANCÉE DE VOS DONNÉES

DATA QUERY : MODÉLISATION AVANCÉE DE VOS DONNÉES Online Intelligence Solutions DATA QUERY : MODÉLISATION AVANCÉE DE VOS DONNÉES Marion JOFFRE, Chef de produit marketing WHITE PAPER Table des matières CONTEXTE 3 Un suivi précis et détaillé de l ensemble

Plus en détail

Intelligence Inventive & Mapping des réseaux de Recherche. Expernova & Active Innovation Management GFII 5 Mars 2015

Intelligence Inventive & Mapping des réseaux de Recherche. Expernova & Active Innovation Management GFII 5 Mars 2015 Intelligence Inventive & Mapping des réseaux de Recherche Expernova & Active Innovation Management GFII 5 Mars 2015 Identification d experts & Mapping des Réseaux de Recherche [ expernova, qui sommes nous?]

Plus en détail

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI elhimdi@menara.ma 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 :

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

Créer le schéma relationnel d une base de données ACCESS

Créer le schéma relationnel d une base de données ACCESS Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...

Plus en détail

XML, PMML, SOAP. Rapport. EPITA SCIA Promo 2004 16 janvier 2003. Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

XML, PMML, SOAP. Rapport. EPITA SCIA Promo 2004 16 janvier 2003. Julien Lemoine Alexandre Thibault Nicolas Wiest-Million XML, PMML, SOAP Rapport EPITA SCIA Promo 2004 16 janvier 2003 Julien Lemoine Alexandre Thibault Nicolas Wiest-Million i TABLE DES MATIÈRES Table des matières 1 XML 1 1.1 Présentation de XML.................................

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services

Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services Nous verrons dans cet article comment exploiter simplement les données de Log de SQL Server 2008 R2 Reporting Services

Plus en détail

Brève introduction à la fouille de grandes bases de données océaniques

Brève introduction à la fouille de grandes bases de données océaniques Brève introduction à la fouille de grandes bases de données océaniques Guillaume Maze 1, Herlé Mercier 2, Ronan Fablet 3, Philippe Lenca 3 et Jean-François Piollé 4 1 Ifremer, UMR 6523, Laboratoire de

Plus en détail

SQL SERVER 2008, BUSINESS INTELLIGENCE

SQL SERVER 2008, BUSINESS INTELLIGENCE SGBD / Aide à la décision SQL SERVER 2008, BUSINESS INTELLIGENCE Réf: QLI Durée : 5 jours (7 heures) OBJECTIFS DE LA FORMATION Cette formation vous apprendra à concevoir et à déployer une solution de Business

Plus en détail

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes , avec prise en compte des plans d échantillonnage complexes par Joseph LARMARANGE version du 29 mars 2007 Ce cours a été développé pour une formation niveau M2 et Doctorat des étudiants du laboratoire

Plus en détail

Ricco Rakotomalala. SQL Server Data Mining Add-Ins (incluant Data Mining Client pour Excel).

Ricco Rakotomalala. SQL Server Data Mining Add-Ins (incluant Data Mining Client pour Excel). 1 Objectif SQL Server Data Mining Add-Ins (incluant Data Mining Client pour Excel). Excel le tableur de manière général est très populaire auprès des «data scientist» 1. Mais, s il est effectivement performant

Plus en détail

Communiqué de Lancement

Communiqué de Lancement Direction du Marketing Produits Sage - Division Mid Market Communiqué de Lancement Rapprochement Bancaire 1000 Produit : Rapprochement Bancaire 1000 Bases de Données : Oracle - MS/SQL Server Microsoft

Plus en détail

Plan. Data mining (partie 2) Data Mining : Utilisateur ou Statisticien? Data Mining : Cocktail de techniques. Master MIAGE - ENITE.

Plan. Data mining (partie 2) Data Mining : Utilisateur ou Statisticien? Data Mining : Cocktail de techniques. Master MIAGE - ENITE. Plan Data mining (partie 2) Introduction 1. Les tâches du data mining 2. Le processus de data mining Master MIAGE - ENITE Spécialité ACSI 3. Les bases de l'analyse de données 4. Les modèles du data mining

Plus en détail

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée

Plus en détail

Traduction des Langages : Le Compilateur Micro Java

Traduction des Langages : Le Compilateur Micro Java BARABZAN Jean-René OUAHAB Karim TUCITO David 2A IMA Traduction des Langages : Le Compilateur Micro Java µ Page 1 Introduction Le but de ce projet est d écrire en JAVA un compilateur Micro-Java générant

Plus en détail

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème Chapitre IX L intégration de données Le problème De façon très générale, le problème de l intégration de données (data integration) est de permettre un accès cohérent à des données d origine, de structuration

Plus en détail

SAS ENTERPRISE MINER POUR L'ACTUAIRE

SAS ENTERPRISE MINER POUR L'ACTUAIRE SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de

Plus en détail

Emploi du temps prévisionnel

Emploi du temps prévisionnel 1 Emploi du temps prévisionnel 1. Séances de cours et d exercices Nous aurons cours ensemble : tous les mercredis matins du 28 septembre au 7 décembre inclus, à l exception du mercredi 2 novembre, libéré

Plus en détail

DATA MINING - Analyses de données symboliques sur les restaurants

DATA MINING - Analyses de données symboliques sur les restaurants Master 2 Professionnel - Informatique Décisionnelle DATA MINING - Analyses de données symboliques sur les restaurants Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY Seghir SADAOUI SOMMAIRE I Introduction...

Plus en détail

DATA MINING FOR SCIENTISTS

DATA MINING FOR SCIENTISTS DATA MINING FOR SCIENTISTS LAYACHI BENTABET, Bishop s University, Winter 2007 Notes par Philippe Giabbanelli I. Une introduction à la fouille de données 1) Les Grandes Etapes Classification. On prédit

Plus en détail

Programmation découverte du monde (autre que mathématiques):

Programmation découverte du monde (autre que mathématiques): Programmation découverte du monde (autre que mathématiques): Période 2: Apprenons à toucher! Compétence MA01 : Reconnaître, nommer,décrire, comparer, ranger et classer des matières, des objets selon leur

Plus en détail

Représentation d une distribution

Représentation d une distribution 5 Représentation d une distribution VARIABLE DISCRÈTE : FRÉQUENCES RELATIVES DES CLASSES Si dans un graphique représentant une distribution, on place en ordonnées le rapport des effectifs n i de chaque

Plus en détail

Correction : E = Soit E = -1,6. F = 12 Soit F = -6 3 + 45. y = 11. et G = -2z + 4y G = 2 6 = 3 G = G = -2 5 + 4 11

Correction : E = Soit E = -1,6. F = 12 Soit F = -6 3 + 45. y = 11. et G = -2z + 4y G = 2 6 = 3 G = G = -2 5 + 4 11 Correction : EXERCICE : Calculer en indiquant les étapes: (-6 +9) ( ) ( ) B = -4 (-) (-8) B = - 8 (+ 6) B = - 8 6 B = - 44 EXERCICE : La visite médicale Calcul de la part des élèves rencontrés lundi et

Plus en détail

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires Le data mining et l assurance Mai 2004 Charles Dugas Président Marianne Lalonde Directrice, développement des affaires AGENDA Qu est-ce que le data mining? Le projet et les facteurs de réussite Les technologies

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives ************* ************* Cours de niveau gradué en méthodes quantitatives ************* SOL 6210 - Analyse quantitative avancée Le séminaire d analyse quantitative avancée se donne en classe une fois par année. Chaque

Plus en détail

L ARBORESCENCE. Qu est-ce qu un dossier? L arborescence?

L ARBORESCENCE. Qu est-ce qu un dossier? L arborescence? L ARBORESCENCE Qu est-ce qu un dossier? Un dossier est une pochette vide dans laquelle on peut disposer des documents créés à l aide de l outil informatique. Comme les systèmes utilisés dans la vie courante

Plus en détail

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes PLAN CYCLE DE VIE D'UN LOGICIEL EXPRESSION DES BESOINS SPÉCIFICATIONS DU LOGICIEL CONCEPTION DU LOGICIEL LA PROGRAMMATION TESTS ET MISE AU POINT DOCUMENTATION CONCLUSION C.Crochepeyre Génie Logiciel Diapason

Plus en détail

1 Importer et modifier des données avec R Commander

1 Importer et modifier des données avec R Commander Université de Nantes 2015/2016 UFR des Sciences et Techniques Département de Mathématiques TP1 STATISTIQUE DESCRIPTIVE Frédéric Lavancier Avant propos Ouvrir l application R Saisir dans la console library(rcmdr)

Plus en détail

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique NOM DE L'UE : Algorithmique et programmation C++ LICENCE INFORMATIQUE Non Alt Alt S1 S2 S3 S4 S5 S6 Parcours : IL (Ingénierie Logicielle) SRI (Systèmes et Réseaux Informatiques) MASTER INFORMATIQUE Non

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail