Thomas André Manuel Brisville. Data Mining. Compte-rendu de l activité d évaluation 11/02/2015 UTFPR

Dimension: px
Commencer à balayer dès la page:

Download "Thomas André Manuel Brisville. Data Mining. Compte-rendu de l activité d évaluation 11/02/2015 UTFPR"

Transcription

1 Thomas André Manuel Brisville Data Mining Compte-rendu de l activité d évaluation 11/02/2015 UTFPR

2 1 Table des matières 2 Introduction La base de données utilisée Origine de la base Ses attributs et leurs caractéristiques Exploration des données Classification Arbres de décision Avec le package Party Avec le package Rpart Naïve-Bayes Cluster K-means Conclusion

3 2 Introduction Le rapport suivant a pour but d exposer les résultats du travail d évaluation du cours de Data Mining dispensé à l UTFPR par le professeur Celso Kaestner dans le cadre du programme de Post-Graduation en Informatique appliquée. Ce travail d évaluation a pour objectif de solliciter et de mettre en œuvre les concepts abordés en cours en utilisant une base de données comme support d études. Tout au long de ce rapport, le langage de programmation employé est le langage R et sera utilisé dans son environnement de développement dédié : R Studio. 2

4 3 La base de données utilisée Pour ce travail, j utilise la base «Wine recognition data». Cette base a déjà été utilisée pour des travaux visant à comparer plusieurs classificateurs. 3.1 Origine de la base Ces données sont les résultats d analyses chimiques de vins qui ont vieillis dans la même région en Italie mais issus de 3 vignobles différents. Les analyses déterminent les quantités de 13 composants trouvés dans chacun de ces 3 types de vins. 3.2 Ses attributs et leurs caractéristiques La base de données est composée de 13 attributs représentant les 13 composants trouvés dans les vins. Tous ces attributs sont continus. Elle possède également un attribut qui représente l identifiant de classe, c est-à-dire, de quel vignoble est issu le vin concerné. 3

5 3.3 Exploration des données Le langage R permet d explorer les données du Dataset, de façon individuelle ou multidimensionnelle. On peut, par exemple connaitre la distribution des types de vin dans l ensemble de données et recourir à une représentation graphique de ces résultats. La fonction hist() permet d avoir une représentation graphique de la distribution d un attribut dans l intervalle de ses valeurs. Il existe de nombreuses façons de représenter les données, en voici quelques exemples. Le Boxplot est une représentation graphique de données statistiques. Il s'agit de tracer un rectangle allant du premier quartile au troisième quartile et coupé par la médiane. On ajoute alors des segments aux extrémités menant jusqu'aux valeurs extrêmes, ou jusqu'aux premier et neuvième déciles. Quartile : En statistique descriptive, un quartile est chacune des 3 valeurs qui divisent les données triées en 4 parts égales, de sorte que chaque partie représente 1/4 de l'échantillon de population. le 1er quartile sépare les 25 % inférieurs des données ; le 2e quartile est la médiane de la série ; le 3e quartile sépare les 25 % supérieurs des données. Décile : En statistique descriptive, un décile est chacune des 9 valeurs qui divisent un jeu de données, triées selon une relation d'ordre, en 10 parts égales, de sorte que chaque partie représente 1/10 de l'échantillon de population. le seuil du 1er décile sépare le jeu de données entre les 10 % inférieurs et le reste des données ; le seuil du 9e décile sépare les 90 % inférieurs des données des 10 % supérieurs. 4

6 Prenons l exemple de la représentation en Boxplot des valeurs du taux d alcool en fonction du type de vin : Le scatter plot permet également d avoir une représentation graphique des données en utilisant 2 attributs. Les symboles et couleurs mettent ici en évidence les types de vins. Une représentation graphique des données en utilisant 3 attributs est également possible. Nous avons alors une représentation en 3D des données. 5

7 4 Classification 4.1 Arbres de décision Avec le package Party Le but des arbres de décisions et de pouvoir prédire les nouvelles données. Pour cela, j ai d abord utilisé le package Party qui fournit les fonctions ctree() pour construire l arbre de décision et predict() qui prédit les nouvelles données. J utilise l ensemble de base pour avoir un ensemble training et un ensemble test. Je construis ensuite mon arbre avec pour variable cible, Classe qui correspond au type de vin Avec le package Rpart Ici, on utilise la fonction rpart() pour construire un arbre, l arbre avec le minimum d erreurs de prédiction est sélectionné. 6

8 On utilise ensuite cet arbre pour faire des prédictions et les comparer aux données actuelles. 7

9 4.2 Naïve-Bayes Pour construire un classificateur Naive-Bayes, on a besoin du package e1071. Le classificateur génère trois gaussiennes représentant chaque valeur de l attribut Classe. 8

10 5 Cluster 5.1 K-means Pour le k-means clustering, j ai commencé par mettre de côté la colonne de l attribut Classe. J ai ensuite appliqué la fonction kmeans() sur mes données pour 3 clusters. J ai ensuite comparé ces clusters à l attribut Classe. On peut voir que le cluster 3 représente assez bien le vin du vignoble 2. 9

11 6 Conclusion Ce travail m a permis de mettre en œuvre des concepts vus en cours, même si je n ai pas réussi à tout faire, j ai eu l opportunité d acquérir des connaissances sur un domaine pointu de l informatique. 10

UTFPR. Nada Benlahbib. [DATA MINING] Fertility Data Set

UTFPR. Nada Benlahbib. [DATA MINING] Fertility Data Set UTFPR [DATA MINING] Fertility Data Set Sommaire Introduction... 2 1. Description de la base de données... 3 1.1. Origine de la base... 3 1.2. Description des attributs... 3 1.3. Exploration des données...

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html R est un langage de programmation. L objet de base est un vecteur de données. C est un «vrai» langage c.-à-d. types

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation Premières classifications : apprentissage et évaluation L objectif de ce TP est double : prise en main de la bibliothèque scikit-learn de Python, dédiée à l apprentissage automatique, sensibilisation à

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Fiche descriptive : Statistique descriptive avec Sinequanon

Fiche descriptive : Statistique descriptive avec Sinequanon Fiche descriptive : Statistique descriptive avec Sinequanon Public concerné : Enseignants de tous niveau désirant découvrir des possibilités du logiciel Objectif : Proposer une approche du logiciel pour

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET Phase 4 : Modélisation non-supervisée - 5 : Règles d association

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail

Activité 1 : échantillonnage

Activité 1 : échantillonnage Activité échantillonnage, intervalle de fluctuation, prise de décision (à partir d un même thème) Les trois activités qui suivent s inspirent du document «ressources pour la classe de première générale

Plus en détail

Comme la moyenne au devoir est plutôt faible, le professeur propose deux possibilités pour augmenter cette moyenne :

Comme la moyenne au devoir est plutôt faible, le professeur propose deux possibilités pour augmenter cette moyenne : Chapitre 6 : Statistiques I Premières définitions - Etablir une statistique, c est relever pour tous les individus d une population les valeurs d une grandeur X, appelée caractère ou variable statistique.

Plus en détail

Inégalités scolaires et politiques publiques : une analyse comparative en Suisse Georges Felouzis

Inégalités scolaires et politiques publiques : une analyse comparative en Suisse Georges Felouzis Inégalités scolaires et politiques publiques : une analyse comparative en Suisse Georges Felouzis Introduction Je me propose de traiter des inégalités scolaires en Suisse dans une perspective comparative

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

16. Comment introduire les valeurs prises par la variable SPORT pour les 30 premiers sujets introduits dans L2?

16. Comment introduire les valeurs prises par la variable SPORT pour les 30 premiers sujets introduits dans L2? T.P. 5 partie 1 Variable ordinale Calcul manuel de quantiles Utilisation des fonctions intégrées de la TI-84 Utilisation du programme D1 (Corrigé pour 30 cas) V. Prise en compte de 30 cas (pour éviter

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Description simple d une base de données

Description simple d une base de données Description simple d une base de données Sommaire I. Estimation des principaux paramètres de la statistique descriptive : moyenne, écart-type, pourcentage... 1 II. Les Graphiques dans Excel 2007... 3 A.

Plus en détail

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015 L analyse des correspondances et ses applications en recherche marketing MONSUG mai 2015 Contenu Mise en contexte et exemple d application L analyse des correspondances multiples (ACM) L ACM et la segmentation

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Mesure d'une concentration en dioxygène à l'aide d'une carte Arduino reliée à une sonde de Clark

Mesure d'une concentration en dioxygène à l'aide d'une carte Arduino reliée à une sonde de Clark Mesure d'une concentration en dioxygène à l'aide d'une carte Arduino reliée à une sonde de Clark DOMENJOD Quentin GAMIN Cécile TS1 Projet ISN 2014/2015 Lycée Antoine Roussin SOMMAIRE Présentation......p3

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 R est un langage de programmation. L objet de base est un vecteur de données. C est un «vrai» langage c.-à-d. types

Plus en détail

STATISTIQUES I) UN PEU DE VOCABULAIRE

STATISTIQUES I) UN PEU DE VOCABULAIRE STATISTIQUES I) UN PEU DE VOCABULAIRE Toute étude statistique s'appuie sur des données. Dans le cas ou ces données sont numériques (99% des cas), on distingue les données discrètes (qui prennent un nombre

Plus en détail

Création de typologie sous SPSS

Création de typologie sous SPSS Création de typologie sous SPSS À Propos de ce document... 1 Introduction... 1 La démarche à suivre sous SPSS... 2 1. «Iterate»... 2 2. «Save»... 2 3. «Options»... 3 Analyse des résultats... 3 1. Historique

Plus en détail

1ES Février 2013 Corrigé

1ES Février 2013 Corrigé 1ES Février 213 Corrigé Exercice 1 Le tableau ci-dessous renseigne sur les besoins en eau dans le monde : Population mondiale (Milliards d habitants) Volume moyen par habitant ( ) 195 2,5 4 1 197 3,6 5

Plus en détail

Fouille de données de mobilité

Fouille de données de mobilité Fouille de données de mobilité Thomas Devogele Université François Rabelais (Tours) thomas.devogele@univ-tours.fr Laurent Etienne Ecole Navale (Brest) Laurent.etienne@ecole-navale.fr La fouille de donnée

Plus en détail

Séries Statistiques Simples

Séries Statistiques Simples 1. Collecte et Représentation de l Information 1.1 Définitions 1.2 Tableaux statistiques 1.3 Graphiques 2. Séries statistiques simples 2.1 Moyenne arithmétique 2.2 Mode & Classe modale 2.3 Effectifs &

Plus en détail

SECONDE DST CORRECTION. Voici le diagramme en bâtons des moyennes du second trimestre d'une classe de seconde comportant 34 élèves.

SECONDE DST CORRECTION. Voici le diagramme en bâtons des moyennes du second trimestre d'une classe de seconde comportant 34 élèves. SECONDE DST CORRECTION Exercice 1 Voici le diagramme en bâtons des moyennes du second trimestre d'une classe de seconde comportant 34 élèves 6 2e trimestre 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Plus en détail

TP - Connexions aux bureaux à distances. Guillaume Rodier. Protocoles RDP et SSH

TP - Connexions aux bureaux à distances. Guillaume Rodier. Protocoles RDP et SSH TP - Connexions aux bureaux à distances Protocoles RDP et SSH Rodier Guillaume BTS SIO 1 ière année TP Connexions aux bureaux à distances - Protocoles RDP et SSH -> Introduction. Pour se connecter à un

Plus en détail

Chapitre 1. Introduction. Préambule... 2 Objectif de ce livre... 4 De quoi ai-je besoin?... 5

Chapitre 1. Introduction. Préambule... 2 Objectif de ce livre... 4 De quoi ai-je besoin?... 5 Chapitre 1. Introduction Préambule........................................................ 2 Objectif de ce livre.............................................. 4 De quoi ai-je besoin?...........................................

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

1S DS 4 Durée :?mn. 2. La courbe ci-dessous est la représentation graphique de la fonction g, définie sur I = [ 1; 3].

1S DS 4 Durée :?mn. 2. La courbe ci-dessous est la représentation graphique de la fonction g, définie sur I = [ 1; 3]. 1S DS 4 Durée :?mn Exercice 1 ( 5 points ) Les trois questions sont indépendantes. 1. Soit f la fonction définie par f(x) = 3 x. a) Donner son ensemble de définition. Il faut 3 x 0 3 x donc D f =] ; 3]

Plus en détail

Data Mining : la classification non supervisée

Data Mining : la classification non supervisée Data Mining : la classification non supervisée Clustering : une affaire de distance. Etude préliminaire. Valeurs discrètes. Soient les deux individus suivants correspondant à des séquences ADN : X = AGGGTGGC

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 R est un langage de programmation. L objet de base est un vecteur de données. C est un «vrai» langage c.-à-d. types

Plus en détail

Le carnet de bord de ma formation

Le carnet de bord de ma formation Le carnet de bord de ma formation Former à distance pour les cadres Introduction Introduction Ce document est le carnet de bord de votre formation. Il va vous accompagner tout au long de ce parcours. Imprimez-le

Plus en détail

TP 3 : analyses statistiques

TP 3 : analyses statistiques TP 3 : analyses statistiques Exercice I : Le test de student Construire un vecteur (nommé X de 100 valeurs dont chaque élément est issu d une loi normale de moyenne nulle et de variance unitaire. Construire

Plus en détail

ONCE UPON A TIME IN THE HEART OF SCOTLAND

ONCE UPON A TIME IN THE HEART OF SCOTLAND ONCE UPON A TIME IN THE HEART OF SCOTLAND Table des matières Fiche professeur... 2 Fiche élève... 5 Narration de séance et productions d élèves... 6 1 Fiche professeur ONCE UPON A TIME IN THE HEART OF

Plus en détail

API08 Evaluation site internet

API08 Evaluation site internet UNIVERSITE DE TECHNOLOGIE DE COMPIEGNE API08 Evaluation site internet Fédération Française des échecs Emilien NOTARIANNI Printemps 2014 Table des matières Introduction... 2 Evaluation «subjective»... 3

Plus en détail

Didacticiel - Études de cas. Utiliser la validation croisée pour l évaluation des arbres de décision avec R, Knime et RapidMiner.

Didacticiel - Études de cas. Utiliser la validation croisée pour l évaluation des arbres de décision avec R, Knime et RapidMiner. 1 Objectif Utiliser la validation croisée pour l évaluation des arbres de décision avec R, Knime et RapidMiner. Ce didacticiel reprend un de nos anciens articles consacrés à la mise en œuvre de la validation

Plus en détail

Barème Statistique descriptive

Barème Statistique descriptive Université de Perpignan - IUT de Carcassonne Barème Statistique descriptive DUT STID, 1 ère année & Année spéciale, Interrogation 2 : Analyse comparée de deux variables Nom :......................................................................

Plus en détail

Heureusement, le tableau ci-dessus est complété par l'histogramme ci-dessous où un centimètre carré représente 10 jours.

Heureusement, le tableau ci-dessus est complété par l'histogramme ci-dessous où un centimètre carré représente 10 jours. Exercice 1 Le comptable des Tacauds Blancois vient de comptabiliser le nombre de passagers transportés par les taxis de son entreprise pour chaque jour de l'année 2011. Pour que son travail soit plus compréhensible

Plus en détail

Faire des graphes sous STATA : Les commandes de base

Faire des graphes sous STATA : Les commandes de base Marianne Tenand - ENS Ulm TD d économétrie Introduction à STATA Faire des graphes sous STATA : Les commandes de base Lorsque vous analysez des données, il est bon de commencer par les décrire. Certaines

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification

Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification François Husson & Julie Josse Laboratoire de mathématiques appliquées Agrocampus Rennes husson@agrocampus-ouest.fr

Plus en détail

STAGE LINGUISTIQUE A KANAZAWA PENDANT LES VANCANCES D ETE

STAGE LINGUISTIQUE A KANAZAWA PENDANT LES VANCANCES D ETE STAGE LINGUISTIQUE A KANAZAWA PENDANT LES VANCANCES D ETE Le stage linguistique de Kanazawa qui s est déroulé pendant les vacances d été et qui a duré un mois est le fruit d un partenariat entre l INaLCO

Plus en détail

1 Données synthétiques

1 Données synthétiques Master 2 MIMSE 2015-2016 Apprentissage automatique TP1 : les k plus proches voisins 1 Données synthétiques Récupérer les jeux de données synth_train.txt et synth_test.txt. On a Y 1, 2 et X R 2. On dispose

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

I] ETUDE STATISTIQUES SIMPLE

I] ETUDE STATISTIQUES SIMPLE INTRODUCTION Scilab (contraction de Scientific Laboratory) est un logiciel libre, développé à l'inria Rocquencourt. C'est un environnement de calcul numérique qui permet d'effectuer rapidement toutes les

Plus en détail

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Classification par des méthodes de data mining Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Plan: Le processus métier Présentation des 3 méthodes étudiées: Arbres de décision Machines à vecteurs

Plus en détail

Étendue, moyenne, médiane

Étendue, moyenne, médiane Étendue, moyenne, médiane 1 Climat Ce tableau compare les températures mensuelles moyennes (en C) au cours d'une année dans deux villes Alpha (A) et Gamma (G). A 6 9 1 10 11 19 24 28 21 10 4 3 G 5 7 9

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

8. Statistique descriptive

8. Statistique descriptive 8. Statistique descriptive MTH2302D S. Le Digabel, École Polytechnique de Montréal H2015 (v2) MTH2302D: statistique descriptive 1/47 Plan 1. Introduction 2. Terminologie 3. Descriptions graphiques des

Plus en détail

Didacticiel - Études de cas. fonctionnalités de plusieurs logiciels libres de Data Mining lors d une typologie à l aide des K-Means.

Didacticiel - Études de cas. fonctionnalités de plusieurs logiciels libres de Data Mining lors d une typologie à l aide des K-Means. 1 Objectif Comparer les fonctionnalités de plusieurs logiciels libres de Data Mining lors d une typologie à l aide des K-Means. La méthode des K-Means (méthode des centres mobiles) est une technique de

Plus en détail

2 Serveurs OLAP et introduction au Data Mining

2 Serveurs OLAP et introduction au Data Mining 2-1 2 Serveurs OLAP et introduction au Data Mining 2-2 Création et consultation des cubes en mode client-serveur Serveur OLAP Clients OLAP Clients OLAP 2-3 Intérêt Systèmes serveurs et clients Fonctionnalité

Plus en détail

Bibliothèque de la Haute Ecole de Théâtre de Suisse Romande:

Bibliothèque de la Haute Ecole de Théâtre de Suisse Romande: Information documentaire Bibliothèque de la Haute Ecole de Théâtre de Suisse Romande: Rapport de stage professionnel réalisé du 16 août au 8 octobre 2010 + annexe Conseillère pédagogique : Référent HETSR:

Plus en détail

Classification. Pr Roch Giorgi. roch.giorgi@univ-amu.fr

Classification. Pr Roch Giorgi. roch.giorgi@univ-amu.fr Classification Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr Objectif Rechercher

Plus en détail

T. D. n o 3 Analyse de données quantitatives avec le logiciel R

T. D. n o 3 Analyse de données quantitatives avec le logiciel R T. D. n o 3 Analyse de données quantitatives avec le logiciel R 1 Rappel de quelques fonctions statistiques sous R Fonction summary() cumsum() sum() mean() max() min() range() median() var() sd() Description

Plus en détail

Heidi WECHTLER. Octobre 2005

Heidi WECHTLER. Octobre 2005 Heidi WECHTLER Le support aux analyses de données Séminaire GREGOR Octobre 2005 Support aux analyse de données du GREGOR Le poste Chargée d étude statistiques au GREGOR, bureau B126 (wechtler.iae@univ-paris1.fr)

Plus en détail

Procédurier. Module de réservation des ressources

Procédurier. Module de réservation des ressources Procédurier Module de réservation des ressources VERSION : 1.1 DATE : MARS 2015 HISTORIQUE Version Collaborateurs Description de la modification Date 0.0 François Bureau Document préliminaire Mars 2015

Plus en détail

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

Comment ne pas construire un score-titanic

Comment ne pas construire un score-titanic Comment ne pas construire un score-titanic Mon mailing Olivier Decourt ABS Technologies / Educasoft Formations 1- Les principes 2- Un premier exemple : les vins de France 3- Mise en œuvre sous SAS 4- Un

Plus en détail

Le langage JAVASCRIPT

Le langage JAVASCRIPT Le langage JAVASCRIPT I Introduction Vous vous dites encore un langage alors qu il y en a déjà un nombre non négligeable. En effet un de plus, mais à chaque langage son utilisation et sa particularité.

Plus en détail

Thibault Denizet. Introduction à SSIS

Thibault Denizet. Introduction à SSIS Thibault Denizet Introduction à SSIS 2 SSIS - Introduction Sommaire 1 Introduction à SQL Server 2008 Integration services... 3 2 Rappel sur la Business Intelligence... 4 2.1 ETL (Extract, Transform, Load)...

Plus en détail

Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la gestion du risque des sociétés

Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la gestion du risque des sociétés Les nouveaux enjeux et défis du marché immobilier : comment y contribuer? Chaire Ivanhoé Cambridge ESG UQÀM Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la

Plus en détail

Faire et analyser un graphique de Bland-Altman pour évaluer la concordance entre deux instruments ou plus

Faire et analyser un graphique de Bland-Altman pour évaluer la concordance entre deux instruments ou plus Faire et analyser un graphique de Bland-Altman pour évaluer la concordance entre deux instruments ou plus Par Marie-Pierre Sylvestre Contexte On désire comparer deux instruments qui mesurent le même concept.

Plus en détail

6 semaines de liberté Ou presque

6 semaines de liberté Ou presque 6 semaines de liberté Ou presque «Mes deux œuvres communiquent» : Pour accomplir ce travail nous avons été deux, j ai donc collaboré avec Adriana Debono. Notre œuvre se nomme «mes deux œuvres communiquent»

Plus en détail

Cours Fouille de données avancée

Cours Fouille de données avancée Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université Mohamed Khider - Biskra Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie Département d Informatique

Plus en détail

Analyse des fraudes sur la carte France

Analyse des fraudes sur la carte France Analyse des fraudes sur la carte France Télécom Vincent Lemaire FTR&D/DTL/TIC Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son

Plus en détail

ETUDE DE GESTION. Comment choisir le sujet d étude?

ETUDE DE GESTION. Comment choisir le sujet d étude? ETUDE DE GESTION Comment choisir le sujet d étude? Véronique Bernhardt-Denni GAF 2013 PETIT RAPPEL Pourquoi est-il important de s investir dans l étude? Pour obtenir des points supplémentaires à l épreuve

Plus en détail

Escher Ruban de Moebius. Version 1. CFPPA Bourg en Bresse O:\Themes\1nformatique\Excel\Livrets\Livret4-FonctionsConditionnelles.

Escher Ruban de Moebius. Version 1. CFPPA Bourg en Bresse O:\Themes\1nformatique\Excel\Livrets\Livret4-FonctionsConditionnelles. Escher Ruban de Moebius EXCEL 2000 Livret 4 Fonctions conditionnelles Version 1 CFPPA Bourg en Bresse O:\Themes\1nformatique\Excel\Livrets\Livret4-FonctionsConditionnelles.doc Table des matières 1 PRINCIPE

Plus en détail

L intégration de l informatique aux cours de Méthodes quantitatives : du nouveau matériel pédagogique

L intégration de l informatique aux cours de Méthodes quantitatives : du nouveau matériel pédagogique L intégration de l informatique aux cours de Méthodes quantitatives : du nouveau matériel pédagogique Louise Pagé, Département de mathématiques, Collège Montmorency, retraitée Résumé Désirant témoigner

Plus en détail

Conception de la base de données

Conception de la base de données Rapport T.E.R HLIN405 Conception de la base de données des projets de licence deuxième et troisième année Réalisé par Achraf Tajani Cvete Maceski Mohamed Bareche Sous l encadrement de Christian Retoré

Plus en détail

GS-Days 2011. WebScarab Développement de nouveaux modules pour les tests d intrusion

GS-Days 2011. WebScarab Développement de nouveaux modules pour les tests d intrusion 1 GS-Days 2011 WebScarab Développement de nouveaux modules pour les tests d intrusion Jérémy Lebourdais EdelWeb (jeremy.lebourdais@edelweb.fr) 2 Introduction Présentation de WebScarab Développements réalisés

Plus en détail

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Université de Perpignan - IUT de Carcassonne Vivien ROSSI Année 2006/2007 IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Ce document est tiré du site : http ://www.stat.ucl.ac.be/ispersonnel/lecoutre/stats/spad/

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Conception Annie LeBel agente de soutien pédagogique et technique Pour le centre de la petite enfance Magimuse

Conception Annie LeBel agente de soutien pédagogique et technique Pour le centre de la petite enfance Magimuse Conception Annie LeBel agente de soutien pédagogique et technique Pour le centre de la petite enfance Magimuse Papa, maman, Voici un petit survol de ce que j ai vécu cette année au centre de la petite

Plus en détail

Web Data Mining Web Usage Mining

Web Data Mining Web Usage Mining Web Data Mining p. 1/1 Web Data Mining Web Usage Mining Maria Malek Options GL, ISICO & IdSI EISTI Web Data Mining p. 2/1 Fouille des Données de la Toile?!! Web Structure Mining Découverte de la connaissance

Plus en détail

Aller plus loin avec le traitement de texte : mettre en forme un Curriculum Vitae

Aller plus loin avec le traitement de texte : mettre en forme un Curriculum Vitae 29 janvier 2013 p 1 Aller plus loin avec le traitement de texte : mettre en forme un Curriculum Vitae Pour permettre au plus grand nombre de réaliser cet exercice, nous utiliserons le logiciel libre Libre

Plus en détail

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS) MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour

Plus en détail

Statistique Descriptive I (M1102)

Statistique Descriptive I (M1102) Illustration du cours de Statistique Descriptive I (M1102) Année scolaire 2013/2014 Université de Perpignan Via Domitia, IUT STatistique et Informatique Décisionnelle (STID) Table des matières 1 Généralités

Plus en détail

Partie I : Séries statistiques descriptives univariées (SSDU)... 1

Partie I : Séries statistiques descriptives univariées (SSDU)... 1 Table des matières Préface Avant-propos Pourquoi un tel ouvrage?... À propos de l ouvrage... À propos de la statistique................................................................ Remerciements....

Plus en détail

BigData : la connaissance clients au service de votre conversion E-Commerce. Marc Schillaci #ECP14 TOUTES LES FORMULES DU COMMERCE CONNECTÉ

BigData : la connaissance clients au service de votre conversion E-Commerce. Marc Schillaci #ECP14 TOUTES LES FORMULES DU COMMERCE CONNECTÉ BigData : la connaissance clients au service de votre conversion E- Marc Schillaci TOUTES LES FORMULES DU COMMERCE CONNECTÉ 23 > 25 SEPTEMBRE 2014 I PARIS I PORTE DE VERSAILLES I PAVILLON 7-3 #ECP14 LE

Plus en détail

Prévention Santé Environnement

Prévention Santé Environnement Prévention Santé Environnement Epreuve sur dossier Baccalauréat Professionnel vente ou arcu Nom Prénom SESSION 201X SOMMAIRE Introduction 1. Présentation de l entreprise et de la PFMP. 2. Description d

Plus en détail

ALIMENTER UNE ARDUINO SANS USB

ALIMENTER UNE ARDUINO SANS USB ALIMENTER UNE ARDUINO SANS USB Eskimon 29 octobre 2015 Table des matières 1 Introduction 5 2 Principe et pré-requis 7 2.1 Alimenter la carte Arduino avec une source de tension 5V.............. 7 2.2 S

Plus en détail

Les quatrièmes et l histoire des arts

Les quatrièmes et l histoire des arts Les quatrièmes et l histoire des arts Objectifs documentaires Mettre en œuvre l ensemble des savoirs en recherche et maîtrise de l information pour réaliser un dossier documentaire. Objectifs disciplinaires

Plus en détail

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac La classification 2012-2013 Fabien Chevalier Jérôme Le Bellac Introduction : Classification : méthode d analyse de données Objectif : Obtenir une représentation schématique simple d'un tableau de données

Plus en détail

STATISTIQUES DESCRIPTIVES

STATISTIQUES DESCRIPTIVES STATISTIQUES DESCRIPTIVES ORGANISATION DES DONNÉES Etude de population 53 784 56 28 4 13 674 8375 9974 60 Consommation annuelle du lait Dossier n 1 Juin 2005 Tous droits réservés au réseau AGRIMÉDIA Conçu

Plus en détail

Le Saux Loïc Tanguy Brewal. Enquête d opinion sur la dégradation de la qualité de la télévision française dans le temps

Le Saux Loïc Tanguy Brewal. Enquête d opinion sur la dégradation de la qualité de la télévision française dans le temps Le Saux Loïc Tanguy Brewal Enquête d opinion sur la dégradation de la qualité de la télévision française dans le temps Traitement des enquêtes M1 ISC 2007/2008 Sommaire Introduction... 3 I ANALYSE DESCRIPTIVE

Plus en détail

Qu est-ce qui compose notre environnement dans le collège et à proximité? Quelles sont ses variations au cours du temps?

Qu est-ce qui compose notre environnement dans le collège et à proximité? Quelles sont ses variations au cours du temps? C.I n 1 : JE DECOUVRE LES CARACTERISTIQUES DE NOTRE ENVIRONNEMENT Qu est-ce qui compose notre environnement dans le collège et à proximité? Quelles sont ses variations au cours du temps? Séquence n 1 :

Plus en détail

E-LECLERC LEVALUATION DU SITE WEB. A. Evaluation «subjective» du site web. 1. Choix du site web. 2. Présentation le site A P I 0 8 1 1 / 0 3 / 2 0 1 4

E-LECLERC LEVALUATION DU SITE WEB. A. Evaluation «subjective» du site web. 1. Choix du site web. 2. Présentation le site A P I 0 8 1 1 / 0 3 / 2 0 1 4 LEVALUATION DU SITE WEB E-LECLERC A P I 0 8 1 1 / 0 3 / 2 0 1 4 A. Evaluation «subjective» du site web 1. Choix du site web J ai choisi de réaliser l évaluation «subjective» sur le site web : www.e-leclerc.com,

Plus en détail

Le bootstrap expliqué par l exemple

Le bootstrap expliqué par l exemple Le bootstrap expliqué par l exemple 1 Le bootstrap expliqué par l exemple 1. Les concepts du bootstrap 2. Des variantes adaptées au contexte 3. Comparaison des différentes méthodes 4. Les cas sensibles

Plus en détail

Ex : Life [laɪf] et Live [liv]

Ex : Life [laɪf] et Live [liv] Fluence et déchiffrage, MAU Sophie, PAILHES Aurélie Fluence 10 Aborder la phonétique anglaise par les couleurs Classe de 6 ème anglais LV1 En anglais, il existe plus de 1000 combinaisons de lettres différentes

Plus en détail

Analyse d images, vision par ordinateur. Partie 6: Segmentation d images. Segmentation? Segmentation?

Analyse d images, vision par ordinateur. Partie 6: Segmentation d images. Segmentation? Segmentation? Analyse d images, vision par ordinateur Traitement d images Segmentation : partitionner l image en ses différentes parties. Reconnaissance : étiqueter les différentes parties Partie 6: Segmentation d images

Plus en détail

Statistiques 0,14 0,11

Statistiques 0,14 0,11 Statistiques Rappels de vocabulaire : "Je suis pêcheur et je désire avoir des informations sur la taille des truites d'une rivière. Je décide de mesurer les truites obtenues au cours des trois dernières

Plus en détail

Module 3 : Introduction à la Modélisation SOUS MODELER

Module 3 : Introduction à la Modélisation SOUS MODELER Module 3 : Introduction à la Modélisation SOUS MODELER 1 Techniques prédictives Passé pour prédire l avenir 2 Concepts de la modélisation Données test / apprentissage Généralement créées par l utilisateur

Plus en détail

Représentation d une distribution

Représentation d une distribution 5 Représentation d une distribution VARIABLE DISCRÈTE : FRÉQUENCES RELATIVES DES CLASSES Si dans un graphique représentant une distribution, on place en ordonnées le rapport des effectifs n i de chaque

Plus en détail

Jef Wijsen Valérie Fiolet Datawarehousing & Datamining

Jef Wijsen Valérie Fiolet Datawarehousing & Datamining Jef Wijsen Valérie Fiolet Datawarehousing & Datamining Travaux Pratiques Clustering sous WEKA Rapport Julien Baligant 2ème Licence Informatique Université de Mons-Hainaut 7 mai 2006 Ce rapport contient

Plus en détail

Chapitre 3 Dénombrement et représentation d un caractère continu. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel

Chapitre 3 Dénombrement et représentation d un caractère continu. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel Chapitre 3 Dénombrement et représentation d un caractère continu Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel Introduction Un caractère quantitatif est continu si ses modalités possibles

Plus en détail

Statistiques à une variable

Statistiques à une variable Statistiques à une variable Objectif : connaissances des termes et formules statistiques Acquis : Programme de seconde professionnelle. 1/ Généralités : Exploitation d une base de données. Vie économique

Plus en détail

Programmation découverte du monde (autre que mathématiques):

Programmation découverte du monde (autre que mathématiques): Programmation découverte du monde (autre que mathématiques): Période 2: Apprenons à toucher! Compétence MA01 : Reconnaître, nommer,décrire, comparer, ranger et classer des matières, des objets selon leur

Plus en détail

TERMES DE REFERENCE. INITIATION DES CADRES DE LA DNEEP ET DU MMG AUX LOGICIELS EXCEL, EVIEWS, SPSS et STATA

TERMES DE REFERENCE. INITIATION DES CADRES DE LA DNEEP ET DU MMG AUX LOGICIELS EXCEL, EVIEWS, SPSS et STATA REPUBLIQUE DE UINEE Travail Justice Solidarité MINISTERE DE L ECONOMIE ET DES FINANCES DIRECTION NATIONALE DES ETUDES ECONOMIQUES ET DE LA PREVISION (DNEEP) TERMES DE REFERENCE INITIATION DES CADRES DE

Plus en détail

chap S1 : Statistiques descriptives Eléments de correction des exercices

chap S1 : Statistiques descriptives Eléments de correction des exercices 2ndes chap S1 : Statistiques descriptives Eléments de correction des exercices Objectifs : mieux comprendre les notions de moyenne et médiane utiliser des statistiques pour prendre des décisions Moyenne

Plus en détail