Discrétisation et génération de hiérarchies de concepts

Dimension: px
Commencer à balayer dès la page:

Download "Discrétisation et génération de hiérarchies de concepts"

Transcription

1 Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts

2 Pourquoi prétraiter les données? 2 Données réelles souvent incomplètes : valeurs manquantes, données simplifiées bruitées : erreurs et exceptions incohérentes : nommage, codage Résultats de la fouille dépendent de la qualité des données

3 Principales étapes dans le prétraitement des données 3 Nettoyage Intégration Data cleaning Data integration Transformation Réduction Data transformation 2, 32, 100, 59, , 0.32, 1.00, 0.59, 0.48 Discrétisation transactions Data reduction attributes attributes A1 A2 A3... A126 A1 A3... A115 T1 T2 T3 T4... T2000 transactions s T1 T4... T1456

4 Données manquantes 4 Données non disponibles certains attributs nont n ont pas de valeur Causes : mauvais fonctionnement de l équipement incohérences avec d autres données et donc supprimées non saisies car non ou mal comprises considérées peu importantes au moment de la saisie ii Ces données doivent être inférées

5 Comment remplir les trous? 5 Ignorer le tuple peu efficace quand le pourcentage de valeurs manquantes est élevé Compléter manuellement les données Laborieux ou infaisable Utiliser une constante globale ex : «inconnue», une nouvelle catégorie? Utiliser la moyenne de l attribut Utiliser la moyenne de l attribut pour la même classe mieux Utiliser la valeur la plus probable formule Bayésienne ou arbre de décision

6 Données bruitées 6 Bruit : erreur ou variance aléatoire d une variable ibl mesurée Causes : Instrument de mesure défectueux Problème de saisie Problème de transmission Limitation technologique Incohérence dans les conventions de nommage Autres problèmes : enregistrement dupliqués données incomplètes données incohérentes

7 Correction du bruit 7 Par partitionnement t (binning) i trier et partitionner les données li l titi l l édi l b lisser les partitions par la moyenne, la médiane, les bornes, Clustering détecter et supprimer les exceptions Inspection humaine et informatique combinée détection des valeurs suspectes et vérification humaine Régression lisser les données par des fonctions de régression

8 Partitionnement simple : lissage 8 équi largeur (distance) : n intervalles de même taille équi profondeur : n intervalles contenant le même nombre de valeurs * données triées : 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * équi profondeur : partition 1 : 4, 8, 9, 15 partition 2 : 21, 21, 24, 25 partition 3 : 26, 28, 29, 34 * lissage par la moyenne : partition 1: 9, 9, 9, 9 partition 2: 23, 23, 23, 23 partition 3: 29, 29, 29, 29 * lissage par les bornes : partition 1: 4, 4, 4, 15 partition 2: 21, 21, 25, 25 partition 3: 26, 26, 26, 34

9 Clustering : suppression des exceptions 9

10 Régression 10 y Y1 Y1 y = x + 1 X1 x

11 Intégration des données 11 Intégration ti des données : combinaison de différentes sources en une seule Intégration des schémas : intégrer les méta données é de différentes sources problème de nommage : identifier les différents noms des mêmes données réelles, ex : num_client client_id Détecter et résoudre les conflits de valeurs pour les mêmes entités réelles, les valeurs des attributs provenant de sources différentessontsont différentes causes : représentation différentes, échelles différentes, ex : cm et pouces

12 Gestion de la redondance 12 fréquente lors de l intégration de plusieurs sources de données le même attribut peut avoir des noms différents un attribut peut être déduit d un autre peut être détectée té par des analyses de corrélation

13 Transformation des données 13 Lissage : réduire le bruit itdans les données Agrégation : simplification, construction de cubes de données Généralisation é : hiérarchie de concepts Normalisation : mise à l échelle pour avoir un petit intervalle spécifié min max z score mise à l échelle décimale

14 Normalisation 14 min max v min A v' = ( new_ maxa new_ mina) + maxa mina new_ min A z score v ' = v stand mean A _ dev A mise à l échelle décimale v v'= 10 j avec j le plus petit entier tq max( v )<1

15 Réduction des données 15 La fouille de données peut être très longue sur les données complètes Réduction des données obtenir une représentation réduite du jeu de données, plus petite en volume, mais qui produit les mêmes (ou presque) résultats analytiques Stratégies Agrégation par cubes de données Réduction de dimension Réduction de numérosité Discrétisation et génération de hiérarchies de concepts

16 Réduction de numérosité 16 Méthodes paramétriques suppose que les données suivent un modèle. Estimer et stocker seulement les paramètres du modèle modèle log linéaire : approximation de la distribution des valeurs dans un espace multidimensionnel Méthodes non paramétriques les données ne suivent pas un modèle principales : histogrammes, clustering, échantillonnage

17 Histogrammes populaire li diviser en intervalles et stocker la moyenne 40 (somme) 35 mise en œuvre optimale sur une dimension par 30 programmation 25 dynamique

18 Echantillonnage 18 Permet à un algorithme de s exécuter en un temps sous linéaire de la taille des données Choix d un sous ensemble représentatif des données potentiellement mauvais dans le cas de biais dans les données Méthodes d échantillonnage adaptatives échantillonnage stratifié approximer le pourcentage de chaque classe (ou sous population d intérêt) dans lejeu de données complet utilisé dans le cas de données biaisées L échantillonnage peut ne pas réduire le nombre d entrées/sorties ti

19 Échantillonnage 19 Données brutes

20 Echantillonnage 20 Données brutes Echantillon stratifié

21 Discrétisation 21 Trois types d attributs t Nominal ou catégorique : valeurs d un dun ensemble Ordinal : valeurs d un ensemble ordonné Continu : réels Discrétisation diviser l intervalle de valeurs possibles en sous intervalles certains algorithmes acceptent seulement des attributs catégoriques réduit le volume des données préparation pour de futures analyses

22 Discrétisation et hiérarchie de concepts 22 Discrétisation réduit le nombre de valeurs dun d un attribut (continu) donné Hiérarchie de concepts réduit les données en collectant et remplaçant les concepts de bas niveau (âge) par des concepts de niveau d abstraction plus élevé é (jeune, sénior)

23 Discrétisation et génération de hiérarchie de concepts pour des données numériques 23 Partitionnement t (binning) i Histogramme Clustering Basée entropie Segmentation par partitionnement naturel

24 Segmentation par partitionnement naturel 24 La règle èl peut être utilisée pour segmenter des données numériques en intervalles relativement uniformes Si un intervalle couvre 3, 6, 7 ou 9 valeurs distinctes au chiffre le plus significatif alors partitionner l intervalle en 3 intervalles de même largeur Si un intervalle couvre 2, 4, ou 8 valeurs distinctes alors partitionner en 4 intervalles Si un intervalle couvre 1, 5, ou 10 valeurs distinctes t alors partitionner en 5 intervalles

25 Règle : exemple 25 count Step 1: -$351 -$159 profit $1,838 $4,700 Min Low (i.e, 5%-tile) High(i.e, 95%-0 tile) Max Step 2: msd=1,000 Low=-$1,000 High=$2,000 Step 3: (-$1,000 - $2,000) (-$1,000-0) (0 -$ 1,000) ($1,000 - $2,000) Step 4: (-$400 -$5,000) (-$400-0) (0 - $1,000) ($1,000 - $2, 000) ($2,000 - $5, 000) (-$ $300) (-$ $200) (-$ $100) (-$100-0) (0 - $200) ($200 - $400) ($400 - $600) ($600 - $800) ($800 - $1,000) ($1,000 - $1,200) ($1,200 - $1,400) ($1,400 - $1,600) ($1,600 - $1,800) ($1,800 - $2,000) ($2,000 - $3,000) ($3,000 - $4,000) ($4,000 - $5,000)

26 Génération de hiérarchie de concepts pour des données nominales 26 Spécification d un ordre partiel par des utilisateurs t ou des experts ex : Gene Ontology Spécification d une portion de hiérarchie par le groupage explicite des données Spécification d un ensemble d attributs t sans ordre partiel Spécification partielle d un ensemble

27 Spécification d un ensemble d attributs 27 La hiérarchie de concepts peut être générée é é automatiquement en se basant sur le nombre de valeurs distinctes d un attribut. country 15 valeurs distinctes province_or_ state 65 valeurs distinctes city valeurs distinctes street valeurs distinctes

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Arbres de décisions et forêts aléatoires.

Arbres de décisions et forêts aléatoires. Arbres de décisions et forêts aléatoires. Pierre Gaillard 7 janvier 2014 1 Plan 1 Arbre de décision 2 Les méthodes d ensembles et les forêts aléatoires 2 Introduction 3 Introduction Jeu de données (ex

Plus en détail

Méthodes de test. Mihaela Sighireanu

Méthodes de test. Mihaela Sighireanu UFR d Informatique Paris 7, LIAFA, 175 rue Chevaleret, Bureau 6A7 http://www.liafa.jussieu.fr/ sighirea/cours/methtest/ Partie I 1 Propriétés 2 Un peu de génie logiciel de test 3 Eléments Problèmes Point

Plus en détail

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : http://www.lri.fr/ hivert

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : http://www.lri.fr/ hivert 1 de 46 Algorithmique Trouver et Trier Florent Hivert Mél : Florent.Hivert@lri.fr Page personnelle : http://www.lri.fr/ hivert 2 de 46 Algorithmes et structures de données La plupart des bons algorithmes

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Traitement des données avec EXCEL 2007

Traitement des données avec EXCEL 2007 Traitement des données avec EXCEL 2007 Vincent Jalby Octobre 2010 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation (questionnaire),

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

PLAN. Les systèmes d'information analytiques. Exemples de décisions

PLAN. Les systèmes d'information analytiques. Exemples de décisions Les systèmes d'information analytiques Dr A.R. Baba-ali Maitre de conferences USTHB PLAN Le cycle de decision Les composants analytiques ETL (Extract, Transform and Load) Entrepot de (Data warehouse) Traitement

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) 1 Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) C est quoi? Regroupement (Clustering): construire une collection d objets Similaires au sein d un même groupe Dissimilaires

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Apprentissage Automatique Numérique

Apprentissage Automatique Numérique Apprentissage Automatique Numérique Loïc BARRAULT Laboratoire d Informatique de l Université du Maine (LIUM) loic.barrault@lium.univ-lemans.fr 16 septembre 2015 1/42 Problème classique Automatique Autre

Plus en détail

M2 Informatique/Réseaux Université Pierre et Marie Curie UE APMM

M2 Informatique/Réseaux Université Pierre et Marie Curie UE APMM TD TECHNIQUES DE CODAGE ET DE COMPRESSION. LANGAGE / CODAGE / VALENCE.. Rappels Toute fraction intelligible d un message est constituée de symboles. Le langage est l ensemble de ces symboles. Un codage

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Introduction à l analyse quantitative

Introduction à l analyse quantitative Introduction à l analyse quantitative Vue d ensemble du webinaire Le webinaire sera enregistré. Les diapositives et tous les autres documents seront envoyés aux participants après la séance. La séance

Plus en détail

IFT3245. Simulation et modèles

IFT3245. Simulation et modèles IFT 3245 Simulation et modèles DIRO Université de Montréal Automne 2012 Tests statistiques L étude des propriétés théoriques d un générateur ne suffit; il estindispensable de recourir à des tests statistiques

Plus en détail

I Arbres binaires. Lycée Faidherbe 2014-2015. 1 Rappels 2 1.1 Définition... 2 1.2 Dénombrements... 2 1.3 Parcours... 3

I Arbres binaires. Lycée Faidherbe 2014-2015. 1 Rappels 2 1.1 Définition... 2 1.2 Dénombrements... 2 1.3 Parcours... 3 I Arbres binaires 2014-2015 Table des matières 1 Rappels 2 1.1 Définition................................................ 2 1.2 Dénombrements............................................ 2 1.3 Parcours.................................................

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Description du module GENERATEUR rev.2 1. Rôle du module

Description du module GENERATEUR rev.2 1. Rôle du module Description du module GENERATEUR rev.2 1. Rôle du module Ce module doit implémenter un générateur de «points aléatoires» selon une répartition de densité donnée. Tout d abord, le générateur doit être initialisé

Plus en détail

Prof.É.D.Taillard. Classification automatique @Prof. E. Taillard 1 EIVD, Informatique logiciel, 4 e semestre

Prof.É.D.Taillard. Classification automatique @Prof. E. Taillard 1 EIVD, Informatique logiciel, 4 e semestre INFORMATIQUE ORIENTATION LOGICIELS CLASSIFICATION AUTOMATIQUE Prof.É.D.Taillard Classification automatique @Prof. E. Taillard EIVD, Informatique logiciel, 4 e semestre CLASSIFICATION AUTOMATIQUE But :

Plus en détail

Introduction à la programmation en variables entières Cours 3

Introduction à la programmation en variables entières Cours 3 Introduction à la programmation en variables entières Cours 3 F. Clautiaux francois.clautiaux@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 272 Sommaire Notion d heuristique Les algorithmes gloutons

Plus en détail

Préparation des données. Auteur : Dan Noël Date : 24.04.2009

Préparation des données. Auteur : Dan Noël Date : 24.04.2009 Préparation des données Auteur : Dan Noël Date : 24.04.2009 Objectifs du module Comprendre les données et passer en revue les étapes principales de la préparation des données afin de maximiser la performance

Plus en détail

Programmation avancée

Programmation avancée Programmation avancée Chapitre 1 : Complexité et les ABR (arbres binaires de recherche) 1 1 IFSIC Université de Rennes-1 M2Crypto, octobre 2011 Plan du cours 1 2 3 4 5 6 7 8 9 10 Algorithmes Définition

Plus en détail

StatEnAction 2009/10/30 11:26 page 111 #127 CHAPITRE 10. Machines à sous

StatEnAction 2009/10/30 11:26 page 111 #127 CHAPITRE 10. Machines à sous StatEnAction 2009/0/30 :26 page #27 CHAPITRE 0 Machines à sous Résumé. On étudie un problème lié aux jeux de hasard. Il concerne les machines à sous et est appelé problème de prédiction de bandits à deux

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Représentation des Nombres

Représentation des Nombres Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...

Plus en détail

Plan de la séance. Partie 4: Restauration. Restauration d images. Restauration d images. Traitement d images. Thomas Oberlin

Plan de la séance. Partie 4: Restauration. Restauration d images. Restauration d images. Traitement d images. Thomas Oberlin Plan de la séance Traitement d images Partie 4: Restauration Thomas Oberlin Signaux et Communications, RT/ENSEEHT thomasoberlin@enseeihtfr 1 ntroduction 2 Modélisation des dégradations Modèles de bruit

Plus en détail

Analyse d images. L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Analyse d images. L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories : Analyse d images La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers

Plus en détail

Introduction aux Support Vector Machines (SVM)

Introduction aux Support Vector Machines (SVM) Introduction aux Support Vector Machines (SVM) Olivier Bousquet Centre de Mathématiques Appliquées Ecole Polytechnique, Palaiseau Orsay, 15 Novembre 2001 But de l exposé 2 Présenter les SVM Encourager

Plus en détail

La nouvelle planification de l échantillonnage

La nouvelle planification de l échantillonnage La nouvelle planification de l échantillonnage Pierre-Arnaud Pendoli Division Sondages Plan de la présentation Rappel sur le Recensement de la population (RP) en continu Description de la base de sondage

Plus en détail

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Classification par des méthodes de data mining Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Plan: Le processus métier Présentation des 3 méthodes étudiées: Arbres de décision Machines à vecteurs

Plus en détail

téléphone sur l'exposition de la tête»

téléphone sur l'exposition de la tête» «Analyse statistique de l'influence de la position du téléphone sur l'exposition de la tête» A.Ghanmi 1,2,3 J.Wiart 1,2, O.Picon 3 1 Orange Labs R&D 2 WHIST LAB (http://whist.institut-telecom.fr), 3 Paris

Plus en détail

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories : La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Informatique visuelle - Vision par ordinateur. Pré-traitement d images

Informatique visuelle - Vision par ordinateur. Pré-traitement d images Informatique visuelle - Vision par ordinateur Pré-traitement d images Elise Arnaud elise.arnaud@imag.fr cours inspiré par X. Descombes, J. Ros, A. Boucher, A. Manzanera, E. Boyer, M Black, V. Gouet-Brunet

Plus en détail

COURS DE STATISTIQUES (24h)

COURS DE STATISTIQUES (24h) COURS DE STATISTIQUES (24h) Introduction Statistiques descriptives (4 h) Rappels de Probabilités (4 h) Echantillonnage(4 h) Estimation ponctuelle (6 h) Introduction aux tests (6 h) Qu est-ce que la statistique?

Plus en détail

16. Comment introduire les valeurs prises par la variable SPORT pour les 30 premiers sujets introduits dans L2?

16. Comment introduire les valeurs prises par la variable SPORT pour les 30 premiers sujets introduits dans L2? T.P. 5 partie 1 Variable ordinale Calcul manuel de quantiles Utilisation des fonctions intégrées de la TI-84 Utilisation du programme D1 (Corrigé pour 30 cas) V. Prise en compte de 30 cas (pour éviter

Plus en détail

Optimisation en nombres entiers

Optimisation en nombres entiers Optimisation en nombres entiers p. 1/83 Optimisation en nombres entiers Michel Bierlaire michel.bierlaire@epfl.ch EPFL - Laboratoire Transport et Mobilité - ENAC Optimisation en nombres entiers p. 2/83

Plus en détail

Faire une carte Représenter des données géographiques

Faire une carte Représenter des données géographiques Faire une carte Représenter des données géographiques Représenter des données géographiques Des entités géographiques Des informations Carte? Une problématique. Comment? Quoi? Qui? Quelles questions se

Plus en détail

Optimisation de requêtes. I3009 Licence d informatique 2015/2016. Traitement des requêtes

Optimisation de requêtes. I3009 Licence d informatique 2015/2016. Traitement des requêtes Optimisation de requêtes I3009 Licence d informatique 2015/2016 Cours 5 - Optimisation de requêtes Stéphane.Gançarski Stephane.Gancarski@lip6.fr Traitement et exécution de requêtes Implémentation des opérateurs

Plus en détail

Projet de Traitement du Signal Segmentation d images SAR

Projet de Traitement du Signal Segmentation d images SAR Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,

Plus en détail

VIII : Gestion des prévisions

VIII : Gestion des prévisions CHTIBI Chafik Une prévision est une prédiction des événements à venir qu'on utilise à des fins de planification. Les méthodes de prévision peuvent se fonder sur des modèles mathématiques utilisant les

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Traitement des données influentes dans le cas d un sondage à deux phases avec une application au traitement de la non-réponse

Traitement des données influentes dans le cas d un sondage à deux phases avec une application au traitement de la non-réponse Traitement des données influentes dans le cas d un sondage à deux phases avec une application au traitement de la non-réponse Jean-François Beaumont, Statistics Canada Cyril Favre Martinoz, Crest-Ensai

Plus en détail

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013 Séminaire ES Andrés SÁNCHEZ PÉREZ October 8th, 03 Présentation du sujet Le problème de régression non-paramétrique se pose de la façon suivante : Supposons que l on dispose de n couples indépendantes de

Plus en détail

Outils méthodologiques et astuces pour la thèse de médecine Les statistiques, comment faire?

Outils méthodologiques et astuces pour la thèse de médecine Les statistiques, comment faire? Outils méthodologiques et astuces pour la thèse de médecine Les statistiques, comment faire? Cyril Ferdynus, USM, CHU RECUEIL DE DONNEES Recueil hors ligne Epidata (http://www.epiconcept.fr/html/epidata.html)

Plus en détail

Construction à partir d une régression logistique

Construction à partir d une régression logistique Construction à partir d une régression logistique Ricco RAKOTOMALALA Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 PLAN 1. Position du problème Grille de score?

Plus en détail

OBJECTIF. Fournir une introduction à ce logiciel statistique de manière à faciliter son utilisation.

OBJECTIF. Fournir une introduction à ce logiciel statistique de manière à faciliter son utilisation. Dr L. ZEMOUR OBJECTIF Fournir une introduction à ce logiciel statistique de manière à faciliter son utilisation. I. QU EST CE QUE SPSS? SPSS, dont le sigle anglais signifie «Statistical Package for Social

Plus en détail

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2012-2013 B. Derbel L. Jourdan A. Liefooghe Contenu Classification

Plus en détail

Data Mining. Rapport de Projet

Data Mining. Rapport de Projet Université Bordeaux I 2011 Nicolas FONTAINE Florence MAURIER Jonathan MERCIER Data Mining Rapport de Projet M2 Bioinformatique Responsable : P. Desbarat Table des matières Introduction 1 1 Choix des données

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce Heuristique et métaheuristique IFT1575 Modèles de recherche opérationnelle (RO) 8. Optimisation combinatoire et métaheuristiques Un algorithme heuristique permet d identifier au moins une solution réalisable

Plus en détail

Module BDR Master d Informatique (SAR) Cours 5- bases de données parallèles Anne Doucet Anne.Doucet@lip6.fr

Module BDR Master d Informatique (SAR) Cours 5- bases de données parallèles Anne Doucet Anne.Doucet@lip6.fr Module BDR Master d Informatique (SAR) Cours 5- bases de données parallèles Anne Doucet Anne.Doucet@lip6.fr 1 Plan Introduction Architectures Placement des données Parallélisme dans les requêtes Optimisation

Plus en détail

SPLEX Statistiques pour la classification et fouille de données en

SPLEX Statistiques pour la classification et fouille de données en SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB Pierre-Henri WUILLEMIN DEcision, Système Intelligent et Recherche opérationnelle LIP6 pierre-henri.wuillemin@lip6.fr

Plus en détail

Enveloppes convexes dans le plan

Enveloppes convexes dans le plan ÉCOLE POLYTECHNIQUE ÉCOLES NORMALES SUPÉRIEURES ÉCOLE SUPÉRIEURE DE PHYSIQUE ET DE CHIMIE INDUSTRIELLES CONCOURS D ADMISSION FILIÈRE MP HORS SPÉCIALITÉ INFO FILIÈRE PC COMPOSITION D INFORMATIQUE B (XECLR)

Plus en détail

Chapitre 3 RÉGRESSION ET CORRÉLATION

Chapitre 3 RÉGRESSION ET CORRÉLATION Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 3 RÉGRESSION ET CORRÉLATION La corrélation est une notion couramment utilisée dans toutes les applications

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

Mathématiques pour l informatique 1 notes de cours sur la seconde partie

Mathématiques pour l informatique 1 notes de cours sur la seconde partie Mathématiques pour l informatique notes de cours sur la seconde partie L Université Paris-Est, Marne-la-Vallée Cyril Nicaud Organisation Ce demi-cours est composé de 6 séances de cours et 6 séances de

Plus en détail

Architecture des Systèmes d Information Architecture des Systèmes d Information

Architecture des Systèmes d Information Architecture des Systèmes d Information Plan... Tableaux et tris I3 - Algorithmique et programmation 1 Rappels Nicol Delestre 2 Tableaux à n dimensions 3 Initiation aux tris Tableaux - v2.0.1 1 / 27 Tableaux - v2.0.1 2 / 27 Rappels : tableau

Plus en détail

Cours de Méthodes Déterministes en Finance (ENPC) Benoît Humez Société Générale Recherche Quantitative benoit.humez@sgcib.com

Cours de Méthodes Déterministes en Finance (ENPC) Benoît Humez Société Générale Recherche Quantitative benoit.humez@sgcib.com Cours de Méthodes Déterministes en Finance (ENPC) Benoît Humez Société Générale Recherche Quantitative benoit.humez@sgcib.com Points abordés Méthodes numériques employées en finance Approximations de prix

Plus en détail

LES DIFFERENTS TYPES DE MESURE

LES DIFFERENTS TYPES DE MESURE LES DIFFERENTS TYPES DE MESURE Licence - Statistiques 2004/2005 REALITE ET DONNEES CHIFFREES Recherche = - mesure. - traduction d une réalité en chiffre - abouti à des tableaux, des calculs 1) Qu est-ce

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail

I. CONVENTIONS DU DESSIN TECHNIQUE

I. CONVENTIONS DU DESSIN TECHNIQUE I.1. Le dessin technique : Définition : I. CONVENTIONS DU DESSIN TECHNIQUE Le dessin technique est un outil d expression graphique et de communication technique. Au cours de son évolution, l homme a rapidement

Plus en détail

Module 3 : Introduction à la Modélisation SOUS MODELER

Module 3 : Introduction à la Modélisation SOUS MODELER Module 3 : Introduction à la Modélisation SOUS MODELER 1 Techniques prédictives Passé pour prédire l avenir 2 Concepts de la modélisation Données test / apprentissage Généralement créées par l utilisateur

Plus en détail

WEKA : c est quoi? Brigitte Bigi. 15 février 2011. LPL - Équipe C3I. Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32

WEKA : c est quoi? Brigitte Bigi. 15 février 2011. LPL - Équipe C3I. Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32 WEKA : c est quoi? Brigitte Bigi LPL - Équipe C3I 15 février 2011 Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32 Introduction 1 Introduction 2 Classification supervisée 3 WEKA

Plus en détail

Variables (locales et globales), fonctions et procédures

Variables (locales et globales), fonctions et procédures Algorithmique... Variables (locales et globales), fonctions et procédures Nicolas Delestre et Michel Mainguenaud {Nicolas.Delestre,Michel.Mainguenaud}@insa-rouen.fr Modifié pour l ENSICAEN par : Luc Brun

Plus en détail

Algorithmique P2. Optimisation d'un algorithme de tri 2009-2010, Ulg R.Dumont

Algorithmique P2. Optimisation d'un algorithme de tri 2009-2010, Ulg R.Dumont Algorithmique P2 Optimisation d'un algorithme de tri 2009-2010, Ulg R.Dumont Sources supplémentaires Cours Algorithms and Data Structures in Java, Patrick Prosser, 2000, Glasgow University Algorithmique

Plus en détail

Test de Poisson à 1 échantillon et à 2 échantillons

Test de Poisson à 1 échantillon et à 2 échantillons Test de Poisson à 1 échantillon et à 2 échantillons Sous-menus de Minitab 15 : Stat>Statistiques élémentaires>test de Poisson à 1 échantillon Stat>Statistiques élémentaires>test de Poisson à 2 échantillons

Plus en détail

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION Sylvie Gervais Service des enseignements généraux École de technologie supérieure (sylvie.gervais@etsmtl.ca) Le laboratoire des condensateurs

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Base de données en mémoire

Base de données en mémoire Base de données en mémoire Plan Bases de données relationnelles OnLine Analytical Processing Difficultés de l OLAP Calculs en mémoire Optimisations 1 Base de données relationnelle Introduction Date Exemple

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

NFP136- Cours 2 ALGORITHMES ET COMPLEXITÉ. Définition d'un algorithme Un exemple Présentation des algorithmes Évaluation d'un algorithme Complexité

NFP136- Cours 2 ALGORITHMES ET COMPLEXITÉ. Définition d'un algorithme Un exemple Présentation des algorithmes Évaluation d'un algorithme Complexité NFP136- Cours 2 ALGORITHMES ET COMPLEXITÉ PLAN Définition d'un algorithme Un exemple Présentation des algorithmes Évaluation d'un algorithme Complexité 1 DÉFINITION D'UN ALGORITHME Procédure de calcul

Plus en détail

C3 : Manipulations statistiques

C3 : Manipulations statistiques C3 : Manipulations statistiques Dorat Rémi 1- Génération de valeurs aléatoires p 2 2- Statistiques descriptives p 3 3- Tests statistiques p 8 4- Régression linéaire p 8 Manipulations statistiques 1 1-

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

Statistiques descriptives (1/2)

Statistiques descriptives (1/2) Statistiques descriptives (1/2) Anita Burgun 2011-2012 http://www.med.univ-rennes1.fr Introduction! Statistique: méthode scientifique qui consiste à réunir des données chiffrées sur des ensembles d individus

Plus en détail

Intelligence Artificielle Jeux

Intelligence Artificielle Jeux Intelligence Artificielle Jeux Bruno Bouzy http://web.mi.parisdescartes.fr/~bouzy bruno.bouzy@parisdescartes.fr Licence 3 Informatique UFR Mathématiques et Informatique Université Paris Descartes Programmation

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII ALGORITHMIQUE II NOTION DE COMPLEXITE 1 2 Comment choisir entre différents algorithmes pour résoudre un même problème? Plusieurs critères de choix : Exactitude Simplicité Efficacité (but de ce chapitre)

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

Chaine de transmission

Chaine de transmission Chaine de transmission Chaine de transmission 1. analogiques à l origine 2. convertis en signaux binaires Échantillonnage + quantification + codage 3. brassage des signaux binaires Multiplexage 4. séparation

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Statistiques I. Alexandre Caboussat alexandre.caboussat@hesge.ch Classe : Mercredi 8h15-10h00 Salle : C114 http://campus.hesge.

Statistiques I. Alexandre Caboussat alexandre.caboussat@hesge.ch Classe : Mercredi 8h15-10h00 Salle : C114 http://campus.hesge. Statistiques I Alexandre Caboussat alexandre.caboussat@hesge.ch Classe : Mercredi 8h15-10h00 Salle : C114 http://campus.hesge.ch/caboussata A. Caboussat, HEG STAT I, 2010 1 / 54 Rappel Représentations

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Hélène Desmier ab, Pascale Kuntz a & Ivan Kojadinovic a. Pauc, 44306 Nantes. {prenom.nom}@polytech.univ-nantes.fr

Hélène Desmier ab, Pascale Kuntz a & Ivan Kojadinovic a. Pauc, 44306 Nantes. {prenom.nom}@polytech.univ-nantes.fr Une classification hiérarchique de variables discrètes basée sur l information mutuelle en pré-traitement d un algorithme de sélection de variables pertinentes. Hélène Desmier ab, Pascale Kuntz a & Ivan

Plus en détail

Classification et caractérisation

Classification et caractérisation Classification et caractérisation Classification arbre de décision classificateur Bayésien réseau de neurones 1 Caractérisation Description des concepts Généralisation des données Induction orientée attribut

Plus en détail

1 Retour sur le cours 3 Présentation de tableaux et graphiques Les mesures de tendance centrale Moyenne Mode (et classe modale) Médiane Les mesures de position Quartiles Déciles Mesures tendance centrale

Plus en détail

Méthodologie d échantillonnage et Échantillonneur ASDE

Méthodologie d échantillonnage et Échantillonneur ASDE Méthodologie d échantillonnage et Échantillonneur ASDE Par Michel Rochon L énoncé suivant définit de façon générale la méthodologie utilisée par Échantillonneur ASDE pour tirer des échantillons téléphoniques.

Plus en détail

Internet et Multimédia Exercices: flux multimédia

Internet et Multimédia Exercices: flux multimédia Internet et Multimédia Exercices: flux multimédia P. Bakowski bako@ieee.org Applications et flux multi-média média applications transport P. Bakowski 2 Applications et flux multi-média média applications

Plus en détail

D.I.I.C. 3 - INC Module COMV - Contrôle 1

D.I.I.C. 3 - INC Module COMV - Contrôle 1 Université de Rennes 1 année 2009-2010 I.F.S.I.C. 11 Décembre 2009 D.I.I.C. 3 - INC Module COMV - Contrôle 1 cours d Olivier LE MEUR Durée : 2 heures Documents autorisés : documents des cours, TD et TP,

Plus en détail

Quantification Scalaire et Prédictive

Quantification Scalaire et Prédictive Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction

Plus en détail