Discrétisation et génération de hiérarchies de concepts
|
|
- Eloi Garon
- il y a 8 ans
- Total affichages :
Transcription
1 Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts
2 Pourquoi prétraiter les données? 2 Données réelles souvent incomplètes : valeurs manquantes, données simplifiées bruitées : erreurs et exceptions incohérentes : nommage, codage Résultats de la fouille dépendent de la qualité des données
3 Principales étapes dans le prétraitement des données 3 Nettoyage Intégration Data cleaning Data integration Transformation Réduction Data transformation 2, 32, 100, 59, , 0.32, 1.00, 0.59, 0.48 Discrétisation transactions Data reduction attributes attributes A1 A2 A3... A126 A1 A3... A115 T1 T2 T3 T4... T2000 transactions s T1 T4... T1456
4 Données manquantes 4 Données non disponibles certains attributs nont n ont pas de valeur Causes : mauvais fonctionnement de l équipement incohérences avec d autres données et donc supprimées non saisies car non ou mal comprises considérées peu importantes au moment de la saisie ii Ces données doivent être inférées
5 Comment remplir les trous? 5 Ignorer le tuple peu efficace quand le pourcentage de valeurs manquantes est élevé Compléter manuellement les données Laborieux ou infaisable Utiliser une constante globale ex : «inconnue», une nouvelle catégorie? Utiliser la moyenne de l attribut Utiliser la moyenne de l attribut pour la même classe mieux Utiliser la valeur la plus probable formule Bayésienne ou arbre de décision
6 Données bruitées 6 Bruit : erreur ou variance aléatoire d une variable ibl mesurée Causes : Instrument de mesure défectueux Problème de saisie Problème de transmission Limitation technologique Incohérence dans les conventions de nommage Autres problèmes : enregistrement dupliqués données incomplètes données incohérentes
7 Correction du bruit 7 Par partitionnement t (binning) i trier et partitionner les données li l titi l l édi l b lisser les partitions par la moyenne, la médiane, les bornes, Clustering détecter et supprimer les exceptions Inspection humaine et informatique combinée détection des valeurs suspectes et vérification humaine Régression lisser les données par des fonctions de régression
8 Partitionnement simple : lissage 8 équi largeur (distance) : n intervalles de même taille équi profondeur : n intervalles contenant le même nombre de valeurs * données triées : 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * équi profondeur : partition 1 : 4, 8, 9, 15 partition 2 : 21, 21, 24, 25 partition 3 : 26, 28, 29, 34 * lissage par la moyenne : partition 1: 9, 9, 9, 9 partition 2: 23, 23, 23, 23 partition 3: 29, 29, 29, 29 * lissage par les bornes : partition 1: 4, 4, 4, 15 partition 2: 21, 21, 25, 25 partition 3: 26, 26, 26, 34
9 Clustering : suppression des exceptions 9
10 Régression 10 y Y1 Y1 y = x + 1 X1 x
11 Intégration des données 11 Intégration ti des données : combinaison de différentes sources en une seule Intégration des schémas : intégrer les méta données é de différentes sources problème de nommage : identifier les différents noms des mêmes données réelles, ex : num_client client_id Détecter et résoudre les conflits de valeurs pour les mêmes entités réelles, les valeurs des attributs provenant de sources différentessontsont différentes causes : représentation différentes, échelles différentes, ex : cm et pouces
12 Gestion de la redondance 12 fréquente lors de l intégration de plusieurs sources de données le même attribut peut avoir des noms différents un attribut peut être déduit d un autre peut être détectée té par des analyses de corrélation
13 Transformation des données 13 Lissage : réduire le bruit itdans les données Agrégation : simplification, construction de cubes de données Généralisation é : hiérarchie de concepts Normalisation : mise à l échelle pour avoir un petit intervalle spécifié min max z score mise à l échelle décimale
14 Normalisation 14 min max v min A v' = ( new_ maxa new_ mina) + maxa mina new_ min A z score v ' = v stand mean A _ dev A mise à l échelle décimale v v'= 10 j avec j le plus petit entier tq max( v )<1
15 Réduction des données 15 La fouille de données peut être très longue sur les données complètes Réduction des données obtenir une représentation réduite du jeu de données, plus petite en volume, mais qui produit les mêmes (ou presque) résultats analytiques Stratégies Agrégation par cubes de données Réduction de dimension Réduction de numérosité Discrétisation et génération de hiérarchies de concepts
16 Réduction de numérosité 16 Méthodes paramétriques suppose que les données suivent un modèle. Estimer et stocker seulement les paramètres du modèle modèle log linéaire : approximation de la distribution des valeurs dans un espace multidimensionnel Méthodes non paramétriques les données ne suivent pas un modèle principales : histogrammes, clustering, échantillonnage
17 Histogrammes populaire li diviser en intervalles et stocker la moyenne 40 (somme) 35 mise en œuvre optimale sur une dimension par 30 programmation 25 dynamique
18 Echantillonnage 18 Permet à un algorithme de s exécuter en un temps sous linéaire de la taille des données Choix d un sous ensemble représentatif des données potentiellement mauvais dans le cas de biais dans les données Méthodes d échantillonnage adaptatives échantillonnage stratifié approximer le pourcentage de chaque classe (ou sous population d intérêt) dans lejeu de données complet utilisé dans le cas de données biaisées L échantillonnage peut ne pas réduire le nombre d entrées/sorties ti
19 Échantillonnage 19 Données brutes
20 Echantillonnage 20 Données brutes Echantillon stratifié
21 Discrétisation 21 Trois types d attributs t Nominal ou catégorique : valeurs d un dun ensemble Ordinal : valeurs d un ensemble ordonné Continu : réels Discrétisation diviser l intervalle de valeurs possibles en sous intervalles certains algorithmes acceptent seulement des attributs catégoriques réduit le volume des données préparation pour de futures analyses
22 Discrétisation et hiérarchie de concepts 22 Discrétisation réduit le nombre de valeurs dun d un attribut (continu) donné Hiérarchie de concepts réduit les données en collectant et remplaçant les concepts de bas niveau (âge) par des concepts de niveau d abstraction plus élevé é (jeune, sénior)
23 Discrétisation et génération de hiérarchie de concepts pour des données numériques 23 Partitionnement t (binning) i Histogramme Clustering Basée entropie Segmentation par partitionnement naturel
24 Segmentation par partitionnement naturel 24 La règle èl peut être utilisée pour segmenter des données numériques en intervalles relativement uniformes Si un intervalle couvre 3, 6, 7 ou 9 valeurs distinctes au chiffre le plus significatif alors partitionner l intervalle en 3 intervalles de même largeur Si un intervalle couvre 2, 4, ou 8 valeurs distinctes alors partitionner en 4 intervalles Si un intervalle couvre 1, 5, ou 10 valeurs distinctes t alors partitionner en 5 intervalles
25 Règle : exemple 25 count Step 1: -$351 -$159 profit $1,838 $4,700 Min Low (i.e, 5%-tile) High(i.e, 95%-0 tile) Max Step 2: msd=1,000 Low=-$1,000 High=$2,000 Step 3: (-$1,000 - $2,000) (-$1,000-0) (0 -$ 1,000) ($1,000 - $2,000) Step 4: (-$400 -$5,000) (-$400-0) (0 - $1,000) ($1,000 - $2, 000) ($2,000 - $5, 000) (-$ $300) (-$ $200) (-$ $100) (-$100-0) (0 - $200) ($200 - $400) ($400 - $600) ($600 - $800) ($800 - $1,000) ($1,000 - $1,200) ($1,200 - $1,400) ($1,400 - $1,600) ($1,600 - $1,800) ($1,800 - $2,000) ($2,000 - $3,000) ($3,000 - $4,000) ($4,000 - $5,000)
26 Génération de hiérarchie de concepts pour des données nominales 26 Spécification d un ordre partiel par des utilisateurs t ou des experts ex : Gene Ontology Spécification d une portion de hiérarchie par le groupage explicite des données Spécification d un ensemble d attributs t sans ordre partiel Spécification partielle d un ensemble
27 Spécification d un ensemble d attributs 27 La hiérarchie de concepts peut être générée é é automatiquement en se basant sur le nombre de valeurs distinctes d un attribut. country 15 valeurs distinctes province_or_ state 65 valeurs distinctes city valeurs distinctes street valeurs distinctes
Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailStatistiques Descriptives à une dimension
I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailData Mining. Master 1 Informatique - Mathématiques UAG
Data Mining Master 1 Informatique - Mathématiques UAG 1.1 - Introduction Data Mining? On parle de Fouille de données Data Mining Extraction de connaissances à partir de données Knowledge Discovery in Data
Plus en détailIBM SPSS Direct Marketing 21
IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Plus en détail1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : http://www.lri.fr/ hivert
1 de 46 Algorithmique Trouver et Trier Florent Hivert Mél : Florent.Hivert@lri.fr Page personnelle : http://www.lri.fr/ hivert 2 de 46 Algorithmes et structures de données La plupart des bons algorithmes
Plus en détailObjectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailTraitement des données avec Microsoft EXCEL 2010
Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailL analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :
La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.
Plus en détailIFT3245. Simulation et modèles
IFT 3245 Simulation et modèles DIRO Université de Montréal Automne 2012 Tests statistiques L étude des propriétés théoriques d un générateur ne suffit; il estindispensable de recourir à des tests statistiques
Plus en détailCAPTEURS - CHAINES DE MESURES
CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,
Plus en détailLOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.
Module «Big Data» Extraction de Connaissances à partir de Données Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.fr 14 Janvier 2015 Pourquoi l extraction de connaissances à partir de
Plus en détailIntroduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Plus en détailProjet de Traitement du Signal Segmentation d images SAR
Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,
Plus en détailSoutenance de stage Laboratoire des Signaux et Systèmes
Soutenance de stage Laboratoire des Signaux et Systèmes Bornes inférieures bayésiennes de l'erreur quadratique moyenne. Application à la localisation de points de rupture. M2R ATSI Université Paris-Sud
Plus en détailChaine de transmission
Chaine de transmission Chaine de transmission 1. analogiques à l origine 2. convertis en signaux binaires Échantillonnage + quantification + codage 3. brassage des signaux binaires Multiplexage 4. séparation
Plus en détailStatistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier
Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................
Plus en détailStatistique : Résumé de cours et méthodes
Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailINTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Plus en détailTable des matières. I Mise à niveau 11. Préface
Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3
Plus en détailOptimisation des ressources des produits automobile première
EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients
Plus en détailStructure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Plus en détailIntroduction à la B.I. Avec SQL Server 2008
Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide
Plus en détailGestion obligataire passive
Finance 1 Université d Evry Séance 7 Gestion obligataire passive Philippe Priaulet L efficience des marchés Stratégies passives Qu est-ce qu un bon benchmark? Réplication simple Réplication par échantillonnage
Plus en détailArchitecture des Systèmes d Information Architecture des Systèmes d Information
Plan... Tableaux et tris I3 - Algorithmique et programmation 1 Rappels Nicol Delestre 2 Tableaux à n dimensions 3 Initiation aux tris Tableaux - v2.0.1 1 / 27 Tableaux - v2.0.1 2 / 27 Rappels : tableau
Plus en détailQuantification Scalaire et Prédictive
Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction
Plus en détailRéseau SCEREN. Ce document a été numérisé par le CRDP de Bordeaux pour la. Base Nationale des Sujets d Examens de l enseignement professionnel.
Ce document a été numérisé par le CRDP de Bordeaux pour la Base Nationale des Sujets d Examens de l enseignement professionnel. Campagne 2013 Ce fichier numérique ne peut être reproduit, représenté, adapté
Plus en détailTABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
Plus en détail1. Vocabulaire : Introduction au tableau élémentaire
L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailTABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie
PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be
Plus en détailChapitre 3 : INFERENCE
Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage
Plus en détailBaccalauréat ES/L Amérique du Sud 21 novembre 2013
Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée
Plus en détailIntelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com
Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines
Plus en détailLa nouvelle planification de l échantillonnage
La nouvelle planification de l échantillonnage Pierre-Arnaud Pendoli Division Sondages Plan de la présentation Rappel sur le Recensement de la population (RP) en continu Description de la base de sondage
Plus en détailTraitement bas-niveau
Plan Introduction L approche contour (frontière) Introduction Objectifs Les traitements ont pour but d extraire l information utile et pertinente contenue dans l image en regard de l application considérée.
Plus en détailMéthodes de Simulation
Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents
Plus en détailExploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.
Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION
Plus en détailL apprentissage automatique
L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer
Plus en détailTSTI 2D CH X : Exemples de lois à densité 1
TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailIntroduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)
MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour
Plus en détailReprésentation des Nombres
Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...
Plus en détailBASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :
BASE BioArray Software Environment (BASE) est une base de données permettant de gérer l importante quantité de données générées par des analyses de bio-puces. BASE gère les informations biologiques, les
Plus en détailChapitre VIII. Les bases de données. Orientées Objet. Motivation
Chapitre VIII Motivation Le modèle relationnel connaît un très grand succès et s avère très adéquat pour les applications traditionnelles des bases de données (gestion) Les bases de données Orientées Objet
Plus en détailCours de Master Recherche
Cours de Master Recherche Spécialité CODE : Résolution de problèmes combinatoires Christine Solnon LIRIS, UMR 5205 CNRS / Université Lyon 1 2007 Rappel du plan du cours 16 heures de cours 1 - Introduction
Plus en détailAnalyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Plus en détailRésumé des communications des Intervenants
Enseignements de la 1ere semaine (du 01 au 07 décembre 2014) I. Titre du cours : Introduction au calcul stochastique pour la finance Intervenante : Prof. M hamed EDDAHBI Dans le calcul différentiel dit
Plus en détailHistorique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications
L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d
Plus en détailActuariat I ACT2121. septième séance. Arthur Charpentier. Automne 2012. charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.
Actuariat I ACT2121 septième séance Arthur Charpentier charpentier.arthur@uqam.ca http ://freakonometrics.blog.free.fr/ Automne 2012 1 Exercice 1 En analysant le temps d attente X avant un certain événement
Plus en détailAnnexe commune aux séries ES, L et S : boîtes et quantiles
Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans
Plus en détailFonctions de plusieurs variables
Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme
Plus en détailStéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr
1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data
Plus en détailStatistique Descriptive Élémentaire
Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier
Plus en détailEstimation: intervalle de fluctuation et de confiance. Mars 2012. IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison
Estimation: intervalle de fluctuation et de confiance Mars 2012 IREM: groupe Proba-Stat Estimation Term.1 Intervalle de fluctuation connu : probabilité p, taille de l échantillon n but : estimer une fréquence
Plus en détailLes simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences
Plus en détail4. Résultats et discussion
17 4. Résultats et discussion La signification statistique des gains et des pertes bruts annualisés pondérés de superficie forestière et du changement net de superficie forestière a été testée pour les
Plus en détailPrincipe d un test statistique
Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre
Plus en détailBases de données cours 4 Construction de requêtes en SQL. Catalin Dima
Bases de données cours 4 Construction de requêtes en SQL Catalin Dima Requêtes SQL et langage naturel Énoncés en langage naturel. Traduction en SQL? Correspondance entre syntagmes/phrases et opérations
Plus en détailIBM SPSS Statistics Base 20
IBM SPSS Statistics Base 20 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 316. Cette version s applique à IBM SPSS
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détailLE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION
LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION Sylvie Gervais Service des enseignements généraux École de technologie supérieure (sylvie.gervais@etsmtl.ca) Le laboratoire des condensateurs
Plus en détailNe laissez pas le stockage cloud pénaliser votre retour sur investissement
Ne laissez pas le stockage cloud pénaliser votre retour sur investissement Préparé par : George Crump, analyste senior Préparé le : 03/10/2012 L investissement qu une entreprise fait dans le domaine de
Plus en détailEtude d un cas industriel : Optimisation de la modélisation de paramètre de production
Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui
Plus en détailProjet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies
Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Régis Boulet Charlie Demené Alexis Guyot Balthazar Neveu Guillaume Tartavel Sommaire Sommaire... 1 Structure
Plus en détailInformation utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/
Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : cinzia.digiusto@gmail.com webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/
Plus en détailNon-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011
Non-réponse et données manquantes Sylvie Rousseau & Gilbert Saporta décembre 2011 1 EXEMPLES DE TAUX DE RÉPONSE À CERTAINES ENQUÊTES Pour les enquêtes auprès des entreprises, le taux de non-réponse est
Plus en détailLes Entrepôts de Données
Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations
Plus en détailCoup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailChristophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Plus en détailTravailler avec les télécommunications
Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la
Plus en détailUniversité de Bangui. Modélisons en UML
Université de Bangui CRM Modélisons en UML Ce cours a été possible grâce à l initiative d Apollinaire MOLAYE qui m a contacté pour vous faire bénéficier de mes connaissances en nouvelles technologies et
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailSéminaire TEST. 1 Présentation du sujet. October 18th, 2013
Séminaire ES Andrés SÁNCHEZ PÉREZ October 8th, 03 Présentation du sujet Le problème de régression non-paramétrique se pose de la façon suivante : Supposons que l on dispose de n couples indépendantes de
Plus en détailComme chaque ligne de cache a 1024 bits. Le nombre de lignes de cache contenu dans chaque ensemble est:
Travaux Pratiques 3. IFT 1002/IFT 1005. Structure Interne des Ordinateurs. Département d'informatique et de génie logiciel. Université Laval. Hiver 2012. Prof : Bui Minh Duc. Tous les exercices sont indépendants.
Plus en détailTempérature corporelle d un castor (une petite introduction aux séries temporelles)
Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailAméliorer les performances du site par l'utilisation de techniques de Web Mining
Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire
Plus en détailEchantillonnage Non uniforme
Echantillonnage Non uniforme Marie CHABERT IRIT/INP-ENSEEIHT/ ENSEEIHT/TéSASA Patrice MICHEL et Bernard LACAZE TéSA 1 Plan Introduction Echantillonnage uniforme Echantillonnage irrégulier Comparaison Cas
Plus en détailLocalisation des fonctions
MODALISA 7 Localisation des fonctions Vous trouverez dans ce document la position des principales fonctions ventilées selon l organisation de Modalisa en onglets. Sommaire A. Fonctions communes à tous
Plus en détailChapitre 5 : Flot maximal dans un graphe
Graphes et RO TELECOM Nancy A Chapitre 5 : Flot maximal dans un graphe J.-F. Scheid 1 Plan du chapitre I. Définitions 1 Graphe Graphe valué 3 Représentation d un graphe (matrice d incidence, matrice d
Plus en détailApprentissage par renforcement (1a/3)
Apprentissage par renforcement (1a/3) Bruno Bouzy 23 septembre 2014 Ce document est le chapitre «Apprentissage par renforcement» du cours d apprentissage automatique donné aux étudiants de Master MI, parcours
Plus en détail1 Recherche en table par balayage
1 Recherche en table par balayage 1.1 Problème de la recherche en table Une table désigne une liste ou un tableau d éléments. Le problème de la recherche en table est celui de la recherche d un élément
Plus en détailBASE CONCEPTUELLE POUR L ANALYSE DES INCERTITUDES
A PPENDICE 1 BASE CONCEPTUELLE POUR L ANALYSE DES INCERTITUDES Recommendations du GIEC en matière de bonnes pratiques et de gestion des incertitudes pour les inventaires nationaux A1.1 Appendice 1 COPRESIDENTS,
Plus en détailLa segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM
La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,
Plus en détailUne méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,
Plus en détailEtude comparative de différents motifs utilisés pour le lancé de rayon
Etude comparative de différents motifs utilisés pour le lancé de rayon Alexandre Bonhomme Université de Montréal 1 Introduction Au cours des dernières années les processeurs ont vu leurs capacités de calcul
Plus en détail16H Cours / 18H TD / 20H TP
INTRODUCTION AUX BASES DE DONNEES 16H Cours / 18H TD / 20H TP 1. INTRODUCTION Des Fichiers aux Bases de Données 2. SYSTEME DE GESTION DE BASE DE DONNEES 2.1. INTRODUCTION AUX SYSTEMES DE GESTION DE BASES
Plus en détail1. Introduction...2. 2. Création d'une requête...2
1. Introduction...2 2. Création d'une requête...2 3. Définition des critères de sélection...5 3.1 Opérateurs...5 3.2 Les Fonctions...6 3.3 Plusieurs critères portant sur des champs différents...7 3.4 Requête
Plus en détail