Objectif du groupe GT1.1 Fusion de Données

Dimension: px
Commencer à balayer dès la page:

Download "Objectif du groupe GT1.1 Fusion de Données"

Transcription

1 Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives : (pilotées par EDF, LCPC, SYROKKO) - TGV (LCPC, SYROKKO) - Tours de refroidissement de Centrales nucléaires (EDF, SYROKKO)

2 LE VOCABULAIRE : Fusion : Exemples : Assemblage de données disparates en vue d une prise de décision. Data Mining : Extraction de connaissances nouvelles à partir de grand volume de données éventuellement fusionnées. Analyse des données symboliques (ADS) : Extraction de connaissances à partir d individus considérés à différent niveau de généralité et décrits par des variables prenant en compte la variation. Concept : Entité définie par des propriétés caractéristiques et une extension formée d instances satisfaisant ces propriétés. Exemple : pour l analyse des TGV par ADS : les concepts sont les essais (passage d un TGV sur un pont), les variables sont les capteurs, les individus de premier niveau sont décrits par les valeurs mesurées à chaque instant pour chaque capteur. La modélisation par histogramme de ces valeurs pour chaque capteur et chaque essai puis la concaténation (ou fusion) de ces histogrammes permet de décrire chaque concept (ie essai).

3 L ETAT de L ART (SYROKKO) Plan : 1) Naissance du Data Mining 2) Les outils du Data Mining 3) Les principaux acteurs 4) Les grandes méthodes du Data Mining : 4.1) Méthodes non supervisées Classification automatique : partition, hiérarchie ascendante, descendante Analyse factorielle Extraction de règles : algorithme apriori 4.2) Méthodes supervisées Arbre de segmentation Analyse canonique Régression Discrimination 5) L Analyse des Données Symboliques (ADS) 5.1) Des données classiques aux données symboliques 5.2) Les individus et les concepts: extension et intension 5.3) Sources de données symboliques 5.4) Les deux étapes d une ADS 5.5) Objectif de l ADS 5.6) Quelques caractéristiques de l ADS par rapport au Data Mining classique 5.7) Les apports de l analyse de données symboliques 5.8) Le logiciel SODAS 5.9) Le logiciel SYR 6) Les grandes méthodes de l ADS i) L objet de la méthode, ii) son principe iii) ses entrées et sorties. iv) un exemple. Des données plus générales (avant, pendant, après) concernant les TGV seront analysées avec une aide du LCPC. SOE: symbolic objects edition. VIEW: Star graphics of symbolic objects DIV: Divisive clustering SCLUST: Symbolic clustering SPYR : Symbolic hierarchy and pyramid

4 exemples de méthodes CARTE DE KOHONEN DE CONCEPTS ANALYSE FACTORIELLE: ACP Superposition de deux deux étoîles associées à deux classes de la pyramides réifiées en concepts Arbre descendant par division en classes de concepts homogènes et description symbolique de ces classes The objective of SCLUST is the clustering of symbolic objects by a dynamic algorithm based on symbolic data tables. The aim is to build a partition of SO s into a predefined number of classes. Each class has a prototype in the form of a SO. The optimality criterion used is based on the sum of proximities between the individuals and the prototypes of the clusters. Pyramide

5 EXEMPLES ILLUSTRATIFS TGV: Chaque ligne représente un essai (TGV passant sur un pont) Chaque colonne est associée à un capteur fournissant un signal valeurs dans chaque case.. Ces données sont transformées en histogrammes à 20 classes par projection en ordonnées.

6 ACP symbolique appliquée au tableau des histogrammes: Le TGV1 (noté ici TV1) est en dehors de son groupe de température et le TGV 14 recouvre la classe des basses températures. Deux anomalies sont détectées.

7 The symbolic pyramidal clustering confirms the anomalies. 1) TGV1 is out of its group of température 2) TGV 14 covers all the TGV of its group of temperature

8 Tours de refroidissement de centrales nucléaires Cartographie Inspection Fissure Les données Table 1) Description des fissures Table 2) Ecart de chaque noeud d une grille par rapport au modèle initial à différentes périodes Table 3) Mesures sur l enfoncement Question1: trouver des corrélations entre les différentes variables de ces tableaux Question 2: Ordonner les tours selon leur dégradation générale.

9 Etude des tours en détail Par classe d angles (Sections verticales) Construction des concepts classes d angles Par classe de hauteurs (Sections horizontales) Construction des concepts classes de hauteurs Par classe de hauteurs x classe d angles («Portions» de tour) Construction des concepts classes de hauteurs x classes d angles Niveau le plus fin de l analyse

10 Stratégie Construction du concept Tour Construction des meilleures variables : Descriptives des tours Et discriminantes des tours entre elles Mise en place d un indicateur combinant plusieurs variables de dégradation des tours et classement des tours Les variables sélectionnées dans le modèle sont des variables Statistiquement discriminantes des tours et Qualifiées de caractéristiques de la dégradation par les experts. Recherche des combinaisons minimales de variables présentant le même ordonnancement des tours que l indicateur défini à l étape précédente Test de «corrélation» des variables ordinales de Spearman Avec toutes les variables statistiquement discriminantes des tours

11 Plusieurs milliers de coordonnées polaires Fusion des données 1er type de fichiers: les contrôles géométriques Pour chaque tour, nous avons: 1 Fichier: écarts géométriques entre une année 1 et année 2 notés Ecarts_1_2 1 Fichier: Ecarts géométriques théoriques à l année 1 notés Ecarts_t_1 1 Fichier: Ecarts géométriques théoriques à l année 2 notés Ecarts_t_2 Rayon (m) Tour 1 Tour 21 Angle (Gr) Hauteu r (m) Ecar t , Rayon (m) Angle (Gr) Hauteu r (m) Ecar t , concepts «Tour». Nous agrégeons l ensemble des données sur les écarts au niveau des tours Tour Rayon (m) Hauteur (m) Ecart_1_2 Ecart_t_1 Ecart_t_2 Ouv01 [ 39 ; 62 ] [ 39 ; 62 ] [ ; ] [ ; ] [ ; ] Ouv13 [40 ; 62] [ 15 ; 152] [ ; ] [ ; ] [ ; ] Construction des données Symboliques Concept «Tours» Proportion d écarts faibles, moyens, importants, dans toute la tour 1 Rayons minimum et maximum de la tour 13

12 Variables sur le contrôle géométrique Annee_1 et Annee_2 : 1ère année et 2ème année du contrôle géométrique Rayon_1 et Rayon_2 : Variables intervalles donnant les rayons minimaux et maximaux de chaque tour pour les 2 années de mesure Hauteurs_1 et Hauteurs_2 : Variables intervalles donnant les hauteurs minimales et maximales de chaque tour pour les 2 années de mesure Ecart_I_1_2, Ecart_I_t_1, Ecart_I_t_2 : Variables intervalles donnant les écarts géométriques minimaux et maximaux de chaque tour entre l année 1 et l année 2, la théorie et l année 1, la théorie et l année 2 Ecart_H_1_2, Ecart_H_t_1, Ecart_H_t_2 : Variables histogrammes donnant les distributions des écarts géométriques de chaque tour entre l année 1 et l année 2, la théorie et l année 1, la théorie et l année 2» Dans les classes <-0.03m, [-0.03;0[; 0; ]0; 0.03]; >0.03m Ecartabs_H_1_2, Ecartabs_H_t_1, Ecartabs_H_t_2 : Variables histogrammes donnant les distributions des écarts géométriques en valeurs absolues de chaque tour entre l année 1 et l année 2, la théorie et l année 1, la théorie et l année 2» Dans les classes,[0;0.01[; ]0.01;0.02]; ; ]0.05;0.06] >0.06 NB : Il a été conclu que les écarts entre 2 années étaient plus pertinents pour l étude de la dégradation des tours que les écarts avec la théorie

13 Notes sur la construction des classes des variables histogrammes Plusieurs méthodes ont été étudiées, testées et comparées : Classes d effectifs égaux Classes de longueurs égales Coupures au niveau des sauts (les k plus grands sauts) Pour différents nombres de classes A la fin, nous retenons une segmentation discriminant le mieux possible et le plus simplement possible les 21 tours à l aide de la variable considérée. On doit être capable de visualiser rapidement les différences entre les tours

14 Extrait de la matrice de données sur les tours : variables sur le contrôle géométrique

15 Fusion des données 2ème type de fichier: les fissures Pour chaque tour, nous avons: 1 Fichier: Relevés des fissures à une année 1 1 Fichier: Relevés des fissures à une année 2 Plusieurs centaines de fissures Rayon (m) Angle (Gr) Tour 1 Tour 21 Hauteu r (m) LongFI (m) Orienta tionfi ,5 VER 16, ,55 HOR Rayo n (m) Angle (Gr) Hauteu r (m) LongFI (m) Orient ationfi ,5 VER ,1 HOR 21 concepts «Tour». Nous agrégeons l ensemble des données sur les fissures au niveau des tours Tour longfi Orientation FI Ouv01 [ ; ] 1645 Ouv13 [ ; ] 1885 Variables sur les écarts géométriques Ajout des variables sur les fissures NBFissure s Ajout de variables classiques : - Nombre de fissures par tour - Nombre de fissures entre l année 1 et l année 2 Proportion de fissures petites, moyennes, grandes, dans toute la tour 13

16 Variables sur les fissures longfi_i_1 et longfi_i_2 : Variables intervalles donnant les longueurs minimales et maximales des fissures de chaque tour pour les 2 années de mesure longfi_h_1 et longfi_h_2 : Variables histogrammes donnant les distributions des longueurs de fissures pour les deux années de mesure Dans les classes 0 à 0.5m, 0.5 à 1m, 1 à 1.5m; 1.5 à 2m, >2m OrientationFI_1 et OrientationFI_2 : variables histogrammes donnant les orientations de fissures Horizontales, Verticales, Obliques pour les deux années de mesure 1 VER, 2 HOR, 3 OBL NbFissures_1, NbFissures_2 : Variables continues classiques donnant le nombre de fissures par tour pour les deux années de mesure NbFissures_1_2 : Variable continue classique donnant l augmentation du nombre de fissures par tour entre les deux années de mesure

17 Extrait de la matrice de données sur les tours : variables sur les fissures

18 Classement des tours (les plus dégradées en haut) à l aide de l indicateur combinant 7 variables (1) Les plus dégradées :

Ingénierie d aide à la décision

Ingénierie d aide à la décision Ingénierie d aide à la décision Maria Malek 1 er septembre 2009 1 Objectifs et débouchés Nous proposons dans cette option deux grands axes pour l aide à la décision : 1. La recherche opérationnelle ; 2.

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Classification. Pr Roch Giorgi. roch.giorgi@univ-amu.fr

Classification. Pr Roch Giorgi. roch.giorgi@univ-amu.fr Classification Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr Objectif Rechercher

Plus en détail

de la classification Approche pragmatique t Editions TECHNIP 27 rue Cinoux, 75737 PARIS Cedex 15, FRANCE Arbres hiérarchiques Partitionnements

de la classification Approche pragmatique t Editions TECHNIP 27 rue Cinoux, 75737 PARIS Cedex 15, FRANCE Arbres hiérarchiques Partitionnements Jean-Pierre NAKACHE Ingénieur de recherche CNRS détaché à l'inserm Chargé de cours à l'isup Josiane CONFAIS Ingénieur d'études chargée des enseignements pratiques à l'isup Approche pragmatique de la classification

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Université de Perpignan - IUT de Carcassonne Vivien ROSSI Année 2006/2007 IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Ce document est tiré du site : http ://www.stat.ucl.ac.be/ispersonnel/lecoutre/stats/spad/

Plus en détail

Module 3 : Introduction à la Modélisation SOUS MODELER

Module 3 : Introduction à la Modélisation SOUS MODELER Module 3 : Introduction à la Modélisation SOUS MODELER 1 Techniques prédictives Passé pour prédire l avenir 2 Concepts de la modélisation Données test / apprentissage Généralement créées par l utilisateur

Plus en détail

Prof.É.D.Taillard. Classification automatique @Prof. E. Taillard 1 EIVD, Informatique logiciel, 4 e semestre

Prof.É.D.Taillard. Classification automatique @Prof. E. Taillard 1 EIVD, Informatique logiciel, 4 e semestre INFORMATIQUE ORIENTATION LOGICIELS CLASSIFICATION AUTOMATIQUE Prof.É.D.Taillard Classification automatique @Prof. E. Taillard EIVD, Informatique logiciel, 4 e semestre CLASSIFICATION AUTOMATIQUE But :

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

DESS Informatique Décisionnelle Université Paris Dauphine. Projet Datamining. Offres de location d appartements à Paris

DESS Informatique Décisionnelle Université Paris Dauphine. Projet Datamining. Offres de location d appartements à Paris DESS Informatique Décisionnelle Université Paris Dauphine Projet Datamining Offres de location d appartements à Paris Encadrant : Mr. DIDAY Mai 2004 VILLE Clarisse VIVIER Julien SOMMAIRE INTRODUCTION...

Plus en détail

PROJET DE DATA MINING SUR DES DONNEES CINEMATOGRAPHIQUES AVEC LE LOGICIEL SODAS

PROJET DE DATA MINING SUR DES DONNEES CINEMATOGRAPHIQUES AVEC LE LOGICIEL SODAS UNIVERSITE PARIS-IX - Novembre 2004- DAUPHINE PROJET DE DATA MINING SUR DES DONNEES CINEMATOGRAPHIQUES AVEC LE LOGICIEL SODAS Réalisé par : Sonia GUEHIS -DEA 127- Encadré par: Mr Edwin DIDAY TABLE DES

Plus en détail

PROJET SODAS. Quels sont les facteurs qui font gagner une écurie en Formule1? Master MIDO

PROJET SODAS. Quels sont les facteurs qui font gagner une écurie en Formule1? Master MIDO Tan Christophe Tran Kinh Julienne Data Mining Mr Diday PROJET SODAS Quels sont les facteurs qui font gagner une écurie en Formule1? Université de PARIS-DAUPHINE Master MIDO Spécialité ISF SOMMAIRE I) Présentation

Plus en détail

L analyse des données statistiques

L analyse des données statistiques L analyse des données statistiques Public : Les cadres devant analyser des données quantitatives et qualitatives Objectif : Apprendre, en utilisant principalement Excel : - à traiter des données provenant

Plus en détail

RAPPORT DE PROJET DATA MINING

RAPPORT DE PROJET DATA MINING DEA 127 : INFORMATIQUE SYSTEMES INTELLIGENTS RAPPORT DE PROJET DATA MINING «Analyse des endettements par niveau de développement des pays» Réalisé par : BELEM MAHAMADOU Sous la direction de : M. EDWIN

Plus en détail

Introduction à l analyse des données. Olivier Godechot

Introduction à l analyse des données. Olivier Godechot Introduction à l analyse des données Olivier Godechot Introduction. Les données statistiques : de très nombreuses variables. Aucune n est parfaite La perception d un phénomène appréhendée comme la combinaison

Plus en détail

Projet Data Mining. Projet SODAS :

Projet Data Mining. Projet SODAS : UNIVERSITE PARIS DAUPHINE DEA 127 : SYSTEME INTELLIGENT Projet Data Mining décembre 2004 Projet SODAS : Etude sur les footballeurs évoluant en Ligue 1 durant la saison 2002-2003 Responsable : Edwin DIDAY

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

GUIDE DU DATA MINER. Classification - Typologies. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Classification - Typologies. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Classification - Typologies Data Management, Data Mining, Text Mining 1 Guide du Data Miner Classification - Typologies Le logiciel décrit dans le manuel est diffusé dans le cadre d

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Data Mining : la classification non supervisée

Data Mining : la classification non supervisée Data Mining : la classification non supervisée Clustering : une affaire de distance. Etude préliminaire. Valeurs discrètes. Soient les deux individus suivants correspondant à des séquences ADN : X = AGGGTGGC

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

La Grille, moyen fondamental de l analyse

La Grille, moyen fondamental de l analyse Fiche méthodologie #1 La Grille, moyen fondamental de l analyse Cette rubrique présente des notes et documents publiés par Philippe Latour, enseignant au Master Géomarketing et stratégies territoriales

Plus en détail

STAGE. «Offre modulaire - Recueillir et analyser les besoins et attentes des usagers - Module 4 - L'analyse experte des données statistiques»

STAGE. «Offre modulaire - Recueillir et analyser les besoins et attentes des usagers - Module 4 - L'analyse experte des données statistiques» STAGE «Offre modulaire - Recueillir et analyser les besoins et attentes des usagers - Module 4 - L'analyse experte des données statistiques» PROGRAMME DETAILLE Intervenant : PARIS nicolas Cabinet : OPTIMA

Plus en détail

Chapitre 3 Dénombrement et représentation d un caractère continu. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel

Chapitre 3 Dénombrement et représentation d un caractère continu. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel Chapitre 3 Dénombrement et représentation d un caractère continu Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel Introduction Un caractère quantitatif est continu si ses modalités possibles

Plus en détail

L analyse en composantes principales en pratique

L analyse en composantes principales en pratique L analyse en composantes principales en pratique Après avoir vu sa formalisation mathématique dans le module précédent, on s intéresse ici à l utilisation pratique de l ACP. 1 Objectifs L objectif de l

Plus en détail

Digital Workplace et Gestion des connaissances Concepts et mise en oeuvre

Digital Workplace et Gestion des connaissances Concepts et mise en oeuvre Avant-propos 1. Objectif du livre 17 2. Illustrations des exemples de ce livre 18 2.1 Office 365 comme plateforme technologique pour une digital workplace 18 2.2 SharePoint et Yammer à l honneur 18 3.

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Cours de Statistiques

Cours de Statistiques Cours de Statistiques Romain Raveaux 1 1 Laboratoire L3I Université de La Rochelle romain.raveaux01 at univ-lr.fr Octobre 24-11, 2008 1 / 35 Sommaire 1 Quelques Rappels 2 numériques Relations entre deux

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Didacticiel - Etudes de cas

Didacticiel - Etudes de cas Objectif Montrer la complémentarité des méthodes de fouille de données (clustering) et de visualisation (analyse en composantes principales). Fichier Nous traitons le fichier CARS.XLS. Il est composé de

Plus en détail

Projet Data Mining L Analyse des contrats d assurance vie DESS-ID 2004-2005. Projet Data Mining. L Analyse des contrats d Assurance Vie

Projet Data Mining L Analyse des contrats d assurance vie DESS-ID 2004-2005. Projet Data Mining. L Analyse des contrats d Assurance Vie DESS-ID 2004-2005 Projet Data Mining L Analyse des contrats d Assurance Vie Sous la direction de M.DIDAY Edwin M.ZHOU Zhiqiang Travaux réalisés par CHRIRAA Mostafat SUN Yue Feng - 1 - Sommaire 1. Introduction..

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

Formation Actuaire Data-Scientist PROGRAMME

Formation Actuaire Data-Scientist PROGRAMME Formation Actuaire Data-Scientist PROGRAMME 15 Septembre 2014 Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 Programme Séance inaugurale : révolu-on numérique besoins des entreprises cadre

Plus en détail

Introduction sur l analyse en composantes principales (ACP)

Introduction sur l analyse en composantes principales (ACP) Introduction sur l analyse en composantes principales (CP) ) Introduction sur un exemple à 2 dimensions On veut représenter graphiquement les profils d élèves qui ont été notés sur 2 matières (Français

Plus en détail

COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES

COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 6 : Modélisation non-supervisée

Plus en détail

APTITUDE DE LA THERMOGRAPHIE INFRAROUGE À DÉTECTER LES FISSURES ET NIDS D ABIELLE DANS LE BÉTON

APTITUDE DE LA THERMOGRAPHIE INFRAROUGE À DÉTECTER LES FISSURES ET NIDS D ABIELLE DANS LE BÉTON APTITUDE DE LA THERMOGRAPHIE INFRAROUGE À DÉTECTER LES FISSURES ET NIDS D ABIELLE DANS LE BÉTON J. RHAZI, S. NAAR Groupe de Recherche sur l Auscultation et l Instrumentation Département de génie civil

Plus en détail

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h I.U.T de Caen STID 2ème année Département STID Année Universitaire 2002-2003 Responsable de cours : Alain LUCAS Seule la calculatrice type collège est autorisée. Seul le cours est autorisé. On rappelera

Plus en détail

Analyse multidimensionnelle de données longitudinales

Analyse multidimensionnelle de données longitudinales Analyse multidimensionnelle de données longitudinales Ndèye Niang Conservatoire National des Arts et Métiers Plan Introduction Terminologie-Notations Méthodes directes Coefficient d association vectorielle

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Analyse multivariée approfondie

Analyse multivariée approfondie Analyse multivariée approfondie Enseignants: NIANG N. et RUSSOLILLIO G. Maître de conférences Statistique Appliquée Laboratoire CEDRIC CNAM http://www.cnam.fr et d autres intervenants extérieurs au Cnam

Plus en détail

Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande

Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande Université de Nantes M2 Ingénierie Mathématiques Rapport de chimiométrie Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de

Plus en détail

PROJET DATAMINING. Recherche des profils patients dépassant la durée normale de séjour au centre hospitalier de Poissy-St Germain en Laye

PROJET DATAMINING. Recherche des profils patients dépassant la durée normale de séjour au centre hospitalier de Poissy-St Germain en Laye 2007-2008 Master MIAGE & DECISION Spécialité : Informatique décisionnelle PROJET DATAMINING Recherche des profils patients dépassant la durée normale de séjour au centre hospitalier de Poissy-St Germain

Plus en détail

L analyse discriminante

L analyse discriminante L analyse discriminante À Propos de ce document... Introduction... La démarche à suivre sous SPSS... 2. Statistics... 2 2. Classify... 2 Analyse des résultats... 3. Vérification de l existence de différences

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing

Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing Alzennyr Da Silva, Yves Lechevallier Projet AxIS, INRIA Paris-Rocquencourt Domaine de Voluceau,

Plus en détail

Chapitre 1 GRAPHIQUES

Chapitre 1 GRAPHIQUES Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 1 GRAPHIQUES On entend souvent qu un schéma vaut mieux qu un long discours. Effectivement, lorsque l on

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 6. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 6. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 6 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

Statistiques descriptives (1/2)

Statistiques descriptives (1/2) Statistiques descriptives (1/2) Anita Burgun 2011-2012 http://www.med.univ-rennes1.fr Introduction! Statistique: méthode scientifique qui consiste à réunir des données chiffrées sur des ensembles d individus

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

SERIE 1 Statistique descriptive - Graphiques

SERIE 1 Statistique descriptive - Graphiques Exercices de math ECG J.P. 2 ème A & B SERIE Statistique descriptive - Graphiques Collecte de l'information, dépouillement de l'information et vocabulaire La collecte de l information peut être : directe:

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Revue MODULAD, 2008-93- Numéro 38

Revue MODULAD, 2008-93- Numéro 38 COMMENT ETRAIRE DES CONNAISSANCES A PARTIR DES CONCEPTS DE VOS BASES DE DONNEES? LES DEU ETAPES DE L ANALYSE DES DONNEES SYMBOLIQUES. E. Diday Université Paris-Dauphine diday@ceremade.dauphine.fr Résumé

Plus en détail

DATA MINING : ANALYSE DE LA BASE DE DONNEES «ACTIFS.MDB»

DATA MINING : ANALYSE DE LA BASE DE DONNEES «ACTIFS.MDB» EUZENADE Anne-Laure DESS 220 Informatique de gestion Université de Paris Dauphine DATA MINING : ANALYSE DE LA BASE DE DONNEES «ACTIFS.MDB» ANALYSE DE DONNEES E. DIDAY SOMMAIRE INTRODUCTION...1 I. PRESENTATION

Plus en détail

Data Mining : la classification non supervisée

Data Mining : la classification non supervisée Data Mining : la classification non supervisée Clustering : une affaire de distance. Etude préliminaire. Valeurs discrètes. Soient les deux individus suivants correspondant à des séquences ADN : X = AGGGTGGC

Plus en détail

Pierre-Louis GONZALEZ

Pierre-Louis GONZALEZ SEGMENTATION Pierre-Louis GONZALEZ 1 I. Les méthodes de segmentation. Introduction Les méthodes de segmentation cherchent à résoudre les problèmes de discrimination et de régression en divisant de façon

Plus en détail

Carine Krier Lise Moro DESS Informatique Décisionnelle. Quels facteurs justifient la réussite d un étudiant au poleinfo3 de dauphine?

Carine Krier Lise Moro DESS Informatique Décisionnelle. Quels facteurs justifient la réussite d un étudiant au poleinfo3 de dauphine? Carine Krier Lise Moro DESS Informatique Décisionnelle Quels facteurs justifient la réussite d un étudiant au poleinfo3 de dauphine? Enseignant : Edwin Diday Mars 2005 SOMMAIRE 1 Etat de l art... 3 1.1

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Ressources pour le lycée technologique

Ressources pour le lycée technologique éduscol Enseignement de mathématiques Classe de première STMG Ressources pour le lycée technologique Échantillonnage : couleur des yeux au Canada Contexte pédagogique Objectifs Obtenir un intervalle de

Plus en détail

L analyse Factorielle des correspondances. 1/ Préambule descriptif de l AFC

L analyse Factorielle des correspondances. 1/ Préambule descriptif de l AFC L analyse Factorielle des correspondances...2 1/ Préambule descriptif de l AFC...2 Exemples de types de données que l AFC peut aborder:...2 Quelques types de tableaux traités par l AFC...3 2/ Exercice

Plus en détail

Laboratoire 2 Extraction des caractéristiques

Laboratoire 2 Extraction des caractéristiques Laboratoire 2 Extraction des caractéristiques L objectif de l extraction et de la sélection de caractéristiques est d identifier les caractéristiques importantes pour la discrimination entre classes. Après

Plus en détail

Analyse de données multidimensionnelles

Analyse de données multidimensionnelles Analyse de données multidimensionnelles M1 Statistique et économétrie, 2014 Projet - V. Monbet Le projet est composé de deux parties indépendantes. Les données sont disponibles sur la page web du cours.

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E.

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E. Université Paris Dauphine DESS ID 2004/2005 Datamining Séries télévisées nominées aux oscars Mars 2005 Enseignant : Mr E. DIDAY Réalisé par : Mounia CHERRAD Anne-Sophie REGOTTAZ Sommaire Introduction...

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

PROPOSITION D UNE APPROCHE DE SEGMENTATION D IMAGES HYPERSPECTRALES

PROPOSITION D UNE APPROCHE DE SEGMENTATION D IMAGES HYPERSPECTRALES PROPOSITION D UNE APPROCHE DE SEGMENTATION D IMAGES HYPERSPECTRALES Nathalie GORRETTA MONTEIRO 1 1 UMR Information et Technologies pour les Agro-Procédés, Cemagref Montpellier, France Présentée le 25 Février

Plus en détail

Digital Workplace. et Gestion. Concepts et mise en œuvre. Gilles BALMISSE. des connaissances

Digital Workplace. et Gestion. Concepts et mise en œuvre. Gilles BALMISSE. des connaissances Digital Workplace et Gestion des connaissances Gilles BALMISSE Table des matières 1 Avant-propos 1. Objectif du livre.......................................... 17 2. Illustrations des exemples de ce livre.........................

Plus en détail

UNIVERSITÉ LUMIÈRE LYON 2 UFR DE SCIENCES ÉCONOMIQUES ET DE GESTION. M1- Economie quantitative. Analyse des données

UNIVERSITÉ LUMIÈRE LYON 2 UFR DE SCIENCES ÉCONOMIQUES ET DE GESTION. M1- Economie quantitative. Analyse des données UNIVERSITÉ LUMIÈRE LYON 2 UFR DE SCIENCES ÉCONOMIQUES ET DE GESTION M1- Economie quantitative Analyse des données Polycopié 2 : Classification automatique Année Universitaire 2013-2014 Courriel ; rafik.abdesselam@univ-lyon2.fr

Plus en détail

1. Description du cours

1. Description du cours 1. Description du cours Ce cours porte sur la généralisation de notions mathématiques par le biais d expériences, d applications et du développement de structures formelles et abstraites. Au moyen de la

Plus en détail

ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN

ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN Pôle Informatique de Recherche et d Enseignement en Histoire ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN A. PREMIER PAS 1. INTEGRATION DU TABLEAU

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Activité 1 : échantillonnage

Activité 1 : échantillonnage Activité échantillonnage, intervalle de fluctuation, prise de décision (à partir d un même thème) Les trois activités qui suivent s inspirent du document «ressources pour la classe de première générale

Plus en détail

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 9 ANALYSE MULTIDIMENSIONNELLE L analyse des données multidimensionnelles regroupe un ensemble de méthodes

Plus en détail

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES STATISTIQUES I. Séries statistiques simples... 1 A. Définitions... 1 1. Population... 1 2. Caractère statistique... 1 B. Séries classées / représentations graphiques.... 2 1. Séries classées... 2 2. Représentations

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Méthodes de projection

Méthodes de projection Chapitre 11 Méthodes de projection Contenu 11.1 Analyse en composantes principales........ 138 11.1.1 L Analyse en Composantes Principales........ 139 11.1.2 La (grande) famille des ACP............. 151

Plus en détail

Module 2: Les échelles

Module 2: Les échelles Module 2: Les échelles Echelles et mesure en sciences sociales - Mesurer des concepts abstraits/complexes (p.ex. attitudes) - Mesures et questionnaires (questions Echelles (tests, indices) - Echelles conceptuelles

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION Sylvie Gervais Service des enseignements généraux École de technologie supérieure (sylvie.gervais@etsmtl.ca) Le laboratoire des condensateurs

Plus en détail

Visualisation de données. Fabrice Rossi Télécom ParisTech

Visualisation de données. Fabrice Rossi Télécom ParisTech Visualisation de données Fabrice Rossi Télécom ParisTech Plan Introduction Analyses univariées Variables numériques Histogramme Densité Boxplot et statistiques Conditionnement Variables nominales Analyses

Plus en détail

Data Mining: Activité hospitalière

Data Mining: Activité hospitalière Data Mining: Activité hospitalière DIAGNE Sénéba 1, Huai Yuan WAN 2 1. S2IFA 2. DRM Chapitre 1 Clustering : Activité hospitalière 1.1 Présentation des données Le périmètre des données représente ici un

Plus en détail

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé Glossaire Analyse en Composantes Principales (ACP) : *méthode factorielle (Pearson 1901, Hotelling 1933) permettant de fournir un résumé descriptif (sous forme graphique le plus souvent) d une population

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Analyse discriminante

Analyse discriminante Analyse discriminante Christine Decaestecker & Marco Saerens ULB & UCL LINF2275 1 Analyse Discriminante Particularités: 2 formes/utilisations complémentaires: méthode factorielle: description "géométrique"

Plus en détail

Analyse des données et Data Mining

Analyse des données et Data Mining Analyse des données et Data Mining Analyse en composantes principales utc sy09 1 Objectif des méthodes factorielles Visualiser, traiter des données multidimensionnelles Problème difficile Information apportée

Plus en détail

Laser LAX 300. Mode d emploi

Laser LAX 300. Mode d emploi Laser LAX 300 fr Mode d emploi A1 4 3 2a 1a 2b 8 4 5 9 1b 6 7 A2 A3 11 10 A4 A5 A6 L1 ± 0,3 mm/m ± 23/64 A7 L1 ± 0,3 mm/m ± 23/64 L2 ± 1/4 ± 0,2 mm/m B1 B2 90 C1 C2 C3 C4 X1 X2 X3 5m 5m S = 5m X X S

Plus en détail

L3 Géographie UE Méthodologie. Statistiques COURS 1. Salle 125. Intervenants : Nadège. UMR Centre de Recherches de Climatologie (CRC)

L3 Géographie UE Méthodologie. Statistiques COURS 1. Salle 125. Intervenants : Nadège. UMR Centre de Recherches de Climatologie (CRC) L3 Géographie UE Méthodologie Statistiques COURS 1 Salle 125 Intervenants : Nadège Martiny & Julien Crétat UFR Sciences Humaines (Département de Géographie) UMR Centre de Recherches de Climatologie (CRC)

Plus en détail

UV Théorie de l Information. Codes à longueur variable

UV Théorie de l Information. Codes à longueur variable Cours n 5 : UV Théorie de l Information Compression de l information : Codage de source sans distorsion Ex 1 : Code de Shannon Fano Ex 2 : Code de Huffman Ex 3 : Codage par plage Ex 4 : Codage de Lempel

Plus en détail

Les grandes idées mathématiques de la 4 e à la 6 e année

Les grandes idées mathématiques de la 4 e à la 6 e année Les grandes idées mathématiques de la 4 e à la 6 e année Domaine : Le nombre Les concepts numériques Les fractions : fraction propre, fraction impropre, nombre fractionnaire et fractions équivalentes.

Plus en détail

La gestion des ventes.

La gestion des ventes. I. La prévision des ventes. A. Principe. La gestion des ventes. Elle consiste à déterminer les ventes futures à la fois en quantité et en valeur en tenant compte des tendances et contraintes imposées à

Plus en détail

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac La classification 2012-2013 Fabien Chevalier Jérôme Le Bellac Introduction : Classification : méthode d analyse de données Objectif : Obtenir une représentation schématique simple d'un tableau de données

Plus en détail

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme Distance et classification Cours 4: Traitement du signal et reconnaissance de forme Plan Introduction Pré-traitement Segmentation d images Morphologie mathématique Extraction de caractéristiques Classification

Plus en détail

1. Introduction. 2. Extraction d observation à partir du signal audio. TP ATIAM, Structuration et résumé audio Mardi 27 janvier 2009 14h00 17h30

1. Introduction. 2. Extraction d observation à partir du signal audio. TP ATIAM, Structuration et résumé audio Mardi 27 janvier 2009 14h00 17h30 Sujet : Date : Auteur : TP ATIAM, Structuration et résumé audio Mardi 7 janvier 009 14h00 17h30 Geoffroy Peeters 1. Introduction Ce TP vise à construire un système simple mais complet de création de résumé

Plus en détail

Contrôle objet du modèle AROME avec le logiciel MODE développé au NCAR

Contrôle objet du modèle AROME avec le logiciel MODE développé au NCAR Toulouse le 08 Octobre 2014 Contrôle objet du modèle AROME avec le logiciel MODE développé au NCAR Travail réalisé par RAZAGUI Abdelhak sous la direction de Joël STEIN Période du 13 septembre au 11 Octobre

Plus en détail

Création de typologie sous SPSS

Création de typologie sous SPSS Création de typologie sous SPSS À Propos de ce document... 1 Introduction... 1 La démarche à suivre sous SPSS... 2 1. «Iterate»... 2 2. «Save»... 2 3. «Options»... 3 Analyse des résultats... 3 1. Historique

Plus en détail

Cours n 2 : Les objets de la géométrie. () 3 septembre 2012 1 / 3

Cours n 2 : Les objets de la géométrie. () 3 septembre 2012 1 / 3 Cours n 2 : Les objets de la géométrie () 3 septembre 2012 1 / 3 Une demi-droite est une portion de droite limitée d un seul côté par un point appelé origine. Une demi-droite est une portion de droite

Plus en détail