Objectif du groupe GT1.1 Fusion de Données

Documents pareils

La classification automatique de données quantitatives

INTRODUCTION AU DATA MINING

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars Mr E.

Logiciel XLSTAT version rue Damrémont PARIS

données en connaissance et en actions?

Introduction au datamining

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Statistiques Descriptives à une dimension

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Extraction d informations stratégiques par Analyse en Composantes Principales

DATA MINING - Analyses de données symboliques sur les restaurants

Introduction au Data-Mining

WEBSELL. Projet DATAMINING

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Apprentissage Automatique

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Fonctions de plusieurs variables

Cours IV Mise en orbite

Enjeux mathématiques et Statistiques du Big Data

Introduction au Data-Mining

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

SERIE 1 Statistique descriptive - Graphiques

Analyse de grandes bases de données en santé

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Séries Statistiques Simples

Cognit Ive Cas d utilisation

Localisation des fonctions

Projet de Traitement du Signal Segmentation d images SAR

Relation entre deux variables : estimation de la corrélation linéaire

Business Intelligence

Traitement bas-niveau

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

1 Modélisation d être mauvais payeur

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Agenda de la présentation

Spécificités, Applications et Outils

Infolettre #18 : Les graphiques avec Excel 2010

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Annexe commune aux séries ES, L et S : boîtes et quantiles

Projet de Datamining Supervisé (SODAS) Analyse des régions françaises

: seul le dossier dossier sera cherché, tous les sousdomaines

Once the installation is complete, you can delete the temporary Zip files..

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

Aide-mémoire de statistique appliquée à la biologie

Agrégation des portefeuilles de contrats d assurance vie

1 Définition. 2 Systèmes matériels et solides. 3 Les actions mécaniques. Le système matériel : Il peut être un ensemble.un sous-ensemble..

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Analyse Sémantique de Nuages de Points 3D et d Images dans les Milieux Urbains

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Le No.1 de l économie d énergie pour patinoires.

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Table des matières. I Mise à niveau 11. Préface

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

BACCALAUREAT GENERAL MATHÉMATIQUES

Correction du baccalauréat STMG Polynésie 17 juin 2014

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

F411 - Courbes Paramétrées, Polaires

Statistique : Résumé de cours et méthodes

Franck VAUTIER, Jean-Pierre TOUMAZET, Erwan ROUSSEL, Marlène FAURE, Mohamed ABADI, Marta FLOREZ, Bertrand DOUSTEYSSIER

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Projet ANR. Bruno Capra - OXAND. 04/06/2015 CEOS.fr - Journée de restitution (Paris) B. CAPRA

Introduction à l informatique temps réel Pierre-Yves Duval (cppm)

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Onet modernise son parc informatique grâce aux capacités analytiques temps réel de Nexthink

Mario Geiger octobre 08 ÉVAPORATION SOUS VIDE

ECR_DESCRIPTION CHAR(80), ECR_MONTANT NUMBER(10,2) NOT NULL, ECR_SENS CHAR(1) NOT NULL) ;

Mesures et incertitudes

Evry - M2 MIAGE Entrepôt de données

Annexe I b. Référentiel de certification

LE LEAN MINING ET LES DÉFIS ASSOCIÉS À LA SST. Nadeau, S., Morency, F., Nsangou, J.-R. École de technologie supérieure

Questions d Entretiens en Finance de Marché Retour 2011/2012

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Evaluation générale de la qualité des données par âge et sexe

Mise en œuvre des filets de sécurité en grandes nappes

Critères pour avoir la meilleure équipe!

CONFERENCE PALISADE. Optimisation robuste d un plan d expériences par simulation Monte-Carlo Concepts de «Design Space» et de «Quality by Design»

Débouchés professionnels

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit

Cartographie Mobile à MINES ParisTech

Les nouveautés de Femap 11.1

Système de surveillance vidéo

2 Serveurs OLAP et introduction au Data Mining

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Analyse d images. Edmond.Boyer@imag.fr. Edmond Boyer UFRIMA 1

Simulation d'un examen anthropomorphique en imagerie TEMP à l iode 131 par simulation Monte Carlo GATE

Bases de données relationnelles

Transcription:

Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives : (pilotées par EDF, LCPC, SYROKKO) - TGV (LCPC, SYROKKO) - Tours de refroidissement de Centrales nucléaires (EDF, SYROKKO)

LE VOCABULAIRE : Fusion : Exemples : Assemblage de données disparates en vue d une prise de décision. Data Mining : Extraction de connaissances nouvelles à partir de grand volume de données éventuellement fusionnées. Analyse des données symboliques (ADS) : Extraction de connaissances à partir d individus considérés à différent niveau de généralité et décrits par des variables prenant en compte la variation. Concept : Entité définie par des propriétés caractéristiques et une extension formée d instances satisfaisant ces propriétés. Exemple : pour l analyse des TGV par ADS : les concepts sont les essais (passage d un TGV sur un pont), les variables sont les capteurs, les individus de premier niveau sont décrits par les valeurs mesurées à chaque instant pour chaque capteur. La modélisation par histogramme de ces valeurs pour chaque capteur et chaque essai puis la concaténation (ou fusion) de ces histogrammes permet de décrire chaque concept (ie essai).

L ETAT de L ART (SYROKKO) Plan : 1) Naissance du Data Mining 2) Les outils du Data Mining 3) Les principaux acteurs 4) Les grandes méthodes du Data Mining : 4.1) Méthodes non supervisées 4.1.1 Classification automatique : partition, hiérarchie ascendante, descendante 4.1.2 Analyse factorielle 4.1.3 Extraction de règles : algorithme apriori 4.2) Méthodes supervisées 4.2.1 Arbre de segmentation 4.2.2 Analyse canonique 4.2.3 Régression 4.2.4 Discrimination 5) L Analyse des Données Symboliques (ADS) 5.1) Des données classiques aux données symboliques 5.2) Les individus et les concepts: extension et intension 5.3) Sources de données symboliques 5.4) Les deux étapes d une ADS 5.5) Objectif de l ADS 5.6) Quelques caractéristiques de l ADS par rapport au Data Mining classique 5.7) Les apports de l analyse de données symboliques 5.8) Le logiciel SODAS 5.9) Le logiciel SYR 6) Les grandes méthodes de l ADS i) L objet de la méthode, ii) son principe iii) ses entrées et sorties. iv) un exemple. Des données plus générales (avant, pendant, après) concernant les TGV seront analysées avec une aide du LCPC. SOE: symbolic objects edition. VIEW: Star graphics of symbolic objects DIV: Divisive clustering SCLUST: Symbolic clustering SPYR : Symbolic hierarchy and pyramid

exemples de méthodes CARTE DE KOHONEN DE CONCEPTS ANALYSE FACTORIELLE: ACP Superposition de deux deux étoîles associées à deux classes de la pyramides réifiées en concepts Arbre descendant par division en classes de concepts homogènes et description symbolique de ces classes The objective of SCLUST is the clustering of symbolic objects by a dynamic algorithm based on symbolic data tables. The aim is to build a partition of SO s into a predefined number of classes. Each class has a prototype in the form of a SO. The optimality criterion used is based on the sum of proximities between the individuals and the prototypes of the clusters. Pyramide

EXEMPLES ILLUSTRATIFS TGV: Chaque ligne représente un essai (TGV passant sur un pont) Chaque colonne est associée à un capteur fournissant un signal 800.000 valeurs dans chaque case.. Ces données sont transformées en histogrammes à 20 classes par projection en ordonnées.

ACP symbolique appliquée au tableau des histogrammes: Le TGV1 (noté ici TV1) est en dehors de son groupe de température et le TGV 14 recouvre la classe des basses températures. Deux anomalies sont détectées.

The symbolic pyramidal clustering confirms the anomalies. 1) TGV1 is out of its group of température 2) TGV 14 covers all the TGV of its group of temperature

Tours de refroidissement de centrales nucléaires Cartographie Inspection Fissure Les données Table 1) Description des fissures Table 2) Ecart de chaque noeud d une grille par rapport au modèle initial à différentes périodes Table 3) Mesures sur l enfoncement Question1: trouver des corrélations entre les différentes variables de ces tableaux Question 2: Ordonner les tours selon leur dégradation générale.

Etude des tours en détail Par classe d angles (Sections verticales) Construction des concepts classes d angles Par classe de hauteurs (Sections horizontales) Construction des concepts classes de hauteurs Par classe de hauteurs x classe d angles («Portions» de tour) Construction des concepts classes de hauteurs x classes d angles Niveau le plus fin de l analyse

Stratégie Construction du concept Tour Construction des meilleures variables : Descriptives des tours Et discriminantes des tours entre elles Mise en place d un indicateur combinant plusieurs variables de dégradation des tours et classement des tours Les variables sélectionnées dans le modèle sont des variables Statistiquement discriminantes des tours et Qualifiées de caractéristiques de la dégradation par les experts. Recherche des combinaisons minimales de variables présentant le même ordonnancement des tours que l indicateur défini à l étape précédente Test de «corrélation» des variables ordinales de Spearman Avec toutes les variables statistiquement discriminantes des tours

Plusieurs milliers de coordonnées polaires Fusion des données 1er type de fichiers: les contrôles géométriques Pour chaque tour, nous avons: 1 Fichier: écarts géométriques entre une année 1 et année 2 notés Ecarts_1_2 1 Fichier: Ecarts géométriques théoriques à l année 1 notés Ecarts_t_1 1 Fichier: Ecarts géométriques théoriques à l année 2 notés Ecarts_t_2 Rayon (m) Tour 1 Tour 21 Angle (Gr) Hauteu r (m) Ecar t 55 40 128-0.02 16,7 150 18 0.03 Rayon (m) Angle (Gr) Hauteu r (m) Ecar t 56 44 127-0.05 16,9 100 18 0.04 21 concepts «Tour». Nous agrégeons l ensemble des données sur les écarts au niveau des tours Tour Rayon (m) Hauteur (m) Ecart_1_2 Ecart_t_1 Ecart_t_2 Ouv01 [ 39 ; 62 ] [ 39 ; 62 ] [ ; ] [ ; ] [ ; ] Ouv13 [40 ; 62] [ 15 ; 152] [ ; ] [ ; ] [ ; ] Construction des données Symboliques Concept «Tours» Proportion d écarts faibles, moyens, importants, dans toute la tour 1 Rayons minimum et maximum de la tour 13

Variables sur le contrôle géométrique Annee_1 et Annee_2 : 1ère année et 2ème année du contrôle géométrique Rayon_1 et Rayon_2 : Variables intervalles donnant les rayons minimaux et maximaux de chaque tour pour les 2 années de mesure Hauteurs_1 et Hauteurs_2 : Variables intervalles donnant les hauteurs minimales et maximales de chaque tour pour les 2 années de mesure Ecart_I_1_2, Ecart_I_t_1, Ecart_I_t_2 : Variables intervalles donnant les écarts géométriques minimaux et maximaux de chaque tour entre l année 1 et l année 2, la théorie et l année 1, la théorie et l année 2 Ecart_H_1_2, Ecart_H_t_1, Ecart_H_t_2 : Variables histogrammes donnant les distributions des écarts géométriques de chaque tour entre l année 1 et l année 2, la théorie et l année 1, la théorie et l année 2» Dans les classes <-0.03m, [-0.03;0[; 0; ]0; 0.03]; >0.03m Ecartabs_H_1_2, Ecartabs_H_t_1, Ecartabs_H_t_2 : Variables histogrammes donnant les distributions des écarts géométriques en valeurs absolues de chaque tour entre l année 1 et l année 2, la théorie et l année 1, la théorie et l année 2» Dans les classes,[0;0.01[; ]0.01;0.02]; ; ]0.05;0.06] >0.06 NB : Il a été conclu que les écarts entre 2 années étaient plus pertinents pour l étude de la dégradation des tours que les écarts avec la théorie

Notes sur la construction des classes des variables histogrammes Plusieurs méthodes ont été étudiées, testées et comparées : Classes d effectifs égaux Classes de longueurs égales Coupures au niveau des sauts (les k plus grands sauts) Pour différents nombres de classes A la fin, nous retenons une segmentation discriminant le mieux possible et le plus simplement possible les 21 tours à l aide de la variable considérée. On doit être capable de visualiser rapidement les différences entre les tours

Extrait de la matrice de données sur les tours : variables sur le contrôle géométrique

Fusion des données 2ème type de fichier: les fissures Pour chaque tour, nous avons: 1 Fichier: Relevés des fissures à une année 1 1 Fichier: Relevés des fissures à une année 2 Plusieurs centaines de fissures Rayon (m) Angle (Gr) Tour 1 Tour 21 Hauteu r (m) LongFI (m) Orienta tionfi 55 40 128 4,5 VER 16,7 150 18 0,55 HOR Rayo n (m) Angle (Gr) Hauteu r (m) LongFI (m) Orient ationfi 50 38 110 4,5 VER 12 10 25 0,1 HOR 21 concepts «Tour». Nous agrégeons l ensemble des données sur les fissures au niveau des tours Tour longfi Orientation FI Ouv01 [ ; ] 1645 Ouv13 [ ; ] 1885 Variables sur les écarts géométriques Ajout des variables sur les fissures NBFissure s Ajout de variables classiques : - Nombre de fissures par tour - Nombre de fissures entre l année 1 et l année 2 Proportion de fissures petites, moyennes, grandes, dans toute la tour 13

Variables sur les fissures longfi_i_1 et longfi_i_2 : Variables intervalles donnant les longueurs minimales et maximales des fissures de chaque tour pour les 2 années de mesure longfi_h_1 et longfi_h_2 : Variables histogrammes donnant les distributions des longueurs de fissures pour les deux années de mesure Dans les classes 0 à 0.5m, 0.5 à 1m, 1 à 1.5m; 1.5 à 2m, >2m OrientationFI_1 et OrientationFI_2 : variables histogrammes donnant les orientations de fissures Horizontales, Verticales, Obliques pour les deux années de mesure 1 VER, 2 HOR, 3 OBL NbFissures_1, NbFissures_2 : Variables continues classiques donnant le nombre de fissures par tour pour les deux années de mesure NbFissures_1_2 : Variable continue classique donnant l augmentation du nombre de fissures par tour entre les deux années de mesure

Extrait de la matrice de données sur les tours : variables sur les fissures

Classement des tours (les plus dégradées en haut) à l aide de l indicateur combinant 7 variables (1) Les plus dégradées :