Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives : (pilotées par EDF, LCPC, SYROKKO) - TGV (LCPC, SYROKKO) - Tours de refroidissement de Centrales nucléaires (EDF, SYROKKO)
LE VOCABULAIRE : Fusion : Exemples : Assemblage de données disparates en vue d une prise de décision. Data Mining : Extraction de connaissances nouvelles à partir de grand volume de données éventuellement fusionnées. Analyse des données symboliques (ADS) : Extraction de connaissances à partir d individus considérés à différent niveau de généralité et décrits par des variables prenant en compte la variation. Concept : Entité définie par des propriétés caractéristiques et une extension formée d instances satisfaisant ces propriétés. Exemple : pour l analyse des TGV par ADS : les concepts sont les essais (passage d un TGV sur un pont), les variables sont les capteurs, les individus de premier niveau sont décrits par les valeurs mesurées à chaque instant pour chaque capteur. La modélisation par histogramme de ces valeurs pour chaque capteur et chaque essai puis la concaténation (ou fusion) de ces histogrammes permet de décrire chaque concept (ie essai).
L ETAT de L ART (SYROKKO) Plan : 1) Naissance du Data Mining 2) Les outils du Data Mining 3) Les principaux acteurs 4) Les grandes méthodes du Data Mining : 4.1) Méthodes non supervisées 4.1.1 Classification automatique : partition, hiérarchie ascendante, descendante 4.1.2 Analyse factorielle 4.1.3 Extraction de règles : algorithme apriori 4.2) Méthodes supervisées 4.2.1 Arbre de segmentation 4.2.2 Analyse canonique 4.2.3 Régression 4.2.4 Discrimination 5) L Analyse des Données Symboliques (ADS) 5.1) Des données classiques aux données symboliques 5.2) Les individus et les concepts: extension et intension 5.3) Sources de données symboliques 5.4) Les deux étapes d une ADS 5.5) Objectif de l ADS 5.6) Quelques caractéristiques de l ADS par rapport au Data Mining classique 5.7) Les apports de l analyse de données symboliques 5.8) Le logiciel SODAS 5.9) Le logiciel SYR 6) Les grandes méthodes de l ADS i) L objet de la méthode, ii) son principe iii) ses entrées et sorties. iv) un exemple. Des données plus générales (avant, pendant, après) concernant les TGV seront analysées avec une aide du LCPC. SOE: symbolic objects edition. VIEW: Star graphics of symbolic objects DIV: Divisive clustering SCLUST: Symbolic clustering SPYR : Symbolic hierarchy and pyramid
exemples de méthodes CARTE DE KOHONEN DE CONCEPTS ANALYSE FACTORIELLE: ACP Superposition de deux deux étoîles associées à deux classes de la pyramides réifiées en concepts Arbre descendant par division en classes de concepts homogènes et description symbolique de ces classes The objective of SCLUST is the clustering of symbolic objects by a dynamic algorithm based on symbolic data tables. The aim is to build a partition of SO s into a predefined number of classes. Each class has a prototype in the form of a SO. The optimality criterion used is based on the sum of proximities between the individuals and the prototypes of the clusters. Pyramide
EXEMPLES ILLUSTRATIFS TGV: Chaque ligne représente un essai (TGV passant sur un pont) Chaque colonne est associée à un capteur fournissant un signal 800.000 valeurs dans chaque case.. Ces données sont transformées en histogrammes à 20 classes par projection en ordonnées.
ACP symbolique appliquée au tableau des histogrammes: Le TGV1 (noté ici TV1) est en dehors de son groupe de température et le TGV 14 recouvre la classe des basses températures. Deux anomalies sont détectées.
The symbolic pyramidal clustering confirms the anomalies. 1) TGV1 is out of its group of température 2) TGV 14 covers all the TGV of its group of temperature
Tours de refroidissement de centrales nucléaires Cartographie Inspection Fissure Les données Table 1) Description des fissures Table 2) Ecart de chaque noeud d une grille par rapport au modèle initial à différentes périodes Table 3) Mesures sur l enfoncement Question1: trouver des corrélations entre les différentes variables de ces tableaux Question 2: Ordonner les tours selon leur dégradation générale.
Etude des tours en détail Par classe d angles (Sections verticales) Construction des concepts classes d angles Par classe de hauteurs (Sections horizontales) Construction des concepts classes de hauteurs Par classe de hauteurs x classe d angles («Portions» de tour) Construction des concepts classes de hauteurs x classes d angles Niveau le plus fin de l analyse
Stratégie Construction du concept Tour Construction des meilleures variables : Descriptives des tours Et discriminantes des tours entre elles Mise en place d un indicateur combinant plusieurs variables de dégradation des tours et classement des tours Les variables sélectionnées dans le modèle sont des variables Statistiquement discriminantes des tours et Qualifiées de caractéristiques de la dégradation par les experts. Recherche des combinaisons minimales de variables présentant le même ordonnancement des tours que l indicateur défini à l étape précédente Test de «corrélation» des variables ordinales de Spearman Avec toutes les variables statistiquement discriminantes des tours
Plusieurs milliers de coordonnées polaires Fusion des données 1er type de fichiers: les contrôles géométriques Pour chaque tour, nous avons: 1 Fichier: écarts géométriques entre une année 1 et année 2 notés Ecarts_1_2 1 Fichier: Ecarts géométriques théoriques à l année 1 notés Ecarts_t_1 1 Fichier: Ecarts géométriques théoriques à l année 2 notés Ecarts_t_2 Rayon (m) Tour 1 Tour 21 Angle (Gr) Hauteu r (m) Ecar t 55 40 128-0.02 16,7 150 18 0.03 Rayon (m) Angle (Gr) Hauteu r (m) Ecar t 56 44 127-0.05 16,9 100 18 0.04 21 concepts «Tour». Nous agrégeons l ensemble des données sur les écarts au niveau des tours Tour Rayon (m) Hauteur (m) Ecart_1_2 Ecart_t_1 Ecart_t_2 Ouv01 [ 39 ; 62 ] [ 39 ; 62 ] [ ; ] [ ; ] [ ; ] Ouv13 [40 ; 62] [ 15 ; 152] [ ; ] [ ; ] [ ; ] Construction des données Symboliques Concept «Tours» Proportion d écarts faibles, moyens, importants, dans toute la tour 1 Rayons minimum et maximum de la tour 13
Variables sur le contrôle géométrique Annee_1 et Annee_2 : 1ère année et 2ème année du contrôle géométrique Rayon_1 et Rayon_2 : Variables intervalles donnant les rayons minimaux et maximaux de chaque tour pour les 2 années de mesure Hauteurs_1 et Hauteurs_2 : Variables intervalles donnant les hauteurs minimales et maximales de chaque tour pour les 2 années de mesure Ecart_I_1_2, Ecart_I_t_1, Ecart_I_t_2 : Variables intervalles donnant les écarts géométriques minimaux et maximaux de chaque tour entre l année 1 et l année 2, la théorie et l année 1, la théorie et l année 2 Ecart_H_1_2, Ecart_H_t_1, Ecart_H_t_2 : Variables histogrammes donnant les distributions des écarts géométriques de chaque tour entre l année 1 et l année 2, la théorie et l année 1, la théorie et l année 2» Dans les classes <-0.03m, [-0.03;0[; 0; ]0; 0.03]; >0.03m Ecartabs_H_1_2, Ecartabs_H_t_1, Ecartabs_H_t_2 : Variables histogrammes donnant les distributions des écarts géométriques en valeurs absolues de chaque tour entre l année 1 et l année 2, la théorie et l année 1, la théorie et l année 2» Dans les classes,[0;0.01[; ]0.01;0.02]; ; ]0.05;0.06] >0.06 NB : Il a été conclu que les écarts entre 2 années étaient plus pertinents pour l étude de la dégradation des tours que les écarts avec la théorie
Notes sur la construction des classes des variables histogrammes Plusieurs méthodes ont été étudiées, testées et comparées : Classes d effectifs égaux Classes de longueurs égales Coupures au niveau des sauts (les k plus grands sauts) Pour différents nombres de classes A la fin, nous retenons une segmentation discriminant le mieux possible et le plus simplement possible les 21 tours à l aide de la variable considérée. On doit être capable de visualiser rapidement les différences entre les tours
Extrait de la matrice de données sur les tours : variables sur le contrôle géométrique
Fusion des données 2ème type de fichier: les fissures Pour chaque tour, nous avons: 1 Fichier: Relevés des fissures à une année 1 1 Fichier: Relevés des fissures à une année 2 Plusieurs centaines de fissures Rayon (m) Angle (Gr) Tour 1 Tour 21 Hauteu r (m) LongFI (m) Orienta tionfi 55 40 128 4,5 VER 16,7 150 18 0,55 HOR Rayo n (m) Angle (Gr) Hauteu r (m) LongFI (m) Orient ationfi 50 38 110 4,5 VER 12 10 25 0,1 HOR 21 concepts «Tour». Nous agrégeons l ensemble des données sur les fissures au niveau des tours Tour longfi Orientation FI Ouv01 [ ; ] 1645 Ouv13 [ ; ] 1885 Variables sur les écarts géométriques Ajout des variables sur les fissures NBFissure s Ajout de variables classiques : - Nombre de fissures par tour - Nombre de fissures entre l année 1 et l année 2 Proportion de fissures petites, moyennes, grandes, dans toute la tour 13
Variables sur les fissures longfi_i_1 et longfi_i_2 : Variables intervalles donnant les longueurs minimales et maximales des fissures de chaque tour pour les 2 années de mesure longfi_h_1 et longfi_h_2 : Variables histogrammes donnant les distributions des longueurs de fissures pour les deux années de mesure Dans les classes 0 à 0.5m, 0.5 à 1m, 1 à 1.5m; 1.5 à 2m, >2m OrientationFI_1 et OrientationFI_2 : variables histogrammes donnant les orientations de fissures Horizontales, Verticales, Obliques pour les deux années de mesure 1 VER, 2 HOR, 3 OBL NbFissures_1, NbFissures_2 : Variables continues classiques donnant le nombre de fissures par tour pour les deux années de mesure NbFissures_1_2 : Variable continue classique donnant l augmentation du nombre de fissures par tour entre les deux années de mesure
Extrait de la matrice de données sur les tours : variables sur les fissures
Classement des tours (les plus dégradées en haut) à l aide de l indicateur combinant 7 variables (1) Les plus dégradées :