Journée Bases de données OSUC Gestion de données avec TALEND Validation et insertion Aurore Hertout Chargée d études Géomatique & Expertise Spatiale
Données thématiques : Nombreuses et variées Différents modes d acquisition Continues Ponctuelles Autres Nécessaire de mettre en place des processus et des routines pour le traitement de ces données AUTOMATISATION
Données thématiques : Nombreuses et variées Différents modes d acquisition Continues Ponctuelles Autres Nécessaire de mettre en place des processus et des routines pour le traitement de ces données AUTOMATISATION ETL
ETL = Extract, Transform, Load Objectifs : - intégration de données de tous types et de tous volumes - unifier les projets - rendre les fichiers interopérables - traiter des données
ETL = Extract, Transform, Load Objectifs : - intégration de données de tous types et de tous volumes - unifier les projets - rendre les fichiers interopérables - traiter des données - intégrer les données dans une base de données
Présentation de Talend Talend Open Studio = éditeur de logiciels Open Source ETL de type «générateur de code» Langage = JAVA ou PERL
Présentation de Talend Talend Open Studio = éditeur de logiciels Open Source ETL de type «générateur de code» Langage = JAVA ou PERL Gestion des données et des bases de données
Présentation de Talend (interface Job Designer) Jobs / Routines Définition des paramètres des composants / Exécution Composants
Présentation de Talend (interface Job Designer) Composants = pas de développement en JAVA TALEND Open Studio -> nécessaire de connaitre le schéma des données Organisation du fichier d entrée et du fichier de sortie obligatoire Connaissance du formatage des fichiers de données
SO Tourbières et Principasol APPLICATION AUX DONNÉES SCIENTIFIQUES
Données brutes (sites Frasne, La Guette, Landemarais) Traitement (validation) Intégration dans la BDD Principasol
Données de terrain (GSM, relevés, etc.) Fichiers de données (.dat) TALEND Intégration dans la BdD Principasol Validation Expert Publication
Données de terrain (GSM, relevés, etc.) Fichiers de données (.dat) TALEND Intégration dans la BdD Principasol Validation Expert Publication
TALEND Données validées dans la BdD σx = N 1 (xx x ) N 1 i=1
TALEND Données validées dans la BdD Données brutes à valider Min < Valeur < Max Min < Valeur < Max VALIDEE Validation expert requise
TALEND Données validées dans la BdD Données brutes à valider Min < Valeur < Max Min < Valeur < Max VALIDEE Validation expert requise Intégration dans la BdD Principasol
De la théorie à la pratique
De la théorie à la pratique
De la théorie à la pratique
De la théorie à la pratique routines.data_pretraitement.sitei d(row3.rh_avg,row3.record)
De la théorie à la pratique
De la théorie à la pratique
De la théorie à la pratique Données Routine Checked / Expert validation required Intervalle Max Intervalle Min Routine Unchecked
De la théorie à la pratique
De la théorie à la pratique Intégration des données dans différents types de bases de données
Modifications? Modification des Jobs et des routines Ajout d'un paramètre (+ 1 colonne au fichier de données) Modification du schéma global à remplacer et à importer dans l'ensemble des jobs Modification d'une unité ou d'un paramètre Modification dans la routine Traitement_Unite Modification de l'emplacement de la base de données Modification du composant tmysqlinput, tmysqlconnection, tmysqloutput dans l'ensemble des jobs Modification de l'ordre des paramètres Problème de cohérence mais traitement effectué normalement
Conclusions et perspectives Talend = Σ d'outils puissants mais complexes => Forums indispensables pour comprendre l'utilisation de certains composants => Communauté de développeurs = amélioration constante des composants SO Tourbières : ETL Talend utilisé et performant pour la gestion des données et l intégration dans la BdD Principasol
Journée Bases de données OSUC 15 janv. 2014 Merci de votre attention Questions?