Principe, applications et limites Sujet commandité par Thomas Milon Encadré par Bruno Tisseyre Traité par Florence Laporte, Anne Meillet et Romain Rivière Veilles technologiques Mercredi 14 décembre 2011 1
Présentation Introduction Principe Analyse de l existant Intérêts et limites Petit TD de prise en main d un ETL géographique libre : SDI Conclusion 2
Définition,historique et importance des données spatiales 3
ETL: Extract, Transform, Load Technologie informatique intergicielle : Extraction massive de données de diverses sources Transformation de ces données en les rendant compatibles avec une source cible Intégrer les données transformées dans la source cible Apparition avec la notion de «Business Intelligence» 4
1970 1980 2005 2007 Apparition des premiers ETL Première interface avec langage SQL Première suite GéoDécisionnelle Jmap Premier ETL spatial Open Source Talend SDI 5
80 % des données possèdent des références géographiques (Franklin,1992) Essor des SIG: Pression de plus en plus importante pour l'accès aux données géographiques Multiplicité des sources et formats de données Métadonnée: multiplicité des sources et spécifications, malgré tentative de normalisation 6
ETL géo Source: http://www.gsdi.org/gsdiconf/gsdi11/wrkshpslides/w1.8a.pdf 7
Extract Transform Load E T L 8
Connexion aux différentes données(vecteurs, rasters, SGBD, flux, PCI ) Parseur lecture de l information Données sources Connexion Lecture ETL Point critique conditionne le process 9
Modification des données extraites Transformation attributaire calcul, harmonisation des valeurs Nettoyage/correction des erreurs Homogénéisation Transformation géographique Filtre masque Tri classification Association jointure (y compris spatiales) Cœur du système qualité du process 10
Chargement des données transformées dans les bases de données cibles ETL Connexion Transfert Données cibles (ex : Data Warehouse) 11
Données sources E-T-L (géokettle) Données cibles 12
Analyse des logiciels existants et critères d'évaluation 13
Propriétaire : FME, InfoSphere DataStage, Informatica, Oracle Warehouse Builder, Libre : Talend SDI, Pentaho Geokettle 3 catégories : Engine-based (Moteur de transformation) Database-embedded embedded Code-generators (générateur de code) 14
Coût Taille de la structure Culture de la structure Accès aux données Traitement des données Temps de traitement Ergonomie Le livre blanc - ETL Open Source : Une réelle alternative aux solutions propriétaires ATOL, Conseil et Développement 15
Version SDI 4.2.0 Depuis 2007 Géokettle 2.0 Depuis 2007 Basé sur Talend Open Studio (TOS) Pentaho Data Integration Développé par CampToCamp Université de Laval ETL de type Générateur de code Moteur de transformation Lecture et/ou écriture des données aux formats Les principaux SGBD et formats de fichiers Une trentaine de SGBD Tous les fichiers plats (csv, xml, excel) Points forts Communauté Calculs d aggrégation lookups Forum et Wiki Chargement de données Répartition sur plusieurs serveur 16
A travers un exemple d'application et d'un TD 17
Collecte et transformation d une quantité massive de données D origines diverses De formats différents Automatisation des processus Gain de temps Chargement incrémentiel de nouvelles données Eviter les erreurs dûes à la redondance d opérations manuelles Sécurité (système de détection des erreurs) 18
Accessible aux non-informaticiens: Programmation limitée et «graphique» Reprise et partage du «code» facilité Ex: Transformation Shp en Kml Solution classique: bash + Ogr #!/bin/bash mkdir ecw for FILE in *.tif do BASENAME=$(basename $FILE.tif) OUTFILE=ecw/${BASENAME}.ecw echo "Processing: ${BASENAME}.tif" if [ -f $OUTFILE ] #skip if exists then echo "Skipping: $OUTFILE" else /usr/local/bin/gdal_translate -of ECW -co LARGE_OK=YES $FILE $OUTFILE fi done Talend SDI http://geolector.alwaysdata.net/geoplanet/posts/251/ 19
(Exemple d application) 20
Contrôle de la qualité des données / norme OGC Intégration et contrôle du PCI au format EDIGEO Localisation des erreurs Création des périmètres administratifs, Découpage Conversion de format Reprojection de référentiels 21
22
Tâche Processus Job Etape 1 Composant 1 Etape 2 Composant 2 Etape N Composant N
Barre d outil Zone de travail Gestionnaire de projet Zone de gestion des jobs Palette de composants 24
Lourd Peu intuitif Boite noire 25
«ETL is not magic» 26
Pratique mais contraignant Questions sur les données sources : Sont-elles modifiables? Sont-elles homogènes? Doivent-elles être transformées? Questions sur les processus : Faisable autrement? Répétitif? 27
28