La qualité des données géographiques Gilles Troispoux - CERTU - AFIGEO Ministère de l'écologie, du Développement durable et de l Énergie
Plan de la présentation Le contexte Les outils pour mesurer la qualité Une profusion de données Inspire L'Open Data Les besoins Les carences et les problèmes Recherches de solutions Conclusion - 2 -
Les outils normatifs ISO 19113 : décrit les différents critères et sous-critères ISO 19114 : cadre de procédure d'évaluation des # critères ISO 19138 : mesures spécifiques ISO 19157 : projet de norme réunissant les 3 précédentes ISO 19115 : métadonnées - 3 -
Séminaire : partage des données : pour des décisions publiques éclairées - 02 juillet 2013 La GéoPlateforme17 propose des outils mutualisés de contrôle qualité VALIDATION DE METADONNEES Toute métadonnée saisie ou déposée est validée par la géoplateforme17 Validation du profil Inspire XML ISO 19115 Contrôle des bonnes pratiques au niveau de la saisie des fiches descriptives CERTIFICATION DU PCI AU STANDARD EDIGéO Contrôle et qualifie dans la métadonnée l exhaustivité du cadastre sur toute la Charente-Maritime Contrôle des bonnes pratiques au niveau de la saisie des fiches descriptives 4
Normes : critères et mesures Quelques critères Exhaustivité Cohérence logique (cohérence conceptuelle, topologie...) Précision géométrique Précision sémantique Actualité Quelques mesures Taux Valeur moyenne Nombres d'erreurs... - 5 -
Normes : principe S'appuient sur des spécifications initiales Ce à quoi on veut arriver Ambitions initiales Mesure de la qualité à l'aide des critères et mesures définis Échantillonnage statistique Rapport qualité ou métadonnées Expression de la qualité : écart entre spécifications initiales et les données produites Qualité interne - 6 -
Expression de la qualité Qualité interne Comment puis-je mesurer la qualité de mes données et comment le faire savoir? Des outils normatifs d experts Besoin de spécifications initiales Mesurer l écart entre les ambitions initiales et les données produites Qualité externe Quels sont les besoins des utilisateurs en termes de données et d'informations de qualité et comment puis-je les leur offrir pour qu ils évitent les utilisations abusives de ces données? Adéquation aux besoins (fitness for use) Toute donnée peut répondre à un besoin - 7 -
Une profusion de données Des référentiels géographiques disponibles Produits par des professionnels Absence de rapport qualité Qualité décrite dans les spécifications Les infrastructures de données géographiques Régions, départements, Production de données métier Échanges et partages L'OpenData Les globes virtuelles... - 8 -
INSPIRE 34 thèmes de données répartis en 3 annexes Qualité : de simples recommandations Quelques valeurs cibles (ex : nombre d'objets non conformes) S'appuie sur la norme ISO 19157 Critères, sous-critère, mesures Règles de conformité : exigences de l'interopérabilité Conformité des schémas conceptuels Système de coordonnées Exhaustivité des métadonnées... 10 thèmes n'ont aucune exigence de qualité - 9 -
INSPIRE Critère Sous-critère Nombre de thèmes concernés Présence (sur 24 et 34 thèmes) Exhaustivité Excès 17 71% et 50% Exhaustivité Oublis 22 92% et 65% Cohérence logique Cohérence conceptuelle 9 38% et 26% Cohérence logique Cohérence de domaine 8 33% et 24% Cohérence logique Cohérence de format 3 13% et 9% Cohérence logique Cohérence topologique 9 38% et 26% Précision géométrique Précision absolue 14 58% et 41% Précision géométrique Précision relative ou interne 2 8% et 6% Précision sémantique Exactitude de classification 6 25% et 18% Précision sémantique Exactitude des attributs non quantitatifs 3 13% et 9% Actualité Exactitude de la mesure de temps 1 4% et 3% Actualité Validité temporelle 2 8% et 6% - 10 -
Séminaire : partage des données : pour des décisions publiques éclairées - 02 juillet 2013 La GéoPlateforme17v2 proposera un géocatalogue composé de données en licence ouverte 1- Insertion d un descripteur (OpenData) dans les champs de métadonnées 2- Faire valoir dans le réseau des CRIGES, de l AFIGéO et du GT métadonnées cette insertion 3- Permettra de rechercher des données parle type de données Open Data 11
Open Data et qualité De plus en plus de données disponibles Mêmes contraintes que pour les données de référence Présence de métadonnées, de modèles de données Qualité certainement très variable Pas de qualification de la donnée En attente de méthodes simples et adaptées Open Quality Standards Bonnes pratiques Open Data (2011) : 72 rubriques - 12 -
Quels besoins? Données de qualité? Connaissance de la qualité? Plutôt parler de risque de mauvaise utilisation Notion de responsabilité Qualification de la donnée Adéquation aux besoins Formulation des besoins? - 13 -
Carences et problèmes Sujet complexe voire d'expert Variétés d'utilisateurs et compétences diverses Des métadonnées lourdes et pas toujours adaptées Absence de méthodologie pour formaliser un besoin Outils complexes et limités Manque de professionnalisme en général Pas de spécifications initiales Méconnaissance des normes ISO Évolution technologique trop rapide L'IG absente des enseignements de base - 14 -
Recherche de solutions Producteur Conçoit un produit Collecte / Intègre des données Évalue la qualité Distribue les données Utilisateur Besoin en données Sélectionne des données Vérifie la qualité Utilise les données Métadonnées Communication... - 15 -
Recherche de solutions Utilisateur Application Questions Décisions Problème de Communication? Indicateurs Métadonnées Échantillonnage statistique Acquisition des données Producteur Spécifications - 16 -
Un problème de communication Solution 1 : transférer la connaissance du producteur aux utilisateurs : les métadonnées Solution 2 : éduquer les utilisateurs : formations Solution 3 : utiliser un intermédiaire : expert ou logiciel - 17 -
Visualisation des métadonnées - 18 -
Visualisation des métadonnées - 19 -
Visualisation des métadonnées - 20 -
Quelques pistes de travail La notion de risque (de mauvaise utilisation) est préférable à la notion de qualité L'intégration de méthodes statistiques semble indispensable (Incertitude, intervalle de confiance...) Améliorer les métadonnées, la communication Notion de granularité à définir (données, lot de données...) Développer la sensibilisation (formation, information, accompagnement...) Représentation physique et cartographique de la qualité Intégrer la qualité dans les modèles de données (démarche proactive) Tenir compte de l'approche économique... - 21 -
Conclusion L'aide de la recherche est incontournable Maintenir le dialogue pour mieux prioriser et coller aux besoins Projet de COST sur la cartographie collaborative incluant les problèmes de qualité (COST 4146/12) COST sur la qualité des données géographiques? Programme-cadre de la CE pour la recherche et l'innovation "Horizon 2020" (2014-2020) Proposition du CERTU CNIG : commission des données (avec un GT qualité) Innovation sur des exemples spécifiques Pragmatisme Bonnes pratiques en provenance du terrain - 22 -
Fin - 23 -