Introduction à la qualité des données et à l adéquation à l usage



Documents pareils
GBIF Système mondial d'information sur la biodiversité

Créez votre propre Archive Darwin Core

AMTEC RESOURCES MANAGEMENT LTD. CREATION D UNE BANQUE DE DONNEES DONNEES GEOSPATIALES NATIONALE

PAUL CORREIA 6 e édition

GÉODÉSIE, COORDONNÉES ET GPS

SMALL DATA DANS LA VEILLE

Stages en archives pendant l apprentissage d agent-e en information documentaire liste de contrôle

Projet Institutional Support to African Climate Initiative (ISACIP) ATELIER DE RENFORCEMENT DE CAPACITÉS Niamey, 17 au 25 mars 2014

White Paper - Livre Blanc

Géoréférencement et RGF93

L application doit être validée et l infrastructure informatique doit être qualifiée.

Cartes de l étendue des eaux libres liés aux inondations Guide des produits

Université de Lausanne

Évolution du climat et désertification

Latitude N Longitude E Altitude 376 m RÉSUMÉ MENSUEL DU TEMPS DE JANVIER 2014

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

CHAPITRE 6 : LE RENFORCEMENT DU MODELE PAR SON EFFICACITE PREDICTIVE

Les enjeux du stockage de masse sur bande vidéo

Formats 3D Critères d utilisation dans les échanges Frédéric CHAMBOLLE PSA Peugeot Citroën Direction des Systèmes d Information

Archivage électronique et valeur probatoire

Géolocalisation. Remy Sharp

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

Rédaction Anne- Sophie Archambeau (GBIF France) Participants. Thomas Changeux. Michel Guiraud

Comptes des changements de la biodiversité des systèmes et des espèces

Formation PME Etude de marché

Cédric Gendre Inra, ESR Toulouse

Document d Appui n 3.3. : Repérage ou positionnement par Global Positionning System G.P.S (extrait et adapté de CAMELEO 2001)

L. Granjon, E. Le Goff, A. Millereux, L. Saligny MSH Dijon

De protection des données dans SharePoint de l entreprise

CULTURE D ENTREPRISE ET GESTION DES RISQUES. Favoriser la performance des organisations publiques par l influence des valeurs opérantes

Les macroinvertébrés: des bioindicateurs incontournables pour le monitoring des cours d eau en CH

PLAN. Industrialisateur Open Source LANS DE SECOURS INFORMATIQUES PRINCIPES GENERAUX ETAT DE L ART SELON BV ASSOCIATES

La surveillance appliquée à la gestion des risques géotechniques miniers

DESCRIPTION DES PRODUITS ET MÉTRIQUES

Pas d installations ou d équipement particuliers.

eframe pour optimiser les reportings métiers et réglementaires

LE RESEAU AFRICAIN D INFORMATION ENVIRONNEMENTALE

Ordonnance sur la gestion électronique des affaires dans l administration fédérale

AGROBASE : un système de gestion de données expérimentales

Conférence de presse

COPENHAGUE, AVANT ET APRÈS ENJEUX ET PERSPECTIVES POUR LES ENTREPRISES. Novembre 2009

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

LE PLAN SAUMON DE LOIRE- ALLIER THE LOIRE-ALLIER. Nicolas FORRAY Dreal Centre, Dreal de bassin Loire-Bretagne

Solutions Technologiques pour le département juridique moderne. 26 mars 2013

CBBC Canadian Business & Biodiversity Council

La postproduction Pearson France Canon EOS 70D Philippe Garcia

THEME PROJET D ELABORATION D UNE BASE DE DONNEES SOUS LE SERVEUR MYSQL

Les différentes étapes de votre demande de visa Etudiant pour les USA

Groupe de travail «TECHNOLOGIES DE L INFORMATION ET DE LA COMMUNICATION» Réunion du 26 janvier L archivage électronique

Les archives de l entreprise à l ère du numérique. Présentée par: HAMMA Mustapha

GEOLOCALISATION ET NAVIGATION A L AIDE DES SIGNAUX GNSS

Messagerie & Groupeware. augmentez l expertise de votre capital humain

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Cours Systèmes d Information Géographique

Magento. Pratique du e-commerce avec Magento. Christophe Le Bot avec la contribution technique de Bruno Sebarte

ICA Congress, Brisbane 2012 Thème général : Les temps qui changent. La confiance et les archives*

RECOMMANDATION UIT-R SM (Question UIT-R 68/1)

L accès aux données spatiales au profit des applications satellitaires

Comment capitaliser sur votre audience pour activer intelligemment vos plans médias et marketing?

Guide d utilisation du système rapport en ligne de la famille de la CMS

L ENREGISTREMENT DU COURRIER

Systèmes d information et bases de données (niveau 1)

Bien vivre, dans les limites de notre planète

I partie : diagnostic et proposition de solutions

COPYRIGHT Danish Standards. NOT FOR COMMERCIAL USE OR REPRODUCTION. DS/EN 61303:1997

Cryptologie et physique quantique : Espoirs et menaces. Objectifs 2. distribué sous licence creative common détails sur

Normes de référence. Comparaison. Commande cognitive Sentiments épistémiques Incarnés dépendants de l activité

LISTE VERTE : standards techniques

Enterprise Data Quality : fiabilisez vos processus E-Business Suite en améliorant la qualité des données

Recommandation AMF n Communication des sociétés cotées sur leur site internet et sur les médias sociaux DOC

1 Actuate Corporation de données. + d analyses. + d utilisateurs.

Webinaire - Solution Rubix

Conservation des données à long terme

Jean-Marc Rietsch, PCI DSS Roadshow Paris juillet

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

Systèmes et algorithmes répartis

Avec la mise en service progressive du système. Le développement du positionnement par satellites COMMENT INTERNET ET LES TIC CHANGENT LA VIE

La Gestion des Données Cliniques

BI2 : Un profil UML pour les Indicateurs Décisionnels

2. Questionnaire pour une base de données

MISE À JOUR SUR LES PROGRÈS CONCERNANT L ÉVALUATION DES PERFORMANCES (RÉSOLUTION 09/01)

Tournage en fichiers numériques

Identification interactive des plantes et système d'information collaboratif. P. Bonnet, J.-f. Molino & al. Umr AMAP. Equipe-projet IMEDIA

BIG DATA et gestion des données, la clé de l automatisation

LE MINISTRE DE L AGRICULTURE, DE L ELEVAGE ET DE LA PECHE, la loi n du 11 décembre 1990 portant Constitution de la République du Bénin ;

NORMES DE PRÉSENTATION DES MANUSCRITS

et les Systèmes Multidimensionnels

Résumé non technique. Tableaux d estimation

RESIF Une infrastructure de recherche pour l'observation des déformations de la terre site web :

Sommaire. Rentabilité du retour d une franchise de baseball de la Ligue majeure de baseball à Montréal (les «Expos»)

La collecte et la gestion des données dans le cadre de la prospection d énergie solaire

Prospective: Champ de gravité, méthodes spatiales

La stratégie Cloud de Microsoft

MESDAMES ET MESSIEURS LES DIRECTEURS ET CHEFS DE SERVICE

Cycle de vie, processus de gestion

Trimble Geomatics Office. Manuel de l utilisateur

Fédération des étudiants de l UCL. Soirée formation à la passation d associations

BIG DATA et données externes dans les modèles de tarification

Les mathématiques du XXe siècle

Description Arco Mail Manager

Transcription:

Formation qualité et utilisation des données Paris, 15-17 octobre 2012 Introduction à la qualité des données et à l adéquation à l usage Anne-Sophie Archambeau (archambeau@gbif.fr) Présentation réalisée en collaboration avec Nicolas Noé Développeur Plateforme Belge Biodiversité Global Biodiversity Information Facility (GBIF)

1. La valeur des données Aperçu 2. L adéquation à l usage, qu est ce que c est? 3. L Adéquation à l usage et les données primaires de biodiversité : Métadonnées Données taxonomiques Données spatiales Données sur la collecte Données descriptives

Pourquoi publier les données? 21 ème siècle = «siècle des données»? La quantité de données augmente exponentiellement Le GBIF est un acteur de ce mouvement! Ces données ont le potentiel d améliorer grandement nos connaissances et aptitudes

Influence des données sur la vie quotidienne Politique Cartographie Publicité

La réponse de la communauté OpenStreetMap au tremblement de terre en Haïti Avant

La réponse de la communauté OpenStreetMap au tremblement de terre en Haiti et quelques jours plus tard

Changements climatiques et «crop wild relative» Données du GBIF Crop wild relatives 343 espèces Global 18 modèles d évolution climatiques Richesse actuelles Richesse future Prédiction du changement

Des données à la compréhension Des océans de données

des rivières d informations

des ruissaux de connaissances

des gouttes de compréhension

Usage des données de biodiversité Recherches taxonomiques, modélisation/prédiction de la distribution des espèces, espèces invasives, dégradation des habitats, relations interspécifiques,... Mais aussi... Organisation de la conservation, gestion de l eau, antivenins, éco-tourisme, histoire des sciences, chasse et pêche, rapatriation des données, photographie (et cinema) nature,...

Adéquation à l usage Définition «Fitness-for-use» "The general intent of describing the quality of a particular dataset or record is to describe the fitness of that dataset or record for a particular use that one may have in mind for the data." Chrisman, 1991

Adéquation à l usage Exemple L espèce est-elle présente en Tasmanie? L espèce est-elle présente dans la réserve?

La perte de qualité survient à chaque étape A la collecte Durant la numérisation Durant la documentation Durant la sauvegarde et l archivage A l analyse et la manipulation Au moment de la présentation En utilisant les données de façon non-adéquate

Chaine des données et qualité La responsabilité en terme de qualité de données doit être assignée le plus tôt possible dans cette chaîne.

Chaque institution devrait avoir: Une vision ciblant la qualité des données o Ne pas réinventer la roue et utiliser les standards o Chercher l efficacité (dans la collecte et l assurance qualité) and éviter la duplication d effort o Encourager le partage (données, informations et outils) o Réfléchier à long terme o Prendre soin des utilisateurs et de leurs besoins o Investir dans la documentation et les métadonnées o... Une politique implémentant cette vision Une stratégie d implémentation pour cette politique

Partage des responsabilités Le collecteur: L étiquetage est correct, aussi complet que possible et lisible Les méthodes de collecte sont largement documentées Les remarques sont claires et non-ambiguës...

Partage des responsabilités Le conservateur: responsabilité à long-terme Qualité des retranscriptions dans la base de données Des tests de validation sont exécutées régulièrement et documentés. Les données sont sauvegardées et archivées Les versions précédentes sont systématiquement conservées Assurer le respect (vie privées, propriété intellectuelle, sensibilité et tradition des peuples indigènes,...) Fournir une documentation de qualité (incluant les problèmes connus) Les retours utilisateurs sont pris en compte... Responsabilité de maintenance, mais aussi la responsabilité morale d améliorer la qualité des données (si possible) pour de futurs utilisateurs et usages.

Partage des responsabilités L utilisateur: Informer les conservateurs: Erreurs et omissions dans les données et la documentation Définir les priorités futures... A l usage: Déterminer si les donnés sont adaptées à l usage prévu et ne pas les utiliser de façon nonadéquate.

Exactitude et précision Exactitude = véracité de l information Précision Statistique Numérique Exactitude faible Haute précision Haute exactitude Basse précision Haute exactitude Haute précision

Erreur et incertitude Erreur : englobe imprécision et données inexactes Aléatoire ou systématique Inutile de tenter de lui échapper (mesure, calcule, entregistre et documente) Incertitude Toujours présente (difficulté: comprendre, décrire et enregistrer) Nous en dit plus sur l observateur que sur les données elles-mêmes!

Adéquation à l usage et métadonnées Données sur les données" contenu, accessibilité, complétude,... A propos du dataset ou de l enregistrement Documentation de l erreur Documentation des procédures de validation, de nettoyage et de correction appliquées Les métadonnées doivent être suffisament riches pour permettre l usage des données par des tiers sans devoir se référer à la source de ces données.

Données taxonomiques Souvent: nom = point d entrée risque de propagation des erreurs Erreurs possibles: Identification incorrectes Erreurs orthographiques Mauvais format

Données taxonomiques De quoi parle-t-on? Noms (scientifique, vernaculaire, rang, hiérarchie, ) Status (synonymes, nom valide, ) Références (auteur, date et lieu) Détermination (par qui et quand?) Champs relatifs à la qualité (certitude, )

Données taxonomiques Erreurs courantes Données manquantes Valeurs incorrectes Valeurs non-atomiques Domain schizophrenia Valeurs dupliquées Données inconsistantes

Données spatiales Introduction Un des aspects cruciaux pour déterminer l adéquation à l usage des données primaires de biodiversité: Modélisation de la distribution des espèces Sélections des zones à protéger Gestion de l environnement et des ressouces...

Données spatiales De quoi s agit-il? Latitude et longitude? Aire! Point + rayon Boite englobante Polyline Référence de grille

Données basées sur une grille (cheklists)

Données spatiales Quelques définitions Géo-référence: un code documentant une position sur la surface de la terre, exprimé suivant un SRS (spatial reference system. En pratique; souvent lat/lon Géoréférencer / géocoder : le procédé qui consiste à assigner une référence géographique à un enregistrement donné. Datum

Données spatiales Système géodésique (datum)

Données spatiales A propos du GPS Technologie basée sur la triangulation, min. 4 satellites nécessaires Historiquement, nombre de satellites pas toujours suffisant Avant Mai 2000, selective availability (100m au mieux) Differential GPS, WAAS, LAAS, et Realtime Differential GPS utilisent des stations terrestres don t la position est connue avec précision. (jusqu a 1cm de précision) L altitude GPS fait référence à l ellipsoide utilisé, pas au mean Mean Sea Level.

Données spatiales Erreurs courantes Inversion des coordonnées Valeur(s) zero Système géodésique/datum inconnu SRS inadapté Fausse impression de précision / problèmes de conversion.

Données brutes du GBIF (occurrences des USA)

Données de collecte et de collecteur sont constituées de: collecteur date de collecte Informations supplémentaires: habitat, sol, conditions météorologiques La pertinence dépend du type de jeu de données: Collection statique (musée) : nom et ID du collecteur, date, habitat, méthode de capture... Observations: +durée d observation, zone, période de la journée, activité, sexe du spécimen observé Sondage exhaustif: +méthode, taille de la grille, fréquence, si des spécimens de référence ont été collecté (+références)

Données de collecte et de collecteur Facteurs Exactitude: nom de collecteurs, date, Cohérence: utilisation d une terminologie Complétude

Données descriptives Morphologiques, phénologiques, Qualité très variable Souvent de données s appliquant au niveau taxonomique et pas au niveau du spécimen Complétude: généralement impossible à atteindre sur un même spécimen Cohérence: attributs non consistants o FLOWER_COLOUR = MAUVE o FLOWER_COLOUR= violet clair

Questions Merci

Références Basé principalement sur les différentes présentations et publications d Arthur Chapman Image «point d interrogation» par Milos Milosevic (http://www.flickr.com/photos/21496790@n06/ ) Crop Wild Relatives: Andy Jarvis(1), Samy Gaiji (2), Julian Ramirez (1) and Emmanuel Zapata (1) 1. The International Center for Tropical Agriculture (CIAT) 2. The Global Biodiversity Information Facility Secretariat (GBIF) Accuracy VS precision slide: http://www.mathsisfun.com/accuracy-precision.html Beach picture by Lali Masrieta :www.visualpanic.net River: Johan J.Ingles-Le Nobel Stream: bterrycompton Chapman, A.D. and J. Wieczorek (eds). 2006. Principes de la bonne pratique sur le géoréférencement, version 1.0. Trad. Chenin, C. Copenhague: Global Biodiversity Information Facility, 95 pp. Disponible en ligne sur http://links.gbif.org/gbif_georeferencement_manual_fr_v1.pdf