Créez votre propre Archive Darwin Core Guide pas à pas Version 1.0 Avril 2011
Citation suggérée : GBIF (2010). Créez votre propre Archive Darwin Core Archive, Guide pratique, (version originale rédigée par Remsen D.P., Döring, M, Robertson, T. ; traduite de l anglais par E. Chenin), Copenhague : Global Biodiversity Information Facility,8 pp,. Disponible à l adresse : http://links.gbif.org/dwca_manual_create_fr_v1 URI maintenue : http://links.gbif.org/dwca_manual_create_fr_v1 ISBN (version anglaise) : 87-92020-30-5 Langue : Français (FR) Copyright Global Biodiversity Information Facility, 2011 Licence: Ce document est enregistré sous une licence Creative Commons Attribution 3.0 Unported License Contrôle du document : Version Description Date of release Author(s) 1.0 Release Draft in English April 2011 DPR 1.0 fr Première version en Français Août 2011 E. Chenin Ce document fait aussi partie du manuel de publication de données du GBIF, version 1.0, ISBN 87-92020-31-3 (version anglaise), disponible à l adresse : http://links.gbif.org/data_publishing_manual Couverture, crédits graphiques : David Remsen
A propos du GBIF Le Système Mondial d Information sur la Biodiversité (en anglais, «Global Biodiversity Information Facility» : GBIF) est une initiative mondiale de type «méga-science» mise en place pour relever l un des grands défis du 21 ème siècle : exploiter la connaissance sur la biodiversité de la planète. Le GBIF envisage un monde dans lequel l information sur la biodiversité est partout disponible gratuitement pour la science, la société et un avenir durable. La mission du GBIF est d être la ressource mondiale prééminente en information sur la biodiversité, et de susciter des solutions intelligentes pour le bien être de l homme et de l environnement. Pour accomplir sa mission, le GBIF encourage une grande diversité de fournisseurs de données dans le monde à découvrir et publier des données à travers son réseau. April 2011 ii
Table des matières INTRODUCTION... 2 ETAPE 1. PRODUIRE UN FICHIER DE META DONNEES... 2 ETAPE 2. CREER UN METAFICHIER DESCRIPTEUR XML (META.XML)... 3 ETAPE 3. CREEZ VOS FICHIERS DE DONNEES... 4 ETAPE 4. CREEZ L ARCHIVE... 5 ETAPE 5. VALIDEZ L ARCHIVE... 5 ETAPE 6. PUBLIEZ L ARCHIVE... 5 April 2011 1
Introduction Des Archives Darwin Core peuvent être créées sans installer aucun logiciel dédié. Ce document est destiné à des gestionnaires de données qui connaissent le jeu de données à publier et qui ont une bonne pratique de leur système de gestion de données. Il suppose que vos données sont déjà, ou peuvent facilement être mises, sous la forme d un fichier texte CSV avec séparateurs, ou bien qu elles sont dans un système de gestion de base de données (MySQL, PostgresQL, Microsoft SQL Server, Oracle, ou Sybase). Il suppose que vous avez accès à un serveur Web et que vous ne souhaitez pas héberger une instance de l IPT. Ce document ne fournit pas une description complète du format des Archives Darwin Core : celle-ci est disponible ailleurs 1. Vous trouverez ci-dessous un ensemble d instructions pour créer et valider vous-même une Archive DwC. Trois composants sont requis : 1. Un fichier de métadonnées qui décrit la source des données (eml.xml). 2. Un métafichier (meta.xml) qui décrit le contenu et la relation entre le(s) fichier(s) de données au format texte, et 3. Le(s) fichier(s) texte au format CSV ou avec délimiteur, contenant les données elles-mêmes, Ce guide détaille comment générer chacun de ces trois composants, puis les étapes suivantes pour en faire une archive. Etape 1. Produire un fichier de métadonnées Il faut documenter la provenance et la couverture des jeux de données pour publier les données dans le réseau GBIF. L ensemble des instructions pour faire cela sont disponibles dans la Description étendue des métadonnées du GBIF : Guide pratique 2. Si vous n avez pas déjà un document sur vos métadonnées, trois options vous sont offertes pour en créer un. Le GBIF accepte une description de métadonnées fondée sur le langage EML (Ecological Metadat Language). 1 Darwin Core Archive - http://links.gbif.org/gbif_dwc-a_how_to_guide_en_v1 2 GBIF Metadata How-to - http://links.gbif.org/gbif_metadata_profile_guide_en_v1 April 2011 2
1. Identifiez un Centre d hébergement de données du GBIF et utilisez leur version d IPT (Integrated Publishing Toolkit : Outil de publication intégré) pour générer votre description. Vous trouverez une liste complète de ces Centres à l adresse : http://links.gbif.org/data_hosting_centers 2. Téléchargez un formulaire de tableur de métadonnées du GBIF et utilisez le service de traitement 3 pour générer un document EML.xml valide. 3. Téléchargez un document EML d exemple 4, et remplacez les métadonnées par votre propre information. Etape 2. Créer un Métafichier Descripteur XML (meta.xml) Il y a deux manières différentes de générer le fichier : utiliser l Assistant d Archive Darwin Core, ou le créer manuellement. Il est recommandé de consacrer l Etape 2 à créer le métafichier descripteur XML car celui-ci peut ensuite servir de guide pour générer les fichiers de données à l Etape 3 Figure 1 L Assistant d Archive Darwin Core produit un métafichier. 1. Utilisez l application en ligne Assistant d Archive Darwin Core 5 (Recommandé). Le GBIF fournit un outil en ligne pour vous aider à créer un métafichier XML. Il vous suffit de sélectionner les champs de données que vous souhaitez publier, de fournir quelques détails sur les fichiers et de sauvegarder le fichier XML produit. Ceci n est à faire qu une seule fois, à moins que vous ne modifiiez ultérieurement le jeu de champs publiés. Vous trouverez ci-dessous un jeu d instructions simplifié sur la manière d utiliser l Assistant d Archive Darwin Core pour créer votre métafichier : 3 Spreadsheet Processor http://tools.gbif.org/spreadsheet-processor 4 Sample EML XML - http://tools.gbif.org/eml-gbif-sample.xml 5 Darwin Core Archive Assistant http://tools.gbif.org/dwca-assistant/ April 2011 3
1. Sélectionnez la catégorie d information à laquelle appartiennent vos données : Occurrence : c est la catégorie des preuves de l occurrence d une espèce dans la nature, dans une collection, ou dans un jeu de données (spécimen, observation, etc.). Taxon: c est la catégorie des noms taxonomiques, des usages des noms de taxons, ou des concepts taxonomiques. 2. (Dans l onglet Occurrence ou dans l onglet Taxon) Ordonnez les termes selon l ordre des colonnes dans votre fichier texte source, en notant les deux termes obligatoires (occurrenceid et basisofrecord pour Occurrence ou bien taxonid pour Taxon) qui doivent être présents dans votre fichier source. 3. (Dans l onglet Occurrence ou dans l onglet Taxon) Saisissez les paramètres de configuration de votre fichier source : Type de fichier (CSV, Tab, Custom), délimiteur de champs, etc. 4. (Dans l onglet meta.xml) Saisissez l URL de votre fichier eml.xml, si possible. 5. (Dans l onglet meta.xml) Validez le métafichier. 6. (Dans l onglet meta.xml) Sauvegardez le métafichier. Un guide complet de l Assistant d Archive Darwin Core est disponible 6. 2. Elaborez vous-même le métafichier, à l aide d un éditeur XML et en partant d un exemple de métafichier pour vous guider. Une description complète du format de métafichier peut être trouvée sur le site Web de Biodiversity Information Standards 7 ou dans le Guide du GBIF des Métafichiers d Archive Darwin Core (GBIF Darwin Core Archive Metafile Guide 8 ). Assurez-vous que le fichier se valide bien. Etape 3. Créez vos fichiers de données A moins que vos données ne soient déjà stockées dans un fichier texte CSV/Tab, vous devez préparer un ou des fichier(s) texte à partir de la source. Si vos données sont stockées dans une base de données, générez un fichier de sortie au format texte avec délimiteurs à partir de votre base de données. La plupart des systèmes de gestion de bases de données possèdent les fonctions nécessaires. Comme le métafichier met en correspondance les colonnes du fichier texte avec les termes du schéma Darwin Core, il n est pas nécessaire d utiliser les termes de Darwin Core comme titres des colonnes dans votre fichier texte, bien que cela puisse aider à 6 Darwin Core Archive Assistant User Guide http://links.gbif.org/gbif_dwc-a_asst_en_v1.1 7 http://rs.tdwg.org/dwc/terms/guides/text/index.htm 8 Metafile Guide- http://links.gbif.org/gbif_dwc-a_metafile_en_v1 April 2011 4
éviter les erreurs. Une recommandation générale si vous souhaitez que vos sorties de données portent une extension, est de produire un fichier central de données unique, et un fichier unique pour chaque extension. Utilisez le métafichier que vous avez créé comme guide pour générer les fichiers de données au format texte. Assurez-vous que ce qui suit correspond aux valeurs spécifiées dans le métafichier. Noms de fichiers pour les métadonnées, pour le fichier central et pour les fichiers à extension Paramètres de configuration pour chaque fichier de sortie produit Ordre des champs pour le fichier central et pour les fichiers à extension Etape 4. Créez l Archive Assurez-vous que le fichier des métadonnées, les fichiers de données, et le métafichier XML sont dans le même répertoire. Compressez le répertoire à l aide de l un des formats de compression pris en charge. Le résultat est une Archive Darwin Core. Figure 2 Archive Darwin Core Etape 5. Validez l Archive Utilisez le valideur d Archive Darwin Core du GBIF (GBIF Darwin Core Archive Validator 9 ) pour vérifier que l archive se valide bien. Le valideur fournira un retour d information si l archive ne se valide pas correctement. Si l archive se valide correctement, elle est prête à être publiée. Etape 6. Publiez l Archive La publication de l archive requiert de rendre l archive accessible publiquement via une adresse (URL) fiable qui peut être partagée avec d autres. Ceci nécessite d accéder à un serveur Web. Si vous ne disposez d un accès à votre propre service Web, vous pouvez envisager de contacter un Centre d hébergement de données du GBIF, qui hébergera l archive pour vous. 9 http://tools.gbif.org/dwca-validator/ April 2011 5