OAI-PMH pour la diffusion de corpus documentaires numérisés ou numériques : retours d'expériences Stéphane Pouyllau, Ingénieur d'études CNRS, Très grand équipement ADONIS / CNRS - UPS2916 www.tge-adonis.fr ~ http://blog.stephanepouyllau.org
Secteur classique de l'oai-pmh OAI-PMH : Diffusion de données via leurs métadonnées 1er secteur de l'oai-pmh : Les articles scientifiques (archives ouvertes) les publications «ordonnées» : revues, collections de revues, collections d'ouvrages
Données, corpus documentaires (1) Données numériques pour des corpus? Données «brutes» de la recherche Qui servent à faire la recherche En SHS : sources en histoire (manuscrits, imprimés), carnets de terrains, photographies, des enregistrements sonores, films, vidéos, des données de scanners 3D, etc. Autres domaines : images satellitaires, des données issues de mesures, etc.
Données, corpus documentaires (2) Corpus documentaires Données «brutes» cataloguées, décrites, référencées et indexées Données «documentarisées» = Données «brutes» + données descriptives (méta-données) : Techniques (formats, codages, contexte technique de production) Scientifiques (sémantiques) Diffusions (contexte juridique, barrières mobiles, etc.) Corpus documentaires = ensemble raisonné de données documentaires
OAI-PMH et corpus : un vecteur de diffusion Comment diffuser des données numériques de recherche avec OAI-PMH Définition du corpus exposé via OAI-PMH Questions de mapping entre schéma de description local et DC... voir + Outils utilisés Contrainte et limites OAI-PMH + DC : 1ere marche vers le web de données
OAI-PMH : un pilier d'isidore ISIDORE : le moteur de recherche en cours de développement par le TGE ADONIS Accès global aux données structurées Valorisation des données structurées Travail des documentalistes! Le moteur de recherche utilisera 4 connecteurs OAI-PMH+(DC, METS) ; RSS/ATOM ; SITEMAP+RDFa ; SRU/SRW
OAI-PMH et corpus numériques Centre national pour la numérisation de sources visuelles (CNRS)
Définition du corpus exposé avec OAI-PMH
Définition du corpus exposé avec OAI-PMH
Comment faire? Quelle politique mettre en œuvre Un entrepôt par corpus, site? Des entrepôts par thématiques? Un entrepôt global? Modèle mixte? Photo : vanna_/flickr cc http://www.flickr.com/photos/vannadoo/3942947506/
Schéma général DC MODS Web OAI-PMH Corpus
Un entrepôt global (1) Pourquoi? Asynchronisme entre publication web / OAI-PMH Dans l'autre sens = OAI-PMH / web Temps de diffusion différents Web : diffusion très rapide, visible, édition électronique OAI : notion d'entrepôt de sources ; «archive» ; URL pérennes Granularité différente : Web : données / données + enrichissements OAI : données et ventilation en Sets multiples (limite)
Un entrepôt global (2) Entrepôt OAI-PMH du CN2SV 2700 notices XML Dublin Core Metadata Element Set, version 1.1 Metadata Object Description Schema (MODS), version 3.1 2700 ressources numériques URL pérennes. 2700 notices XML donnant accès à 80000 fichiers numériques images, ouvrages numérisés, inventaires de fonds d'archives de chercheurs, de labo en SHS
Entrepôt OAI-PMH du CN2SV : DC
Entrepôt OAI-PMH du CN2SV : MODS
Granularité et mapping, ou comment se fâcher à vie dans un laboratoire! Photo : SP flickr cc
5 phases de travail A) construction du modèle idéal pour le chercheur (dialogue ch. - doc - info) B) travail documentaire de mapping C) proposition et discussion avec les chercheurs D) mapping de compromis E) implémentation informatique C'est long... dur parfois, mais pas toujours
Métadonnées scientifiques Métadonnées techniques
DC MODS Web OAI-PMH Corpus Documentation / documentalistes
Archives Documentation Recherche Informatique
Outils (1) Outils simples Solutions open sources MySQL PHP phpoai2 : http://physnet.uni-oldenburg.de/oai/ An implementation in PHP of the OAI V2 Data-Provider 2005 Phpoai2 : un logiciel PHP (web) qui permet d'exposer des méta-données contenues dans une base de données MySQL ou PostgreSQL
Outils (2) Application Métier : SIGB... CMS... ICEberg Scripts PHP MySQL MySQL PgSQL PHP Scripts PHP Validation /contrôle /enrichissement
Contraintes et limites Mise «à plat» des données Ex. avec l'ead : encoded archival description
Contraintes et limites
Contraintes et limites Vocabulaire et stratégie de diffusion Faire comprendre que l'oai-pmh apporte des flux des consultations en + 20% des visites viennent d'un portail OAI-PMH (oaister, scientificcommons, driver) Proposer + que du DC simple Implémentation de schéma plus riche Suivant les publics MODS ; Lom-fr ; etc.
Contraintes et limites Notices bibliographiques et OAI OAI-PMH : le M de PMH = méta-données Ressources numériques uniquement? Y'a-t-il «pollution» des entrepôts OAI-PMH? La notice bibliographique : où est sa place aujourd'hui? Quelles solutions?
OAI-PMH + DC : 1ere marche vers le web de données Le web est plein d'information, de BDD... Vide de données «brutes» Le web va se remplir de données? Données structurées = importance des documentalistes Données liées entre elles par des référentiels communs (linked data) qui se construise en parallèle Données liées aux publications?
OAI-PMH + DC : 1ere marche vers le web de données
OAI-PMH + DC : 1ere marche vers le web de données Raw Data Now! (données brutes maintenant!) Tim Bernes-Lee, conférence TED, 2009. http://www.ted.com/index.php/talks/tim_berners_lee_on_the_next_web.html
OAI-PMH + DC : 1ere marche vers le web de données Ok, great! But... Learn to make OAI-PMH, DC, DC terms, MODS, OAI-ORE... the 1st step? Stéphane Pouyllau, Frédoc 2009.
Merci... L'OAI-PMH en action : les posters! Stéphane POUYLLAU Ingénieur d'études CNRS TGE ADONIS / CNRS www.tge-adonis.fr