Les guides de bonnes pratiques. Comment contribuer à ISIDORE avec ses données numériques?

Dimension: px
Commencer à balayer dès la page:

Download "Les guides de bonnes pratiques. Comment contribuer à ISIDORE avec ses données numériques?"

Transcription

1 Les guides de bonnes pratiques #1 Comment contribuer à ISIDORE avec ses données numériques? ISIDORE est une plateforme de recherche permettant l accès aux données numériques produites par les sciences humaines et sociales Ce guide s adresse aux professionnels de l information scientifique et technique, aux informaticiens et plus globalement aux producteurs de données numériques des sciences humaines et sociales. Il leur permettra de comprendre le fonctionnement et les modalités de la collecte des données par ISIDORE. En savoir plus Il peut être téléchargé sur http: /rechercheisidore.fr/apropos ou sur http: / TGIR Huma-Num Pôle communication 190, avenue de France PARIS huma-num.fr INFORMER PARTAGER DIFFUSER

2 Auteurs du guide Laurent Capelli (CCSD) Shadia Kilouchi (TGIR Huma-Num) Jean-Luc Minel (Laboratoire MoDyCo - Université Paris Ouest La Défense) Gautier Poupeau (Antidot) Stéphane Pouyllau (TGIR Huma-Num)

3 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / OCT INTRODUCTION ISIDORE est une plateforme qui collecte, indexe et valorise et permet la recherche unifiée dans les données numériques de la recherche en sciences humaines et sociales. S appuyant sur des standards ouverts et largement utilisés dans le secteur de l enseignement supérieur et de la recherche, elle contribue également à la construction du web de données, plus spécifiquement dans le domaine de l Information Scientifique et Technique (IST) pour valoriser le travail de structuration des données réalisé par les chercheurs et les professionnels de l information et de la documentation. Ce guide s adresse aux scientifiques, documentalistes, bibliothécaires, développeurs et informaticiens qui souhaitent proposer des données numériques (publications, fonds d archives numérisées, corpus numériques, actualités scientifiques, etc.) à la plateforme ISIDORE. Il présente les principes de la collecte ainsi que les conditions éditoriales et techniques nécessaires au moissonnage des métadonnées et des données. Il propose également un ensemble de bonnes pratiques pour faciliter l interopérabilité des métadonnées et des données et formule un certain nombre de recommandations en matière de structuration de l information, valables tant pour ISIDORE que pour d autres portails ou moteurs de recherche. ISIDORE privilégie l accès à des données en libre accès (open access) produites par les organismes de recherche et de l enseignement supérieur, les laboratoires, les bibliothèques et les équipes de recherche. ISIDORE est une réalisation de la Très Grande Infrastructure de Recherche Huma-Num (CNRS, Aix-Marseille Université, Campus Condorcet) mise en œuvre par le centre pour la communication scientifique directe (CCSD/CNRS). Un marché de réalisation a été confié à un consortium composé des sociétés Antidot, Sword et Mondéca. Ce guide de bonnes pratiques est une réédition du guide initialement publié en janvier Une version remaniée en fonction des derniers développements d ISIDORE sera publiée au printemps Octobre 2014

4 4 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / SEPT 2014

5 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / OCT SOMMAIRE Introduction... 3 La plateforme ISIDORE Rappel des objectifs du projet Présentation générale La collecte de l information Les traitements documentaires L accès aux données... 8 Détails techniques et recommandations pour la préparation des données Détails sur la collecte des données Le protocole OAI-PMH Le traitement de l OAI-PMH dans ISIDORE Le protocole Sitemaps associé à la structuration RDF (RDFa) Flux de syndication SRU/SRW Schémas de métadonnées Traitement des données RDF et le modèle de données d ISIDORE Les référentiels scientifiques utilisés pour qualifier les données dans ISIDORE Utilisation des référentiels dans ISIDORE Structure des référentiels dans ISIDORE Les référentiels déjà intégrés à ISIDORE Contribuer à ISIDORE Conditions éditoriales Conditions techniques Synthèse sur les étapes à suivre Foire aux questions... 25

6 6 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / SEPT 2014

7 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / OCT LA PLATEFORME ISIDORE 1. Rappel des objectifs du projet ISIDORE propose, à l ensemble de la communauté de la recherche en SHS, une infrastructure permettant de fédérer à la fois l ensemble des producteurs de données, mais aussi les ressources et les services qu ils proposent. Cette volonté résulte d un certain nombre d observations qui positionnent ce dispositif comme un élément stratégique de l infrastructure numérique des SHS en France : la longue histoire de la recherche en SHS en France, dont la visibilité internationale pourrait être mieux valorisée ; de nombreuses et fortes compétences «métiers» notamment dans le domaine des infrastructures numériques des diverses disciplines ; l immense volume et la diversité des ressources existantes liés à la multi-disciplinarité des SHS actuellement insuffisamment valorisées ; une multitude d espaces de publication, d accès aux ressources et de services répondant aux besoins spécifiques des chercheurs ; de nombreuses attentes et besoins communs aux différents acteurs de la recherche, qu il s agisse de chercheurs, d établissements, de laboratoires ou de fournisseurs de services ; les nouvelles orientations de la recherche qui impliquent un fonctionnement adapté au mode réticulaire de la recherche actuelle faisant appel aux compétences existantes. Tenant compte de ces éléments, ISIDORE souhaite répondre aux objectifs suivants : développer et offrir un accès unifié aux données numériques des SHS ; offrir à la communauté un ensemble de services mutualisables à haute valeur ajoutée ; constituer la mémoire vivante de la recherche en SHS et donner les moyens à ses communautés de l exploiter pleinement. Après 4 ans de fonctionnement, la plateforme ISIDORE donne accès à plus de 3,3 millions de ressources et moissonne plus de 2500 sources de données et métadonnées. 2. Présentation générale Plus qu'un simple moteur de recherche, ISIDORE constitue une plateforme de traitement et d'enrichissement des données 1 avec pour objectif : d offrir aux chercheurs un point d accès unifié aux différentes ressources structurées produites dans le domaine des SHS en France ; d exposer selon les principes du Linked Data les données bibliographiques structurées de la recherche en Sciences Humaines et Sociales en France ; selon la logique d une boucle de rétroaction, d offrir les moyens aux producteurs de récupérer l enrichissement automatique effectué par le moteur sur les données indexées. Pour poursuivre cet objectif, deux défis majeurs ont dû être relevés : respecter les spécificités de l hétérogénéité des données, afin de bénéficier de la richesse des 1 Voir : ISIDORE : une plateforme de recherche d information pour les Sciences Humaines et Sociales, Pouyllau, S., 2011 : [d.c ].

8 8 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / SEPT 2014 données structurées. Pour cela, il est nécessaire de ne pas enfermer la description des métadonnées à un plus petit dénominateur commun ; offrir des résultats pertinents, grâce à un certain nombre de traitements que le moteur de recherche d'isidore effectue avant l indexation comme, par exemple, la relation automatique des documents indexés avec des référentiels. Pour offrir toute la transparence que le cadre de la recherche scientifique impose, la plateforme ISIDORE ré-expose l ensemble des enrichissements qu'elle effectue selon des standards internationaux ouverts proposés par l'organisme international qui gère le web, le W3C 2. Elle permet ainsi aux producteurs de ressources d'exploiter cet enrichissement afin d améliorer les performances de leur propre système. 3. La collecte de l information La collecte des métadonnées et des données est assurée par trois connecteurs informatiques qui moissonnent les informations selon : le protocole OAI-PMH 3 augmenté de l indexation des ressources décrites dans le ou les «record» de la notice ; les flux de syndication (RSS, ATOM) augmentés de l indexation des ressources décrites ; le protocole sitemaps/xml qui pointe vers les ressources à indexer. Les données moissonnées doivent contenir dans ce cas, de l information scientifique écrite au moyen du standard RDFa défini par le W3C. Les éléments collectés par ces trois connecteurs sont : Les métadonnées descriptives de la ressource (que nous nommerons ici notice) ; Les métadonnées embarquées dans les fichiers bureautiques, documents au format PDF et images, lorsqu il s agit d images au format jpg ou tif (IPTC, XMP) ; Le texte intégral de la ressource (liée à une notice) quand il est librement accessible et dans des formats de codage non crypté. 4. Les traitements documentaires Le traitement des informations moissonnées se décompose en deux parties : Le traitement de pré-indexation consiste à normaliser les métadonnées, à les agréger et à les enrichir à l aide de différents référentiels (géographiques, personnes, matières, termes scientifiques, périodes, etc.) puis à convertir toutes ces métadonnées selon le modèle RDF 4 ; L indexation proprement dite est effectuée, quant à elle, par le moteur de recherche d ISIDORE puis stocké dans une base de données conforme au modèle RDF pour toutes les données structurées (métadonnées d origine et résultat de l enrichissement). 5. L accès aux données L accès aux données (et aux métadonnées) s effectue de deux manières : Via des interfaces de recherche accessibles sur le web et mises à la disposition des utilisateurs qui peuvent ainsi, grâce aux interfaces graphiques proposées, profiter de l ensemble de la richesse des données et de la puissance du moteur de recherche. Il s agit du site web disponible à l adresse courante : ; Via des interfaces pour les machines et principalement les applications sous la forme de web services (l un dédié au moteur de recherche et l autre dédié aux données structurées en RDF avec le langage d interrogation standard, SPARQL 5 ). 2 Voir : [d.c ]. 3 Pour Open Archives Initiative Protocol for Metadata Harvesting, voir : [d.c ]

9 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / OCT DÉTAILS TECHNIQUES ET RECOMMANDATIONS POUR LA PRÉPARATION DES DONNÉES 1. Détails sur la collecte des données Outre les trois connecteurs asynchrones pour la collecte des données, le moteur de recherche ISIDORE dispose d un quatrième connecteur (SRU/SRW) qui permet d étendre une recherche initiale à des catalogues bibliographiques de manière synchrone (les données ne sont pas indexées dans ISIDORE). La figure 2 illustre l ensemble du dispositif et la position des connecteurs : 1.1 Le protocole OAI-PMH Le protocole OAI-PMH a été mis au point en 1999 dans le cadre de l initiative pour les archives ouvertes. Il permet d exposer sur le Web les métadonnées des différentes ressources mises à disposition par un fournisseur de données. Il constitue une «sur-couche» à HTTP, le protocole standard du web, puisqu il définit six verbes d interrogations spécifiques. Prévu à l origine pour permettre les échanges entre les archives ouvertes et les portails documentaires, le protocole OAI-PMH a, de par sa simplicité été rapidement utilisé pour d autres usages, en particulier dans le milieu du patrimoine et des bibliothèques numériques.

10 10 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / SEPT 2014 Un entrepôt OAI comprend deux niveaux de granularité : le SET correspondant à un ensemble cohérent de ressources dont la définition, le nom et l imbrication sont à la charge du fournisseur ; le RECORD rassemblant toutes les métadonnées d une ressource à la manière d une notice bibliographique. Par défaut, un RECORD doit être exprimé selon un profil d applications (vocabulaire permettant de décrire des contenus) particulier du Dublin Core Element Set (plus connu en français en tant que «Dublin Core simple») qui intègre uniquement les quinze éléments de base du vocabulaire Dublin Core Element Set contenus dans un élément racine : oai_dc. Le protocole OAI-PMH utilise donc le Dublin Core simple pour décrire l information scientifique qu il diffuse. 1.2 Le traitement de l OAI-PMH dans ISIDORE Traitement des sets Le protocole OAI-PMH permet, par le principe des sets, de rassembler un ensemble cohérent de notices dont le périmètre est laissé à la libre appréciation du producteur. Il permet aussi de définir une hiérarchie dans les sets avec un mécanisme d héritage en précisant dans le nom du set le nom du ou des sets parents et du set enfant séparé par le caractère «:». ISIDORE est en capacité d utiliser ces sets pour limiter le moissonnage à un ensemble de notices ou pour différencier différentes sources de données au sein d un même entrepôt. Le producteur devra donc préciser les modalités de moissonnage qui lui paraissent les plus appropriées afin de valoriser au mieux ses ressources au sein d ISIDORE. Pour cela, il indiquera le ou les sets concernés ou une règle permettant de distinguer les sets à prendre en compte. Traitement des records Dans le cadre d ISIDORE, chaque record correspond à un document indexé. Le moissonneur exploite ainsi les métadonnées décrites selon le profil d applications défini par l Open Archive Initiative pour le Dublin Core (oai_dc). De surcroît, le moissonneur collecte également le ou les documents en texte intégral dont les URL (débutant par sont indiquées par l élément <dc:identifier>. Nous renvoyons le lecteur à la partie sur le Dublin Core (voir page 13) pour une utilisation optimale des champs du DC par ISIDORE.

11 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / OCT <record> <header> <identifier>oai:halshs.archives-ouvertes.fr:halshs </identifier> <datestamp> t11:06:50z</datestamp> <setspec>halshs</setspec> <setspec>shs:eco</setspec> <setspec>sdv:bio</setspec> <setspec>info:info_bt</setspec> <setspec>sdv:sa:aep</setspec> <setspec>sdv:sa:sta</setspec> <setspec>cirad</setspec> <setspec>shs</setspec> </header> <metadata> <oai_dc:dc xsi:schemalocation= > <dc:identifier> </dc:identifier> <dc:identifier> dc:identifier> <dc:identifier> </dc:identifier> <dc:title>broadening the scope of regulation: a prerequisite for a positive contribution of transgenic crop use to sustainable development</dc:titlemarc <dc:creator>fok, Michel</dc:creator> <dc:subject> [SHS:ECO] Humanities and Social Sciences/Economy and finances </dc:subject> <dc:subject>[sdv:bio] Life Sciences/Biotechnology</dc:subject> <dc:subject>[info:info_bt] Computer Science/Biotechnology</dc:subject> <dc:subject> [SDV:SA:AEP] Life Sciences/Agricultural sciences/agriculture, economy and politics </dc:subject> <dc:subject> [SDV:SA:STA] Life Sciences/Agricultural sciences/sciences and technics of agriculture </dc:subject> <dc:subject>regulation</dc:subject> <dc:subject>coordination</dc:subject> <dc:subject>gmo</dc:subject> <dc:subject>biotechnology</dc:subject> <dc:subject>seed price</dc:subject> <dc:subject>research</dc:subject> <dc:subject>weed resistance</dc:subject> <dc:subject>pest complex shift</dc:subject> <dc:description> Ex-ante regulation of transgenic crop use generally prevails, before the authorization of commercial release. This kind of regulation addresses the concerns of biosafety and coexistence, under pressure of pros and/or cons of GMO. After fifteen years of large scale use of transgenic crops (notably soybean and cotton) in various countries (USA, China, Brasil, India...), ecological and economic phenomena are observed and which could threaten the sustainable use of transgenic varieties. I advocate that the regulation scope must be extended so as to a) promote a systemic and coordinated approach of transgenic crop use, b) ensure seed purity with regard to the transgenic trait, c) maintain research on non-transgenic varieties, and d) warrant fair pricing of transgenic seeds. </dc:description> <dc:coverage>montpellier</dc:coverage> <dc:coverage>france</dc:coverage> <dc:date> </dc:date> <dc:language>english</dc:language> <dc:type>proceeding with peer review</dc:type> <dc:source>proceedings of Agro2010, the XIth ESA Congress</dc:source> <dc:source>agro2010, the XIth ESA Congress</dc:source> </oai_dc:dc> </metadata> </record> Exemple de record OAI-PMH avec du Dublin Core simple.

12 12 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / SEPT 2014 En plus de cette description en Dublin Core, chaque enregistrement peut être décrit suivant un ou plusieurs formats de métadonnées dont le choix est laissé à l appréciation de l administrateur de l entrepôt. Le moissonneur d ISIDORE est en capacité d exploiter le format Dublin Core terms et tous schémas XML permettant l exposition du texte intégral (TEI) améliorant ainsi son indexation. Le producteur devra préciser quels formats de métadonnées il est préférable d utiliser dans ISIDORE (OAI_DC ou Dublin Core Terms). Dans ce cas, mais aussi dans celui où l entrepôt OAI-PMH contient aussi le texte intégral, le producteur indiquera la valeur de l argument metadataprefix pour atteindre les données. Le producteur devra veiller à respecter scrupuleusement les spécifications du protocole OAI-PMH dans sa version 2.0 et à autoriser l accès à son entrepôt au moissonneur d ISIDORE. Nous conseillons aux producteurs de valider régulièrement la conformité de leur entrepôt grâce, par exemple, aux outils mis à disposition par le département informatique de l université du Cap en Afrique du Sud 1 et accessible sur le site de l Open archive initiative. 1.3 Le protocole Sitemaps associé à la structuration RDF (RDFa) Initié par Google, le protocole Sitemaps permet d indiquer aux moteurs de recherche les ressources d un site Web à indexer. Il se présente sous la forme d un fichier XML qui contient pour chaque ressource, son URL, la date de sa dernière modification, la fréquence de révision et l importance relative par rapport aux autres URL du site : <?xml version= 1.0 encoding= UTF-8?> <urlset xmlns= > <url> <loc> <lastmod> </lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> </urlset> Dans le cadre d ISIDORE, l utilisation du protocole Sitemaps permet de guider la collecte des pages Web et de la limiter aux pages les plus pertinentes par rapport aux objectifs poursuivis. Elle permet ainsi l indexation exhaustive d une ressource dont la structure serait trop complexe pour une exposition dans un entrepôt OAI-PMH (par exemple une monographie ou une édition de sources) ou pour laquelle la mise en place d un entrepôt OAI-PMH se révélerait trop complexe voire injustifiée (carnets de recherche, corpus de données complexes, sites web autour d un sujet précis). Par conséquent, le producteur peut tout à fait exposer deux fichiers Sitemaps : un à destination des moteurs traditionnels qui référencerait toutes les pages Web du site et un second pour ISIDORE qui se limiterait aux pages proposant des contenus scientifiques pertinents. Dans ce second cas, le producteur indiquera l URL du flux Sitemaps destiné à ISIDORE. Le schéma Sitemaps 2 ne permettant pas d exprimer les métadonnées descriptives de la ressource directement dans le flux XML qui le compose, comme c est le cas dans le protocole OAI-PMH, les producteurs de ressources pourront intégrer ces métadonnées au sein même de la page HTML qu ils souhaitent voir indexer par ISIDORE et cela grâce aux principes de RDFa. RDFa est une recommandation du W3C 3 qui permet d embarquer des triplets RDF visibles uniquement pour les machines au sein du code HTML d une page Web. Il permet ainsi d indiquer les métadonnées descriptives ou techniques de la ressource directement au sein d une page Web. Pour cela, RDFa définit différents attributs supplémentaires à XHTML. La manière d implémenter RDFa dans les pages Web est laissé à la libre appréciation des producteurs de ressources (vocabulaires RDF utilisés, balises HTML portant les annotations, mise en place de balise <meta> dans l entête HTML, etc.). Néanmoins, ISIDORE n indexera la ressource que si la page contient au moins un titre indiqué avec la propriété dc:title ainsi que le ou les auteurs avec 1 Voir : 2 Voir : [d.c ]. 3 Voir : et enfin [d.c ].

13 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / OCT la propriété dc:creator du Dublin Core simple. Il est possible d utiliser également le vocabulaire DC Terms pour enrichir la structuration. Par ailleurs, une phase de pré-indexation qui enrichit le contenu prend en compte au sein du moteur d autres éléments du Dublin Core (dc:subject, dc:date, dc:type, dc:source, dc:coverage). Si les producteurs ne veulent pas entrer dans la complexité de RDF et de RDFa au sein même du corps de la page (<body>), nous leur conseillons d indiquer leurs métadonnées en RDFa dans les balises <meta> de l en-tête HTTP sur le modèle suivant : <!DOCTYPE html PUBLIC -//W3C//DTD XHTML 1.0 Strict//EN strict.dtd > <html xmlns= xml:lang= fr lang= fr xmlns:dc= xmlns:dcterms= > <head> <title>la Géographie locale du notaire languedocien</title> <meta http-equiv= Content-Type content= text/html; charset=utf-8 /> <meta http-equiv= Content-Language content= fr /> <meta property= dc:title content= La Géographie locale du notaire languedocien /> <meta property= dc:creator content= Monique Bourin /> <meta property= dc:date content= /> <meta property= dcterms:abstract content= During the centuries while is built the land registry, mosaïc of soils is placed in position. Henceforth, names are given to places, which differentiate them of others. During the remote period of time, they show the lack of attention of professionals as lawyers concerning morphology. From the end of Xith century, higher interest is taken in undulation of relief. Above all, named places undertake elements carrying the collective country memory which points to the people s stamp on the soil. xml:lang= en /> </head> <body> <h1 id= doctitle > <span class= text > La Géographie locale du notaire languedocien </span> </h1> <div id= docauthor > <strong>monique <span class= familyname >Bourin</span></strong> </div> <div id= abstract class= section > <h2 class= section active ><span class= text >Résumé</span></h2> <div id= abstract-en class= abstract > <p class= abstract dir= ltr >During the centuries while is built the land registry, a mosaïc of soils is placed in position. Henceforth, names are given to places, which differentiate them of others. During the remote period of time, they show the lack of attention of professionals as lawyers concerning morphology. From the end of XI<sup>th</sup> century, higher interest is taken in undulation of relief. Above all, named places undertake elements carrying the collective country memory which points to the people s stamp on the soil.</p> </div> </body> </html> L utilisation du Dublin Core étant la même que pour le protocole OAI-PMH, nous renvoyons le lecteur à cette partie pour plus de précisions. 1.4 Flux de syndication La page Web en HTML Un flux de syndication peut jouer le rôle d entrepôt de métadonnées. En effet, un flux de syndication comporte pour chaque item un ensemble de métadonnées assimilables aux métadonnées du «record» du protocole OAI-PMH. ISIDORE est en capacité de collecter les flux de syndication et d en exploiter les données au même titre que les métadonnées Dublin Core en OAI-PMH. Chaque item d un flux de syndication donne lieu à une ressource au sein d ISIDORE. De plus, le flux sert à guider le moissonneur dans la collecte du texte intégral lié à l URI indiquée dans les éléments suivants : Élément //item/link pour RSS 1.0 Élément //item/link pour RSS 2.0 Élément //entry/link pour Atom

14 14 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / SEPT SRU/SRW ISIDORE propose un module d expansion de recherche qui permet d étendre une requête posée à des catalogues de bibliothèques utilisant le protocole SRU/SRW. SRU (Search/Retrieve via URL) et SRW (Search/Retrieve Web service) sont deux protocoles qui, succédant à Z3950, en constituent une évolution, tournée vers les technologies web, via l utilisation de web services. Pour cela nous avons développé une application web fonctionnant comme un module d ISIDORE : SRZ (pour SeaRchZ3950). SRZ est donc à la fois compatible avec SRU/SRW et avec le protocole Z3950. Ces protocoles sont synchrones, les requêtes renvoient des réponses en temps réel, aussi s agit-il du seul connecteur ne bénéficiant pas de l enrichissement des ressources proposé par ISIDORE. Cette application est compatible avec les deux formats de métadonnées les plus utilisés par ces serveurs, à savoir MARC21 et UNIMARC dans leur version XML uniquement. Les notices bibliographiques reçues par ce biais sont transformées en temps réel de manière à les convertir dans un format plus facilement exploitable et utilisable par l utilisateur. Aussi est-il important que les réponses XML envoyées par les serveurs bibliographiques soient bien formées afin que leur manipulation s effectue sans erreur. 2. Schémas de métadonnées Les schémas de métadonnées utilisés et exposés dans le cadre des différents protocoles définis précédemment sont les suivants : RSS 2.0, ATOM, Dublin Core Metadata Element Set (DC simple) et DC Terms. Standards internationaux, ces schémas ont vocation à exprimer les métadonnées crawlées par le moteur de recherche, qui seront ensuite exploitées pendant la phase de pré-indexation, d indexation et d interrogation. RSS 2.0 RSS 2.0 (Really Simple Syndication) est un schéma XML mis au point par Dave Winner pour permettre la syndication de contenus Il a été conçu sur les bases du format RSS 0.91 mis au point par Netscape. A la différence de RSS 1.0 conçu selon le modèle RDF, RSS 2.0 repose entièrement sur le modèle XML uniquement. Le schéma XML RSS 2.0 propose une structure simple pour décrire un flux et chaque item du flux. Il peut être étendu à n importe quel autre schéma XML dans la mesure où celui-ci possède un espace de nom. Dans le cadre d ISIDORE, seuls les éléments XML provenant nativement de RSS 2.0 et du Dublin Core simple seront pris en compte. ATOM ATOM désigne à la fois un schéma XML de syndication de contenu et un protocole de publication basé sur HTTP. Né de l impossibilité de faire évoluer RSS 2.0 pour en corriger les défauts et les insuffisances, ATOM est standardisé à l IETF en tant que RFC 4287 (recommandations Web). Dans la même ligne que la famille des formats RSS, il propose néanmoins une structure légèrement différente de celle de ces derniers, même s il conserve la structure générale de description d un flux et de chaque item du flux. ATOM, au même titre que RSS 2.0, permet d utiliser d autres schémas XML. ISIDORE se limitera cependant aux éléments natifs d ATOM.

15 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / OCT Dublin Core Le Dublin Core mis au point et maintenu par un consortium indépendant, le Dublin Core Metadata Initiative est composé de deux jeux de métadonnées : Le Dublin Core Metadata Element Set (norme ISO 15836:2003) comprend quinze propriétés de base. Par abus de langage, on parle de Dublin Core simple pour le définir. Cet ensemble est utilisé, par exemple, dans le cadre des entrepôts OAI ; Le DCMI Metadata Terms comprend les quinze propriétés précédentes auxquelles s ajoutent 40 propriétés qui viennent les compléter ou les préciser. Par ailleurs, ce jeu définit aussi 21 types de ressources sur lesquelles peuvent s appliquer ces propriétés, 9 schémas de vocabulaires d encodage et 11 schémas de syntaxes d encodage. Il peut servir de base au Dublin Core dit «qualifié» dans lequel il est possible de typer les métadonnées, en utilisant les types de données proposés par le DCMI ou ses propres types de données définis dans un schéma XML ; Par ailleurs, les métadonnées en Dublin Core peuvent être exprimées selon le modèle XML (par exemple, dans le cadre du protocole OAI-PMH) ou du modèle RDF (par exemple, dans le cadre du RDFa). Les éléments ou propriétés issus du Dublin Core constituent la base du vocabulaire d ISIDORE. Ce choix est guidé par le taux d utilisation de ce modèle de métadonnées notamment dans le protocole OAI-PMH dans les communautés SHS depuis l an Sa simplicité et sa généricité expliquent son succès, mais en font aussi sa faiblesse. En effet, il n existe pas a priori de contraintes pour les valeurs des propriétés du Dublin Core. Il est possible de restreindre les types de données dans le cas du Dublin Core dit qualifié, mais ce n est pas le cas le plus répandu. C est pourquoi nous préconisons quelques règles simples pour optimiser la collecte et le traitement des données par ISIDORE : <!-- Non recommandé --> <dc:subject>histoire médiévale, monachisme, Cluny<dc:subject> <!-- Recommandé --> <dc:subject>histoire médiévale</dc:subject> <dc:subject>monachisme</dc:subject> <dc:subject>cluny</dc:subject> Indiquer le plus souvent possible une valeur aux éléments dc:title, dc:creator et dc:date, même si les deux derniers sont des valeurs par défaut, car ISIDORE utilise la valeur de ces éléments pour effectuer le dédoublonnage des ressources ; Répéter les éléments plusieurs fois s il existe plusieurs valeurs distinctes plutôt que de les rassembler au sein d un seul élément :Respecter la sémantique des éléments telle qu elle est décrite dans les spécifications du Dublin Core ; Utiliser le même modèle pour exprimer des valeurs composites comme le nom d une -personne ou une date : ISIDORE est capable de reconnaître plusieurs patrons pour les valeurs composites, par exemple, pour le nom d une personne «prénom nom» ou «nom, prénom», «nom prénom» ou, pour la date, la possibilité de n exprimer que l année ou une date encodée selon les différentes normes existantes (ISO 8601, XML schema datetime...) ; Utiliser l élément dcterms:ispartof pour lier une ressource à un conteneur (par exemple un article à un numéro d une revue) avec l URL de la page du conteneur en valeur de l élément ; Renseigner au minimum un résumé dans l élément dcterms:abstract ou dc:description, car la valeur de ces éléments est utilisée à l affichage des résultats dans le site web pour donner plus d indications aux utilisateurs. Ceci renforcera la valorisation de vos ressources ; Si vous disposez d un système d identifiants pérennes, ce dernier doit être indiqué dans l élément dc:identifier sous la forme d une URI. ISIDORE reconnaît le système DOI, HANDLE, ARK ; Indiquer l URL du texte intégral dans l élément dc:identifier ;

16 16 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / SEPT 2014 La casse n a pas d importance dans les traitements d ISIDORE, néanmoins, ce dernier la conserve. Par conséquent, les données seront exposées et utilisées dans les interfaces avec la casse d origine. Les éléments Dublin Core suivants font l objet d un traitement par ISIDORE : Les éléments dc:title, dc:creator et dc:date (restreint à la donnée «année») sont utilisés pour effectuer le dédoublonnage ; La valeur de dc:creator est alignée avec le référentiel des auteurs dans HAL ; La valeur de dc:date est alignée avec un référentiel des périodes historiques et des siècles ; Les valeurs de dc:subject et dc:coverage sont alignées avec les référentiels sujets et le référentiel géographique ; La valeur de dc:description ou dcterms:abstract est alignée avec les référentiels sujet et le référentiel géographique ; Les valeurs de dc:type sont alignées avec une typologie documentaire qui sera alimentée au fur et à mesure de l avancée du projet ; Les valeurs de dc:source sont alignées avec un référentiel des titres de revues ; Si les valeurs de dcterms:ispartof et dc:relation sont une URL et qu il s agit d une page Web, ISIDORE récupère la valeur de l élément HTML <title> ; Nous conseillons aux producteurs de bien prendre en compte ces différents traitements dans l exposition de leurs données, car ils en facilitent la recherche depuis le site rechercheisidore.fr et permettent ainsi une meilleure valorisation des corpus. 3. Traitement des données À l issue de la collecte des données et en préalable à l indexation, les données subissent un certain nombre de traitements. Généralement peu valorisée, cette étape est pourtant essentielle pour garantir un résultat de qualité et une recherche efficiente au sein du moteur de recherche. Les traitements effectués sont de différents types : validation : vérification de la conformité des données en XML (bien formées et valides par rapport à leurs schémas), vérification des contraintes spécifiques à ISIDORE (présence d un titre par exemple) ; normalisation : détection du prénom et du nom dans les mentions de responsabilité,- normalisation dans un format unique (ISO8601) des mentions de date, normalisation- des mentions de langues (français fre ; french fre ; Français fre), ajout des valeurs par défaut positionnées pour certains éléments ; alignement : rapprochement des valeurs de certaines données avec les référentiels (motsclés thématiques et géographiques en particulier), classification automatique des données à l aide du référentiel des disciplines de HAL-SHS et cela à partir de l analyse du texte intégral des données (pour les données textuelles) ; conversion : à l issue du traitement, les données sont converties selon le modèle RDF afin d assurer leur exploitation par le moteur de recherche ISIDORE et leur ré-exposition aux utilisateurs via la base de données RDF (triple store) et point d accès RDF (SPARQL end point : rechercheisidore.fr/sparql). 3.1 RDF et le modèle de données d ISIDORE Mis au point par le W3C, dans le cadre des activités du Web sémantique, RDF (Resource Description Framework) est un modèle de représentation des données. Ce n est pas à proprement parler un schéma de métadonnées. Il constitue un modèle de description des données structurées inspiré de la logique des prédicats de premier ordre et de la théorie des graphes.

17 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / OCT Sa généricité et sa souplesse offrent un cadre d interopérabilité pour la description de tous types de ressources dans un environnement en réseau tel que le Web. RDF est un modèle qui permet d exprimer des assertions selon un modèle très simple comparable à une phrase simple : <sujet> <prédicat> <objet>. Chaque assertion forme donc un triplet dont les différents composants sont exprimés sous la forme d une URI (Uniform Resource Identifier). L intérêt de RDF réside dans le fait qu il est possible d exploiter des triplets RDF quel que soit le vocabulaire utilisé, sans conversion, à l inverse de XML pour lequel il est nécessaire de convertir les données si elles n utilisent pas le même schéma. Ainsi, il n impose pas aux différents producteurs de données de se mettre d accord strictement sur une structure de métadonnées, comme c est le cas dans le protocole OAI-PMH avec le profil d applications OAI_DC (Dublin Core structurant les données dans les entrepôts OAI-PMH), ou de se limiter à un plus petit dénominateur commun pour assurer l interopérabilité. Dans le cadre d ISIDORE, l ensemble des données exprimées en XML provenant d un entrepôt OAI-PMH ou de flux d actualités (format RSS, Atom) sont converties en RDF à l issue du traitement. Les données nativement exprimées en RDF dans une page WEB, en utilisant la syntaxe RDFa, sont directement moissonnées puis traitées comme indiquées ci-dessus. Cette conversion permet ensuite d exposer les données afin de permettre aux producteurs et aux utilisateurs de les récupérer dans leur propre environnement et de les traiter. Afin de mieux comprendre les impératifs éventuels que posent les traitements et cette conversion, nous vous présentons le modèle de données d ISIDORE. Celui-ci peut être représenté selon le schéma suivant : Dans ISIDORE, une collection correspond à un «agrégateur de contenus» : par exemple, revues. org est une collection de revues, HAL-SHS est une collection d articles issus de différentes organisations (laboratoires, universités...). Chaque entité, au sein de cette collection, forme une source de données : la revue pour revues. org, un «tampon» de laboratoire pour HAL-SHS. Au sein de cette source, on distingue des données nommées «ressources» : chaque article dans revues.org, chaque document déposé dans HAL-SHS est donc une ressource. Ces ressources sont elles-mêmes constituées de différents éléments : le texte de l article chez revues.org, la notice et le fichier PDF ou Word (texte intégral) du document pour un article déposé dans HAL-SHS ou les différentes pages d une monographie dans d autres cas, par exemple.

18 18 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / SEPT 2014 Comme le montre le schéma, ISIDORE est capable de détecter l équivalence d une ressource entre deux sources de données différentes : par exemple, un article publié dans une revue chez revues.org et le même article déposé dans HAL-SHS. Le système ne va pas privilégier une ressource plutôt qu une autre, il va simplement se contenter d indiquer une relation entre les deux. De même, il est possible de relier une ressource à un conteneur, intermédiaire entre elle et la source : par exemple, un numéro chez revues.org14. Il est important de noter que les niveaux «collection» et «sources» sont déterminés au moment de l ajout des bases de données, et des corpus, par l équipe en charge de la réalisation d ISIDORE 1. La généricité recherchée dans ce modèle RDF permet de s assurer qu il fonctionne avec tous les types de connecteurs utilisés afin de pouvoir collecter un maximum de types données dans ISIDORE et de tenir compte ainsi des différentes pratiques dans les disciplines des SHS. 1 Pour proposer une base de données, un corpus de données numériques, ou une revue électronique, merci de prendre contact par avec l équipe : isidore-sources@huma-num.fr Terminologie générique Collection (facultatif) Source (obligatoire) OAI-PMH Entrepôt Set OAI ou entrepôt complet Flux d actualités (RSS 1.0 ; RSS 2.0 ; Atom) Indication d un conteneur de données (facultatif) Contenu de l élément dcterms:ispartof ou encore ore:isaggregatedby dans le <record> OAI (voir ci-contre) Flux OPML Flux RSS Contenu de l élément dcterms:ispartof ou encore :isaggregatedby dans le <item> Ressource (obligatoire) <record> (OAI) <item> Éléments de métadonnées minimale (obligatoire) - dc:identifier pointant sur une ressource web - les données à crawler suivant un pattern à partir d un dc:identifier - Relation ressource/ éléments : 1 n - link - dc:identifier - url vers l actualité scientifique - Relation ressource/ éléments : 1 1 Sitemap + RDFa Sitemap Contenu de l élément dcterms:ispartof, ore:isaggregatedby ou bien sioc:hascontainer dans les métadonnées RDFa <url> + des métadonnées exprimées selon RDFa dans la ressource liée - url - Relation ressource/ éléments : 1 1 Tableau 1 : Terminologie du modèle de données Le tableau suivant (1), donne une vision complète des différents niveaux de structuration dans ISIDORE et ce par type de connecteur. Il permet aux documentalistes et aux informaticiens de constituer des stratégies de structuration des données en vue d un moissonnage par ISIDORE :La conversion à proprement parler suivant ce modèle utilise le Dublin Core et les principes exposés par OAI- ORE 2, qui constitue une nouvelle approche du protocole OAI-PMH compatible avec les technologies du Web sémantique et beaucoup plus respectueuse de l architecture du Web de données. 2 Voir : [d.c ]

19 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / OCT LES RÉFÉRENTIELS SCIENTIFIQUES UTILISÉS POUR QUALIFIER LES DONNÉES DANS ISIDORE Les référentiels sont des vocabulaires, thésaurus ou liste d autorités qui sont utilisés pour indexer les données dans le but de constituer des espaces de navigation dans les données, de faciliter les recherches et d enrichir les données. La plateforme ISIDORE a pour finalité d offrir aux producteurs de référentiels, sans exclusive, la possibilité de déposer son référentiel métier, de le stocker, de le rendre visible et de permettre son exploitation par ISIDORE. 1. Utilisation des référentiels dans ISIDORE Les référentiels ne sont pas moissonnés. Ils sont déposés par le fournisseur du référentiel qui en fait la demande auprès de l équipe qui réalise ISIDORE 1. Pour que le dépôt soit accepté, le référentiel doit être conforme, d un point de vue éditorial et d un point de vue technique, avec les critères énoncés par l équipe de réalisation. ISIDORE utilise les référentiels pour effectuer une catégorisation automatique des ressources indexées. Cette catégorisation s appuie sur une comparaison des valeurs de certaines métadonnées et du texte intégral avec les termes des référentiels. A partir de ce traitement automatique, il est possible d offrir des mécanismes de facettes pour restreindre les résultats d une recherche, des suggestions de recherche pendant la frappe de l utilisateur qui donnent une vision des sujets principaux du document. 2. Structure des référentiels dans ISIDORE Afin de structurer les référentiels présents dans ISIDORE, il a été choisi d utiliser le formalisme SKOS (Simple Knowledge Organization System) qui permet d exprimer un vocabulaire contrôlé selon le modèle RDF 2. Standardisé au sein du W3C, ce vocabulaire s intègre facilement dans le langage d ontologie OWL 3. Il est volontairement simple pour permettre une appropriation aisée par les communautés scientifiques : déjà plusieurs laboratoires ont fait le choix de l ontologie SKOS afin de rendre utilisables les thésaurus dans le web de données : c est le cas des thésaurus Pactols édités par le réseau Frantiq 4 du CNRS ou encore Rameau. La sémantique principale offerte par SKOS peut être classée en six parties : les classes : skos:conceptscheme : la racine du vocabulaire ou le vocabulaire en lui-même ; skos:concept : le concept ; les propriétés pour renseigner les étiquettes des concepts : skos:preflabel : la vedette ou étiquette préférentielle ; skos:altlabel : terme rejeté ou étiquette alternative ; les propriétés reliant la racine du vocabulaire aux concepts : skos:hastopconcept : relation entre la racine et les concepts de premier niveau ; skos:inscheme : relation entre le concept et la racine ; les propriétés de relations entre les concepts au sein du même vocabulaire : skos:broader : concept générique du concept décrit ; skos:narrower : concept spécifique du concept décrit ; skos:related : concept associé au concept décrit ; 1 Contacter pour cela : isidore-referentiels@huma-num.fr 2 Cette présentation de SKOS est extraite en partie du site web de présentation du thésaurus du Service interministériel des Archives de France ( [d.c ]. 3 Voir : [d.c ] 4 Voir : [d.c ].

20 20 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / SEPT 2014 les propriétés d annotations : skos:definition : définition du concept ; skos:scopenote : portée du concept ; skos:editorialnote : note de l éditeur du vocabulaire sur le concept comme référence bibliographique ; skos:historynote : note sur l historique du concept dans le vocabulaire. les propriétés d alignement avec d autres vocabulaires : skos:exactmatch : concept identique au concept décrit ; skos:closematch : concept approchant. Par exemple, voici la notice «Economic cooperation» issue du thésaurus UKAT : Term: Economic cooperation Used For: Economic co-operation Broader terms: Economic policy Narrower terms: Economic integration European economic cooperation European industrial cooperation Industrial cooperation Related terms: Interdependence Scope Note: Includes cooperative measures in banking, trade, industry etc., between and among countries. Et son équivalent en RDF décrit avec l ontologie SKOS :

21 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / OCT Pour prendre un autre exemple, voici la notice «Métadonnées» du vocabulaire Rameau maintenu par la Bibliothèque nationale de France : Métadonnées Ensemble structuré de données créées pour fournir des informations sur des ressources électroniques <Employé pour : Balises meta Données sur les données <<Terme(s) générique(s) : Sites Web -- Référencement >><<Terme(s) associé(s) : Information électronique >>Terme(s) spécifique(s) : Dublin Core Source(s) : Vocabulaire de la documentation / INTD-ER, 2004 Equiv. LCSH : Metadata Sa conversion en RDF (écrite ici avec la syntaxe RDF/XML) avec l ontologie SKOS donne : <?xml version= 1.0 encoding= utf-8?> <rdf:rdf xmlns:rdf= xmlns:owl= xmlns:dc= xmlns:skos= > <skos:concept rdf:about= ark:/12148/cb > <skos:preflabel>métadonnées</skos:preflabel> <skos:definition>ensemble structuré de données créées pour fournir des informations sur des ressources électroniques</skos:definition> <skos:altlabel>données sur les données</skos:altlabel> <skos:broader rdf:resource= ark:/12148/cb /> <skos:narrower rdf:resource= ark:/12148/cb /> <skos:related rdf:resource= ark:/12148/cb c /> <skos:exactmatch rdf:resource= /> <skos:editorialnote>vocabulaire de la documentation / INTD-ER, 2004</skos:editorialNote> </skos:concept> </rdf:rdf> Il est à signaler que, dans cet exemple, en lieu et place des URI, nous avons utilisé les identifiants ARK, système d URI déployé à la Bibliothèque nationale de France, gage de pérennité mais qui présente le désavantage de ne pas être adressable.

22 22 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / SEPT Les référentiels déjà intégrés à ISIDORE Dans la phase 1 du projet (2010), les référentiels suivants ont été intégrés dans ISIDORE via l utilisation d un gestionnaire de référentiels : Le vocabulaire contrôlé Rameau mis au point et maintenu par la Bibliothèque nationale de France contient plus de notices et permet principalement aux bibliothèques d indexer les notices bibliographiques ; Les thésaurus Pactols («Peuples et cultures, Antroponymes, Chronologie relative, Toponymes, OEuvres, Lieux, Sujets») ont été mis au point pour les besoins du réseau Frantiq ; Les référentiels de HALSHS (laboratoires, domaines scientifiques, auteurs), accessibles sous la forme d un web services, sont issus de la saisie, par les chercheurs ou les documentalistes, des différentes informations, au moment du dépôt dans l archive ouverte HALSHS ; La taxinomie de calenda.org est mise au point et maintenu par le Centre pour l édition électronique ouverte (Cléo) dans le cadre d OpenEdition et pour les besoins du calendrier en sciences humaines et sociales calenda.org ; Le référentiel géographique Geonames issus du projet Geonames.org 1 ; Le référentiel chronologique des Archives de France 2. Le référentiel GEMET, thésaurus multilingue sur le thème de l environnement, servant d outil d indexation, de recherche et de contrôle pour le Centre thématique européen sur catalogue des sources de données (ETC / CDS) et l Agence européenne pour l environnement (AEE). Le référentiel GeoEthno, thésaurus géographique conçu pour l indexation géographique de documents dans le domaine de l ethnologie. 3 1 Voir : [d.c ]. 2 Voir : [d.c ]. 3 Voir :

23 CONTRIBUER À ISIDORE 1. Conditions éditoriales Le dépôt d un référentiel ou la collecte des données par ISIDORE sont conditionnés par l avis de l équipe ISIDORE qui gère le moteur au sein d Huma-Num, en relation avec le comité scientifique et le comité de pilotage de la TGIR. L équipe vérifie que les données déposées sont des données scientifiques et respectent les principes de diffusion de ces données (identification des sources, accès libres aux données, etc.). Le refus d un dépôt dans ISIDORE est toujours motivé. 2. Conditions techniques Le dépôt d un référentiel ou la collecte des données par ISIDORE sont conditionnés par l avis technique de l équipe en charge d ISIDORE. Elle vérifie que les données déposées respectent les conditions techniques énoncées dans ce document. Elle peut demander au producteur de procéder aux ajustements nécessaires pour une collecte et un traitement optimal des données par ISIDORE. 3. Synthèse sur les étapes à suivre Pour soumettre ses données à la collecte, un producteur transmet un dossier à l équipe en charge de la réalisation d ISIDORE comportant a minima : un bref descriptif scientifique des données de l entrepôt ; la technologie employée pour exposer les données (OAI-PMH, Sitemaps + RDFa, flux de syndication) ; les précisions techniques nécessaires à une collecte optimale des données (format des métadonnées, sets distincts à prendre en compte, URL du Sitemap ou du flux de syndication, format du flux de syndication...). Pour déposer un référentiel, le producteur adresse un dossier Huma-Num comportant : un bref descriptif scientifique du référentiel; un extrait du référentiel au format SKOS.

24 24 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / SEPT 2014

25 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / OCT FOIRE AUX QUESTIONS J ai une revue électronique : Question : Ma revue est sur Revues.org, est-elle dans ISIDORE? Réponse : Oui, tous les articles des revues éditées par Revues.org sont moissonnés et indexés par ISIDORE (y compris le texte intégral s il est accessible). Question : Ma revue est sur Persée, est-elle dans ISIDORE? Réponse : Toutes les descriptions (titre, auteurs, résumé s il est présent) des articles des revues éditées par Persée sont moissonnées et indexées par ISIDORE. Question : Ma revue est sur Cairn, est-elle dans ISIDORE? Réponse : Toutes les descriptions des articles des revues éditées par Cairn sont moissonnées par ISIDORE. Les articles libres de droit sont indexés (y compris le texte intégral s il est accessible). Question : Ma revue électronique n est ni sur Cairn, ni sur Persée, ni sur Revues.org. Je la diffuse moi- même avec un site utilisant un système de gestion de contenu (SPIP, Wordpress, Drupal, Joomla). Comment l ajouter à ISIDORE? Réponse : vous devez rendre accessible, en plus de votre interface web, vos articles selon l un des protocoles d ISIDORE. Vous disposez au choix : du connecteur OAI-PMH : il faut greffer un module d exposition OAI-PMH à votre outil de gestion de revue électronique (de nombreux outils de gestion ont des modules OAI- PMH). du connecteur Sitemap+RDFa en construisant un fichier XML de type Sitemap donnant accès à tous les articles selon les principes du RDFa (un article = une page web embarquant du RDFa). Je diffuse des actualités scientifiques : Question : Je signale mes événements scientifiques dans Calenda? Sont-ils indexés par ISIDORE? Réponse : Oui, ISIDORE est connecté à Calenda. Il indexe l'ensemble des événements scientifiques de Calenda, qu'ils soient passés, présents ou futurs. Question : Les actualités de mon laboratoire peuvent-elles être dans ISIDORE? Réponse : Oui, si le site web de votre laboratoire possède un flux de syndication de type RSS ou ATOM. Si c'est le cas, vous pouvez nous l'indiquer en nous contactant à l'adresse : isidore-sources@ huma-num.fr (pour les UMR du CNRS, il vous suffit d'indiquer votre flux dans Labintel, et de vérifier que l'adresse de votre site web est bien à jour).

26 26 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / SEPT 2014 Je dépose des données dans les archive ouvertes : Question : Je dépose mes articles dans HALSHS, seront-ils dans ISIDORE? Réponse : Oui, l archive ouverte HALSHS est moissonnée. Vos articles seront donc indexés et accessibles via ISIDORE Question : J ai une collection dans HALSHS. Peut-elle être présente dans ISIDORE? Réponse : Oui, les collections d articles peuvent être visibles dans ISIDORE en tant que sources. Pour cela, merci de contacter l équipe ISIDORE : isidore-sources@huma-num.fr. Question : Je dépose des images scientifiques dans l archive ouverte MédiHAL, sontelles accessibles dans ISIDORE? Réponse : Oui, MédiHAL, comme HALSHS, est moissonnée par ISIDORE. Dans le cas de Médi- HAL, les licences creative commons sont préservées. J édite des bases de données en ligne : Question : J ai une base de données de sources (archéologiques, historiques, géographiques, textuelles, sociologiques, ethnographiques, etc.) sur le web, comment les rendre disponibles dans ISIDORE? Réponse : Vous devez rendre accessibles, en plus de votre interface web, vos notices (métadonnées) et/ou vos données selon, au choix : Le connecteur OAI-PMH en greffant un module d exposition OAI-PMH à votre base de données (de nombreux outils de gestion de base de données intègrent déjà ce type de module OAI-PMH). Le connecteur Sitemap+RDFa en construisant un fichier XML de type Sitemap donnant accès à toutes les notices de votre base qui seront structurées selon les principe du RDFa (une notice = une page web embarquant du RDFa). Question : Ma base de données bibliographiques est accessible en OAI-PMH, comment peut-elle être moissonnée et indexée par ISIDORE? Réponse : En signalant votre base de données et son point de moissonnage OAI-PMH (verbe «Identify») à l équipe ISIDORE (isidore-sources@huma-num.fr). J anime le site web de mon laboratoire : Question : Le site web de mon laboratoire fonctionne avec SPIP, peut-il être indexé par ISIDORE? Réponse : Oui, grâce au connecteur sitemap+rdfa : pour cela il vous faut rendre compatible votre template avec le modèle de données RDF (en particulier avec RDFa pour <attribut>) (Cf.

27 GUIDES DE BONNES PRATIQUES / COMMENT CONTRIBUER À ISIDORE AVEC SES DONNÉES NUMÉRIQUES? / OCT Question : Le site web de mon laboratoire fonctionne avec Wordpress, peut-il être indexé par ISIDORE? Réponse : Oui, grâce au connecteur sitemap+rdfa : pour cela il vous faut RDFaiser votre site Wordpress avec des plugins (Cf. pour RDFa : et pour sitemap : Question : Le site web de mon laboratoire fonctionne avec Drupal 7, peut-il être indexé par ISIDORE? Réponse : Oui, grâce au connecteur sitemap+rdfa, Drupal 7 est nativement structuré en RDFa. Il vous suffit de construire, avec un module, un flux sitemap. Il peut être aussi moissonnable en OAI- PMH via le module Views OAI-PMH : [d.c ]. Question : Mes données et les métadonnées associées sont dans NAKALA. Peuventelles être visibles dans ISIDORE? Réponse : Oui. Les technologies mises en oeuvre dans NAKALA permettent de rendre interopérable les métadonnées, et donc de les rentre moissonnables par ISIDORE. Question : Mes données sont multilingues. ISIDORE peut-il les indexer? Réponse : Oui. En 2015 les données en langues anglaise et espagnole seront indexées par ISI- DORE.

28

CONSERVATOIRE NATIONAL DES ARTS ET METIERS. Ecole Management et Société-Département CITS INTD

CONSERVATOIRE NATIONAL DES ARTS ET METIERS. Ecole Management et Société-Département CITS INTD CONSERVATOIRE NATIONAL DES ARTS ET METIERS Ecole Management et Société-Département CITS INTD MEMOIRE pour obtenir le Titre professionnel "Chef de projet en ingénierie documentaire" INTD RNCP niveau I Présenté

Plus en détail

CONSERVATOIRE NATIONAL DES ARTS ET METIERS INSTITUT NATIONAL DES TECHNIQUES DE LA DOCUMENTATION

CONSERVATOIRE NATIONAL DES ARTS ET METIERS INSTITUT NATIONAL DES TECHNIQUES DE LA DOCUMENTATION CONSERVATOIRE NATIONAL DES ARTS ET METIERS INSTITUT NATIONAL DES TECHNIQUES DE LA DOCUMENTATION MEMOIRE pour obtenir le Titre professionnel "Chef de projet en ingénierie documentaire"intd niveau I présenté

Plus en détail

Elaboration d un système de suivi d activités : le cas du département de documentation scientifique du laboratoire pharmaceutique Servier

Elaboration d un système de suivi d activités : le cas du département de documentation scientifique du laboratoire pharmaceutique Servier Elaboration d un système de suivi d activités : le cas du département de documentation scientifique du laboratoire pharmaceutique Servier Mélina Dupont To cite this version: Mélina Dupont. Elaboration

Plus en détail

Etude pour la conception et la mise en œuvre d un intranet au SCD Lyon 1

Etude pour la conception et la mise en œuvre d un intranet au SCD Lyon 1 Élèves bibliothécaires PPP octobre 2005 Etude pour la conception et la mise en œuvre d un intranet au SCD Lyon 1 Gestion de projet Claude Berne Sous la direction de Marianne Follet Responsable TICE - ENSSIB

Plus en détail

Comment le français peut-il être encore un support efficace de l innovation dans les sciences?

Comment le français peut-il être encore un support efficace de l innovation dans les sciences? Comment le français peut-il être encore un support efficace de l innovation dans les sciences? GERFLINT Jean-Pierre Desclés 1 Université de Paris-Sorbonne, France Jean-Pierre.descles@paris-sorbonne.fr

Plus en détail

Les outils pour la mise en place d une veille documentaire en ligne

Les outils pour la mise en place d une veille documentaire en ligne Les outils pour la mise en place d une veille documentaire en ligne Le contenu de ce tutoriel est placé sous copyright de ses auteurs et sous contrat Creative Commons : Photo : New York (TL, 2009) SOMMAIRE

Plus en détail

Conception de la solution datamining d un SI bancaire

Conception de la solution datamining d un SI bancaire Avenue du Parc 95 011 Cergy-Pontoise CEDEX 17 Place des Reflets 92 097 Paris La Défense CEDEX Stage de fin d études d ingénieur Conception de la solution datamining d un SI bancaire Du 18/04/2011 au 17/10/2011

Plus en détail

Etude pour le positionnement d un centre de documentation

Etude pour le positionnement d un centre de documentation CONSERVATOIRE NATIONAL DES ARTS ET METIERS Ecole Management et Société Département Culture Information Technique et Société (CITS) INTD MEMOIRE pour obtenir le Titre professionnel "Chef de projet en ingénierie

Plus en détail

Construire et utiliser un corpus : le point de vue d une sémantique textuelle interprétative

Construire et utiliser un corpus : le point de vue d une sémantique textuelle interprétative Atelier Corpus et TAL : pour une réflexion méthodologique, Conférence TALN 99, Cargèse, 12-17 juillet 1999 Actes publiés par Anne CONDAMINES, Marie-Paule PERY-WOODLEY et Cécile FABRE, pp. 26-36. Construire

Plus en détail

LA COMMANDE DE DESIGN GRAPHIQUE

LA COMMANDE DE DESIGN GRAPHIQUE 1. Design graphique : GUIDES DE L ART CONTEMPORAIN création graphique, besoins, solution visuelle 2. Designer graphique, prestation intellectuelle, prestation de service 3. Expérience, connaissan vision,

Plus en détail

Quelle démarche qualité pour la gestion quotidienne d un intranet? Le cas du portail d entreprise OTH

Quelle démarche qualité pour la gestion quotidienne d un intranet? Le cas du portail d entreprise OTH CONSERVATOIRE NATIONAL DES ARTS ET METIERS INSTITUT NATIONAL DES TECHNIQUES DE LA DOCUMENTATION MEMOIRE pour obtenir le DESS EN SCIENCES DE L INFORMATION ET DE LA DOCUMENTATION SPECIALISEES présenté et

Plus en détail

Qu est-ce qu un portail de BU réussi?

Qu est-ce qu un portail de BU réussi? Diplôme de conservateur des bibliothèques Mémoire d étude / janvier 2014 Qu est-ce qu un portail de BU réussi? Jean-Baptiste Vaisman Sous la direction de Dominique Wolf Directrice du Service Commun de

Plus en détail

Recommandations pour les entreprises qui envisagent de souscrire à des services de Cloud computing

Recommandations pour les entreprises qui envisagent de souscrire à des services de Cloud computing Recommandations pour les entreprises qui envisagent de souscrire à des services de Cloud computing D un point de vue juridique, la CNIL constate que le Cloud computing soulève un certain nombre de difficultés

Plus en détail

QU EST-CE QU UNE NOTICE SUR LES FONDS MARC ET POURQUOI EST-ELLE SI IMPORTANTE?

QU EST-CE QU UNE NOTICE SUR LES FONDS MARC ET POURQUOI EST-ELLE SI IMPORTANTE? QU EST-CE QU UNE NOTICE SUR LES FONDS MARC ET POURQUOI EST-ELLE SI IMPORTANTE? De nos jours, il est impossible de lire une revue de bibliothéconomie, d'assister à une conférence pour bibliothécaires voire

Plus en détail

1. CHAPTER LIGNES DIRECTRICES POUR LE REPORTING DÉVELOPPEMENT DURABLE

1. CHAPTER LIGNES DIRECTRICES POUR LE REPORTING DÉVELOPPEMENT DURABLE 1. CHAPTER 1 LIGNES DIRECTRICES POUR LE REPORTING DÉVELOPPEMENT DURABLE TABLE DES MATIÈRES 1. INTRODUCTION 4 2. UTILISATION DU GUIDE DE MISE EN OEUVRE 6 3. PPRINCIPES DE REPORTING 8 3.1 Principes de contenu

Plus en détail

Le guide EPEC des PPP. Manuel de bonnes pratiques. En collaboration avec

Le guide EPEC des PPP. Manuel de bonnes pratiques. En collaboration avec European PPP Expertise Centre European PPP Expertise Centre European PPP Expertise Centre European PPP Expertise Centre European PPP Expertise Centre Le guide EPEC des PPP Manuel de bonnes pratiques En

Plus en détail

Livre blanc. 200 Questions pour choisir un CMS

Livre blanc. 200 Questions pour choisir un CMS Livre blanc 200 Questions pour choisir un CMS Page 2 PREAMBULE SMILE Smile est une société d ingénieurs experts dans la mise en œuvre de solutions open source et l intégration de systèmes appuyés sur l

Plus en détail

Manuel d utilisation de l ISBN

Manuel d utilisation de l ISBN Système International de Numéro Normalisé du Livre Manuel d utilisation de l ISBN Édition internationale Sixième édition Agence Internationale de l ISBN Londres 2012 La présente version du manuel d utilisation

Plus en détail

Diplôme Universitaire de Technologie GESTION DES ENTREPRISES ET DES ADMINISTRATIONS

Diplôme Universitaire de Technologie GESTION DES ENTREPRISES ET DES ADMINISTRATIONS PPN DUT GEA 2013 Diplôme Universitaire de Technologie GESTION DES ENTREPRISES ET DES ADMINISTRATIONS Option Gestion Comptable et Financière Option Gestion des Ressources Humaines Option Gestion et Management

Plus en détail

Le SI collaboratif : centralisé ou décentralisé? PAGE 12

Le SI collaboratif : centralisé ou décentralisé? PAGE 12 L exploitation du patrimoine de données : un nouveau territoire à conquérir par les DSI PAGE 6 Le SI collaboratif : centralisé ou décentralisé? PAGE 12 Les véritables enjeux économiques de la qualité interne

Plus en détail

«Informatique et Libertés» POUR L ENSEIGNEMENT DU SECOND DEGRÉ

«Informatique et Libertés» POUR L ENSEIGNEMENT DU SECOND DEGRÉ «Informatique et Libertés» POUR L ENSEIGNEMENT DU SECOND DEGRÉ Sommaire PARTIE 1 : Fiches Thématiques page 2 Fiche n 1 : Définitions des notions-clés de la loi «Informatique et Libertés» page 2 Fiche n

Plus en détail

UNE APPROCHE RENOUVELEE DES ETUDES DE SASTIFACTION

UNE APPROCHE RENOUVELEE DES ETUDES DE SASTIFACTION UNE APPROCHE RENOUVELEE DES ETUDES DE SASTIFACTION Guide pratique pour réaliser son étude de satisfaction pas à pas Ce guide est destiné aux opérationnels souhaitant réaliser une étude de satisfaction

Plus en détail

Les outils de recrutement sont-ils pertinents?

Les outils de recrutement sont-ils pertinents? Les outils de recrutement sont-ils pertinents? Alice Lagnais To cite this version: Alice Lagnais. Les outils de recrutement sont-ils pertinents?. Business administration. 2012. HAL Id:

Plus en détail

Support méthodologique pour la mise en place d un Système de Gestion de la Sécurité

Support méthodologique pour la mise en place d un Système de Gestion de la Sécurité Support méthodologique pour la mise en place d un Système de Gestion de la Sécurité Rapport intermédiaire DRA-08 Opération 1 Direction des Risques Accidentels Décembre 2001 Support méthodologique pour

Plus en détail

Les 12 rubriques d une description de fonction

Les 12 rubriques d une description de fonction Descriptions de fonction et profils de compétences au sein de l administration fédérale Les 12 rubriques d une description de fonction Manuel Juillet 2014 T ABLE DES MATIERES DESCRIPTIONS DE FONCTION DANS

Plus en détail

DU CORRESPONDANT INFORMATIQUE ET LIBERTES

DU CORRESPONDANT INFORMATIQUE ET LIBERTES DU CORRESPONDANT INFORMATIQUE ET LIBERTES Édition 2011 Sommaire AvAnt-propos page 2 Fiche n 1 - les 6 bonnes raisons de désigner un CIL page 3 Fiche n 2 - les services à disposition du CIL page 4 Fiche

Plus en détail

GUIDE SOUTENIR LE RETOUR AU TRAVAIL ET FAVORISER LE MAINTIEN EN EMPLOI UNE DÉMARCHE FACILE À SUIVRE. DES CAPSULES ViDÉO INFORMATIVES

GUIDE SOUTENIR LE RETOUR AU TRAVAIL ET FAVORISER LE MAINTIEN EN EMPLOI UNE DÉMARCHE FACILE À SUIVRE. DES CAPSULES ViDÉO INFORMATIVES LOUISE ST-ARNAUD et MARIÈVE PELLETIER Université Laval GUIDE SOUTENIR LE RETOUR AU TRAVAIL ET FAVORISER LE MAINTIEN EN EMPLOI Faciliter le retour au travail d un employé à la suite d une absence liée à

Plus en détail

Mesurer pour progresser vers l égalité des chances GUIDE MÉTHODOLOGIQUE À L USAGE DES ACTEURS DE L EMPLOI

Mesurer pour progresser vers l égalité des chances GUIDE MÉTHODOLOGIQUE À L USAGE DES ACTEURS DE L EMPLOI Mesurer pour progresser vers l égalité des chances GUIDE MÉTHODOLOGIQUE À L USAGE DES ACTEURS DE L EMPLOI Ont notamment contribué à la réalisation de cet ouvrage CNIL : Yann PADOVA, Marie-Hélène MITJAVILE,

Plus en détail

NOS AMBITIONS _ 1 proposer une offre de services réaliste et personnalisée aux demandeurs d emploi _ 1

NOS AMBITIONS _ 1 proposer une offre de services réaliste et personnalisée aux demandeurs d emploi _ 1 NOS AMBITIONS _ 1 proposer une offre de services réaliste et personnalisée aux demandeurs d emploi _ 1 ÉDITO Pôle emploi 2015, le pari de la confiance Vous avez entre les mains notre nouvelle feuille de

Plus en détail