Utilisation du serveur OAI-PMH de STAR Version : 10-01-2012
Table des matières 1. Le protocole OAI-PMH...1 2. Pourquoi utiliser le serveur OAI-PMH de STAR?...2 2.1. Pour disséminer les métadonnées...2 2.2. Pour récupérer les métadonnées...2 2.3. Les limites...2 3. Accès au serveur OAI-PMH de STAR...4 3.1. Comment récupérer le fichier thèse?...4 4. Panorama des transactions possibles : verbes OAI...6 4.1. IDENTIFY :...6 4.2. LISTMETADATA FORMATS...6 4.3. LISTSETS...6 4.4. LISTIDENTIFIERS...7 4.5. GETRECORD...7 4.6. LISTRECORD...7 ii
Chapitre 1. Le protocole OAI-PMH Le réservoir OAI-PMH de STAR met à la disposition de l'ensemble de la communauté les métadonnées descriptives des thèses électroniques soutenues en France et validées dans STAR, avec ou sans le lien vers le texte intégral (en cas de confidentialité). OAI-PMH (Open archives initiative protocole for metadata harvesting) vise à demander de l information à travers quelques requêtes à un serveur d archives ouvertes. Les échanges se font du client vers le serveur. Attention, ce n est pas un protocole de recherche. Il n y a pas d interface compréhensible pour un humain. Les opérations sont limitées : on s intéresse à un différentiel, à ce qui a «poussé» entre telle et telle date par exemple. 1
Chapitre 2. Pourquoi utiliser le serveur OAI-PMH de STAR? 2.1. Pour disséminer les métadonnées Le serveur OAI-PMH de STAR doit être déclaré sur votre moteur de recherche OAISTER. 2.2. Pour récupérer les métadonnées Le serveur récupère : les métadonnées de son établissement aux formats souhaités. Par analogie avec le Sudoc, le protocole OAI-PMH permet d assurer des transferts réguliers de métadonnées. les métadonnées des autres établissements en fonction des points de vue possibles prévues par le serveur (exemple : les disciplines) 2.3. Les limites Le protocole ne concerne que les métadonnées, pas les documents. L organisation de la «collection» est définie a priori. Ont été définis : une entrée par établissement de soutenance ; une entrée par grand domaine disciplinaire tef:oai_setspec. Une entrée pour les thèses diffusables en texte intégral 2
Le client ne peut pas croiser les «sets». Exemple : Si le set «toutes les thèses de Nancy 2 en théologie chrétienne» n existe pas, le client ne pourra pas demander les métadonnées correspondantes. Pour plus de détails sur les «sets OAI» disciplinaires voir le site TEF : http://www.abes.fr/abes/documents/tef/recommandation/oai_sets.html 3
Chapitre 3. Accès au serveur OAI-PMH de STAR Le serveur OAI-PMH de STAR est accessible à l adresse suivante, incluant la gestion des resumption tokens : http://staroai.theses.fr/oaihandler Les données du serveur OAI-PMH de STAR sont des données réelles : ce sont les thèses désignées par leur établissement pour être «moissonnables», qui sont passées par l'application STAR, qui sont archivées au CINES et qui sont signalées dans le Sudoc. Les données sont présentées à travers trois types de sets : les établissements habilités à délivrer des diplômes de doctorat les disciplines, en fonction des codes <tef:oai_setspec> (codes eux-mêmes basés sur les grandes classes de la Classification Dewey) la diffusion en texte intégral des thèses Vous pouvez récupérer les données dans les formats suivants : Dublin Core TEF Pour la validation de notre serveur nous avons utilisé le validateur http://re.cs.uct.ac.za/ 3.1. Comment récupérer le fichier thèse? 4
Pour récupérer les fichiers de la thèse décrit dans les métadonnées, votre client OAI doit : 1- Récupérer les métadonnées au format TEF 2- Ouvrir ces métadonnées afin d'y retrouver l'url d accès de la thèse 3- Utiliser cette URL (via une requête http) pour récupérer le fichier de thèse. 5
Chapitre 4. Panorama des transactions possibles : verbes OAI 6 échanges sont possibles : 6 «verbes». 4.1. IDENTIFY : le client demande au serveur : Qui es tu? Qu as-tu à m offrir? Le serveur de STAR répond : voilà mon nom, mon URL, je peux t offrir l accès aux métadonnées de thèses électroniques telles que validées par les jurys pour les établissements qui ont changé de mode de dépôt légal des thèses http://staroai.theses.fr/oaihandler?verb=identify 4.2. LISTMETADATA FORMATS le client demande au serveur : quelle langue parles-tu? dans quels formats peux-tu me donner ce que je te demande? le serveur de STAR répond : je suis multilingue : ma langue maternelle est le Dublin Core, mais je peux parler aussi TEF, MarcXML http://staroai.theses.fr/oaihandler?verb=listmetadataformats 4.3. LISTSETS le client demande au serveur : Comment es-tu organisé? Comment vais-je retrouver un document dans tes rayonnages virtuels? le serveur de STAR répond : ma collection est organisée selon différents 6
points de vue. Par exemple, je m intéresse à l établissement de soutenance : il y a un ensemble (un «set») par établissement de soutenance. Je m intéresse aussi aux disciplines scientifiques : il y a un set par code disciplinaire. http://staroai.theses.fr/oaihandler?verb=listsets 4.4. LISTIDENTIFIERS le client demande au serveur : donne-moi les identifiants des thèses de Nancy 2, au format Dublin Core le serveur de STAR répond : voilà la liste demandée. Dedans, il y a notamment la thèse 2007NAN20015 http://staroai.theses.fr/oaihandler?verb=listidentifiers&metadataprefix=oai _dc&set=nan2 4.5. GETRECORD le client demande au serveur : donne-moi le contenu des métadonnées de la thèse 2007NAN20015 en TEF le serveur de STAR répond : voilà le contenu en TEF http://staroai.theses.fr/oaihandler?verb=getrecord&identifier=2007nan2 0015&metadataPrefix=tef 4.6. LISTRECORD le client demande au serveur : je suis déjà venu le 1 er janvier 2011. Donnemoi tout ce que tu as de neuf concernant les dépôts effectués par 7
Version : 10-01-2012 l Université de Tours http://staroai.theses.fr/oaihandler?verb=listrecords&metadataprefix=tef&s et=inpl&from=2011-01-01t00:00:00z&until=2011-01-25t00:00:00z le serveur de STAR répond : j en ai 139 à te donner. Voilà le contenu des 100 premiers et un jeton (resumptiontoken) pour recevoir les 39 suivants. <resumptiontoken expirationdate="2011-01-27t16:23:38z" completelistsize="139" cursor="0">1296141818618</resumptiontoken> le client demande au serveur : voilà le jeton pour recevoir les 39 suivants. http://staroai.theses.fr/oaihandler?verb=listrecords&resumptiontoken=12 96141818618 le serveur de STAR répond : voilà le contenu des 39 suivants. C est terminé. Important : noter que le resumptiontoken change à chaque nouvelle requête. Pour parcourir une liste de plus de 100 résultats, un programme doit aller chercher le «jeton» renvoyé dans la réponse xml, et le renvoyer à nouveau pour obtenir la suite de la liste. Vous retrouverez dans le manuel «Les verbes OAI disponibles» le détail des 6 verbes OAI avec quelques déclinaisons de formats, de choix de date ou de sélections par sets OAI. 8