Journée d'études MEDIAL : les catalogues nouvelle génération Les catalogues de bibliothèques sur le Web Emmanuelle Bermès Bibliothèque nationale de France 8 juin 2009
1. Théorie des catalogues 2. Principes des moteurs de recherche Problématique : porter les données des bibliothèques sur le Web 3. Forces et faiblesses des données des bibliothèques 4. Réconciliation des bibliothèques et du Web
Fondements théoriques des catalogues Charles Ammi Cutter (1837-1903, USA) Cutter, Charles A. Rules for a Dictionary Catalog. - 4th ed., rewritten. - Washington, D.C. : Government printing office, 1904 Shiyali Ramamrita Ranganathan (1892-1972, Inde) Ranganathan, Shiyali Ramamrita. The five laws of library science. Madras : Madras Library Association ; London : Edward Goldston, 1931 Numérisé et disponible en ligne : <http://dlist.sir.arizona.edu/1220>. Seymour Lubetzky (1898-2003, USA) Lubetzky, Seymour. Principles of Cataloguing : Final Report. Phase I, Descriptive Cataloging. - Los Angeles, Calif. : University of California, Institute of Library Research, 1969 Elaine Svenonius (1933-..., USA) Svenonius, Elaine. The Intellectual Foundation of Information Organization. Cambridge, Mass. : MIT Press, 2000
Impact des 5 lois de Ranganathan (1931) sur le catalogue Les livres sont faits pour être utilisés : exhaustivité du catalogage À chacun son livre, À chaque livre son lecteur : éviter le bruit et le silence Il faut épargner le temps du lecteur : Le lecteur ne doit pas avoir à demander à consulter un document pour savoir s il répond ou non à ses besoins ; c est au catalogue de s en charger. Le lecteur ne devrait pas avoir à mener de longues recherches bibliographiques avant d interroger le catalogue. La bibliothèque est un organisme en croissance : enrichissement du catalogue et des liens entre les anciens documents et les nouveaux.
Structure des catalogues actuels Fichier d autorité Fichier bibliographique Données d exemplaire John Ford ou John Ford? Frédéric Dard ou San Antonio? IDHEC ou FEMIS? Story-boards ou Scénarimages? Le Grand Bleu version longue ou version courte? En DVD ou en VHS? Avec ou sans bonus? Il est en bon état? Quelle cote dois-je demander pour le consulter?
«Trouver» Idée qu'il est nécessaire de répondre à un besoin, une question précise Problématique : Des documents dont on connaît le titre, l'auteur, le sujet ou d'autres caractéristiques imaginer en amont toutes les caractéristiques qui peuvent être demandées par un utilisateur les rendre identifiables (sans ambigüité) Définition de la notion de points d'accès Qui débouche dans les catalogues informatisés sur les fichiers d'autorité
«Localiser / colocaliser» Le catalogue comme un outil local Est-ce que la bibliothèque X possède cet ouvrage? Que possède la bibliothèque X sur le même sujet / par le même auteur etc.? Utilisation du catalogue comme un outil de gestion Où se trouve ce document? Est-il en bon état? Est-il disponible? Données d'exemplaires, données locales
«Choisir» Le catalogue, une collection de descriptions Choisir c'est... confirmer que ce qui est décrit correspond à ce qu on cherche ou bien, établir une distinction entre des entités qui présentent des caractéristiques analogues Certaines informations sont purement descriptives
Irruption du Web... Règne du bruit Règne du plein texte Règne du document primaire Autonomie de l'usager?
Architecture fonctionnelle d'un moteur de recherche Source A Interface de recherche indexation INDEX indexation requêtes résultats Source B indexation Source C Interface de consultation
Exploitation de l'information structurée par les moteurs de recherche Du côté de l'indexation Pondération par champs Du côté de l'interface d'accès Recherche avancée Navigation par facettes
Est-il encore utile de structurer l'information? Méthodes statistiques La structuration peut être déléguée à des outils Méthodes sémantiques Méthodes linguistiques
Bilan La délégation de la structuration à un outil fonctionne si... Le matériau (textuel) est abondant Le matériau est homogène On surveille constamment l'outil L'utilisateur (expert) peut être déstabilisé
Retour à la bibliothèque... Caractéristique du matériau Hétérogène - encyclopédique Précision vs. Masse Finement structuré Caractéristique des usagers Pas un usager mais des usages Il faut répondre aux usages experts aussi bien qu'aux usages de découverte -> tension? http://www.flickr.com/photos/juhansonin/3254322054
Forces et faiblesses des formats MARC Les forces : Finement structuré Sépare le fond et la forme Les faiblesses Rigide Pas de modèle (modèle inventé a posteriori : FRBR=1998!)
Que change XML? Passage des formats MARC vers XML en agissant sur la structure : passage de ISO 27.09 à MarcXchange En agissant sur la syntaxe : MODS En dehors de la sphère MARC : Dublin Core, EAD, etc. http://www.flickr.com/photos/aparejador/2381158753/
Que change XML? Force Une syntaxe plus souple Granularité Structuration adaptée au contexte facilite les conversions Faiblesse Toujours le même modèle (modèle de l'arbre) 1 notice = 1 document
Retour sur le Web... Les catalogues sur le Web...... une opération de surface?
Opac Web - 1998 Le web profond ou web invisible (en anglais deep web) est la partie du web accessible en ligne, mais non indexée par des moteurs de recherche classiques généralistes.
Des silos de données cachées Des silos de données inaccessibles pour l'architecture du Web (pas d'url, pas de liens) Protocoles spécifiques aux bibliothèques : Z39.50, SRU-SRW, OAI-PMH Web services, API Web http://www.flickr.com/photos/l ibrary_of_congress/2178285 893
Côté utilisateurs : Revoir les règles de catalogage (ISBD/AACR -> RDA) Prendre acte du modèle FRBR Rénover les interfaces (Web 2.0) Il faut réconcilier la bibliothèque et le Web Côté machines : Revoir la syntaxe Prendre acte du modèle FRBR Adopter l'architecture du Web vers le Web sémantique
Réconcilier la bibliothèque et le Web Étape 1. Revoir les règles de catalogage Revoir la syntaxe Prendre acte des FRBR
1990 SYNTAXE (encodage) FORME STRUCTURE (notices) Iso 2709 MARC MODELE Vers demain SYNTAXE (noms des éléments) CONTENU STRUCTURE (règles de catalogage) MODELE MARC ISBD AACR 2
1990 SYNTAXE (encodage) FORME STRUCTURE (notices) Iso 2709 MARC 2000 XML MARCXML, MODS DC simple, DC qualifié MODELE SYNTAXE (noms des éléments) CONTENU STRUCTURE (règles de catalogage) MODELE Dublin Core abstract Model DC terms MARC ISBD AACR 2 FRBR Vers demain
1990 SYNTAXE (encodage) FORME STRUCTURE (notices) Iso 2709 MARC 2000 XML CONTENU STRUCTURE (règles de catalogage) MODELE RDF/XML MARCXML, MODS DC simple, DC qualifié MODELE SYNTAXE (noms des éléments) 2010 RDF Dublin Core abstract Model DC terms MARC ISBD AACR 2 FRBR RDA Vocabulary RDA Vers demain
La galaxie des normes de catalogage en mutation 2008 : FRBR-OO (orienté objet) Rapprochement avec le CIDOC-CRM Précise certaines classes et relations Première modélisation en RDF 2008 : Principes internationaux de catalogage de l'ifla Élaborés pour les catalogues en ligne Couvrent tous types de documents Premier principe : respect du confort des utilisateurs 2009 : ressource Description and Access (RDA) Nouvelles règles destinées à remplacer les AACR Correspondance étroite au modèle FRBR Structuration proche des modèles orientés objet
FRBR + RDA : nouvelle structure des catalogues Des notices liées entre elles pour les différentes entités Œuvre Concept Personne Etc... Affichage suivant le modèle FRBR Structure œuvre / expression / manifestation / item Relation avec les personnes et autres entités Extrait de : B. Tillett. Resource Description and Access Overview. IFLA Satellite Conference on RDA, Québec, 2008
Les données Faire exploser la notice... http://www.flickr.com/photos/mukluk/507307220/
Exemple
date 1956 Le modèle RDF http://catalogue.bnf.fr/ark:/12148/cb38935131d titre auteur http://catalogue.bnf.fr/ark:/12148/cb13091689x Chansons "possibles" et "impossibles" auteur pseudonyme auteur nom Vian, Boris (1920-1959) partie 1948 Sullivan, Vernon (1920-1959) date http://catalogue.bnf.fr/ark:/12148/cb147208654 titre [Le déserteur] http://catalogue.bnf.fr/ark:/12148/cb374841 titre J'irai cracher sur vos tombes
Réconcilier la bibliothèque et le Web Étape 2. Adopter l'architecture du Web Rénover les interfaces
Principes du «Linked Data» Utiliser des URIs pour nommer les ressources Utiliser des URIs accessibles via HTTP Quand quelqu'un demande une URI, lui renvoyer des données utiles en RDF Proposer des triplets faisant le lien vers d'autres URI, afin de faire le lien avec d'autres ressources Principes du Linked Data d'après Tim Berners-Lee
1. des URI pour nommer les ressources http://catalogue.mabibliotheque.fr/recherche.php? id=&act=8&rec=&auto=0&nov=1&t0=boris+vian&i0=0&s0=6&v2=0&v3=0&v4=0&sy=&e y=&scr=1&line=&lgc=1&lg=&mdc=1&md=&coc=1&co=&dac=1&act=42&rec=21144393 20&line=0 + = Notice n : FRBNF38935131 http://catalogue.bnf.fr/ark:/12148/cb38935131d
2. Des URI accessibles via HTTP Ressource Identifiant Description dans le catalogue de la BnF de l'édition de 1948 de «J'irai cracher sur vos tombes» de Boris Vian http://catalogue.bnf.fr/ark:/12148/cb3 Représentations
3. Renvoyer des informations utiles en RDF URI RDF/XML RDF/N3... HTML Négociation de contenu catalogue
4. se relier à d'autres ressources
Les bibliothèques dans le Linked Data Vocabulaires Dublin Core Metadata Terms http://purl.org/dc/terms/ Autorités VIAF http://viaf.org/9983585 http://authorities.loc.gov Rameau http://stitch.cs.vu.nl/rameau Catalogues Libris http://libris.kb.se/
Un exemple : DBPedia Mobile
Un autre exemple : BBC music Beta
Les 3 âges des catalogues de bibliothèques sur le Web Données Web Données Web Données Web Données de bibliothèques Opac Web : seulement un accès de surface à un silo de données invisible 1990's Données de bibliothèques Next gen' Catalogue : fonctionnalités Web 2.0 + APIs pour rendre les données visibles 2000's Données de bibliothèques Web Catalogue : catalogue entièrement conforme à l'architecture du Web 2010's?
Extrait de : Tim Berners Lee, linked data, conférence TED 2009