Modélisation des métadonnées et humanités numériques Vincent Boulet Bibliothèque nationale de France Journée professionnelle FULBI 2016 22 janvier 2016
Il était une fois un bibliothécaire Des données structurées depuis 1373 Des données liées vintage depuis 1987 Des identifiants sûrs L E S C ATA L O G U E U R S E T L E S E X P E R T S Q UA L I T É - D E S D O N N É E S I N T E L L I G E N T E S, C O H É R E N T E S, L I É E S E N T R E E L L E S https://www.flickr.com/photos/bohman/4394901689
Des données structurées depuis le XIVe siècle Français 2700 Catalogue de la Bibliothèque du roi, 1373
Titre de l oeuvre Nbre de volumes Français 2700 Catalogue de la Bibliothèque du roi, 1373 langue Reliure (matière) Reliure (relief, empreintes) Reliure (fermoirs) Des données structurées depuis le XIVe siècle
Il était une fois un producteur/diffuseur/réutilisateur de métadonnées «Toutes ces choses estans ainsi disposées, il ne reste plus pour l accomplissement de ces discours, qu à sçavoir quel doit estre leur fin et usage principal : car de s imaginer qu il faille apres tant de peine et de despense cacher toutes ces lumieres sous le boisseau, et condamner tant de braves esprits à un perpetuel silence et solitude, c est mal recognoistre le but d une bibliotheque» http://gallica.bnf.fr/ark:/12148/bpt6k574562 1k http://data.bnf.fr/11917444/gabriel_naude/
Il était une fois un humaniste numérique Normalisation de notices pour se les échanger Structuration de données pour se les partager
Un exemple : les notices d autorité
Un exemple : les notices d autorité
A quoi sert une notice d autorité? Identification de manière univoque des entités cataloguées : de qui, de quoi parle-t-on? Explicitation de l implicite des notices bibliographiques Hugo, Victor (1802-1885) ISNI 0000 0001 2120 0982 Hugo, Victor ISNI 0000 0000 0100 2666 Auteur de Sabor latino 9
Données existantes : des liens, des autorités et des identifiants
Liens Identifiants pérennes Codes de relation PERSONNE OEUVRE 1xx (créateur de) INTERMARC INTERMARC FRBNF11967514 MANIFESTATION FRBNF11896956 EAD 0070 (auteur) INTERMARC FRBNF37465618
Les objectifs du contrôle d autorité (FRAD : functional requirements for authority data) trouver des informations sur les entités décrites par les données d autorité identifier confirmer que l entité trouvée correspond bien à la recherche distinguer entre des entités analogues contextualiser expliciter les relations entre les entités, ou entre une entité et un nom (par exemple : nom d alliance, pseudonyme ) justifier les choix du catalogueur (par exemple : justifier par une source une forme rejetée) Une notice d autorité n est pas une notice biographique mais fournit des données «noyau», fondamentales, réutilisables pour des usages différents Importance des identifiants pérennes (ARK) Importance des identifiants internationaux (ISNI) 12
Élargissement du rôle des autorités Identification non centrée sur une utilisation bibliographique Univoque Pérenne => identifiants pérennes référentiel pivot Laboratoires de recherche Institutions patrimoniales Gestionnaires de droits Etc
Des identifiants pivot International Standard Mondial Inter-domaine IDs Internationaux Communités spécifiqus d utilisateurs IDs operant au niveau regional/ consortium Institutions de recherche IDs locaux (chaque institution son ID système, Chercheurs z Archives Institutions danoises (ARK ID) Archives (US+) DAI Pays Bas NACO bibliothèque s membres NACO (LC + cooperative) ARK ID (fichiers autorité) Bibliothèques publiques France VIAF ID Bibliothèques et + GND (Allemagne DNB + cooperative) Allemagne bibliothèques + IdRef (ABES Universités françaises) Universités françaises bibliothèques IPI International CISAC auteurs/comp ositeurs Editeurs Gestion droits (textes) IPD International interprètes Gestion droits (auteurs, compositeurs) E X E M P L E S Gestion droits (interprètes)
ISO 27729 International Standard Name Identifier pour Identités publiques Personnes et collectivités Permet d identifier au niveau international «les individus et les organismes qui contribuent aux œuvres de création, notamment les écrivains, artistes, créateurs, interprètes, chercheurs, producteurs, éditeurs etc.» e.g.: ISNI 0000 0001 2133 4104 Périmètre universel Unique Pérenne Administré de manière centralisée Exprimé comme une URI : http://isni.org/isni/0000000121334104 www.isni.org
Les métadonnées : un trésor sur le web Des données validées Créées par un professionnel de la description de ressources Des données contextualisées Les informations sont précisées par une source et une date Pérennité des accès et citations ARK, autres identifiants Généralement l identifiant est envisagé sur le très long terme Utilisateurs tiers Tradition d une offre de services Désintéressement financier
Les défis Différentes communautés Différents besoins
Défi n 1 : vers la sortie LES DÉFIS DE LA MODÈLISATION DE DONNÉES VUS DES BIBLIOTHÈQUES
1/ que peut-on donner? Des données «noyau», neutralisées VIAF
Un exemple d utilisation de VIAF
Adaptables à divers contextes + Contexte Archives + Contexte Objet + Contexte Enluminures Info noyau + Contexte Médailles + Contexte Manuscrits + Contexte etc. + Contexte Reliures + Contexte Archives sonores 21
François Ier (roi de France ; 1494-1547) forme internationale français Informations «noyau», valables pour tout contexte Contexte Reliures Lien ARK spécifique 22
2/ Comment expliciter Nouveau code de catalogage Ambition de prendre en compte FRBR, FRAD et enjeux du Web Pas seulement la construction des noms mais l ensemble des données d autorité ce qu on donne? RDA comme référence hors du monde des bibliothèques Un code unique : traite de toutes les entités FRBR et de leurs relations Entités du Groupe 2 FRBR (les Agents) en font partie intégrante
FRBR redessine le rôle des autorités
FRBR redessine le rôle des autorités
Technologies du web sémantique Héritage des bibliothèques françaises FRBR /FRAD RDA Autres communautés culturelles et patrimoniales
Allier les concepts Boris Vian (1920-1959) Personne réelle et identité publique
3/ Comment rendre compréhensible ce qu on donne? sortir des silos et des formats spécialisés Collections numérisées (3 M) Des pages web pour les humains BnF Archives et manuscrits Catalogue général (15,3 M) Traitements automatiques : alignements, regroupements Des données structurées pour les machines
1956 Le modèle RDF http://catalogue.bnf.fr/ark:/12148/cb38935131d a pour titre Chansons possibles et impossibles a pour auteur a pour auteur http://catalogue.bnf.fr/ark:/12148/cb13091689x pseudonyme nom Vian, Boris (1920-1959) Sullivan, Vernon (1920-1959) a pour auteur http://catalogue.bnf.fr/ark:/12148/cb147208654 http://catalogue.bnf.fr/ark:/12148/cb37471336j Le déserteur a pour titre J'irai cracher sur vos tombes
Data mining à partir des données de la BnF Frédéric Glorieux, LABEX OBVIL (Paris IV) Auteurs français, éléments de démographie historique (data.bnf.fr 2015-04) https://resultats.hypotheses.org/ author/resultats A partir du dump auteurs personnes d avril 2015
Data mining
Data mining
Data mining
«Mille viae ducunt homines per saecula Romam» Alain de Lille / Alanus ab Insulis / Alanus van Ryssel ISNI http://isni.org/isni/0000000118389323 Liber Parabolarum, 591 (1175) Défis n 2 : chemins inverses INTERCONNECTER LES DONNÉES SPÉCIALISÉES AVEC LES RÉFÉRENTIELS INTERNATIONAUX
Accélérer l aller-retour Bases IRHT Autorités contre 8000 noms 3000 trouvés à la BnF 900 trouvés dans VIAF hors BnF Que faire des 4100 noms restants?
Mise en relation des données Tours, Bibl. mun., ms. 0572
Déterminer une politique : quel référentiel choisir? Ne pas opposer les référentiels généralistes et spécialisées Une articulation à trouver en tenant compte de l intégration de la source / des sources à l écosystème national et international S assurer de la cohérence des politiques source/usager
Vers un référentiel national d autorités? Contours / Besoins visés / Dialogue technique? Politique de qualité / pratiques mises en cohérence Persée DILA ABES ID-Ref Archives nationales BnF
Déterminer une politique : quelle modélisation choisir?