Journée d'étude du GFII : "Données culturelles et Linked Open Data" 26 mars 2013 La stratégie d'exposition des catalogues de la BnF sur le web de données : data.bnf.fr Gildas ILLIEN Bibliothèque nationale de France Directeur du département de l information bibliographique et numérique Romain WENZ Bibliothèque nationale de France Responsable de data.bnf.fr au département de l information bibliographique et numérique
Plan De l importance des métadonnées Missions, contexte et motivations Les objectifs de data.bnf.fr La fabrique de data.bnf.fr Limites et bénéfices observés Questions/réponses
De l importance des métadonnées Des catalogues aux (méta)données d une logique d applications et de documents à une logique de données Les métadonnées descriptives, techniques, administratives, sociales sont des clés essentielles au fonctionnement d une bibliothèque Les métadonnées des bibliothèques : un trésor à partager que révèle le Web sémantique
Missions et motivations pour le Linked Open Data Missions de service public Dépôt légal et bibliographie nationale Signaler le patrimoine, être opérateur des politiques publiques culturelles Un constat : concurrence des moteurs du Web et sous-utilisation des catalogues Motivations et contexte: Une nécessité économique : faire plus avec moins implique de faire ensemble Une incitation gouvernementale: data.gouv.fr Une opportunité d innover et de mutualiser
Principales implications Lier les données pour permettre leur interopérabilité et les insérer dans la structure et les usages du Web En transformant des données structurées par et pour les bibliothèques (MARC) selon les standards du Web sémantique Ouvrir les données Techniquement Juridiquement
Data.bnf.fr : Grands objectifs Être plus visible. L enjeu du référencement Être cohérent, être uni. Problématique de la fédération de silos de données de structures différentes Être économe et généreux à la fois. Se lier à d autres données de confiance Se concentrer sur sa valeur ajoutée propre Être plus utile. Encourager les réutilisations
Des licences ouvertes Périmètre : les métadonnées dont la BnF est productrice Les données aux formats historiques (MARC) sont toujours soumises à redevance si réutilisation commerciale Les données au format RDF issues de data.bnf.fr sont sous licence d Etat (Etalab)
Data.bnf.fr : le projet Un marché public, avec Logilab Une méthode de développement agile Une attention particulière aux dimensions métier, innovation et changement Un logiciel libre : CubicWeb Quelques jalons : 2009: début de l instruction 2011 : lancement d une preuve de concept 2012 : 10% des catalogues 2013 : 20% des catalogues un service.
La fabrique de data.bnf.fr Collections numérisées (2M) pages Web pour les humains BnF Archives & Manuscrits Catalogue général (12 M) données structurées pour les machines
La fabrique de data.bnf.fr (1) Structure FRBR, autorités, Regroupement par «Œuvres» Identifiants Exposer la source Les formats RDF Les moteurs et schema.org
La fabrique de data.bnf.fr (2) Complémentarité Données hétérogènes Usages complémentaires Création automatique de liens R&D reverser à la source Avoir droit à l'erreur
En ligne http://data.bnf.fr/11952658/dante_alighieri_la_divine_comedie/ Dates http://data.bnf.fr/what-happened/date-1515 Rôles des auteurs http://data.bnf.fr/11890041/honore_de_balzac/#allmanifs Liens entre auteurs http://data.bnf.fr/11924607/william_shakespeare/#other-pages-datab
La fabrique de data.bnf.fr (3) Valeur ajoutée S adapter aux usages du Web Utiliser les liens pour créer des connaissances Dates Auteur reliés Géographie Des outils nouveaux qui font parler les données : algorithmes et regroupements
Limites et bénéfices Pas de bon RDF sans bonnes données sources : il n y a pas de magie. Adolescence et identité : lever les malentendus sur ce que data.bnf.fr est et ce qu il n est PAS Données riches et obscures, données pauvres et accessibles : placer le curseur au centre ou proposer plusieurs chemins? Données personnelles et autorités : un questionnement
Limites et bénéfices Chiffres clés: 20% des notices de catalogues BnF (3.6 M documents) +70 000 visiteurs uniques par mois +80% issus des moteurs de recherche 50-70% de conversion (vers Gallica et catalogues) Bénéfices applicatifs : autorités, identifiants (ARK, ISNI ) : l exposition engage la mutation Valorisation de communautés métier qui doutent Des prix (prix Stanford, Data intelligence awards )
Vocabulaires publiés
OpenCat https://demo.cubicweb.org/library/
Merci gildas.illien@bnf.fr romain.wenz@bnf.fr Projet: data@bnf.fr