Access e-helvetica AAS Association des Archivistes suisses Journée professionnelle, 20 mai 2011 Hansueli Locher Bibliothèque nationale suisse hansueli.locher@nb.admin.ch Contenu La Bibliothèque nationale suisse Le programme e-helvetica Le projet Access e-helvetica 2 1
Bibliothèque nationale suisse (1) Fondée en 1895 Sise à Berne Etat des collections : 5,2 millions d unités (2010) Croissance annuelle : 50 000-60 000 unités Collection : Tout sur la Suisse" Particularités : collection générale, Archives littéraires suisses, Cabinet des estampes Mandat : préservation du patrimoine écrit (imprimé et numérique) de la Suisse, contribution à l identité et à l histoire de la nation 3 Bibliothèque nationale suisse (2) Mandat de la BN (Art. 2, LBNS) : La Bibliothèque nationale a pour mandat de collectionner, de répertorier, de conserver, de rendre accessible et de faire connaître les informations imprimées ou conservées sur d autres supports que le papier ayant un lien avec la Suisse. Pas de dépôt légal; convention sur le dépôt gratuit entre la BN et l Association suisse des librairies et des éditeurs La BN a démarré le programme e-helvetica afin de remplir son mandat dans le domaine électronique 4 2
Programme e-helvetica Le programme e-helvetica a pour but la création d une collection électronique à la BN L objectif du programme e-helvetica est de collectionner, cataloguer, mettre à disposition et archiver à long terme les Helvetica électroniques de tous types et de mettre sur pied un système d archivage Durée du projet: 2001-2011, puis exploitation 9 collaboratrices/collaborateurs qui se partagent 380 % 5 Publications commerciales Archives numériques BN Réalisation 2012 Preservation planning Réalisation 2011 Thèses et habilitations Data Management Ingest Access Sites web Archival Storage Administration Publications officielles Réalisé Réalisé Réalisé 6 3
Projet Access (1) Objectifs: Accès convivial aux publications électroniques et numérisées pour les utilisateurs Recherches qualifiées dans les métadonnées Recherches plein texte dans les documents Gestion des droits d accès Accès aux métadonnées via OAI-PMH pour les partenaires 7 Projet Access (2) Début du projet en 2008 Cahier des charges élaboré avec le soutien d IBM Attribution des travaux à l Office fédéral de l informatique et de la télécommunication (OFIT) Analyse préliminaire/concept OFIT: fin 2009 Réalisation en 3 étapes à partir de mars 2010 étape 1: interface utilisateur, gestion des autorisations, accès direct aux objets par la signature étape 2: toutes les fonctionnalités utilisateurs, recherche plein texte étape 3: fonctionnalités d administrateur, OAI-PMH 8 4
Data Mgmt Cache AW Storage Low Cost Index plein texte Cache Helveticat Architecture Access IdM CMS 9 Interface utilisateur (1) Recherche plein texte simple Recherche plein texte élargie par type de publication Formulaire de recherche Listes d occurrences Information détaillée Recherche dans Helveticat Affichage des publications (Viewer) PDF Wayback Machine pour les sites web 10 5
Interface utilisateur (2) Basée sur le navigateur web Mise en page de base prescrite par l Administration fédérale Défi: adaptation aux besoins des handicapés Intégrer les contenus du CMS (blocs de texte, textes d aide) 11 12 6
13 14 7
15 16 8
17 18 9
Gestion des autorisations Gestion des utilisateurs par un système externe central (travaux préparatoires pour le single sign on) Utilisateurs rôles autorisations d accès Stations d information avec cookie pour un accès élargi Salle de lecture BN Salles de lecture des bibliothèques partenaires L usage abusif de cookies est enregistré Intégralité des archives web accessible ou bloquée 19 Accès aux données Recherche plein texte Recherche dans les métadonnées Gestion des droits d accès Low Cost Storage Archive à long terme Cache Wayback Cache Archives Web 20 10
Indexation plein texte (1) Solr/Lucene pour la saisie plein texte Plurilinguisme = défi pour une indexation optimale, la langue d un document doit être établie avant l indexation Langue par défaut pour les publications multilingues Liste d occurrences à deux niveaux Premier niveau: affichage de la publication Deuxième niveau: affichage des documents avec occurrences 21 Indexation plein texte (2) Publication 1 Document 1 (26 occurrences) Publication 2 Document 2 (3 occurrences) Document 1 (24 occurrences) Document 2 (20 occurrences) 22 11
Indexation plein texte (3) Paramétrage de l indexation plein texte et de la recherche Exemple: décomposition des mots composés en allemand Hausbau -> haus aus bau Il y aura aussi des occurrences pour Ausbau, Bauhaus 23 Métadonnées Métadonnées bibliographiques Autorisations d accès Facettes (lieu de publication, type de publication, langue, année de parution) Tailles du fichier Chemin indiquant l emplacement de stockage 24 12
Considérations finales Access doit s intégrer dans un environnement existant (structure des métadonnées, composantes et systèmes environnants) Access est un mélange d instruments existants (Wayback Machine, Solr/Lucene, IdM) et de nouveaux développements (interface utilisateur, gestion des autorisations) Access a été vécu comme une partie de la gestion de la qualité Deux qualités spéciales par rapport aux systèmes d accès existants Solr/Lucene pour l indexation plein texte (pas courant pour les archives web, mais va venir) un système pour tous les types de publications (archives web souvent à part) 25 26 13