Quelques applications Open Source pour l archivage numérique



Documents pareils
Journée Swets. Garantir l accès durable aux revues électroniques et e-books, est-ce possible?

Logiciels libres de Bibliothèques numériques : présentation. Castore & Greenstone. Les autres : CDS Invenio, EPRINTS, Dspace.

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) JRES Novembre 2007

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) Rencontres RNBM 3 Octobre 2007

Les répertoires de formats

La fédération d identités, pourquoi et comment? Olivier Salaün, RENATER ANF Mathrice 2014

Archivage à long terme des données de la recherche scientifique

Solution de stockage et archivage de grands volumes de données fichiers.

Jean Sykes Nereus, la collaboration européenne, et le libre accès

Système de Stockage Sécurisé et Distribué

Un serveur d'archivage

Bibliothèque numérique de l enssib

NOVA BPM. «Première solution BPM intégr. Pierre Vignéras Bull R&D

Constat ERP 20% ECM 80% ERP (Enterprise Resource Planning) = PGI (Progiciel de Gestion Intégré)

Fiche Technique Windows Azure

Conservation des données à long terme

Compte-rendu re union Campus AAR 3 mars 2015

StratusLab : Le projet et sa distribution cloud

4D WebStar. WebStar, leader des serveurs internet sur Macintosh. Olivier Deschanels Simil Guetta Doug Finley. 4D WebStar. Histoire de WebStar

Réseaux sociaux de chercheurs : quels enjeux et quelle politique pour une institution publique de recherche

+ = OpenStack Presentation. Raphaël Ferreira - enovance. Credits : Thanks to the OpenStack Guys 1

Présentation de la solution Open Source «Vulture» Version 2.0

VOTRE POLITIQUE D'ARCHIVAGE EST-ELLE ADAPTÉE? Démarche projet. Alain Le Corre, Responsable de Marché, Gestion de l information

Fonctions. Solution professionnelle pour le stockage de données, la synchronisation multi- plateformes et la collaboration

La présentation qui suit respecte la charte graphique de l entreprise GMF

Infrastructure / réseau / sécurité /support utilisateur

Adaptabilité d un MOOC aux styles d apprentissage. Hubert Kadima Directeur de Recherche LARIS/EISTI hubert.kadima@eisti.fr

Systèmes d'informations historique et mutations

Un business model d éditeur open source

CATALOGUE DE LA GAMME EASYFOLDER OFFRE GESTION DE CONTENUS NUMERIQUES

Université de Lausanne

Archivage intermédiaire de données Scientifiques ISAAC Information Scientifique Archivée Au Cines

NFS Maestro 8.0. Nouvelles fonctionnalités

Ministère de la Culture et de la Communication

OPEN ACCESS. ouverte INP Toulouse

Présentation SafeNet Authentication Service (SAS) Octobre 2013

Cycle de conférences sur Cloud Computinget Virtualisation. Cloud Computing et Sécurité Pascal Sauliere, Architecte, Microsoft France

ISTEX, vers des services innovants d accès à la connaissance

La virtualisation, si simple!

mieux développer votre activité

Jahia. Guillaume Monnette École Ingénieurs 2000 Marne-La-Vallée IR3

Grid 5000 : Administration d une infrastructure distribuée et développement d outils de déploiement et d isolation réseau

Archivage numérique pérenne

Oracle Maximum Availability Architecture

Le projet SIST. Internet et Grilles de calculs en Afrique Agropolis- Montpellier Décembre 2007

Présentation aux entreprises du numérique

Messagerie & Groupeware. augmentez l expertise de votre capital humain

25 septembre Migration des accès au Registre national en protocole X.25 vers le protocole TCP/IP, pour les utilisateurs du Registre national

Veeam Backup & Replication v6

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

IBM Tivoli Compliance Insight Manager

Atelier 1. Portails documentaires : BioLib et Cemadoc

ZABBIX est distribué sous licence GNU General Public License Version 2 (GPL v.2).

Gestion des accès, fédération d identités. Olivier Salaün - RENATER

Introduction MOSS 2007

Zimbra Forum France. Montée en charge et haute disponibilité. Présenté par Soliman HINDY Société Netixia

«Les documents référencés ci-dessus étant protégés par les droits d auteur et soumis à la déclaration au Centre Français d exploitation du droit de

Le signalement des acquisitions numériques à l échelle nationale Le rôle du hub de métadonnées scénarios et prototype

RELEASE NOTES. Les nouveautés Desktop Manager 2.8

Le portail des MSH

Montée de Version SAP en environnement Solaris 10 TEMOIGNAGE Client

SAP Extended ECM. Application Governance & Archiving for SharePoint. Marc WOLFF Associé fondateur Certified CDIA+

OpenStack Le cloud libre. Thierry Carrez Release Manager, OpenStack

Angela Repanovici Université Transilvania de Brasov Brasov, Roumanie

Introduction aux services de domaine Active Directory

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Présentation du cadre technique de mise en œuvre d un Service d Archivage Electronique

«Ré-inventer le browser d'entreprise pour assurer sa sécurité au coeur du Cloud Computing»

MODE D'EMPLOI. La gestion des versions permettra de compléter et de faire évoluer les fiches dans le temps. NOM DE LA RESSOURCE CONTACT FOURNISSEUR

JOnAS 5. Serveur d application d

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Le Cloud Computing et le SI : Offre et différentiateurs Microsoft

Magento. Pratique du e-commerce avec Magento. Christophe Le Bot avec la contribution technique de Bruno Sebarte

Fiche Produit MediaSense Extensions

Déterminer les enjeux du Datacenter

PRÉSENTATION DE LOGICIELS DE GESTION DE RÉFÉRENCES BIBLIOGRAPHIQUES

Hands on Openstack : Introduction

Présentation générale du projet data.bnf.fr

RCE/OXO Nouveautés DECEMBRE ici ici ici ici

Votre infrastructure est-elle? La collaboration informatique. améliore la performance globale

Filière métier : Administrateur Virtualisation

Archives Ouvertes : retour d expérience et rôle des documentalistes

L analyse documentaire : Comment faire des recherches, évaluer, synthétiser et présenter les preuves

! " # $ % & OPN Day Paris 14 mars 2006

Journées ABES-26 mai 2009 [ ] [ Fédération Nancy-Université]

Architectures informatiques dans les nuages

Codes attribués par l'abes pour identifier les bouquets en vue de l'exemplarisation automatique

Cours 13. RAID et SAN. 2004, Marc-André Léger

Développement d'applications Web HTML5 L'art et la manière avec Visual Studio 2015 et TFS

Livre blanc. Le 3 Heights Scan to PDF Server : bases et utilisation

Plan. Un modèle d organisation. Pour les Archives numériques. Présentation Groupe PIN. Claude HUC (CNES)

Introduction aux Technologies de l Internet

La gestion des documents administratifs à la Bibliothèque nationale de France

Evolution des technologies et émergence du cloud computing Drissa HOUATRA, Orange Labs Issy

Dématérialisation et travail collaboratif

J'ai un patrimoine électronique à protéger

L archivage pérenne des documents numériques

Bologne à l EPFL. Réforme de Bologne Implications pour l EPFL. Prof. Dominique Bonvin, Doyen Bachelor-Master

Comparatif CMS. Laurent BAUREN S Bérenger VIDAL Julie NOVI Tautu IENFA

Algoba Systems valoriser et partager leur patrimoine numérique Orphea Studio

Transcription:

Quelques applications Open Source pour l archivage numérique Fabrice Lecocq (lecocq@inist.fr) Institut de l Information Scientifique et Technique CNRS 17 Septembre 2009

Sommaire D-Space, Fedora Commons, DuraSpace LOCKSS Autres outils Evaluation 17 Septembre 2009 2

D-Space www.dspace.org 17 Septembre 2009

D-Space 2000 : Collaboration HP Labs / bibliothèque du MIT pour les besoins du MIT Auto-archivage (dépôt, indexation, recherche, affichage) Workflow peu contraignant Interface facile à utiliser Publication dans un contexte Open Access (OAI) Préservation des contenus numériques 2002 : v 1.0 mise en Open Source 2009 : v 1.5.2 dernière version stable 17 Septembre 2009 4

Couverture fonctionnelle Système d archivage d objets numériques gestion, distribution et préservation à long terme d objets numériques. organisation en collection Base de données des métadonnées associées création, indexation, recherche Plate-forme de dépôt et de diffusion de publications électroniques Workflow de publication OAI v2 (metadata), OpenURL (nommage) Droits, délégation, alertes, espace personnalisé 17 Septembre 2009 5

Quelques exemples d usage Archives Institutionnelles (Instituts, Universités) Thèses en ligne Plateforme de revues en ligne Plateforme de E-learning Banques d images, vidéo 17 Septembre 2009 6

Modèle de données D-Space Exemple I-Revues (INIST) Communauté Sous-communauté Collection Item (métadonnées) Bundle Bistream Revue Volume N Article Fichiers 17 Septembre 2009 7

Attributs Chaque communauté, sous-communauté et collection possède sa propre page d accueil Pour les collections Chaque collection peut définir son propre workflow Chaque collection peut posséder son ou ses administrateurs Items : niveau auquel sont associées des métadonnées descriptives ; peut appartenir à plusieurs collections Bistream : niveau le plus fin avec des formats divers Supported (soutenu) / Known (connu) / Unsupported (non soutenu) 17 Septembre 2009 8

Acteurs et workflow E-peoples et Groupes Gestion du workflow Processus de dépôt est défini pour chaque collection Les tâches sont assignées par des alertes mail Les tâches se font via une interface web Les étapes & les actions 1 - Acceptation ou rejet du dépôt 2 - Édition des métadonnées, acceptation/rejet du dépôt 3 - Finalisation des métadonnées 4 - Transmission pour stockage et mise en ligne 17 Septembre 2009 9

Fonctions d administration Gestion des déposants Édition, suppression, ajout de E-peoples/Groupes Gestion des items Éditer les métadonnées d un item Retirer un item de la collection Lien avec d autres collections Inclure des items d une autre collection 17 Septembre 2009 10

L interopérabilité Descriptif des métadonnées en Dublin Core Qualifié DSpace METS Document Profile for Submission Information Packages (SIP) http://wiki.dspace.org/index.php/dspacemetssipprofile Supporte Unicode Dissémination des contenus par OAI-PMH v2.0 Identifiant pérenne un préfixe handle par instance D-Space (handle.net) Peut-être renforcé par un DOI - Module d ingestion/diffusion propriétaire 17 Septembre 2009 11

D-Space 2 (2010) Architecture modulaire, design avec Web Services Scalabilité : Fichiers de plus de 2 Go Nombres d items portés à 10 millions ou plus Taille globale : plusieurs To Augmentation du nombre d utilisateurs simultanés Replication / Mirroring / Virtualisation du stockage Implémentation de nouveaux standards SRU/W Search pour l interrogation? Schéma de Métadonnées plus riche (RDF?) Internationalisation 17 Septembre 2009 12

La communauté D-Space First User Group Meeting MIT (mars 2004) 2005-2006 - Mise en place d un conseil de gouvernance : Dspace Foundation Sept 2009 : 600 sites D-Space sur 70 pays 17 Septembre 2009 13

Fedora Repository Flexible Extensible Digital Object Repository Architecture www.fedora-commons.org 17 Septembre 2009

Historique Développement initié à la Cornell University (1997) 2003 : Fedora v1.0 2009 : Fedora v3.2 Sept 2009 : 165 projets répertoriés 17 Septembre 2009 15

Particularités Architecture de type SOA avec Web Services API disponibles permettant de s interfacer avec une autre application (par exemple CMS) Architecture distribuée Les fichiers peuvent se trouver sur un autre serveur Chaque objet peut avoir un ou plusieurs disséminateurs, c'est-à-dire un service externe qui fournit des vues extensibles des objets Normalisation interne : Fedora Object XML, RDF 17 Septembre 2009 16

DuraSpace www.duraspace.org 17 Septembre 2009

Historique et objectif Rencontre PASIG 2008 à San Francisco (mai) Annonce en Mai 2009 Coordination des 2 communautés (700 sites) Partage des innovations et des développements Standards communs pour interopérabilité Promotion DuraCloud : projet pilote testant les technologies de Cloud Computing en matière de préservation 17 Septembre 2009 18

LOCKSS Lots of Copies Keep Stuff Safe www.lockss.org 17 Septembre 2009

Historique 1999 : Développement d un prototype (Stanford, Harvard, Columbia, Berkeley, Tennessee, Los Alamos) bâtir une architecture de préservation robuste, à un coût très bas doit être transparent pour les utilisateurs ne doit pas générer des surcoûts chez les producteurs Avril 2004 : v1 (logiciel Open Source) Août 2009 : v1.39.2 Actuellement : équipe de 10 personnes + 5 chercheurs associés (HP Palo Alto, Intel Berkeley, Harvard, Sun) 17 Septembre 2009 20

Fonctionnement - collecte LOCKSS va chercher la forme publiée sur le site web du producteur (crawl) Le producteur n a pas à préparer ses contenus ou à donner accès à ses systèmes de production Le site LOCKSS n a pas à régénérer les pages web à partir des données source Le producteur a la garantie que ses contenus primaires ne seront pas ré-exploités, seule la forme web peut éventuellement être réutilisée Le producteur doit autoriser l accès pour la collecte par le crawler LOCKSS. La permission est donnée globalement, et non institution par institution. Ceci pour garantir la redondance et faciliter le mécanisme de réparation 17 Septembre 2009 21

Fonctionnement - stockage Pré-requis : 1 PC entrée/milieu de gamme Comparaison continuelle entre le contenu collecté et le même contenu collecté par d autres plateformes LOCKSS ; réparation et resynchronisation en cas de différence Mutualisation entre sites serveurs Il ne suffit que d une seule copie par site serveur, ce sont les autres sites serveurs qui assurent la redondance (6 sites de préférence. Des mécanismes de comparaisons analysent continuellement l état de chaque copie. Pas besoin de mettre en œuvre des procédures locales d administration et d audit 17 Septembre 2009 22

Fonctionnement - accès Système transparent de type proxy : quand un utilisateur veut accéder à un contenu, LOCKSS intercepte la requête et la propage sur le site du producteur. En cas de non réponse, c est la copie préservée qui est présentée. 17 Septembre 2009 23

Tâches d administration Interface d administration locale liste des contenus, vérifier l état des collections, définir les droits d accès L administrateur local LOCKSS doit définir l URL où est le contenu numérique ainsi que les limites du crawl (ce paramétrage peut être hérité si une autre institution a déjà fait la déclaration) C est aux sites serveurs de gérer les accès aux archives locales avec leur politique habituelle (IP, LDAP, Ezproxy) 17 Septembre 2009 24

LOCKSS et OAIS Le système supporte 3 types d Information Packages : Submission Information Package = publisher manifest, page à la charge du producteur Archival Information Package = décrit le contenu, les métadonnées extraites du Manifest, les entêtes HTTP ainsi que des métadonnées externes décrites en XML Dissemination Information Package, qui en fait reprend les informations du SIP Lockss.stanford.edu/technicalspecificationsOAIS.htm 17 Septembre 2009 25

Préservation LOCKSS préserve les contenus dans le format web avec lequel ils ont été publiés. Migration à la volée des contenus si le browser ne supporte plus le format (dialogue http) Description détaillée : Transparent Format Migration of Preserved Web Content ; David S. H. Rosenthal and al ; Stanford University Librairies ; D-Lib Magazine ; janvier 2005 www.dlib.org/dlib/january05/rosenthal/01rosenthal.html 17 Septembre 2009 26

Bilan : les manques Outils d administration : Gestion des accès assez rudimentaire (par IP) Pas adapté pour gérer diverses communautés en parallèle Pas de notion de collections virtuelles Pas de fonction avancée Moteur de recherche Alertes sur les contenus archivés 17 Septembre 2009 27

Bilan : les plus Logiciel libre, JAVA, XML, OpenBSD Logique OAIS Fonctionnalités simples, transparentes et efficaces Machine autonome (crawl, audit, réparation) Applicable à tout contenu web Assistance utilisateur de Stanford Communauté (négociation éditeurs, plug-in) Economique Oblige à travailler en réseau 17 Septembre 2009 28

Quelques projets basés sur LOCKSS Meta Archive Project : Library of Congress + 6 universités US (réseau privé thématique) ; culture et histoire de l Amérique du Sud Alabama Digital Preservation NETwork : 8 institutions (réseau privé régional) Association of Southeastern Research Libraries : 8 Universités US (réseau ouvert) : thèses Government Printing Office Pilot : journaux électroniques fédéraux : 18 universités + GPO + bibliothèques Alaska State Publications Program 17 Septembre 2009 29

CLOCKSS - Controlled LOCKSS Le projet est lancé en janvier 2006 avec une liste «fermée» de partenaires : 7 bibliothèques et 10 éditeurs + 1 (Elsevier qui participe aux discussions et au financement). Durée : deux ans (prototype) Version de «production» : 2009 Basé sur la technologie LOCKSS dont le principe fondateur est la mise en place d une architecture d archivage distribuée, répliquée et économique 17 Septembre 2009 30

UK LOCKSS Pilot Programme Partenariat entre le JISC (Joint Information Systems Committee) et CURL (Consortium of research Libraries in the British Isles) 24 bibliothèques UK sélectionnées Pilote du 1er mars 2006 au 31 juillet 2008 www.jisc.ac.uk/whatwedo/programmes/preservation/lockss Bilan : «Evaluation of the JISC UK LOCKSS Pilot, Birmingham City University, Mai 2008» (www.ebase.bcu.ac.uk) ; principale recommandation : établir des liens avec les résolveurs de liens 17 Septembre 2009 31

LOCKSS UK Alliance Depuis Août 2008, participation payante et ouverture à de nouvelles bibliothèques : http://www.jisc-collections.ac.uk/catalogue/lockss PLN - Private LOCKSS Networks Lancé en juin 2008 lors de la Joint Conference on Digital Librairies (JCDL) à Pittsburg 17 Septembre 2009 32

17 Septembre 2009 Autres outils

Autres communautés Open Source E-Prints, CDSware Invenio, Greenstone Les outils : JHOVE, DROID, Parser XML Les initiatives européennes Planets (Preservation and Long-term Access through Networked Services) (2006-2010) (exemple : Plato) Alliance pour Permanent Access (données scientifiques) Caspar (Cultural, Artistic and Scientific knowledge for Preservation, Access and Retrieval) DPE (Digital Preservation Europe) WePreserve = coordination Caspar/DPE/Planets 17 Septembre 2009 34

17 Septembre 2009 Evaluation

OAIS et son implémentation dans les logiciels disponibles Tous les logiciels se revendiquent de l OAIS Qu en est-il réellement? Etude BNF dans le cadre du projet SPAR (2005) Mise en place de 2 évaluations Évaluation à «grosse maille» : large nombre de solutions explorées / nombre limité de critères Evaluation à «petite maille» : évaluation vis-à-vis des contraintes BnF des solutions préalablement sélectionnées vds.cnes.fr/pin/presentations/2007/presentation_spar.pdf 17 Septembre 2009 36

Evaluation approfondie Grille en 132 critères répartis en 9 catégories 1. L entité «Entrée» 2. L entité «Gestion de données» 3. L entité «Stockage» 4. L entité «Administration» 5. L entité «Planification de la pérennisation» 6. L entité «Accès» 7. Les services communs 8. L architecture 9. L organisation 17 Septembre 2009 37

Exemple de synthèse DSPACE Architecture Organisation Entrées 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Gestion des données Stockage Services communs Administration Accès 17 Septembre 2009 38

Bâtir un référentiel? Faire de la veille et tester des plateformes est un travail lourd, qui monopolise les équipes techniques et les équipes métier Le nombre de logiciel à évaluer est assez conséquent Il y a souvent de nouvelles versions Constat : des organismes ont déjà investi un temps important dans ces évaluations (BNF, CINES, DAF, INIST ) Il faudrait pérenniser ces évaluations et partager les résultats : monter un référentiel? 17 Septembre 2009 39

Survol du CLIR : Council on Library and Information Resources (2006) E-Journal Archiving Metes and Bounds: A Survey of the Landscape - Anne R. Kenney, Richard Entlich, Peter B. Hirtle, Nancy Y. McGovern & Ellie L. Buckley Sept. 2006 http://www.clir.org/pubs/reports/pub138/pub138.pdf Etude sponsorisée par le CLIR (Washington) sur la période février-juin 2006 Synthèse présentée lors de la 8 ème réunion de l International Coalition of Library Consortia (Rome) : notes de Pierre Carbone (Couperin) 12 Initiatives analysées 17 Septembre 2009 40

Autres survols 2007 : «Preserving scientific electronic journals:a study of archiving initiatives» ; The Electronic Library - Vol.26 - No.1 2008 www.emeraldinsight.com/0264-0473.htm JSTOR, Portico, E-Prints, Lockss, OCLC Digital Archive, JICS, Pub Med Central, KB e-depot 2008 : Long Term Preservation Survey Research Results ; Sarah Durrant - ALPSP (Association of Learned and Professional Society) ; Juillet 2008 www.alpsp.org Une vision plutôt éditeur PubMedCentral, Portico, LOCKSS, CLOCKSS, KB e-depot C est du ressort des bibliothèques nationales et des centres de dépôt légal d assurer l archivage pérenne 17 Septembre 2009 41

Critères d évaluation Positionnement des solutions : 3 critères Conformité OAIS Neutralité vis-à-vis de la technologie : la solution doit pouvoir être implémentée sur n importe quelle nouvelle technologie Indépendance du domaine : la solution doit pouvoir être utilisable dans des contextes variés, dans des organisations du secteur public ou du secteur privé 17 Septembre 2009 42

Audit et certification OCLC / RLG - Digital Archive Attributes Working Group RLG / NARA Task Force on Digital Repository Certification (www.rlg.org) DPC (Digital Preservation Coalition) Technology Watch Report, Brian F. Lavoie (OCLC), janvier 2004 (http://www.dpconline.org/docs/lavoie_oais.pdf) Drembora (2007, DCC) 17 Septembre 2009 43

Pour finir Imaginer le pire! Pérennité de la solution, rôle de la communauté, aptitude à participer ou à reprendre le développement Comment sortir d un logiciel? Travailler dans un réseau d acteurs Archives distribuées, partagées Abandon / reprise / fusion d archive 17 Septembre 2009 44