L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) Rencontres RNBM 3 Octobre 2007



Documents pareils
L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) JRES Novembre 2007

Archivage pérenne : les formats conformes Version :

L archivage pérenne des documents numériques

Conservation des données à long terme

Plan. Un modèle d organisation. Pour les Archives numériques. Présentation Groupe PIN. Claude HUC (CNES)

Table des matières détaillée

Conférence EDIFICAS. Le document électronique et sa valeur probante

Présentation du cadre technique de mise en œuvre d un Service d Archivage Electronique

Glossaire. Arborescence : structure hiérarchisée et logique qui permet d organiser les données dans un système informatique.

Archivage numérique pérenne

Présentation générale du projet data.bnf.fr

CATALOGUE DE LA GAMME EASYFOLDER OFFRE GESTION DE CONTENUS NUMERIQUES

La conservation à long terme de contenus numériques

Université de Lausanne

Le standard d'échange de données pour l'archivage (SEDA)

STANDARD D ECHANGE DE DONNEES POUR L'ARCHIVAGE

STANDARD D ÉCHANGE DE DONNÉES POUR L'ARCHIVAGE

CIMAIL SOLUTION: EASYFOLDER SAE

Archivage intermédiaire de données Scientifiques ISAAC Information Scientifique Archivée Au Cines

Formats de fichiers adaptés à l'archivage électronique à moyen et long terme

LES PROCEDURES DE LA POLITIQUE D ARCHIVAGE

Projet Gestion des Formats de Fichier

Ministère de la Culture et de la Communication

Bibliothèque numérique de l enssib

Dossier de presse L'archivage électronique

P2A POLITIQUE ET PRATIQUES D'ARCHIVAGE (SPHÈRE PUBLIQUE)

Groupe de travail «TECHNOLOGIES DE L INFORMATION ET DE LA COMMUNICATION» Réunion du 26 janvier L archivage électronique

La Jubilothèque Du magasin à la Jubilothèque documents en ligne soit + de pages budget /an 0.7 ETP Pôle associé BnF

Guide du doctorant ( )

Archivage à long terme des données de la recherche scientifique

PROGRAMME DE FORMATION

Pilote plate-forme archivage électronique CCTP version validée CAHIER DES CHARGES

La maîtrise du cycle de vie du document numérique

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Le fonctionnement d un service d archives en entreprise. Le Service national des archives

sommaire L organisation et la gestion des archives d entreprise...7

Présentation aux entreprises du numérique

Les archives de l entreprise à l ère du numérique. Présentée par: HAMMA Mustapha

Infrastructure / réseau / sécurité /support utilisateur

L ARCHIVAGE LEGAL : CE QU IL FAUT SAVOIR

Un serveur d'archivage

Stages en archives pendant l apprentissage d agent-e en information documentaire liste de contrôle

Atelier «La dématérialisation des factures à travers les technologies LAD»

La gestion des documents administratifs à la Bibliothèque nationale de France

Les répertoires de formats

Archivage électronique et valeur probatoire

Formation «Système de gestion des documents d activité (SGDA)»

FORMULAIRE DE SOUMISSION DU PROJET PORTÉ DANS LE CADRE DU SYSTÈME D'ARCHIVAGE ÉLECTRONIQUE MUTUALISÉ (SAEM)

Maarch V1.4

Enseignement Informatique. Classe de Bac Pro SAPAT

LIVRE BLANC «LA GESTION, CONVERSION, IMPRESSION, PUBLICATION ET DISTRIBUTION DOCUMENTAIRE SAP» SAP DMS SAP PLM

RECUEIL DE LEGISLATION. S o m m a i r e. ARCHIVAGE électronique

XML pour la mise en valeur des informations

J'ai un patrimoine électronique à protéger

Cahier des Clauses Techniques Particulières

Mise à jour de STAR par formulaires (Cycle mise à jour) Version :

Mise en œuvre de les capteurs dans la gestion de l eau

Qu'est ce qu'une archive?

Atelier 1. Portails documentaires : BioLib et Cemadoc

Livre blanc. Le 3 Heights Scan to PDF Server : bases et utilisation

PROGRAMME DES NATIONS UNIES POUR LE DEVELOPPEMENT

3 ème journée des utilisateurs de l archivage

STANDARD D ECHANGE DE DONNEES POUR L'ARCHIVAGE

Pérennisation des Informations Numériques

HAL, archives ouvertes. Christine Berthaud, CNRS/CCSD - Directrice

Logiciels libres de Bibliothèques numériques : présentation. Castore & Greenstone. Les autres : CDS Invenio, EPRINTS, Dspace.

Introduction à la GED La Gestion Electronique des Documents

POSITIONNEMENT DU POSTE DANS LA STRUCTURE MISSIONS

Solution documentaire globale. Présentation du 14 janvier 2010

Gestion et sécurisation des échanges XcMon, PMPI 03.31/2004 PDB. Global Data Exchange System

Audit de modernisation relatif à l archivage. Rapport interministériel complémentaire

Vers une convergence. Plateforme en ligne Mathrice

Dahir n du 19 kaada 1428 portant promulgation de la loi n relative aux archives. (B.O. n 5588 du 20 décembre 2007).

RECUEIL POLITIQUE DES

Système d archivage électronique (SAE) des exigences et des spécifications qui tiennent compte d un environnement [GED-SAE(PAE)-PGA]

MANUEL D UTILISATION DE LA SALLE DES MARCHES APPEL D OFFRES OUVERT ACCES ENTREPRISES. Version 8.2

V 8.2. Vous allez utiliser les services en ligne de la plate forme de dématérialisation de la Salle des Marchés achatpublic.com.

ARCHIVES DEPARTEMENTALES DU NORD

Les archives... c est quoi?

MESDAMES ET MESSIEURS LES DIRECTEURS ET CHEFS DE SERVICE

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

Politique numéro 42 POLITIQUE DE GESTION DOCUMENTAIRE

JPEG, PNG, PDF, CMJN, HTML, Préparez-vous à communiquer!

Système global d Output Management

Recommandation pour la gestion des archives

Master Technologies numériques appliquées à l'histoire Deuxième année

Cycle de vie, processus de gestion

E.N.T. Espace Numérique de Travail

8 DN 8/2004. Archivage et pérennisation

Guide Utilisateur Transnet

LANGAGUE JAVA. Public Développeurs souhaitant étendre leur panel de langages de programmation

Dématérialisation des factures

Programme-cadre européen pour la recherche et l innovation. Horizon Lignes directrices pour la gestion des données dans Horizon 2020

Exploration des technologies web pour créer une interaction entre Mahara et les plateformes professionnelles et sociales

LES IMPACTS SUR VOTRE SYSTEME DE FACTURATION DE LA SIGNATURE ELECTRONIQUE COMME OUTIL DE SECURISATION DE VOS ECHANGES DEMATERIALISES

Le moteur de workflow JBPM

Mise en place d une politique institutionnelle d archives ouvertes

Transcription:

L archivage pérenne du document numérique au CINES CINES (O.Rouchon) Rencontres RNBM 3 Octobre 2007

Sommaire La mission d archivage du CINES Le contexte, la problématique et les constats Les défis, orientations et choix pour l archivage au CINES Les types de documents à archiver Le cycle de vie des documents L initiation du projet d archives La structure du document à archiver Les acteurs L architecture logique de la plateforme Les échanges Les principes de fonctionnement Les étapes des différents échanges L état des lieux Rencontres RNBM 2007 2 Centre Informatique National

Le CINES Centre Informatique National Basé in Montpellier (Hérault, France) Créé en 1999, succédant au CNUSC (Centre National Universitaire Sud de Calcul) créé in 1980 Placé sous la tutelle de la DGRI (Direction Générale de la Recherche et de l Innovation) du Ministère Principales missions Calcul numérique intensif, Exploitation de base de données et d applications Expertise et formation en matière de réseaux informatique (avec RENATER) Plus d information : http://www.cines.fr/ Rencontres RNBM 2007 3 Centre Informatique National

La mission d archivage du CINES Depuis 2004, le CINES a une mission nationale d archivage du patrimoine scientifique. Arrêté du 7 août 2006 relatif aux modalités de dépôt, de signalement, de reproduction, de diffusion et de conservation des thèses ou des travaux présentés en soutenance en vue d un doctorat Pour la remplir, le CINES a mis en place le projet PAC, qui vise à doter le CINES d une plate-forme et d un service d archivage numérique pérenne L équipe : 1 chef de projet, 4 ingénieurs, 1 archiviste (5 ETP) 2 projets pilotes Archivage des thèses électroniques Archivage des revues SHS du portail Persée Contraintes Solution générique, basée sur les standards pour une évolution, Facilité de veille technologique et de migration Rencontres RNBM 2007 4 Centre Informatique National

Le contexte, la problématique et les constats L archivage pérenne des documents électroniques consiste à conserver le document et l information qu il contient : Dans son aspect physique comme dans son aspect intellectuel, Sur le très long terme soit 30 ans et au-delà, De manière à pouvoir le rendre accessible et compréhensible. Or, la plupart des fichiers informatiques de plus de 10 ans sont aujourd hui illisibles : Connaissance perdue du contenu des fichiers, Format de fichier inconnu, Support physique détérioré, Logiciel ou matériel de lecture disparu Rencontres RNBM 2007 5 Centre Informatique National

Les défis, orientations et choix pour l archivage au CINES Contrainte Connaissance du contenu Format de fichier inconnu Support physique détérioré Logiciel ou matériel de lecture disparu Solutions Utilisation de métadonnées Identification unique et pérenne des documents archivés Privilégier les formats durables Identification, validation des formats Migration logique Gestion du vieillissement des médias Migration physique Veille technologique et anticipation Rencontres RNBM 2007 6 Centre Informatique National

Les normes et standards utilisés OAIS - ISO 14721 : Reference model for an Open Archival Information System Modèle purement conceptuel, ne fait aucune recommandation technique P2A Politique et pratiques d archivage (sphère publique) Recommandations en termes d architecture, moyens, sécurité, etc. Standard d échanges de données pour l archivage électronique, versement, communication, élimination DAF, DGME, version 1.0, mars 2006. Normes internationales de description archivistique ISAD-G international standard for archival description, general ISAAR-CPF international standard archival authority record, corporate bodies, persons & families Métadonnées descriptives de l archive DCMI Dublin Core Metadata Initiative METS Metadata Encoding and Transmission Standard Identifiant unique et pérenne Interne, séquentiel, basé sur le principe URI Pas d utilisation pour le moment d identifiant persistant externe de type DOI, ARK Empreintes numériques Hashing MD5, SHA-256 Rencontres RNBM 2007 7 Centre Informatique National

Le cycle de vie des documents Archives courantes TEMPS Archives intermédiaires Archives définitives ou destruction Création Gestion Diffusion C onservation Cadre d application des outils de diffusion du CINES Cadre d application de la plateforme d archivage du CINES Rencontres RNBM 2007 8 Centre Informatique National

Les types de documents à archiver Présentant une valeur patrimoniale scientifique ou technique De préférence des objets dits «primaires» Documents originaux, Bruts de scan, etc. Issus d archives définitives Dans un format identifié et vérifiable : Format publié Format largement utilisé (ou promis à l être) Type Texte Format HTML, PDF, PDF/A, TXT, XML Format normalisé si possible Image GIF, JPEG, TIFF, PNG Le système PAC est interfacé avec l outil Jhove pour Identifier, Valider, Caractériser, Le format des fichiers transférés Rencontres RNBM 2007 9 Centre Informatique National

L identification, la validation et la caractérisation Fonction Identification Validation Description Déterminer le format auquel se conforme un objet numérique. Répondre à la question: «J ai un objet numérique, dans quel format est-il?» Déterminer le niveau de conformité d un objet numérique aux spécifications de son supposé format. Répondre à la question: «J ai un objet numérique qui est censé être un PDF. En est-il un?» La validation se fait à deux niveaux, après quoi l objet sera réputé bien-formé et valide Un objet est bien formé s il suit les spécifications syntaxiques de son format Un objet est valide s il est bien formé et suit des spécifications sémantiques supplémentaires Caractérisation Exemple un fichier TIFF est bien-formé si son entête est composée de 8 octets suivis d une séquence IFD (Image File Directories), et valide si (dans le cas d un fichier RGB) il a 3 valeurs par pixel Déterminer les propriétés spécifiques d un objet numérique d un format donné. Répondre à la question: «J ai un ob jet numérique au format PDF, quelles sont ses propriétés?» La caractérisation permet d obtenir des information de représentation (concept OAIS) telles que Le chemin ou l URI La taille du fichier Le format, la version du format, le type MIME L empreinte numérique (checksum SHA-1) Rencontres RNBM 2007 10 Centre Informatique National

La structure du document à archiver Document à archiver composé de deux pièces 1. La description de l archive Fichier sip.xml (schéma http://www.cines.fr/pac/sip.xsd) 3 sections décrivant : Le document dans son projet d archives Le document proprement dit Les fichiers du document 2. Le dossier contenant les documents électroniques à archiver Répertoire «DEPOT» Sous-arborescence autorisée Tout fichier présent doit être décrit dans le fichier sip.xml Rencontres RNBM 2007 11 Centre Informatique National

Les acteurs Le producteur Personne physique ou morale, publique ou privée, qui a produit, reçu et conservé des archives dans l exercice de son activité. Le service versant Organisation qui transfère une archive à un service d archives Le service de contrôle Personne physique ou morale qui effectue le contrôle scientifique, juridique et technique des documents archivés, et éventuellement valide les demandes de communication d archives Le service d archives Organisation recevant le document à archiver transféré et chargée de la conserver pour permettre à une communauté d utilisateurs/un service demandeur d y accéder et de l utiliser L utilisateur Toute personne ou système client en relation avec le service d archives pour trouver les informations archivées présentant un intérêt, et pour accéder au détail de ces informations, dans le respect de la législation applicable en matière de communication des archives. Rencontres RNBM 2007 12 Centre Informatique National

L architecture logique de la plateforme Service de Contrôle PAC - Plate -forme d Achivage du CINES Serveur de Transfert Serveur de Stockage Serveur d Accès Producteur Service Versant Utilisateur Rencontres RNBM 2007 13 Centre Informatique National Administrateur

Les échanges Transfert d archives Transmission physique d une archive ou d un ensemble d archives par un service versant à un service d archives Modification d archives Modification des métadonnées et/ou du document pour en assurer la préservation Elimination d archives Elimination des métadonnées et/ou du document à la demande du services d archives, du service versant ou du service de contrôle Restitution d archives Transmission de documents par le service d archives au service versant ou au producteur afin de leur en restituer la garde Communication d archives Transmission de copie de document à un utilisateur ayant l autorisation du service versant et /ou du service de contrôle Rencontres RNBM 2007 14 Centre Informatique National

Les principes de fonctionnement Trois serveurs logiques : transfert, stockage, accès Serveur Transfert Fonctions réception des SIP détection d un nouveau transfert envoi d un accusé de réception Stockage Accès contrôle des SIP création des AIP archivage des AIP vérification périodique de l intégrité des AIP archivés migration technologique fourniture d états et de statistiques structure informatique conformité des métadonnées sip.xml par rapport au schéma sip.xsd correspondance entre la description sip.xml et les fichiers qui composent le document contrôle et validation du format des fichiers calcul de l empreinte numérique de chaque fichier création de l identifiant du document archivé mise à jour des métadonnées : sip.xml > aip.xml transfert de l AIP au serveur de stockage copie multiple de l AIP sur les différents médias ou supports envoi du certificat d archivage contrôle de l authentification de l utilisateur consultation du catalogue des AIP archivés communication d une copie d un document archivé Rencontres RNBM 2007 15 Centre Informatique National

Les étapes du versement d archives PAC Versement de document (s) Service Versant Document ( s) Accusé de Réception Notification de Rejet Certificat d archivage NON Serveur de Versement Soumission Contrôle de validité technique Valide? Serveur de Stockage OUI Archivage Rencontres RNBM 2007 16 Centre Informatique National

Les étapes du stockage d archives PAC Stockage et opération ( s) d exploitation Service Versant ou de Contrôle Demande d opération Demande d accord Notification d opération Accord? NON Refus Serveur de Stockage Stockage Plannification Opération OUI Accord requis? NON OUI Avis Requis? OUI Accord Exécution Opération Historisation des Changements NON Rencontres RNBM 2007 17 Centre Informatique National

Les étapes de la communication d archives PAC - Accès au (x) document (s) archivé (s) Service Versant et de Contrôle Demande d accord Accord? OUI Serveur de Stockage Vérification Communicabili té OUI NON Refus Accord Serveur d Accès Consultation Demande de copie d archive Accord requis? NON Communicatio n Utilisateur Catalogue Document Rencontres RNBM 2007 18 Centre Informatique National

Etat des lieux (Juin 2007) Phase 1 : Développement interne d une première plate-forme pour valider les services attendus sur les 2 projets pilotes premiers tests d archivage des thèses en Mars 2007, déploiement en production fin Juin 2007 Protocole transfert Langage Base de données Interface utilisateur Soumission de SIP sur serveur de transfert via SFTP Composants des serveurs développés en Java Base de données PostgreSQL Utilisation de bibliothèques OpenSource (module d analyse de fichiers, calcul des empreintes numériques, etc.) Déclenchement des routines (accusé de réception, vérification, archivage) à intervalles réguliers traitement par lots administration en mode web Phase 2 : Appel d offres en cours pour l acquisition fin 2007d une plateforme de stockage capable de gérer de larges volumes (40 To) Rencontres RNBM 2007 19 Centre Informatique National

Pour en savoir plus : le groupe de travail PIN PIN (pérennisation de l information numérique) groupe de travail de l association Aristote Lieu de rencontre et d échanges entre informaticiens, archivistes et bibliothécaires Principalement animé par le CNES (Claude Huc), la BnF et la DAF Réunions trimestrielles (environ 30 participants réguliers) Un site web : http://pin.cnes.fr Une formation spécialisée (2 sessions par an) Rencontres RNBM 2007 20 Centre Informatique National

Annexes

Termes et définitions Terme Archives courantes Archives intermédiaires Archives définitives Diffusion Conservation Archivage pérenne Définition Les archives courantes regroupent les documents nécessaires à l'activité des services qui les ont produits et conservés pour le traitement de leurs affaires courantes. Les archives intermédiaires ne sont plus utilisées mais restent utiles et doivent être conservées temporairement (besoins administratifs ou juridiques). À l'issue de cette durée de conservation, les archives intermédiaires font l objet d un tri et sont soit conservées définitivement soit éliminées. Les archives définitives ont vocation à être conservées pour des raisons historiques, juridiques ou patrimoniales. Dans le langage courant, le terme diffusion fait référence à une notion de «distribution», de «mise à disposition» (diffusion d'un produit, d'une information). La diffusion de documents électroniques consiste à faciliter leur disponibilité et leur accès à court ou moyen terme. D'une manière générale, la conservation est l'acte qui consiste à préserver un élément dans un état constant. L archivage pérenne consiste à conserver le document électronique, le rendre accessible, en préserver l intelligibilité, le tout sur le très long terme, trente ans et au-delà. Rencontres RNBM 2007 22 Centre Informatique National