L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) JRES 2007 21 Novembre 2007



Documents pareils
L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) Rencontres RNBM 3 Octobre 2007

Archivage pérenne : les formats conformes Version :

L archivage pérenne des documents numériques

Plan. Un modèle d organisation. Pour les Archives numériques. Présentation Groupe PIN. Claude HUC (CNES)

Conférence EDIFICAS. Le document électronique et sa valeur probante

Table des matières détaillée

Glossaire. Arborescence : structure hiérarchisée et logique qui permet d organiser les données dans un système informatique.

Conservation des données à long terme

Présentation du cadre technique de mise en œuvre d un Service d Archivage Electronique

Présentation générale du projet data.bnf.fr

Archivage numérique pérenne

Université de Lausanne

CATALOGUE DE LA GAMME EASYFOLDER OFFRE GESTION DE CONTENUS NUMERIQUES

Formats de fichiers adaptés à l'archivage électronique à moyen et long terme

STANDARD D ÉCHANGE DE DONNÉES POUR L'ARCHIVAGE

STANDARD D ECHANGE DE DONNEES POUR L'ARCHIVAGE

Projet Gestion des Formats de Fichier

P2A POLITIQUE ET PRATIQUES D'ARCHIVAGE (SPHÈRE PUBLIQUE)

Le standard d'échange de données pour l'archivage (SEDA)

Ministère de la Culture et de la Communication

CIMAIL SOLUTION: EASYFOLDER SAE

Archivage intermédiaire de données Scientifiques ISAAC Information Scientifique Archivée Au Cines

PROGRAMME DE FORMATION

La conservation à long terme de contenus numériques

Pilote plate-forme archivage électronique CCTP version validée CAHIER DES CHARGES

LES PROCEDURES DE LA POLITIQUE D ARCHIVAGE

FORMULAIRE DE SOUMISSION DU PROJET PORTÉ DANS LE CADRE DU SYSTÈME D'ARCHIVAGE ÉLECTRONIQUE MUTUALISÉ (SAEM)

La maîtrise du cycle de vie du document numérique

La Jubilothèque Du magasin à la Jubilothèque documents en ligne soit + de pages budget /an 0.7 ETP Pôle associé BnF

Un serveur d'archivage

Groupe de travail «TECHNOLOGIES DE L INFORMATION ET DE LA COMMUNICATION» Réunion du 26 janvier L archivage électronique

Archivage à long terme des données de la recherche scientifique

Dossier de presse L'archivage électronique

Bibliothèque numérique de l enssib

Présentation aux entreprises du numérique

Maarch V1.4

Le fonctionnement d un service d archives en entreprise. Le Service national des archives

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Mise à jour de STAR par formulaires (Cycle mise à jour) Version :

Guide du doctorant ( )

La gestion des documents administratifs à la Bibliothèque nationale de France

Pérennisation des Informations Numériques

sommaire L organisation et la gestion des archives d entreprise...7

Les archives de l entreprise à l ère du numérique. Présentée par: HAMMA Mustapha

L ARCHIVAGE LEGAL : CE QU IL FAUT SAVOIR

J'ai un patrimoine électronique à protéger

Stages en archives pendant l apprentissage d agent-e en information documentaire liste de contrôle

Formation «Système de gestion des documents d activité (SGDA)»

STANDARD D ECHANGE DE DONNEES POUR L'ARCHIVAGE

Solution documentaire globale. Présentation du 14 janvier 2010

Qu'est ce qu'une archive?

Les répertoires de formats

Infrastructure / réseau / sécurité /support utilisateur

MESDAMES ET MESSIEURS LES DIRECTEURS ET CHEFS DE SERVICE

Cahier des Clauses Techniques Particulières

Allocution d accueil par Henri EMMANUELLI, Président du Conseil général des Landes, Président de l ALPI et Jean-Claude DEYRES, Président du CDG 40

Recommandation pour la gestion des archives

Atelier «La dématérialisation des factures à travers les technologies LAD»

RECUEIL POLITIQUE DES

Questionnaire sur la situation de l archivage dans les laboratoires du CNRS

Livre blanc. Le 3 Heights Scan to PDF Server : bases et utilisation

Archivage électronique et valeur probatoire

POSITIONNEMENT DU POSTE DANS LA STRUCTURE MISSIONS

LIVRE BLANC «LA GESTION, CONVERSION, IMPRESSION, PUBLICATION ET DISTRIBUTION DOCUMENTAIRE SAP» SAP DMS SAP PLM

Atelier 1. Portails documentaires : BioLib et Cemadoc

Système d archivage électronique (SAE) des exigences et des spécifications qui tiennent compte d un environnement [GED-SAE(PAE)-PGA]

Département de la sécurité, de la police et de l'environnement. Records management et archivage définitif des documents électroniques.

XML pour la mise en valeur des informations

Les archives... c est quoi?

Audit de modernisation relatif à l archivage. Rapport interministériel complémentaire

Gestion collaborative de documents

Politique numéro 42 POLITIQUE DE GESTION DOCUMENTAIRE

ManageEngine EventLog Analyzer. Les bonnes critiques et recommandations

Enseignement Informatique. Classe de Bac Pro SAPAT

Les enjeux de la dématérialisation du courrier entrant

Dahir n du 19 kaada 1428 portant promulgation de la loi n relative aux archives. (B.O. n 5588 du 20 décembre 2007).

Archivage électronique Un nouveau domaine d'expertise au service de la gouvernance des systèmes d'information

RECUEIL DE LEGISLATION. S o m m a i r e. ARCHIVAGE électronique

3 ème journée des utilisateurs de l archivage

MODE D'EMPLOI. La gestion des versions permettra de compléter et de faire évoluer les fiches dans le temps. NOM DE LA RESSOURCE CONTACT FOURNISSEUR

Logiciels libres de Bibliothèques numériques : présentation. Castore & Greenstone. Les autres : CDS Invenio, EPRINTS, Dspace.

Gestion et sécurisation des échanges XcMon, PMPI 03.31/2004 PDB. Global Data Exchange System

I partie : diagnostic et proposition de solutions

ARCHIVAGE DES BASES DE

Tutoriel Adobe Acrobat Pro (version 9.0.0) Créer les fichiers PDF de la thèse. Service Commun de la Documentation Service des thèses

Formation continue des personnels URCA. Offre de la Bibliothèque Universitaire

MANUEL D UTILISATION DE LA SALLE DES MARCHES APPEL D OFFRES OUVERT ACCES ENTREPRISES. Version 8.2

Archivage de documents électroniques dans le réseau des Archives de France

LA TENUE DES ARCHIVES

Université de Lausanne

PRESENTATION 2009 L'ingénierie Documentaire

V 8.2. Vous allez utiliser les services en ligne de la plate forme de dématérialisation de la Salle des Marchés achatpublic.com.

JPEG, PNG, PDF, CMJN, HTML, Préparez-vous à communiquer!

CAHIER DES CLAUSES TECHNIQUES PARTICULIERES

Système global d Output Management

SITools2, un système d'accès aux données scientifiques web 2.0

Transcription:

L archivage pérenne du document numérique au CINES CINES (O.Rouchon) JRES 2007 21 Novembre 2007

Sommaire La mission d archivage du CINES Le contexte, la problématique et les constats Les défis, orientations et choix pour l archivage au CINES Les types de documents à archiver Le cycle de vie des documents La structure du document à archiver Les acteurs L architecture logique de la plateforme Les échanges Les principes de fonctionnement Les étapes des différents échanges L état des lieux Journées Réseaux JRES 2007 - Strasbourg 2 Centre Informatique National

Le CINES Centre Informatique National Basé à Montpellier (Hérault, France) Créé en 1999, succédant au CNUSC (Centre National Universitaire Sud de Calcul) créé en 1980 Placé sous la tutelle de la DGRI (Direction Générale de la Recherche et de l Innovation) du Ministère et de la Recherche Principales missions Calcul numérique intensif, Exploitation de base de données et d applications Expertise et formation en matière de réseaux informatique (avec RENATER) Plus d information : http://www.cines.fr/ Journées Réseaux JRES 2007 - Strasbourg 3 Centre Informatique National

La mission d archivage du CINES Depuis 2004, le CINES a une mission nationale d archivage du patrimoine scientifique. Arrêté du 7 août 2006 relatif aux modalités de dépôt, de signalement, de reproduction, de diffusion et de conservation des thèses ou des travaux présentés en soutenance en vue d un doctorat Pour la remplir, le CINES a mis en place le projet PAC, qui vise à doter le CINES d une plate-forme et d un service d archivage numérique pérenne L équipe : 1 chef de projet, 4 ingénieurs, 1 archiviste (5 ETP) 2 projets pilotes Archivage des thèses électroniques Archivage des revues SHS du portail Persée Contraintes Solution générique, basée sur les standards pour une évolution, Facilité de veille technologique et de migration Journées Réseaux JRES 2007 - Strasbourg 4 Centre Informatique National

Le contexte, la problématique et les constats L archivage pérenne des documents électroniques consiste à conserver le document et l information qu il contient : Dans son aspect physique comme dans son aspect intellectuel, Sur le très long terme soit 30 ans et au-delà, De manière à pouvoir le rendre accessible et compréhensible. Or, la plupart des fichiers informatiques de plus de 10 ans sont aujourd hui illisibles : Connaissance perdue du contenu des fichiers, Format de fichier inconnu, Support physique détérioré, Logiciel ou matériel de lecture disparu Journées Réseaux JRES 2007 - Strasbourg 5 Centre Informatique National

Les défis, orientations et choix pour l archivage au CINES Contrainte Connaissance du contenu Format de fichier inconnu Support physique détérioré Logiciel ou matériel de lecture disparu Solutions Utilisation de métadonnées Identification unique et pérenne des documents archivés Privilégier les formats durables Identification, validation des formats Migration logique Gestion du vieillissement des médias Migration physique Veille technologique et anticipation Journées Réseaux JRES 2007 - Strasbourg 6 Centre Informatique National

Les normes et standards utilisés OAIS - ISO 14721 : Reference model for an Open Archival Information System Modèle purement conceptuel, ne fait aucune recommandation technique P2A Politique et pratiques d archivage (sphère publique) Recommandations en termes d architecture, moyens, sécurité, etc. Normes internationales de description archivistique ISAD-G international standard for archival description, general ISAAR-CPF international standard archival authority record, corporate bodies, persons & families Standard d échanges de données pour l archivage électronique, versement, communication, élimination DAF, DGME, version 1.0, mars 2006. Métadonnées descriptives de l archive DCMI Dublin Core Metadata Initiative Identifiant unique et pérenne Interne, séquentiel, basé sur le principe URI Pas d utilisation pour le moment d identifiant persistant externe de type Handle, DOI, PURL ou ARK Empreintes numériques Hashing MD5, SHA-256 Journées Réseaux JRES 2007 - Strasbourg 7 Centre Informatique National

Le cycle de vie des documents Archives courantes TEMPS Archives intermédiaires Archives définitives ou destruction Création Gestion Diffusion Conservation Cadre d application des outils de diffusion du CINES Cadre d application de la plateforme d archivage du CINES Journées Réseaux JRES 2007 - Strasbourg 8 Centre Informatique National

Les différents types d archives et leur gestion Type Archives courantes Archives intermédiaires Description Les archives courantes regroupent les documents nécessaires à l'activité des services qui les ont produits et conservés pour le traitement de leurs affaires courantes Les données sont stockées et gérées sur la plate-forme de production Les archives intermédiaires ne sont plus utilisées mais restent utiles et doivent être conservées temporairement (besoins administratifs ou juridiques). À l'issue de cette durée de conservation, les archives intermédiaires font l objet d un tri et sont soit conservées définitivement soit éliminées. Soit constitution d'un module d'archivage au sein de l'application de production Soit constitution d'un module d'archivage commun à plusieurs processus métiers Archives définitives Soit transfert vers le service d'archives compétent Les délais d'utilité administratives sont dépassés. Les archives définitives ont vocation à être conservées pour des raisons historiques, juridiques ou patrimoniales Les archives sont transférées vers le service public d'archives compétent (archives nationales, archives départementales, archives communales, archives régionales). Journées Réseaux JRES 2007 - Strasbourg 9 Centre Informatique National

Les types de documents à archiver Quel type de document est éligible à un archivage pérenne sur la plateforme PAC? Tout document présentant une valeur patrimoniale scientifique ou technique De préférence des objets dits «primaires» Documents originaux, Bruts de scan, etc. Si possible pas d objets issus du retraitement d objets primaires (ex. OCR, etc.) Issus d archives définitives La plateforme n est pas un outil de diffusion Journées Réseaux JRES 2007 - Strasbourg 10 Centre Informatique National

Les formats de documents à archiver Formats identifiés et vérifiables : Format publié, Format largement utilisé, Format normalisé si possible Type Texte Image Format HTML, PDF, PDF/A, TXT, XML GIF, JPEG, TIFF, PNG Le système PAC est interfacé avec les outils Jhove et ImageMagick pour : Identifier, Valider, Caractériser, Le format des fichiers transférés Journées Réseaux JRES 2007 - Strasbourg 11 Centre Informatique National

L identification, la validation et la caractérisation Fonction Identification Description Déterminer le format auquel se conforme un objet numérique. Répondre à la question: «J ai un objet numérique, dans quel format est-il?» Validation Déterminer le niveau de conformité d un objet numérique aux spécifications de son supposé format. Répondre à la question: «J ai un objet numérique qui est censé être un PDF. En est-il un?» La validation se fait à deux niveaux, après quoi l objet sera réputé bien-formé et valide Un objet est bien formé s il suit les spécifications syntaxiques de son format Un objet est valide s il est bien formé et suit des spécifications sémantiques supplémentaires Exemple un fichier TIFF est bien-formé si son entête est composée de 8 octets suivis d une séquence IFD (Image File Directories), et valide si (dans le cas d un fichier RGB) il a 3 valeurs par pixel Caractérisation Déterminer les propriétés spécifiques d un objet numérique d un format donné. Répondre à la question: «J ai un objet numérique au format PDF, quelles sont ses propriétés?» La caractérisation permet d obtenir des information de représentation (concept OAIS) telles que Le chemin ou l URI Le format, la version du format, le type MIME La taille du fichier L empreinte numérique (checksum SHA-1) Journées Réseaux JRES 2007 - Strasbourg 12 Centre Informatique National

La structure du document à archiver Document à archiver composé de deux pièces 1. La description de l archive Fichier sip.xml (schéma http://www.cines.fr/pac/sip.xsd) 3 sections décrivant : Le document dans son projet d archives Le document proprement dit Les fichiers du document 2. Le dossier contenant les documents électroniques à archiver Répertoire «DEPOT» Sous-arborescence autorisée Tout fichier présent doit être décrit dans le fichier sip.xml Journées Réseaux JRES 2007 - Strasbourg 13 Centre Informatique National

Les acteurs Le producteur Personne physique ou morale, publique ou privée, qui a produit, reçu et conservé des archives dans l exercice de son activité. Le service versant Organisation qui transfère une archive à un service d archives Le service de contrôle Personne physique ou morale qui effectue le contrôle scientifique, juridique et technique des documents archivés, et éventuellement valide les demandes de communication d archives Le service d archives Organisation recevant le document à archiver transféré et chargée de la conserver pour permettre à une communauté d utilisateurs/un service demandeur d y accéder et de l utiliser L utilisateur Toute personne ou système client en relation avec le service d archives pour trouver les informations archivées présentant un intérêt, et pour accéder au détail de ces informations, dans le respect de la législation applicable en matière de communication des archives. Journées Réseaux JRES 2007 - Strasbourg 14 Centre Informatique National

Le modèle fonctionnel OAIS (rappel) Journées Réseaux JRES 2007 - Strasbourg 15 Centre Informatique National

L architecture logique de la plateforme Journées Réseaux JRES 2007 - Strasbourg 16 Centre Informatique National

Les échanges Transfert d archives Transmission physique d une archive ou d un ensemble d archives par un service versant à un service d archives Modification d archives Modification des métadonnées et/ou du document pour en assurer la préservation Elimination d archives Elimination des métadonnées et/ou du document à la demande du services d archives, du service versant ou du service de contrôle Restitution d archives Transmission de documents par le service d archives au service versant ou au producteur afin de leur en restituer la garde Communication d archives Transmission de copie de document à un utilisateur ayant l autorisation du service versant et /ou du service de contrôle Journées Réseaux JRES 2007 - Strasbourg 17 Centre Informatique National

Les principes de fonctionnement Trois serveurs logiques : transfert, stockage, accès Serveur Transfert Fonctions réception des SIP détection d un nouveau transfert envoi d un accusé de réception Stockage Accès contrôle des SIP création des AIP archivage des AIP structure informatique conformité des métadonnées sip.xml par rapport au schéma sip.xsd correspondance entre la description sip.xml et les fichiers qui composent le document contrôle et validation du format des fichiers calcul de l empreinte numérique de chaque fichier création de l identifiant du document archivé mise à jour des métadonnées : sip.xml > aip.xml transfert de l AIP au serveur de stockage vérification périodique de l intégrité des AIP archivés migration technologique fourniture d états et de statistiques copie multiple de l AIP sur les différents médias ou supports envoi du certificat d archivage contrôle de l authentification de l utilisateur consultation du catalogue des AIP archivés communication d une copie d un document archivé Journées Réseaux JRES 2007 - Strasbourg 18 Centre Informatique National

Les étapes du versement d archives Journées Réseaux JRES 2007 - Strasbourg 19 Centre Informatique National

Les étapes du stockage d archives PAC Stockage et opération(s) d exploitation Demande d opération Demande d accord Notification d opération Accord? NON Refus OUI OUI OUI Stockage Plannification Opération Accord requis? NON Avis Requis? Accord Exécution Opération Historisation des Changements NON Journées Réseaux JRES 2007 - Strasbourg 20 Centre Informatique National

Les étapes de la communication d archives PAC - Accès au(x) document(s) archivé(s) Demande d accord Accord? OUI NON Vérification Communicabili té OUI Refus Accord Consultation Demande de copie d archive Accord requis? NON Communicatio n Catalogue Document Journées Réseaux JRES 2007 - Strasbourg 21 Centre Informatique National

Etat des lieux (Septembre 2007) Phase 1 : Développement interne d une première plate-forme pour valider les services attendus sur les 2 projets pilotes premiers tests d archivage des thèses en Mars 2007, déployé en production courant Novembre 2007 Protocole transfert Langage Base de données Interface utilisateur Soumission de SIP sur serveur de transfert via SFTP Composants des serveurs développés en Java Base de données PostgreSQL Utilisation de bibliothèques Open Source (module d analyse de fichiers, calcul des empreintes numériques, etc.) Déclenchement des routines (accusé de réception, vérification, archivage) à intervalles réguliers traitement par lots Administration en mode web Phase 2 : Appel d offres en cours pour l acquisition fin 2007d une plateforme de stockage capable de gérer de larges volumes (40 To) Journées Réseaux JRES 2007 - Strasbourg 22 Centre Informatique National

Annexes

Pour en savoir plus : le groupe de travail PIN PIN (pérennisation de l information numérique) groupe de travail de l association Aristote Lieu de rencontre et d échanges entre informaticiens, archivistes et bibliothécaires Principalement animé par le CNES (Claude Huc), la BnF et la DAF Réunions trimestrielles (environ 30 participants réguliers) Un site web : http://pin.cnes.fr Une formation spécialisée (2 sessions par an) Journées Réseaux JRES 2007 - Strasbourg 24 Centre Informatique National