L archivage numérique dans les institutions du savoir CINES (O.Rouchon) Congrès ADBU 18 Septembre 2009
Sommaire La présentation du CINES Le contexte L information scientifique et technique Le cycle de vie des documents L aspect légal de l archivage électronique La problématique de la préservation à long terme Les risques La norme à retenir OAIS La plateforme d archivage du CINES L architecture Les principes de fonctionnement Le dépôt de documents L état des lieux et les perspectives Congrès ADBU - 18/09/2009 2 Centre Informatique National
Le CINES Centre Informatique National Basé à Montpellier (Hérault, France) EPA créé en 1999, succédant au CNUSC (Centre National Universitaire Sud de Calcul) créé en 1980 Placé sous la tutelle de la DGRI (Direction Générale de la Recherche et de l Innovation) et de la DGESIP (Direction Générale pour l Enseignement Supérieur et l Insertion Professionnelle) du Ministère de l Enseignement Supérieur et de la Recherche Missions Calcul numérique intensif (14 ème machine mondiale) Archivage pérenne de documents électroniques Activité transversale : hébergement d'environnements informatiques Plus d information : http://www.cines.fr/ Congrès ADBU - 18/09/2009 3 Centre Informatique National
L information scientifique et technique (1/2) L information scientifique et technique (IST) désigne l ensemble des informations produites ou reçues par les secteurs de la recherche, de l enseignement Elle est définie par : Des contenus constitutifs de connaissances Des supports documentaires Des canaux de communication spécifiques Elle s inscrit dans des formes documentaires diverses : Revues scientifiques, thèses, rapports, actes, ouvrages spécialisés, manuels, bibliographies, résumés, prépublications Brevets, cartes, banques d images et de vidéos, données statistiques De manière plus informelle, hors publication : échanges interpersonnels, courriers électroniques, groupes de discussion, notes de travail, données brutes, etc. Congrès ADBU - 18/09/2009 4 Centre Informatique National
L information scientifique et technique (2/2) Elle est en phase de mutation Les supports documentaires et canaux de communication évoluent Passage massif au numérique Documents nativement au format électronique Opérations de numérisation de masse Les volumes d information croissent de façon exponentielle Ses limites demeurent imprécises Très liée à d autres types d informations produites hors du champ de la recherche Phénomène accentué par les profondes transformations des canaux de communication La préservation à long terme de cette information est impérative, et compliquée par la nouvelle nature de son support (électronique), et un cadre législatif difficile à apprécier. Congrès ADBU - 18/09/2009 5 Centre Informatique National
Le cycle de vie des documents Archives courantes TEMPS Archives intermédiaires Archives définitives ou destruction Création Gestion Diffusion Conservation Cadre d application des outils de diffusion du CINES Cadre d application de la plateforme d archivage du CINES Congrès ADBU - 18/09/2009 6 Centre Informatique National
Les différents types d archives et leur gestion Type Archives courantes Archives intermédiaires Description Les archives courantes regroupent les documents nécessaires à l'activité des services qui les ont produits et conservés pour le traitement de leurs affaires courantes Les données sont stockées et gérées sur la plate-forme de production Les archives intermédiaires ne sont plus utilisées mais restent utiles et doivent être conservées temporairement (besoins administratifs ou juridiques). À l'issue de cette durée de conservation, les archives intermédiaires font l objet d un tri et sont soit conservées définitivement soit éliminées. Soit constitution d'un module d'archivage au sein de l'application de production : implique déjà un tri des données, des modes d'accès et d'interrogation simplifiés avec l'aide et l'expertise du service d'archives compétent (archives départementales, municipales, régionales, mission ou service des archives au sein du ministère ou de l'établissement public) Soit constitution d'un module d'archivage commun à plusieurs processus métiers (un petit service d'archivage électronique au sein du service producteur) : au niveau du service ou d'un ensemble de services ou d'un ministère/collectivité (plusieurs niveaux de mutualisation possibles) toujours avec l'aide et l'expertise du service d'archives compétent Archives définitives Soit transfert vers le service d'archives compétent / voire vers un tiers-archiveurs pour les archives de l'état dès cette étape avec export des données suivant le format spécifié par le standard d'échange des données et, dans le cas d'une externalisation, suivant un cahier des charges établi et contrôlé par le service d'archives compétent. Les délais d'utilité administratives sont dépassés. Les archives définitives ont vocation à être conservées pour des raisons historiques, juridiques ou patrimoniales Les archives sont transférées vers le service public d'archives compétent (archives nationales, archives départementales, archives communales, archives régionales). A ce niveau des mutualisations sont possibles. Congrès ADBU - 18/09/2009 7 Centre Informatique National
Le contexte légal pour l archivage électronique Différentes institutions interviennent au bout de la chaîne fonctionnelle d archivage selon l origine et la nature des documents électroniques Archives départementales (Universités) Archives Nationales (EPA Education Nationale/Enseignement Supérieur) BnF (Dépôt légal : publications, web) CINES (Thèses) Les projets de numérisation/valorisation de documents papier échappent à ce contexte L original papier sera conservé dans le service d archives compétent Possibilité de choisir l institution archivant la version électronique du document Respect impératif du contexte légal Congrès ADBU - 18/09/2009 8 Centre Informatique National
Les acteurs publics de l archivage numérique (1/3) BnF Bibliothèque Nationale de France Projet SPAR (Système de Préservation et d Archivage Réparti) Objets numériques (imprimés, manuscrits, images) issus des filières Numérisation de conservation et de reproduction dans un premier temps ; Archivage du web et des publications électroniques (intégration progressive d ici 3 ans) ; Documents internes issus du Record Management (intégration progressive d ici 3 ans). SPAR n'a pas vocation à être uniquement un outil interne à la BnF. Dans une volonté de mutualisation des expertises et des coûts, la BnF ouvrira son système à d'autres partenaires et institutions offrant ainsi un service de "tiers-archiveur " du patrimoine numérique http://vds.cnes.fr/pin/presentations/2007/presentation_spar.pdf CINES Centre Informatique National Projet PAC (Plateforme d Archivage du CINES) Congrès ADBU - 18/09/2009 9 Centre Informatique National
Les acteurs publics de l archivage numérique (2/3) CNES Centre National d Etudes Spatiales Projet SIPAD (Système d Information de Préservation et d Accès aux Données) Données scientifiques principalement du CDPP (Centre de Données de la Physique des Plasmas) produites dans le cadre de projets d études spatiales (missions), de satellites et de grands observatoires depuis plus de 30 ans : Données numériques (nombres) produites par des logiciels spécifiques : mesures de champs magnétique/électrique et de particules, mesures continues ; Quicklooks : imagettes facilitant la sélection de données ; Documents et logiciels http://vds.cnes.fr/pin/presentations/2008/sipad_cnes.pdf Congrès ADBU - 18/09/2009 10 Centre Informatique National
Les acteurs publics de l archivage numérique (2/3) DAF Direction des Archives de France Projet Pil@e (Pilote d Archivage Electronique) Archives publiques nativement électroniques et numérisées Pilote de la plateforme qui doit être mise en place pour test sur le site de Fontainebleau (Centre des Archives Contemporaines), avant l installation de la plateforme définitive sur le site de Pierrefitte-sur-Seine, actuellement en construction. L ambition de Pil@e est de constituer un noyau réutilisable dans le développement de services d archivage électronique pour les différents services de l Etat ainsi que pour les collectivités territoriales. http://www.aristote.asso.fr/pin/presentations/2007/pilae.pdf Ministère de l Economie, de l Industrie et de l Emploi Projet ARCADE Tous types de documents numériques des ministères économiques et financiers http://www.aristote.asso.fr/files/presentation/arcade.pdf Congrès ADBU - 18/09/2009 11 Centre Informatique National
Le contexte, la problématique et les constats L archivage pérenne des documents électroniques consiste à conserver le document et l information qu il contient : Dans son aspect physique comme dans son aspect intellectuel, Sur le très long terme soit 30 ans et au-delà, De manière à pouvoir le rendre accessible et compréhensible. Or, la plupart des fichiers informatiques de plus de 10 ans sont aujourd hui illisibles : Connaissance perdue du contenu des fichiers, Format de fichier inconnu, Support physique détérioré, Logiciel ou matériel de lecture disparu Congrès ADBU - 18/09/2009 12 Centre Informatique National
Les défis, orientations et choix pour l archivage Contrainte Connaissance du contenu Format de fichier inconnu Support physique détérioré Logiciel ou matériel de lecture disparu Solutions Utilisation de métadonnées Identification unique et pérenne des documents archivés Privilégier les formats durables Identification, validation des formats Migration logique Gestion du vieillissement des médias Migration physique Veille technologique et anticipation Congrès ADBU - 18/09/2009 13 Centre Informatique National
La norme OAIS Reference Model for an Open Archival Information System (Janvier 2002) Modèle de référence pour un Système ouvert d archivage d information Elaborée à l initiative des agences spatiales (CNES, ESA, NASA) Avec le concours d un certain nombre de représentants d archives nationales et de grandes bibliothèques (NARA, Bibliothèque du Congrès, BnF ) Norme internationale ISO 14721 depuis 2003 Version française également normalisée à l ISO : http://vds.cnes.fr/pin/documents/norme_oais_version_francaise.pdf Fait l objet d un processus de révision qui a démarré en 2007 Proposer un cadre normatif général pour : définir les concepts indispensables à la compréhension de l archivage numérique fournir un modèle purement conceptuel, sans aucune recommandation technique Permettre de comparer l organisation, l architecture et le mode de fonctionnement des archives existantes et futures Constituer un guide pour l identification et la production de normes dans ce domaine Congrès ADBU - 18/09/2009 14 Centre Informatique National
Périmètre de la norme Ce que la norme définit : Un vocabulaire Un modèle d'information définissant une typologie des catégories d information Les entités fonctionnelles concernées par la problématique d'archivage et les interactions entre ces entités Des analyse complémentaires relatives à la problématique de pérennisation : migrations, coopérations entre archives... Ce qu'elle NE définit PAS Méthode pour la mise en œuvre Modèle non applicable directement Directives de méthodes de préservations (formats de données, de supports) Congrès ADBU - 18/09/2009 15 Centre Informatique National
La mission d archivage du CINES Depuis 2004, le CINES a une mission nationale d archivage du patrimoine scientifique. Arrêté du 7 août 2006 relatif aux modalités de dépôt, de signalement, de reproduction, de diffusion et de conservation des thèses ou des travaux présentés en soutenance en vue d un doctorat Convention du 2 mai 2007 (faisant suite à celle du 15 octobre 2003) relative à la mise en ligne et l archivage pérenne de données numérisées dans le cadre du programme Persée Lettre de cadrage du 12 février 2008 recentrant les activités du CINES autour de deux missions stratégiques : le calcul intensif et l archivage pérenne Pour la remplir, le CINES a mis en place le projet PAC, qui a doté le CINES d une plate-forme et d un service d archivage numérique pérenne Congrès ADBU - 18/09/2009 16 Centre Informatique National
Le service d archivage pérenne du CINES Objectifs : la mise en place d une solution Performante pour la conservation à long terme du patrimoine numérique des établissements Economique et sécurisée Contraintes Besoin d une solution générique, basée sur les normes du domaine Facilité de veille technologique et de migration Les données concernées sont : Les données scientifiques résultats d observations ou de calcul Les données patrimoniales pédagogiques, publications, etc. Les données administratives archives intermédiaires Dans le respect du contexte législatif archivistique français Congrès ADBU - 18/09/2009 17 Centre Informatique National
Les normes et standards utilisés OAIS - ISO 14721 : Reference model for an Open Archival Information System Modèle purement conceptuel, ne fait aucune recommandation technique P2A Politique et pratiques d archivage (sphère publique) Recommandations en termes d architecture, moyens, sécurité, etc. Standard d échanges de données pour l archivage électronique, versement, communication, élimination DAF, DGME, version 1.0, mars 2006. Normes internationales de description archivistique ISAD-G international standard for archival description, general ISAAR-CPF international standard archival authority record, corporate bodies, persons & families Métadonnées descriptives de l archive DCMI Dublin Core Metadata Initiative Identifiant unique et pérenne Interne, séquentiel, couplé à un identifiant persistant externe ARK Empreintes numériques Hashing MD5, SHA-256 Congrès ADBU - 18/09/2009 18 Centre Informatique National
Les types de documents à archiver de façon pérenne Présentant une valeur patrimoniale scientifique ou technique De préférence des objets dits «primaires» Documents originaux, Bruts de scan, etc. Dans un format identifié et vérifiable : Format publié Format largement utilisé (ou promis à l être) Format normalisé si possible Type Texte Image Audio Vidéo Format HTML, PDF, TXT, XML, ODT GIF, JPEG, TIFF, PNG, SVG WAV, AIFF, AAC, VORBIS MJPEG2000, MPEG4, THEORA Le système PAC est interfacé avec les outils Jhove, ImageMagick, DROID, ODF Validator, MEncoder pour Identifier, Valider, Caractériser, Le format des fichiers transférés Congrès ADBU - 18/09/2009 19 Centre Informatique National
L architecture logique de la plateforme PAC Service de Contrôle PAC : Plateforme d archivage du CINES Producteur Service Versant Serveur de Transfert Serveur de Stockage Serveur d Accès Utilisateur Administrateur Congrès ADBU - 18/09/2009 20 Centre Informatique National
Les étapes du versement d archives Serveur de Stockage Serveur de Versement Service Versant Congrès ADBU - 18/09/2009 21 Centre Informatique National
L initiation d un projet d archives Qui? Tout organisme Produisant ou collectant en grande quantité des documents électroniques dont le contenu possède une valeur patrimoniale scientifique ou technique, Doté d un système informatique pouvant être interfacé avec la plateforme PAC Comment? Deux phases 1. Phase préliminaire durant laquelle les points suivants sont abordés : L identification des informations à pérenniser La liste des données et métadonnées transmises au CINES (format, taille, nombre ) L analyse de faisabilité (sécurité, aspects légaux, coûts et risques ) ; L évaluation de la volumétrie et des ressources requises. 2. Phase dite de définition La définition précise des objets à transférer Les termes et conditions du protocole de transfert (restrictions d accès, communicabilité au public) Le niveau de préservation attendu La planification des transferts physiques ; La formation du personnel du service versant à l utilisation du système PAC Les accords trouvés pendant cette seconde phase sont matérialisés dans la convention passée entre l organisme et le CINES Congrès ADBU - 18/09/2009 22 Centre Informatique National
L état des lieux et les perspectives La Plateforme d archivage au CINES PAC v2.0 capable de gérer de larges volumes (40 To) est en exploitation depuis Mai 2008. Volumétrie archivée 1,5To (au 31 Août 2009) Tous les projets d archives partagent la même plateforme Mutualisation de l infrastructure matérielle d archivage Protocole de versement générique Diminution des coûts de mise en place et d exploitation Le CINES est maintenant un acteur reconnu du domaine de la préservation à long terme des documents numériques. Fort de la mission nationale que lui a confiée le MESR (centre officiel d archivage des thèses électroniques) Il est appelé à jouer un rôle clé dans la réussite au niveau national d une stratégie pour l archivage pérenne des documents électroniques produits par la communauté Université- Recherche. Il reçoit aujourd hui de nombreuses sollicitations émanant d universités, de bibliothèques ou de laboratoires, pour divers services dans ce domaine Objectifs 2009-2011 : La poursuite et le développement de tous ces projets, La consolidation et la professionnalisation du service La mise en place démarche de certification du service d archives à la fin 2011 Congrès ADBU - 18/09/2009 23 Centre Informatique National
Questions & Réponses Congrès ADBU - 18/09/2009 24 Centre Informatique National
Annexes
Pour en savoir plus : le groupe de travail PIN PIN (pérennisation de l information numérique) groupe de travail de l association Aristote Lieu de rencontre et d échanges entre informaticiens, archivistes et bibliothécaires Principalement animé par le CINES, le CNES, la BnF et la DAF Réunions trimestrielles (environ 30 participants réguliers) Un site web : http://pin.cnes.fr Une formation spécialisée (2 sessions par an) Congrès ADBU - 18/09/2009 26 Centre Informatique National
Le modèle fonctionnel OAIS Congrès ADBU - 18/09/2009 27 Centre Informatique National