Politiques de préservation numérique à la Bibliothèque nationale de France L écosystème de SPAR Louise Fauduet Département de la Conservation
Numérisation de valorisation Du numérique à foison Numérisation de préservation Né numérique 2
Du numérisé Déjà plusieurs «strates» de numérisation 3
Qu a-t-on numérisé? D abord du papier : livres, images, presse, etc. Puis des objets : maquettes, statues, etc. Et de l audiovisuel : «plan de sauvegarde» des cassettes audio, VHS, disquettes, CD, CD-ROM, etc. Certains déjà numériques Des originaux rares, précieux, fragiles Des versions numériques plus ou moins fidèles à l original 4
Comment? Choix techniques : Liés aux objectifs Diffusion, préservation, les deux Aux moyens techniques à une date donnée Format de fichier, résolution, couleur Mode image, texte (OCR), table des matières et autres enrichissements (entités nommées, etc.) 5
Comparons Débuts de la numérisation N&B - 300dpi -TIFF G4 1 page ~ 200Ko Numérisation maintenant Couleur 400dpi TIFF non compressé 1 page ~ 80Mo Plus de 500 fois plus! 6
Du né-numérique Une masse et une diversité croissantes Beaucoup de questions 7
Livres, périodiques, bases de données Acquis ou accessibles? Sous licence locale ou globale? Catalogués ou indexés? Libres ou protégés (DRM)? PDF, HTML, EPUB, indéterminés? Quelles relations au «papier» : copie exacte, contenu similaire, genre totalement nouveau? Sans oublier les éditions électroniques de la bibliothèque elle-même 8
Comparons 9
Internet Nombre de sites Dépôt légal de l internet : à la BnF et à l INA, depuis 2006 (décret d application fin 2011) Collectes larges : - annuelles - internalisées en 2010 Collectes projet : - ponctuelles - liées à un événement ou un thème particulier Collectes courantes : - sur toute l année - sites d actualité ou de référence Année calendaire 10
Archives Archives de la BnF elle-même Archives privées, achetées ou reçues Quels droits sur les documents? Archives internes : conservation pendant la période d utilisation courante (GED), et après? Archives de tiers : qu est-ce qui a été négocié? Quelle variété de documents? Progiciels, environnements numériques de travail, e- mails, etc. 11
Résultat, du numérique partout Communication site Web institutionnel Collections 14 départements collections numériques (acquisition, signalement, gestion et diffusion) Services et réseaux Systèmes d information Dépôt légal Dépôt légal numérique Coopération Gallica (contenu) Information bibliographique et numérique prospective, standards métadonnées numérisation Conservation préservation du numérique 12
Gérer la diversité Dans l idéal : un plan de conservation commun pour toutes les collections, physiques et numériques définissant des niveaux de services Quelques initiatives intéressantes dans la définition de niveaux de services Article de la National Library of Australia Travaux de la National Digital Stewardship Alliance (organisation d institutions américaines) 13
Preservation Intent à la BN d Australie L article : 'Oh, you wanted us to preserve that?!' Statements of preservation intent for the National Library of Australia's digital collection http://www.nla.gov.au/our-publications/staff-papers/oh-you-wanted-us-to-preserve-thatstatements-of-preservation-intent Un exemple : les cartes The Library's digital Maps collection includes born digital images from internal and external sources. As a largely published collection, Maps should consider the Preservation Intent of related institutions in determining intention to preserve. Maps intend that: All Maps digital preservation masters should be retained in perpetuity, including all metadata. All technical properties should be maintained to the full extent possible. Derivative copies created for access should be maintained only for as long as useful; a new derivative version may be generated according to future access requirements. Born digital maps and map related material coming from external and internal sources should be treated similarly. «http://www.nla.gov.au/content/statements-of-preservation-intent 14
NDSA Levels of Digital Preservation Storage and Geographic Location Level One (Protect Your Data) Two complete copies that are not collocated For data on heterogeneous media (optical disks, hard drives, etc.) get the content off the medium and into your storage system Level Two (Know Your data) At least three complete copies At least one copy in a different geographic location Document your storage system(s) and storage media and what you need to use them Level Three (Monitor Your Data) Level Four (Repair Your Data) At least one copy in a geographic At least 3 copies in geographic location with a different disaster locations with different disaster threat threats. Obsolescence monitoring process for Have a comprehensive plan in place your storage system(s) and media that will keep files and metadata on currently accessible media or systems File Fixity and Data Integrity Check file fixity on ingest if it has been provided with the content Create fixity info if it wasn t provided with the content Check fixity on all ingestsuse writeblockers when working with original media Virus-check high risk content Check fixity of content at fixed intervals Maintain logs of fixity info; supply audit on demand Ability to detect corrupt data Virus-check all content Check fixity of all content in response to specific events or activities Ability to replace/repair corrupted data Ensure no one person has write access to all copies Information Security Identify who has read, write, move, and delete authorization to individual files Restrict who has those authorizations to individual files Document access restrictions for content Maintain logs of who performed what actions on files, including deletions and preservation actions Perform audit of logs Metadata File Formats Inventory of content and its storage location Ensure backup and non-collocation of inventory When you can give input into the creation of digital files encourage use of a limited set of known open file formats and codecs Store administrative metadata Store transformative metadata and log events Inventory of file formats in use Store standard technical and descriptive metadata Monitor file format obsolescence issues Store standard preservation metadata Perform format migrations, emulation and similar activities as needed http://blogs.loc.gov/digitalpreservation/2012/11/ndsa-levels-of-digital-preservation-release-candidate-one/ 15
PAC (Plate-forme d'archivage du CINES) Comment archiver au CINES http://www.cines.fr/spip.php?rubrique225 «Archivage de documents n ayant plus une utilité courante. Mise en place d un plan de classement et sélection intelligente des données : ce document doit-il être archivé et pourquoi? ( ) Vérification du contexte légal de production de l archive : droits de propriété intellectuelle sur les documents à archiver. Les données doivent pouvoir être converties dans un des formats de données pris en charge par la plateforme du CINES. Ceci facilitera les futures migrations des documents : (FACILE)!. Mise en place d un protocole de versement avec des métadonnées explicites» 16
L outil SPAR en contexte Applications de production de données Applications de diffusion de données Numérisation de conservation. Production administrative. wayback Archivage WEB 17
Les filières Les collections numériques de la BnF sont multiples évoluent rapidement Les acteurs du numérique aussi Les filières définissent de grandes catégories en fonction du statut légal des documents du rapport entre Producteur et Archive non d une entité transitoire dans l organigramme vues sous l angle des entités OAIS : Versement, Préservation et Accès 18
Pourquoi des «filières»? Les collections numériques de la BnF sont multiples évoluent rapidement Les acteurs du numérique aussi Les filières définissent de grandes catégories en fonction du statut légal des documents du rapport entre Producteur et Archive non d une entité transitoire dans l organigramme vues sous l angle des entités OAIS : Versement, Préservation et Accès 19
Les filières Numérisation de conservation Audiovisuel et multimédia Numérisation de consultation Dépôt légal automatique Dépôt légal négocié Production administrative/ technique Dons et acquisitions Tiers archivage 20
Les filières et les chaînes Une filière se décline en chaînes aux caractéristiques techniques propres Filière Contrat de service Politiques Accès Préservation Versement Chaine A AQS-V Chaine B Chaine 21
A chaque chaîne sa politique Politique de versement : caractéristiques de la négociation et du protocole de versement Qui négocie? Que négocie-t-on? : droit, format, volumétrie, flux Politique d archivage : caractéristiques de la conservation Que conserve-t-on? : données, métadonnées, systèmes de représentation original, master, produits dérivés Comment conserve-t-on? : à l identique (train original des bits), émulation, migration Combien de temps conserve-t-on? 22
A chaque chaîne sa politique (suite) Politique d accès : caractéristiques de l accès Avec ou sans restriction Avec ou sans services supplémentaires (ex. veille des formats) Immédiat ou différé Direct (applicatif DSI) ou indirect Sur place, à distance Volumétrie des transactions 23
Quels moyens humains? Lors de l instruction d une nouvelle chaîne : Équipe de développement : 2 informaticiens, 2 bibliothécaires, en lien avec les prestataires Représentants de la chaîne : en général 2 à 3 experts En cours de production : Équipes de production du DSI Équipes de développement pour les évolutions Représentants des communautés d utilisateurs 24
Préserver la chaîne elle-même 3 AQS: Versement, Préservation, Accès Formalise en xml les conditions d exploitation des paquets Ces 3 AQS sont enregistrés dans un paquet de référence descriptif de la chaîne Mets.xml Contrat de service.pdf AQS-V.xml, AQS-P.xml, AQS-D.xml 25
Description de chaîne (exemple) <sla:servicelevelagreement> <sla:header> <sla:channelidentifier>fil_num_cons_a</sla:channelidentifier> <sla:type>info:bnf/spar/context/channel#ingest</sla:type> </sla:header> <sla:packageattribute> <sla:minsize unit="kilobyte">42</sla:minsize> <sla:maxsize unit="gigabyte">5</sla:maxsize> <sla:maxnumberoffiles>32</sla:maxnumberoffiles> <sla:packagecontent> <sla:formatcategory type="info:bnf/spar/representation#storedformat" order="deny,allow"> <sla:formatlist action="deny"><format>*</format></sla:formatlist> </sla:formatcategory> <sla:formatcategory type="info:bnf/spar/representation#managedformat" order="deny,allow"> <sla:formatlist action="allow"> <format type="ark">ark:/12148/ftiff_6_0w</format> </sla:formatlist> <sla:formatlist action="deny"><format>*</format></sla:formatlist> </sla:formatcategory> </sla:packagecontent> </sla:servicelevelagreement> 26
AQS : prise en compte dans le système P r é - v e r s e m e n t A quel format ai-je droit? SIP Quelle est la taille maximum d un paquet? versement AIP Préservation Administration mets Gestion Combien des données de copies dois-je faire, sur quels supports? Stockage rdf Service d abstraction du stockage AIP Accès rdf Dois-je journaliser les demandes de paquets? DIP 27
Au planning 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 étude infrastructure GT appel d offre cœur et num cons. mise en production mai 2010 renouvellement groupes de travail autres fonctionnalités TA Admin AV DLW GT nouveau 28 marché
Toujours plus Nombre de paquets 600000 500000 400000 300000 200000 100000 0 400,00 350,00 300,00 250,00 200,00 150,00 100,00 50,00 0,00 Taille (To) Paquets cumulés Taille cumulée (To) 29
Pour les tiers Tiers-archivage seul Préservation lors de programmes combinés à tarif réduit (à partir de -80%) http://www.bnf.fr/fr/professionnels/numerisation/a.bnf_archi vage_numerique.html Espace coopération en cours de développement pour la gestion des documents préservés à la BnF Contacter Catherine Dhérent à la direction des Services et réseaux 30