Conservation des documents numériques Qu'est ce qu'un document numérique? Matthieu GIOUX matthieu.gioux@bnf.fr
Contexte de la préservation des documents numériques
Une croissance en expansion Développement massif et rapide de l'information numérique. Documents souvent produits directement sous forme numérique Tous les secteurs d activités sont concernés (données bancaires, données culturelles, données militaires ) Le marché du numérique s'élargit (Ordinateur personnel, lecteur mp3, tablette ) Une croissance annuelle de 50% à 100% du volume d information crée, transmis, archivé Au moins un facteur 10 tous les 5 ans, parfois beaucoup plus (Volume à stocker, sécuriser et sauvegarder : évolutions des disques durs et des serveurs)
L accroissement global de la collection numérique
L accroissement de la collection par numérisation
Une information puissante Cette forme d'information offre des possibilités infinies d'utilisation et de traitement (puissants calculs, statistiques, moteurs de recherches ) Permet la représentation des textes, des nombres, du son, de l image fixe et animée, et de toutes les combinaisons de ces dernières (Epub)
Une information "sensible" L'automatisation des traitements en masse pose des problèmes Possibilités d altération, de falsification (retouche sur les images), de corruption, de perte des documents Caractère de plus en plus dynamique des documents (site Web ) Rythme soutenu de l évolution technologique Une grande vulnérabilité au temps Accès aux données via un dispositif indispensable de lecture impliquant du matériel et du logiciel
Une information "sensible" L intégrité de la donnée numérique peut être affectée sévèrement par certaines évolutions de son environnement Environnement de conservation Environnement technologique La chute d un support numérique de données peut avoir des conséquences sévères (CDRom, DVD )
Objectifs de la conservation
Quelques exemples de magasins BnF
Bussy saint Georges/I La filmothèque de sécurité
Le site de Bussy-Saint-Georges/II
Conservation à Long Terme L'objectif de la Préservation numérique est de maintenir la capacité d'utiliser les collections numériques sur le long terme Long terme : période assez longue pour que l on se soucie de l'impact des évolutions environnantes Période qui peut s étendre à l infini
Qu est ce qu une information? Elément de connaissance susceptible d être codé pour être conservé, traité ou communiqué. Information produite en général par un capteur qui détecte un phénomène Puis confiée à un système de conservation pour ne pas être perdue
Qu est ce qu une donnée? Une "donnée" est un conteneur porteur d une information (ou d un fragment d information) Un individu doit pouvoir en dériver une information utile à sa connaissance L information devient numérique par application d'un processus de transformation (numérisation)
Pérennisation La conservation de l'information sous une forme correcte et directement utilisable à Long Terme comprend : la conservation physique des fichiers, des métadonnées associées, scripts et programmes l'assurance d'une utilisation continue de la collection d'images numériques Maintenir la sécurité de la collection Pérenniser de l information n'est pas seulement la stocker L'information doit être comprise et utilisée sans devoir recourir à des ressources spécifiques (émulation)
Aspects techniques du document numérique
Le document numérique : un document électrique L informatique utilise des courants électriques, des aimantations, des rayons de lumière... Chacun de ces phénomènes met en jeu deux états possibles traduits par 2 chiffres : 0 et 1, c est la numération binaire Un rayon de lumière peut parfaitement traduire ces deux valeurs : 1 = lumière = blanc = tension positive 0 = pas de lumière = noir = tension négative 1001010
Codage et interfaces Chaque chiffre binaire (0 ou 1) =1 BIT, 8 chiffres = 1 octet : soit 256 signes Le Codage donne une correspondance entre le binaire et le caractère (ASCII) L'ordinateur et ses périphériques ne sont capables de comprendre que le code binaire (Notepad) Pour conserver la lettre il faut stocker son code binaire Pour que la machine récupère la lettre elle doit avoir un code strictement identique à sa création.
Communication en couches Un code fait correspondre un signe d'un langage au signe d'un autre langage Pour rendre la richesse d'un document et calculer, programmer, plusieurs couches vont s'intercaler entre l'utilisateur et la machine Stockés sur des disques durs, des Bits combinés en un code binaire (ASCII) interprété par NotePad lui-même piloté par Windows permet l affichage d une lettre sur l écran. Chaque couche communique avec sa voisine grâce au codage et à l'interfaçage
Couches d'information à préserver Système Modèle d'information Niveau applicatif Manipulation des objet pour les présenter aux utilisateurs Niveau graphique Aggrégation en structure de données primitives Niveau programmation (interpreteur, compilateur) Rend les objets compréhensibles par une application Niveau système d'exploitation Bits organisés en blocs dans des Fichiers systèmes BIOS Niveau physique Interface qui permet aux couches supérieures de spécifier l'emplacement et la taille du flux de bits Couche application : Analyse et affichage Couche objet : Format d'objet Couche Structure : Types de données Couche binaire : Flux de bits Couche physique : Format de stockage e.g. ISO 9660 pour les CD
Insfrastructure de stockage bandes
Magasin numérique Sun StorageTek SL8500 jusqu à 64 lecteurs jusqu à 8500 cartouches jusqu à 8 bras jusqu à 32 robotiques liées Stockage principal 3 robotiques 340 To par robotique Stockage de secours 1 robotique 4,25 Po par robotique
Conservation physique vs conservation numérique : Comparaison des coûts sur 50 ans
L'objet numérique : synthèse Objet d'information avec un contenu intellectuel : préserver les données consiste à conserver l'exacte succession des bits préserver l'accès consiste à effectuer la correspondance entre les codes et les langages de format Offrir des moyens de consultation consiste à maintenir, faire migrer, émuler
Gestion des documents numériques Nécessite de reconnaître : Le type de fichier La composition du fichier La composition du document Implique de savoir : Gérer les supports et les lecteurs Préserver l'accès Nécessite d'avoir des éléments techniques et de description permettant la recherche et la veille technologique pour "pérenniser l'accès"
Recommandations pour préserver l'accès Demander un code source et une documentation adéquate sur les applications d accès clé Ne pas tenter de préserver l accès via une application pour laquelle on ne dispose que d un exécutable pour l application Ne pas utiliser de formats ou d applications propriétaires ou privés pour fournir l accès aux fonds qui doivent être préservés à long terme. Choisir des niveaux de qualité permettant la réutilisation sur le long terme