Projet PIL@E Gestion des Formats de Fichier Version du 25 avril 2007
Ce document a été réalisé par le département de l innovation technologique et de la normalisation de la Direction des Archives de France (DAF) du ministère de la culture et de la communication Avec le concours de la Direction générale pour la modernisation de l Etat (DGME) du ministère de l Economie, des finances et de l industrie Sur la base d une prestation de Cecurity.com et de Hénon Conseil 2/8
SOMMAIRE 1. INTRODUCTION...4 2. VOCABULAIRE...4 3. APPROCHE EN MATIERE DE GESTION DE FORMATS...5 4. PRINCIPES DE SELECTION DES FORMATS EN ENTREE...5 5. PRINCIPES DE SELECTION DES FORMATS CIBLES D'ARCHIVAGE...6 6. LES FORMATS EN ENTREE...7 7. LES FORMATS CIBLES D'ARCHIVAGE...8 3/8
1. INTRODUCTION Le présent document vise à présenter la stratégie retenue par la Direction des Archives de France en matière de sélection des formats de fichiers pour l'archivage à long terme. Elle respecte les principes d intéropérabilité édictés pour l Administration. Ce document fournit les principes de sélection des formats en entrée d'un système d'archivage et les formats d'archivage cibles ainsi que les listes des formats en entrée et des formats cibles retenus à ce jour. 2. VOCABULAIRE Les définitions suivantes s'appliquent au présent document. Nom Format d'entrée Format d'archivage Convertisseur Testeur Etat technique du système de conversion Etat technique d'un logiciel de test et/ou de conversion Définition Format des fichiers en entrée du système d'archivage Format retenu pour l'archivage à long terme des documents dans le système d'archivage Logiciel permettant de convertir soit un fichier d'un format dans un autre, soit un même format d'une version dans une autre version Logiciel permettant de vérifier si un fichier est bien conforme aux spécifications du format dans lequel il est censé être encodé Etat qui est la somme des états de chaque logiciel de conversion Regroupement des éléments suivants : Nom du logiciel Version de ce logiciel Date d'installation de ce logiciel dans le système d'archivage S'il y a lieu, fichier de paramètres. 4/8
3. APPROCHE EN MATIERE DE GESTION DE FORMATS L'approche retenue par la Direction des Archives de France pour la gestion repose sur six règles de base : Nombre optimisé de formats acceptés en entrée (les formats pris en compte doivent largement couvrir les besoins de l'administration sans toutefois être trop nombreux) ; Nombre restreint de formats cibles (trois ou quatre formats au maximum pour chaque domaine : images, textes, plans, messagerie électronique, fichiers comprimés, etc.) ; Tests des formats en entrée grâce à un testeur afin de s'assurer de la conformité de ces formats à leurs spécifications ; Si le format en entrée n'est pas un format cible, conversion systématique dès le transfert des formats d'entrée vers les formats d'archivage grâce à un convertisseur ; Archivage dans un journal des opérations de test et de conversion (avec conservation de l'état technique des logiciels de test et de conversion et de l état technique des systèmes de conversion) ; Durant le processus d archivage, opérations programmées de conversions périodiques des fichiers archivés dont le format va devenir obsolète à moyen terme (veille technologique). 4. PRINCIPES DE SELECTION DES FORMATS EN ENTREE Les formats d'entrée sont forcément plus nombreux que les formats d'archivage. Cependant, il convient de limiter le nombre des formats en entrée afin de faciliter les conversions de ces formats vers les formats d'archivage. Les formats en entrée doivent posséder les caractéristiques suivantes : L usage du format doit être significativement répandu dans l'administration dans un domaine fonctionnel spécifique (par exemple, pour la gestion de cartes géographiques, il doit être présent sur un nombre minimum de postes informatiques au sein de l'administration) ; Il ne doit pas y avoir de licence pour obtenir le contenu des spécifications ou pour écrire des logiciels qui exploitent ce format. Il doit exister au moins un logiciel de conversion de ce format vers un des formats retenus comme format d'archivage. 5/8
5. PRINCIPES DE SELECTION DES FORMATS CIBLES D'ARCHIVAGE Afin que le système soit administrable sur le long terme, il convient de ne retenir qu'un nombre restreint de formats cibles pour l'archivage. Les règles de sélection de ces formats cibles sont les suivantes : Le format doit reposer sur une norme nationale, européenne ou internationale ; Dans le cas où le format ne repose pas sur une norme, les spécifications de ce format doivent être publiques et facilement accessibles ; Le format doit être très largement répandu en termes d'usage ; La stabilité du format doit être "raisonnable", c'est à dire que le renouvellement des versions ne doit pas s'effectuer trop rapidement (2 à 3 ans est une périodicité acceptable) ; Il doit exister au moins 2 logiciels, d'éditeurs différents, disponibles sur le marché français ou européen qui exploitent ce format ou il doit exister un logiciel en "Open Source" qui gère ce format. Ces logiciels doivent a minima permettre l'affichage, et l'impression des documents ; Il ne doit pas y avoir de licence pour obtenir le contenu des spécifications ou pour écrire des logiciels qui exploitent ce format ; Le format doit être présent dans le RGI (Référentiel Général d'interopérabilité). 6/8
6. LES FORMATS EN ENTREE Les formats suivants sont les formats acceptés en entrée. La colonne de droite du tableau indique le format cible d'archivage correspondant au format en entrée. Type de données Format accepté en entrée Version(s) supportée(s) Format cible d'archivage Images fixes Son et Vidéo Documents structurées et non structurés Formats composites Documents structurés PNG 1.0/1.1/1.2 PNG GIF GIF89a PNG JPEG 2000 (jp2) ISO/IEC 15444:2000 JPEG 2000 JPEG (jfif, jpg) ISO 10918 JPEG TIFF 6.X TIFF BMP N/A JPEG 2000 PCX N/A JPEG 2000 MPEG-2 Layer III (MP3) MPEG-2 Layer III (MP3) WAV MPEG-2 Layer III (MP3) MPEG-2 ISO/CEI 13818 MPEG-2 MPEG-4 ISO/CEI 14496 MPEG-4 HTML 2/3.2/4.0/4.1 HTML XHTML 1.0/1.1 XHTML OpenDocument ISO 26300:2006 OpenDocument MSoffice DOC 97/2000/XP ; 95 ; 6.0 OpenDocument Msoffice XLS 97/2000/XP ; 95 ; 5.0 OpenDocument Msoffice PPT 97/2000/XP OpenDocument Msoffice DOC 97/2000/XP ; 95 ; 6.0 PDF/A (ISO 19005) Msoffice XLS 97/2000/XP ; 95 ; 5.0 PDF/A (ISO 19005) Msoffice PPT 97/2000/XP PDF/A (ISO 19005) PDF/A PDF 1.4 PDF/A (ISO 19005) PDF 1.3 ; 1.4 ; 1.5 ; 1.6 PDF/A (ISO 19005) RTF 1.5 ; 1.7 ; 1.8 PDF/A (ISO 19005) CSV N/A CSV TXT N/A TXT ZIP 10.X Format Original WinRAR 3.X Format Original Sit Format Original E-mail RFC 2822 + RFC 2045 E-mail + pièces jointes XML 1.0 XML XSD 1.0 XSD XML validé par XSD XML 1.0 XML SGBD N/A TXT Données graphiques SVG 1.1 SVG DWG R2007/R2004/R2000/R14/R13/R1 SVG 2/R11/R10/R9 DXF v.u.21.1.01/v.u.20.1.01/v.u19.1.01 SVG /v.u18.1.01/v.u16.1.01/v.u15.0.02/ v.u14.1.04/v.u13.1.0 CGM ISO 8632:1992 CGM STEP ISO/10303 STEP 7/8
7. LES FORMATS CIBLES D'ARCHIVAGE Les formats suivants ont été retenus comme format d'archivage. Type de données Format cible d'archivage Version Images fixes Images animées et sons Documents structurées et non structurés PNG 1.0 JPEG 2000 ISO/IEC 15444:2000 JPEG ISO 10918 TIFF 6 MPEG-2 Layer III (MP3) ISO/CEI 13818 MPEG-4 ISO/CEI 14496 HTML 2/3.2/4.0/4.1 XHTML 1.0/1.1 OpenDocument ISO 26300:2006 PDF/A ISO 19005 PDF 1.4 CSV N/A TXT N/A Messageries E-mail + pièces jointes RFC 2822 + RFC 2045 Documents structurés Données graphiques XML 1.0 XSD 1.0 TXT N/A SVG 1.1 CGM ISO 8632:1992 STEP ISO/10303 8/8