JOURNÉE DE TRAVAIL AERES 19 juin 2009 Comment intégrer XML dans la chaîne de production de nos ouvrages COMPTE RENDU DE LA RÉUNION, ET DÉVELOPPEMENTS POSSIBLES Intervenants : Alain Pierrot, directeur de développement i2s et consultant, et Pierre-Yves Buard (PU Caen) Alain Pierrot nous parle d abord de son expérience, et en particulier comment, il y a six ou sept ans il a été sollicité par la RMN pour la réalisation de catalogues raisonnés. La diffusion était restreinte, les problèmes éditoriaux complexes. Il a, à cette occasion, inversé le processus éditorial et réalisé d abord une base de données. Le catalogue papier devenait un sous-produit de cette réalisation. Notre problème actuel est comment récupérer nos textes à partir de bases de données ou de documents Word. Plusieurs DTD (Document type description) sont disponibles pour produire du XML. Docbook est principalement utilisée pour des documents techniques. En revanche, la TEI (Text Encoding Initiative) offre un choix de balises permettant de construire des DTD aussi bien dans le domaine des sciences que de la littérature. Elle est donc préconisée dans nos productions en sciences humaines. Elle est utilisée par les chercheurs qui travaillent à la description des corpus de texte. Les formats XML de Microsoft et Open Office ne sont pas assez complexes et ne permettent pas les enchâssements des éléments. La chaîne de fabrication incluant le XML se présente ainsi : Stylage de paragraphes et de chaînes de caractères dans un document Word Utilisation d Open Office comme plateforme de conversion vers XML TEI (avec une feuille de transformation XSLT) Importation du XML TEI dans Indesign (avec une autre feuille de transformation et un programme de pilotage d Indesign) L unité de travail est l article ou le chapitre. Elle est toujours composée d un Header et d un Body. Les bibliographies de fin d ouvrage sont traitées comme des articles. La réalisation des deux feuilles de transformation et du programme de pilotage requiert des développements informatiques, en particulier la seconde permettant le passage dans Indesign. Alain Pierrot conseille de contrôler la production jusqu au format final et de ne pas confier aux e-distributeurs nos fichiers à retravailler. (Il conseille E-pagine comme e-distributeur.) Pierre-Yves Buard, des Presses universitaires de Caen, devait intervenir pour présenter la chaîne de production actuellement utilisée par les Presses. Nous avons malheureusement manqué de temps. Sa présentation est jointe dans un fichier PDF. À l issue de la réunion, il est envisagé de former un groupe de travail pour essayer de mettre au point une DTD commune basée sur les recommandations de la TEI pour les membres de l AERES. À ce jour, il semble que seules les presses de Caen ont une chaîne complète de production passant par des fichiers XML (voir le rapport Prost sur l Édition numérique de livres scientifiques et techniques, p. 34 et 77) 1. L ENS a, de son côté, travaillé à la sélection des balises TEI nécessaires à la description de ses textes. Les choix des deux maisons d édition étant très proches, une feuille de style commune a été créée. 1 http://lesrapports.ladocumentationfrancaise.fr/brp/084000335/0000.pdf 1
Lors de la réunion du 26 novembre 2009, une proposition sera faite à tous les membres de l AERES qui désirent se joindre à ce travail : 1) sélectionner de leur côté les balises TEI (éléments et attributs) correspondant à leurs besoins. 2) tester la feuille de style commune à Caen et l ENS, et permettre ainsi d ajouter des éléments qui seraient nécessaires à leurs propres textes dans l optique d une structuration XML TEI La mise en commun et la comparaison des choix opérés par les collègues devraient nous permettre d arriver à une DTD commune qui pourrait alors être diffusée aux autres membres de l AERES. La réalisation de la feuille de transformation permettant l importation des fichiers XML dans Indesign (CS4) pourrait alors être confiée à Alain Pierrot, qui a fait ce travail en collaboration avec les PU Caen pour la CS2. Il pourrait être pris en charge financièrement par l AERES. Des formations spécifiques pourraient alors être organisées en relation avec les PUC et l ENS. DP et PYB 24 novembre 2009 2
Méthode de travail (1) schéma général
Méthode de travail (2) traitement de texte
Méthode de travail (2) traitement de texte Stylage systématique du texte étiquetage de tous les éléments constitutifs du texte (paragraphes et séquences de caractères) c est une étape de pré-structuration
Méthode de travail (3) traitement de texte
Méthode de travail (4) conversion et édition XML
Méthode de travail (4) conversion et édition XML Export XML OpenOffice.org vers XML TEI OpenOffice est utilisé comme plate-forme d exportation exploitation des styles de paragraphes et de caractères pour produire les éléments XML il faut une feuille de transformation XSLT pour réaliser la conversion en XML TEI
Méthode de travail (5) conversion XML XML OpenOffice.org XML TEI
Méthode de travail (6) édition XML
Méthode de travail (6) édition XML Enrichissement de la structure et corrections éditoriales le fichier XML TEI produit présente toutes les qualités nécessaires pour l archivage pérenne (indépendance technique, encodage des caractères en unicode) c est le fichier qui doit contenir la vérité éditoriale et scientifique les interfaces de travail sont entièrement paramétrables
Méthode de travail (7) logiciel de PAO
Méthode de travail (7) logiciel de PAO Importation du fichier XML dans un logiciel de PAO on automatise un maximum de tâches de mise en page à partir de la structure XML
Méthode de travail (8) logiciel de PAO ici toutes les notes marginales sont placées automatiquement à partir du flux XML
Méthode de travail (9) exportation
Méthode de travail (9) exportation En cas de gros volume de corrections après les opérations de mise en page, il est possible d extraire la structure XML directement à partir d InDesign ou via un document de traitement de texte stylé (si la structure XML a été endommagée)
Méthode de travail (10) formes de diffusion
Méthode de travail (10) formes de diffusion Toutes les formes de diffusion sont produites à partir du fichier XML
Exemples (1) Chroniques latines édition bilingue : latin/français en coédition avec le Scriptorial d Avranches édition papier, en ligne et cédérom l édition en ligne permet au lecteur de choisir un parcours par manuscrit accès aux images des manuscrits au cours de la lecture http://www.unicaen.fr/puc/sources/chroniqueslatines/
Exemples (2) Le Roman du Mont Saint-Michel édition bilingue : ancien français/français édition papier, en ligne et cédérom l ancien français versifié rythme la prose de traduction en français exploitation hypertexte du glossaire http://www.unicaen.fr/puc/sources/gsp/
Exemples (3) Corpus Descartes édition intégrale de l œuvre et de la correspondance dans la langue d origine (latin ou français classique) accès en mode image aux éditions de référence (Adam-Tannery, Maire, etc.)
Exemples (4) Ichtya édition bilingue : latin/français édition papier et en ligne accès aux images du manuscrit compatible avec Sourcencyme
Exemples (5) Montedite édition d un cahier de travail de Montesquieu le lecteur établit son interface de lecture en choisissant les éléments affichés http://www.unicaen.fr/puc/sources/montesquieu/