TranScript : édition et visualisation ultradiplomatique de corpus manuscrits

Documents pareils

GUIDE Excel (version débutante) Version 2013

1 CRÉER UN TABLEAU. IADE Outils et Méthodes de gestion de l information

MAÎTRISE DE L ENVIRONNEMENT WINDOWS VISTA

Annotation collaborative en ligne de l'archive manuscrite

Publier dans la Base Documentaire

Création d une SIGNATURE ANIMÉE avec PHOTOFILTRE 7

Parcours FOAD Formation EXCEL 2010

iil est désormais courant de trouver sur Internet un document

Utilisation de l éditeur.

Infolettre #18 : Les graphiques avec Excel 2010

Évaluation des compétences. Identification du contenu des évaluations. Septembre 2014

Débuter avec Excel. Excel

Troisième projet Scribus

Synoptique des icônes Interwrite Workspace

Table des matières A. Introduction... 4 B. Principes généraux... 5 C. Exemple de formule (à réaliser) :... 7 D. Exercice pour réaliser une facture

«Manuel Pratique» Gestion budgétaire

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

VOCABULAIRE LIÉ AUX ORDINATEURS ET À INTERNET

Mon aide mémoire traitement de texte (Microsoft Word)

Ecrire pour le web. Rédiger : simple, concis, structuré. Faire (plus) court. L essentiel d abord. Alléger le style. Varier les types de contenus

Support de formation Notebook

CMS Modules Dynamiques - Manuel Utilisateur

Initiation à Excel. Frédéric Gava (MCF)

Publier un Carnet Blanc

Comment mettre en page votre livre

Premiers Pas avec OneNote 2013

Programme détaillé. LES TABLEAUX DE BORD Formation en présentiel (21 h) accompagnée d un parcours e-learning Excel (5 h)

Rédiger pour le web. Objet : Quelques conseils pour faciliter la rédaction de contenu à diffusion web

Atelier Formation Pages sur ipad Pages sur ipad

LES DOSSIERS DOCUMENTAIRES ELECTRONIQUES. Clotilde VAISSAIRE CV CONSEIL SARL

Guide de l utilisateur. Faites connaissance avec la nouvelle plateforme interactive de

ZOTERO Un outil gratuit de gestion de bibliographies

Niveau 1. Atelier d'initiation à l'ordinateur ... Fondation de la Bibliothèque Memphrémagog inc. Magog (Québec) J1X 2E7 Tél.

Indications pour une progression au CM1 et au CM2

RACCOURCIS CLAVIERS. DEFINITION : Une «combinaison de touches» est un appui simultané sur plusieurs touches.

Maîtriser les fonctionnalités d un traitement de texte (Word OpenOffice)

Université de Lorraine Licence AES LIVRET DE STAGE LICENCE

Styler un document sous OpenOffice 4.0

Une ergonomie intuitive

Dossier I Découverte de Base d Open Office

Formation tableur niveau 1 (Excel 2013)

NORMES DE PRÉSENTATION DES MANUSCRITS

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Le cas «BOURSE» annexe

Tutoriel BLOGGER. Pour vous donner une idée, voici un exemple de blog :

COMMENT REDIGER UN RAPPORT TECHNIQUE?

Méthode du commentaire de document en Histoire

Guide d usage pour Word 2007

Guide du RDAQ. Comment saisir des descriptions de fonds et collections dans le Réseau de diffusion des archives du Québec (RDAQ)

Tutoriel. Votre site web en 30 minutes

SOMMAIRE AIDE À LA CRÉATION D UN INDEX SOUS WORD. Service général des publications Université Lumière Lyon 2 Janvier 2007

Comment utiliser WordPress»

Nom de l application

LPP SAINT JOSEPH BELFORT MODE OPERATOIRE ACTIVINSPIRE. Bonne utilisation à toutes et tous! UTILISATION DES TBI LE LOGICIEL ACTIVINSPIRE

GUIDE D UTILISATION DU BACKOFFICE

Le cas «BOURSE» annexe

BUREAUTIQUE. 1 Journée. Maîtriser les fonctions de base du logiciel

Plan. Traitement de texte et PAO 4/10/06. Initiation à Word

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Manuel d utilisation. Anne RACINE. A. Racine Référence: Manuel MS Project.doc 03/03/2003 Page 1

La Clé informatique. Formation Excel XP Aide-mémoire

INSERER DES OBJETS - LE RUBAN INSERTION... 3 TABLEAUX

Prise en main rapide

COURS HOMOLOGUE ECDL/PCIE EXCEL 2013

EXCEL TUTORIEL 2012/2013

KIELA CONSULTING. Microsoft Office Open Office Windows - Internet. Formation sur mesure

Créer une application de livre interactif pour tablette avec Indesign CS6 et Adobe Digital Publishing Suite

NOM : Prénom : Date de naissance : Ecole : CM2 Palier 2

PRISE EN MAIN D UN TABLEUR. Version OPEN OFFICE

Partie publique / Partie privée. Site statique site dynamique. Base de données.

Introduction à Expression Web 2

Module 1 : Tableau de bord Excel * 2010 incl.*

Langage HTML (2 partie) <HyperText Markup Language> <tv>lt La Salle Avignon BTS IRIS</tv>

Manuel de mise en page de l intérieur de votre ouvrage

Your Detecting Connection. Manuel de l utilisateur. support@xchange2.net

Cours Informatique de base INF-B Alphabétisation

Initiation à la bureautique

Table des matières. F. Saint-Germain / S. Carasco Document réalisé avec OpenOffice.org Page 1/13

Les documents primaires / Les documents secondaires

Le logiciel de création de site internet IZISPOT est un outil très puissant et qui est assez simple après quelques temps d utilisation.

Maîtriser l'utilisation des outils bureautiques. Maîtriser le logiciel de traitement de texte - Word. Maitriser le logiciel tableur - Excel

Attestation de maîtrise des connaissances et compétences au cours moyen deuxième année

Initiation au dessin Bitmap

Cours Excel : les bases (bases, texte)

LA RUBRIQUE ARCHIVES EN LIGNE DU SITE INTERNET - MODE D EMPLOI

Rédigez efficacement vos rapports et thèses avec Word (2ième édition)

Tux Paint. 1. Informations générales sur le logiciel. Auteur : Bill Kendrick et l équipe de développement de New Breed Software

TUTORIEL Qualit Eval. Introduction :

MODIFICATIONS DES PRINCIPES DIRECTEURS CONCERNANT LA RÉDACTION DES DÉFINITIONS RELATIVES AU CLASSEMENT

Travailler et organiser votre vie professionnelle

Europresse.com. Pour les bibliothèques publiques et de l enseignement. Votre meilleur outil de recherche en ligne. Guide version 1.

My Custom Design ver.1.0

Créer le schéma relationnel d une base de données ACCESS

Dragon Naturally Speaking 13

Sillage Météo. Notion de sillage

Avant-propos FICHES PRATIQUES EXERCICES DE PRISE EN MAIN CAS PRATIQUES

B2i Brevet Informatique. Internet. Livret de l enseignant

Vous allez le voir au cours de ce premier chapitre, 1. Découvrir l ipad

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Transcription:

53 Schedae 2011 Prépublication n 6 Fascicule n 1 TranScript : édition et visualisation ultradiplomatique de corpus manuscrits Thomas Palfray * Sylvie Giraud ** Thierry Paquet * Stéphane Nicolas * * Laboratoire LITIS Université de Rouen ** Laboratoire ITEM CNRS. ENS Paris Introduction Les bibliothèques et musées du monde entier possèdent depuis longtemps des collections remarquables et d une richesse culturelle indéniable, mais qui, pour des raisons de conservation et de préservation, ne peuvent pas être accessibles au grand public. Aujourd hui, avec l essor des technologies numériques, il est enfin possible de valoriser ce patrimoine intellectuel en proposant des substituts numériques d excellente qualité et récemment, de nombreuses bibliothèques et institutions de conservation publiques ou privées ont pris l initiative d intenses campagnes de numérisation. Dès lors, non seulement les originaux sont préservés de toutes dégradations, mais aussi l accès à la connaissance et au savoir peut être largement partagé et enrichi, sachant que les technologies numériques peuvent modifier considérablement nos habitudes documentaires et notre perception du document. Cependant, l abondance des données numériques obtenues pose le corollaire de leur exploitation qui nécessite une médiation éditoriale savante pour rendre l objet manuscrit compréhensible. Se posent notamment des problèmes d encodage et d indexation des informations. Comment représenter numériquement des documents manuscrits? Comment les produire? Comment les visualiser? Ces questions constituent la substance de cet article et s orientent plus particulièrement vers les manuscrits d auteurs qui sont des documents spécifiques. Sera notamment abordée la problématique de la production et de la visualisation de transcriptions ultradiplomatiques de documents. Dans un premier temps, seront évoqués le contexte littéraire, les évolutions des techniques de transcription ainsi que le projet dans lequel nos travaux se sont inscrits, et seront détaillées les particularités des corpus qui le composent, mettant ainsi en lumière les difficultés rencontrées. Thomas Palfray Sylvie Giraud Thierry Paquet Stéphane Nicolas «TranScript : édition et visualisation ultradiplomatique de corpus manuscrits»

54 Puis sera envisagé le langage d encodage nommé TSML (TranScript Markup Language), véritable pivot entre les corpus du projet, un langage mis au point avec l aide des chercheurs en critique génétique de l ITEM. Les particularités d un document manuscrit imposent des outils qui doivent prendre en compte l ensemble des informations du support, autant sémantiques que physiques, afin de proposer une visualisation de la transcription électronique. Ensuite seront considérés les différents algorithmes mis au point pour analyser un document créé à l aide du langage TSML dans le but de générer, de manière complètement automatique, une transcription ultradiplomatique au moyen du formalisme SVG. Nous démontrons qu il est possible de s'approcher de l apparence d origine d un manuscrit d auteur avec une erreur minimale. Enfin, sera présentée l interface d aide à l encodage que nous avons développée, TranScript, qui permet aux équipes du laboratoire ITEM de transcrire de manière fiable et pérenne des œuvres complètes. La génétique du texte La génétique des textes est née du mouvement structuraliste qui, un peu avant les années soixante-dix, s opposa fermement à la longue tradition d interprétation philologique des œuvres, préférant concevoir le texte comme un objet de recherche scientifique. Il ne s agissait plus d émettre sur un texte des hypothèses explicatives à partir d une critique des sources ou d une évaluation stylistique, mais de formuler une démonstration précise sur la base d une approche objective du matériau manuscrit et de ses indices matériels. La discipline de la critique génétique a pour ambition de s intéresser à l écriture dans sa qualité physique et tente de redécouvrir l œuvre à travers l ensemble des documents préparatoires qui ont conduit à la forme finale du texte. Alors, se dégagent des notions telles que l objet manuscrit, le travail de l écrivain, la classification des documents préparatoires, l avant-texte, la temporalité des opérations d écriture, les procédés de transformation rédactionnelle, l enchaînement des opérations, etc., autant d éléments que l étude de genèse prend en compte pour analyser, classer, transcrire, décrire un texte qui prend naissance, se développe, hésite, se transforme pour aboutir parfois, mais pas toujours, à la publication. Le généticien des textes cherche à retrouver le processus global de l écriture d une œuvre. Les conditions du plein développement de la génétique des textes sont maintenant, au XXI e siècle, réunies : un accès immédiat aux images des manuscrits, une possible navigation dans la masse des documents originaux, une lecture de pages saturées de corrections grâce aux transcriptions, etc. Les techniques de transcription Historique La pratique de la transcription, dans le sens de la reproduction typographique d une écriture manuscrite parfois difficile à déchiffrer, fut sans doute moins freinée par une approche difficile des manuscrits, disponibles et accessibles malgré tout grâce aux microfilms et à leurs photocopies, que par l impression d une relation au texte impénétrable. L exemple de la compréhension des manuscrits de Flaubert est probant. En 1952, René Dumesnil qualifiait l avant-texte des Trois contes «d exactement indéchiffrable» 1 tant les folios sont 1. G. Flaubert, Trois contes, in Œuvres, A. Thibaudet, R. Dumesnil (éd.), Paris, Gallimard (Pléiade), 1951-1952, t. II, introduction, p. 584.

55 couverts de ratures, de corrections, de traits de liaison ou de gestion, d ajouts en interligne, en marge latérale, en marge du haut, en marge du bas, et il se demandait comment l auteur lui-même parvenait à reprendre son texte pour le recopier ou le mettre au net. Mais peu à peu, des chercheurs se sont attelés à la tâche du déchiffrage, de la transcription et de la saisie des manuscrits et, au fur et à mesure d élaborations et d approfondissements réciproques, l opération semblait de moins en moins insurmontable. Chaque tentative enrichissait les travaux réalisés précédemment et en même temps faisait évoluer la notion même de transcription qui, en quelques années, a beaucoup progressé dans sa structure et dans sa forme. Vers 1980, la méthode de transcription recourait à un système de saisie très codé et pratiquait une combinaison de soufflets-chevrons pour indiquer l ajout interlinéaire et de crochets pour signaler l élément barré : La citadelle de Macherous se dressait à l orient de la Mer Morte, [sur au milieu des montagnes] <au milieu des montagnes> sur un pic de [ illis ] <[de basalte] de basalte> [ayant] <[ illis ] ayant> la forme d un cône <[aplati illis ]> [&] [qu entouraient] <[quatre quatre directions]> quatre vallées profondes <à l entour deux en face> deux sur les [côtés] <flancs> [une en face] la quatrième <[sommet>] par derrière.2 2 La compréhension même de la transcription manquait vite de repères, d autant que les contraintes matérielles liées aux dimensions de l édition papier ne permettaient pas de reproduire la mise en page originale, Flaubert travaillant sur de grandes feuilles de papier, 21 cm de large sur 34 cm de haut. Le transcripteur était obligé de linéariser le texte, c està-dire de proposer sur une même ligne tous les événements sémantiques et temporels de l écriture, qu ils soient ajouts, substitutions, reprises, renvois, masquant ainsi toute notion de chronologie et engageant alors le généticien dans le processus d interprétation d un texte en construction. Il affirmait une version textuelle qui n avait peut-être pas été celle de l auteur. Dans les années quatre-vingt-dix, bien que déjà qualifiée de diplomatique, la transcription restait encore à décrypter, elle abandonnait certains codes (les soufflets-chevrons et les crochets), mais en ajoutait d autres (le barré, la barre verticale pour renseigner la fin de ligne du manuscrit, l italique et les flèches directionnelles flanquées de barrettes pour déclarer la place et le niveau de l ajout) et conservait la linéarisation de l énoncé : La citadelle de Macherous se dressait à l orient de la mer- Morte sur un au milieu des montagnes au milieu des montagnes, sur un pic cône escarpé de basalte de basalte ayant Il avait ayant la forme d un cône aplati [ill] sommet et qu entouraient quatre profondes vallées quatre vallées profondes l entour[aient], une en face, deux sur les côtés 3 flancs, une en face la quatrième par derrière. 3 2 Désormais, non seulement les nouvelles technologies ignorent superbement les contraintes matérielles de l édition papier et l assujettissement au linéaire, mais elles mettent 2. Transcription de Philippe Willemart d un brouillon d Hérodias, le f 539v, chapitre I, relatif aux deux premiers paragraphes et au début du troisième paragraphe dans O manuscrito em Gustave Flaubert. Transcriçao, classificaçao e interpretaçao do proto-texto do 1 capitulo do conto Herodias, Université de São Paulo, Département de philosophie, lettres et sciences humaines, 1984. 3. Transcription de Giovanni Bonaccorso d un brouillon d Hérodias, le f 539v, chapitre I, relatif aux deux premiers paragraphes et au début du troisième paragraphe dans Trois contes Corpus Flaubertianum, Édition diplomatique et génétique des manuscrits, Paris, Librairie Nizet, 1991, t. I et II.

56 également à la disposition des transcripteurs une combinaison d outils adéquats pour saisir un manuscrit, parfois illisible, et en proposer une lecture accessible. Les apports du rendu ultradiplomatique Au XXI e siècle, la transcription ne peut s entendre que numérique et diplomatique, certains la déclarent ultradiplomatique, d autres la qualifient de mimétique. Disons qu elle se veut au plus près du manuscrit original et qu elle propose la lecture du texte sous une forme qui tente d en préserver et d en imiter l aspect initial, si tant est que le procédé typographique puisse reproduire tous les effets changeants de l écrit à la main. La visualisation simultanée du manuscrit et de sa transcription ultradiplomatique doit permettre d atteindre l objectif idéal d une transcription, celle de la lecture aisée d une page d auteur où l intervention éditoriale codée est peu présente. Aucun signe codé n est appliqué, qu il soit crochet, soufflet, accolade, flèche montante flanquée ou non de barrettes, flèche descendante ou latérale, barre verticale, etc. Aucun signe redondant n est utilisé, ni police de caractères ni couleur différentes. La mise en page de l auteur est scrupuleusement respectée, la position des mots est restituée aussi fidèlement que possible, le texte n est pas linéarisé. La différence entre le texte de premier jet et le texte ajouté est distinguée par la taille des caractères : un corps plus petit signifiant la postériorité de l ajout ou de la substitution en interligne ou en marge. Les graphies et les singularités autographes sont gardées, telles que l absence d accentuation, les fautes d orthographe, les abréviations, les mots inachevés, les lapsus, les signes diacritiques autographes, les caractères spéciaux, etc. L ensemble du graphisme autographe est reproduit, autant les traits de gestion, que les traits de liaison et d insertion ou que les hachures de suppression. Seule l habitude scripturale de ne pas relever la plume entre deux mots n a pas été reproduite. Contexte général du projet OPTIMA L objectif d OPTIMA est ambitieux. Il s agit de créer les outils théoriques et techniques permettant de lever les obstacles matériels et intellectuels qui s opposent encore à une véritable valorisation des grands corpus de manuscrits modernes qui, pour la plupart, restent inexplorés et à l état de documents illisibles dans nos grandes bibliothèques européennes. L outil numérique en a les moyens s il associe ses ressources à celles d une méthodologie d approche du manuscrit moderne, la génétique des textes. Il s agit de convertir une masse opaque de manuscrits autographes inédits parce qu illisibles en un «avant-texte» classé et transcrit permettant d interpréter les processus qui ont produit le texte. Le projet est de faire sauter les verrous qui interdisent l accès à cet énorme gisement de savoirs et de modèles cognitifs que contiennent les «brouillons» de la culture moderne. Le projet OPTIMA s inscrit donc dans le prolongement des méthodologies en «génétique textuelle» développées à l ITEM. Le but est de rendre possible une édition hypertextuelle érudite des fonds, mais en privilégiant d abord la conception et la mise au point des outils numériques fondamentaux qui, à ce jour, font cruellement défaut. L expérience porte sur plusieurs «grands corpus», proposant des modèles d écritures diversifiés : à programmation scénarique (Flaubert), à structures séquentielles complexes (Proust, Valéry), à forme combinatoire («fichier» Braudel). La crédibilité du projet s est appuyée sur l excellence et la complémentarité de cinq partenaires qui en constituent le dispositif : deux équipes sur corpus (l ITEM et la MSH), une équipe d archivistes (BNF) et deux équipes d informaticiens (le LITIS et le LIPN). La BNF a effectué une numérisation à grande échelle des corpus du programme OPTIMA (75 Cahiers de Proust, l ensemble du fonds Flaubert [ Trois contes, L Éducation sentimentale,

57 Salammbô, la Tentation de saint Antoine, les Œuvres de jeunesse ], 30 Cahiers de Valéry ainsi que 3 registres de La Jeune Parque et 3 volumes de l Album des vers anciens ) dont l impact scientifique est indéniable, car les chercheurs n avaient jusqu à présent qu exceptionnellement accès aux originaux et devaient se contenter des microfilms ou de leurs photocopies. Si la numérisation haute définition permet une étude fine du manuscrit, autant du côté de l écrit que du côté du papier, une médiation éditoriale n en demeure pas moins nécessaire pour rendre accessible la masse d informations contenues dans le corpus. Classement génétique et transcription sont rapidement indispensables pour transformer le matériau brut en ouvrage structuré. Le corpus Valéry (modèle d écriture à structures séquentielles complexes) Le département de la BNF a numérisé 30 Cahiers de Paul Valéry (1871-1945) rédigés entre novembre 1915 et décembre 1924 (cotes Nafr 19 284 à 19 313), ainsi que trois registres reliés sous cuir de La Jeune Parque, 442 folios rédigés entre 1913 et 1917 (cotes Nafr 19 004, 19 005 et 19 006) et trois volumes de l Album des vers anciens, 423 folios (cotes Nafr 19 001, 19 002 et 19 003). Les Cahiers, semblables à des cahiers d écolier, proposent une succession de notes et de réflexions, à usage privé, sur un grand nombre de sujets : scientifiques, littéraires, philosophiques et esthétiques. Il n est pas rare d y trouver des fragments poétiques, généralement siglés PPP au crayon (Petits Poèmes en Prose). Bien qu aucune note ou réflexion ne soit finalisée ou n aboutisse à une œuvre définitive, toutes les opérations génétiques scripturales s y retrouvent : les ratures, les substitutions, les soulignements, les surcharges, les ajouts, etc. La linéarité topologique et chronologique de l écriture dans ces cahiers d écolier est doublée d une circularité des notions et des motifs, dont le retour régulier est marqué par différentes campagnes de relectures et de réécritures. Le corpus de La Jeune Parque inclut autant les ébauches que les brouillons, les recherches formelles, les mises au net manuscrites et les dactylographies du grand poème publié en 1918. Matériellement, une page de travail de La Jeune Parque comporte des configurations diverses imbriquant des blocs d écriture relativement autonomes et systématiquement isolés par des espaces blancs, de fréquents éléments iconiques (schémas, dessins, symboles), des signes d opérations algébriques ou logiques (infini, racine carrée, fraction, exposant, etc.), des caractères spéciaux (lettres cyrilliques, svastika pointé à gauche et à droite). Tous ces niveaux énonciatifs, tant autographes qu allographes, se superposent dans une exploitation totale de toutes les directions du support. L unité génétique de base est de caractère métrique : le vers, parfois le distique, plus rarement le quatrain, que Valéry travaille sur la page. L analyse génétique propose de retracer la description de chaque vers de la version publiée, en tenant compte du fait qu une page peut porter les traces de plusieurs campagnes d écriture, qu une unité génétique elle-même peut connaître des segmentations (l hémistiche). Plus généralement, la construction d un modèle de représentation adapte l application d unités discrètes sur un continuum, la page de brouillon, où une irradiation de variations s effectue à partir d un «noyau», qu il soit vers ou distique. Le corpus Proust (modèle d écriture à structures séquentielles complexes) Soixante-quinze Cahiers du fonds Proust ont été numérisés par la BNF. Tel qu il est accessible en ligne sur gallica.bnf.fr, le manuscrit représente certes un matériau remarquable à consulter, mais difficile à pénétrer et à comprendre sans une transformation structurée en transcription et en classement.

58 La méthode du zonage ou de la création de blocs, spécifique à TranScript et entendue d un point de vue physique, s adapte particulièrement bien aux Cahiers de Proust qui se présentent sous la forme d arborescences graphiques par rapport à une ligne principale, et/ou de constellations d unités textuelles autonomes dans les marges et sur les versos. Le repérage spatial des blocs de rédaction et leur définition font partie intégrante de l analyse préalable à la saisie du texte qui s affiche dans les blocs concernés sous une forme fidèle au document original. Toutefois, il sera encore plus pertinent pour la compréhension de la pratique rédactionnelle de Proust d envisager la méthode du zonage dans une visée génétique : la délimitation sur l image numérique du document des zones textuelles génétiquement significatives et orientées téléologiquement permettra alors de décrire la chronologie rédactionnelle. Chez Proust, les unités textuelles significatives sont très mouvantes, elles éclatent, se fragmentent, se dispersent au sein du même cahier, mais aussi dans plusieurs cahiers, dans d autres carnets, d autres documents rédactionnels. Sur la base d une définition précise, à l échelle de la page, des blocs génétiques impliqués, associée à une convocation des autres sources mobilisées par l écrivain, il est possible de décrire une représentation dynamique de l écriture et de simuler un plan de la genèse en action. Pour le moment, seule l édition diplomatique et génétique des Cahiers 54 et 71 chez Brepols propose un classement exhaustif, folio par folio. Le corpus Flaubert (modèle d écriture à programmation scénarique) Dans une politique de valorisation globale du patrimoine dont elle est dépositaire, la BNF a numérisé l ensemble du fonds Flaubert : Trois contes, L Éducation sentimentale, Salammbô, la Tentation de saint Antoine, les Œuvres de jeunesse. Mais pour l heure, seuls les Trois contes, publiés le 24 avril 1877, une petite partie de Salammbô publié en 1862 et de L Éducation sentimentale publiée en 1869 possèdent des transcriptions numériques. Les corpus représentent une masse de feuillets impressionnante : si Trois contes se distinguent pauvrement par leur millier de pages écrites, le grand dossier de Salammbô possède environ 5 000 feuillets. Les deux recueils de Trois contes (cote Nafr 23 663 tomes I et II) rédigés entre septembre 1875 et février 1877 comprennent environ 1 100 folios écrits et proposent les trois manuscrits définitifs de l écrivain ( Un cœur simple La légende de saint Julien l Hospitalier Hérodias), les trois exemplaires du copiste, puis les brouillons et les notes des trois contes. Le document de genèse de Trois contes offre l avantage d un corpus de petite dimension relativement aux énormes dossiers des romans flaubertiens. Il propose également les sources complètes de l ouvrage conduisant de l avant-texte (avec les notes de recherche documentaire, les plans, les scénarios, les brouillons, les mises au net) au manuscrit définitif. Mais il n en renferme pas moins une masse textuelle sans doute parmi les plus difficiles à déchiffrer, transcrire et classer, comme si Flaubert avait adopté dès la longue étape du travail rédactionnel les valeurs qu il entendait donner à ses trois petits récits : concision, rigueur, puissance, justesse. La spécificité de TranScript relative à la définition et à la création de blocs génétiquement justifiés au sein de l unité de la page écrite s adapte naturellement à la logique scripturale de Flaubert, dont l écriture sous ses aspects enchevêtrés se révèle très structurée. En effet, très tôt dans la rédaction, l écrivain organise son travail de composition selon un agencement par paragraphes. Grâce au traitement textuel par bloc rédactionnel, une analyse microgénétique à orientation téléologique permet d accéder au classement. Certes, la description du classement n est pas l objet précisément de l application TranScript, mais

59 la conception même du logiciel, fondé sur la notion d un découpage de blocs au sein d un texte, représente un socle essentiel au processus ultérieur de navigation dans le corpus (tri, classement, liens, etc.) Le corpus Braudel (modèle d écriture à forme combinatoire) Le corpus Braudel concerne les archives de Fernand Braudel archives privées qui appartiennent à la famille Braudel notamment pour la partie qui intéresse la préparation, la conception et la genèse de son œuvre maîtresse, La Méditerranée et le monde méditerranéen à l époque de Philippe II (1949). En l absence de brouillons et plus encore des versions intermédiaires de son livre, ces archives représentent un élément essentiel pour comprendre l origine et la naissance du livre. Les notes sont constituées de dizaines de milliers de fiches, rédigées dans leur quasi-totalité par Fernand Braudel lui-même, réunies dans des boîtes en bois, sans couvercle, conçues pour contenir des fiches de type Bristol, 10 cm x 15 cm, regroupées par années historiques suivant un schéma commun (indication des sources, année de référence, recopie de l archive). La spécificité de TranScript relative à la définition et à la création de blocs rédactionnels sur le manuscrit s adapte aussi au corpus Braudel : la délimitation sur chaque fiche de zones sémantico-topologiques (source, année historique, texte) permet non seulement de retrouver les dossiers consultés par Braudel lors de ses visites dans les différents organismes conservateurs, mais aussi d en proposer un classement chronologique ainsi qu une description génétique. Car tout en la respectant, Braudel semble avoir fait éclater l unité du fichier source pour croiser des informations recueillies dans des archives diverses et proposer des éclairages différents sur les questions abordées. Pourquoi un nouveau langage? Les prérequis du langage souhaités par nos collaborateurs de l ITEM étaient très précis. Le langage devait répondre à la diversité et à la richesse des indices sémantiques et physiques contenus dans les quatre grands corpus d auteurs utilisés, tout en restant générique, afin de pouvoir être utilisé par la suite pour d autres corpus. Une étude de l existant a été réalisée en 2007 en préambule de nos travaux : les transcripteurs de l ITEM travaillent avec un traitement de texte (Microsoft Word) qui permet de conserver l ensemble des informations sémantiques et spatiales du document, mais interdit toute recherche systématique, qu elle soit interrogation de masse de données ou accès au système de classement ; la TEI propose pour sa part un langage pérenne et ouvert pouvant stocker la plupart des indices scripto-graphiques, mais ne permet pas de conserver les informations spatiales du document (un groupe de travail étudie ce point précis depuis mai 2009 4 ); HNML 5, le langage mis au point pour la plate-forme HyperNietzsche dispose de nombreuses fonctionnalités réexploitables ; c est pourquoi notre langage est une évolution de HNML. Ce langage, au format XML, autorise le stockage de toutes les informations que le transcripteur souhaite conserver de manière efficace et durable. Sa structure est simple : 4. http://staff.cch.kcl.ac.uk/~epierazzo/geneticeditiondraft1.pdf. 5. http://computerphilologie.uni-muenchen.de/jg03/saller.html.

60 il décompose la construction d un folio en un ensemble de zones, appelées blocs, qui contiennent d une part, les coordonnées des points du polygone représentant chaque bloc et d autre part, le texte codé du bloc. On bénéficie alors d un encodage précis des unités textuelles présentes sur le manuscrit. L encodage du texte est géré par un ensemble de balises qui organisent les données sémantiques et physiques (souligné, barré, exposant, indice, gras, retrait de paragraphe, interlignes, etc.) et les données informatives (auteur, notes de régies, renvoi, titre, etc.). L élaboration collective des types de balises indispensables à une saisie intégrale du texte a confirmé l existence d un inventaire fondamental de balises probablement commun à l ensemble des corpus manuscrits. Les fichiers de sauvegarde contiennent ces informations, mais également les données relatives à la mise en forme ultradiplomatique, comme il sera vu plus loin. Il est à noter que le groupe de travail 6 sur l édition génétique de textes du consortium TEI s est également basé sur HNML pour débuter la conception de son langage. Langage TSML Description générale Le langage TSML a été créé pour stocker des informations sémantiques et spatiales d un manuscrit. En fonction de critères généralement génétiques, l utilisateur définit et délimite des polygones qui peuvent contenir soit des unités textuelles, soit une image. Dans le premier cas, le transcripteur saisit le texte et l encode. <Bloc type="txt"><point X="38" Y="8" /><Point X="1093" Y="13" /> etc.</bloc> Figure 1 exemple d unité textuelle complexe issue d un folio de Proust. Dans le second cas, le bloc image conserve les parties originales du document, qu ils soient dessins ou tampons. <Bloc type="img"><point X="38" Y="8" /><Point X="1093" Y="13" /> etc.</bloc> Figure 2 exemples de cas d utilisation du bloc image. 6. http://wiki.tei-c.org/index.php/genetic_editions.

61 TSML permet d encoder et d afficher des structures de textes complexes, autant des formules mathématiques que des ajouts interlinéaires. Les balises alors utilisées ajoutent des «lignes hors du corps de texte» dans le langage XML. L ensemble du contenu inclus à l intérieur de ces balises est considéré comme une nouvelle ligne de texte. Le placement des balises au sein du corps de texte indique où débute cet ajout. Structure de l encodage Nous présentons ci-dessous la DTD mise au point pour le projet OPTIMA et destinée à valider les documents écrits au format TSML. La première version livrée au début de l année 2008 a été suivie sur l année d un processus itératif de validation autant par l ITEM que par le LIPN et le LITIS, pour aboutir à une version stable de cette DTD en août 2008. <!DOCTYPE transcription [ <!ELEMENT transcription (Image)+> <!ELEMENT Image (Bloc)*> <!ATTLIST Image titre #CDATA #REQUIRED coefdimensionlargeur #CDATA #REQUIRED coefdimensionhauteur #CDATA #REQUIRED> <!ELEMENT Bloc Point*,Texte+> <!ATTLIST Point X #CDATA #REQUIRED Y #CDATA #REQUIRED> <!ATTLIST Bloc idbloc #CDATA #REQUIRED niveauzoom #CDATA #REQUIRED> <!ELEMENT Texte (auteur cs stylo lb p dp lp rp u str nl bl strblock ove rwrite int nr b sp hyphen ind exp frac rac abbr hyp titre rv #PCDATA)*> <!ELEMENT auteur (ANY)> <!ATTLIST auteur name (#CDATA) #REQUIRED> <!ELEMENT cs (ANY)> <!ELEMENT stylo (ANY)> <!ATTLIST stylo p (encre,stylo,crayon,imprime) #REQUIRED c (#CDATA) #REQUIRED> <!ELEMENT lb (ANY)> <!ELEMENT p (ANY)> <!ATTLIST p indent (#CDATA) #REQUIRED> <!ELEMENT dp (ANY)> <!ELEMENT lp (ANY)> <!ELEMENT rp (ANY)> <!ELEMENT u (ANY)> <!ELEMENT str (ANY)> <!ELEMENT nl (ANY)> <!ATTLIST nl l (#CDATA) #REQUIRED> <!ELEMENT bl (ANY)> <!ATTLIST bl l (#CDATA) #REQUIRED> <!ELEMENT strblock (ANY)> <!ATTLIST strblock c (#CDATA) #REQUIRED> <!ELEMENT overwrite (old,new)> <!ELEMENT old (ANY)> <!ELEMENT new (ANY)> <!ELEMENT int (ANY)> <!ATTLIST int pl (#CDATA) #REQUIRED> <!ELEMENT nr (ANY)> <!ELEMENT b (ANY)> <!ELEMENT sp (ANY)> <!ELEMENT ind (ANY)> <!ATTLIST ind p (#CDATA) #REQUIRED> <!ELEMENT exp (ANY)> <!ATTLIST exp p (#CDATA) #REQUIRED>

62 <!ELEMENT frac (ANY)> <!ATTLIST frac p (#CDATA) #REQUIRED> <!ELEMENT rac (ANY)> <!ELEMENT abbr (ANY)> <!ATTLIST abbr expand (#CDATA) #REQUIRED> <!ELEMENT hyp (ANY)> <!ELEMENT hyphen (ANY)> <!ELEMENT titre (ANY)> <!ELEMENT rv (ANY)> <!ELEMENT Svg (#PCDATA)*> ]> Descripteurs diplomatiques Descripteur Utilisation Balise Texte gras Encode un texte gras. <b> Texte souligné Texte barré Retrait Double page Page gauche Page droite Blanc Non lu Lecture hypothétique Signe de renvoi Encode un texte souligné d un ou de plusieurs traits. Chaque trait peut être d une couleur et/ ou d un auteur différents. Encode un texte barré d un ou de plusieurs traits. Chaque trait peut être d une couleur et/ou d un auteur différents. Avec la règle dynamique, encode un retrait de texte par rapport au bord du bloc défini. Encode un texte «à cheval» sur deux feuillets. Encode un texte à gauche d une double page. Encode un texte à droite d une double page. Encode un blanc laissé intentionnellement par l auteur, la règle dynamique en définit la longueur. Encode une portion de texte non lue par le transcripteur, la règle dynamique en définit la longueur. Encode la lecture hypothétique d un mot. Encode tout système de correspondance (renvoi, rapport d ordre, redistribution). <u> <str> <p> <dp> <lp> <rp> <bl> <nl> <hyp> <rv> Titre Encode un titre. <titre> Bloc raturé Instrument et couleur Changement de main Encode une zone textuelle raturée (un choix de type de ratures est proposé). Encode la couleur du texte et/ ou l instrument d écriture. Encode toute intervention allographe. <strblock> <stylo> <auteur> Caractère spécial Insère les caractères spéciaux. <cs>

63 Abréviation Encode une abréviation. <abbr> Fraction Encode une fraction mathématique. <frac> Indice Encode le texte en indice. <ind> Exposant Encode le texte en exposant. <exp> Racine carrée Encode le texte en racine carrée. <rac> Césure Encode une césure. <hyp> Ajout interlinéaire Encode un ajout interlinéaire situé au-dessus ou au-dessous de la ligne de base en cours d encodage. <int> Note de régie Encode une note de régie. <nr> Moteur de rendu ultradiplomatique Description générale Les éditeurs de textes actuels utilisent des techniques proches de celles que l on connaît dans le milieu de l édition. La mise en page maximise la lisibilité et ne permet pas de conserver la richesse et la diversité des informations d un folio manuscrit d auteur. La raison fondamentale tient au fait que l ensemble de l outillage proposé en matière d édition numérique est exclusivement orienté vers le formatage d objets graphiques pour les systèmes de publication imprimés. Ils sont tous basés sur l utilisation d une feuille de style qui précise les règles éditoriales à employer pour matérialiser les signes. On peut citer essentiellement les outils XSLT et XSL-fo pour l édition à partir de documents XML, ainsi que la chaîne de composition documentaire construite autour de LaTex. D autres travaux concernant la mise en page automatique de documents existent naturellement 7, mais ils sont également destinés à une mise en page de type journal ou magazine 8 et ne peuvent donc pas être utilisés pour nos problématiques. Or, l édition diplomatique repose par définition sur des principes différents, car il n existe pas de feuille de style pour régir la disposition spatiale d un manuscrit complexe. Il faut au contraire parvenir à déterminer pour chaque cas d espèce les règles de dispositions ad hoc qui permettent de matérialiser le phénomène dans l espace fixe de la page. C est donc un processus de matérialisation des signes fonctionnant à l inverse des processus d édition usuels qui a été conçu et développé dans le cadre d OPTIMA. Il procède par itérations successives pour déterminer les règles optimales qui satisfont à la fois aux contraintes spatiales et relationnelles entre les signes. Par construction, l outil de rendu supporte la récursivité et permet donc de visualiser les phénomènes graphiques imbriqués complexes. Notre choix s est porté sur le langage SVG 9 qui est un dérivé du XML et un standard international du W3C (World Wide Web Consortium) permettant d afficher des graphiques et du texte sous forme vectorielle. Nous utilisons l API BATIK 10 de la fondation Apache au sein de notre interface d aide à l encodage pour créer et manipuler des documents au format SVG. Il est à noter que les documents ainsi créés sont ajoutés au sein du fichier de sauvegarde 7. J. B. S. de Oliveira, «Two Algorithms for Automatic Document Page Layout», DocEng 08, 16-19 septembre 2008, São Paulo, Brésil, http://dl.acm.org/citation.cfm?id=1410170. 8. N. Hurst et al, «Minimum Sized Text Containment Shapes», DocEng 06, 10-13 octobre 2006, Amsterdam, Pays-Bas, http://www.csse.monash.edu.au/~marriott/hurmarmou06.pdf. 9. http://www.w3.org/graphics/svg/. 10. http://xmlgraphics.apache.org/batik/.

64 et sont intégrés au format pivot pour une utilisation ultérieure. De cette façon, l ensemble des informations d encodage et de visualisation vectorielle est véhiculé au sein d un seul et même fichier. Précisons que l approche retenue dans le cadre d OPTIMA va bien au-delà des solutions SVG actuellement retenues dans le cadre de la TEI 11, car c est l ensemble des informations, naturellement les informations graphiques, mais également toutes les informations textuelles qui sont représentées dans ce système d encodage graphique. Prétraitements Tout d abord, il est nécessaire de préciser quelques définitions : on appelle objet MEF un caractère composé d un glyphe affiché à l écran auquel on associe un ensemble de propriétés physiques et logiques définissant la surface qu il occupe sur l écran ; o n appelle ligne de texte un ensemble de caractères situés sur un segment contenu dans une unité textuelle. On distingue deux sortes de lignes, la ligne de base et les ajouts hors de la ligne de base. Ces ajouts sont également des lignes de texte, mais ils sont toujours associés à une ligne de base. La première étape consiste à transformer le contenu de l unité textuelle au format XML en un ensemble hiérarchisé d objets permettant de décrire toutes les informations topographiques relatives à cette unité. Pour accomplir cette tâche, on utilise une liste contenant un ensemble d objets nommés MEF (Mise En Forme). Chaque objet correspond à un caractère du texte. On applique ensuite l algorithme récursif suivant : ListeMEF Fonction_MEF(String texte) ListeMEF = liste d objets MEF contenant l ensemble des caractères des lignes de base de l unité textuelle Pour chaque balise_de_tsml Faire Appliquer une expression régulière pour effacer toutes les balises sauf la balise_de_tsml de l unité textuelle Repérer les Positions des occurrences de balise_de_tsml Pour chaque Positions Faire Si balise_de_tsml = hors de la ligne de base MEF = Fonction_MEF(texte contenu entre Positions) Sinon Pour chaque MEF de listemef allant de Positions[0] à Positions[1] Faire MEF = propriété de balise_de_tsml FinSi Fin Fin Retourne listemef Ensuite, pour mettre en forme les informations transcrites, il est nécessaire de connaître la position et la surface occupées par chaque caractère. On considère que la surface d un caractère comprend la surface du glyphe, auquel on ajoute l ensemble des surfaces occupées par les autres glyphes se superposant au glyphe courant, en fonction des balises physiques qui s appliquent à ce caractère, comme le montre la figure ci-dessous. Nous avons développé les algorithmes permettant de réaliser ces opérations pour l ensemble des balises définies 11. http://wiki.tei-c.org/index.php/tei_to_svg.

65 dans le langage TSML. Ainsi, en partant de la granularité la plus fine (le caractère), nous pouvons en déduire la surface et la forme englobant ce caractère, mais aussi celle de la ligne de base à laquelle il appartient, en incluant toutes les lignes qui y sont rattachées, et ceci, quel que soit le balisage mis en place par le transcripteur (fig. 3). Figure 3 prise en compte des balises physiques dans le calcul de la surface d un texte. Le texte de droite est souligné. Le texte du bas contient un interligne supérieur. Génération du XML À partir de ces informations, l intégralité du texte transcrit peut être matérialisée dans le polygone composant l unité textuelle selon l algorithme suivant. Le postulat de départ est simple : si l on considère que la ligne de texte comportant le plus de signes est entièrement incluse dans le polygone de l unité textuelle, alors les autres lignes doivent, elles aussi, être incluses dans ce polygone. L angle de rotation du texte, précisé par l utilisateur, est pris en compte. Le polygone subit tout d abord une rotation d un angle opposé à l inclinaison du texte. Puis on applique l algorithme de rendu sur ce polygone (ce qui correspond à un rendu pour une inclinaison nulle). Enfin, on applique une rotation inverse sur l ensemble ainsi tracé pour retrouver le polygone initial comportant cette fois le texte avec la bonne inclinaison. Nous en déduisons l algorithme ci-dessous dans ses grands principes. Ce postulat ne se vérifie pas dans tous les cas, comme nous le verrons par la suite : TaillePolice = 12 Collision = Vrai Définir le rectangle englobant le polygone formant l unité textuelle Le découper en autant de sous-rectangles que l unité comporte de lignes de texte Calculer LL, la largeur en pixels de la ligne de texte la plus longue Calculer LR, la largeur en pixels du sous-rectangle englobant cette ligne TaillePolice = LR/LL Tant que Collision = VRAI Pour toutes les lignes Faire Calculer la surface et la position du polygone composant la ligne courante Fin Collision = Tester les collisions entre Blocs Si collision = VRAI TaillePolice = TaillePolice - 1 Afficher les lignes en utilisant la taille de police déterminée et les positions des polygones correspondant à celle-ci.

66 Figure 4 découpage d un polygone en utilisant le rectangle englobant dans le cas d un contenu textuel de 4 lignes. Les points rouges représentent le début de chaque ligne de texte. L application TranScript Description générale L interface est développée à l aide du langage Java de Sun. Elle est utilisable sur tous les systèmes d exploitation disposant d une machine virtuelle Java 1.5, ce qui représente l immense majorité du parc de l informatique personnelle actuel. Elle a été développée avec le concours des chercheurs de l ITEM afin de répondre de la meilleure manière possible aux problématiques de critique génétique et de transcriptions ultradiplomatiques. Elle se compose de trois fenêtres principales, que nous détaillons plus avant. La fenêtre «Manuscrit» Lorsque l utilisateur charge un fichier, cette fenêtre affiche l image du manuscrit en haute résolution. Par défaut, elle calcule le ratio de zoom afin que l image soit affichée en entier dans la fenêtre. L utilisateur peut bien entendu modifier le ratio de zoom, soit en choisissant dans une liste de ratios précalculés par l application, soit en utilisant les boutons «zoom avant» et «zoom arrière». Afin de préserver la dualité entre l image du manuscrit et la transcription ultradiplomatique, le ratio de zoom est synchronisé avec la fenêtre de rendu. Ainsi l utilisateur voit tout de suite les détails de la transcription correspondant à la partie du manuscrit visualisée. Il est également possible d effectuer une rotation horaire du manuscrit afin de lire, par exemple, des feuillets rédigés tête-bêche par l auteur. Cette fonctionnalité est également synchronisée avec la fenêtre de rendu. La fenêtre de rendu est utilisée pour créer, modifier et supprimer les polygones correspondant aux unités textuelles du feuillet, comme le montre la figure 5. Enfin, il faut noter la présence d une règle dynamique mesurant la largeur et la hauteur de l image. Elle est utilisée afin de quantifier un blanc laissé intentionnellement par l auteur, ou encore la taille d un alinéa ou d un retrait. Cette règle s adapte automatiquement au niveau de zoom choisi par l utilisateur ainsi qu à l angle de rotation courant.

67 La fenêtre de saisie La fenêtre de saisie (fig. 6) est active lorsque l utilisateur clique sur un bloc dans la fenêtre «Manuscrit». Elle offre la possibilité de saisir la transcription de ce bloc à l aide d un ensemble de boutons correspondant aux balises définies au sein du langage pivot. Si nécessaire, certaines balises font apparaître une fenêtre pour saisir des attributs. Le logiciel se charge du positionnement des balises automatiquement de deux manières : si l utilisateur a sélectionné un extrait de la transcription, les balises seront placées aux extrémités de sa sélection, s il n a rien sélectionné, les balises se placeront à l extrémité du mot sur lequel se trouve le curseur. On s approche ainsi du comportement de Microsoft Word, le traitement de texte le plus utilisé. Figure 5 capture de la fenêtre «Manuscrit». Figure 6 capture de la fenêtre de saisie. Nous avons choisi d implémenter la coloration syntaxique afin de rendre plus claire la lecture d une transcription complexe. Enfin, l utilisateur dispose des fonctions classiques d un traitement de texte (couper, copier, coller, annuler, rétablir). La fenêtre de rendu ultradiplomatique La fenêtre de rendu ultradiplomatique (fig. 7) est la plus simple, elle montre la transcription SVG générée à l aide de notre moteur de rendu. La fenêtre est remise à jour en temps réel à chaque fois que l utilisateur effectue une action, lorsqu il crée ou supprime une unité textuelle, ou bien lorsqu il modifie le contenu ou l encodage d une transcription. En moyenne, une unité textuelle met environ 600 ms à se mettre à jour, en fonction bien sûr de la machine sur laquelle est exécutée l application TranScript.

68 Figure 7 capture de la fenêtre de rendu ultradiplomatique. Résultats Afin d illustrer les possibilités de l application TranScript, nous présentons ici deux unités textuelles extraites d un folio de Proust (fig. 8 et fig. 9). Sont affichés l image d origine (A), le rendu diplomatique ( B) et la transcription des unités au format TSML ( C ). A B peu à peu, par la <lb/> suppression ici de <lb/> tel élément, là le <lb/> renforcement de tel <lb/> autre<nr>(ce passage <lb/> - les dernières lignes - est <lb/> écrit bien mieux et <lb/> en détail)</nr> <str>que</str> et que<lb/> <str>le moi<str> que je</str> dont je</str> cet<lb/> <str>désirais la perpétuité</str><lb/> <str>aurait pu</str> anéantissement du<lb/> moi <str>que</str><int pl=»top»>dont</int> je ne pouvais supporter<lb/> L idée après la mort, j <overwrite><old>en</old><new>y</new></overwrite><lb/> consentais à tout <rv>o</rv> Figure 8 C

69 A B <nr>suite de la marge<lb/> du précédent verso</nr><lb/> <str>le rêve n avai</str> Mon rêve avait<lb/> été fort imparfait. Il était tout de<lb/> même venu en aide à mon amour et<lb/> à ma souffrance.<str>c</str> En mettant près de moi<lb/> Albertine, en lui faisant me conter son<lb/> aventure avec la blanchisseuse, en me parlant<lb/> d elle (bonne petite fille) <str>elle me l av</str> le rêve avait<lb/> tout de même mis cela en action, m avait<lb/> fait de mon soupçon une de ces grossières <hyphen>ma-<lb/> quettes</hyphen> qu on fait pour donner une idée<lb/> de ce que pourrait être un spectacle. C Figure 9 La capture d écran ( fig. 10 ) montre une vue d ensemble du feuillet de Proust. L unité textuelle située au milieu du document donne un exemple des limites actuelles de notre méthode de positionnement de lignes. Les difficultés de la forme du bloc et les angles de positionnement du texte différents au sein de la même unité empêchent notre système de fonctionner correctement. Nous estimons qu il est possible d aller au-delà de cette limitation en utilisant des techniques de traitement d images afin d effectuer la détection des lignes. Conclusion Parmi les différents logiciels de transcription de manuscrits en voie de constitution (projet «Les Manuscrits de Stendhal» développé par l université de Grenoble 12, projet EMMA 13 développé par l université de Rouen pour Madame Bovary de Flaubert, projet Bouvard et Pécuchet, etc.), il n en existe pas encore qui ait pour ambition l enrichissement et la valorisation du manuscrit dans sa valeur générale et universelle. Le plus souvent, l outil informatique réserve ses compétences au corpus littéraire pour lequel il fut conçu. TranScript a été créé dans le but de lever cet obstacle et a pour ambition de devenir un outil générique capable de répondre aux besoins de la communauté scientifique. La conception même du logiciel, fondée sur la notion d un découpage de blocs au sein d un texte, représente un socle essentiel au processus ultérieur de navigation dans le corpus (tri, classement, liens, etc.). La collaboration productive de littéraires et d informaticiens a permis de mettre en place à travers TranScript une base solide de principes applicables à de nombreux corpus. 12. http://stendhal.msh-alpes.fr/manuscrits/. 13. http://bovary.univ-rouen.fr/.

70 Certes, l application TranScript est perfectible, nous en connaissons les faiblesses et les insuffisances. Néanmoins, diverses solutions ont été identifiées afin d accroître ses possibilités. Nous en percevons plus encore les capacités. L équipe du LITIS souhaite donc faire bénéficier la communauté littéraire de son expertise dans le domaine du traitement automatique de l image en proposant des outils destinés à simplifier la tâche du transcripteur tant au niveau du traitement de la page (délimitation, création et identification de blocs à valeur génétique) qu à celui du corpus (indexation des images, classement par sous-ensembles spécifiés, etc.). Figure 10