Annotation collaborative en ligne de l'archive manuscrite Jean-Daniel Fekete INRIA Futurs & LRI Projet IN-SITU Jean-Daniel.Fekete@inria.fr http://www.lri.fr/~fekete Hammamet - Tunisie CFD'02 1
Plan p Le modèle d information en couches p Expérience d analyse de sources manuscrites historiques p Leçons et évolutions p De la connaissance «produit» à la connaissance «processus» p L annotation collaborative en ligne p Bilan et pas encore conclusion Hammamet - Tunisie CFD'02 2
Contexte p Que faire pour Transcrire Annoter Indexer Publier Analyser Vérifier Rendre réutilisables Donner du sens à Des manuscrits du XVI e et du XX e siècle? Hammamet - Tunisie CFD'02 3
Les couches d information p Le substrat physique Manuscrit historique, littéraire, cahier d expériences en physique, biologie ou chimie p La numérisation p La transcription diplomatique p Les annotations sémantiques p Les annotations analytiques p Les analyses Hammamet - Tunisie CFD'02 4
Les couches d information Hammamet - Tunisie CFD'02 5
Propriétés des couches d information p Cascade d abstractions Perte d information entre les couches p Mise en relation, pas atomisation Contexte, vérification p Multiples représentations Adaptées à chaque couche et tâche Création, vérification, indexation, navigation, abstraction, analyse Hammamet - Tunisie CFD'02 6
Que peut-on faire à chaque niveau? p 1 consulter (parfois) p 2 publier / diffuser p 3 chercher en texte plein p 4 indexer sur les attributs sémantiques p 5 indexer sur les catégories analytiques p 6 fouiller / visualiser / analyser Hammamet - Tunisie CFD'02 7
Couches d information: réalisation p Corpus de 100 «Lettres de rémission» du duché de Bretagne XVI e siècle p Utilisation des recommandations de la Text Encoding Initiative (TEI) Famille de DTDs XML p Codage manuel p Indexation par outils ad-hoc p Visualisation interactive pour l aide à l analyse Hammamet - Tunisie CFD'02 8
Les lettres de rémission p Définition La lettre de rémission est un acte de la Chancellerie par lequel le roi octroie son pardon à la suite d'un crime ou d un délit, arrêtant ainsi le cours ordinaire de la justice, qu'elle soit royale, seigneuriale, urbaine ou ecclésiastique. «Crime, état et société en France à la fin du Moyen Age», Claude Gauvard, volume 1, page 63, Publications de la Sorbonne, 1991. Hammamet - Tunisie CFD'02 9
Transcription diplomatique [11] en la compagnie de il et Jehanne Serance, lors sa femme, Jehan[12] durandiere et sa femme, mere dudit L Hammamet - Tunisie CFD'02 10
Transcription diplomatique (2) p Annotations éditoriales: <sic> pour des erreurs manifestes <abbr> pour les abréviations <unclear> pour les mots incertains <del> pour les ratures <add> pour les insertions Hammamet - Tunisie CFD'02 11
Codage et balisage diplomatique TEI [11] en la compagnie de il et Jehanne Serance, lors sa femme, Jehan[12] durandiere et sa femme, mere dudit Leserclier, et pareillement[13] André Serance, oncle paternel de lad Hammamet - Tunisie CFD'02 12
Les annotations sémantiques p <date> pour les dates p <name> pour les noms p <rs type=" "> Toponyme pour les lieux Arme pour les armes Meubles, architecture, etc. suivant les centres d intérêts p <signature> Hammamet - Tunisie CFD'02 13
Balisage sémantique TEI Hammamet - Tunisie CFD'02 14
Les annotations analytiques p Définition de catégories d interprétation <interpgrp type="sexe"> p <interp type="masculin"/> p <interp type="féminin"/> </interpgrp> p Annotation du document <name ana="masculin suppliant" key="jb">jehan Basset</name> <s ana="suppliant profession">laboureur</s> Hammamet - Tunisie CFD'02 15
Analyse à l aide de mécanismes TEI Interpretation Intercesseur (Personnage) parens et amys Victime (Personnage) Jehanne Serance Relation criminel/intercesseur (Personnage) consanguins de notre povre subgect Nom du criminel (Personnage) Pierre Leserclier Statut social du criminel (Statut) homme de labeur Statut social de la victime (Statut) lors sa femme Moment du crime (Date) aprés iceluy soupper Motif du crime (Motif) parolles desplaisant Lieu du crime (Lieu) Bonhardy Circonstance attenuante (Circonstance) qui est chargé de petiz enfans orphelins avoit auparavant bien et honnestement vescu et entretenu icelle sadite femme et enfans sans jamais avoir esté accusé ni convancu dautre cas reprouchable Date du crime (Date) dimanche, dernier jour de septembre dernier Date du jugement (Date) moys d'octobre l'an mil cinq cens vingt Type du crime (Crime) de vie a trespas Hammamet - Tunisie CFD'02 Elément volé (Objet) 16 None
Les analyses Graphique n 4 : Délais entre le crime et la rémission 300 250 200 Délais en mois 150 100 0 p Exemple: 50 04/01/31 18/01/31 01/02/31 15/02/31 01/03/31 15/03/31 29/03/31 12/04/31 26/04/31 10/05/31 Date de la p Délais entre le crime et la rémission: 24/05/31 07/06/31 21/06/31 05/07/31 <docdate ana="diplomatique-date-signature-chancellerie" value="04/01/1531">4 janvier 1530</docdate> <date ana="crime-date" value="24/10/1529">vingt quatriesme <abbr>jour</abbr> d'octobre dernier</date> 19/07/31 02/08/31 16/08/31 30/08/31 13/09/31 27/09/31 11/10/31 25/10/31 08/11/31 22/11/31 06/12/31 20/12/31 03/01/32 17/01/32 31/01/32 14/02/32 28/02/32 13/03/32 27/03/32 10/04/32 24/04/32 08/05/32 22/05/32 05/06/32 Hammamet - Tunisie CFD'02 17
Exploitations p Vérifications syntaxiques XML + Schema p Vérifications sémantiques Règles de cohérence interne p Hypertexte pour l édition et l analyse p Graphiques statiques p Visualisations interactives Hammamet - Tunisie CFD'02 18
Hammamet - Tunisie CFD'02 19
Visualisation statique Graphique n 3 : Nombre de lettres de grâce par année 100 90 80 70 Nombre de lettres 60 50 40 Nbre de lettres Nbre de mois en compte Lettre par an 30 20 10 0 1525 1526 1527 1530 1531 1532 1533 1534 1535 1538 1550 1556 1559 1562 1563 1573 1574 Année Hammamet - Tunisie CFD'02 20
Visualisation interactive p La visualisation est une spécialité ancienne p Trouver les représentations facilitant La communication L analyse La prise de décision p L interactivité l enrichit énormément Requêtes dynamiques Synchronisation de plusieurs vues Zoom et navigation p Utilisé journellement sur des données tabulaires p Difficile à utiliser sur des données semi structurées Hammamet - Tunisie CFD'02 21
Exemple de visualisation d information interactive sur des données tabulaires p Sportfire est issu des recherches de l université du Maryland p Chris Ahlberg p Ben Shneiderman Hammamet - Tunisie CFD'02 22
Visualisation d information et XML p Données semi-structurées p Pas vraiment typées p Plusieurs interprétations du même document p Visualisation de corpus et pas de document p Objectifs Vue d ensemble Vérification d hypothèses Analyses quantitatives Hammamet - Tunisie CFD'02 23
Visualisation de corupus XML : Compus p Par exemple, le document XML suivant : 0 1 2 3 4 012345678901234567890123456789012345678901234567 <A>abcd<B>efgh</B><C>ijkl<D>mnop</D></C>qrst</A> p est converti en une suite d intervalles : A=[0,48[, B=[7,18[, C=[18,40[, D=[25,36[ p Une couleur est associée à chaque élément XML pseuls les éléments sont affichés! Hammamet - Tunisie CFD'02 24
Compus et la visualisation XML Hammamet - Tunisie CFD'02 25
Interaction, recherche et analyse p Afficher / cacher un élément p Réassigner les couleurs p Classer par nombre d éléments ou par surface p Afficher les éléments placés ou additionnés p Appliquer une transformation par XSLT Faire apparaître un phénomène codé spécifiquement p Démo! Hammamet - Tunisie CFD'02 26
Leçons et évolutions p 1000 documents actuellement p Transcription et annotations syntaxiques Fastidieux, long, difficile, mais Très réutilisable si l infrastructure le permet! p Annotations sémantiques Très dépendantes du domaine d utilisation Parfois réutilisables ou source d inspiration p Infrastructure Très pauvre pour l édition et l annotation XML pas orienté corpus Manque des types de liens hypertextuels Hammamet - Tunisie CFD'02 27
De la connaissance «produit» à la connaissance «processus» p La production principale de la recherche est la publication (le produit) p L objectif de la recherche est la construction du savoir p Le processus de construction, à l ère du papier, était orienté vers la publication p La construction du savoir, à l ère Internet, doit s orienter vers l amélioration du processus Hammamet - Tunisie CFD'02 28
Le processus en couches Article, Livre Hammamet - Tunisie CFD'02 29
Faciliter le processus p Séparer les rôles Les organismes de conservation numérisent Des chercheurs transcrivent Des chercheurs analysent (pas toujours les mêmes) Des utilisateurs lisent et critiquent p Permettre la collaboration Chacun son rôle, chacun sa spécialité Compléter les compétences Accélérer la production et la sélection d idées Permettre/faciliter la concurrence (2 sens): p Compétition p Travail sur les mêmes objets Hammamet - Tunisie CFD'02 30
L annotation collaborative en ligne p Projet commun BnF, ITEM, INRIA p Publication de manuscrits de Flaubert, Proust et Valéry p La BnF s occupe de la conservation Numérisation et diffusion de feuillets de manuscrits + Metadonnées p L ITEM s occupe de la transcription, des descriptions, classifications, etc. p L INRIA s occupe de l infrastructure informatique Plate-forme logicielle Quelques programmes spécifiques dans le processus Hammamet - Tunisie CFD'02 31
Objectifs p Faciliter le processus de travail autour des manuscrits modernes p Présenter les manuscrits p Les organiser p Faciliter leur analyse p Faciliter les annotations Critique, corrections, etc. p Faciliter leur diffusion p Quelques exemples Hammamet - Tunisie CFD'02 32
Les modèles de collaboration p Collaboration synchrone/asynchrone Travailler en même temps sur le même document : trop difficile p Modèles de responsabilité de publication 1) Centralisée : site Web/maison d édition 2) Producteur/consommateur : sites de presse 3) Modérée : liste de diffusion/site collaboratif 4) Ouverts : site Wiki (wikipedia.org) p Choix du modèle 3) avec 2 modérateurs Hammamet - Tunisie CFD'02 33
Premières couches : lire le manuscrit Hammamet - Tunisie CFD'02 34
Deuxième couche : transcrire p Pour faciliter la lecture p Définition d un système d aide à la transcription p définition d un format informatique ouvert pour représenter les transcriptions Hammamet - Tunisie CFD'02 35
Hammamet - Tunisie CFD'02 36
Troisième couche : analyser p Trouver des fragments de texte similaires dans des feuillets p Organiser le dossier génétique Hammamet - Tunisie CFD'02 37
Concordances visuelles Hammamet - Tunisie CFD'02 38
Quatrième couche : Organiser un dossier génétique Hammamet - Tunisie CFD'02 39
Programme de recherche p Faciliter le traitement semi-automatique des manuscrits et sources images p Maintenir les liens entre représentations multiples au sein d une couche couches différentes p Développer une plate forme d édition et de travail pour faciliter la saisie et l annotation Word est encore trop utilisé p Faciliter le traitement, l analyse et la visualisation de corpus Accessible aux spécialistes du domaine et non aux informaticiens p Au-delà de la consultation, faciliter l analyse et l enrichissement continue par la collaboration Hammamet - Tunisie CFD'02 40