Annotation collaborative en ligne de l'archive manuscrite



Documents pareils
Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Master Technologies numériques appliquées à l'histoire Deuxième année

Etapes de création d une revue électronique

L. Granjon, E. Le Goff, A. Millereux, L. Saligny MSH Dijon

FreeMind. Freeplane XMind. 2 e édition. Bien démarrer avec le Mind Mapping. . Groupe Eyrolles, 2010, ISBN :

BUSINESS INTELLIGENCE

PROSOP : un système de gestion de bases de données prosopographiques

Pelleas : Le projet XML pour le systeme d information documentaire du polytechnicum de Marne- la Vallée

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Langage HTML (2 partie) <HyperText Markup Language> <tv>lt La Salle Avignon BTS IRIS</tv>

Bibliothèque numérique de l enssib

Quels fondements, services fonctionnalités et limites de l intranet?

ISTEX, vers des services innovants d accès à la connaissance

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Ministère de la Culture et de la Communication

LoReNa : pour dynamiser votre Relation Client (CRM)

Projet de programme pour l enseignement d exploration de la classe de 2 nde : Informatique et création numérique

Quels apprentissages info-documentaires au collège?

Les outils actuels permettent-ils d automatiser la production de cartes? De quels outils dispose-t-on?

Le Collège de France crée une chaire pérenne d Informatique, Algorithmes, machines et langages, et nomme le Pr Gérard BERRY titulaire

Programmation Internet Cours 4

Visualisation d information interactive

FORUM DES USAGES COOPERATIFS PATRIMOINE, HISTOIRE ET MEMOIRE EN LIGNE

Qualiac et la dématérialisation des factures. Dématérialisation des factures fournisseurs

Documalis. Denis SCHIRRA GSM : Plus d information sur notre site Internet

Big Data et Graphes : Quelques pistes de recherche

Constat ERP 20% ECM 80% ERP (Enterprise Resource Planning) = PGI (Progiciel de Gestion Intégré)

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

Pouvoirs de famille 2015

Advene, une plate-forme ouverte pour la construction d'hypervidéos

! Text Encoding Initiative

Pourquoi intégrer le Big Data à son organisa3on?

Votre infrastructure est-elle? La collaboration informatique. améliore la performance globale

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

1. Informations préliminaires

Présentation de la gamme de produits et manuels numériques

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

Apprentissage Automatique

e-science : perspectives et opportunités pour de nouvelles pratiques de la recherche en informatique et mathématiques appliquées

Cours Bases de données

Climat Scolaire - Manuel utilisateur - Chapitre 2 : «Créer, Editer et suivi d un texte»

Big Data et Graphes : Quelques pistes de recherche

WHITE PAPER Une revue de solution par Talend & Infosense

sont appliquées à des fonds documentaires, sont destinées à fournir des informations pertinentes sur la structure globale plutôt que sur le contenu.

Les archives ouvertes

ONIX : une norme pour communiquer entre familles professionnelles?

1 ère Université WEB. Courbevoie Samedi 21 octobre Votre site interactif sur internet.

Petite définition : Présentation :

Avantic Software Présentation de solutions GED pour mobiles (Gestion Electronique de Documents)

Plan. Un modèle d organisation. Pour les Archives numériques. Présentation Groupe PIN. Claude HUC (CNES)

1 Actuate Corporation de données. + d analyses. + d utilisateurs.

Cours Informatique de base INF-B Alphabétisation

Infrastructure / réseau / sécurité /support utilisateur

Guide de référence pour l achat de Business Analytics

La gestion des documents administratifs à la Bibliothèque nationale de France

findit.lu Les guides d utilisation Leçon 17

ArcGIS Mobile 9.3. Cédric Pesty Gael Simon. Conférence SIG 2008 Ateliers Techniques. S'il vous plait! Merci d'éteindre vos appareils portables

NORMES DE PRÉSENTATION DES MANUSCRITS

Présentation du cadre technique de mise en œuvre d un Service d Archivage Electronique

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Facture Mixte Collaboration Franco - Allemande Pourquoi? Comment? Cyrille Sautereau, Admarel Conseil, FNFE- MPE

Single Sign-On open source avec CAS (Central Authentication Service)

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e :

Charte de nommage du «.tn»

ELOECM Conference2015

Charte de nommage du «.tn»

Numérisation et valorisation des fonds patrimoniaux dans les collectivités

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

formations Une approche simple et personnalisée pour une meilleure acquisition de compétences en PAO

Atelier «La dématérialisation des factures à travers les technologies LAD»

Les utilisations pédagogiques du Tableau Numérique Interactif (TNI) dans l enseignement d Économie-Gestion :

SQL SERVER 2008, BUSINESS INTELLIGENCE

IBM System i. DB2 Web Query for System i : le successeur de Query/400? Oui, mais bien plus!!!

XML par la pratique Bases indispensables, concepts et cas pratiques (3ième édition)

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) Rencontres RNBM 3 Octobre 2007

Le bénéfice maximal de votre documentation

I) - DEFINITIONS I-A) TERMINOLOGIE

Association pour la recherche qualitative

ZOTERO Un outil gratuit de gestion de bibliographies

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

MASTER LPL : LANGUE ET INFORMATIQUE (P)

DATA ANALYTICS Des données aux connaissances et à la création de valeur

Rédigez efficacement vos rapports et thèses avec Word (2ième édition)

Installation de SCCM 2012 (v2)

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

La directive INSPIRE en Wallonie: le géoportail et l infrastructure de diffusion des géodonnées en Région wallonne (InfraSIG(

DEVELOPPEMENT ET MAINTENANCE DE LOGICIEL: OUTIL DE PILOTAGE

FICHE PRODUIT COREYE CACHE Architecture technique En bref Plateforme Clients Web Coreye Cache applicative Références Principe de fonctionnement

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Entrepôt de données 1. Introduction

Systèmes d'informations historique et mutations

Outils de traitements de logs Apache

Transcription:

Annotation collaborative en ligne de l'archive manuscrite Jean-Daniel Fekete INRIA Futurs & LRI Projet IN-SITU Jean-Daniel.Fekete@inria.fr http://www.lri.fr/~fekete Hammamet - Tunisie CFD'02 1

Plan p Le modèle d information en couches p Expérience d analyse de sources manuscrites historiques p Leçons et évolutions p De la connaissance «produit» à la connaissance «processus» p L annotation collaborative en ligne p Bilan et pas encore conclusion Hammamet - Tunisie CFD'02 2

Contexte p Que faire pour Transcrire Annoter Indexer Publier Analyser Vérifier Rendre réutilisables Donner du sens à Des manuscrits du XVI e et du XX e siècle? Hammamet - Tunisie CFD'02 3

Les couches d information p Le substrat physique Manuscrit historique, littéraire, cahier d expériences en physique, biologie ou chimie p La numérisation p La transcription diplomatique p Les annotations sémantiques p Les annotations analytiques p Les analyses Hammamet - Tunisie CFD'02 4

Les couches d information Hammamet - Tunisie CFD'02 5

Propriétés des couches d information p Cascade d abstractions Perte d information entre les couches p Mise en relation, pas atomisation Contexte, vérification p Multiples représentations Adaptées à chaque couche et tâche Création, vérification, indexation, navigation, abstraction, analyse Hammamet - Tunisie CFD'02 6

Que peut-on faire à chaque niveau? p 1 consulter (parfois) p 2 publier / diffuser p 3 chercher en texte plein p 4 indexer sur les attributs sémantiques p 5 indexer sur les catégories analytiques p 6 fouiller / visualiser / analyser Hammamet - Tunisie CFD'02 7

Couches d information: réalisation p Corpus de 100 «Lettres de rémission» du duché de Bretagne XVI e siècle p Utilisation des recommandations de la Text Encoding Initiative (TEI) Famille de DTDs XML p Codage manuel p Indexation par outils ad-hoc p Visualisation interactive pour l aide à l analyse Hammamet - Tunisie CFD'02 8

Les lettres de rémission p Définition La lettre de rémission est un acte de la Chancellerie par lequel le roi octroie son pardon à la suite d'un crime ou d un délit, arrêtant ainsi le cours ordinaire de la justice, qu'elle soit royale, seigneuriale, urbaine ou ecclésiastique. «Crime, état et société en France à la fin du Moyen Age», Claude Gauvard, volume 1, page 63, Publications de la Sorbonne, 1991. Hammamet - Tunisie CFD'02 9

Transcription diplomatique [11] en la compagnie de il et Jehanne Serance, lors sa femme, Jehan[12] durandiere et sa femme, mere dudit L Hammamet - Tunisie CFD'02 10

Transcription diplomatique (2) p Annotations éditoriales: <sic> pour des erreurs manifestes <abbr> pour les abréviations <unclear> pour les mots incertains <del> pour les ratures <add> pour les insertions Hammamet - Tunisie CFD'02 11

Codage et balisage diplomatique TEI [11] en la compagnie de il et Jehanne Serance, lors sa femme, Jehan[12] durandiere et sa femme, mere dudit Leserclier, et pareillement[13] André Serance, oncle paternel de lad Hammamet - Tunisie CFD'02 12

Les annotations sémantiques p <date> pour les dates p <name> pour les noms p <rs type=" "> Toponyme pour les lieux Arme pour les armes Meubles, architecture, etc. suivant les centres d intérêts p <signature> Hammamet - Tunisie CFD'02 13

Balisage sémantique TEI Hammamet - Tunisie CFD'02 14

Les annotations analytiques p Définition de catégories d interprétation <interpgrp type="sexe"> p <interp type="masculin"/> p <interp type="féminin"/> </interpgrp> p Annotation du document <name ana="masculin suppliant" key="jb">jehan Basset</name> <s ana="suppliant profession">laboureur</s> Hammamet - Tunisie CFD'02 15

Analyse à l aide de mécanismes TEI Interpretation Intercesseur (Personnage) parens et amys Victime (Personnage) Jehanne Serance Relation criminel/intercesseur (Personnage) consanguins de notre povre subgect Nom du criminel (Personnage) Pierre Leserclier Statut social du criminel (Statut) homme de labeur Statut social de la victime (Statut) lors sa femme Moment du crime (Date) aprés iceluy soupper Motif du crime (Motif) parolles desplaisant Lieu du crime (Lieu) Bonhardy Circonstance attenuante (Circonstance) qui est chargé de petiz enfans orphelins avoit auparavant bien et honnestement vescu et entretenu icelle sadite femme et enfans sans jamais avoir esté accusé ni convancu dautre cas reprouchable Date du crime (Date) dimanche, dernier jour de septembre dernier Date du jugement (Date) moys d'octobre l'an mil cinq cens vingt Type du crime (Crime) de vie a trespas Hammamet - Tunisie CFD'02 Elément volé (Objet) 16 None

Les analyses Graphique n 4 : Délais entre le crime et la rémission 300 250 200 Délais en mois 150 100 0 p Exemple: 50 04/01/31 18/01/31 01/02/31 15/02/31 01/03/31 15/03/31 29/03/31 12/04/31 26/04/31 10/05/31 Date de la p Délais entre le crime et la rémission: 24/05/31 07/06/31 21/06/31 05/07/31 <docdate ana="diplomatique-date-signature-chancellerie" value="04/01/1531">4 janvier 1530</docdate> <date ana="crime-date" value="24/10/1529">vingt quatriesme <abbr>jour</abbr> d'octobre dernier</date> 19/07/31 02/08/31 16/08/31 30/08/31 13/09/31 27/09/31 11/10/31 25/10/31 08/11/31 22/11/31 06/12/31 20/12/31 03/01/32 17/01/32 31/01/32 14/02/32 28/02/32 13/03/32 27/03/32 10/04/32 24/04/32 08/05/32 22/05/32 05/06/32 Hammamet - Tunisie CFD'02 17

Exploitations p Vérifications syntaxiques XML + Schema p Vérifications sémantiques Règles de cohérence interne p Hypertexte pour l édition et l analyse p Graphiques statiques p Visualisations interactives Hammamet - Tunisie CFD'02 18

Hammamet - Tunisie CFD'02 19

Visualisation statique Graphique n 3 : Nombre de lettres de grâce par année 100 90 80 70 Nombre de lettres 60 50 40 Nbre de lettres Nbre de mois en compte Lettre par an 30 20 10 0 1525 1526 1527 1530 1531 1532 1533 1534 1535 1538 1550 1556 1559 1562 1563 1573 1574 Année Hammamet - Tunisie CFD'02 20

Visualisation interactive p La visualisation est une spécialité ancienne p Trouver les représentations facilitant La communication L analyse La prise de décision p L interactivité l enrichit énormément Requêtes dynamiques Synchronisation de plusieurs vues Zoom et navigation p Utilisé journellement sur des données tabulaires p Difficile à utiliser sur des données semi structurées Hammamet - Tunisie CFD'02 21

Exemple de visualisation d information interactive sur des données tabulaires p Sportfire est issu des recherches de l université du Maryland p Chris Ahlberg p Ben Shneiderman Hammamet - Tunisie CFD'02 22

Visualisation d information et XML p Données semi-structurées p Pas vraiment typées p Plusieurs interprétations du même document p Visualisation de corpus et pas de document p Objectifs Vue d ensemble Vérification d hypothèses Analyses quantitatives Hammamet - Tunisie CFD'02 23

Visualisation de corupus XML : Compus p Par exemple, le document XML suivant : 0 1 2 3 4 012345678901234567890123456789012345678901234567 <A>abcd<B>efgh</B><C>ijkl<D>mnop</D></C>qrst</A> p est converti en une suite d intervalles : A=[0,48[, B=[7,18[, C=[18,40[, D=[25,36[ p Une couleur est associée à chaque élément XML pseuls les éléments sont affichés! Hammamet - Tunisie CFD'02 24

Compus et la visualisation XML Hammamet - Tunisie CFD'02 25

Interaction, recherche et analyse p Afficher / cacher un élément p Réassigner les couleurs p Classer par nombre d éléments ou par surface p Afficher les éléments placés ou additionnés p Appliquer une transformation par XSLT Faire apparaître un phénomène codé spécifiquement p Démo! Hammamet - Tunisie CFD'02 26

Leçons et évolutions p 1000 documents actuellement p Transcription et annotations syntaxiques Fastidieux, long, difficile, mais Très réutilisable si l infrastructure le permet! p Annotations sémantiques Très dépendantes du domaine d utilisation Parfois réutilisables ou source d inspiration p Infrastructure Très pauvre pour l édition et l annotation XML pas orienté corpus Manque des types de liens hypertextuels Hammamet - Tunisie CFD'02 27

De la connaissance «produit» à la connaissance «processus» p La production principale de la recherche est la publication (le produit) p L objectif de la recherche est la construction du savoir p Le processus de construction, à l ère du papier, était orienté vers la publication p La construction du savoir, à l ère Internet, doit s orienter vers l amélioration du processus Hammamet - Tunisie CFD'02 28

Le processus en couches Article, Livre Hammamet - Tunisie CFD'02 29

Faciliter le processus p Séparer les rôles Les organismes de conservation numérisent Des chercheurs transcrivent Des chercheurs analysent (pas toujours les mêmes) Des utilisateurs lisent et critiquent p Permettre la collaboration Chacun son rôle, chacun sa spécialité Compléter les compétences Accélérer la production et la sélection d idées Permettre/faciliter la concurrence (2 sens): p Compétition p Travail sur les mêmes objets Hammamet - Tunisie CFD'02 30

L annotation collaborative en ligne p Projet commun BnF, ITEM, INRIA p Publication de manuscrits de Flaubert, Proust et Valéry p La BnF s occupe de la conservation Numérisation et diffusion de feuillets de manuscrits + Metadonnées p L ITEM s occupe de la transcription, des descriptions, classifications, etc. p L INRIA s occupe de l infrastructure informatique Plate-forme logicielle Quelques programmes spécifiques dans le processus Hammamet - Tunisie CFD'02 31

Objectifs p Faciliter le processus de travail autour des manuscrits modernes p Présenter les manuscrits p Les organiser p Faciliter leur analyse p Faciliter les annotations Critique, corrections, etc. p Faciliter leur diffusion p Quelques exemples Hammamet - Tunisie CFD'02 32

Les modèles de collaboration p Collaboration synchrone/asynchrone Travailler en même temps sur le même document : trop difficile p Modèles de responsabilité de publication 1) Centralisée : site Web/maison d édition 2) Producteur/consommateur : sites de presse 3) Modérée : liste de diffusion/site collaboratif 4) Ouverts : site Wiki (wikipedia.org) p Choix du modèle 3) avec 2 modérateurs Hammamet - Tunisie CFD'02 33

Premières couches : lire le manuscrit Hammamet - Tunisie CFD'02 34

Deuxième couche : transcrire p Pour faciliter la lecture p Définition d un système d aide à la transcription p définition d un format informatique ouvert pour représenter les transcriptions Hammamet - Tunisie CFD'02 35

Hammamet - Tunisie CFD'02 36

Troisième couche : analyser p Trouver des fragments de texte similaires dans des feuillets p Organiser le dossier génétique Hammamet - Tunisie CFD'02 37

Concordances visuelles Hammamet - Tunisie CFD'02 38

Quatrième couche : Organiser un dossier génétique Hammamet - Tunisie CFD'02 39

Programme de recherche p Faciliter le traitement semi-automatique des manuscrits et sources images p Maintenir les liens entre représentations multiples au sein d une couche couches différentes p Développer une plate forme d édition et de travail pour faciliter la saisie et l annotation Word est encore trop utilisé p Faciliter le traitement, l analyse et la visualisation de corpus Accessible aux spécialistes du domaine et non aux informaticiens p Au-delà de la consultation, faciliter l analyse et l enrichissement continue par la collaboration Hammamet - Tunisie CFD'02 40