Les «Bibliothèques Virtuelles Humanistes» Vers un centre de ressources numériques Textes Imprimés PatrimOniaux (TIPO)



Documents pareils
Ministère de la Culture et de la Communication

ISTEX, vers des services innovants d accès à la connaissance

Présentation générale du projet data.bnf.fr

Bibliothèque numérique de l enssib

Annotation collaborative en ligne de l'archive manuscrite

Compte-rendu re union Campus AAR 3 mars 2015

Infrastructure / réseau / sécurité /support utilisateur

Programme national de numérisation. Ministère de la Culture et de la Communication. Appel à projets de numérisation 2010

Ci-après, la liste des masters proposés par les universités françaises pour se former, en 2 ans après la licence, à l un des métiers de la culture.

La «confluence» documentaire et

Les archives ouvertes

Les ressources informatiques et la mise en ligne des documents numérisés Enquête DLL juin-décembre 2008

La modernisation technologique du réseau repose alors sur plusieurs axes de travail :

Numérisation et valorisation des fonds patrimoniaux dans les collectivités

Mise en place d une politique institutionnelle d archives ouvertes

La gestion des documents administratifs à la Bibliothèque nationale de France

Evolution des catalogues et des métiers: comment se préparer aux changements? Quelques échos de la BnF. CRFCB Université de Toulouse 29 mars 2013

L importance des choix juridiques pour la médiation dans l environnement numérique

PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES

PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES. 12 mars 2015

Les documents primaires / Les documents secondaires

Les nouveaux sites documentaires de l IRD

HAL, archives ouvertes. Christine Berthaud, CNRS/CCSD - Directrice

Master Informatique Aix-Marseille Université

Master Technologies numériques appliquées à l'histoire Deuxième année

Ministère de la Culture et de la Communication

Le Parc naturel régional des SIG. Restructuration d un SIG et diffusion des données dans le cadre de la directive Inspire

Une organisation internationale au cœur des enjeux de contenus et d accès à l information scientifique: L IFLA

Magento. Magento. Réussir son site e-commerce. Réussir son site e-commerce BLANCHARD. Préface de Sébastien L e p e r s

Atelier 1. Portails documentaires : BioLib et Cemadoc

Archives ouvertes : les enjeux dans les politiques d établissement et les projets internationaux

Logiciels libres de Bibliothèques numériques : présentation. Castore & Greenstone. Les autres : CDS Invenio, EPRINTS, Dspace.

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES. h tt p : / / w w w. s c i e n c e s c o n f. o rg

Le signalement des acquisitions numériques à l échelle nationale Le rôle du hub de métadonnées scénarios et prototype

Catalogue des formations Edition 2015

Éditeur Elsevier Langue(s) Multilingue

Création outil multimédia de restitution du projet «l intergénérationnel : un levier pour un levier pour créer du lien social en milieu rural

La politique et les actions de coopération nationale de la Bibliothèque nationale de France. Bilan 2014 Perspectives

OPEN ACCESS. ouverte INP Toulouse

Sommaire. 1 Introduction Présentation du logiciel de commerce électronique 23

I) - DEFINITIONS I-A) TERMINOLOGIE

FICHE DE POSTE. Gestionnaire des données du Portail des savoirs (H/F)

MODE D'EMPLOI. La gestion des versions permettra de compléter et de faire évoluer les fiches dans le temps. NOM DE LA RESSOURCE CONTACT FOURNISSEUR

Sommaire. Introduction. Nouveautés d Adobe InDesign CS3. Visite guidée d Adobe InDesign

Comité scientifique 7 décembre Observatoire de Paris

Dafoe Présentation de la plate-forme UIMA

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Synthèse du sondage sur les éditeurs XML TEI/EAD

Initiation à la recherche documentaire

Instrumentation de la recherche en Education : analyse épistémologique de quelques logiciels d aide à l analyse d enregistrements vidéos

Plan de la présentation

Fourniture d un outil de gestion du courrier électronique pour les sites internet de la Documentation Française

LES FORMULES DE PUBLICATION

Présentation de la gamme de produits et manuels numériques

L externalisation de vos logiciels entreprises : une solution aux problèmes de coûts, de sécurités et de réactivités

MDM Multicanal. - Tous Droits Réservés

Référentiel des métiers et des fonctions de l information-documentation

La recherche documentaire et la recherche d informations professionnelles. BU Sciences BIU Montpellier PPE 2012

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) JRES Novembre 2007

ARCHIVISTIQUE ET INGÉNIERIE DOCUMENTAIRE

Quels apprentissages info-documentaires au collège?

L. Granjon, E. Le Goff, A. Millereux, L. Saligny MSH Dijon

POSITIONNEMENT DU POSTE DANS LA STRUCTURE MISSIONS

Europresse.com. Pour les bibliothèques publiques et de l enseignement. Votre meilleur outil de recherche en ligne. Guide version 1.

ISTEX-SNU. ISTEX en quelques clics dans votre portail documentaire. Séminaire technique ISTEX 18 mars 2015

ELOECM Conference2015

Présentation du service «photothèque-and-co» annuaire professionnel. base de données

SOLUTION INFORMATIQUE INTÉGRÉE POUR BIBLIOTHÈQUES MÉDIATHÈQUES CENTRES DE DOCUMENTATION ARCHIVES

Table des matières détaillée

Master recherche Histoire des mondes moderne et contemporain

Base de données bibliographiques Pubmed-Medline

APPEL A PROJETS du Conseil Régional de Lorraine «TECHNOLOGIES NUMERIQUES POUR LES NOUVEAUX USAGES DE L IMAGE»

Le livre numérique désigne le contenu de lecture que l on intègre dans ces liseuses. Ses synonymes sont : le livre électronique, l ebook et le livrel.

CATALOGUE DE LA GAMME EASYFOLDER OFFRE GESTION DE CONTENUS NUMERIQUES

: seul le dossier dossier sera cherché, tous les sousdomaines

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

MASTER RECHERCHE CINEMA : APPROCHES INTERCULTURELLES

Conception et réalisation d un projet de communication numérique

La Jubilothèque Du magasin à la Jubilothèque documents en ligne soit + de pages budget /an 0.7 ETP Pôle associé BnF

UNIVERSITÉ PARIS 1 PANTHÉON-SORBONNE CENTRE SAINT-CHARLES MASTER MULTIMÉDIA INTERACTIF 47, RUE DES BERGERS PARIS

Recherche bibliographique

ECRIRE. Linguistyle. typographie 2 Lisibilité 3 Ecrire 4 Exercices. typographie. R e a l v i r t u e. 1 Anatomie du mot. Comprendre Comprendre

Datalift day 9 avril 2015

Projet en nouvelles technologies de l information et de la communication

Couplage d une base de données documentaire à une visualisation interactive 3D sur l Internet

Le projet SIST. Internet et Grilles de calculs en Afrique Agropolis- Montpellier Décembre 2007

Gestion collaborative de documents

LE RESEAU Ce réseau est issu de l'identification et de la formation de personnes et d'équipes ressources en numérisation.

Rédiger : le numérique dans la préparation de la thèse

GERER SES REFERENCES BIBLIOGRAPHIQUES AVEC ZOTERO

FORMATION / CREATION DE SITE WEB / 4 JOURNEES Sessions Octobre 2006

Christelle MAZIERE (30 ans)

Pédagogie : A Lyon 1 : DESS en informatique documentaire (avec Enssib), DEUST doc, IUP DIST, DEA SIC puis à Lyon 3

4. Personnalisation du site web de la conférence

Licence de langues, littératures et civilisations étrangères (LLCE)

Licence professionnelle Bibliothécaire

Transcription:

Les «Bibliothèques Virtuelles Humanistes» Vers un centre de ressources numériques Textes Imprimés PatrimOniaux (TIPO) Université d hiver Adonis-Valpré 6-8 décembre 2010 http://www.bvh.univ-tours.fr

Le Centre d Études Supérieures de la Renaissance à Tours: une UMR et une UFR

Les BVH: Equipe-projet et CRN «TIPo» Les mots-clés des humanités numériques: Accessibles Protégées (propriété intellectuelle) Réutilisables, partageables, transmissibles Archivées de façon durable L organisation d une communauté: entre incitation et sélection (soumission/ acceptation de projets)

Documents patrimoniaux Documents patrimoniaux Imprimés/ manuscrits Archives Bibliothèques Région Centre Autres (publiques/ privées) Publiques Privées

Métadonnées Catalogue et TEI PDF, PDF/mrc Moteur XTF Sommaires BVH Bases d imprimés Textes en TEI Mots-clés Iconclass Iconographie Lettrines OLDB Base typographique

Le moteur de recherche XTF (extensible Text Framework) - Développé par l Université de Berkeley (California Digital Library) depuis 2005 Expérimenté pour le site BVH depuis le 22 juillet 2009 - Accessible sur sourceforge.net - Système de recherche multiformat sur les métadonnées et le plein-texte pour les documents - Xml, xml/tei - Html - Pdf - CrossQuery pour les requêtes, dynaxml pour la restitution selon les feuilles de style XSLT, indexeur Lucene - Opérationnel sur les sites Mark Twain, Newton, The Chicago Encyclopedia - Permet (avec adaptation): - l alignement fac-similé/ texte - l application des feuilles de style TEI Renaissance

Un modèle possible: Deustches Text Archiv (DTA) Affichage de l image et/ou du texte en html ou en xml Liens vers les métadonnées et le téléchargement des fichiers html et xml http://www.deutschestextarchiv.de

Un CRN émergent au sein des BVH: TIPo CRN émergent Adonis depuis mai 2010: «Textes Imprimés PatrimOniaux» (TIPo) Programme portant sur: Les données (imprimés de la Renaissance, actes notariés) et les métadonnées (catalogue, headers TEI) Les outils Les savoir-faire (les «compétences») Les formations (TEI, gestion de projet)

Savoir-faire Outils Métadonnées Formations Données Numérisation transcription contrôle indexation BVH Archivage

Savoir-faire Modèes de métadonnées Outils: développement, adaptation, partage Mise à disposition des données TIPo Formations: initiale et continue

Cibles des BVH Traitement des textes et des images pour les imprimés patrimoniaux Principalement les imprimés anciens (XV e - XVII e siècles), cœur de cible (extensible aux ouvrages postérieurs), pôle associé BnF Manuscrits et archives: collaboration avec TELMA et Ecole des Chartes Intégration texte/ image Editions génériques/ génétiques

Communautés de chercheurs et d usagers Contenu Histoire, littérature, philosophie Style Histoire de l art Langue linguistique Forme Histoire du livre

Accessibilité et propriété Accès libre et gratuit à toutes les données (y compris la structure TEI en cours) Veille juridique et propriété intellectuelle pour: Les fac-similés numériques, les images extraites Les textes transcrits et publiés en html et xml Les textes encodés en TEI Les métadonnées, les bases de données Le progiciel co-développé avec une société (Edit-tei) Les applications en licence libre (AGORA, avec le LI de Tours) = libres de droits, avec licence CC (sauf Edit-tei)

Header affiché

Archivage local/ délocalisé Données SVN Copie 1 Copie 2 Externalisé JPG JPG Pdf, textes bibliothèque CESR Copie 3 JPG Cines? IN2P3?

BVH: outils pour l image patrimoniale Un logiciel d analyse de structuration de la page, AGORA (opérationnel), avec le Laboratoire d Informatique de Tours (J.-Y. Ramel) Un logiciel d OCR (RETRO) pour la typographie ancienne (en développement), avec le Laboratoire d Informatique de Tours (J.-Y. Ramel) et le LITIS (Rouen) Un comparateur et un indexeur de lettrines (fond, lettre, motif) dans la base OLDB, avec le Laboratoire d Informatique de Tours (J.-Y. Ramel) et le consortium Navidomass (J.-M. Ogier, U. de La Rochelle) en développement

Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ AGORA Extraction automatique des éléments figurés du livre Préindexation automatique des types d éléments et pré-balisage SOUS-BASES D IMAGES Galerie des marques typographiques Galerie de portraits Base emblèmes (indexée par Iconclass) Base lettrines (indexation propre + Iconclass)

EXTRACTION GRAPHIQUE: SCENARIOS Délimitation des zones de texte/ image selon des scénarios Scénarios: type de zone d image/ de texte (lettrine, titre, signature, réclame, corps de texte, numéro de page, titre courant, marges bruit, )

CLASSIFICATION PAR PROXIMITÉ

Structure physique: les blocs pictura/ illustration Eléments graphiques Marque Lettre ornée D imprimeur Portrait Ornement Bloc de texte

Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ ICONCLASS: MOTS-CLÉS POUR INDEXER LES IMAGES ET LE TEXTE http://www.bvh.univ-tours.fr/iconclass_browse.asp

Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ Indexation des emblèmes Base d emblèmes (Iconclass) Collaboration avec le projet French Emblem Books (Glasgow) Indexation avec codification alpha-numérique Entrepôt OAI Iconclass moissonné Encapsulation web du thésaurus multilingue Affichage multilingue des données d indexation

Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ Extraction des éléments graphiques: portraits http://www.bvh.ques niv-tours.fr/img_portrait.asp

Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ Extraction et indexation des lettrines Parcours d un matériel Michel de Vascosan, 1555 Michel de Vascosan, 1559 Hierosme de Marnef, & Guillaumme Cavellat, 1576

Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ BATYR: base de typographie de la Renaissance Ornements gravés Ornements de fonte Polices de caractères Pré-indexation d images d ornements typographiques (AGORA) Constitution automatique de spécimens de caractères (RETRO) et reconstitution des fontes http://www.bvh.univ-tours.fr/materiel_typo.asp

Indexation des illustrations du Champfleury (G. Tory, 1529, exemplaire BM de Blois) avec Iconclass Autres descripteurs : Leonardo da Vinci/ The Vitruvius Man/ Jean Perreal/ Jean de Paris ICONCLASS 31A12 figure, inscrite dans un cercle ou un carré, avec les jambes écartées et les bras étendus vers le haut ou le côté (+ variante: vu de face) 49D342(SQUARE) quadrilatère régulier : carré 49D36 Cercle (planimétrie géométrie) 49D52 mesurer 49L12(O) écriture romaine; écriture basée sur l'alphabet romain (avec LETTRES) 49L1 Lettres, alphabet, texte 49D52 Tracer des figures, mesurer, calculer 49D362 Quadrature du cercle

Encodage des lettrines avec Iconclass Lettrine L (Champfleury): <g ref=""/>l</><hi rend= larger >L</hi>Es Iconclass descriptors in <figdesc>: 49L171 Lettre initiale historiée 49L12 (L) Écriture basée sur l alphabet romain (L) 48A9875(+32) Ornement Feston, guirlande (+variante: décorations pendantes) 49M32 Livre 49D521 Instruments de mesure

Champfleury: Encodage XML-TEI version bêta, à l aide d Image Markup Tool 1.8, par V. Le Rolle, N. Dufournaud et L. Danjean CESR <!-- --> </teiheader> <facsimile> <surface> <graphic xml:id= "16v" url="champfleury_blois_16v_ill.jpg" width="1300px" height="1140px"/> <zone xml:id= "16v_1" rendition="" ulx="60" uly="50" lrx="897" lry="281" rend="visible"/> <!-- --> </surface> </facsimile> <!-- --> <text> <!-- --> <body> <!-- --><div> <!-- --> <p n="imtimageannotations"> <!-- --> <figure facs="#16v"></figure> <figure facs="#f16v_1" n="imtannotation" ><p>le Flageol de Virgile <lb/>en perspective, et<lb/>moralite.</p> </figure> <!-- --> </p> <p><g ref=""></g><hi rend="larger">p</hi>our myeulx encores perseverer, Je veulx cy dire & monstrer que nosdictes <lb/>lettres Attiques ont si bien este proportionees des Anciens qu'elles ont en <!-- -->

Indexation d éléments graphiques BDD = > XML-TEI (en développement)

BVH: outils pour le texte imprimé patrimonial Des modèles d encodage TEI pour les textes transcrits (fichiers-types, feuilles de style) Des modèles d encodage TEI pour les éditions complexes (hybrides manuscrits/ imprimés, livres de comptes, liasses hétérogènes, recueils factices) Un éditeur TEI, avec modules de régularisation graphique (détildage et dissimilation), avec la société Digiscrib Des thésaurus pour le français de la Renaissance Des dictionnaires de noms propres/ entités nommées (en projet, avec D. Maurel, LI Tours) Un outil de traitement de l hétérographie et d étiquetage morphosyntaxique, avec le Laboratoire FORELL (M.-H. Lay, U. de Poitiers)

Données textuelles réutilisables Formats de téléchargement: pdf-mrc, html, tei 2 niveaux de transcription: diplomatique/ patrimonial, 3 e (modernisé) en projet Transcription patrimoniale annotée: en projet 440 ouvrages en ligne, avec pdf/ mrc (750 numérisés) Text/ pdf Text/ Tei Text/ html

Les BVH et la TEI (depuis 2004)

Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ HISTORIQUE Avant 2007: 1995: 8 textes de Rabelais en ligne (Nice), html/hyperbase 1998-2007: 17 textes html en ligne (Poitiers-Tours), html/ tactweb 2004: début des cours XML (JD Fekete) et TEI (N. Dufournaud) pour le master professionnalisant du CESR Depuis 2007 ( TEI membership ): début de l encodage en TEI P5 (crédits ANR Masses de données ) 2008-2010: harmonisation des en-têtes TEI et des normes de catalogage

MÉTADONNÉES DE CATALOGAGE 1. Métadonnées de catalogues pour le moteur XTF (gestion de la majeure partie du site BVH) 2. Compatibilité CCFR (comme le catalogue des incunables choix de MARC) et OAI-PMH pour moissonnage par Gallica 3. Compatibilité Europeana (TEI/MARC/Dublincore)

http://contentchecker.isti.cnr.it:8080/portal/briefdoc.html?query=europeana_collectionname%3a08007&start=1&view=table&tab=

Métadonnées du document électronique : Catalogage et moissonnage Header html Notice XTF en ligne Fichier source en XML-TEI Moissonnage des métadonnées pour Europeana <record> <dc:identifier>http://www.bvh.univtours.fr:8080/xtf/view?docid=tei/b372616101_3537/b372616101_3537.xml</dc:identifier> <dc:title>tiers Livre</dc:title> <dc:creator>rabelais, François</dc:creator> <dc:publisher>paris, C. Wechel</dc:publisher> <dc:date>1546</dc:date> <dc:type>texte imprimé</dc:type> <dc:format>text/xml</dc:format> <dc:rights>bvh Epistemon</dc:rights> <europeana:provider>bibliothèques Virtuelles Humanistes</europeana:provider> <europeana:type>text</europeana:type> <europeana:isshownat>http://www.bvh.univtours.fr:8080/xtf/view?docid=tei/b372616101_3537/b372616101_3537.xml</europeana:issh ownat> </record>

MÉTADONNÉES DE STRUCTURE, les sommaires: migration en XML/ TEI (en cours)

RÉUTILISATION/ ENRICHISSEMENT DES MÉTADONNÉES Notices des fac-similés: Reprendre les notices bibliographiques standard Les enrichir par la bibliographie spécifique à un ouvrage/ un auteur: Nouvelle publication dans la base Transfert des métadonnées dans: Le header TEI L entrepôt OAI/ PMH pour Gallica et Europeana

De la transcription à l encodage

Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ Acquisition numérique du texte: les OCR Résultats obtenus avec FineReader (ABBYY), Omnipage avec/ sans dictionnaires spécifiques; tests comparatifs Tests du logiciel BIT-Alpha (société Tomasi) à Wolfenbüttel et à Tours. Acquisition du logiciel par le CESR (04-12-2008) Problèmes de rentabilité (longueur et complexité de l apprentissage) Développement de RETRO (U. de Tours, JY Ramel) après classement des clusters par AGORA

Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ Pré-balisage avec RETRO: OCR en cours de développement (Tours) => Sortie en XML/ TEI

Evaluation of an Optical Character Recognition System Authors Ait-Mohand Kamel, Laurent Heutte, Thierry Paquet Laboratoire LITIS, Université de Rouen Nicolas Ragot Laboratoire d informatique, Université de Tours 44

Collaboration with the BnF Printed documents digitization program Digitization Transcription with OCR Need to predict OCR results Assess data quality Prediction of what the OCR result can be Based on a benchmark for OCR 45

Adaptation results Adaptation with 30 line images + transcription Improvement, but limited impact due to: Bad line segmentation Unknown characters (ē, ā, ō ), long S Books Omnipage + lexicon Omnipage Ocropus + lexicon Our OCR without lexicon Our adapted OCR without lexicon Our OCR clean lines, no lexicon Our adapted OCR clean line no lexicon Antiquités Gauloises 89.82% 85.93% 86.08% 88.51% 91.78% 94.98% Expédition chrestienne 86.48% 61.25% 67.82% 75.61% Les treselegantes annales 85.6% 73.92% 76.84% 80.7% Les histoires de Diodore 90.19% 83.82% 83.36% 85.32% 46

Coupler RETRO et OCRopus Visualisation contextuelle Améliorer le processus de clustering Regroupement des polices OCR RETRO + OCRopus Expertise linguistique

Renaissance.dtd Renaissance.xsl Fichier type TEI Renaissance header, qui contient Les champs des notices La localisation des facsimilés Les auteurs Les crédits Les versions => affichage total ou partiel en tête du document

Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ Pré-balisage TEI avec l outil EDIT-TEI Co-développement et acquisition auprès de la société Digiscrib (sept. 2009) Encodeur de base, en Java, avec balises préétablies pour les prestataires ou les non spécialistes Permet une correction par dictionnaire de formes (français, latin, italien) personnalisé (accentué ou non, mots coupés ou non)

Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ Préformatage de la structure du document Balises fondamentales lb, p, sic par raccourcis clavier ou menus étape opérateur Détildage (français et latin) Dissimilation ij/uv (français) Ajout ou validation de balises éditoriales (sic, corr, unclear, name) étape BVH Export vers Oxygen ou un autre éditeur xml

Le corps du texte: encodage TEI «patrimonial» Constituer un Corpus en français de la Renaissance (principalement), avec traitement par Philologic, TXM, Analog Objectif: 141 textes originaux en 2014 (sans restriction d accès, à partir des graphies originales Encodage patrimonial: sélection de balises pour traitements automatiques

ENCODAGE PATRIMONIAL Le plus petit commun dénominateur pour les 4 communautés => une transcription générique En-tête conforme aux usages des bibliothèques La transcription annotée considérée comme un livre et comme une oeuvre (avec identifiant)

DIPLOMATIQUE/ PATRIMONIAL AVENVES (diplomatique) Feuille de style 1 > AVENUES (patrimonial) Feuille de style 2 ƒi ie> si je reuerēce> reverence vƒurpateur> usurpateur 53

<fw place="top-center" type="head">le PREMIER LIVRE.</fw> <fw place="top-left" type="pagenum">feuil. I</fw> <div type="book" n="1"> <head rend="center"> L ART ET SCIENCE DE LA <lb/>deue ET VRAYE PROPORTION DES LETTRES ATTI- <lb/> QUES, QU ON DICT AUTREMENT LETTRES ANTIQUES <lb/> ET VULGAIREMENT LETTRES ROMAINES. </head> <p> <lb/> <g ref="">l</g><hi rend="larger">l</hi>e matin du jour de la feste aux Roys, apres <lb/> avoir prins mon sommeil & repos, & que mon esto <lb/> mac de sa legiere & joyeuse viande avoit faict <lb/> sa facile concoction. que l on comptoit M. D. <lb/> XXIII. me pris a fantasier en mon lict, & mou <lb/> voir la roue de ma memoire / pensant a mille pe <lb/> tites fantasies, tant serieuses que joyeuses. en- <lb/> tre lesquelles me souvint de quelque lettre An <lb/> tique que j avoys nagueres faicte pour la mai

Feuille de style «Renaissance» = > Version html L ART ET SCIENCE DE LA DEUE ET VRAYE PROPORTION DES LETTRES ATTI- QUES, QU ON DICT AUTREMENT LETTRES ANTIQUES ET VULGAIREMENT LETTRES ROMAINES. LE matin du jour de la feste aux Roys, apres avoir prins mon sommeil & repos, & que mon esto mac de sa legiere & joyeuse viande avoit faict sa facile concoction. que l on comptoit M. D. XXIII. me pris a fantasier en mon lict, & mou voir la roue de ma memoire / pensant a mille pe tites fantasies, tant serieuses que joyeuses. entre lesquelles me souvint de quelque lettre An

TEI P5: modules utilisés core, header, textstructure, drama, figures, gaiji, linking msdescription, namesdates, transcr et verse schémas xml générés avec Roma

Éléments d édition générique (hors métadonnées) <abbr> <expan> <add><note><graphic> <sic> <orig> <choice> <corr> <del> <gap> <unclear> <reg> <supplied> <space> <said> <stage> <speaker> <quote> <foreign> <name> <persname> <placename> <geogname> <ref> <sig> <catch> <div><head><pb> <p> <lb> <l> <lg> <fw>

LE PROGICIEL EDIT-TEI (Digiscrib / BVH) Import.doc ou transcription Transcription en TEI Renaissance simplifié Correction avec dictionnaire Détildage Dissimilation Output XML

PhiloLogic (Chicago, Mark Olsen) adapté par Ecrit.com, Poitiers Modification nécessaire du balisage http://www.bvh.univtours.fr/epistemon/philologicde v.asp

BVH: savoir-faire Numérisation patrimoniale, production de fac-similés numériques, archivage standard Découpage de structure, création de tables des matières, bases de feuilletage Extraction et classement automatiques des éléments illustrés et des zones de texte Encodage TEI pour les documents imprimés ou hybrides: principes de transcriptions quasi-diplomatique/ patrimoniale Indexation des images avec Iconclass Gestion de bases de données relationnelles (fac-similés, textes, iconographie, actes notariés) Création d entrepôts OAI-PMH (moissonnage par Gallica et Europeana) Évaluation des coûts réels (400 euros/ fac-similé, 1000 euros/ ouvrage transcrit)

Référentiels et documentation Accès libre ou à la demande: Un Manuel d encodage TEI Renaissance, en ligne depuis 2008, version 3 en préparation Manuel SVN (en préparation) Descripteurs d images (Iconclass, ODLB - lettrines) Cahiers des charges (numérisation, interface web, moteur de recherche, normes de saisie) Modèles de métadonnées (description d imprimés, d incunables, de manuscrits, d archives)

Transmissibilité (I) Formations Master pro, unité d enseignement BVH depuis 2004, avec formation TEI Stages BVH TEI pour les étudiants, et ouverts depuis janvier 2008 selon les places disponibles Formation continue Complémentarité avec les formations Ecole des Chartes Interventions dans les masters pro de l ENSSIB, Angers, Poitiers Intervenants issus de l ENSSIB, Poitiers, Caen, IRHT, INRIA, Laboratoires d informatique, consortium TEI (Lou Burnard, Elena Pierazzo)

Transmissibilité (II) Contrat quadriennal 2012-2015 (étendu à 2017) Intégration du master pro dans un ensemble professionnalisant Patrimoine matériel et immatériel Perméabilité master pro/ recherche Dépôt d un projet de laboratoire d excellence Patrimoine Moyen Age et Renaissance, avec accent sur le numérique (image/ texte/ son), Tours-Orléans-Poitiers- La Rochelle Intensification et internationalisation des stages de formation initiale et continue Souhaitée: une formation doctorale à double compétence (humanités nouvelles technologies)

Développements en cours Amélioration des performances de l OCR (segmentation, correction avec dictionnaires de formes, recherches sur les n- grammes) Solutions d affichage et de requête avec XTF, migration des données bibliographiques et sommaires en XML/ TEI Adaptation de PhiloLogic (U. de Chicago) pour la base textuelle Comparaison des modèles de métadonnées TEI pour les actes notariés

Développements 2011-2014 Classement des familles de polices anciennes et des ornements typographiques (projet BATYR) avant/ pendant le traitement par OCR OCR: collaboration avec la BnF et le projet européen IMPACT (Improving Access to Text) pour une thèse en co-direction Tours-BnF-Rouen Constitution de versions sonores des textes transcrits et de textes modernisés Indexation et exploitation des données: Entités nommées et SIG associés Ontologies RDF pour la prosopographie et les mots-clés Recherche par facettes: nouvelle typologie des genres littéraires Recherche par variantes graphiques Tests d autres plateformes: TXM (Lyon, ICAR), Pinakes (Pise), SADE (COST Interedition),

OCR Variation graphique Entités nommées Prosopographie Typologie - facettes SIG Ontologies RDF BVH + TIPo 2011-2014 Versions audio

Données: Bilan: mai-novembre 2010 (I) 150 nouveaux fac-similés en ligne (Châteauroux, Vendôme, Blois, Tours suite de la campagne), avec leurs sommaires et extraction des éléments illustrés; voir http://www.bvh.univ-tours.fr Mise en ligne de 16 nouveaux textes en XML/ TEI, avec nouvelles feuilles de style (Ronsard, Rabelais, Louise Labé, Du Bellay, Garzoni, ) Encodage TEI de 15 nouveaux textes transcrits sur 41 (141 horizon 2014) Mise en ligne d un millier de nouvelles minutes notariales Numérisation et début d indexation de 4500 actes notariés du XVe siècle Mars- septembre 2010: Nombre d'accès réussis 2 063 352 (82%) Top download: Champfleury en pdf (avec sous-couche texte) entre fin juillet et mi-septembre (moins trois semaines de panne serveur) : 2946 téléchargements Durée moyenne des visites 41:34 Min

Outils: Bilan: mai-novembre 2010 (II) Fichiers-types pour l interopérabilité des métadonnées incunables/ imprimés/ manuscrits, actes notariés Elaboration des modèles de rétroconversion pour les catalogues des incunables (avec le groupe de travail du Ministère de la Culture) Tests sur le comparateur et indexeur de lettrines Développement du moteur de recherche XTF (nouvelle version 2010) Prototype de l éditeur TEI, des modules de détildage et de dissimilation Préparation de projets: Corpus «Montaigne à l œuvre» (avec l U. de Chicago) et début des travaux sur un modèle d édition génétique (avec Lou Burnard) Site Garamond (avec le Ministère de la Culture et les Commémorations nationales)

Bilan: mai-novembre 2010 (III) Préparation de projets (suite) Actes notariés avec TELMA Procédures de requête sur des textes en français non standard pour des corpus textuels hétérogènes Publications et participations aux colloques Mars 2010, Tokyo, «Digital scholarship» Juin 2010, King s College, DH conference (comme observateur) Octobre 2010, La Haye et Amsterdam, Europeana, Annual Meeting Novembre 2010, Strasbourg, ESF workshop sur les Digital Humanities Novembre 2010, Zadar (Croatie), congrès de la TEI Novembre 2010, Chicago, Digital Humanities and Computing Science

Bilan: mai-novembre 2010 (IV) Formations Juin 2010, TEI France (Lyon, ISH, MUTEC) Octobre 2010, ANGD (Aussois) Novembre 2010, Stage TEI formation continue, Tours, CESR Modules de numérisation du master pro «Patrimoine écrit et édition numérique»: traitement de l image, initiation aux OCR Préparation du stage TEI du master pro, Tours, CESR (janvier 2011, augmentation de sa durée)

FORMATIONS Master pro «patrimoine écrit et édition numérique» UE «BVH»: OCR XML TEI (stage) transcription - Interventions dans d autres masters (ENSSIB, Poitiers, Angers) Stage longue durée en entreprise ou laboratoire

Les archives Intégration des archives dans les BVH pour des projets spécifiques: Disponibilité des 10 000 transcriptions de minutes notariales transcrites par P. Aquilon, B. Chevalier Numérisation de toutes les minutes du XVe siècle (4500), Convention avec les AD 37, publication en cours Fonds d archives des artistes tourangeaux (exposition 2012), en projet Archives d auteurs du XVIe siècle (Rabelais, Ronsard, Montaigne, Béroalde de Verville ), en projet

BVH-TIPo et TELMA Publication des actes notariés AD 37 BVH-TIPo Transcriptions ou analyses Modèles d encodage TEI, Traitement par XTF TELMA Expertise sur les actes médiévaux Formulaire de saisie pour le basculement BDD vers XML/ TEI Recrutement CDD en collaboration

Archives et manuscrits Archives notariales 37 Autres archives Minutes XVe (texte/ image) Minutes XVIe (texte) Comptes, lettres

Minutes BVH-TIPo TEI TELMA Formulaire

BVH et CNRTL BVH-TIPO et les ressources textuelles Éditions patrimoniales (aucune édition 18 e -21 e s.) Traitement d image, de la structure physique Double affichage texte/ image OCR sur les originaux uniquement Ressources linguistiques ciblées sur la période 1470-1650: thésaurus, lemmatisation contextuelle, outils adaptés de correction et de modernisation Français, latin, langues romanes, traductions Tests des outils du TAL (et non production) Aucun droit d accès, mais protection Données réutilisables par le CNRTL et Frantext

1470-1650 3 versions Graphies originales Structure physique/ logique TEXTE Thésaurus français, latin, italien OCR sur originaux Libre accès

Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ Collaborations nationales Toutes les bibliothèques de la Région Centre: Argenton-sur-Creuse, Blois, Bourges, Chartres, Châteaudun, Châteauroux, Dreux, Loches, Montargis, Nogent-le-Rotrou, Orléans, Romorantin, Tours, Vendôme Archives municipales et départementales Bibliothèque nationale de France (pôle associé «Renaissance») Poitiers BU et Médiathèque Bibliothèque du Prytanée militaire de La Flèche Fonds privés Bibliothèque Mazarine, Sainte-Geneviève Bibliothèque du Musée Condé à Chantilly En discussion: Le Mans, Angers, Saumur

Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ Collaborations internationales Cambridge University Library (10 livres ayant appartenu à Montaigne, dont le Lucrèce annoté) numérisation acquise (2010) Université de Chicago, Montaigne project, PhiloLogic INTÉGRATION dans le CONSORTIUM EUROPEANA (métadonées,web sémantique ontologies/ mots-clés), en juin 2009 Herzog August Bibliothek, Wolfenbüttel Glasgow University (livres d emblèmes) Bibliothèque nationale de Hongrie University of Virginia Library Mnemosyne (Iconclass), The Hague

BVH-TIPO: animation de réseaux Constitution d un réseau Humanités Numériques «Early Modern»: Corpus humanistes bi- ou plurilingues Transmission des savoirs par les manuscrits/ imprimés Fédération des corpus d auteurs MUTEC, ITEM Les projets Molière, Stendhal, Flaubert, Descartes, Montesquieu, auteurs étrangers, etc. Liens avec le COST Interedition

TIPo CENTRES DARIAH, Digital humanities ETC. Réseau français Corpus auteurs MUTEC Prosopo- graphie RÉSEAU Européen EARLY MODERN Manuscrit/ imprimé MSH CAEN ITEM Outils

Exemple d un corpus d auteur: la «librairie» de Montaigne et le projet «Montaigne à l œuvre» Contemporains et classiques Sources probables SIG PROSOPOGRAPHIE VERSION AUDIO Sources avérées Livres de la Librairie ALIGNEMENT DES ÉDITIONS Essais 1580-1595 EDITION GÉNÉTIQUE 1588-EB ANALYSE DE L ÉCRITURE

BM Bordeaux (30) Cambridge (10) Autres (17) Musée Condé Libourne Périgueux BU Bordeaux University of Virginia NL of Scotland Bloomington BNF (33) «Librairie de Montaigne» virtuelle Collection privée, fondations (2)

Réseau de corpus Vers une fédération des corpus (auteurs, thèmes) Questionnaire (invitation large, appel ouvert) Etat du projet, calendrier de réalisation, budget, niveau d information sur les projets similaires Sélection Tous les projets sont à priori recevables, mais classement en: finançable en l état/ vers un ANR «corpus»; modifiable; orientable vers d autres CRN Partage des expériences, méthodes, outils Réunion annuelle

Humanités numériques et première modernité «Early Modern» Digital Humanities: Sélectionner/ regrouper les projets similaires Caractère innovant: manuscrits/ imprimés littéraires et scientifiques (1470-1650) Critères de l ESF, DARIAH, ADH, Center-net Partage des expertises Vision internationale

Services fournis par TIPo Ressources humaines : Organiser des sessions de formation Aider à la mise en route ou au suivi de projets Produire des tutoriels Produire les Wiki, liste de diffusion, newsletter, gestion de l annotation collaborative Fonctionnement : Missions et participations aux formations, aux congrès Missions de conseil sur place Actions de valorisation, traductions

GOUVERNANCE BVH: une réunion du comité de pilotage et une AG annuelles depuis 2003 Directeur du CESR, directeur de la MRT du Ministère de la Culture, responsables du secteur Livre, de Gallica, responsable BVH et responsable du catalogue des incunables Assemblée générale : tous les partenaires publics et privés, groupes et chercheurs intéressés. En 2010: le 15 décembre Gouvernance spécifique BVH-TIPO (proposition) Pilotage: directeur du CESR, représentant Adonis/CNRS, responsable BVH, représentant du Ministère de la Culture, représentant du PRES PUCVL

GOUVERNANCE TIPo PILOTAGE Directeur du CESR Représentant Adonis/ CNRS Responsable BVH-TIPo Représentant PRES PUCVL AG Annuelle

CO-FINANCEMENTS BVH 2011 Crédits de laboratoire: 3000 Services généraux CPER PADOVA Etat: 30 000 (attendus) Région Centre: 40 000 CNRS: 10 000 (équipement) MINISTÈRE DE LA CULTURE Histoire du livre accord-cadre 20 000 IUF 15 000 FEDER 2011: 30 000 (demandés) ADONIS 70 000? PPF CESR-CESCM (2008-2011) 2011) 10 000