Les «Bibliothèques Virtuelles Humanistes» Vers un centre de ressources numériques Textes Imprimés PatrimOniaux (TIPO) Université d hiver Adonis-Valpré 6-8 décembre 2010 http://www.bvh.univ-tours.fr
Le Centre d Études Supérieures de la Renaissance à Tours: une UMR et une UFR
Les BVH: Equipe-projet et CRN «TIPo» Les mots-clés des humanités numériques: Accessibles Protégées (propriété intellectuelle) Réutilisables, partageables, transmissibles Archivées de façon durable L organisation d une communauté: entre incitation et sélection (soumission/ acceptation de projets)
Documents patrimoniaux Documents patrimoniaux Imprimés/ manuscrits Archives Bibliothèques Région Centre Autres (publiques/ privées) Publiques Privées
Métadonnées Catalogue et TEI PDF, PDF/mrc Moteur XTF Sommaires BVH Bases d imprimés Textes en TEI Mots-clés Iconclass Iconographie Lettrines OLDB Base typographique
Le moteur de recherche XTF (extensible Text Framework) - Développé par l Université de Berkeley (California Digital Library) depuis 2005 Expérimenté pour le site BVH depuis le 22 juillet 2009 - Accessible sur sourceforge.net - Système de recherche multiformat sur les métadonnées et le plein-texte pour les documents - Xml, xml/tei - Html - Pdf - CrossQuery pour les requêtes, dynaxml pour la restitution selon les feuilles de style XSLT, indexeur Lucene - Opérationnel sur les sites Mark Twain, Newton, The Chicago Encyclopedia - Permet (avec adaptation): - l alignement fac-similé/ texte - l application des feuilles de style TEI Renaissance
Un modèle possible: Deustches Text Archiv (DTA) Affichage de l image et/ou du texte en html ou en xml Liens vers les métadonnées et le téléchargement des fichiers html et xml http://www.deutschestextarchiv.de
Un CRN émergent au sein des BVH: TIPo CRN émergent Adonis depuis mai 2010: «Textes Imprimés PatrimOniaux» (TIPo) Programme portant sur: Les données (imprimés de la Renaissance, actes notariés) et les métadonnées (catalogue, headers TEI) Les outils Les savoir-faire (les «compétences») Les formations (TEI, gestion de projet)
Savoir-faire Outils Métadonnées Formations Données Numérisation transcription contrôle indexation BVH Archivage
Savoir-faire Modèes de métadonnées Outils: développement, adaptation, partage Mise à disposition des données TIPo Formations: initiale et continue
Cibles des BVH Traitement des textes et des images pour les imprimés patrimoniaux Principalement les imprimés anciens (XV e - XVII e siècles), cœur de cible (extensible aux ouvrages postérieurs), pôle associé BnF Manuscrits et archives: collaboration avec TELMA et Ecole des Chartes Intégration texte/ image Editions génériques/ génétiques
Communautés de chercheurs et d usagers Contenu Histoire, littérature, philosophie Style Histoire de l art Langue linguistique Forme Histoire du livre
Accessibilité et propriété Accès libre et gratuit à toutes les données (y compris la structure TEI en cours) Veille juridique et propriété intellectuelle pour: Les fac-similés numériques, les images extraites Les textes transcrits et publiés en html et xml Les textes encodés en TEI Les métadonnées, les bases de données Le progiciel co-développé avec une société (Edit-tei) Les applications en licence libre (AGORA, avec le LI de Tours) = libres de droits, avec licence CC (sauf Edit-tei)
Header affiché
Archivage local/ délocalisé Données SVN Copie 1 Copie 2 Externalisé JPG JPG Pdf, textes bibliothèque CESR Copie 3 JPG Cines? IN2P3?
BVH: outils pour l image patrimoniale Un logiciel d analyse de structuration de la page, AGORA (opérationnel), avec le Laboratoire d Informatique de Tours (J.-Y. Ramel) Un logiciel d OCR (RETRO) pour la typographie ancienne (en développement), avec le Laboratoire d Informatique de Tours (J.-Y. Ramel) et le LITIS (Rouen) Un comparateur et un indexeur de lettrines (fond, lettre, motif) dans la base OLDB, avec le Laboratoire d Informatique de Tours (J.-Y. Ramel) et le consortium Navidomass (J.-M. Ogier, U. de La Rochelle) en développement
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ AGORA Extraction automatique des éléments figurés du livre Préindexation automatique des types d éléments et pré-balisage SOUS-BASES D IMAGES Galerie des marques typographiques Galerie de portraits Base emblèmes (indexée par Iconclass) Base lettrines (indexation propre + Iconclass)
EXTRACTION GRAPHIQUE: SCENARIOS Délimitation des zones de texte/ image selon des scénarios Scénarios: type de zone d image/ de texte (lettrine, titre, signature, réclame, corps de texte, numéro de page, titre courant, marges bruit, )
CLASSIFICATION PAR PROXIMITÉ
Structure physique: les blocs pictura/ illustration Eléments graphiques Marque Lettre ornée D imprimeur Portrait Ornement Bloc de texte
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ ICONCLASS: MOTS-CLÉS POUR INDEXER LES IMAGES ET LE TEXTE http://www.bvh.univ-tours.fr/iconclass_browse.asp
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ Indexation des emblèmes Base d emblèmes (Iconclass) Collaboration avec le projet French Emblem Books (Glasgow) Indexation avec codification alpha-numérique Entrepôt OAI Iconclass moissonné Encapsulation web du thésaurus multilingue Affichage multilingue des données d indexation
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ Extraction des éléments graphiques: portraits http://www.bvh.ques niv-tours.fr/img_portrait.asp
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ Extraction et indexation des lettrines Parcours d un matériel Michel de Vascosan, 1555 Michel de Vascosan, 1559 Hierosme de Marnef, & Guillaumme Cavellat, 1576
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ BATYR: base de typographie de la Renaissance Ornements gravés Ornements de fonte Polices de caractères Pré-indexation d images d ornements typographiques (AGORA) Constitution automatique de spécimens de caractères (RETRO) et reconstitution des fontes http://www.bvh.univ-tours.fr/materiel_typo.asp
Indexation des illustrations du Champfleury (G. Tory, 1529, exemplaire BM de Blois) avec Iconclass Autres descripteurs : Leonardo da Vinci/ The Vitruvius Man/ Jean Perreal/ Jean de Paris ICONCLASS 31A12 figure, inscrite dans un cercle ou un carré, avec les jambes écartées et les bras étendus vers le haut ou le côté (+ variante: vu de face) 49D342(SQUARE) quadrilatère régulier : carré 49D36 Cercle (planimétrie géométrie) 49D52 mesurer 49L12(O) écriture romaine; écriture basée sur l'alphabet romain (avec LETTRES) 49L1 Lettres, alphabet, texte 49D52 Tracer des figures, mesurer, calculer 49D362 Quadrature du cercle
Encodage des lettrines avec Iconclass Lettrine L (Champfleury): <g ref=""/>l</><hi rend= larger >L</hi>Es Iconclass descriptors in <figdesc>: 49L171 Lettre initiale historiée 49L12 (L) Écriture basée sur l alphabet romain (L) 48A9875(+32) Ornement Feston, guirlande (+variante: décorations pendantes) 49M32 Livre 49D521 Instruments de mesure
Champfleury: Encodage XML-TEI version bêta, à l aide d Image Markup Tool 1.8, par V. Le Rolle, N. Dufournaud et L. Danjean CESR <!-- --> </teiheader> <facsimile> <surface> <graphic xml:id= "16v" url="champfleury_blois_16v_ill.jpg" width="1300px" height="1140px"/> <zone xml:id= "16v_1" rendition="" ulx="60" uly="50" lrx="897" lry="281" rend="visible"/> <!-- --> </surface> </facsimile> <!-- --> <text> <!-- --> <body> <!-- --><div> <!-- --> <p n="imtimageannotations"> <!-- --> <figure facs="#16v"></figure> <figure facs="#f16v_1" n="imtannotation" ><p>le Flageol de Virgile <lb/>en perspective, et<lb/>moralite.</p> </figure> <!-- --> </p> <p><g ref=""></g><hi rend="larger">p</hi>our myeulx encores perseverer, Je veulx cy dire & monstrer que nosdictes <lb/>lettres Attiques ont si bien este proportionees des Anciens qu'elles ont en <!-- -->
Indexation d éléments graphiques BDD = > XML-TEI (en développement)
BVH: outils pour le texte imprimé patrimonial Des modèles d encodage TEI pour les textes transcrits (fichiers-types, feuilles de style) Des modèles d encodage TEI pour les éditions complexes (hybrides manuscrits/ imprimés, livres de comptes, liasses hétérogènes, recueils factices) Un éditeur TEI, avec modules de régularisation graphique (détildage et dissimilation), avec la société Digiscrib Des thésaurus pour le français de la Renaissance Des dictionnaires de noms propres/ entités nommées (en projet, avec D. Maurel, LI Tours) Un outil de traitement de l hétérographie et d étiquetage morphosyntaxique, avec le Laboratoire FORELL (M.-H. Lay, U. de Poitiers)
Données textuelles réutilisables Formats de téléchargement: pdf-mrc, html, tei 2 niveaux de transcription: diplomatique/ patrimonial, 3 e (modernisé) en projet Transcription patrimoniale annotée: en projet 440 ouvrages en ligne, avec pdf/ mrc (750 numérisés) Text/ pdf Text/ Tei Text/ html
Les BVH et la TEI (depuis 2004)
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ HISTORIQUE Avant 2007: 1995: 8 textes de Rabelais en ligne (Nice), html/hyperbase 1998-2007: 17 textes html en ligne (Poitiers-Tours), html/ tactweb 2004: début des cours XML (JD Fekete) et TEI (N. Dufournaud) pour le master professionnalisant du CESR Depuis 2007 ( TEI membership ): début de l encodage en TEI P5 (crédits ANR Masses de données ) 2008-2010: harmonisation des en-têtes TEI et des normes de catalogage
MÉTADONNÉES DE CATALOGAGE 1. Métadonnées de catalogues pour le moteur XTF (gestion de la majeure partie du site BVH) 2. Compatibilité CCFR (comme le catalogue des incunables choix de MARC) et OAI-PMH pour moissonnage par Gallica 3. Compatibilité Europeana (TEI/MARC/Dublincore)
http://contentchecker.isti.cnr.it:8080/portal/briefdoc.html?query=europeana_collectionname%3a08007&start=1&view=table&tab=
Métadonnées du document électronique : Catalogage et moissonnage Header html Notice XTF en ligne Fichier source en XML-TEI Moissonnage des métadonnées pour Europeana <record> <dc:identifier>http://www.bvh.univtours.fr:8080/xtf/view?docid=tei/b372616101_3537/b372616101_3537.xml</dc:identifier> <dc:title>tiers Livre</dc:title> <dc:creator>rabelais, François</dc:creator> <dc:publisher>paris, C. Wechel</dc:publisher> <dc:date>1546</dc:date> <dc:type>texte imprimé</dc:type> <dc:format>text/xml</dc:format> <dc:rights>bvh Epistemon</dc:rights> <europeana:provider>bibliothèques Virtuelles Humanistes</europeana:provider> <europeana:type>text</europeana:type> <europeana:isshownat>http://www.bvh.univtours.fr:8080/xtf/view?docid=tei/b372616101_3537/b372616101_3537.xml</europeana:issh ownat> </record>
MÉTADONNÉES DE STRUCTURE, les sommaires: migration en XML/ TEI (en cours)
RÉUTILISATION/ ENRICHISSEMENT DES MÉTADONNÉES Notices des fac-similés: Reprendre les notices bibliographiques standard Les enrichir par la bibliographie spécifique à un ouvrage/ un auteur: Nouvelle publication dans la base Transfert des métadonnées dans: Le header TEI L entrepôt OAI/ PMH pour Gallica et Europeana
De la transcription à l encodage
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ Acquisition numérique du texte: les OCR Résultats obtenus avec FineReader (ABBYY), Omnipage avec/ sans dictionnaires spécifiques; tests comparatifs Tests du logiciel BIT-Alpha (société Tomasi) à Wolfenbüttel et à Tours. Acquisition du logiciel par le CESR (04-12-2008) Problèmes de rentabilité (longueur et complexité de l apprentissage) Développement de RETRO (U. de Tours, JY Ramel) après classement des clusters par AGORA
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ Pré-balisage avec RETRO: OCR en cours de développement (Tours) => Sortie en XML/ TEI
Evaluation of an Optical Character Recognition System Authors Ait-Mohand Kamel, Laurent Heutte, Thierry Paquet Laboratoire LITIS, Université de Rouen Nicolas Ragot Laboratoire d informatique, Université de Tours 44
Collaboration with the BnF Printed documents digitization program Digitization Transcription with OCR Need to predict OCR results Assess data quality Prediction of what the OCR result can be Based on a benchmark for OCR 45
Adaptation results Adaptation with 30 line images + transcription Improvement, but limited impact due to: Bad line segmentation Unknown characters (ē, ā, ō ), long S Books Omnipage + lexicon Omnipage Ocropus + lexicon Our OCR without lexicon Our adapted OCR without lexicon Our OCR clean lines, no lexicon Our adapted OCR clean line no lexicon Antiquités Gauloises 89.82% 85.93% 86.08% 88.51% 91.78% 94.98% Expédition chrestienne 86.48% 61.25% 67.82% 75.61% Les treselegantes annales 85.6% 73.92% 76.84% 80.7% Les histoires de Diodore 90.19% 83.82% 83.36% 85.32% 46
Coupler RETRO et OCRopus Visualisation contextuelle Améliorer le processus de clustering Regroupement des polices OCR RETRO + OCRopus Expertise linguistique
Renaissance.dtd Renaissance.xsl Fichier type TEI Renaissance header, qui contient Les champs des notices La localisation des facsimilés Les auteurs Les crédits Les versions => affichage total ou partiel en tête du document
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ Pré-balisage TEI avec l outil EDIT-TEI Co-développement et acquisition auprès de la société Digiscrib (sept. 2009) Encodeur de base, en Java, avec balises préétablies pour les prestataires ou les non spécialistes Permet une correction par dictionnaire de formes (français, latin, italien) personnalisé (accentué ou non, mots coupés ou non)
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ Préformatage de la structure du document Balises fondamentales lb, p, sic par raccourcis clavier ou menus étape opérateur Détildage (français et latin) Dissimilation ij/uv (français) Ajout ou validation de balises éditoriales (sic, corr, unclear, name) étape BVH Export vers Oxygen ou un autre éditeur xml
Le corps du texte: encodage TEI «patrimonial» Constituer un Corpus en français de la Renaissance (principalement), avec traitement par Philologic, TXM, Analog Objectif: 141 textes originaux en 2014 (sans restriction d accès, à partir des graphies originales Encodage patrimonial: sélection de balises pour traitements automatiques
ENCODAGE PATRIMONIAL Le plus petit commun dénominateur pour les 4 communautés => une transcription générique En-tête conforme aux usages des bibliothèques La transcription annotée considérée comme un livre et comme une oeuvre (avec identifiant)
DIPLOMATIQUE/ PATRIMONIAL AVENVES (diplomatique) Feuille de style 1 > AVENUES (patrimonial) Feuille de style 2 ƒi ie> si je reuerēce> reverence vƒurpateur> usurpateur 53
<fw place="top-center" type="head">le PREMIER LIVRE.</fw> <fw place="top-left" type="pagenum">feuil. I</fw> <div type="book" n="1"> <head rend="center"> L ART ET SCIENCE DE LA <lb/>deue ET VRAYE PROPORTION DES LETTRES ATTI- <lb/> QUES, QU ON DICT AUTREMENT LETTRES ANTIQUES <lb/> ET VULGAIREMENT LETTRES ROMAINES. </head> <p> <lb/> <g ref="">l</g><hi rend="larger">l</hi>e matin du jour de la feste aux Roys, apres <lb/> avoir prins mon sommeil & repos, & que mon esto <lb/> mac de sa legiere & joyeuse viande avoit faict <lb/> sa facile concoction. que l on comptoit M. D. <lb/> XXIII. me pris a fantasier en mon lict, & mou <lb/> voir la roue de ma memoire / pensant a mille pe <lb/> tites fantasies, tant serieuses que joyeuses. en- <lb/> tre lesquelles me souvint de quelque lettre An <lb/> tique que j avoys nagueres faicte pour la mai
Feuille de style «Renaissance» = > Version html L ART ET SCIENCE DE LA DEUE ET VRAYE PROPORTION DES LETTRES ATTI- QUES, QU ON DICT AUTREMENT LETTRES ANTIQUES ET VULGAIREMENT LETTRES ROMAINES. LE matin du jour de la feste aux Roys, apres avoir prins mon sommeil & repos, & que mon esto mac de sa legiere & joyeuse viande avoit faict sa facile concoction. que l on comptoit M. D. XXIII. me pris a fantasier en mon lict, & mou voir la roue de ma memoire / pensant a mille pe tites fantasies, tant serieuses que joyeuses. entre lesquelles me souvint de quelque lettre An
TEI P5: modules utilisés core, header, textstructure, drama, figures, gaiji, linking msdescription, namesdates, transcr et verse schémas xml générés avec Roma
Éléments d édition générique (hors métadonnées) <abbr> <expan> <add><note><graphic> <sic> <orig> <choice> <corr> <del> <gap> <unclear> <reg> <supplied> <space> <said> <stage> <speaker> <quote> <foreign> <name> <persname> <placename> <geogname> <ref> <sig> <catch> <div><head><pb> <p> <lb> <l> <lg> <fw>
LE PROGICIEL EDIT-TEI (Digiscrib / BVH) Import.doc ou transcription Transcription en TEI Renaissance simplifié Correction avec dictionnaire Détildage Dissimilation Output XML
PhiloLogic (Chicago, Mark Olsen) adapté par Ecrit.com, Poitiers Modification nécessaire du balisage http://www.bvh.univtours.fr/epistemon/philologicde v.asp
BVH: savoir-faire Numérisation patrimoniale, production de fac-similés numériques, archivage standard Découpage de structure, création de tables des matières, bases de feuilletage Extraction et classement automatiques des éléments illustrés et des zones de texte Encodage TEI pour les documents imprimés ou hybrides: principes de transcriptions quasi-diplomatique/ patrimoniale Indexation des images avec Iconclass Gestion de bases de données relationnelles (fac-similés, textes, iconographie, actes notariés) Création d entrepôts OAI-PMH (moissonnage par Gallica et Europeana) Évaluation des coûts réels (400 euros/ fac-similé, 1000 euros/ ouvrage transcrit)
Référentiels et documentation Accès libre ou à la demande: Un Manuel d encodage TEI Renaissance, en ligne depuis 2008, version 3 en préparation Manuel SVN (en préparation) Descripteurs d images (Iconclass, ODLB - lettrines) Cahiers des charges (numérisation, interface web, moteur de recherche, normes de saisie) Modèles de métadonnées (description d imprimés, d incunables, de manuscrits, d archives)
Transmissibilité (I) Formations Master pro, unité d enseignement BVH depuis 2004, avec formation TEI Stages BVH TEI pour les étudiants, et ouverts depuis janvier 2008 selon les places disponibles Formation continue Complémentarité avec les formations Ecole des Chartes Interventions dans les masters pro de l ENSSIB, Angers, Poitiers Intervenants issus de l ENSSIB, Poitiers, Caen, IRHT, INRIA, Laboratoires d informatique, consortium TEI (Lou Burnard, Elena Pierazzo)
Transmissibilité (II) Contrat quadriennal 2012-2015 (étendu à 2017) Intégration du master pro dans un ensemble professionnalisant Patrimoine matériel et immatériel Perméabilité master pro/ recherche Dépôt d un projet de laboratoire d excellence Patrimoine Moyen Age et Renaissance, avec accent sur le numérique (image/ texte/ son), Tours-Orléans-Poitiers- La Rochelle Intensification et internationalisation des stages de formation initiale et continue Souhaitée: une formation doctorale à double compétence (humanités nouvelles technologies)
Développements en cours Amélioration des performances de l OCR (segmentation, correction avec dictionnaires de formes, recherches sur les n- grammes) Solutions d affichage et de requête avec XTF, migration des données bibliographiques et sommaires en XML/ TEI Adaptation de PhiloLogic (U. de Chicago) pour la base textuelle Comparaison des modèles de métadonnées TEI pour les actes notariés
Développements 2011-2014 Classement des familles de polices anciennes et des ornements typographiques (projet BATYR) avant/ pendant le traitement par OCR OCR: collaboration avec la BnF et le projet européen IMPACT (Improving Access to Text) pour une thèse en co-direction Tours-BnF-Rouen Constitution de versions sonores des textes transcrits et de textes modernisés Indexation et exploitation des données: Entités nommées et SIG associés Ontologies RDF pour la prosopographie et les mots-clés Recherche par facettes: nouvelle typologie des genres littéraires Recherche par variantes graphiques Tests d autres plateformes: TXM (Lyon, ICAR), Pinakes (Pise), SADE (COST Interedition),
OCR Variation graphique Entités nommées Prosopographie Typologie - facettes SIG Ontologies RDF BVH + TIPo 2011-2014 Versions audio
Données: Bilan: mai-novembre 2010 (I) 150 nouveaux fac-similés en ligne (Châteauroux, Vendôme, Blois, Tours suite de la campagne), avec leurs sommaires et extraction des éléments illustrés; voir http://www.bvh.univ-tours.fr Mise en ligne de 16 nouveaux textes en XML/ TEI, avec nouvelles feuilles de style (Ronsard, Rabelais, Louise Labé, Du Bellay, Garzoni, ) Encodage TEI de 15 nouveaux textes transcrits sur 41 (141 horizon 2014) Mise en ligne d un millier de nouvelles minutes notariales Numérisation et début d indexation de 4500 actes notariés du XVe siècle Mars- septembre 2010: Nombre d'accès réussis 2 063 352 (82%) Top download: Champfleury en pdf (avec sous-couche texte) entre fin juillet et mi-septembre (moins trois semaines de panne serveur) : 2946 téléchargements Durée moyenne des visites 41:34 Min
Outils: Bilan: mai-novembre 2010 (II) Fichiers-types pour l interopérabilité des métadonnées incunables/ imprimés/ manuscrits, actes notariés Elaboration des modèles de rétroconversion pour les catalogues des incunables (avec le groupe de travail du Ministère de la Culture) Tests sur le comparateur et indexeur de lettrines Développement du moteur de recherche XTF (nouvelle version 2010) Prototype de l éditeur TEI, des modules de détildage et de dissimilation Préparation de projets: Corpus «Montaigne à l œuvre» (avec l U. de Chicago) et début des travaux sur un modèle d édition génétique (avec Lou Burnard) Site Garamond (avec le Ministère de la Culture et les Commémorations nationales)
Bilan: mai-novembre 2010 (III) Préparation de projets (suite) Actes notariés avec TELMA Procédures de requête sur des textes en français non standard pour des corpus textuels hétérogènes Publications et participations aux colloques Mars 2010, Tokyo, «Digital scholarship» Juin 2010, King s College, DH conference (comme observateur) Octobre 2010, La Haye et Amsterdam, Europeana, Annual Meeting Novembre 2010, Strasbourg, ESF workshop sur les Digital Humanities Novembre 2010, Zadar (Croatie), congrès de la TEI Novembre 2010, Chicago, Digital Humanities and Computing Science
Bilan: mai-novembre 2010 (IV) Formations Juin 2010, TEI France (Lyon, ISH, MUTEC) Octobre 2010, ANGD (Aussois) Novembre 2010, Stage TEI formation continue, Tours, CESR Modules de numérisation du master pro «Patrimoine écrit et édition numérique»: traitement de l image, initiation aux OCR Préparation du stage TEI du master pro, Tours, CESR (janvier 2011, augmentation de sa durée)
FORMATIONS Master pro «patrimoine écrit et édition numérique» UE «BVH»: OCR XML TEI (stage) transcription - Interventions dans d autres masters (ENSSIB, Poitiers, Angers) Stage longue durée en entreprise ou laboratoire
Les archives Intégration des archives dans les BVH pour des projets spécifiques: Disponibilité des 10 000 transcriptions de minutes notariales transcrites par P. Aquilon, B. Chevalier Numérisation de toutes les minutes du XVe siècle (4500), Convention avec les AD 37, publication en cours Fonds d archives des artistes tourangeaux (exposition 2012), en projet Archives d auteurs du XVIe siècle (Rabelais, Ronsard, Montaigne, Béroalde de Verville ), en projet
BVH-TIPo et TELMA Publication des actes notariés AD 37 BVH-TIPo Transcriptions ou analyses Modèles d encodage TEI, Traitement par XTF TELMA Expertise sur les actes médiévaux Formulaire de saisie pour le basculement BDD vers XML/ TEI Recrutement CDD en collaboration
Archives et manuscrits Archives notariales 37 Autres archives Minutes XVe (texte/ image) Minutes XVIe (texte) Comptes, lettres
Minutes BVH-TIPo TEI TELMA Formulaire
BVH et CNRTL BVH-TIPO et les ressources textuelles Éditions patrimoniales (aucune édition 18 e -21 e s.) Traitement d image, de la structure physique Double affichage texte/ image OCR sur les originaux uniquement Ressources linguistiques ciblées sur la période 1470-1650: thésaurus, lemmatisation contextuelle, outils adaptés de correction et de modernisation Français, latin, langues romanes, traductions Tests des outils du TAL (et non production) Aucun droit d accès, mais protection Données réutilisables par le CNRTL et Frantext
1470-1650 3 versions Graphies originales Structure physique/ logique TEXTE Thésaurus français, latin, italien OCR sur originaux Libre accès
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ Collaborations nationales Toutes les bibliothèques de la Région Centre: Argenton-sur-Creuse, Blois, Bourges, Chartres, Châteaudun, Châteauroux, Dreux, Loches, Montargis, Nogent-le-Rotrou, Orléans, Romorantin, Tours, Vendôme Archives municipales et départementales Bibliothèque nationale de France (pôle associé «Renaissance») Poitiers BU et Médiathèque Bibliothèque du Prytanée militaire de La Flèche Fonds privés Bibliothèque Mazarine, Sainte-Geneviève Bibliothèque du Musée Condé à Chantilly En discussion: Le Mans, Angers, Saumur
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/ Collaborations internationales Cambridge University Library (10 livres ayant appartenu à Montaigne, dont le Lucrèce annoté) numérisation acquise (2010) Université de Chicago, Montaigne project, PhiloLogic INTÉGRATION dans le CONSORTIUM EUROPEANA (métadonées,web sémantique ontologies/ mots-clés), en juin 2009 Herzog August Bibliothek, Wolfenbüttel Glasgow University (livres d emblèmes) Bibliothèque nationale de Hongrie University of Virginia Library Mnemosyne (Iconclass), The Hague
BVH-TIPO: animation de réseaux Constitution d un réseau Humanités Numériques «Early Modern»: Corpus humanistes bi- ou plurilingues Transmission des savoirs par les manuscrits/ imprimés Fédération des corpus d auteurs MUTEC, ITEM Les projets Molière, Stendhal, Flaubert, Descartes, Montesquieu, auteurs étrangers, etc. Liens avec le COST Interedition
TIPo CENTRES DARIAH, Digital humanities ETC. Réseau français Corpus auteurs MUTEC Prosopo- graphie RÉSEAU Européen EARLY MODERN Manuscrit/ imprimé MSH CAEN ITEM Outils
Exemple d un corpus d auteur: la «librairie» de Montaigne et le projet «Montaigne à l œuvre» Contemporains et classiques Sources probables SIG PROSOPOGRAPHIE VERSION AUDIO Sources avérées Livres de la Librairie ALIGNEMENT DES ÉDITIONS Essais 1580-1595 EDITION GÉNÉTIQUE 1588-EB ANALYSE DE L ÉCRITURE
BM Bordeaux (30) Cambridge (10) Autres (17) Musée Condé Libourne Périgueux BU Bordeaux University of Virginia NL of Scotland Bloomington BNF (33) «Librairie de Montaigne» virtuelle Collection privée, fondations (2)
Réseau de corpus Vers une fédération des corpus (auteurs, thèmes) Questionnaire (invitation large, appel ouvert) Etat du projet, calendrier de réalisation, budget, niveau d information sur les projets similaires Sélection Tous les projets sont à priori recevables, mais classement en: finançable en l état/ vers un ANR «corpus»; modifiable; orientable vers d autres CRN Partage des expériences, méthodes, outils Réunion annuelle
Humanités numériques et première modernité «Early Modern» Digital Humanities: Sélectionner/ regrouper les projets similaires Caractère innovant: manuscrits/ imprimés littéraires et scientifiques (1470-1650) Critères de l ESF, DARIAH, ADH, Center-net Partage des expertises Vision internationale
Services fournis par TIPo Ressources humaines : Organiser des sessions de formation Aider à la mise en route ou au suivi de projets Produire des tutoriels Produire les Wiki, liste de diffusion, newsletter, gestion de l annotation collaborative Fonctionnement : Missions et participations aux formations, aux congrès Missions de conseil sur place Actions de valorisation, traductions
GOUVERNANCE BVH: une réunion du comité de pilotage et une AG annuelles depuis 2003 Directeur du CESR, directeur de la MRT du Ministère de la Culture, responsables du secteur Livre, de Gallica, responsable BVH et responsable du catalogue des incunables Assemblée générale : tous les partenaires publics et privés, groupes et chercheurs intéressés. En 2010: le 15 décembre Gouvernance spécifique BVH-TIPO (proposition) Pilotage: directeur du CESR, représentant Adonis/CNRS, responsable BVH, représentant du Ministère de la Culture, représentant du PRES PUCVL
GOUVERNANCE TIPo PILOTAGE Directeur du CESR Représentant Adonis/ CNRS Responsable BVH-TIPo Représentant PRES PUCVL AG Annuelle
CO-FINANCEMENTS BVH 2011 Crédits de laboratoire: 3000 Services généraux CPER PADOVA Etat: 30 000 (attendus) Région Centre: 40 000 CNRS: 10 000 (équipement) MINISTÈRE DE LA CULTURE Histoire du livre accord-cadre 20 000 IUF 15 000 FEDER 2011: 30 000 (demandés) ADONIS 70 000? PPF CESR-CESCM (2008-2011) 2011) 10 000