Plan de la présentation

Documents pareils

Gestion collaborative de documents

ISTEX, vers des services innovants d accès à la connaissance

! Text Encoding Initiative

AVANT-PROPOS INTRODUCTION INSTALLATION INSTALLER LE PLUGIN ZOTERO INSTALLER LE MODULE DE CITATION...

MYXTRACTION La Business Intelligence en temps réel

Le signalement des acquisitions numériques à l échelle nationale Le rôle du hub de métadonnées scénarios et prototype

Un serveur d'archivage

Nécessité de concevoir un outil de recherche PDF Présentation des fonctionnalités d'indexation et de recherche... 3

I.R.I.S. annonce la disponibilité d'iriscapture Pro 7 for Invoices, la nouvelle version de son logiciel de reconnaissance de factures.

3 logiciels «gratuits» pour gérer sa bibliographie

Big Data et Graphes : Quelques pistes de recherche

Les enjeux de la dématérialisation du courrier entrant

Présentation générale du projet data.bnf.fr

Un SIG collaboratif pour la recherche historique Partie. Partie 1 : Naissance et conception d un système d information géo-historique collaboratif.

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Climat Scolaire - Manuel utilisateur - Chapitre 2 : «Créer, Editer et suivi d un texte»

ELO Office / Pro Les avantages : Archivage et gestion documentaire

A LA DÉCOUVERTE DE ZOTERO 4.0

Laboratoire 4 Développement d un système intelligent

Formation continue des personnels URCA. Offre de la Bibliothèque Universitaire

Un outil open source de gestion de bibliographies

Veille Internet avec les flux RSS, recherche et veille sur les réseaux sociaux

Logiciels libres de Bibliothèques numériques : présentation. Castore & Greenstone. Les autres : CDS Invenio, EPRINTS, Dspace.

ELOECM Conference2015

GESTION D UNE BASE BIBLIOGRAPHIQUE

plateforme de partage de documents gestion de documents avancée administration conviviale SOLUTIONS LOGICIELLES

CATALOGUE DE LA GAMME EASYFOLDER OFFRE GESTION DE CONTENUS NUMERIQUES

Diagnostic adaptatif d'un flux d'alarmes par méta diagnostic distribué Application à la détection d'intrusions dans un serveur Web

ZOTERO. Installation. Bibliothèque de Pharmacie. Service Formation

Google Analytics - Analysez le trafic de votre site pour améliorer ses performances inclut Universal Analytics (2ième édition)

BIRT (Business Intelligence and Reporting Tools)

LIVRE BLANC Décembre 2014

25 octobre JD EDWARDS ENTERPRISEONE et DÉMATÉRIALISATION

SCI6052 Information documentaire numérique École de bibliothéconomie et des sciences de l information

Solution documentaire globale. Présentation du 14 janvier 2010

Focus sur : Comparatif de 3 logiciels de gestion des références bibliographiques

Big Data et Graphes : Quelques pistes de recherche

Customer Intelligence

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

Atelier 1. Portails documentaires : BioLib et Cemadoc

MAÎTRISE DE L ENVIRONNEMENT WINDOWS VISTA

GERER SES REFERENCES BIBLIOGRAPHIQUES AVEC ZOTERO

Compétences documentaires et numériques (basées sur le PACIFI) à acquérir de la 6 à la terminale

Programmation des Applications Réparties. Parsers XML DOM et SAX

L'ILM pour donner une valeur «temps» à la donnée

Master Technologies numériques appliquées à l'histoire Deuxième année

Adobe Technical Communication Suite 5

NOUVELLES FONCTIONNALITES VERSION 2013R2

Analyse comparative entre différents outils de BI (Business Intelligence) :

SAP Extended ECM. Application Governance & Archiving for SharePoint. Marc WOLFF Associé fondateur Certified CDIA+

De l OpenData aux citoyens : potentiel et limites des plateformes collaboratives

LA GESTION DE PROJET INFORMATIQUE

Samsung SmarThru Workflow 3 Un workflow documentaire numérique efficace, pratique et sûr

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

PROSOP : un système de gestion de bases de données prosopographiques

N SIMON Anne-Catherine

X2BIRT : Mettez de l interactivité dans vos archives

TUTORIEL Qualit Eval. Introduction :

WHITE PAPER Une revue de solution par Talend & Infosense

Présentation de la future plateforme internet du Réseau francophone de l'innovation. Réunion de lancement OIF 9-10 juillet 2013

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Archives Ouvertes : retour d expérience et rôle des documentalistes

I.R.I.S. lance IRISPdf 4.0, la nouvelle version de sa solution d'ocr de production

Vue d ensemble. Initiatives des données. Gestion de la trésorerie. Gestion du risque. Gestion des fournisseurs 2 >>

Rédiger : le numérique dans la préparation de la thèse

Leica Application Suite. Archive

Panorama des solutions analytiques existantes

Extensions, Documentation, Tutoriels, Astuces

VOTRE OFFRE CRM 360 ALL INCLUSIVE. crm.amabis.com

Catalogue des formations Edition 2015

Bibliothèque numérique de l enssib

Pentaho : Comparatif fonctionnel entre la version Communautaire (gratuite) et la version Entreprise (payante) Table des matières

Compétences transversales & E-learning coopératifs Pour les enseignants et doctorants Séminaire Settat (17-18 May 2012)

CAHIER DES CHARGES de la formation : «Excel pour les bibliomètres»

Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement

Constituer des profils d'experts scientifiques, de centres de recherche et d entreprises innovantes

Initiation à Mendeley AUT2012

Le coffre-fort électronique qui classe votre courrier!

Zotero Gérer ses références bibliographiques

DataStudio. Solution d intégration des données et de diffusion de l information

Information & Content Management IDC FRANCE

Gestion administrative de la prospection

Conservation des données à long terme

Ministère de la Culture et de la Communication

LES FICHES Domaines. Domaine D1. Travailler dans un environnement numérique

La solution pour gérer vos connaissances techniques et scientifiques

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

CIMAIL SOLUTION: EASYFOLDER SAE

findit.lu Les guides d utilisation Leçon 17

ComplianceSP TM sur SharePoint 2010 CONTRÔLE CONFORMITÉ PERFORMANCES

Mise à jour de STAR par formulaires (Cycle mise à jour) Version :

Atelier 3 Gestion bibliographique - niveau 1. Principes de la bibliographie et prise en main de Zotero

Manuel d utilisation du site web de l ONRN

ZOTERO Un outil gratuit de gestion de bibliographies

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

CRM Service. Exemples de secteurs concernés. Fonctionnalités clés. Gestion de l activité quotidienne. Gestion complète de la force de vente

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Transcription:

Plan de la présentation 1) Intro Problématique, réussites globales, chronologie 2) «Face aux données» (aperçu de la base) L'objet documentaire, les PDFs, les facettes 3) Explication de la méthodologie Choix des méthodes probabilistes, de l'outil grobid et du protocole 4) «Cycles qualité» Evaluations de l'extraction sur échantillons, données d'entraînement 5) Tests de montée en charge Parallélisation, choix du périmètre à enrichir, résultats 6) Perspectives [enrichissement refbibs 18/03/2015] 2

(1) = intro [enrichissement refbibs 18/03/2015] 3

(1) Réussites principales Environnement d'essais Qualité : cycles d'amélioration tri détaillé des erreurs, croisement par aggrégats rapport automatique, rangement par corpus de test sous-corpus => entraînement => modèle => test des refbibs sorties améliorations obtenues de dure lutte pour les modèles intermédiaires + 15 % de rappel (mais après en avoir perdu au début!) «prépareur» de formats d'entraînement à partir des bases Quantité : «essai transformé» sur 2,4 M docs mise en oeuvre des modèles de l'étape précédente montée en charge testée à plusieurs reprises 17,5 M refbibs extraites, classées selon source, balisées en 3 jours [enrichissement refbibs 18/03/2015] 6

(2) = aperçu des données [enrichissement refbibs 18/03/2015] 7

ici exemples pdf ou graphe md [enrichissement refbibs 18/03/2015] 9

(3) = méthodologie [enrichissement refbibs 18/03/2015] 12

(3a) Méthodologie choisie Un modèle probabiliste => robustesse à long terme entraînées sur des données réelles connues («gold») souplesse face aux erreurs d'ocr adaptation aux styles Zhou XH, Gao S. Confidence intervals for the log-normal mean. StatistMed. 1997;16(7):78390. X. H. Zhou and S. Gao, Confidence intervals for the log-normal mean, StatistMed, vol. 16, no. 7, pp. 783790, 1997. Zhou, X. H.; Gao, S. StatistMed 1997, 16, 783790. Le choix de l'outil Grobid s'appuie sur des librairies reconnues pdftoxml / wapiti a les meilleurs scores ex aequo avec Cermine prévoir un système de montée en charge à travers un service REST [enrichissement refbibs 18/03/2015] 13

(4c) Préparation de corpus d'entraînement Procédure pour recomposer du corpus d'entraînement automatiquement Développement d'un script de «ragréage» On utilise nos données déjà annotées (notices riches) Fusion des informations typées avec le texte Le texte tel que Grobid le verrait Différence entre les formats l'infos structurée des notices ne préserve pas tout : les virgules ni les tirets, les parenthèses, ni les mots d'escorte dédiés «Vol:» «In:» «and» ça paraît peu de choses... mais en fait => détails typiques fondamentaux pour reconnaître les champs [enrichissement refbibs 18/03/2015] 14

(4) = «Cycles» qualité [enrichissement refbibs 18/03/2015] 19

(4a) Suivi qualitatif détaillé [enrichissement refbibs 18/03/2015] 20

(4c) Préparation de corpus d'entraînement Procédure pour recomposer du corpus d'entraînement automatiquement Développement d'un script de «ragréage» On utilise nos données déjà annotées (notices riches) Fusion des informations typées avec le texte Le texte tel que Grobid le verrait Différence entre les formats l'infos structurée des notices ne préserve pas tout : les virgules ni les tirets, les parenthèses, ni les mots d'escorte dédiés «Vol:» «In:» «and» ça paraît peu de choses... mais en fait => détails typiques fondamentaux pour reconnaître les champs [enrichissement refbibs 18/03/2015] 45

(4d) Exemple : le modèle segmentation Objectif du modèle : Déterminer la zone des refbibs Quelle séquence d'étiquettes? pseudo-tei teiheader front body listbibl notes + les sauts de ligne <lb/> #document 1078 tei 1078 text 1078 body 5039 lb 170927 page 3560 lb 3344 note 2381 lb 2692 listbibl 1661 lb 10017 front 1394 lb 12313 lb 191 teiheader 1078 filedesc 1078 le flux textuel est celui issu du «ragréage» [enrichissement refbibs 18/03/2015] 46

(5) = Montée en charge [enrichissement refbibs 18/03/2015] 48

(5b) Aperçu résultats quantitatifs Nombre de bibs/doc selon le type de document [enrichissement refbibs 18/03/2015] 50

(5b) Aperçu résultats quantitatifs Nombre de bibs/doc selon le type de document [enrichissement refbibs 18/03/2015] 51

er (5c) 1 bilan de montée en charge 17,5 M de bibliographies! permettent de mettre en place la procédure de ré-intégration à la base Globalement prêts pour tout volume Optimisations RAM (très grands PDFs), accès disque, bugs Vitesse de traitement améliorée 1ers tests => 0,8 docs/s oct/nov => 5 docs/s mars => 9 docs/s 0,8 M de documents / jour Dépouillement complémentaires à venir type digital estimation qualité dédoublonnage [enrichissement refbibs 18/03/2015] 52

(6) = Perspectives [enrichissement refbibs 18/03/2015] 53

Choix des objectifs pour la suite Préparation en amont meilleure maîtrise du txt en amont corrections post-ocr typologie du document segmentation du document front, tables, sections, zone biblio Poursuite cycles qualité + de corpus d'entraînement nouvelles «features» traits descriptifs => indices «piste rouge» du CRF suite intégration Usages avancés ajout aux index résolution de liens métadonnées => OpenUrl stats agrégées cas de figures API estimation qualité au fil de l'eau consolidation (dédoublonnage) fonctionnalités de recherche [enrichissement refbibs 18/03/2015] par ex, visualisation du graphe des co-citations par ex, agrégé entre revues par ex, évoluant dans le temps... 54

Conclusion On a tenté de suivre les bonnes pratiques Participé aux reflexions sur l'indexation avancée Obtenu des résultats à grande échelle R&D => adaptation => production Développement d'un environnement d'essais selon la méthode ML Développement d'outils pour traiter un flux de bibs Procédures calées sur l'api et loadistex Mode service débuggé, paramétré Les volumes de sortie ouvrent déjà de nombreuses possibilités Mais (qualité X quantité) => prend du temps Nécessaire de continuer les cycles d'améliorations [enrichissement refbibs 18/03/2015] 55

«Références :» Besagni & Belaïd (2004). Citation recognition for scientific publications in digital libraries. Cortez, da Silva, Gonçalves, Mesquita & de Moura (2007). FLUX-CIM: flexible unsupervised extraction of citation metadata. Giles, Bollacker & Lawrence (1998). CITESEER: An automatic citation indexing system. Jewel (2004). PARATOOLS: ParaCite Reference Parsing Module. Kim, Bellot, Faath & Dacos (2011). BILBO: Automatic annotation of bibliographical references in digital humanities books, articles and blogs. Lopez (2009). GROBID: Combining automatic bibliographic data recognition and term extraction for scholarship publications. Peng & McCallum (2006). Information extraction from research papers using conditional random fields. Seymore, McCallum & Rosenfeld (1999). CORA: Learning hidden Markov model structure for information extraction. Shotton, Dutton & O Steen (2014). JISC: Open Citations Database. Tkaczyk & Bolikowski (2011). Workflow of metadata extraction from retro-born-digital documents.

Annexe : Scripts et protos complémentaire Des développements complémentaires Outils de traitement du document Echantilloneur «Trieurs» «Re-formateuses» selon leur taille selon le domaine selon le style typo/biblio bibl (markups plats) <=> biblstruct (markups arborés) de 5 formats «natifs» vers la TEI Divers Afficheuse arbre XML [enrichissement refbibs 18/03/2015] 57

Annexe : Echantillonage et score attendu Un corpus difficile mais passionnant Un volume exceptionnel Une archive d'archives Réunion de textes plus ou moins préservés origine du texte => diversité des pré-traitements à la source «label rouge» => intérêt d'un classifieur de textes en amont Taux de réussite réel et taux théorique choix d'échantilloner le corpus avec ses défauts selon source selon version PDF selon type de document selon style typographique de la citation fruit d'une analyse approfondie des métadonnées en présence ainsi les taux de succès reflètent l'horizon d'attente face au «tout-venant» [enrichissement refbibs 18/03/2015] 58

Annexe : Explication traitements formulaire La citation biblio. est une séquence linguistique «formulaire» LG : de l'intention à la chaîne de signes BIB <= DATE + ART + JOURN ART <= (k x AUT) + [TIT] + [pp] JOURN <= NomJ ital + vol Exemple courant : les chaînes Unitex......1 partir des formes connues observer les règles de capture utilisées dans la vie modéliser les règles en graphes génératifs Problème l'adaptation à des règles proches + mode passée? [enrichissement refbibs 18/03/2015] 59