Plan de la présentation 1) Intro Problématique, réussites globales, chronologie 2) «Face aux données» (aperçu de la base) L'objet documentaire, les PDFs, les facettes 3) Explication de la méthodologie Choix des méthodes probabilistes, de l'outil grobid et du protocole 4) «Cycles qualité» Evaluations de l'extraction sur échantillons, données d'entraînement 5) Tests de montée en charge Parallélisation, choix du périmètre à enrichir, résultats 6) Perspectives [enrichissement refbibs 18/03/2015] 2
(1) = intro [enrichissement refbibs 18/03/2015] 3
(1) Réussites principales Environnement d'essais Qualité : cycles d'amélioration tri détaillé des erreurs, croisement par aggrégats rapport automatique, rangement par corpus de test sous-corpus => entraînement => modèle => test des refbibs sorties améliorations obtenues de dure lutte pour les modèles intermédiaires + 15 % de rappel (mais après en avoir perdu au début!) «prépareur» de formats d'entraînement à partir des bases Quantité : «essai transformé» sur 2,4 M docs mise en oeuvre des modèles de l'étape précédente montée en charge testée à plusieurs reprises 17,5 M refbibs extraites, classées selon source, balisées en 3 jours [enrichissement refbibs 18/03/2015] 6
(2) = aperçu des données [enrichissement refbibs 18/03/2015] 7
ici exemples pdf ou graphe md [enrichissement refbibs 18/03/2015] 9
(3) = méthodologie [enrichissement refbibs 18/03/2015] 12
(3a) Méthodologie choisie Un modèle probabiliste => robustesse à long terme entraînées sur des données réelles connues («gold») souplesse face aux erreurs d'ocr adaptation aux styles Zhou XH, Gao S. Confidence intervals for the log-normal mean. StatistMed. 1997;16(7):78390. X. H. Zhou and S. Gao, Confidence intervals for the log-normal mean, StatistMed, vol. 16, no. 7, pp. 783790, 1997. Zhou, X. H.; Gao, S. StatistMed 1997, 16, 783790. Le choix de l'outil Grobid s'appuie sur des librairies reconnues pdftoxml / wapiti a les meilleurs scores ex aequo avec Cermine prévoir un système de montée en charge à travers un service REST [enrichissement refbibs 18/03/2015] 13
(4c) Préparation de corpus d'entraînement Procédure pour recomposer du corpus d'entraînement automatiquement Développement d'un script de «ragréage» On utilise nos données déjà annotées (notices riches) Fusion des informations typées avec le texte Le texte tel que Grobid le verrait Différence entre les formats l'infos structurée des notices ne préserve pas tout : les virgules ni les tirets, les parenthèses, ni les mots d'escorte dédiés «Vol:» «In:» «and» ça paraît peu de choses... mais en fait => détails typiques fondamentaux pour reconnaître les champs [enrichissement refbibs 18/03/2015] 14
(4) = «Cycles» qualité [enrichissement refbibs 18/03/2015] 19
(4a) Suivi qualitatif détaillé [enrichissement refbibs 18/03/2015] 20
(4c) Préparation de corpus d'entraînement Procédure pour recomposer du corpus d'entraînement automatiquement Développement d'un script de «ragréage» On utilise nos données déjà annotées (notices riches) Fusion des informations typées avec le texte Le texte tel que Grobid le verrait Différence entre les formats l'infos structurée des notices ne préserve pas tout : les virgules ni les tirets, les parenthèses, ni les mots d'escorte dédiés «Vol:» «In:» «and» ça paraît peu de choses... mais en fait => détails typiques fondamentaux pour reconnaître les champs [enrichissement refbibs 18/03/2015] 45
(4d) Exemple : le modèle segmentation Objectif du modèle : Déterminer la zone des refbibs Quelle séquence d'étiquettes? pseudo-tei teiheader front body listbibl notes + les sauts de ligne <lb/> #document 1078 tei 1078 text 1078 body 5039 lb 170927 page 3560 lb 3344 note 2381 lb 2692 listbibl 1661 lb 10017 front 1394 lb 12313 lb 191 teiheader 1078 filedesc 1078 le flux textuel est celui issu du «ragréage» [enrichissement refbibs 18/03/2015] 46
(5) = Montée en charge [enrichissement refbibs 18/03/2015] 48
(5b) Aperçu résultats quantitatifs Nombre de bibs/doc selon le type de document [enrichissement refbibs 18/03/2015] 50
(5b) Aperçu résultats quantitatifs Nombre de bibs/doc selon le type de document [enrichissement refbibs 18/03/2015] 51
er (5c) 1 bilan de montée en charge 17,5 M de bibliographies! permettent de mettre en place la procédure de ré-intégration à la base Globalement prêts pour tout volume Optimisations RAM (très grands PDFs), accès disque, bugs Vitesse de traitement améliorée 1ers tests => 0,8 docs/s oct/nov => 5 docs/s mars => 9 docs/s 0,8 M de documents / jour Dépouillement complémentaires à venir type digital estimation qualité dédoublonnage [enrichissement refbibs 18/03/2015] 52
(6) = Perspectives [enrichissement refbibs 18/03/2015] 53
Choix des objectifs pour la suite Préparation en amont meilleure maîtrise du txt en amont corrections post-ocr typologie du document segmentation du document front, tables, sections, zone biblio Poursuite cycles qualité + de corpus d'entraînement nouvelles «features» traits descriptifs => indices «piste rouge» du CRF suite intégration Usages avancés ajout aux index résolution de liens métadonnées => OpenUrl stats agrégées cas de figures API estimation qualité au fil de l'eau consolidation (dédoublonnage) fonctionnalités de recherche [enrichissement refbibs 18/03/2015] par ex, visualisation du graphe des co-citations par ex, agrégé entre revues par ex, évoluant dans le temps... 54
Conclusion On a tenté de suivre les bonnes pratiques Participé aux reflexions sur l'indexation avancée Obtenu des résultats à grande échelle R&D => adaptation => production Développement d'un environnement d'essais selon la méthode ML Développement d'outils pour traiter un flux de bibs Procédures calées sur l'api et loadistex Mode service débuggé, paramétré Les volumes de sortie ouvrent déjà de nombreuses possibilités Mais (qualité X quantité) => prend du temps Nécessaire de continuer les cycles d'améliorations [enrichissement refbibs 18/03/2015] 55
«Références :» Besagni & Belaïd (2004). Citation recognition for scientific publications in digital libraries. Cortez, da Silva, Gonçalves, Mesquita & de Moura (2007). FLUX-CIM: flexible unsupervised extraction of citation metadata. Giles, Bollacker & Lawrence (1998). CITESEER: An automatic citation indexing system. Jewel (2004). PARATOOLS: ParaCite Reference Parsing Module. Kim, Bellot, Faath & Dacos (2011). BILBO: Automatic annotation of bibliographical references in digital humanities books, articles and blogs. Lopez (2009). GROBID: Combining automatic bibliographic data recognition and term extraction for scholarship publications. Peng & McCallum (2006). Information extraction from research papers using conditional random fields. Seymore, McCallum & Rosenfeld (1999). CORA: Learning hidden Markov model structure for information extraction. Shotton, Dutton & O Steen (2014). JISC: Open Citations Database. Tkaczyk & Bolikowski (2011). Workflow of metadata extraction from retro-born-digital documents.
Annexe : Scripts et protos complémentaire Des développements complémentaires Outils de traitement du document Echantilloneur «Trieurs» «Re-formateuses» selon leur taille selon le domaine selon le style typo/biblio bibl (markups plats) <=> biblstruct (markups arborés) de 5 formats «natifs» vers la TEI Divers Afficheuse arbre XML [enrichissement refbibs 18/03/2015] 57
Annexe : Echantillonage et score attendu Un corpus difficile mais passionnant Un volume exceptionnel Une archive d'archives Réunion de textes plus ou moins préservés origine du texte => diversité des pré-traitements à la source «label rouge» => intérêt d'un classifieur de textes en amont Taux de réussite réel et taux théorique choix d'échantilloner le corpus avec ses défauts selon source selon version PDF selon type de document selon style typographique de la citation fruit d'une analyse approfondie des métadonnées en présence ainsi les taux de succès reflètent l'horizon d'attente face au «tout-venant» [enrichissement refbibs 18/03/2015] 58
Annexe : Explication traitements formulaire La citation biblio. est une séquence linguistique «formulaire» LG : de l'intention à la chaîne de signes BIB <= DATE + ART + JOURN ART <= (k x AUT) + [TIT] + [pp] JOURN <= NomJ ital + vol Exemple courant : les chaînes Unitex......1 partir des formes connues observer les règles de capture utilisées dans la vie modéliser les règles en graphes génératifs Problème l'adaptation à des règles proches + mode passée? [enrichissement refbibs 18/03/2015] 59