Séminaire technique services ISTEX À l Inist-CNRS, Vandœuvre-lès-Nancy, les 18 et 19 mars 2015 ANR-10-IDEX-0004-02
Mercredi 18 mars 2015 Participants présentiel et audio/visioconférence N NOM PRENOM Etablissement 1 ANDRE Francis CNRS DIST 2 AUTARD Charlotte CNRS DIST 3 BLONDELLE Frédérique ABES 4 CARON Etienne CNRS Inist 5 CUXAC Pascal CNRS Inist 6 DAILLE Béatrice LINA Université de Nantes 7 DAUNOIS Thierry Université de Lorraine 8 DUCLOY Jacques Université de Lorraine 9 EL KHOURI Laurence CNRS DIST 10 FABRE Renaud CNRS DIST 11 FRANCOIS Claire CNRS Inist 12 GAUME Bruno CLLE Toulouse 13 GUIBON Gaël CNRS Inist 14 GULLY Stéphane CNRS Inist 15 GREGORIO Stéphanie CNRS Inist 16 JOLY Monique COUPERIN 17 LIZEE Marie-Pascale MENESR 18 LOTH Romain CNRS Inist 19 MAHUT Valérie CNRS Inist 20 MARCHAL Julien Université de Lorraine 21 MAUREL Denis LI Université de Tours 22 MORALE Enza CNRS Inist 23 NAVARRO Emmanuel CLLE Toulouse 24 NICOLAS Yann ABES 25 NIEDERLENDER Claude CNRS Inist 26 PARENTIN Jean-Joffrey CNRS Inist 27 PAUL William CNRS Inist 28 PERRIN Stanislas CNRS Inist 29 PETIT-JEAN Etienne Université de Lorraine 30 PIERREL Jean-Marie Université de Lorraine 31 PORQUET Thomas COUPERIN 32 POUYLLAU Stéphane CNRS Huma Num 33 SCHMITT Laurent CNRS Inist 34 SICOT Julien Université de Rennes 35 TEBBAKH Ali Université de Lorraine 36 TOUVENIN Nicolas CNRS Inist 37 TOUSSAINT Yannick Université de Lorraine 1
Contenu Mercredi 18 mars 2015... 1 Accueil par Renaud Fabre, chef de projet ISTEX : rappel des objectifs généraux d ISTEX (14h-14h15)... 4 Présentation par Jean-Marie PIERREL des objectifs de ce séminaire technique et présentation générale des services à valeurs ajoutées (14h15-14h45)... 5 I- Projets d enrichissement du plein texte des ressources ISTEX par Romain LOTH (14h45-16h)... 7 II- Enrichissement de textes scientifiques par balisage des entités nommées à l aide de cascades de graphes par Denis MAUREL et Enza MORALE (15h30-16h15)... 12 III- Extraction terminologique dans ISTEX Béatrice DAILLE et Gaël GUIBON... 16 IV- Le projet ISTEX-SNU d intégration d ISTEX dans les Services Numériques des Etablissements présenté par Stéphane GULLY... 22 Jeudi 19 mars 2015... 33 V- Projet CILLEX présenté par Bruno GAUME et Emmanuel NAVARRO... 34 VI- Projet LorExplor présenté par Jacques DUCLOY... 42 VII- Projet ISTEX-R présenté par Yannick Toussaint et Pascal CUXAC... 50 VIII - Bilan du séminaire par Jean-Marie PIERREL et Renaud FABRE... 60 2
3
Accueil par Renaud Fabre, chef de projet ISTEX : rappel des objectifs généraux d ISTEX (14h- 14h15) A l initiative scientifique et sous la direction du Professeur Jean-Marie PIERREL (Université de Lorraine), le projet ISTEX a entrepris le développement d une démarche radicalement nouvelle en matière d Information Scientifique et Technique. Jusqu ici en effet la consultation des archives d IST s effectuait sur des corpus circonscrits à un nombre restreint de bases de données, explorées au moyen d une sélection limitée d outils d analyses numériques. Avec le projet ISTEX le changement d échelle et d ambition est spectaculaire : les ressources numériques proviennent de toute la science et de tous les éditeurs ou producteurs de bases de données d une part, d autre part les services d analyse visent à explorer toutes les dimensions de ces corpus. L ambition générale est ainsi considérablement étendue puisque les services développés par Jean-Marie PIERREL et par les équipes universitaires qui l entourent, couvrent l intégralité des questions qu un chercheur peut poser aux résultats de la science. Les actes de ce séminaire permettront de découvrir en effet qu on est loin, avec les démarches qu initient les équipes universitaires en charge des développements d ISTEX, de la simple analyse terminologique : les outils développés pour ISTEX permettent d accompagner la réflexion du chercheur, sa quête de sens. Au nom du CNRS, je remercie mes collègues universitaires qui ont à cœur d écrire cette nouvelle page de l histoire de la science numérique qu est le projet ISTEX. L Académie des Sciences accompagne notre travail et a accepté le principe de décerner à partir de 2016 un prix IST spécifique qui couronnera les avancées scientifiques indispensables au développement de l IST numérique. En 2017, au moment de la livraison du projet ISTEX à l Etat, je forme le vœu que cet Investissement d Avenir exceptionnel puisse pérenniser les avancées constatées lors de ce séminaire, au moyen d un Institut universitaire spécialisé en IST qui soit, comme aujourd hui, riche de toutes ces synergies avec l Inist. Renaud FABRE Professeur des Universités Chef du Projet ISTEX Directeur de l Information Scientifique et Technique, CNRS 4
Présentation par Jean-Marie PIERREL des objectifs de ce séminaire technique et présentation générale des services à valeurs ajoutées (14h15-14h45) Les objectifs des projets lancés dans le cadre d ISTEX sont : De permettre au chercheur des interrogations innovantes sur du plein texte ; De permettre la production de synthèse documentaire pour, par exemple, aider les gestionnaires de recherche à prendre des décisions stratégiques ; D exploiter les corpus ISTEX comme des corpus de base pour la recherche Exemple d exploitation de données : Sélection de sous-corpus Caractérisation Ré-indexation Les objectifs de ces deux journées de séminaire sont : De faire le point sur les projets en cours De permettre aux contributeurs de prendre connaissance de ces projets De créer un écosystème entre les divers projets De préparer la seconde phase d ISTEX Parmi les services développés pour ISTEX on distingue trois grands types de projets : 1. Les services de base (travaux lancés en septembre 2014) Autour de trois thématiques : Extraction terminologique, recherche de termes et de leurs variantes projet mené par le LINA de Nantes sous la direction de Béatrice DAILLE ; Recherche d entités nommées projet mené par le LI de Tours sous la direction de Denis MAUREL ; Balisage des champs bibliographiques projet mené par l équipe Recherche et Développement de l Inist en liaison avec des équipes externes pour des apports d expertises ; 2. Les services à valeurs ajoutées Le projet CILLEX mené par le CLLE/ERSS de Toulouse sous la direction de Bruno GAUME : développement d un moteur de réponse offrant des outils de classification automatique. Le projet ISTEX-R mené par le LORIA, l ATILF et l Inist sous la direction de Yannick TOUSSAINT : caractérisation de l évolution des recherches et des connaissances dans le temps grâce à la construction de cartes diachroniques ; ce projet permet non seulement de réaliser des services, mais également de créer une dynamique de recherche et de développement au sein des différents établissements Lorrains autour de la plateforme ISTEX. 5
Le projet LorExplor mené par l Université de Lorraine sous la direction de Jacques DUCLOY : développement d une bibliothèque OpenSource de composants XML d exploitation des corpus ISTEX ; à titre d exemple parmi les applications potentielles on peut noter l analyse des liens entre zones géographiques et l identification des acteurs d une thématique scientifique pour l aide au pilotage scientifique. 3. L Intégration d ISTEX dans les systèmes numériques des établissements Le projet ISTEX-SNU qui a débuté par un stage d immersion de Stéphane GULLY, Inist, à l Université de Lorraine, est mené actuellement sous la direction de Julien MARCHAL : fonctions de recherche, d accès, d interfaces qui relèvent plus de l IST classique, mais qui sont très importantes pour faire connaitre les corpus ISTEX ; L avenir pour ces projets : Une prolongation du projet ISTEX jusqu au 31 avril 2016 a été actée en mars 2014. L ANR a également donné son accord de principe et la démarche est en cours pour une prolongation jusqu au 31 aout 2017 ; Des efforts supplémentaires sont en discussion au sein du Comité Technique et avec le Comité exécutif d ISTEX sur le prétraitement et la normalisation des données textuelles ; Un abondement financier est prévu sur les projets de services de base et services à valeurs ajoutées ; Un appel à projets pour des chantiers thématiques d usages sera lancé prochainement. Pour les chantiers thématiques d usages, l appel à projets a été validé par le Comité Exécutif ISTEX. L objectif de cet appel est de pouvoir sélectionner 8 à 10 projets pour un financement d une année. Ces projets pourraient interagir avec les services à valeur ajoutée déjà en place. Discussion Rapport sur la qualité des données et métadonnées ISTEX et le besoin de curation Stéphane POUYLLAU, président du Comité Technique ISTEX, indique que, suite à la dernière réunion du Comité Technique le 4 mars 2015, une note est en cours de rédaction sur la question de la qualité des données et métadonnées acquises dans le cadre d ISTEX et sur le besoin de curation. Cette note sera remise au Comité Exécutif ISTEX pour permettre une réflexion sur les besoins de prétraitement et de normalisation des données textuelles et des métadonnées. Calendrier du lancement des chantiers d usage L appel à projets sera lancé courant 2015. L objectif est de mettre en place ces projets au cours du dernier trimestre 2015 pour qu ils puissent se développer au cours de l année 2016 avec des premiers résultats au cours du 1 er semestre 2017 (et dernier d ISTEX). Ce calendrier doit permettre de mettre en valeur les apports de ces projets pour éventuellement motiver les tutelles vers la mise en place d un ISTEX 2 centré sur les usages. 6
I- Projets d enrichissement du plein texte des ressources ISTEX par Romain LOTH (14h45-16h) Plan de la présentation 1. Introduction : problématique, réussites globales, chronologie 2. «Face aux données» (aperçu de la base) : l'objet documentaire, les PDFs, les facettes 3. Explication de la méthodologie : choix des méthodes probabilistes, de l'outil GROBID et du protocole 4. «Cycles qualité» : évaluations de l'extraction sur échantillons, données d'entraînement 5. Tests de montée en charge : parallélisassions, choix du périmètre à enrichir, résultats 6. Perspectives 1. Introduction Objectifs de l axe d enrichissement «citations» Structurer les citations bibliographiques : afin d enrichir les textes aux notices pauvres. L idéal serait de rendre les références de fin d article «cliquables» ; Annoter les citations : dans tout type de texte brut afin de les intégrer aux index, à la navigation et à la recherche documentaire. Ces citations annotées pourraient être transmises aux observatoires (bibliométrie, veille thématique, ) aux analystes (classification documentaire, terminologie, ) ; Créer un index de citations. Enrichir les articles Extraire des métadonnées : le texte, plus opaque que la notice, surtout au format pdf, demande un traitement plus important pour la machine, mais recèle une foule d information. En utilisant des outils déjà existants il est possible de traiter le texte par l intégration de code (coopération avec les partenaires BILBO, GROBID ). 7
Il est possible de s inscrire à terme dans la chaîne de traitement loadistex pour traiter des centaines de milliers de documents par jour et utiliser un service «enrichissement refbib 1» en entrée de lot. L apprentissage sur les données permet d améliorer les baliseurs automatiques (5 millions de documents déjà plus ou moins annotés sur ISTEX). Réussites principales : Création d un environnement d essai : tri détaillé des erreurs, croisement par agrégats, rapport automatique, rangement par corpus de texte. Qualité - cycle d amélioration (préparer un format d entrainement) : méthodologie en trois étapes : sélection d un sous-corpus entrainement test des refbibs sorties. Quantité «essai transformé» sur 2,4 millions de documents (grâce à GROBID 2 ) : mise en œuvre des modèles de l étape précédente, montée en charge testée à plusieurs reprises, 17.5 millions de refbibs extraites, classées selon leurs sources et balisées en 3 jours. 2. «Face aux données» (aperçu de la base) Globalement on peut constater qu un même objet documentaire en termes d IST équivaut à plusieurs formats qui s alignent plutôt bien même s il reste toujours une petite quantité de documents hors format. L objet documentaire Illustration PPT - Projets d enrichissement du plein texte des ressources ISTEX slide 8 1 Refbibs : références bibliographiques 2 https://github.com/kermitt2/grobid 8
Du PDF au format de production Les formats de stockage en amont : Du PDF : fac-similé visuel problématique pour des exploitations de type «fouille de données» : format visuel plutôt que format logique. Du texte brut : format.rw ou.txt Des xmls natifs : 5 dtd traitées, n au final Les formats projet : Format TEI principal : évaluation et sorties Format GROBID : 3 mini TEI dédiées à préparer Les formats de mise en ligne : Métadonnées : accessible par des facettes, des liens, des tags. Données : texte mis en forme avec ses «couches». 3. Explication de la méthodologie Outil GROBID (Patrice LOPEZ INRIA) L outil GROBID a été sélectionné pour plusieurs critères : Une expérience de montée en charge ; L appui sur des librairies connues ; L utilisation des CRF: Wapiti (par défaut et le plus performant) et CRF ++ (plus historique). 4. «Cycles qualité» : évaluations de l'extraction sur échantillons, données d'entraînement Préparation des corpus d entraînement Pour composer le corpus d'entrainement automatique on utilise les données déjà annotées (notices riches). Puis on développe un script de "ragréage" avec une fusion des informations typées avec le texte. Illustration PPT Projets d enrichissement du plein texte des ressources ISTEX Slide 14 9
Par ailleurs, la diversité des formats fait que l'information structurée des notices ne préserve pas tout : disparition des virgules, des tirets, des parenthèses,... C'est à dire les détails typiques fondamentaux pour reconnaitre les champs d'un texte. Les cycles qualité ont été expérimentés sur le corpus ELSEVIER et ses 2,4 millions de notices très pauvres. Sur les 11 modèles CRF "en cascade" 5 sont utilisés pour les refbibs. Dans un premier temps on détermine la zone des refbibs, modèle «segmentation», puis pour chaque ligne s'il s'agit d'une nouvelle refbib on utilise un modèle "référence-segmenter" et enfin on détermine dans chaque refbib les champs majeurs à partir d un modèle "citation". Chaque modèle a besoin de 3 éléments : Une séquence d'étiquettes ad hoc (pseudo TEI) Un flux textuel observable aligné sur cette séquence Un modèle de crible pour décrire le flux en termes de traits. 2,4 millions de documents ISTEX ont été traités : 600 000 documents possédaient des refbibs les autres n en possédaient pas. 1 er bilan de montée en charge : il reste encore beaucoup de travail sur les 17,5M de documents déjà chargés sur la plateforme. Il faut une optimisation de l usage de la mémoire et des accès au disque. Aujourd hui, il est possible de traiter 9 documents par seconde (En avril 2014, le temps de traitement était d un document par seconde). Pour la suite on peut envisager une meilleure maitrise du texte en amont, la poursuite des cycles qualité avec plus de corpus d entrainement. En conclusion : Romain LOTH a tenté de suivre les bonnes pratiques, de participer aux réflexions sur l indexation avancée et a obtenu des résultats à grande échelle. Mais tout cela prend du temps si on souhaite pouvoir avoir la quantité ET la qualité. Discussion Dé-doublonnement des notices Il y a une transformation du texte opaque en texte structuré et tous les corpus ne sont pas toujours structurés au même format donc il y a du dé-doublonnage à effectuer mais l équipe enrichissement ne s est pas encore préoccupée de cette question. Normalisation Renaud FABRE souhaitait savoir si l équipe a envisagé d enregistrer les démarches de circulation des chercheurs pour qu il soit possible d enregistrer le parcours d un chercheur dans sa circulation documentaire afin de répondre à la question «comment cherchent les chercheurs?». 10
Il est possible d envisager cela avec les refbibs, mais habituellement la démarche du chercheur n est pas d aller consulter les ressources les plus citées par les chercheurs, mais d aller chercher les ressources qu il connait. Il faut faire attention de ne pas enfermer les chercheurs en les guidant trop, en les enfermant sur des chemins prédéterminés. Possibilité d un renvoi sur la base d ISTEX à partir des citations Revenir sur la base ISTEX à partir de la citation est possible, si elle existe dans la base, grâce à des liens hypertextes sur une référence ou un élément cliquable. Cela fait partie des usages qui pourraient être mis en place sur la plateforme : renvoi entre citations, citations d auteur, cartographie de la recherche Hub de métadonnées Parallèlement aux projets services de base développés par les équipes citées précédemment, un projet débute à l ABES, mené par l équipe du Hub de métadonnées, pour l identification des auteurs et de la structure des métadonnées ISTEX. 11
II- Enrichissement de textes scientifiques par balisage des entités nommées à l aide de cascades de graphes par Denis MAUREL et Enza MORALE (15h30-16h15) Plan de la présentation 1. Introduction 2. Enrichir les textes par les entités nommées 3. CasSys Un système de passage en cascade de graphes Unitex 4. La collaboration LI-Inist 5. Quel résultat pour la plateforme ISTEX? 1. Introduction «Quelques remarques» Aujourd hui les noms des universités, des centres de recherche, des laboratoires ne figurent pas dans les mots-clés, même si les affiliations aux auteurs sont dans les signatures. Il en va de même pour les noms de projets qui apparaissent parfois en notes ou en remerciements, le lieu où est réalisée une expérience qui n'est pas forcément l'adresse du laboratoire, les dates des expériences qui ne correspondent pas à celle de parution de l'article, etc. Les institutions, lieux, dates sont ce que l on appelle les «entités nommées». L objectif du projet mené sur ISTEX par le LI de Tours, en collaboration avec l Inist est d enrichir les documents de la production scientifique par la détection et le balisage de ces entités nommées afin de permettre leur indexation et leur recherche dans les textes. Celles-ci sont souvent repérables à partir du contexte local (mots introducteurs, mots qui peuvent suivre l entité). 2. Enrichir les textes par les entités nommées Pour le projet ISTEX, 7 balises d entités nommées conformes à la TEI ont été sélectionnées : Personnes 12
Lieux Organisations Projets financés Date URL Exemple de balisage dans le texte : «Cette étude a été réalisée grâce à l'aide d'agira (Alsace Gérontologie Information Recherche) et des médecins de la Société de gérontologie de l'est» 3 Le balisage des entités nommées donne : «Cette étude a été réalisée grâce à l'aide d' <orgname type="projet financé">agira </orgname> (<orgname type="projet financé">alsace Gérontologie Information Recherche</orgName>) et des médecins de la <orgname>société de gérontologie de l'est</orgname>» 3. CasSys : un système de passage en cascade de graphes Unitex CasSys est un système de passage en cascade de graphes dans la plateforme de traitement Unitex utilisée par le LI de Tours. Le projet CasSys a débuté en 2002 avec la préparation de thèse de Nathalie FRIBURGER, Maitre de Conférences à l Université François Rabelais de Tours. Présentation d Unitex : Unitex est un logiciel libre d'analyse lexicale automatique qui allie un système informatique performant et une interface conviviale (graphes). Son système informatique est composé de réseaux de transitions "augmentées" permettant : des opérations sur le texte une utilisation de variables une compilation. Exemple de graphes Unitex : Illustration PPT «Les entités nommées» Slide 21 3 02488663_REV-MED-NTERNE_Aspects_cliniques_et_pronostiques_des_frac.xml 13
Présentation de CasSys : Le LI utilise un module CasSys pour la constitution et l'utilisation des cascades de graphes intégrées à Unitex. Schéma d utilisation de graphes Illustration PPT - Les entités nommées - Slide 22 À partir du texte original (texte transcrit en XML) on constitue un graphe pour modifier un premier paragraphe du texte, puis on constitue un autre graphe sur un 2 ème paragraphe et ainsi de suite jusqu à obtenir un texte final. Les cascades de graphes permettent d utiliser les motifs déjà détectés, d éviter un étiquetage non souhaité pour un motif déjà reconnu. L'ordre de passage est donc un paramètre important. 4. La collaboration LI-Inist La collaboration entre l Inist et le LI de Tours sur le projet ISTEX a débuté en septembre 2014 avec tout d abord la constitution d un petit corpus de 30 documents par Enza MORALE (Inist) puis de 2 corpus plus importants de 100 documents avec un corpus en français et un corpus en anglais. Des allers-retours ont été mis en place entre l Inist et le LI de Tours. Le LI traite les corpus à l aide d Unitex (cascade de graphes) puis l Inist analyse les erreurs détectées. Les erreurs sont ensuite renvoyées à Tours, corrigées par l Inist ou annotées par des propositions de corrections soumises à la discussion. L Inist rédige un guide d annotations qui répertorie les choix méthodiques effectués au cours de la coopération. L objectif est de permettre une simplification des normes et une simplification du TEI. Le travail est actuellement en cours pour le balisage des noms de personnes qui apparaissent comme une expression. Pour simplifier le balisage des dates, l équipe se base uniquement sur les années et non pas la date en entier (jour/mois/année). Il n y a également pas de balisage de période juste de l année de départ et celle de fin. 14
5. Quels résultats pour la plateforme ISTEX? Le balisage des textes sera utilisé pour enrichir les métadonnées afin de permettre les interrogations sur la base ISTEX. Le nombre d entités nommées qui pourront être interrogées dépendra de la qualité des textes et donc des moyens RH mis en place sur le traitement des données et métadonnées. Le balisage des données transverses, quel que soit le choix des domaines concernés, pourrait être approfondi grâce à l appel à projets pour les chantiers d usage qui sera lancé courant 2015 avec une sélection de sous disciplines pour des travaux sur des entités nommées plus spécifiques à chaque domaine (entités mixes). Discussion Démarche de traitement des données et métadonnées Pour estimer les moyens nécessaires aux contrôles et à la vérification des corpus en termes de développements informatiques et de ressources humaines, il faut prendre en compte : Les échanges de compétences entre l Inist et les équipes projets (recrutement A.GUPTA pour le travail sur les cascades) : plus les allers et retours entre l équipe de l Inist et celle de Tours sont importants plus le procédé de cascade est amélioré ; Les investissements des projets internationaux : par exemple pour les projets de l Office Européen des Brevets ou encore de Medline, les travaux sur le plein texte, sur le balisage, représentaient un investissement aussi important que celui alloué à l achat de ressources alors que pour ISTEX 55 millions sont consacrés aux acquisitions et 5 millions au développement de la plateforme et des services ; Collaboration services de base et services à valeur ajoutée Dans ISTEX le développement des services permet des travaux sur des domaines variés et de s apercevoir que les traitements effectués sur un domaine de recherche peuvent être transposés sur d autres domaines. Une mise en relation des projets services de base et services à valeur ajoutée, comme ISTEX-R et la recherche d entités nommées pourrait être envisagée. L objectif de ces deux jours est aussi de permettre de faire ressortir les liens et les collaborations envisageables entre les projets ISTEX. 15
III- Extraction terminologique dans ISTEX Béatrice DAILLE et Gaël GUIBON (16h45-17h30) Plan de la présentation 1. Introduction 2. ISTEX enrichissement - La terminologie dans les corpus ISTEX 3. Prétraitements en vue de l'extraction terminologique - Inist CNRS 4. Extraction Terminologique LINA 1. Introduction Ce projet a pour objectif de repérer dans les textes de publications scientifiques les notions et les termes principaux. Les équipes ont choisi de travailler au niveau d un domaine de spécialité avec ses thèmes associés (ensembles de textes représentatifs d un domaine) et non pas sur des corpus multidomaines. L objet de l extraction est de faire ressortir les terminologies les plus courantes du domaine défini. 2. ISTEX enrichissement : la terminologie dans les corpus ISTEX Extraction de termes : L extraction terminologique est une problématique de recherche sur laquelle le LINA travaille depuis une vingtaine d années et maitrise grâce à son expérience sur le projet européen TermSuite, (projet multi linguistes, une dizaine de langues) pour la création d un outil d extraction sur la plateforme IBM UIMA qui permet de faire de l annotation sur les textes (logiciel Java natif). Les termes extraits peuvent être des mots simples, mais aussi des termes complexes composés de plusieurs éléments (ex : système d exploitation, retors éoliens, ). Le terme a certaines propriétés : il représente un concept, mais est aussi en fluctuation et essaie de se positionner dans un aspect du domaine ou peut devenir plus générique. Il peut donc exister une multitude de dénominations pour une même notion. L objectif n est pas seulement de repérer les termes simples ou complexes, mais aussi leurs variantes. Pour cela il faut deux types d analyses : syntagmatique (texte et dimension linéaire) et distributionnelle (caractériser le texte par sa distribution dans les textes et ses voisins). 16
L extraction se fait grâce à l utilisation de 3 méthodes classiques : des prétraitements linguistiques : segmentation, étiquetage grammatical, L utilisation de règles syntagmatiques pour décrire les termes (patrons) Une procédure de choix des candidats que l on souhaite retenir : cette étape est délicate car le choix dépend de l application de l analyse menée et de l unité textuelle que l on souhaite obtenir à la fin Pour TermSuite les principes définis étaient d avoir une approche intégrée, une homogénéité (termes simples et complexes) en privilégiant la modularité : créer des patrons et, quel que soit la langue, toujours utiliser la même méthode de traitement. La reconnaissance des termes et le résultat à la sortie devaient être riches avec l objectif d avoir plusieurs informations sur les entités (patron, lemme, formes, fréquence, spécificité/domaine, variantes ) 3. Prétraitements en vue de l'extraction terminologique - Inist CNRS Les quatre tâches de prétraitement : Pour ISTEX, le LINA a repris les méthodes de chaine de traitement TermSuite (prétraitements, traitements, détection de variantes, ). L Inist et le LINA travaillent en collaboration sur le projet. Illustration PPT Extraction terminologique slide 8 17
Association LINA Inist CNRS : L Inist analyse les erreurs d étiquetage indiquées par l équipe du LINA dans le but de créer ensuite des règles qui seront réinjectées dans le logiciel de traitement TermSuite. Le temps de traitement est de 1h pour 10 millions de mots. De 12 secondes pour 300 000 mots. UIMA est un outil robuste utilisé dans l industrie et est un outil standard d IBM. Le prétraitement se divise en 4 tâches : Tout d abord on extrait le texte brut des corpus ISTEX que l on découpe en phrase (Sentence splitter) pour lesquelles ont détermine les unités (Tokenizer) puis on prédit les formes canoniques d un mot (Lemmatizer) pour prédire son identification dans le discours (Part-of-Speech tagger). Exemple : Illustration PPT «extraction terminologique» - slide 11 18
État de l art : Plusieurs outils sont disponibles pour chaque tâche, ceux-ci doivent être sélectionnés en fonction du besoin. Exemple : Illustration PPT «extraction terminologique» - slide 13 et 14 Les ressources utilisées pour les prétraitements sont : CRAFT : Un corpus de plein texte en biomédical : 67 articles complets. Proche du corpus ISTEX-Food science and technology GENIA : Corpus d'abstracts de biologie moléculaire. 2000 abstracts de MEDLINE. Remarque : un manque d'annotations des lemmes (formes canoniques d'un mot). Résultats préliminaires : Pour la détection des phrases : CRAFT 99.6 % de moyenne harmonique et aucun pour GENIA. Pour l analyse lexicale : CRAFT 97.08% et GENIA aucun Pour l étiquetage syntaxique : CRAFT 78% d exactitude et GENIA 83.57% Des erreurs ont pu être constatées dans des cas particuliers comme des unités inattendues collées, des noms communs et verbes conjugués similaires, des termes chimiques et formules indiqués comme Nom propre au lieu de Nom commun, etc. 19
1. Extraction Terminologique LINA UIMA Token Regex détection des termes complexes : Travaux réalisés par le LINA : Amélioration de la vitesse d exécution Amélioration de la détection de termes complexes et de variantes syntaxiques Spécification des termes complexes et leurs variantes pour deux langues. Pour ISTEX en anglais 3 millions de mots pour 8748 documents. La chaine de traitement UIMA dans TermSuite Illustration PPT Extraction Terminologique Slide 22 Bilan En cours de finalisation : Analyse morphologique et détection des variantes syntaxiques avec les termes composés. Planifié pour 2015 : Détection des variantes sémantiques Post-traitement de l'extraction terminologique : filtrage et classification Intégration ISTEX : Détection des entités figées en amont et leur intégration au processus de détection des termes complexes et des variantes Interactions avec les autres composants de la plateforme ISTEX Intégration du format de corpus TEI à UIMA pour l extraction terminologique. 20
Contraintes de ressources matérielles pour l extraction terminologique (mémoire vive, temps de traitement, ). Discussion Référencement Pour palier aux résultats sur l étiquetage CRAFT de 78,8 % qui ne sont pas très bons on pourrait envisager de créer dans le corpus «ISTEX-Food science and technology» un référencement sur lequel entrainer les autres corpus par la suite. Par ailleurs les résultats divergent selon les types de corpus et il est difficile d avoir un étiquetage propre dans un domaine spécifique. Pour l instant l équipe se concentre sur le travail mené sur le CRAFT et passera ensuite en phase de test et d évaluation. Collaboration Extraction Terminologique et Entités Nommées À l intérieur de la chaine de prétraitement il est possible d intégrer la chaine de traitement des entités nommées dans les étapes de prétraitement, par exemple détection des expressions figées. 21
IV- Le projet ISTEX-SNU d intégration d ISTEX dans les Services Numériques des Etablissements présenté par Stéphane GULLY (17h30-18h15) «ISTEX en quelques clics dans votre portail documentaire» Plan de la présentation 1. Contexte 2. Calendrier / méthode 3. Vision du produit 4. Axe Widgets / ENT o Widgets génériques o Module Drupal o UPortal ISTEX o Opac 5. Axe DT (outils de découverte) 6. Utilisateurs 7. Perspectives 1. Contexte Le projet ISTEX-SNU a été initié dans le cadre du projet d immersion de Stéphane GULLY (Inist-CNRS) à l Université de Lorraine de décembre 2014 à février 2015 à l'université de Lorraine dans la sousdirection des usages du numérique (Julien MARCHAL) en relation forte avec la direction de la documentation et de l'édition (Anne- Pascale PARRET, Jean-François LUTZ, Thomas JOUNEAU). 22
2. Calendrier et méthode Calendrier : Illustration PPT - Projet ISTEX-SNU 18-03-2015 - Slide 4 Méthode : La méthode de gestion de projet utilisée est une méthode agile Scrum. Les valeurs agiles privilégient : les individus et leurs interactions plus que les processus et les outils l utilisation de logiciels opérationnels plus qu'une documentation exhaustive la collaboration avec les clients plus que la négociation contractuelle. 3. Vision du produit Version 1.1 ISTEX-SNU a pour objectif de mettre à disposition les corpus ISTEX à travers les services numériques des universités. Une intégration forte dans les systèmes de diffusions existants de l ESR est nécessaire pour éviter à l utilisateur final de devoir réaliser ses recherches ISTEX sur un N-ième portail d information. Les services numériques suivants sont visés pour l accès aux ressources ISTEX : Les Environnements Numériques de Travail (ENT) Les Discovery Tool (DT) 23
Ces services sont à destination des documentalistes, des chercheurs, et des membres de l ESR. Le périmètre initial (site pilote) concerne l ENT et le DT de l Université de Lorraine (UL) en gardant comme perspective la diffusion au niveau ESR. À noter qu une grande partie des universités françaises disposent déjà d un ENT et/ou d un DT.» Pour le site pilote, l Université de Lorraine, ISTEX-SNU a été implémenté sur : uportal (ENT) EDS (DT) Les fonctionnalités importantes qu ISTEX-SNU proposera sont : La recherche sur les métadonnées et le plein texte avec affinage par facettes, L accès transparent (authentification) au plein texte en un minimum de Clics, Une interface utilisateur ergonomique et intégrée aux services cibles, Une installation technique simple et documentée privilégiant l automatisation. À noter que l API ISTEX propose aujourd hui : Une authentification par IP Une authentification par login/mot de passe. À plus long terme, une fois la plateforme ouverte aux utilisateurs, il est prévu une authentification par fédération d identités. Les interfaces de visualisation de fonds documentaire sur le marché sont multiples, on peut citer de façon non exhaustive les outils libres VuFind et Blacklight et les différents outils commerciaux comme EDS et Primo. Sur nombre de ces outils, nous retrouvons des paradigmes communs à ISTEXSNU comme l utilisation d API et d interfaces de recherche. La particularité d ISTEX-SNU sera de proposer des interfaces finement intégrées aux services numériques existants autant d un point de vue contrôle d accès que d un point de vue interface utilisateur et ergonomie. Finalement, le grand défi de l après ISTEX-SNU sera le déploiement dans un maximum d Universités et centres de documentation de l ESR. Dans les différents établissements de l ESR on constate : La présence de DT hétérogènes : Libres & Commerciaux Des ENT / Widget nécessitant une vigilance sur la simplicité d intégration. Le code source développé pour ISTEX-SNU sera mis à disposition sous licence libre pour faciliter l appropriation par la communauté ESR : Licence : CeCILL (caractère "copyleft") Dépôt GitHub : https://github.com/istex/ Contributions fortement encouragées : o Mashup o Thèmes graphiques o Scripts dans différents langages. 24
4. Axe Widgets / ENT Les modules présentés ci-dessous sont des démonstrations de pages en construction sur les ENT de pré-production de l Université de Lorraine et de l Université de Rennes 2. Celles-ci ne sont pas encore en production. Widgets génériques Démo des widgets numériques : http://widgets.istex.fr/ (documentation) Requête : «Brain» - choix du corpus Les outils utilisés pour l intégration d ISTEX-SNU aux widgets sont : Code source : GitHub Intégration continue : TravisCI Outil de build : Gulp Framework de test : mocha Les Technos des widgets ISTEX jquery HTML5 Précompilateur CSS : {less} Les Technos de l'api ISTEX NodeJS 25
ElasticSearch Démo du module Drupal : http://www.bu.univ-rennes2.fr/istex/results?lookfor=*&type=all L installation du module ISTEX drupal est simplifiée et se fait en quelques clics : 26
Vue des résultats requête «Brain» Démo de uportal ISTEX (UL) Un dépôt Git est dédié à la brique ISTEX uportal : https://github.com/istex/istex-ent-uportal Illustration PPT ISTEX-SNU slide 24 27
Présentation d ISTEX lors des esup days : https://docs.google.com/presentation/d/1mjowue2ttkbfa2ynsb5xbadkrikefmwsmod1ko4fg GY/edit?pli=1 «ISTEX depuis les ENT - ISTEX-SNU est un projet qui permettra de rechercher, depuis l'ent dans la littérature scientifique acquise dans le cadre du projet ISTEX soit dans plus de 10 millions de documents!» présenté par Stéphane GULLY (Inist) et Julien Marchal (Université de Lorraine) le 5 février 2015. Démo de l intégration d ISTEX dans OPAC Illustration PPT - Projet ISTEX-SNU Slide 27 28
5. Axe DT (outils de découverte) Le DT du point de vue utilisateur : Discovery Tools (outils de découverte) Link Solver (résolveur de lien) Illustration PPT Projet ISTEX-SNU Slide 36 Index d un DT L index d un DT contient des métadonnées d articles (identifiés généralement par des DOI) eux-mêmes inclus dans des revues (identifiées généralement par des ISSN) elles-mêmes possédées par des éditeurs. Il contient également la liste des abonnements des différents établissements qui correspondent à des bouquets de revues. Il peut être complété par les métadonnées de la plateforme ISTEX (r5) puis dé-doublonné avec les articles déjà présents dans l index (r3) au moment de la génération des résultats. Les établissements peuvent déclarer le bouquet ISTEX dans leurs abonnements, pour que les résultats soient intégrés de façon homogène avec leurs autres abonnements. 29
Intégration de l ISTEX dans EDS (EBSCO) Pour l intégration d ISTEX dans l outil commercial EBSCO, des contacts sont en cours avec les équipes techniques aux États-Unis, l éloignement entrainant des temps de réponse assez longs. Le plan d action pour l intégration dans EDS est à deux niveaux - Intégration d ISTEX par les bases de connaissances (KBART issus du Hub) - Intégration d ISTEX par moissonnage des métadonnées article ( database ISTEX ). Du côté de l API les besoins sont : - Utilisation d OpenURL - Utilisation OAI-PMH. 6. Utilisateurs Thomas PORQUET de COUPERIN a fait le lien avec les SCD pour la communication autour de la possibilité d intégration d ISTEX dans leurs ENT. Aujourd hui 10 établissements ont participé au projet ISTEX-SNU : Saint-Etienne, Bordeaux, Toulouse, Limoges, Besançon, Strasbourg, Orléans, la bibliothèque de Diderot de Lyon, la bibliothèque VetAgro Sup de Lyon. État d'avancement des utilisateurs : Saint-Etienne : couplage avec OPAC via les widgets (besoin du widget N résultats ISTEX ), filtrage IP multi-sites et/ou shibboleth. État : développements maison fonctionnels Bordeaux : intégration dans ENT (version inconnue) pour mise en avant d ISTEX (communication). État : intérêt déclaré, dossier en attente Toulouse : intégration dans ENT v4, filtrage IP + VPN. État : intégration en cours Limoges : intégration dans ENT (version inconnue), ezproxy. État : intérêt déclaré, étude du dossier en cours. Besançon : intégration dans CMS Drupal v6, ezproxy. État : intérêt déclaré, étude du dossier en cours. Strasbourg : intégration dans ENT v3 ou widgets dans site, ezproxy. État : intérêt déclaré, étude du dossier en cours. Orléans : intégration de préférence dans OPAC et pê ds Drupal 7, bibliopam. État : intérêt déclaré, étude du dossier en cours. Bibliothèque Diderot de Lyon : intégration dans DT de préférence ou encart de recherche, ezproxy. État : intérêt déclaré, étude du dossier en cours. Bibliothèque VetAgro Sup de Lyon : intégration dans Drupal 7 de préférence ou ENT Moodle, Shibboleth (proxy envisagé sur 2015). État : intérêt déclaré en attente de solution. 30
7. Perspectives Aujourd hui, la responsabilité du projet ISTEX-SNU a été confiée à Julien MARCHAL, Université de Lorraine. Les perspectives du projet ISTEX-SNU aujourd hui sont : Pour l'axe DT o collaborer avec les outils commerciaux EDS et Primo o collaborer avec les outils libres VuFind, Blacklight. Pour l'axe Widgets / ENT o intégrer des futures fonctionnalités de l'api o l ajout/évolution de modules : Drupal, Wordpress, Spip, OPAC,... o la mise en production sur l'ent de l'université de Lorraine o la mise en production sur EDS (CNRS et UL) o Accompagner la communauté. Discussion Création d une communauté d exploitation d ISTEX La création d une communauté de projets autour de l exploitation d ISTEX n est pas envisagée dans le cadre d ISTEX 1, mais pourrait faire l objet d une réflexion une fois le projet terminé et la plateforme en phase de production (ISTEX 2). Qualité des données et métadonnées ISTEX La qualité des données est médiocre. Parfois dans les résultats d une recherche les résumés n apparaissent pas et la ressource s avère être uniquement du pdf images, un format non traitable, venant le plus souvent de documents anciens. Ces documents sont rendus disponibles à la lecture et sont importants dans ISTEX par leur rareté sur les plateformes des éditeurs, mais ils ne doivent pas être la priorité. À Tours, une équipe travaille actuellement sur les recherches de mots dans des PDF images, mais ces techniques peuvent difficilement être appliquées sur des milliers de documents venant de plusieurs éditeurs comme sur ISTEX. Si le problème des documents anciens reste mineur, la mauvaise qualité de documents plus récents est également une problématique forte dans ISTEX. Comme indiqué par Stéphane POUYLLAU, président du Comité Technique, plus tôt dans la matinée, un rapport sur la qualité des données et métadonnées ISTEX et le besoin de curation sera transmis au Comité Exécutif ISTEX avant le 30/03/2015. 31
Accompagner la communauté Tous les travaux menés actuellement sur ISTEX ne peuvent pas être faits sans accompagner les communautés. Les établissements qui ont pu faire l essai des expérimentations ISTEX-SNU font aujourd hui pression pour que le projet passe en production. Aujourd hui le projet pourrait quasiment passer en phase de production mais avant il faut s assurer de la solidité de la plateforme. Ne pas sauter des étapes. Si aujourd hui on ouvre le service et qu il n est pas fonctionnel, cela risque de rebuter les communautés qui n y reviendront plus même après amélioration. Il faut d abord faire des tests en permettant une ouverture à un ou deux laboratoires pour avoir de véritables retours Ouvrir la plateforme à des sous-communautés de chercheurs qui seraient candidats pour devenir bêta-testeurs. Le développement de la plateforme doit se renforcer sur la partie infrastructure : redondance, réseau,. Il faut maintenant assurer l effort nécessaire au niveau de la redondance du service de la plateforme pour éviter un crash au moment de l ouverture en phase pilotage. De plus, les enrichissements ne sont pas encore intégrés dans les corpus ISTEX. Il faut prendre en compte le délai du travail à mener pour cette intégration et permettre l utilisation de ces enrichissements sur ISTEX. Lorsque les résultats des projets d enrichissement de plein texte seront intégrés, la plateforme commencera à avoir de l intérêt comparée à celles des éditeurs. Les projets d enrichissement, extraction de termes et recherche d entités nommées, ayant débutés en septembre 2014 nous pouvons espérer au mieux un retour pour la fin de l année civile 2015. Aujourd hui nous pouvons donc faire des démonstrations, rentrer en phase de test, mais le projet ne sera opérationnel que courant 2016 et non 2015. En conclusions : Besoin de reverser les enrichissements dans la plateforme Besoin d avoir des retours des communautés/ des utilisateurs pour ajuster les projets Besoin d un investissement conséquent pour améliorer les données fournies avec les éditeurs pour ne pas pénaliser les résultats des études menées par les différents projets. Les équipes transmettront les éléments à Jean-Marie PIERREL pour la définition d un plan de charge clair jusqu à la fin du projet. 32
Jeudi 19 mars 2015 Participants présentiel et audio/visioconférence N NOM PRENOM Etablissement 1 ANDRE Francis CNRS DIST 2 AUTARD Charlotte CNRS DIST 3 BLONDELLE Frédérique ABES 4 CARON Etienne CNRS Inist 5 CUXAC Pascal CNRS Inist 6 DAILLE Béatrice LINA Université de Nantes 7 DAUNOIS Thierry Université de Lorraine 8 DUCLOY Jacques Université de Lorraine 9 EL KHOURI Laurence CNRS DIST 10 FABRE Renaud CNRS DIST 11 FRANCOIS Claire CNRS Inist 12 GAUME Bruno CLLE Toulouse 13 GUIBON Gaël CNRS Inist 14 GULLY Stéphane CNRS Inist 15 GREGORIO Stéphanie CNRS Inist 16 JOLY Monique COUPERIN 17 LIZEE Marie-Pascale MENESR 18 LOTH Romain CNRS Inist 19 MAHUT Valérie CNRS Inist 20 MARCHAL Julien Université de Lorraine 21 MAUREL Denis LI Université de Tours 22 MORALE Enza CNRS Inist 23 NAVARRO Emmanuel CLLE Toulouse 24 NICOLAS Yann ABES 25 NIEDERLENDER Claude CNRS Inist 26 PARENTIN Jean-Joffrey CNRS Inist 27 PAUL William CNRS Inist 28 PERRIN Stanislas CNRS Inist 29 PETIT-JEAN Etienne Université de Lorraine 30 PIERREL Jean-Marie Université de Lorraine 31 PORQUET Thomas COUPERIN 32 SCHMITT Laurent CNRS Inist 33 SICOT Julien Université de Rennes 34 TEBBAKH Ali Université de Lorraine 35 TOUVENIN Nicolas CNRS Inist 36 TOUSSAINT Yannick Université de Lorraine 33
V- Projet CILLEX présenté par Bruno GAUME et Emmanuel NAVARRO Plan 1. Objectifs 2. État courant 3. Développement à venir 1. Objectifs Aider l utilisateur dans sa recherche en rendant lisible la structure des résultats : traiter les documents dans lesquels on trouve des mots, des auteurs, des métadonnées (venant des éditeurs ou crées par ISTEX) et créer des liens entre eux. La méthode utilisée est la construction de graphes de terrain. Les graphes de terrain peuvent apparaitre sous différentes formes : Les graphes d'accointance d'un groupe d'humains (réseaux sociaux) Le graphe du World Wide Web ( WebGraph) Le graphe de Caenorhabditis elegans Les graphes Lexicaux Les graphes extraits des bases documentaires. Construits à partir de données réelles ces graphes ont tous les mêmes propriétés : Faible densité : par exemple il existe peu de liens directs entre des amis sur les réseaux sociaux Chemins courts : pour passer d un sommet à l autre. 34
Distribution des degrés à queue lourde (loi de puissance) => ranking. Quand un moteur de recherche classique donne une liste de résultats, elle n est basée que sur cette 3eme propriété (pointage des pages). Fort coefficient de clustering : zones denses en arêtes => sens. Il existe des sous-ensembles d arêtes où on trouve une forte densité d arrêtes. L objectif du projet CILLEX est de (i) démontrer que les structures des moteurs de recherche habituels utilisent la 3 ème propriété et jamais la 4 ème., (ii) permettre un ranking sur les clusters (4 ème ) pour montrer les arêtes, (iii) construire un sous-graphe de la base communautaire à partir des informations que l API ranking renvoie. Le but est de construire des clusters avec une labellisation pour faire ressortir l information au chercheur. Lorsqu on labélise les clusters l utilisateur est alors informé de la structure des données et peut choisir le cluster qui l intéresse (le groupe de corpus qui l intéresse par rapport à un centre d intérêt, un but de recherche). L utilisateur peut choisir un point de focus et voir la structure de l ensemble de la base dans laquelle il cherche. Illustrations PPT Projet CILLEX slides 18 et 19 35
Trading Zones interprétation des graphes La construction de graphes à partir de clusters de mots permet l observation et l interprétation des relations de synonymie entre les mots clustérisés. On peut exploiter cette méthode pour faire une requête polysémique. Les moteurs de recherche classiques n utilisent que la structure d ordre de liste. Exemple : www.autourdumot.fr 2. État courant Moteur de réponse en place : le système tourne et interroge l API ISTEX o chaine de traitement, o quelques détails techniques... o données prise en compte aujourd'hui. Système de sauvegarde / Annotation des résultats o Méthodologie de mise au point. 36
CILLEX : La chaine de traitement Illustrations PPT Projet CILLEX slide 25 Moteur de réponses CELLO : Le serveur, codé en PYTHON, fournit une API REST et JSON. L application cliente est Javascript (backbone ; sémantic-ui). L équipe se base sur un micro framework qui permet de construire un système modulable de composants de traitement avec un système d options et de découverte d options. 37
Le serveur permet la génération d un formulaire qui permet de tester divers paramètres découvrables sur l interface HTML ou sur des lignes de commande. Cette application devrait sortir prochainement en OpenSource. CILLEX : chaine de traitement (détail) Les données utilisées pour le moment sont : o mots des abstracts o mots du title o subject o subject serie o authors. Illustrations PPT Projet CILLEX slide 28 Pour les données «subjects» les équipes rencontrent des difficultés en raison des problèmes d homogénéité entre les corpus des différents éditeurs. Les sujets ne sont pas forcément présents dans tous les documents. Méthodologie de mise au point : constat La chaine de traitement est complexe et les combinaisons de paramétrage sont importantes. Besoin de tester plusieurs configurations sur les corpus 38
Avec le jeu de données existant l équipe ne dispose pas encore d un corpus formé qui colle à une recherche scientifique en clustering et construire à la main un jeu d évaluation coute cher. Pour pallier à cette problématique, l équipe a dû changer de point de vue et s est basée sur les résultats du système et la construction d un système d annotation qui permet de modifier le clustering et d effectuer plusieurs traitements en gardant trace des problèmes détectés. Si le résultat d un traitement est mauvais pas de solution, si le résultat est bon, mais contient des erreurs une correction à la main est effectuée (faible cout), si le résultat est très bon il est simplement enregistré. Pour cette méthode l équipe a construit un système d'annotation intégré à l'interface CILLEX (démo) : enregistrement d'un résultat, modification à la main du clustering, rechargement/modification d'une précédente annotation. Les données sont exploitables en batch (Unix/Linux). Concernant les corpus ISTEX, si les équipes ne peuvent pas disposer d entités nommées, d une bibliographique, d abstracts, alors les clusters ne peuvent pas être construits. La qualité des métadonnées ISTEX est essentielle pour construire les clusters. Lorsque l équipe CILLEX utilise l API ISTEX, elle télécharge une copie de l interrogation et des clusters pour des modifications à la main (annotations, insertion de commentaires, ) Le système est dépendant du ranking de l API et ne travaille que sur les 30 premiers documents qui ressortent. Il est possible de rejouer la recherche. Une fois fini, lorsqu on sauvegarde l annotation on sauvegarde aussi les 30 documents qui étaient sortis en résultat donc si l API et le ranking changent il est possible de retrouver des documents que l on avait déjà annotés. 3. Développement à venir Le problème posé par les corpus ISTEX pour la qualité des graphes est que les données et métadonnées sont clairsemées : sparse (subject, auteurs) : les sujets ne sont pas liés. meta-données absentes (auteurs, résumés) non-homogénéité (subject) bruit (termes des titres et résumés). Aujourd hui les pistes d améliorations sont : le traitement en ligne des titres et résumés (amélioration) Pouvoir utiliser les données des projets enrichissement du plein texte : entités nommées, termes et variantes, références bibliographiques. 39
Et sur le long terme : o Enrichir le graphe local à partir d une ressource externe pour que les entités nommées s insèrent dans une ressource lexicale comme le RLF 4 ou les référentiels thématiques de l Inist o Folksonomies (indexations personnelles) alimentées par les usagers d ISTEX (tags). En pratique les développements à venir sont liés à l amélioration du système limitée à une souscollection annotée et itérée. À chaque itération l objectif est d augmenter le nombre de recherches pouvant être annotées grâce à l augmentation du nombre de personnes participant aux annotations (ouverture à un public plus large). Pour construire les graphes il serait intéressant de mettre en place un historique (log) des recherches menées par les utilisateurs réels (équipes qui utilisent déjà la plateforme) sur l API ISTEX pour avoir des retours, des informations extérieures. Une collaboration avec le projet EzPAARSE est en cours avec l équipe de développement de la plateforme à l Inist pour la mise en place des logs sur l API. Discussion Articulation des différentes dimensions entre auteurs, mots clés, affiliation. Dans la construction du graphe tout est mélangé, mais lors de la labélisation il est possible de reprendre les informations pour privilégier une dimension plutôt qu une autre. Classification de la recherche Illustrations PPT Projet CILLEX slide 19 Les couleurs utilisées pour le visuel de classification de la recherche ne correspondent pas à un domaine particulier, il s agit uniquement d un classement par thèmes proches. La clusterisation se fait au niveau de granularité des résultats du moteur de recherche. Cela permet une classification relative à l ensemble des sous-documents repérés par la requête. L annotation reste sauvegardée pour une requête, mais si on annote un document lors d une recherche sur le terme «Brain» puis qu on lance une requête sur le terme «food», si un même cluster annoté ressort, l annotation de la requête «Brain» n apparaitra pas pour le terme «food». 4 Réseau Lexical du Français (RLF) Projet RELIEF ATILF (cf. http://www.atilf.fr/spip.php?article908) 40
Possibilité d une clusterisation sous contrainte L annotation est utilisée pour le développement de CILLEX, mais l interface finale ne comprendra pas cette option. Il s agit uniquement d une méthode utilisée pour l amélioration manuelle des clusters créés dans le cadre du développement du projet. Par ailleurs, il pourrait être possible de renvoyer les données de l index de la base complète, de construire des liens entre les documents s ils sont dans un même cluster. La contrainte ne pourra être mise en place que sur les liens. Il existe la possibilité d un effet de bord si on utilise un cluster différent, mais proche et qu on ne retrouve pas les annotations. L équipe prévoit d ajouter dans le système d annotation des outils pour tagger les annotations (différentiel cluster thématiques, cluster temporels, ). Idéalement cela devrait permettre dans l interface d avoir des préréglages du système qui permettra de favoriser la recherche d un clustering particulier. Ranking Projet ISTEX-R Le projet ISTEX-R est dépendant du ranking et si le ranking fait un choix thématique sur une recherche polysémique le cluster aura moins de poids. L équipe d ISTEX-R est donc intéressée par une collaboration avec l Inist pour un travail sur le ranking. Le ranking est important, si le moteur de recherche de Google produisait un classement des résultats aléatoire, les utilisateurs passeraient vite à un moteur de recherche plus pertinent, car les résultats sortis seraient loin des résultats souhaités. Résistance de la démarche au bruit Si le bruit est aléatoire, il n aura pas d impact sur la formation des clusters car les clusters ont une densité suffisamment apparente pour que du bruit à droite et à gauche ne change pas cette densité. Le bruit qui pourrait être problématique est celui intentionnel, par exemple si on crée un faux cluster volontairement. Requête sur les mots non polysémiques Une requête sur CILLEX ne crée pas forcément de cluster. Le nombre de clusters qui apparaissent lors d une requête n est pas fixé d avance. Une requête sur un mot non polysémique ne forcera donc pas un découpage de termes liés. 41
VI- Projet LorExplor présenté par Jacques DUCLOY (10h-11h) Plan 1. Introduction : ISTEX, un devoir d ambition 2. Wicri/LorExplor : démonstrateur d une cyberinfrastructure de la connaissance 3. Bibliothèque XML DILIB (lien API ISTEX) 4. Wikis sémantiques et curation de données 5. Conclusion : Apprendre le numérique en construisant 1. Introduction : ISTEX, un devoir d ambition Un devoir d ambition ISTEX est un projet ambitieux avec un financement de 60 millions d euros, dans une situation de crise et de réduction de moyens, pour la construction du socle de la bibliothèque scientifique numérique avec pour le moment une couverture nationale mettant à disposition des chercheurs des millions d articles en texte intégral. Un tel financement pousse à réfléchir à quelles seront les retombées pour les contribuables, comment ce projet national viendra s'insérer dans la Recherche qui est internationale, comment le projet ISTEX conciliera le national et l'international, mais également que feront les chercheurs des millions de documents mis à leur disposition. L'ensemble de l'esr est concerné par ces questions. 42
Humanités numériques et IST en France : TOP /Crise. De 1950 à 1975 la France était dans le top 4 mondial dans le domaine des Humanités numériques et de l IST avec les projets TLF, Pascal, Questel,... L'arrêt des R&D dans les années 80 et d'autres changements comme la sous-traitance de l'ingénierie des projets Jouve ou Questel ou encore la dominance de la rentabilité sur les missions initiales ont freiné les avancées de la France. Dans la crise, des signes positifs était toujours visibles avec la création de l'inist à Vandœuvre-lès- Nancy en 1988 dans le top 4 en FTD pionner sur SGML appliqué aux formats MAR/ISO 2709 et avec Pascal faisant "jeu égal" avec Medline. ISTEX représente aujourd hui un espoir pour l émergence d un grand projet concurrentiel au niveau mondial autour de la question du Big Data et doit pouvoir s alimenter des bases Pascal et Francis (300 personnes sur 50 ans pour 1,5 milliard d pour constituer ces bases). Il faut se rappeler du poids de cet investissement pour voir comment il pourrait être réutilisé dans ISTEX. 2. Wicri/LorExplor : démonstrateur d une cyber infrastructure de la connaissance Le projet LorExplor est un démonstrateur d une cyber infrastructure de la connaissance scientifique, technique ou culturelle? initiée par des besoins de valorisation de la recherche (ANL, DRRT) inspirée par les réseaux, le génie logiciel, l interopérabilité, les pratiques coopératives et dopée par le projet ISTEX. Illustration PPT projet LorExplor Slide 8 43
LorExplor est composé d un ensemble de wiki sémantiques qui utilisent la même technologie que wikipédia avec en supplément des outils sémantiques. Wikipédia est une immense encyclopédie alors que le Wiki est plutôt une encyclopédie spécialisée. L infrastructure LorExplor donne l accès à des données commerciales, mais aussi à des données ouvertes sur le web sémantique. La bibliothèque sémantique Dilib est là pour analyser comment répertorier ces ressources pour créer des serveurs d exploration. L objectif est de montrer comment créer de la recherche de connaissance structurée, sémantique en paramétrant des bases de données ou par des explorations de corpus. LorExplor a également une dimension de sensibilisation, de formation, d appropriation, de construction collective. Le réseau Wicri «Le réseau Wicri vise à donner des informations synthétiques aux acteurs de la recherche et de l innovation en privilégiant un déploiement thématique ou régional» 5. Il est composé de wiki thématiques, de wiki régionaux, de wiki institutionnels (spécialisés en fonction des besoins), de wiki associés, de wiki de services. Les Wiki régionaux comme celui créé au Maroc sont hébergés dans les pays concernés. Gérer l hétérogénéité Afin de gérer l hétérogénéité des wikis associés et de leurs moteurs de recherche, les différentes sources d information sont en TEI sur lequel l équipe fait de la curation pour essayer d améliorer les données. Ensuite des observations locales permettent d extraire des groupes de sous-corpus et d y appliquer des traitements qui demandent un nombre de données plus réduit. 3. Bibliothèque XML DILIB (lien API ISTEX) Dilib, historique Antériorité : TLF, bande magnétique = flux, performances (Mistral Système de recherche avec ontologie) ANL = Unix génie éditorial, génie logiciel, IA Geac = système ISO 2709 Ilib, INIST 91 Prototype spécialisé (fichiers Marc codés en SGML / lex) Normalisation approximative (non XML) 20 ans de retombées : MIRIAD, Stanalyst 5 http://ticri.univ-lorraine.fr/wicri.fr/index.php/istex_%28investissements_d%27avenir%29 44
Dilib V0.1, Loria 93 Préfiguration DOM (Sgml bien formé sans DTD) Bibliothèque de composants pour infométrie Dilib V0.2, Loria 98 -> Inist 2003 Cohabitation SGML, XML ; interfaces cgi Projets MedExplore, Biban, prototype Servist Dilib V0.5, UL 2013 Sxml + PHP + couplage Semantic MediaWiki + UTF8 Dilib est une bibliothèque de logiciels XML contenant des outils d analyse de corpus. Le moteur XML utilise les fonds ISTEX afin de classer les fichiers par ordre de pays et par ordre de fréquence décroissante. Le défi sur ISTEX est de manipuler dans un même flux des documents avec des DTD 6 multiples avec toutes les variantes syntaxiques et avec comme problématique de parvenir à dépasser le traitement du million de données. Cela est possible pour les métadonnées, mais pas pour le plein texte. Interface logiciel : API ISTEX 7 Les contraintes à partir de l API ISTEX sont : - Estimer la taille d un corpus - Première idée du contenu - Construction d un serveur d exploration de base - Paramétrage Obtenir zéro défaut au niveau du parsing 8 (textes non structurés) : le moindre défaut fait éclater le serveur Chaque éditeur amène des problèmes spécifiques : pour Elsevier les données en XML sont des textes intégraux et la chaine de traitement doit être repensée. Remarques sur l API ISTEX : Base de données de base de données : tout nouveau flux demande adaptation et celle-ci peut être conséquente. Jusqu à présent nous n avions pas construit de bases de données de bases de données, le défi est donc la création d outil de co-intégration de ces bases. 6 Document Type Definition (DTD) 7 PPT Projet LorExplor slide 20 8 Parsing = Analyse Syntaxique 45
Montée en compétences : Saisir l'opportunité d'istex pour monter en compétence sur le développement de services jusque-là sous-traités. Mais il faut également penser l'après ISTEX et savoir ce que deviendra la plateforme et les services une fois les CDD partis. Sans support logistique ni transfert de compétences, Dilib s arrête du jour au lendemain Curation des données : ISTEX nous donne l'opportunité de traiter les données de mauvaise qualité acquises auprès des éditeurs. Offrir aux communautés de l'esr français des données et métadonnées de bonne qualité dont les éditeurs ne disposent pas; 4. Wikis sémantiques et curation de données Sémantique MediaWiki (SMW) : Illustration PPT Projet LorExplor slide 26 Dans l exemple ci-dessus, pour naviguer sur une propriété on effectue une recherche à partir des pages utilisant l attribut «Est un affluent de» et on obtient le résultat : Illustration PPT Projet LorExplor Slide 27 46
L utilisation des liens permet de poser des requêtes sémantiques du type : {{#ask:[[est un affluent::{{ohio (rivière)]] format=ul sep=,_ intro=rivières citées sur Wicri Eau :_ }} Exemple de recherche sémantique sur «OHIO» ==Les affluents de l'ohio== (''liste calculée'') {{#ask:[[est un affluent::{{pagename}}]] format=ul sep=,_ intro=rivières citées sur Wicri Eau :_ }} ==Les villes traversées par l'ohio== (''liste calculée'') {{#ask:[[sur le cours d'eau::{{pagename}}]] format=ul sep=,_ intro=villes citées sur Wicri Eau :_ }} Curation des données : Illustrations PPT Projet LorExplor - Slide 29 La curation des données permet par exemple d identifier les pays dans un contexte hétérogène. La curation peut se faire sur les ISO (Pascal), les adresses postales (Springer, PubMed), ou bien encore sur des régions. Enrichissements thématiques : L objectif à moyen terme pour l enrichissement des corpus ISTEX pourrait être la jointure avec les bases Pascal et Francis, PubMed via les références. 47
Exemples de références Wicri/LorExplor : Dublin Core o DC 2010 Pittsburgh 40.000 visites o Article en anglais 35.000 visites H2PTM avec Paris 8, CREM o Actes H2PTM (environ 70 -> 300 articles) o Observatoire des recherches sur l hypertexte (wikis sémantiques) o Terminologie, bibliographies, 2000 -> 10000 termes 5000 ->20000 relations o Serveur d exploration 10.000 -> 20.000) o Bouquet envisageable : CIDE, VSST, ISKO + revue IHEST : wiki France Brésil / observatoire / exploration Humanités numériques sur Nancy o (Chanson de Roland, chartes ) Les mots de l agronomie (INRA) Ouverture Grande Région Matériaux TP Master Université Lorraine, Paris 8 5. Conclusion : apprendre le numérique en construisant LorExplor permet à chaque étudiant de choisir un sujet pour lequel : il teste des requêtes, construit un serveur d exploration, améliore sa requête, analyse les acteurs connus et inconnus, introduit des éléments de curation. Cette démarche est très formatrice pour les étudiants et leur donne du recul sur la formulation d une requête. Elle est également très riche pour LorExplor et ISTEX car elle permet de traiter une variété de thématiques, de faire émerger les problèmes (sur l API, DILIB, ) et d observer les pratiques de recherche. La formation sur LorExplor permet d apporter aux étudiants un panorama potentiellement complet sur : La culture scientifique et technique L édition numérique actuelle et ancienne La terminologie L exploration de corpus de métadonnées Le passage au texte intégral Les ressources (Pascal, ISTEX, ) Pour cela il faudrait mettre en place une infrastructure pour la sensibilisation et la formation : Formation : leçon TP et mutation technologique Ensemble éditorial sur l Ingénierie de la connaissance Banc d essai pour des expérimentations Support d environ 3 personnes (IR, IE, IT) : 50% logistique, 50% formation et expérimentation. 48
ISTEX est révélateur du gap à combler en matière de formation sur le numérique. LorExplor offre un démonstrateur propositionnel qui pourrait permettre de sensibiliser les étudiants (collèges, lycées, universités) et de proposer des formations de base et/ou ensuite des formations sur l Ingénierie des connaissances. Le modèle Wikipédia de LorExplor permet un apprentissage par la construction collective de la connaissance : un thésard pouvant produite 2 à 3 pages avec 5 à 10 références. Cette démarche de sensibilisation et de formation pourrait être étendue au niveau européen et francophone. Si on augmente les moyens ISTEX et qu on atteint 1000 wiki cela permettrait d avoir des millions et des millions de données et ainsi de construire peut-être un projet Big Data. 49
VII- Projet ISTEX-R présenté par Yannick Toussaint et Pascal CUXAC (11h15-12h15) Plan 1. Membres du projet 2. Objectifs 3. Schéma général du projet 4. Extraction de connaissance versus recherche d information 5. Prétraitements des textes (WPO) 6. Analyse diachronique et classification automatique 7. Conclusion et perspectives 1. Membres du projet ATILF - Evelyne Jacquey, Laurence Kister, Bertrand Gaiffe, Etienne Petitjean et Sandrine Ollinger LORIA - Equipe ORPAILLEUR : Yannick Toussaint et Equipe Synalp: Jean-Charles Lamirel, Christophe Cerisara INIST : Service recherche-développement et expérimentation (SRDE) : Sabine Barreaux, Dominique Besagni, Pascal Cuxac, Claire François, Ivana Roche Coordinateur : Yannick Toussaint (LORIA) 2. Objectifs ISTEX-R est un projet de recherche appliquée pour intégrer et mettre à disposition des outils d'accès au contenu, opérer sur des textes intégraux et construire des connaissances et les capitaliser essentiellement sur des domaines scientifiques ou techniques ainsi que la construction d un démonstrateur. 50
Au départ l'équipe est partie de l'hypothèse que l'utilisateur dispose d'un certain nombre d'outils avancés d'accès à l'ist : collecte et consolidation de corpus, structuration à faible cout d un grand volume de textes, sélection de corpus de taille raisonnable. L'objectif d'istex-r est d'aller vers une analyse plus fine du contenu pour la conceptualisation de domaines de recherche. Construire des concepts, examiner les notions à l intérieur du texte et donner des outils pour consulter et naviguer dans cette conceptualisation. Cette analyse plus fine pourrait permettre la caractérisation de l évolution des recherches et des connaissances dans le temps. L évolution apparait de façon violente ou par des glissements plus subtils et c est par des constructions de cartes diachroniques que l on peut examiner ces glissements. 3. Schéma général du projet Illustration PPT Projet ISTEX-R Slide 7 WP0 - Prétraitement des textes (équipe ATILF LORIA INIST. Coordinatrice : Evelyne Jacquey) Prétraitements pour la représentation des articles en XML TEI et l enrichissement linguistique par annotations des articles (annotations morphosyntaxiques, syntaxiques, terminologiques). Les problématiques rencontrées sont l absence de structuration, de mise en forme et d annotations. 51
WP1 - Analyses et cartographies diachroniques (Equipes LORIA, INIST. Coordinateur : Jean- Charles Lamirel) Diachronie : Utilisation d'une méthode de classification automatique sur des données associées des périodes de temps successives, et sur l'étude de l'évolution des résultats de classification obtenus. Clustering incrémental Visualisation des résultats des approches incrémentales WP2 Extraction de connaissances à partir des textes Méthodes issues du traitement automatique de la langue Fouille de données Représentation de connaissances Partir de l extraction de termes désambigüisés et les utiliser pour l indexation du texte intégral Construire des concepts associés aux termes Etudier la diachronie des termes (lien entre extraction de connaissances, analyses de cartographies diachroniques). 4. Extraction de connaissance versus recherche d information Recherche d information : fournir un résultat à une requête d un utilisateur, utilisation de données classées par mots clés pondérés, distinction de document ; Extraction de connaissance : analyse du contenu, extrait des relations entre les objets ; Le besoin de synthèse est important pour acquérir des connaissances, les mettre à jour, et lutter contre un regard trop pointu qui a besoin d être replacé dans un contexte. Projection terminologique (metamap) : Objectif : rechercher dans un texte l existence d une terminologie. Quand on cherche une terminologie il reste de nombreux mots, de nombreux concepts qui ne sont pas traités, l idée est donc de s intéresser aux termes et à leur contexte. Exemple sur le bilan des connaissances sur la maladie de Duchenne élaboré manuellement après une lecture systématique d'environ 150 articles scientifiques alors que plus de 4000 articles sont répertoriés dans PubMed sur cette maladie. 52
PPT Projet ISTEX-R Slide 17 PPT - PPT Projet ISTEX-R Slide 18 53
Dans ISTEX, l équipe a dans un premier temps travaillé sur des corpus constitués dans le cadre d autres projets assez proches des problématiques qu ISTEX-R souhaite traiter dans ISTEX. Le thème choisi est le vieillissement. Ce thème représente une difficulté supplémentaire car il n appartient pas seulement au domaine du médical, mais est pluri domaines. Ce thème a été sélectionné car de nombreux chercheurs de la communauté scientifique présente à Nancy s intéressent à celui-ci. Lorsque l équipe est passée au traitement sur les corpus ISTEX, elle a fait le choix de sélectionner une large période temporelle sur les corpus de plusieurs éditeurs. 5. Prétraitement des textes (WPO) Affichage des candidats (puces vertes) Des expressions figées et semi-figées de la langue du lexique transdisciplinaire (triangles oranges) ou non (carrés bleus). Méthode d extraction de connaissance : Illustration PPT Projet ISTEX-R Slide 22 Le processus d extraction de connaissance doit être itératif et interactif. Lors des premiers traitements, les résultats seront forcément de mauvaise qualité car les corpus sélectionnés sont encore inconnus. La classification (prétraitement) permet ensuite d améliorer la qualité. 54
Les méthodes utilisées sont : L extraction de motifs Réduction du nombre de motifs Validation de l'occurrence du terme "argument" o Motif positif : [sdrt, être, argument] o Motif négatif : [trancher, pas, ne, argument, permettre, décisif, position, avoir] Extraction de motifs séquentiels pour l'identification de relations. L analyse formelle de concept pour la conceptualisation du domaine : avec cette méthode on s intéresse aux séquences de mots pour faire ressortir les interactions entre deux entités. Le paradigme de l extraction d information est un problème récurrent en fouille de données : on part d un ensemble de données à partir desquelles on produit de nouvelles données (Contenus générés par les utilisateurs) que l on peut par la suite fouiller à l aide d outils. À partir de l extraction des ressources des données telles que les objets, des listes de propriétés, des relations, on peut organiser les propriétés dans des hiérarchies, travailler sur des graphes et construire un treillis. Pour le projet ISTEX-R le prétraitement est effectué sous GATE 9 (similaire à UIMA) qui permet de produire des séquences de traitement en cascade. GATE est un outil conçu pour des traitements de linguistique. Exemple : recherche de termes sur la maladie d Alzheimer puis annotation syntaxique (fouille de texte sous forme de graphe de dépendance) puis mise en couleur de relation entre les entités. Illustration PPT Projet ISTEX-R Slide 28 9 GATE - General Architecture for Text Engineering - https://gate.ac.uk/ 55
Une représentation sous forme d arbres et sous arbres permet de chercher des relations entre deux entités dans une phrase et d extraire des patrons, des motifs, communs à différentes phrases qui contiennent ce genre d interaction (Patron syntaxique). Le travail sur arbre syntaxique n est pas vraiment performant car il demande de faire des réductions. De plus travailler sur des arbres est assez couteux et se transforme le plus généralement en recherches de chaines. Illustration PPT Projet ISTEX-R Slide 32 Construction de treillis de concepts : Les treillis sont des objets identifiés, des propriétés isolées dans des textes, qui possèdent des liens et permettent de construire des concepts à partir de tables linéaires et qui donnent l ensemble des propriétés partagées par l ensemble des communautés qui la possède. Le bruit fait exploser la taille du treillis. Un treillis très gros n est pas forcément un problème. S il est large ce n est pas gênant car une tranche sera suffisante pour avoir un intérêt. Mais s il est grand et large le danger est la dispersion. La stabilité est une très bonne mesure pour résister au bruit. Dans un treillis on peut faire un relationnel (objets complexes en AFC). La définition des classes induit la nature des relations avec d autres classes. On part de relation individuelle et on crée des relations entre eux (un tel résiste à un tel, ceci résiste à cela). Illustration PPT Projet ISTEX-R slide 34 56
6. Analyse diachronique et classification automatique L'analyse des données textuelles nécessite de s'adapter aux nouvelles formes d'information disponibles en ligne. Ceci implique de prendre en compte des techniques qui supportent : les données volumineuses, éparses et fortement multidimensionnelles le traitement des données rares, similaires et/ou déséquilibrées le traitement des données changeantes les interactions multiples entre les sources. Une des tâches principales de l'analyse est la classification / discrimination des données. Les méthodes, les distances classiques s'adaptent mal à ces contraintes. Les solutions apportées sont de réviser la notion de distance classique en examinant de meilleurs compromis entre la généralité et la discrimination et de chercher des solutions alternatives en s'inspirant du domaine de la recherche d'information théorie de maximisation de l'étiquetage. Clustering et maximisation d étiquetage Le clustering permet : d'organiser l'information en thématique si celles-ci ne sont pas présentes dans le corpus (ou ne sont pas construites selon les mêmes normes) de simplifier la visualisation des résultats de recherche l'analyse des changements de sujets dans le cas d'une approche incrémentale. Le clustering et la maximisation d étiquetage sur une sélection pertinente de documents sur les corpus permettent d obtenir des graphes qui aident à observer les termes qui se distinguent et les liens. Résumer un document sous forme de graphe permet une représentation vectorielle du document plein texte qui peut être injecté dans le clustering. Illustration PPT Projet ISTEX-R Slide 46 57
7. Conclusion et perspectives Une nouvelle approche statistique pour l'analyse des textes basée sur la maximisation d'étiquetage répond aux contraintes liées aux traitements des informations textuelles en ligne, volumineuses, changeantes et/ou déséquilibrées. Elle s'applique à l'analyse supervisée tout comme à l'analyse non supervisée incrémentale. Cette nouvelle approche permet de nombreuses applications potentielles dans le domaine de l'analyse diachronique et l'analyse des flux d'information textuelle comme le projet ISTEX-R. Illustration PPT Projet ISTEX-R Slide 57 Le développement de la méthode diachronique implémentée pour une application sur le plein texte et pour obtenir une visualisation des corpus assez large pourrait être un point de collaboration avec le projet CILLEX. Une visualisation statique puis incrémentale sera intéressante si on s intéresse à d autres domaines de recherche (hors vieillissement). L objectif final est de permettre la visualisation des résultats en clustering et les interactions avec l utilisateur. Il existe encore par ailleurs de nombreux problèmes non résolus : autour des anaphores, des corpus pluri-domaines, pour une méthodologie dans l approche qui va permettre robustesse et précision notamment sur le plein texte. 58
Discussion TEI et segmentation des textes ISTEX Pour le moment il n est pas prévu d utiliser la TEI pour la segmentation des textes ISTEX. Tous les textes en XML natifs structurés seront reportés dans le TEI, mais pour les textes pleins non structurés il n est pas question pour le moment de les restructurer. Le plein texte structuré en XML ne représente qu un pourcentage très faible de documents ISTEX il apparait donc difficile de prévoir une segmentation TEI sur des textes non structurés. 59
VIII - Bilan du séminaire par Jean-Marie PIERREL et Renaud FABRE Qualité des données et besoin de curation Le besoin d améliorer les données et métadonnées d ISTEX est prédominent dans les travaux menés pour le développement des services de la plateforme. Pour les métadonnées nous pouvons envisager deux pistes de solution : La collaboration avec le Hub de métadonnées à l ABES pour l amélioration des métadonnées ISTEX Les traitements menés dans le cadre des projets d enrichissements. Pour le plein texte, et en particulier pour l indexation, les données ISTEX acquises auprès des éditeurs sont de pauvre qualité. Une discussion a été entamée au niveau du Comité Exécutif ISTEX et du Comité Technique pour déterminer s il convient de mettre l accent sur la curation des documents ISTEX dont l océrisation des textes initiaux était rapide et mauvaise. Lors d une réunion le 4 mars 2015, le Comité Technique a montré que le cout d une ré-océrisation s élèverait autour de 2 millions d euros. Il est donc essentiel d évaluer les priorités du projet et de déterminer s il serait nécessaire de sacrifier 2 millions d euros d achat de ressource pour garantir la curation des données. En préparation de l argumentaire pour un ISTEX 2 centré sur le développement des services, les équipes doivent être en mesure de travailler sur des sous-corpus de bonne qualité pour démontrer les travaux pouvant être menés sur le plein texte lorsque celui-ci est bien formé. La décision d une nouvelle répartition des crédits nécessite un accord des financeurs, ANR et CGI. Ce point sera présenté à l ANR lors de la réunion annuelle du projet le 9 avril 2015. Co-intégration des différents projets Il serait intéressant que les 3 projets d enrichissement fassent remonter au fur et à mesure au niveau des gestionnaires de la plateforme les résultats obtenus en fournissant l identifiant des documents traités, la liste des termes, des entités nommées qui peuvent être récupérés pour qu on puisse assez vite offrir aux autres projets une exploitation possible de ces résultats même s ils ne sont qu intermédiaires. Le livrable pour les projets d enrichissement est de transmettre sous une forme XML bien formée le plein texte pour permettre ensuite avec des feuilles de style de le retransformer dans un format défini par l équipe technique. Par ailleurs, une collaboration entre le projet CILLEX et ISTEX-SNU pourrait permettre d intégrer dans les widgets des outils de classification. À terme, il serait intéressant d installer une machine virtuelle pour l intégration des résultats des différents projets. Une machine sous laquelle les dernières versions des projets pourraient être déposées afin de pouvoir faire des tests d appareillements sur des versions stabilisées. 60
Chantiers d usages thématiques Pour l appel à projets «chantiers d usages thématiques» qui sera lancé prochainement, Jean-Marie PIERREL invite les équipes projets ISTEX à motiver d autres équipes proches d eux pour éventuellement travailler sur des propositions construites de chantiers d usages dans une thématique particulière en partenariat avec les projets déjà en cours. Si la prolongation au 31 aout 2017 est acceptée, ces projets devront concrètement être réalisés pour la fin 2015 ou au plus tard au cours de l année 2016 afin de pouvoir s appuyer sur les résultats déjà visibles pour argumenter la demande de financement pour un ISTEX 2. Le Comité Exécutif a besoin d éléments concrets d indicateurs sur ISTEX. Ce qui a été montré ce jour prouve que des recherches intéressantes sont menées sur les corpus ISTEX. Ces recherches doivent être publiées. Jean-Marie PIERREL invite les équipes projets à publier sur leurs travaux et indiquer la participation de l aide ISTEX ANR-10-IDEX-0004-02 avec envoi des références des publications et de la publication au format plein texte au Comité Exécutif et Comité Technique ISTEX. Évaluation d ISTEX par le CGI fin 2015 Renaud FABRE indique que le projet ISTEX sera évalué par le CGI à la fin de l année 2015. Il faut conserver l idée que même si nous obtenons un nouveau prolongement pour une fin de projet au 31 aout 2017, il faudra dès la fin de cette année être en mesure de montrer des premiers résultats. Il faut donc prioriser les travaux d enrichissements menés sur les corpus ISTEX. L objectif est une ouverture des services ISTEX à l ensemble de l ESR français pour la fin du projet avec en amont des tests d usages sur un système fermé ou semi-ouvert pour des établissements candidats à mettre en place dès que possible. Organisation du prochain séminaire technique sur les services Les équipes projets sont invitées à se rencontrer régulièrement selon leurs intérêts de collaborations. Un séminaire technique sur les services ISTEX, sur le même format que celui-ci, sera organisé à la fin 2015 début 2016 pour un point sur les avancés de l année en cours. Réorientation des moyens vers les services ISTEX Le Comité Exécutif a déjà réorienté des moyens au début de cette année vers les projets de services ISTEX (720 000 : 400 000 pour les chantiers d usage, 120 000 pour les aspects enrichissements, 200 000 pour les SVA). La fin du projet est à ce jour prévu pour le 30 avril 2016 et le Comité Exécutif est en attente d une validation par l ANR d une prolongation jusqu au 31 aout 2017. L Université de Lorraine et l Inist proposeront une nouvelle affectation de moyens vers les services suite à ce nouveau prolongement, mais devront pouvoir s appuyer sur une remontée des besoins de chacune des équipes projet avec un prévisionnel jusqu au 31 aout 2017. 61
ISTEX 2 Jean-Marie PIERREL indique qu il prendra sa retraite au 1 er octobre 2016, il envisage de demander un éméritat pour continuer à suivre les projets ISTEX et ORTOLANG. L Université de Lorraine, l Inist et les équipes projets réfléchiront ensemble courant 2016 aux bases d un projet unifié pour la proposition d un ISTEX 2 orienté vers les services de la plateforme. 62