Séminaire technique services ISTEX

Dimension: px
Commencer à balayer dès la page:

Download "Séminaire technique services ISTEX"

Transcription

1 Séminaire technique services ISTEX À l Inist-CNRS, Vandœuvre-lès-Nancy, les 18 et 19 mars 2015 ANR-10-IDEX

2 Mercredi 18 mars 2015 Participants présentiel et audio/visioconférence N NOM PRENOM Etablissement 1 ANDRE Francis CNRS DIST 2 AUTARD Charlotte CNRS DIST 3 BLONDELLE Frédérique ABES 4 CARON Etienne CNRS Inist 5 CUXAC Pascal CNRS Inist 6 DAILLE Béatrice LINA Université de Nantes 7 DAUNOIS Thierry Université de Lorraine 8 DUCLOY Jacques Université de Lorraine 9 EL KHOURI Laurence CNRS DIST 10 FABRE Renaud CNRS DIST 11 FRANCOIS Claire CNRS Inist 12 GAUME Bruno CLLE Toulouse 13 GUIBON Gaël CNRS Inist 14 GULLY Stéphane CNRS Inist 15 GREGORIO Stéphanie CNRS Inist 16 JOLY Monique COUPERIN 17 LIZEE Marie-Pascale MENESR 18 LOTH Romain CNRS Inist 19 MAHUT Valérie CNRS Inist 20 MARCHAL Julien Université de Lorraine 21 MAUREL Denis LI Université de Tours 22 MORALE Enza CNRS Inist 23 NAVARRO Emmanuel CLLE Toulouse 24 NICOLAS Yann ABES 25 NIEDERLENDER Claude CNRS Inist 26 PARENTIN Jean-Joffrey CNRS Inist 27 PAUL William CNRS Inist 28 PERRIN Stanislas CNRS Inist 29 PETIT-JEAN Etienne Université de Lorraine 30 PIERREL Jean-Marie Université de Lorraine 31 PORQUET Thomas COUPERIN 32 POUYLLAU Stéphane CNRS Huma Num 33 SCHMITT Laurent CNRS Inist 34 SICOT Julien Université de Rennes 35 TEBBAKH Ali Université de Lorraine 36 TOUVENIN Nicolas CNRS Inist 37 TOUSSAINT Yannick Université de Lorraine 1

3 Contenu Mercredi 18 mars Accueil par Renaud Fabre, chef de projet ISTEX : rappel des objectifs généraux d ISTEX (14h-14h15)... 4 Présentation par Jean-Marie PIERREL des objectifs de ce séminaire technique et présentation générale des services à valeurs ajoutées (14h15-14h45)... 5 I- Projets d enrichissement du plein texte des ressources ISTEX par Romain LOTH (14h45-16h)... 7 II- Enrichissement de textes scientifiques par balisage des entités nommées à l aide de cascades de graphes par Denis MAUREL et Enza MORALE (15h30-16h15) III- Extraction terminologique dans ISTEX Béatrice DAILLE et Gaël GUIBON IV- Le projet ISTEX-SNU d intégration d ISTEX dans les Services Numériques des Etablissements présenté par Stéphane GULLY Jeudi 19 mars V- Projet CILLEX présenté par Bruno GAUME et Emmanuel NAVARRO VI- Projet LorExplor présenté par Jacques DUCLOY VII- Projet ISTEX-R présenté par Yannick Toussaint et Pascal CUXAC VIII - Bilan du séminaire par Jean-Marie PIERREL et Renaud FABRE

4 3

5 Accueil par Renaud Fabre, chef de projet ISTEX : rappel des objectifs généraux d ISTEX (14h- 14h15) A l initiative scientifique et sous la direction du Professeur Jean-Marie PIERREL (Université de Lorraine), le projet ISTEX a entrepris le développement d une démarche radicalement nouvelle en matière d Information Scientifique et Technique. Jusqu ici en effet la consultation des archives d IST s effectuait sur des corpus circonscrits à un nombre restreint de bases de données, explorées au moyen d une sélection limitée d outils d analyses numériques. Avec le projet ISTEX le changement d échelle et d ambition est spectaculaire : les ressources numériques proviennent de toute la science et de tous les éditeurs ou producteurs de bases de données d une part, d autre part les services d analyse visent à explorer toutes les dimensions de ces corpus. L ambition générale est ainsi considérablement étendue puisque les services développés par Jean-Marie PIERREL et par les équipes universitaires qui l entourent, couvrent l intégralité des questions qu un chercheur peut poser aux résultats de la science. Les actes de ce séminaire permettront de découvrir en effet qu on est loin, avec les démarches qu initient les équipes universitaires en charge des développements d ISTEX, de la simple analyse terminologique : les outils développés pour ISTEX permettent d accompagner la réflexion du chercheur, sa quête de sens. Au nom du CNRS, je remercie mes collègues universitaires qui ont à cœur d écrire cette nouvelle page de l histoire de la science numérique qu est le projet ISTEX. L Académie des Sciences accompagne notre travail et a accepté le principe de décerner à partir de 2016 un prix IST spécifique qui couronnera les avancées scientifiques indispensables au développement de l IST numérique. En 2017, au moment de la livraison du projet ISTEX à l Etat, je forme le vœu que cet Investissement d Avenir exceptionnel puisse pérenniser les avancées constatées lors de ce séminaire, au moyen d un Institut universitaire spécialisé en IST qui soit, comme aujourd hui, riche de toutes ces synergies avec l Inist. Renaud FABRE Professeur des Universités Chef du Projet ISTEX Directeur de l Information Scientifique et Technique, CNRS 4

6 Présentation par Jean-Marie PIERREL des objectifs de ce séminaire technique et présentation générale des services à valeurs ajoutées (14h15-14h45) Les objectifs des projets lancés dans le cadre d ISTEX sont : De permettre au chercheur des interrogations innovantes sur du plein texte ; De permettre la production de synthèse documentaire pour, par exemple, aider les gestionnaires de recherche à prendre des décisions stratégiques ; D exploiter les corpus ISTEX comme des corpus de base pour la recherche Exemple d exploitation de données : Sélection de sous-corpus Caractérisation Ré-indexation Les objectifs de ces deux journées de séminaire sont : De faire le point sur les projets en cours De permettre aux contributeurs de prendre connaissance de ces projets De créer un écosystème entre les divers projets De préparer la seconde phase d ISTEX Parmi les services développés pour ISTEX on distingue trois grands types de projets : 1. Les services de base (travaux lancés en septembre 2014) Autour de trois thématiques : Extraction terminologique, recherche de termes et de leurs variantes projet mené par le LINA de Nantes sous la direction de Béatrice DAILLE ; Recherche d entités nommées projet mené par le LI de Tours sous la direction de Denis MAUREL ; Balisage des champs bibliographiques projet mené par l équipe Recherche et Développement de l Inist en liaison avec des équipes externes pour des apports d expertises ; 2. Les services à valeurs ajoutées Le projet CILLEX mené par le CLLE/ERSS de Toulouse sous la direction de Bruno GAUME : développement d un moteur de réponse offrant des outils de classification automatique. Le projet ISTEX-R mené par le LORIA, l ATILF et l Inist sous la direction de Yannick TOUSSAINT : caractérisation de l évolution des recherches et des connaissances dans le temps grâce à la construction de cartes diachroniques ; ce projet permet non seulement de réaliser des services, mais également de créer une dynamique de recherche et de développement au sein des différents établissements Lorrains autour de la plateforme ISTEX. 5

7 Le projet LorExplor mené par l Université de Lorraine sous la direction de Jacques DUCLOY : développement d une bibliothèque OpenSource de composants XML d exploitation des corpus ISTEX ; à titre d exemple parmi les applications potentielles on peut noter l analyse des liens entre zones géographiques et l identification des acteurs d une thématique scientifique pour l aide au pilotage scientifique. 3. L Intégration d ISTEX dans les systèmes numériques des établissements Le projet ISTEX-SNU qui a débuté par un stage d immersion de Stéphane GULLY, Inist, à l Université de Lorraine, est mené actuellement sous la direction de Julien MARCHAL : fonctions de recherche, d accès, d interfaces qui relèvent plus de l IST classique, mais qui sont très importantes pour faire connaitre les corpus ISTEX ; L avenir pour ces projets : Une prolongation du projet ISTEX jusqu au 31 avril 2016 a été actée en mars L ANR a également donné son accord de principe et la démarche est en cours pour une prolongation jusqu au 31 aout 2017 ; Des efforts supplémentaires sont en discussion au sein du Comité Technique et avec le Comité exécutif d ISTEX sur le prétraitement et la normalisation des données textuelles ; Un abondement financier est prévu sur les projets de services de base et services à valeurs ajoutées ; Un appel à projets pour des chantiers thématiques d usages sera lancé prochainement. Pour les chantiers thématiques d usages, l appel à projets a été validé par le Comité Exécutif ISTEX. L objectif de cet appel est de pouvoir sélectionner 8 à 10 projets pour un financement d une année. Ces projets pourraient interagir avec les services à valeur ajoutée déjà en place. Discussion Rapport sur la qualité des données et métadonnées ISTEX et le besoin de curation Stéphane POUYLLAU, président du Comité Technique ISTEX, indique que, suite à la dernière réunion du Comité Technique le 4 mars 2015, une note est en cours de rédaction sur la question de la qualité des données et métadonnées acquises dans le cadre d ISTEX et sur le besoin de curation. Cette note sera remise au Comité Exécutif ISTEX pour permettre une réflexion sur les besoins de prétraitement et de normalisation des données textuelles et des métadonnées. Calendrier du lancement des chantiers d usage L appel à projets sera lancé courant L objectif est de mettre en place ces projets au cours du dernier trimestre 2015 pour qu ils puissent se développer au cours de l année 2016 avec des premiers résultats au cours du 1 er semestre 2017 (et dernier d ISTEX). Ce calendrier doit permettre de mettre en valeur les apports de ces projets pour éventuellement motiver les tutelles vers la mise en place d un ISTEX 2 centré sur les usages. 6

8 I- Projets d enrichissement du plein texte des ressources ISTEX par Romain LOTH (14h45-16h) Plan de la présentation 1. Introduction : problématique, réussites globales, chronologie 2. «Face aux données» (aperçu de la base) : l'objet documentaire, les PDFs, les facettes 3. Explication de la méthodologie : choix des méthodes probabilistes, de l'outil GROBID et du protocole 4. «Cycles qualité» : évaluations de l'extraction sur échantillons, données d'entraînement 5. Tests de montée en charge : parallélisassions, choix du périmètre à enrichir, résultats 6. Perspectives 1. Introduction Objectifs de l axe d enrichissement «citations» Structurer les citations bibliographiques : afin d enrichir les textes aux notices pauvres. L idéal serait de rendre les références de fin d article «cliquables» ; Annoter les citations : dans tout type de texte brut afin de les intégrer aux index, à la navigation et à la recherche documentaire. Ces citations annotées pourraient être transmises aux observatoires (bibliométrie, veille thématique, ) aux analystes (classification documentaire, terminologie, ) ; Créer un index de citations. Enrichir les articles Extraire des métadonnées : le texte, plus opaque que la notice, surtout au format pdf, demande un traitement plus important pour la machine, mais recèle une foule d information. En utilisant des outils déjà existants il est possible de traiter le texte par l intégration de code (coopération avec les partenaires BILBO, GROBID ). 7

9 Il est possible de s inscrire à terme dans la chaîne de traitement loadistex pour traiter des centaines de milliers de documents par jour et utiliser un service «enrichissement refbib 1» en entrée de lot. L apprentissage sur les données permet d améliorer les baliseurs automatiques (5 millions de documents déjà plus ou moins annotés sur ISTEX). Réussites principales : Création d un environnement d essai : tri détaillé des erreurs, croisement par agrégats, rapport automatique, rangement par corpus de texte. Qualité - cycle d amélioration (préparer un format d entrainement) : méthodologie en trois étapes : sélection d un sous-corpus entrainement test des refbibs sorties. Quantité «essai transformé» sur 2,4 millions de documents (grâce à GROBID 2 ) : mise en œuvre des modèles de l étape précédente, montée en charge testée à plusieurs reprises, 17.5 millions de refbibs extraites, classées selon leurs sources et balisées en 3 jours. 2. «Face aux données» (aperçu de la base) Globalement on peut constater qu un même objet documentaire en termes d IST équivaut à plusieurs formats qui s alignent plutôt bien même s il reste toujours une petite quantité de documents hors format. L objet documentaire Illustration PPT - Projets d enrichissement du plein texte des ressources ISTEX slide 8 1 Refbibs : références bibliographiques 2 8

10 Du PDF au format de production Les formats de stockage en amont : Du PDF : fac-similé visuel problématique pour des exploitations de type «fouille de données» : format visuel plutôt que format logique. Du texte brut : format.rw ou.txt Des xmls natifs : 5 dtd traitées, n au final Les formats projet : Format TEI principal : évaluation et sorties Format GROBID : 3 mini TEI dédiées à préparer Les formats de mise en ligne : Métadonnées : accessible par des facettes, des liens, des tags. Données : texte mis en forme avec ses «couches». 3. Explication de la méthodologie Outil GROBID (Patrice LOPEZ INRIA) L outil GROBID a été sélectionné pour plusieurs critères : Une expérience de montée en charge ; L appui sur des librairies connues ; L utilisation des CRF: Wapiti (par défaut et le plus performant) et CRF ++ (plus historique). 4. «Cycles qualité» : évaluations de l'extraction sur échantillons, données d'entraînement Préparation des corpus d entraînement Pour composer le corpus d'entrainement automatique on utilise les données déjà annotées (notices riches). Puis on développe un script de "ragréage" avec une fusion des informations typées avec le texte. Illustration PPT Projets d enrichissement du plein texte des ressources ISTEX Slide 14 9

11 Par ailleurs, la diversité des formats fait que l'information structurée des notices ne préserve pas tout : disparition des virgules, des tirets, des parenthèses,... C'est à dire les détails typiques fondamentaux pour reconnaitre les champs d'un texte. Les cycles qualité ont été expérimentés sur le corpus ELSEVIER et ses 2,4 millions de notices très pauvres. Sur les 11 modèles CRF "en cascade" 5 sont utilisés pour les refbibs. Dans un premier temps on détermine la zone des refbibs, modèle «segmentation», puis pour chaque ligne s'il s'agit d'une nouvelle refbib on utilise un modèle "référence-segmenter" et enfin on détermine dans chaque refbib les champs majeurs à partir d un modèle "citation". Chaque modèle a besoin de 3 éléments : Une séquence d'étiquettes ad hoc (pseudo TEI) Un flux textuel observable aligné sur cette séquence Un modèle de crible pour décrire le flux en termes de traits. 2,4 millions de documents ISTEX ont été traités : documents possédaient des refbibs les autres n en possédaient pas. 1 er bilan de montée en charge : il reste encore beaucoup de travail sur les 17,5M de documents déjà chargés sur la plateforme. Il faut une optimisation de l usage de la mémoire et des accès au disque. Aujourd hui, il est possible de traiter 9 documents par seconde (En avril 2014, le temps de traitement était d un document par seconde). Pour la suite on peut envisager une meilleure maitrise du texte en amont, la poursuite des cycles qualité avec plus de corpus d entrainement. En conclusion : Romain LOTH a tenté de suivre les bonnes pratiques, de participer aux réflexions sur l indexation avancée et a obtenu des résultats à grande échelle. Mais tout cela prend du temps si on souhaite pouvoir avoir la quantité ET la qualité. Discussion Dé-doublonnement des notices Il y a une transformation du texte opaque en texte structuré et tous les corpus ne sont pas toujours structurés au même format donc il y a du dé-doublonnage à effectuer mais l équipe enrichissement ne s est pas encore préoccupée de cette question. Normalisation Renaud FABRE souhaitait savoir si l équipe a envisagé d enregistrer les démarches de circulation des chercheurs pour qu il soit possible d enregistrer le parcours d un chercheur dans sa circulation documentaire afin de répondre à la question «comment cherchent les chercheurs?». 10

12 Il est possible d envisager cela avec les refbibs, mais habituellement la démarche du chercheur n est pas d aller consulter les ressources les plus citées par les chercheurs, mais d aller chercher les ressources qu il connait. Il faut faire attention de ne pas enfermer les chercheurs en les guidant trop, en les enfermant sur des chemins prédéterminés. Possibilité d un renvoi sur la base d ISTEX à partir des citations Revenir sur la base ISTEX à partir de la citation est possible, si elle existe dans la base, grâce à des liens hypertextes sur une référence ou un élément cliquable. Cela fait partie des usages qui pourraient être mis en place sur la plateforme : renvoi entre citations, citations d auteur, cartographie de la recherche Hub de métadonnées Parallèlement aux projets services de base développés par les équipes citées précédemment, un projet débute à l ABES, mené par l équipe du Hub de métadonnées, pour l identification des auteurs et de la structure des métadonnées ISTEX. 11

13 II- Enrichissement de textes scientifiques par balisage des entités nommées à l aide de cascades de graphes par Denis MAUREL et Enza MORALE (15h30-16h15) Plan de la présentation 1. Introduction 2. Enrichir les textes par les entités nommées 3. CasSys Un système de passage en cascade de graphes Unitex 4. La collaboration LI-Inist 5. Quel résultat pour la plateforme ISTEX? 1. Introduction «Quelques remarques» Aujourd hui les noms des universités, des centres de recherche, des laboratoires ne figurent pas dans les mots-clés, même si les affiliations aux auteurs sont dans les signatures. Il en va de même pour les noms de projets qui apparaissent parfois en notes ou en remerciements, le lieu où est réalisée une expérience qui n'est pas forcément l'adresse du laboratoire, les dates des expériences qui ne correspondent pas à celle de parution de l'article, etc. Les institutions, lieux, dates sont ce que l on appelle les «entités nommées». L objectif du projet mené sur ISTEX par le LI de Tours, en collaboration avec l Inist est d enrichir les documents de la production scientifique par la détection et le balisage de ces entités nommées afin de permettre leur indexation et leur recherche dans les textes. Celles-ci sont souvent repérables à partir du contexte local (mots introducteurs, mots qui peuvent suivre l entité). 2. Enrichir les textes par les entités nommées Pour le projet ISTEX, 7 balises d entités nommées conformes à la TEI ont été sélectionnées : Personnes 12

14 Lieux Organisations Projets financés Date URL Exemple de balisage dans le texte : «Cette étude a été réalisée grâce à l'aide d'agira (Alsace Gérontologie Information Recherche) et des médecins de la Société de gérontologie de l'est» 3 Le balisage des entités nommées donne : «Cette étude a été réalisée grâce à l'aide d' <orgname type="projet financé">agira </orgname> (<orgname type="projet financé">alsace Gérontologie Information Recherche</orgName>) et des médecins de la <orgname>société de gérontologie de l'est</orgname>» 3. CasSys : un système de passage en cascade de graphes Unitex CasSys est un système de passage en cascade de graphes dans la plateforme de traitement Unitex utilisée par le LI de Tours. Le projet CasSys a débuté en 2002 avec la préparation de thèse de Nathalie FRIBURGER, Maitre de Conférences à l Université François Rabelais de Tours. Présentation d Unitex : Unitex est un logiciel libre d'analyse lexicale automatique qui allie un système informatique performant et une interface conviviale (graphes). Son système informatique est composé de réseaux de transitions "augmentées" permettant : des opérations sur le texte une utilisation de variables une compilation. Exemple de graphes Unitex : Illustration PPT «Les entités nommées» Slide _REV-MED-NTERNE_Aspects_cliniques_et_pronostiques_des_frac.xml 13

15 Présentation de CasSys : Le LI utilise un module CasSys pour la constitution et l'utilisation des cascades de graphes intégrées à Unitex. Schéma d utilisation de graphes Illustration PPT - Les entités nommées - Slide 22 À partir du texte original (texte transcrit en XML) on constitue un graphe pour modifier un premier paragraphe du texte, puis on constitue un autre graphe sur un 2 ème paragraphe et ainsi de suite jusqu à obtenir un texte final. Les cascades de graphes permettent d utiliser les motifs déjà détectés, d éviter un étiquetage non souhaité pour un motif déjà reconnu. L'ordre de passage est donc un paramètre important. 4. La collaboration LI-Inist La collaboration entre l Inist et le LI de Tours sur le projet ISTEX a débuté en septembre 2014 avec tout d abord la constitution d un petit corpus de 30 documents par Enza MORALE (Inist) puis de 2 corpus plus importants de 100 documents avec un corpus en français et un corpus en anglais. Des allers-retours ont été mis en place entre l Inist et le LI de Tours. Le LI traite les corpus à l aide d Unitex (cascade de graphes) puis l Inist analyse les erreurs détectées. Les erreurs sont ensuite renvoyées à Tours, corrigées par l Inist ou annotées par des propositions de corrections soumises à la discussion. L Inist rédige un guide d annotations qui répertorie les choix méthodiques effectués au cours de la coopération. L objectif est de permettre une simplification des normes et une simplification du TEI. Le travail est actuellement en cours pour le balisage des noms de personnes qui apparaissent comme une expression. Pour simplifier le balisage des dates, l équipe se base uniquement sur les années et non pas la date en entier (jour/mois/année). Il n y a également pas de balisage de période juste de l année de départ et celle de fin. 14

16 5. Quels résultats pour la plateforme ISTEX? Le balisage des textes sera utilisé pour enrichir les métadonnées afin de permettre les interrogations sur la base ISTEX. Le nombre d entités nommées qui pourront être interrogées dépendra de la qualité des textes et donc des moyens RH mis en place sur le traitement des données et métadonnées. Le balisage des données transverses, quel que soit le choix des domaines concernés, pourrait être approfondi grâce à l appel à projets pour les chantiers d usage qui sera lancé courant 2015 avec une sélection de sous disciplines pour des travaux sur des entités nommées plus spécifiques à chaque domaine (entités mixes). Discussion Démarche de traitement des données et métadonnées Pour estimer les moyens nécessaires aux contrôles et à la vérification des corpus en termes de développements informatiques et de ressources humaines, il faut prendre en compte : Les échanges de compétences entre l Inist et les équipes projets (recrutement A.GUPTA pour le travail sur les cascades) : plus les allers et retours entre l équipe de l Inist et celle de Tours sont importants plus le procédé de cascade est amélioré ; Les investissements des projets internationaux : par exemple pour les projets de l Office Européen des Brevets ou encore de Medline, les travaux sur le plein texte, sur le balisage, représentaient un investissement aussi important que celui alloué à l achat de ressources alors que pour ISTEX 55 millions sont consacrés aux acquisitions et 5 millions au développement de la plateforme et des services ; Collaboration services de base et services à valeur ajoutée Dans ISTEX le développement des services permet des travaux sur des domaines variés et de s apercevoir que les traitements effectués sur un domaine de recherche peuvent être transposés sur d autres domaines. Une mise en relation des projets services de base et services à valeur ajoutée, comme ISTEX-R et la recherche d entités nommées pourrait être envisagée. L objectif de ces deux jours est aussi de permettre de faire ressortir les liens et les collaborations envisageables entre les projets ISTEX. 15

17 III- Extraction terminologique dans ISTEX Béatrice DAILLE et Gaël GUIBON (16h45-17h30) Plan de la présentation 1. Introduction 2. ISTEX enrichissement - La terminologie dans les corpus ISTEX 3. Prétraitements en vue de l'extraction terminologique - Inist CNRS 4. Extraction Terminologique LINA 1. Introduction Ce projet a pour objectif de repérer dans les textes de publications scientifiques les notions et les termes principaux. Les équipes ont choisi de travailler au niveau d un domaine de spécialité avec ses thèmes associés (ensembles de textes représentatifs d un domaine) et non pas sur des corpus multidomaines. L objet de l extraction est de faire ressortir les terminologies les plus courantes du domaine défini. 2. ISTEX enrichissement : la terminologie dans les corpus ISTEX Extraction de termes : L extraction terminologique est une problématique de recherche sur laquelle le LINA travaille depuis une vingtaine d années et maitrise grâce à son expérience sur le projet européen TermSuite, (projet multi linguistes, une dizaine de langues) pour la création d un outil d extraction sur la plateforme IBM UIMA qui permet de faire de l annotation sur les textes (logiciel Java natif). Les termes extraits peuvent être des mots simples, mais aussi des termes complexes composés de plusieurs éléments (ex : système d exploitation, retors éoliens, ). Le terme a certaines propriétés : il représente un concept, mais est aussi en fluctuation et essaie de se positionner dans un aspect du domaine ou peut devenir plus générique. Il peut donc exister une multitude de dénominations pour une même notion. L objectif n est pas seulement de repérer les termes simples ou complexes, mais aussi leurs variantes. Pour cela il faut deux types d analyses : syntagmatique (texte et dimension linéaire) et distributionnelle (caractériser le texte par sa distribution dans les textes et ses voisins). 16

18 L extraction se fait grâce à l utilisation de 3 méthodes classiques : des prétraitements linguistiques : segmentation, étiquetage grammatical, L utilisation de règles syntagmatiques pour décrire les termes (patrons) Une procédure de choix des candidats que l on souhaite retenir : cette étape est délicate car le choix dépend de l application de l analyse menée et de l unité textuelle que l on souhaite obtenir à la fin Pour TermSuite les principes définis étaient d avoir une approche intégrée, une homogénéité (termes simples et complexes) en privilégiant la modularité : créer des patrons et, quel que soit la langue, toujours utiliser la même méthode de traitement. La reconnaissance des termes et le résultat à la sortie devaient être riches avec l objectif d avoir plusieurs informations sur les entités (patron, lemme, formes, fréquence, spécificité/domaine, variantes ) 3. Prétraitements en vue de l'extraction terminologique - Inist CNRS Les quatre tâches de prétraitement : Pour ISTEX, le LINA a repris les méthodes de chaine de traitement TermSuite (prétraitements, traitements, détection de variantes, ). L Inist et le LINA travaillent en collaboration sur le projet. Illustration PPT Extraction terminologique slide 8 17

19 Association LINA Inist CNRS : L Inist analyse les erreurs d étiquetage indiquées par l équipe du LINA dans le but de créer ensuite des règles qui seront réinjectées dans le logiciel de traitement TermSuite. Le temps de traitement est de 1h pour 10 millions de mots. De 12 secondes pour mots. UIMA est un outil robuste utilisé dans l industrie et est un outil standard d IBM. Le prétraitement se divise en 4 tâches : Tout d abord on extrait le texte brut des corpus ISTEX que l on découpe en phrase (Sentence splitter) pour lesquelles ont détermine les unités (Tokenizer) puis on prédit les formes canoniques d un mot (Lemmatizer) pour prédire son identification dans le discours (Part-of-Speech tagger). Exemple : Illustration PPT «extraction terminologique» - slide 11 18

20 État de l art : Plusieurs outils sont disponibles pour chaque tâche, ceux-ci doivent être sélectionnés en fonction du besoin. Exemple : Illustration PPT «extraction terminologique» - slide 13 et 14 Les ressources utilisées pour les prétraitements sont : CRAFT : Un corpus de plein texte en biomédical : 67 articles complets. Proche du corpus ISTEX-Food science and technology GENIA : Corpus d'abstracts de biologie moléculaire abstracts de MEDLINE. Remarque : un manque d'annotations des lemmes (formes canoniques d'un mot). Résultats préliminaires : Pour la détection des phrases : CRAFT 99.6 % de moyenne harmonique et aucun pour GENIA. Pour l analyse lexicale : CRAFT 97.08% et GENIA aucun Pour l étiquetage syntaxique : CRAFT 78% d exactitude et GENIA 83.57% Des erreurs ont pu être constatées dans des cas particuliers comme des unités inattendues collées, des noms communs et verbes conjugués similaires, des termes chimiques et formules indiqués comme Nom propre au lieu de Nom commun, etc. 19

21 1. Extraction Terminologique LINA UIMA Token Regex détection des termes complexes : Travaux réalisés par le LINA : Amélioration de la vitesse d exécution Amélioration de la détection de termes complexes et de variantes syntaxiques Spécification des termes complexes et leurs variantes pour deux langues. Pour ISTEX en anglais 3 millions de mots pour 8748 documents. La chaine de traitement UIMA dans TermSuite Illustration PPT Extraction Terminologique Slide 22 Bilan En cours de finalisation : Analyse morphologique et détection des variantes syntaxiques avec les termes composés. Planifié pour 2015 : Détection des variantes sémantiques Post-traitement de l'extraction terminologique : filtrage et classification Intégration ISTEX : Détection des entités figées en amont et leur intégration au processus de détection des termes complexes et des variantes Interactions avec les autres composants de la plateforme ISTEX Intégration du format de corpus TEI à UIMA pour l extraction terminologique. 20

22 Contraintes de ressources matérielles pour l extraction terminologique (mémoire vive, temps de traitement, ). Discussion Référencement Pour palier aux résultats sur l étiquetage CRAFT de 78,8 % qui ne sont pas très bons on pourrait envisager de créer dans le corpus «ISTEX-Food science and technology» un référencement sur lequel entrainer les autres corpus par la suite. Par ailleurs les résultats divergent selon les types de corpus et il est difficile d avoir un étiquetage propre dans un domaine spécifique. Pour l instant l équipe se concentre sur le travail mené sur le CRAFT et passera ensuite en phase de test et d évaluation. Collaboration Extraction Terminologique et Entités Nommées À l intérieur de la chaine de prétraitement il est possible d intégrer la chaine de traitement des entités nommées dans les étapes de prétraitement, par exemple détection des expressions figées. 21

23 IV- Le projet ISTEX-SNU d intégration d ISTEX dans les Services Numériques des Etablissements présenté par Stéphane GULLY (17h30-18h15) «ISTEX en quelques clics dans votre portail documentaire» Plan de la présentation 1. Contexte 2. Calendrier / méthode 3. Vision du produit 4. Axe Widgets / ENT o Widgets génériques o Module Drupal o UPortal ISTEX o Opac 5. Axe DT (outils de découverte) 6. Utilisateurs 7. Perspectives 1. Contexte Le projet ISTEX-SNU a été initié dans le cadre du projet d immersion de Stéphane GULLY (Inist-CNRS) à l Université de Lorraine de décembre 2014 à février 2015 à l'université de Lorraine dans la sousdirection des usages du numérique (Julien MARCHAL) en relation forte avec la direction de la documentation et de l'édition (Anne- Pascale PARRET, Jean-François LUTZ, Thomas JOUNEAU). 22

24 2. Calendrier et méthode Calendrier : Illustration PPT - Projet ISTEX-SNU Slide 4 Méthode : La méthode de gestion de projet utilisée est une méthode agile Scrum. Les valeurs agiles privilégient : les individus et leurs interactions plus que les processus et les outils l utilisation de logiciels opérationnels plus qu'une documentation exhaustive la collaboration avec les clients plus que la négociation contractuelle. 3. Vision du produit Version 1.1 ISTEX-SNU a pour objectif de mettre à disposition les corpus ISTEX à travers les services numériques des universités. Une intégration forte dans les systèmes de diffusions existants de l ESR est nécessaire pour éviter à l utilisateur final de devoir réaliser ses recherches ISTEX sur un N-ième portail d information. Les services numériques suivants sont visés pour l accès aux ressources ISTEX : Les Environnements Numériques de Travail (ENT) Les Discovery Tool (DT) 23

25 Ces services sont à destination des documentalistes, des chercheurs, et des membres de l ESR. Le périmètre initial (site pilote) concerne l ENT et le DT de l Université de Lorraine (UL) en gardant comme perspective la diffusion au niveau ESR. À noter qu une grande partie des universités françaises disposent déjà d un ENT et/ou d un DT.» Pour le site pilote, l Université de Lorraine, ISTEX-SNU a été implémenté sur : uportal (ENT) EDS (DT) Les fonctionnalités importantes qu ISTEX-SNU proposera sont : La recherche sur les métadonnées et le plein texte avec affinage par facettes, L accès transparent (authentification) au plein texte en un minimum de Clics, Une interface utilisateur ergonomique et intégrée aux services cibles, Une installation technique simple et documentée privilégiant l automatisation. À noter que l API ISTEX propose aujourd hui : Une authentification par IP Une authentification par login/mot de passe. À plus long terme, une fois la plateforme ouverte aux utilisateurs, il est prévu une authentification par fédération d identités. Les interfaces de visualisation de fonds documentaire sur le marché sont multiples, on peut citer de façon non exhaustive les outils libres VuFind et Blacklight et les différents outils commerciaux comme EDS et Primo. Sur nombre de ces outils, nous retrouvons des paradigmes communs à ISTEXSNU comme l utilisation d API et d interfaces de recherche. La particularité d ISTEX-SNU sera de proposer des interfaces finement intégrées aux services numériques existants autant d un point de vue contrôle d accès que d un point de vue interface utilisateur et ergonomie. Finalement, le grand défi de l après ISTEX-SNU sera le déploiement dans un maximum d Universités et centres de documentation de l ESR. Dans les différents établissements de l ESR on constate : La présence de DT hétérogènes : Libres & Commerciaux Des ENT / Widget nécessitant une vigilance sur la simplicité d intégration. Le code source développé pour ISTEX-SNU sera mis à disposition sous licence libre pour faciliter l appropriation par la communauté ESR : Licence : CeCILL (caractère "copyleft") Dépôt GitHub : Contributions fortement encouragées : o Mashup o Thèmes graphiques o Scripts dans différents langages. 24

26 4. Axe Widgets / ENT Les modules présentés ci-dessous sont des démonstrations de pages en construction sur les ENT de pré-production de l Université de Lorraine et de l Université de Rennes 2. Celles-ci ne sont pas encore en production. Widgets génériques Démo des widgets numériques : (documentation) Requête : «Brain» - choix du corpus Les outils utilisés pour l intégration d ISTEX-SNU aux widgets sont : Code source : GitHub Intégration continue : TravisCI Outil de build : Gulp Framework de test : mocha Les Technos des widgets ISTEX jquery HTML5 Précompilateur CSS : {less} Les Technos de l'api ISTEX NodeJS 25

27 ElasticSearch Démo du module Drupal : L installation du module ISTEX drupal est simplifiée et se fait en quelques clics : 26

28 Vue des résultats requête «Brain» Démo de uportal ISTEX (UL) Un dépôt Git est dédié à la brique ISTEX uportal : Illustration PPT ISTEX-SNU slide 24 27

29 Présentation d ISTEX lors des esup days : GY/edit?pli=1 «ISTEX depuis les ENT - ISTEX-SNU est un projet qui permettra de rechercher, depuis l'ent dans la littérature scientifique acquise dans le cadre du projet ISTEX soit dans plus de 10 millions de documents!» présenté par Stéphane GULLY (Inist) et Julien Marchal (Université de Lorraine) le 5 février Démo de l intégration d ISTEX dans OPAC Illustration PPT - Projet ISTEX-SNU Slide 27 28

30 5. Axe DT (outils de découverte) Le DT du point de vue utilisateur : Discovery Tools (outils de découverte) Link Solver (résolveur de lien) Illustration PPT Projet ISTEX-SNU Slide 36 Index d un DT L index d un DT contient des métadonnées d articles (identifiés généralement par des DOI) eux-mêmes inclus dans des revues (identifiées généralement par des ISSN) elles-mêmes possédées par des éditeurs. Il contient également la liste des abonnements des différents établissements qui correspondent à des bouquets de revues. Il peut être complété par les métadonnées de la plateforme ISTEX (r5) puis dé-doublonné avec les articles déjà présents dans l index (r3) au moment de la génération des résultats. Les établissements peuvent déclarer le bouquet ISTEX dans leurs abonnements, pour que les résultats soient intégrés de façon homogène avec leurs autres abonnements. 29

31 Intégration de l ISTEX dans EDS (EBSCO) Pour l intégration d ISTEX dans l outil commercial EBSCO, des contacts sont en cours avec les équipes techniques aux États-Unis, l éloignement entrainant des temps de réponse assez longs. Le plan d action pour l intégration dans EDS est à deux niveaux - Intégration d ISTEX par les bases de connaissances (KBART issus du Hub) - Intégration d ISTEX par moissonnage des métadonnées article ( database ISTEX ). Du côté de l API les besoins sont : - Utilisation d OpenURL - Utilisation OAI-PMH. 6. Utilisateurs Thomas PORQUET de COUPERIN a fait le lien avec les SCD pour la communication autour de la possibilité d intégration d ISTEX dans leurs ENT. Aujourd hui 10 établissements ont participé au projet ISTEX-SNU : Saint-Etienne, Bordeaux, Toulouse, Limoges, Besançon, Strasbourg, Orléans, la bibliothèque de Diderot de Lyon, la bibliothèque VetAgro Sup de Lyon. État d'avancement des utilisateurs : Saint-Etienne : couplage avec OPAC via les widgets (besoin du widget N résultats ISTEX ), filtrage IP multi-sites et/ou shibboleth. État : développements maison fonctionnels Bordeaux : intégration dans ENT (version inconnue) pour mise en avant d ISTEX (communication). État : intérêt déclaré, dossier en attente Toulouse : intégration dans ENT v4, filtrage IP + VPN. État : intégration en cours Limoges : intégration dans ENT (version inconnue), ezproxy. État : intérêt déclaré, étude du dossier en cours. Besançon : intégration dans CMS Drupal v6, ezproxy. État : intérêt déclaré, étude du dossier en cours. Strasbourg : intégration dans ENT v3 ou widgets dans site, ezproxy. État : intérêt déclaré, étude du dossier en cours. Orléans : intégration de préférence dans OPAC et pê ds Drupal 7, bibliopam. État : intérêt déclaré, étude du dossier en cours. Bibliothèque Diderot de Lyon : intégration dans DT de préférence ou encart de recherche, ezproxy. État : intérêt déclaré, étude du dossier en cours. Bibliothèque VetAgro Sup de Lyon : intégration dans Drupal 7 de préférence ou ENT Moodle, Shibboleth (proxy envisagé sur 2015). État : intérêt déclaré en attente de solution. 30

32 7. Perspectives Aujourd hui, la responsabilité du projet ISTEX-SNU a été confiée à Julien MARCHAL, Université de Lorraine. Les perspectives du projet ISTEX-SNU aujourd hui sont : Pour l'axe DT o collaborer avec les outils commerciaux EDS et Primo o collaborer avec les outils libres VuFind, Blacklight. Pour l'axe Widgets / ENT o intégrer des futures fonctionnalités de l'api o l ajout/évolution de modules : Drupal, Wordpress, Spip, OPAC,... o la mise en production sur l'ent de l'université de Lorraine o la mise en production sur EDS (CNRS et UL) o Accompagner la communauté. Discussion Création d une communauté d exploitation d ISTEX La création d une communauté de projets autour de l exploitation d ISTEX n est pas envisagée dans le cadre d ISTEX 1, mais pourrait faire l objet d une réflexion une fois le projet terminé et la plateforme en phase de production (ISTEX 2). Qualité des données et métadonnées ISTEX La qualité des données est médiocre. Parfois dans les résultats d une recherche les résumés n apparaissent pas et la ressource s avère être uniquement du pdf images, un format non traitable, venant le plus souvent de documents anciens. Ces documents sont rendus disponibles à la lecture et sont importants dans ISTEX par leur rareté sur les plateformes des éditeurs, mais ils ne doivent pas être la priorité. À Tours, une équipe travaille actuellement sur les recherches de mots dans des PDF images, mais ces techniques peuvent difficilement être appliquées sur des milliers de documents venant de plusieurs éditeurs comme sur ISTEX. Si le problème des documents anciens reste mineur, la mauvaise qualité de documents plus récents est également une problématique forte dans ISTEX. Comme indiqué par Stéphane POUYLLAU, président du Comité Technique, plus tôt dans la matinée, un rapport sur la qualité des données et métadonnées ISTEX et le besoin de curation sera transmis au Comité Exécutif ISTEX avant le 30/03/

33 Accompagner la communauté Tous les travaux menés actuellement sur ISTEX ne peuvent pas être faits sans accompagner les communautés. Les établissements qui ont pu faire l essai des expérimentations ISTEX-SNU font aujourd hui pression pour que le projet passe en production. Aujourd hui le projet pourrait quasiment passer en phase de production mais avant il faut s assurer de la solidité de la plateforme. Ne pas sauter des étapes. Si aujourd hui on ouvre le service et qu il n est pas fonctionnel, cela risque de rebuter les communautés qui n y reviendront plus même après amélioration. Il faut d abord faire des tests en permettant une ouverture à un ou deux laboratoires pour avoir de véritables retours Ouvrir la plateforme à des sous-communautés de chercheurs qui seraient candidats pour devenir bêta-testeurs. Le développement de la plateforme doit se renforcer sur la partie infrastructure : redondance, réseau,. Il faut maintenant assurer l effort nécessaire au niveau de la redondance du service de la plateforme pour éviter un crash au moment de l ouverture en phase pilotage. De plus, les enrichissements ne sont pas encore intégrés dans les corpus ISTEX. Il faut prendre en compte le délai du travail à mener pour cette intégration et permettre l utilisation de ces enrichissements sur ISTEX. Lorsque les résultats des projets d enrichissement de plein texte seront intégrés, la plateforme commencera à avoir de l intérêt comparée à celles des éditeurs. Les projets d enrichissement, extraction de termes et recherche d entités nommées, ayant débutés en septembre 2014 nous pouvons espérer au mieux un retour pour la fin de l année civile Aujourd hui nous pouvons donc faire des démonstrations, rentrer en phase de test, mais le projet ne sera opérationnel que courant 2016 et non En conclusions : Besoin de reverser les enrichissements dans la plateforme Besoin d avoir des retours des communautés/ des utilisateurs pour ajuster les projets Besoin d un investissement conséquent pour améliorer les données fournies avec les éditeurs pour ne pas pénaliser les résultats des études menées par les différents projets. Les équipes transmettront les éléments à Jean-Marie PIERREL pour la définition d un plan de charge clair jusqu à la fin du projet. 32

34 Jeudi 19 mars 2015 Participants présentiel et audio/visioconférence N NOM PRENOM Etablissement 1 ANDRE Francis CNRS DIST 2 AUTARD Charlotte CNRS DIST 3 BLONDELLE Frédérique ABES 4 CARON Etienne CNRS Inist 5 CUXAC Pascal CNRS Inist 6 DAILLE Béatrice LINA Université de Nantes 7 DAUNOIS Thierry Université de Lorraine 8 DUCLOY Jacques Université de Lorraine 9 EL KHOURI Laurence CNRS DIST 10 FABRE Renaud CNRS DIST 11 FRANCOIS Claire CNRS Inist 12 GAUME Bruno CLLE Toulouse 13 GUIBON Gaël CNRS Inist 14 GULLY Stéphane CNRS Inist 15 GREGORIO Stéphanie CNRS Inist 16 JOLY Monique COUPERIN 17 LIZEE Marie-Pascale MENESR 18 LOTH Romain CNRS Inist 19 MAHUT Valérie CNRS Inist 20 MARCHAL Julien Université de Lorraine 21 MAUREL Denis LI Université de Tours 22 MORALE Enza CNRS Inist 23 NAVARRO Emmanuel CLLE Toulouse 24 NICOLAS Yann ABES 25 NIEDERLENDER Claude CNRS Inist 26 PARENTIN Jean-Joffrey CNRS Inist 27 PAUL William CNRS Inist 28 PERRIN Stanislas CNRS Inist 29 PETIT-JEAN Etienne Université de Lorraine 30 PIERREL Jean-Marie Université de Lorraine 31 PORQUET Thomas COUPERIN 32 SCHMITT Laurent CNRS Inist 33 SICOT Julien Université de Rennes 34 TEBBAKH Ali Université de Lorraine 35 TOUVENIN Nicolas CNRS Inist 36 TOUSSAINT Yannick Université de Lorraine 33

35 V- Projet CILLEX présenté par Bruno GAUME et Emmanuel NAVARRO Plan 1. Objectifs 2. État courant 3. Développement à venir 1. Objectifs Aider l utilisateur dans sa recherche en rendant lisible la structure des résultats : traiter les documents dans lesquels on trouve des mots, des auteurs, des métadonnées (venant des éditeurs ou crées par ISTEX) et créer des liens entre eux. La méthode utilisée est la construction de graphes de terrain. Les graphes de terrain peuvent apparaitre sous différentes formes : Les graphes d'accointance d'un groupe d'humains (réseaux sociaux) Le graphe du World Wide Web ( WebGraph) Le graphe de Caenorhabditis elegans Les graphes Lexicaux Les graphes extraits des bases documentaires. Construits à partir de données réelles ces graphes ont tous les mêmes propriétés : Faible densité : par exemple il existe peu de liens directs entre des amis sur les réseaux sociaux Chemins courts : pour passer d un sommet à l autre. 34

36 Distribution des degrés à queue lourde (loi de puissance) => ranking. Quand un moteur de recherche classique donne une liste de résultats, elle n est basée que sur cette 3eme propriété (pointage des pages). Fort coefficient de clustering : zones denses en arêtes => sens. Il existe des sous-ensembles d arêtes où on trouve une forte densité d arrêtes. L objectif du projet CILLEX est de (i) démontrer que les structures des moteurs de recherche habituels utilisent la 3 ème propriété et jamais la 4 ème., (ii) permettre un ranking sur les clusters (4 ème ) pour montrer les arêtes, (iii) construire un sous-graphe de la base communautaire à partir des informations que l API ranking renvoie. Le but est de construire des clusters avec une labellisation pour faire ressortir l information au chercheur. Lorsqu on labélise les clusters l utilisateur est alors informé de la structure des données et peut choisir le cluster qui l intéresse (le groupe de corpus qui l intéresse par rapport à un centre d intérêt, un but de recherche). L utilisateur peut choisir un point de focus et voir la structure de l ensemble de la base dans laquelle il cherche. Illustrations PPT Projet CILLEX slides 18 et 19 35

37 Trading Zones interprétation des graphes La construction de graphes à partir de clusters de mots permet l observation et l interprétation des relations de synonymie entre les mots clustérisés. On peut exploiter cette méthode pour faire une requête polysémique. Les moteurs de recherche classiques n utilisent que la structure d ordre de liste. Exemple : 2. État courant Moteur de réponse en place : le système tourne et interroge l API ISTEX o chaine de traitement, o quelques détails techniques... o données prise en compte aujourd'hui. Système de sauvegarde / Annotation des résultats o Méthodologie de mise au point. 36

38 CILLEX : La chaine de traitement Illustrations PPT Projet CILLEX slide 25 Moteur de réponses CELLO : Le serveur, codé en PYTHON, fournit une API REST et JSON. L application cliente est Javascript (backbone ; sémantic-ui). L équipe se base sur un micro framework qui permet de construire un système modulable de composants de traitement avec un système d options et de découverte d options. 37

39 Le serveur permet la génération d un formulaire qui permet de tester divers paramètres découvrables sur l interface HTML ou sur des lignes de commande. Cette application devrait sortir prochainement en OpenSource. CILLEX : chaine de traitement (détail) Les données utilisées pour le moment sont : o mots des abstracts o mots du title o subject o subject serie o authors. Illustrations PPT Projet CILLEX slide 28 Pour les données «subjects» les équipes rencontrent des difficultés en raison des problèmes d homogénéité entre les corpus des différents éditeurs. Les sujets ne sont pas forcément présents dans tous les documents. Méthodologie de mise au point : constat La chaine de traitement est complexe et les combinaisons de paramétrage sont importantes. Besoin de tester plusieurs configurations sur les corpus 38

40 Avec le jeu de données existant l équipe ne dispose pas encore d un corpus formé qui colle à une recherche scientifique en clustering et construire à la main un jeu d évaluation coute cher. Pour pallier à cette problématique, l équipe a dû changer de point de vue et s est basée sur les résultats du système et la construction d un système d annotation qui permet de modifier le clustering et d effectuer plusieurs traitements en gardant trace des problèmes détectés. Si le résultat d un traitement est mauvais pas de solution, si le résultat est bon, mais contient des erreurs une correction à la main est effectuée (faible cout), si le résultat est très bon il est simplement enregistré. Pour cette méthode l équipe a construit un système d'annotation intégré à l'interface CILLEX (démo) : enregistrement d'un résultat, modification à la main du clustering, rechargement/modification d'une précédente annotation. Les données sont exploitables en batch (Unix/Linux). Concernant les corpus ISTEX, si les équipes ne peuvent pas disposer d entités nommées, d une bibliographique, d abstracts, alors les clusters ne peuvent pas être construits. La qualité des métadonnées ISTEX est essentielle pour construire les clusters. Lorsque l équipe CILLEX utilise l API ISTEX, elle télécharge une copie de l interrogation et des clusters pour des modifications à la main (annotations, insertion de commentaires, ) Le système est dépendant du ranking de l API et ne travaille que sur les 30 premiers documents qui ressortent. Il est possible de rejouer la recherche. Une fois fini, lorsqu on sauvegarde l annotation on sauvegarde aussi les 30 documents qui étaient sortis en résultat donc si l API et le ranking changent il est possible de retrouver des documents que l on avait déjà annotés. 3. Développement à venir Le problème posé par les corpus ISTEX pour la qualité des graphes est que les données et métadonnées sont clairsemées : sparse (subject, auteurs) : les sujets ne sont pas liés. meta-données absentes (auteurs, résumés) non-homogénéité (subject) bruit (termes des titres et résumés). Aujourd hui les pistes d améliorations sont : le traitement en ligne des titres et résumés (amélioration) Pouvoir utiliser les données des projets enrichissement du plein texte : entités nommées, termes et variantes, références bibliographiques. 39

41 Et sur le long terme : o Enrichir le graphe local à partir d une ressource externe pour que les entités nommées s insèrent dans une ressource lexicale comme le RLF 4 ou les référentiels thématiques de l Inist o Folksonomies (indexations personnelles) alimentées par les usagers d ISTEX (tags). En pratique les développements à venir sont liés à l amélioration du système limitée à une souscollection annotée et itérée. À chaque itération l objectif est d augmenter le nombre de recherches pouvant être annotées grâce à l augmentation du nombre de personnes participant aux annotations (ouverture à un public plus large). Pour construire les graphes il serait intéressant de mettre en place un historique (log) des recherches menées par les utilisateurs réels (équipes qui utilisent déjà la plateforme) sur l API ISTEX pour avoir des retours, des informations extérieures. Une collaboration avec le projet EzPAARSE est en cours avec l équipe de développement de la plateforme à l Inist pour la mise en place des logs sur l API. Discussion Articulation des différentes dimensions entre auteurs, mots clés, affiliation. Dans la construction du graphe tout est mélangé, mais lors de la labélisation il est possible de reprendre les informations pour privilégier une dimension plutôt qu une autre. Classification de la recherche Illustrations PPT Projet CILLEX slide 19 Les couleurs utilisées pour le visuel de classification de la recherche ne correspondent pas à un domaine particulier, il s agit uniquement d un classement par thèmes proches. La clusterisation se fait au niveau de granularité des résultats du moteur de recherche. Cela permet une classification relative à l ensemble des sous-documents repérés par la requête. L annotation reste sauvegardée pour une requête, mais si on annote un document lors d une recherche sur le terme «Brain» puis qu on lance une requête sur le terme «food», si un même cluster annoté ressort, l annotation de la requête «Brain» n apparaitra pas pour le terme «food». 4 Réseau Lexical du Français (RLF) Projet RELIEF ATILF (cf. 40

42 Possibilité d une clusterisation sous contrainte L annotation est utilisée pour le développement de CILLEX, mais l interface finale ne comprendra pas cette option. Il s agit uniquement d une méthode utilisée pour l amélioration manuelle des clusters créés dans le cadre du développement du projet. Par ailleurs, il pourrait être possible de renvoyer les données de l index de la base complète, de construire des liens entre les documents s ils sont dans un même cluster. La contrainte ne pourra être mise en place que sur les liens. Il existe la possibilité d un effet de bord si on utilise un cluster différent, mais proche et qu on ne retrouve pas les annotations. L équipe prévoit d ajouter dans le système d annotation des outils pour tagger les annotations (différentiel cluster thématiques, cluster temporels, ). Idéalement cela devrait permettre dans l interface d avoir des préréglages du système qui permettra de favoriser la recherche d un clustering particulier. Ranking Projet ISTEX-R Le projet ISTEX-R est dépendant du ranking et si le ranking fait un choix thématique sur une recherche polysémique le cluster aura moins de poids. L équipe d ISTEX-R est donc intéressée par une collaboration avec l Inist pour un travail sur le ranking. Le ranking est important, si le moteur de recherche de Google produisait un classement des résultats aléatoire, les utilisateurs passeraient vite à un moteur de recherche plus pertinent, car les résultats sortis seraient loin des résultats souhaités. Résistance de la démarche au bruit Si le bruit est aléatoire, il n aura pas d impact sur la formation des clusters car les clusters ont une densité suffisamment apparente pour que du bruit à droite et à gauche ne change pas cette densité. Le bruit qui pourrait être problématique est celui intentionnel, par exemple si on crée un faux cluster volontairement. Requête sur les mots non polysémiques Une requête sur CILLEX ne crée pas forcément de cluster. Le nombre de clusters qui apparaissent lors d une requête n est pas fixé d avance. Une requête sur un mot non polysémique ne forcera donc pas un découpage de termes liés. 41

43 VI- Projet LorExplor présenté par Jacques DUCLOY (10h-11h) Plan 1. Introduction : ISTEX, un devoir d ambition 2. Wicri/LorExplor : démonstrateur d une cyberinfrastructure de la connaissance 3. Bibliothèque XML DILIB (lien API ISTEX) 4. Wikis sémantiques et curation de données 5. Conclusion : Apprendre le numérique en construisant 1. Introduction : ISTEX, un devoir d ambition Un devoir d ambition ISTEX est un projet ambitieux avec un financement de 60 millions d euros, dans une situation de crise et de réduction de moyens, pour la construction du socle de la bibliothèque scientifique numérique avec pour le moment une couverture nationale mettant à disposition des chercheurs des millions d articles en texte intégral. Un tel financement pousse à réfléchir à quelles seront les retombées pour les contribuables, comment ce projet national viendra s'insérer dans la Recherche qui est internationale, comment le projet ISTEX conciliera le national et l'international, mais également que feront les chercheurs des millions de documents mis à leur disposition. L'ensemble de l'esr est concerné par ces questions. 42

44 Humanités numériques et IST en France : TOP /Crise. De 1950 à 1975 la France était dans le top 4 mondial dans le domaine des Humanités numériques et de l IST avec les projets TLF, Pascal, Questel,... L'arrêt des R&D dans les années 80 et d'autres changements comme la sous-traitance de l'ingénierie des projets Jouve ou Questel ou encore la dominance de la rentabilité sur les missions initiales ont freiné les avancées de la France. Dans la crise, des signes positifs était toujours visibles avec la création de l'inist à Vandœuvre-lès- Nancy en 1988 dans le top 4 en FTD pionner sur SGML appliqué aux formats MAR/ISO 2709 et avec Pascal faisant "jeu égal" avec Medline. ISTEX représente aujourd hui un espoir pour l émergence d un grand projet concurrentiel au niveau mondial autour de la question du Big Data et doit pouvoir s alimenter des bases Pascal et Francis (300 personnes sur 50 ans pour 1,5 milliard d pour constituer ces bases). Il faut se rappeler du poids de cet investissement pour voir comment il pourrait être réutilisé dans ISTEX. 2. Wicri/LorExplor : démonstrateur d une cyber infrastructure de la connaissance Le projet LorExplor est un démonstrateur d une cyber infrastructure de la connaissance scientifique, technique ou culturelle? initiée par des besoins de valorisation de la recherche (ANL, DRRT) inspirée par les réseaux, le génie logiciel, l interopérabilité, les pratiques coopératives et dopée par le projet ISTEX. Illustration PPT projet LorExplor Slide 8 43

45 LorExplor est composé d un ensemble de wiki sémantiques qui utilisent la même technologie que wikipédia avec en supplément des outils sémantiques. Wikipédia est une immense encyclopédie alors que le Wiki est plutôt une encyclopédie spécialisée. L infrastructure LorExplor donne l accès à des données commerciales, mais aussi à des données ouvertes sur le web sémantique. La bibliothèque sémantique Dilib est là pour analyser comment répertorier ces ressources pour créer des serveurs d exploration. L objectif est de montrer comment créer de la recherche de connaissance structurée, sémantique en paramétrant des bases de données ou par des explorations de corpus. LorExplor a également une dimension de sensibilisation, de formation, d appropriation, de construction collective. Le réseau Wicri «Le réseau Wicri vise à donner des informations synthétiques aux acteurs de la recherche et de l innovation en privilégiant un déploiement thématique ou régional» 5. Il est composé de wiki thématiques, de wiki régionaux, de wiki institutionnels (spécialisés en fonction des besoins), de wiki associés, de wiki de services. Les Wiki régionaux comme celui créé au Maroc sont hébergés dans les pays concernés. Gérer l hétérogénéité Afin de gérer l hétérogénéité des wikis associés et de leurs moteurs de recherche, les différentes sources d information sont en TEI sur lequel l équipe fait de la curation pour essayer d améliorer les données. Ensuite des observations locales permettent d extraire des groupes de sous-corpus et d y appliquer des traitements qui demandent un nombre de données plus réduit. 3. Bibliothèque XML DILIB (lien API ISTEX) Dilib, historique Antériorité : TLF, bande magnétique = flux, performances (Mistral Système de recherche avec ontologie) ANL = Unix génie éditorial, génie logiciel, IA Geac = système ISO 2709 Ilib, INIST 91 Prototype spécialisé (fichiers Marc codés en SGML / lex) Normalisation approximative (non XML) 20 ans de retombées : MIRIAD, Stanalyst

46 Dilib V0.1, Loria 93 Préfiguration DOM (Sgml bien formé sans DTD) Bibliothèque de composants pour infométrie Dilib V0.2, Loria 98 -> Inist 2003 Cohabitation SGML, XML ; interfaces cgi Projets MedExplore, Biban, prototype Servist Dilib V0.5, UL 2013 Sxml + PHP + couplage Semantic MediaWiki + UTF8 Dilib est une bibliothèque de logiciels XML contenant des outils d analyse de corpus. Le moteur XML utilise les fonds ISTEX afin de classer les fichiers par ordre de pays et par ordre de fréquence décroissante. Le défi sur ISTEX est de manipuler dans un même flux des documents avec des DTD 6 multiples avec toutes les variantes syntaxiques et avec comme problématique de parvenir à dépasser le traitement du million de données. Cela est possible pour les métadonnées, mais pas pour le plein texte. Interface logiciel : API ISTEX 7 Les contraintes à partir de l API ISTEX sont : - Estimer la taille d un corpus - Première idée du contenu - Construction d un serveur d exploration de base - Paramétrage Obtenir zéro défaut au niveau du parsing 8 (textes non structurés) : le moindre défaut fait éclater le serveur Chaque éditeur amène des problèmes spécifiques : pour Elsevier les données en XML sont des textes intégraux et la chaine de traitement doit être repensée. Remarques sur l API ISTEX : Base de données de base de données : tout nouveau flux demande adaptation et celle-ci peut être conséquente. Jusqu à présent nous n avions pas construit de bases de données de bases de données, le défi est donc la création d outil de co-intégration de ces bases. 6 Document Type Definition (DTD) 7 PPT Projet LorExplor slide 20 8 Parsing = Analyse Syntaxique 45

47 Montée en compétences : Saisir l'opportunité d'istex pour monter en compétence sur le développement de services jusque-là sous-traités. Mais il faut également penser l'après ISTEX et savoir ce que deviendra la plateforme et les services une fois les CDD partis. Sans support logistique ni transfert de compétences, Dilib s arrête du jour au lendemain Curation des données : ISTEX nous donne l'opportunité de traiter les données de mauvaise qualité acquises auprès des éditeurs. Offrir aux communautés de l'esr français des données et métadonnées de bonne qualité dont les éditeurs ne disposent pas; 4. Wikis sémantiques et curation de données Sémantique MediaWiki (SMW) : Illustration PPT Projet LorExplor slide 26 Dans l exemple ci-dessus, pour naviguer sur une propriété on effectue une recherche à partir des pages utilisant l attribut «Est un affluent de» et on obtient le résultat : Illustration PPT Projet LorExplor Slide 27 46

48 L utilisation des liens permet de poser des requêtes sémantiques du type : {{#ask:[[est un affluent::{{ohio (rivière)]] format=ul sep=,_ intro=rivières citées sur Wicri Eau :_ }} Exemple de recherche sémantique sur «OHIO» ==Les affluents de l'ohio== (''liste calculée'') {{#ask:[[est un affluent::{{pagename}}]] format=ul sep=,_ intro=rivières citées sur Wicri Eau :_ }} ==Les villes traversées par l'ohio== (''liste calculée'') {{#ask:[[sur le cours d'eau::{{pagename}}]] format=ul sep=,_ intro=villes citées sur Wicri Eau :_ }} Curation des données : Illustrations PPT Projet LorExplor - Slide 29 La curation des données permet par exemple d identifier les pays dans un contexte hétérogène. La curation peut se faire sur les ISO (Pascal), les adresses postales (Springer, PubMed), ou bien encore sur des régions. Enrichissements thématiques : L objectif à moyen terme pour l enrichissement des corpus ISTEX pourrait être la jointure avec les bases Pascal et Francis, PubMed via les références. 47

49 Exemples de références Wicri/LorExplor : Dublin Core o DC 2010 Pittsburgh visites o Article en anglais visites H2PTM avec Paris 8, CREM o Actes H2PTM (environ 70 -> 300 articles) o Observatoire des recherches sur l hypertexte (wikis sémantiques) o Terminologie, bibliographies, > termes >20000 relations o Serveur d exploration > ) o Bouquet envisageable : CIDE, VSST, ISKO + revue IHEST : wiki France Brésil / observatoire / exploration Humanités numériques sur Nancy o (Chanson de Roland, chartes ) Les mots de l agronomie (INRA) Ouverture Grande Région Matériaux TP Master Université Lorraine, Paris 8 5. Conclusion : apprendre le numérique en construisant LorExplor permet à chaque étudiant de choisir un sujet pour lequel : il teste des requêtes, construit un serveur d exploration, améliore sa requête, analyse les acteurs connus et inconnus, introduit des éléments de curation. Cette démarche est très formatrice pour les étudiants et leur donne du recul sur la formulation d une requête. Elle est également très riche pour LorExplor et ISTEX car elle permet de traiter une variété de thématiques, de faire émerger les problèmes (sur l API, DILIB, ) et d observer les pratiques de recherche. La formation sur LorExplor permet d apporter aux étudiants un panorama potentiellement complet sur : La culture scientifique et technique L édition numérique actuelle et ancienne La terminologie L exploration de corpus de métadonnées Le passage au texte intégral Les ressources (Pascal, ISTEX, ) Pour cela il faudrait mettre en place une infrastructure pour la sensibilisation et la formation : Formation : leçon TP et mutation technologique Ensemble éditorial sur l Ingénierie de la connaissance Banc d essai pour des expérimentations Support d environ 3 personnes (IR, IE, IT) : 50% logistique, 50% formation et expérimentation. 48

50 ISTEX est révélateur du gap à combler en matière de formation sur le numérique. LorExplor offre un démonstrateur propositionnel qui pourrait permettre de sensibiliser les étudiants (collèges, lycées, universités) et de proposer des formations de base et/ou ensuite des formations sur l Ingénierie des connaissances. Le modèle Wikipédia de LorExplor permet un apprentissage par la construction collective de la connaissance : un thésard pouvant produite 2 à 3 pages avec 5 à 10 références. Cette démarche de sensibilisation et de formation pourrait être étendue au niveau européen et francophone. Si on augmente les moyens ISTEX et qu on atteint 1000 wiki cela permettrait d avoir des millions et des millions de données et ainsi de construire peut-être un projet Big Data. 49

51 VII- Projet ISTEX-R présenté par Yannick Toussaint et Pascal CUXAC (11h15-12h15) Plan 1. Membres du projet 2. Objectifs 3. Schéma général du projet 4. Extraction de connaissance versus recherche d information 5. Prétraitements des textes (WPO) 6. Analyse diachronique et classification automatique 7. Conclusion et perspectives 1. Membres du projet ATILF - Evelyne Jacquey, Laurence Kister, Bertrand Gaiffe, Etienne Petitjean et Sandrine Ollinger LORIA - Equipe ORPAILLEUR : Yannick Toussaint et Equipe Synalp: Jean-Charles Lamirel, Christophe Cerisara INIST : Service recherche-développement et expérimentation (SRDE) : Sabine Barreaux, Dominique Besagni, Pascal Cuxac, Claire François, Ivana Roche Coordinateur : Yannick Toussaint (LORIA) 2. Objectifs ISTEX-R est un projet de recherche appliquée pour intégrer et mettre à disposition des outils d'accès au contenu, opérer sur des textes intégraux et construire des connaissances et les capitaliser essentiellement sur des domaines scientifiques ou techniques ainsi que la construction d un démonstrateur. 50

52 Au départ l'équipe est partie de l'hypothèse que l'utilisateur dispose d'un certain nombre d'outils avancés d'accès à l'ist : collecte et consolidation de corpus, structuration à faible cout d un grand volume de textes, sélection de corpus de taille raisonnable. L'objectif d'istex-r est d'aller vers une analyse plus fine du contenu pour la conceptualisation de domaines de recherche. Construire des concepts, examiner les notions à l intérieur du texte et donner des outils pour consulter et naviguer dans cette conceptualisation. Cette analyse plus fine pourrait permettre la caractérisation de l évolution des recherches et des connaissances dans le temps. L évolution apparait de façon violente ou par des glissements plus subtils et c est par des constructions de cartes diachroniques que l on peut examiner ces glissements. 3. Schéma général du projet Illustration PPT Projet ISTEX-R Slide 7 WP0 - Prétraitement des textes (équipe ATILF LORIA INIST. Coordinatrice : Evelyne Jacquey) Prétraitements pour la représentation des articles en XML TEI et l enrichissement linguistique par annotations des articles (annotations morphosyntaxiques, syntaxiques, terminologiques). Les problématiques rencontrées sont l absence de structuration, de mise en forme et d annotations. 51

53 WP1 - Analyses et cartographies diachroniques (Equipes LORIA, INIST. Coordinateur : Jean- Charles Lamirel) Diachronie : Utilisation d'une méthode de classification automatique sur des données associées des périodes de temps successives, et sur l'étude de l'évolution des résultats de classification obtenus. Clustering incrémental Visualisation des résultats des approches incrémentales WP2 Extraction de connaissances à partir des textes Méthodes issues du traitement automatique de la langue Fouille de données Représentation de connaissances Partir de l extraction de termes désambigüisés et les utiliser pour l indexation du texte intégral Construire des concepts associés aux termes Etudier la diachronie des termes (lien entre extraction de connaissances, analyses de cartographies diachroniques). 4. Extraction de connaissance versus recherche d information Recherche d information : fournir un résultat à une requête d un utilisateur, utilisation de données classées par mots clés pondérés, distinction de document ; Extraction de connaissance : analyse du contenu, extrait des relations entre les objets ; Le besoin de synthèse est important pour acquérir des connaissances, les mettre à jour, et lutter contre un regard trop pointu qui a besoin d être replacé dans un contexte. Projection terminologique (metamap) : Objectif : rechercher dans un texte l existence d une terminologie. Quand on cherche une terminologie il reste de nombreux mots, de nombreux concepts qui ne sont pas traités, l idée est donc de s intéresser aux termes et à leur contexte. Exemple sur le bilan des connaissances sur la maladie de Duchenne élaboré manuellement après une lecture systématique d'environ 150 articles scientifiques alors que plus de 4000 articles sont répertoriés dans PubMed sur cette maladie. 52

54 PPT Projet ISTEX-R Slide 17 PPT - PPT Projet ISTEX-R Slide 18 53

55 Dans ISTEX, l équipe a dans un premier temps travaillé sur des corpus constitués dans le cadre d autres projets assez proches des problématiques qu ISTEX-R souhaite traiter dans ISTEX. Le thème choisi est le vieillissement. Ce thème représente une difficulté supplémentaire car il n appartient pas seulement au domaine du médical, mais est pluri domaines. Ce thème a été sélectionné car de nombreux chercheurs de la communauté scientifique présente à Nancy s intéressent à celui-ci. Lorsque l équipe est passée au traitement sur les corpus ISTEX, elle a fait le choix de sélectionner une large période temporelle sur les corpus de plusieurs éditeurs. 5. Prétraitement des textes (WPO) Affichage des candidats (puces vertes) Des expressions figées et semi-figées de la langue du lexique transdisciplinaire (triangles oranges) ou non (carrés bleus). Méthode d extraction de connaissance : Illustration PPT Projet ISTEX-R Slide 22 Le processus d extraction de connaissance doit être itératif et interactif. Lors des premiers traitements, les résultats seront forcément de mauvaise qualité car les corpus sélectionnés sont encore inconnus. La classification (prétraitement) permet ensuite d améliorer la qualité. 54

56 Les méthodes utilisées sont : L extraction de motifs Réduction du nombre de motifs Validation de l'occurrence du terme "argument" o Motif positif : [sdrt, être, argument] o Motif négatif : [trancher, pas, ne, argument, permettre, décisif, position, avoir] Extraction de motifs séquentiels pour l'identification de relations. L analyse formelle de concept pour la conceptualisation du domaine : avec cette méthode on s intéresse aux séquences de mots pour faire ressortir les interactions entre deux entités. Le paradigme de l extraction d information est un problème récurrent en fouille de données : on part d un ensemble de données à partir desquelles on produit de nouvelles données (Contenus générés par les utilisateurs) que l on peut par la suite fouiller à l aide d outils. À partir de l extraction des ressources des données telles que les objets, des listes de propriétés, des relations, on peut organiser les propriétés dans des hiérarchies, travailler sur des graphes et construire un treillis. Pour le projet ISTEX-R le prétraitement est effectué sous GATE 9 (similaire à UIMA) qui permet de produire des séquences de traitement en cascade. GATE est un outil conçu pour des traitements de linguistique. Exemple : recherche de termes sur la maladie d Alzheimer puis annotation syntaxique (fouille de texte sous forme de graphe de dépendance) puis mise en couleur de relation entre les entités. Illustration PPT Projet ISTEX-R Slide 28 9 GATE - General Architecture for Text Engineering

57 Une représentation sous forme d arbres et sous arbres permet de chercher des relations entre deux entités dans une phrase et d extraire des patrons, des motifs, communs à différentes phrases qui contiennent ce genre d interaction (Patron syntaxique). Le travail sur arbre syntaxique n est pas vraiment performant car il demande de faire des réductions. De plus travailler sur des arbres est assez couteux et se transforme le plus généralement en recherches de chaines. Illustration PPT Projet ISTEX-R Slide 32 Construction de treillis de concepts : Les treillis sont des objets identifiés, des propriétés isolées dans des textes, qui possèdent des liens et permettent de construire des concepts à partir de tables linéaires et qui donnent l ensemble des propriétés partagées par l ensemble des communautés qui la possède. Le bruit fait exploser la taille du treillis. Un treillis très gros n est pas forcément un problème. S il est large ce n est pas gênant car une tranche sera suffisante pour avoir un intérêt. Mais s il est grand et large le danger est la dispersion. La stabilité est une très bonne mesure pour résister au bruit. Dans un treillis on peut faire un relationnel (objets complexes en AFC). La définition des classes induit la nature des relations avec d autres classes. On part de relation individuelle et on crée des relations entre eux (un tel résiste à un tel, ceci résiste à cela). Illustration PPT Projet ISTEX-R slide 34 56

ISTEX-SNU. ISTEX en quelques clics dans votre portail documentaire. Séminaire technique ISTEX 18 mars 2015

ISTEX-SNU. ISTEX en quelques clics dans votre portail documentaire. Séminaire technique ISTEX 18 mars 2015 ISTEX-SNU ISTEX en quelques clics dans votre portail documentaire Séminaire technique ISTEX 18 mars 2015 Stéphane Gully - Inist-CNRS / Université de Lorraine Plan Contexte Calendrier / méthode Vision du

Plus en détail

Plan de la présentation

Plan de la présentation Plan de la présentation 1) Intro Problématique, réussites globales, chronologie 2) «Face aux données» (aperçu de la base) L'objet documentaire, les PDFs, les facettes 3) Explication de la méthodologie

Plus en détail

ISTEX, vers des services innovants d accès à la connaissance

ISTEX, vers des services innovants d accès à la connaissance ISTEX, vers des services innovants d accès à la connaissance Synthèse rédigée par Raymond Bérard, directeur de l ABES, à partir du dossier de candidature d ISTEX aux Initiatives d excellence et des réunions

Plus en détail

Le signalement des acquisitions numériques à l échelle nationale Le rôle du hub de métadonnées scénarios et prototype

Le signalement des acquisitions numériques à l échelle nationale Le rôle du hub de métadonnées scénarios et prototype Le signalement des acquisitions numériques à l échelle nationale Le rôle du hub de métadonnées scénarios et prototype Raymond BERARD, directeur de l ABES 0 Sommaire 1. La genèse du projet 2. Etude de faisabilité

Plus en détail

MODE D'EMPLOI. La gestion des versions permettra de compléter et de faire évoluer les fiches dans le temps. NOM DE LA RESSOURCE CONTACT FOURNISSEUR

MODE D'EMPLOI. La gestion des versions permettra de compléter et de faire évoluer les fiches dans le temps. NOM DE LA RESSOURCE CONTACT FOURNISSEUR MODE D'EMPLOI Fiche réalisée le Version Rédacteur La gestion des versions permettra de compléter et de faire évoluer les fiches dans le temps. NOM DE LA RESSOURCE Nom, prénom CONTACT FOURNISSEUR Mail Téléphone

Plus en détail

Un serveur d'archivage

Un serveur d'archivage Un serveur d'archivage destiné au Service Commun de Documentation de l'université de la Méditerranée Encadrement : Noël Novelli Représentants client (S.C.D.) : Axelle Clarisse Ronan Lagadic Equipe Projet

Plus en détail

Gestion collaborative de documents

Gestion collaborative de documents Gestion collaborative de documents ANT box, le logiciel qui simplifie votre GED Les organisations (entreprises, collectivités, associations...) génèrent chaque jour des millions de documents, e-mails,

Plus en détail

Journées ABES-26 mai 2009 [ 2006 2007] [ Fédération Nancy-Université]

Journées ABES-26 mai 2009 [ 2006 2007] [ Fédération Nancy-Université] deux outils pour accéder aux ressources numériques Journées ABES-26 mai 2009 1 Au programme de la présentation 1. n@ncy ncy-clicclic nouvel outil au service des usagers a) historique et contexte b) àquoi

Plus en détail

Rapport de Stage Christopher Chedeau 2 au 26 Juin 2009

Rapport de Stage Christopher Chedeau 2 au 26 Juin 2009 Rapport de Stage Christopher Chedeau 2 au 26 Juin 2009 «Web. De l intégration de pages statiques HTML à un CMS, à la dynamisation d un site grâce au Javascript et l utilisation de nouvelles technologies

Plus en détail

Veille Internet avec les flux RSS, recherche et veille sur les réseaux sociaux

Veille Internet avec les flux RSS, recherche et veille sur les réseaux sociaux URFIST DE TOULOUSE Des formations dans le domaine de l information scientifique et technique et de la publication web PROGRAMME DES STAGES JANVIER-MARS 2013 15/01/2013 : Initiation à LateX 21/01/2013 :

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Compte-rendu re union Campus AAR 3 mars 2015

Compte-rendu re union Campus AAR 3 mars 2015 Compte-rendu re union Campus AAR 3 mars 2015 Table des matières Liste d actions... 2 I. Environnement d analyse : INA, Armadillo... 3 a. Connexion de l outil INA avec API Armadillo... 3 b. Outil d analyse

Plus en détail

Recherche bibliographique

Recherche bibliographique Séminaire «Maîtrise de l information scientifique» Recherche bibliographique Dernière mise à jour : 07/01/2015 - Auteur : Frédérique Flamerie Recherche bibliographique : méthode & outils La recherche bibliographique

Plus en détail

Ecole Préparatoire SNV Université d Oran Semestre 02 2014/2015 Matière : Travaux d Initiative Personnelle Encadrés (TIPE) Prof. M. Z.

Ecole Préparatoire SNV Université d Oran Semestre 02 2014/2015 Matière : Travaux d Initiative Personnelle Encadrés (TIPE) Prof. M. Z. Ecole Préparatoire SNV Université d Oran Semestre 02 2014/2015 Matière : Travaux d Initiative Personnelle Encadrés (TIPE) Prof. M. Z. TALEB Avec quel outil? Comment? Trouvez-vous facilement l information?

Plus en détail

Portail collaboratif Intranet documentaire Dématérialisation de processus

Portail collaboratif Intranet documentaire Dématérialisation de processus Portail collaboratif Intranet documentaire Dématérialisation de processus 2 Le groupe Divalto, Solutions de gestion Catalyseur de performance Créé en 1982, le groupe Divalto propose des solutions de gestion

Plus en détail

BES WEBDEVELOPER ACTIVITÉ RÔLE

BES WEBDEVELOPER ACTIVITÉ RÔLE BES WEBDEVELOPER ACTIVITÉ Le web developer participe aux activités concernant la conception, la réalisation, la mise à jour, la maintenance et l évolution d applications internet/intranet statiques et

Plus en détail

Climat Scolaire - Manuel utilisateur - Chapitre 2 : «Créer, Editer et suivi d un texte»

Climat Scolaire - Manuel utilisateur - Chapitre 2 : «Créer, Editer et suivi d un texte» Climat Scolaire - Manuel utilisateur - Chapitre 2 : «Créer, Editer et suivi d un texte» Espace collaboratif Co-Ment Date : 01/12/2013 Référence du Projet : Chef de Projet : www.cndp.fr/climatscolaire Caroline

Plus en détail

Projet en nouvelles technologies de l information et de la communication

Projet en nouvelles technologies de l information et de la communication Projet en nouvelles technologies de l information et de la communication Site Web universitaire du Prof. Jacques Moeschler. Nono Steeve Semestre de printemps 2013 Sous la direction du Prof Luka Nerima

Plus en détail

LE NUMÉRIQUE Dans ce numéro, vous trouverez :

LE NUMÉRIQUE Dans ce numéro, vous trouverez : VIA L'ACCOMPAGNEMENT PÉDAGOGIQUE LE NUMÉRIQUE Dans ce numéro, vous trouverez : #2 CELENE Module Médiathèque : intégrez vos ressources multimédia dans vos cours VOS SERVICES ET OUTILS NUMÉRIQUES ESTRA,

Plus en détail

Description de Produit Logiciel. AMI News Monitor v2.0. SPD-AMINM-10 v1.0

Description de Produit Logiciel. AMI News Monitor v2.0. SPD-AMINM-10 v1.0 Description de Produit Logiciel AMI News Monitor v2.0 SPD-AMINM-10 v1.0 Octobre 2010 Sommaire 1 Préambule... 3 2 Approbations... 3 3 Fonctionnalités... 4 3.1 Principes... 4 3.2 Sources d information...

Plus en détail

Concevoir sa stratégie de recherche d information

Concevoir sa stratégie de recherche d information Concevoir sa stratégie de recherche d information Réalisé : mars 2007 Dernière mise à jour : mars 2011 Bibliothèque HEC Paris Contact : biblio@hec.fr 01 39 67 94 78 Cette création est mise à disposition

Plus en détail

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM Étude de cas technique QlikView : Big Data Juin 2012 qlikview.com Introduction La présente étude de cas technique QlikView se consacre au

Plus en détail

A LA DÉCOUVERTE DE ZOTERO 4.0

A LA DÉCOUVERTE DE ZOTERO 4.0 A LA DÉCOUVERTE DE ZOTERO 4.0 Un logiciel libre et gratuit pour gérer facilement ses références bibliographiques! 1 Isabelle Zimmermann - BU de Médecine PARTONS À LA DÉCOUVERTE DE ZOTERO : 1. Qu est-ce

Plus en détail

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques Guide de recherche documentaire à l usage des doctorants Partie : Exploiter les bases de données académiques Sylvia Cheminel Dernière mise à jour : décembre 04 PANORAMA DES SOURCES DOCUMENTAIRES ACADEMIQUES...

Plus en détail

Webinar. Découvrez Rubedo, la première solution CMS open-source tirant profit des atouts de Zend Framework et du NoSQL. avec la participation de

Webinar. Découvrez Rubedo, la première solution CMS open-source tirant profit des atouts de Zend Framework et du NoSQL. avec la participation de En partenariat avec Webinar Découvrez Rubedo, la première solution CMS open-source tirant profit des atouts de Zend Framework et du NoSQL avec la participation de 19 mars 2013 Qui sommes-nous? INTRODUCTION

Plus en détail

Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE Contact : Mme Lapedra, stage@isoft.fr ISoft, éditeur de logiciels, est spécialisé dans l informatique décisionnelle et l analyse de données. Son expertise

Plus en détail

findit.lu Les guides d utilisation Leçon 17

findit.lu Les guides d utilisation Leçon 17 Les guides d utilisation Leçon 17 : Configuration des logiciels de gestion bibliographique Qu est-ce qu un logiciel de gestion bibliographique? Un logiciel de gestion bibliographique est un logiciel qui

Plus en détail

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.

Plus en détail

Les outils actuels permettent-ils d automatiser la production de cartes? De quels outils dispose-t-on?

Les outils actuels permettent-ils d automatiser la production de cartes? De quels outils dispose-t-on? Le "Portrait de la Biodiversité Communale" est un document réalisé au niveau national pour chaque commune, regroupant les connaissances publiques disponibles et mobilisables à l'échelle nationale en matière

Plus en détail

Université de Lorraine Licence AES LIVRET DE STAGE LICENCE 2014-2015

Université de Lorraine Licence AES LIVRET DE STAGE LICENCE 2014-2015 Université de Lorraine Licence AES LIVRET DE STAGE LICENCE 2014-2015 1 LA REDACTION DU RAPPORT DE STAGE Le mémoire ne doit pas consister à reprendre tels quels des documents internes de l entreprise ou

Plus en détail

Focus sur : Comparatif de 3 logiciels de gestion des références bibliographiques

Focus sur : Comparatif de 3 logiciels de gestion des références bibliographiques Focus sur : Comparatif de 3 logiciels de gestion des références bibliographiques Les logiciels de gestion des références bibliographiques : Il existe plusieurs dizaines de logiciels de gestion de références

Plus en détail

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte 1Les bases : vos objectifs 2 Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Plus en détail

CATALOGUE DE SERVICES DE LA DIRECTION DU SYSTEME D INFORMATION DE L UNIVERSITE DE LIMOGES

CATALOGUE DE SERVICES DE LA DIRECTION DU SYSTEME D INFORMATION DE L UNIVERSITE DE LIMOGES CATALOGUE DE SERVICES DE LA DIRECTION DU SYSTEME D INFORMATION DE L UNIVERSITE DE LIMOGES Sommaire Fiche 1 : Gestion des identités : annuaires et authentification Fiche 2 : Connectez-vous en toute sécurité

Plus en détail

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Journée organisée par le CRFCB Midi-Pyrénées / Languedoc-Roussillon

Plus en détail

«Les documents référencés ci-dessus étant protégés par les droits d auteur et soumis à la déclaration au Centre Français d exploitation du droit de

«Les documents référencés ci-dessus étant protégés par les droits d auteur et soumis à la déclaration au Centre Français d exploitation du droit de 1 2 «Les documents référencés ci-dessus étant protégés par les droits d auteur et soumis à la déclaration au Centre Français d exploitation du droit de Copie, seules les références bibliographiques peuvent

Plus en détail

Formation à la recherche documentaire sur le web

Formation à la recherche documentaire sur le web Formation à la recherche documentaire sur le web Objectif : Savoir effectuer des recherches pertinentes sur Internet Savoir distinguer les informations fiables sur Internet Savoir effectuer des recherches

Plus en détail

Vue d ensemble. Initiatives des données. Gestion de la trésorerie. Gestion du risque. Gestion des fournisseurs 2 >>

Vue d ensemble. Initiatives des données. Gestion de la trésorerie. Gestion du risque. Gestion des fournisseurs 2 >> Access MD Online Vue d ensemble Access MD Online fournit aux organisations un accès en temps réel à leurs programmes de carte commerciale au sein d un environnement sécurisé, n importe où et n importe

Plus en détail

Archives Ouvertes : retour d expérience et rôle des documentalistes

Archives Ouvertes : retour d expérience et rôle des documentalistes Archives Ouvertes : retour d expérience et rôle des documentalistes Claire Büren - Inria «L édition scientifique : sortez enfin du labyrinthe!» - IECL - 16 décembre 2013 Plan Le contexte Les débuts : les

Plus en détail

Numérique. Mon Université. www.univ-paris-diderot.fr

Numérique. Mon Université. www.univ-paris-diderot.fr 9 Mon Université Numérique L université Paris Diderot met à votre disposition un Environnement Numérique de Travail appelé «Portail ENT». Il vous donne accès, via un point d'entrée unique et sécurisé,

Plus en détail

LA GESTION DE PROJET INFORMATIQUE

LA GESTION DE PROJET INFORMATIQUE LA GESTION DE PROJET INFORMATIQUE Lorraine Structurer, assurer et optimiser le bon déroulement d un projet implique la maîtrise des besoins, des objectifs, des ressources, des coûts et des délais. Dans

Plus en détail

Recherche et veille documentaire scientifique

Recherche et veille documentaire scientifique Recherche et veille documentaire scientifique Élodie Chattot BU Médecine Pharmacie juin 2006 Introduction Le but de cet atelier est de vous initier à la méthodologie de recherche documentaire scientifique,

Plus en détail

Memento de la recherche documentaire en santé

Memento de la recherche documentaire en santé Memento de la recherche documentaire en santé Optimiser ses recherches - Se procurer les documents Rédiger sa bibliographie 1. QUELQUES CONSEILS DE METHODE Avant toute chose, bien choisir ses mots-clés

Plus en détail

Prenez le PLM express

Prenez le PLM express BTS CIM (1) Prenez le PLM express BENOîT DONY [1] Les logiciels de PLM (Product Lifecycle Management) permettent la gestion des données techniques d un produit tout au long de son cycle de vie. Autrefois

Plus en détail

TUTORIEL Qualit Eval. Introduction :

TUTORIEL Qualit Eval. Introduction : TUTORIEL Qualit Eval Introduction : Qualit Eval est à la fois un logiciel et un référentiel d évaluation de la qualité des prestations en établissements pour Personnes Agées. Notre outil a été spécifiquement

Plus en détail

Livre Blanc WebSphere Transcoding Publisher

Livre Blanc WebSphere Transcoding Publisher Livre Blanc WebSphere Transcoding Publisher Introduction WebSphere Transcoding Publisher vous permet d'offrir aux utilisateurs des informations Web adaptées à leurs besoins. Il vous permet, par exemple,

Plus en détail

Cursus 2013 Déployer un Content Management System

Cursus 2013 Déployer un Content Management System Cursus 2013 Déployer un Content Management System Les critères d évaluation d un CMS Les utilisateurs, après examen de la taille de la base d utilisateurs en France. La communauté, selon son dynamisme

Plus en détail

Spip 2. Premiers pas pour créer son site web. Anne-Laure Quatravaux Dominique Quatravaux. Avec la contribution de Sandrine Burriel

Spip 2. Premiers pas pour créer son site web. Anne-Laure Quatravaux Dominique Quatravaux. Avec la contribution de Sandrine Burriel Anne-Laure Quatravaux Dominique Quatravaux Spip 2 Premiers pas pour créer son site web Avec la contribution de Sandrine Burriel Groupe Eyrolles, 2009, ISBN : 978-2-212-12502-3 Pourquoi choisir Spip? Vous

Plus en détail

Scrum + Drupal = Julien Dubois

Scrum + Drupal = Julien Dubois Pourquoi j aime Scrum Pourquoi Scrum et Drupal sont faits pour s entendre Scrum + Drupal = Julien Dubois Happyculture.coop De quoi allons-nous parler? 1. Que sont les méthodes agiles? 2. Présentation de

Plus en détail

Éditeur Koninklijke Brill Langue(s) Multilingue

Éditeur Koninklijke Brill Langue(s) Multilingue Brill Type Périmètre d'abonnement Articles des archives de revues scientifiques en texte intégral La totalité des archives des revues de Brill jusque 2012 Domaine Public Sciences humaines et sociales,

Plus en détail

Cahier des charges - Refonte du site internet www.sciencespo- rennes.fr

Cahier des charges - Refonte du site internet www.sciencespo- rennes.fr Cahier des charges Refonte du site internet www.sciencesporennes.fr Procédure d achat conformément à l article 28 alinéa I du Code des marchés publics 1. Présentation de la structure Reconnu pour son excellence

Plus en détail

Créateur de sites Internet. Développeur de logiciels. www.logipro.com

Créateur de sites Internet. Développeur de logiciels. www.logipro.com Créateur de sites Internet Développeur de logiciels Logipro, partenaire de vos «e projets» depuis 1997 Fort d une dizaine d années d expériences dans le développement de solutions Internet globales, Logipro

Plus en détail

HighPush. document 3.0 18/06/2009 Révision pour version 3.0 2.0 20/11/2008 Revision pour la 2.0 1.0 01/10/2008 Documentation initiale.

HighPush. document 3.0 18/06/2009 Révision pour version 3.0 2.0 20/11/2008 Revision pour la 2.0 1.0 01/10/2008 Documentation initiale. Version du Date document 3.0 18/06/2009 Révision pour version 3.0 2.0 20/11/2008 Revision pour la 2.0 1.0 01/10/2008 Documentation initiale Commentaires 1 Table des matières 1 Introduction / Identification...

Plus en détail

Les grandes facettes du développement Web Nicolas Thouvenin - Stéphane Gully

Les grandes facettes du développement Web Nicolas Thouvenin - Stéphane Gully Les grandes facettes du développement Web Qui sommes nous? Nicolas Thouvenin Stéphane Gully Projets Web depuis 2000 LAMP, NodeJS HTML, CSS, jquery

Plus en détail

Survol des nouveautés

Survol des nouveautés Maîtrisez la conception de sites Web en toute simplicité WebExpert est un puissant logiciel d'édition Web qui vous permet de concevoir et de gérer des sites Web, de façon professionnelle en toute simplicité.

Plus en détail

PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES. 12 mars 2015

PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES. 12 mars 2015 PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES 12 mars 2015 Sommaire La plateforme Sciencesconf.org Le portail L espace conférence Site web Gestion scientifique Dépôt, sélection, envoi de mails, édition

Plus en détail

WysiUpStudio. CMS professionnel. pour la création et la maintenance évolutive de sites et applications Internet V. 6.x

WysiUpStudio. CMS professionnel. pour la création et la maintenance évolutive de sites et applications Internet V. 6.x WysiUpStudio CMS professionnel pour la création et la maintenance évolutive de sites et applications Internet V. 6.x UNE SOLUTION DE GESTION DE CONTENUS D UNE SOUPLESSE INÉGALÉE POUR CRÉER, MAINTENIR ET

Plus en détail

Un site Web performant p 3. Les moteurs de la réussite p 4

Un site Web performant p 3. Les moteurs de la réussite p 4 Un site Web performant p 3 Les moteurs de la réussite p 4 Fonctionnalités (en bref) p 5 Fonctionnalités (petit zoom sur les rubriques) p 6 Démo p 8-2 - Avec la FCGA, c est facile La Fédération vous propose

Plus en détail

Les Jeudis du numérique

Les Jeudis du numérique Les Jeudis du numérique Plateforme de formation 1 er avril 2010 Emmanuel Pret Ingénieur d Etudes IUT - Université Bordeaux3 Emmanuel.pret@iut.u-bordeaux3.fr 05 57 12 20 03 Les plateformes de formation

Plus en détail

QUI SOMMES-NOUS? Cette solution s adresse aussi bien aux PME/PMI qu aux grands groupes, disposant ou non d une structure de veille dédiée.

QUI SOMMES-NOUS? Cette solution s adresse aussi bien aux PME/PMI qu aux grands groupes, disposant ou non d une structure de veille dédiée. PRESENTATION QUI SOMMES-NOUS? La société VIEDOC, formée d ingénieurs expérimentés, conseille depuis 2004 les entreprises dans les domaines de la veille, de l intelligence économique et de l innovation.

Plus en détail

EUDONET EN 2014 QUI SOMMES NOUS? 800 RÉFÉRENCES CLIENTS ÉDITEUR ET INTÉGRATEUR DE EUDONET + 14 ANS D EXPÉRIENCE

EUDONET EN 2014 QUI SOMMES NOUS? 800 RÉFÉRENCES CLIENTS ÉDITEUR ET INTÉGRATEUR DE EUDONET + 14 ANS D EXPÉRIENCE QUI SOMMES NOUS? ÉDITEUR ET INTÉGRATEUR DE EUDONET + 14 ANS D EXPÉRIENCE 800 RÉFÉRENCES CLIENTS IMPLANTATIONS : FRANCE (COURBEVOIE, LYON, NANTES) ET CANADA (MONTRÉAL) EFFECTIF : 100 PERSONNES EUDONET EN

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

LA GESTION DE PROJET INFORMATIQUE

LA GESTION DE PROJET INFORMATIQUE Structurer, assurer et optimiser le bon déroulement d un projet implique la maîtrise des besoins, des objectifs, des ressources, des coûts et des délais. Dans le cadre de la gestion d un projet informatique

Plus en détail

Brique BDL Gestion de Projet Logiciel

Brique BDL Gestion de Projet Logiciel Brique BDL Gestion de Projet Logiciel Processus de développement pratiqué à l'enst Sylvie.Vignes@enst.fr url:http://www.infres.enst.fr/~vignes/bdl Poly: Computer elective project F.Gasperoni Brique BDL

Plus en détail

UE 8 Systèmes d information de gestion Le programme

UE 8 Systèmes d information de gestion Le programme UE 8 Systèmes d information de gestion Le programme Légende : Modifications de l arrêté du 8 mars 2010 Suppressions de l arrêté du 8 mars 2010 Partie inchangée par rapport au programme antérieur Indications

Plus en détail

Mettre en place une infrastructure Web nouvelle génération avec Drupal et Acquia

Mettre en place une infrastructure Web nouvelle génération avec Drupal et Acquia Mettre en place une infrastructure Web nouvelle génération avec Drupal et Acquia Pour l architecte de solutions web Table des matières Présentation générale... 3 Des outils disparates.... 4 Une gestion

Plus en détail

Atelier 1. Portails documentaires : BioLib et Cemadoc

Atelier 1. Portails documentaires : BioLib et Cemadoc Atelier 1 Portails documentaires : BioLib et Cemadoc Intervenants Emmanuelle Jannes-Ober, responsable de la médiathèque - Institut Pasteur Odile Hologne, chef du service de l infomation scientifique et

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

D une part, elles ne peuvent faire table rase de la richesse contenue dans leur système d information.

D une part, elles ne peuvent faire table rase de la richesse contenue dans leur système d information. PACBASE «Interrogez le passé, il répondra présent.». Le Module e-business Les entreprises doivent aujourd hui relever un triple défi. D une part, elles ne peuvent faire table rase de la richesse contenue

Plus en détail

Réseau - Sécurité - Métrologie - Data Center. Le leader du marché allemand des UTM débarque en France avec des arguments forts!

Réseau - Sécurité - Métrologie - Data Center. Le leader du marché allemand des UTM débarque en France avec des arguments forts! Réseau - Sécurité - Métrologie - Data Center Energy News Le coin des technos : Sophos UTM 1er trimestre 2013 Le leader du marché allemand des UTM débarque en France avec des arguments forts! Vous trouverez

Plus en détail

PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES. h tt p : / / w w w. s c i e n c e s c o n f. o rg

PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES. h tt p : / / w w w. s c i e n c e s c o n f. o rg PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES h tt p : / / w w w. s c i e n c e s c o n f. o rg Sommaire Introduction Le portail Sciencesconf.org L espace conférence Site web Inscription Gestion scientifique

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

Twitter et Netvibes pour la veille

Twitter et Netvibes pour la veille Personnaliser sa veille en santé publique Twitter et Netvibes pour la veille Laetitia Haroutunian Documentaliste, Inpes Au programme! Introduction : définitions et enjeux de la veille! Quelques conseils

Plus en détail

Webmaster / Webdesigner / Wordpress

Webmaster / Webdesigner / Wordpress Webmaster / Webdesigner / Wordpress Pré-requis : Projet professionnel. Bonne maîtrise de l'ordinateur. Bases en infographie et / ou traitement de texte fortement recommandées. Objectifs : Concevoir un

Plus en détail

S7 Le top 10 des raisons d utiliser PHP pour moderniser votre existant IBM i

S7 Le top 10 des raisons d utiliser PHP pour moderniser votre existant IBM i Modernisation IBM i Nouveautés 2014-2015 IBM Power Systems - IBM i 19 et 20 mai 2015 IBM Client Center, Bois-Colombes S7 Le top 10 des raisons d utiliser PHP pour moderniser votre existant IBM i Mardi

Plus en détail

! Text Encoding Initiative

! Text Encoding Initiative Format XML: suite! le contenu d un élément est la concaténation de! texte! et d éléments (imbrication)! => structure arborescente! pas de chevauchement de balises! => exemple : une analyse syntagmatique

Plus en détail

Le bénéfice maximal de votre documentation

Le bénéfice maximal de votre documentation www.fluidtopics.com Le bénéfice maximal de votre documentation Manuels utilisateurs, guides techniques, notes d installation ou de maintenance, plaquettes marketing La documentation de vos produits est

Plus en détail

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS Annuaire Ouvrage publié en principe chaque année ou selon une périodicité proche de l'année, qui donne une liste de noms de personnes ou d'organismes

Plus en détail

De l OpenData aux citoyens : potentiel et limites des plateformes collaboratives

De l OpenData aux citoyens : potentiel et limites des plateformes collaboratives De l OpenData aux citoyens : potentiel et limites des plateformes collaboratives Jean-François Gigand, Geonef Raphaël Velt, IRI http://geonef.fr/sigll-opendata L'Institut de Recherche et d'innovation (IRI)

Plus en détail

Présentation générale du projet data.bnf.fr

Présentation générale du projet data.bnf.fr Présentation générale du projet data.bnf.fr La Bibliothèque nationale a mis en œuvre un nouveau projet, qui a pour but de rendre ses données plus utiles sur le web. Ceci nécessite de transformer données

Plus en détail

ENDNOTE X2 SOMMAIRE. 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque

ENDNOTE X2 SOMMAIRE. 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque 1 ENDNOTE X2 SOMMAIRE 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque 2. Manipuler une bibliothèque EndNote 2.1. La saisie

Plus en détail

Projet de Portail des thèses. SYNTHESE DE L ENQUETE DESTINEE AUX DOCTORANTS août 2010

Projet de Portail des thèses. SYNTHESE DE L ENQUETE DESTINEE AUX DOCTORANTS août 2010 Projet de Portail des thèses SYNTHESE DE L ENQUETE DESTINEE AUX DOCTORANTS août 2010 1. Introduction Ce document synthétise les principaux résultats d une enquête qui a été menée auprès de deux panels

Plus en détail

FEN FICHE EMPLOIS NUISANCES

FEN FICHE EMPLOIS NUISANCES Version 4.8.2 Date mise à jour : 19 Février 2013 Auteur : LAFUMA Gilles Email : glfm02@orange.fr Web : www.procarla.fr/soft Présentation : FEN FICHE EMPLOIS NUISANCES Le Logiciel FEN Fiche emploi nuisance

Plus en détail

Les nouveaux sites documentaires de l IRD

Les nouveaux sites documentaires de l IRD Les nouveaux sites documentaires de l IRD Nouvel Horizon, nouvel intranet, nouveaux Netvibes - IRD France Sud - Logo d après Clipart-fr et Freepik.com De quoi allons nous parler? Les sites de la Documentation

Plus en détail

Cette solution s adresse aussi bien aux PME/PMI qu aux grands groupes, qu ils disposent ou non d une structure de veille dédiée.

Cette solution s adresse aussi bien aux PME/PMI qu aux grands groupes, qu ils disposent ou non d une structure de veille dédiée. PRESENTATION QUI SOMMES-NOUS? La société VIEDOC, formée d ingénieurs expérimentés, conseille depuis 2004 les entreprises dans les domaines de la veille, de l intelligence économique et de l innovation.

Plus en détail

Ministère de la Culture et de la Communication

Ministère de la Culture et de la Communication Par Thierry CLAERR, Service du Livre et de la Lecture Jean-François MOUFFLET, Service interministériel des Archives de France Ministère de la Culture et de la Communication Stockage et conservation des

Plus en détail

Nouveautés Ignition v7.7

Nouveautés Ignition v7.7 ... Nouveautés Ignition v7.7 Nouveautés Ignition v7.7 Découvrez le Nouveau Scada avec plus de 40 nouveautés Principales nouveautés :... Cloud Templates Template Repeater Client Multilingue + Sequential

Plus en détail

CMS Open Source : état de l'art et méthodologie de choix

CMS Open Source : état de l'art et méthodologie de choix CMS Open Source : état de l'art et méthodologie de choix Définition d'un CMS (wikipedia) Les CMS sont une famille de logiciel de conception et de mise à jour dynamique de sites web partageant les fonctionnalités

Plus en détail

Référencement naturel

Référencement naturel Référencement naturel 1er novembre 2011 Pour optimiser votre positionnement dans les moteurs de recherche, renforcer votre visibilité en ligne et améliorer le contenu de votre site web pour le référencement

Plus en détail

Présentation des nouveaux services de l ENT Second degré Rentrée scolaire 2015 et fin du 1 er trimestre de l année scolaire 2015-2016

Présentation des nouveaux services de l ENT Second degré Rentrée scolaire 2015 et fin du 1 er trimestre de l année scolaire 2015-2016 Important - Période de fermeture estivale 2015 L installation de la version 8.0 et la réalisation du traitement de bascule d année auront lieu du 10 juillet au soir jusqu à la fin du mois de juillet. Durant

Plus en détail

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.

Plus en détail

Communiqué de Lancement

Communiqué de Lancement Direction du Marketing Produits Sage - Division Mid Market Communiqué de Lancement Rapprochement Bancaire 1000 Produit : Rapprochement Bancaire 1000 Bases de Données : Oracle - MS/SQL Server Microsoft

Plus en détail

AA-SO5 KIDA/GSOV/VAMDC

AA-SO5 KIDA/GSOV/VAMDC AA-SO5 Centres de traitement et d archivage de données KIDA - 2 mars 2015 AA-SO5 KIDA/GSOV/VAMDC Contexte général L observation des molécules dans le milieu interstellaire, mais aussi dans les atmosphères

Plus en détail

Devenez un véritable développeur web en 3 mois!

Devenez un véritable développeur web en 3 mois! Devenez un véritable développeur web en 3 mois! L objectif de la 3W Academy est de former des petits groupes d élèves au développement de sites web dynamiques ainsi qu à la création d applications web

Plus en détail

M2 SIAW - Exemples de stages réalisés. Gabriella Salzano - Document de travail - 28/1/2015

M2 SIAW - Exemples de stages réalisés. Gabriella Salzano - Document de travail - 28/1/2015 M2 SIAW - Exemples de stages réalisés Gabriella Salzano - Document de travail - 28/1/2015 Les étudiants du M2 SIAW réalisent généralement leurs stages dans des entreprises, parfois dans des laboratoires

Plus en détail

CRÉER, ROUTER ET GÉRER UNE NEWSLETTER, UN E-MAILING

CRÉER, ROUTER ET GÉRER UNE NEWSLETTER, UN E-MAILING CRÉER, ROUTER ET GÉRER UNE NEWSLETTER, UN E-MAILING Durée : 3J / 21H Formateur : Consultant expert en PAO et Web-marketing. Groupe de : 4 max Formation au web marketing Objectifs : Mettre en oeuvre des

Plus en détail