Outils de veille : typologie



Documents pareils
Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Recherche bibliographique

Apprentissage Automatique

Introduction au datamining

Table des matières. Préface...5. Introduction...9

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

JADT /06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire

Veille stratégique sur Internet Comprendre les enjeux, maîtriser les outils et partager l'information

Marc SALLIERES CEO ALTIC

Logiciel XLSTAT version rue Damrémont PARIS

TRAVAUX DE RECHERCHE DANS LE

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

Ressources lexicales au service de recherche et d indexation des images

Introduction au Data-Mining

Extraction d informations stratégiques par Analyse en Composantes Principales

Introduction au Data-Mining

LES REFERENTIELS DES TROIS BACCALAUREATS PROFESSIONNELS DU TERTIAIRE COMMERCIAL VENTE COMMERCE SERVICES

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS

Description de Produit Logiciel. AMI News Monitor v2.0. SPD-AMINM-10 v1.0

Quels apprentissages info-documentaires au collège?

4.2 Unités d enseignement du M1

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

La classification automatique de données quantitatives

! Text Encoding Initiative

Générer du code à partir d une description de haut niveau

La recherche d'information sur Internet

DES OUTILS DE RECHERCHE À VOTRE MESURE, LA SUITE JURIBISTRO MD DU CAIJ : COMMENT MIEUX EXPLOITER CES OUTILS? PLAN DE FORMATION

TYPO3 & Synomia Cédric Tempestini <ctempestini@archriss.com>

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

Le traitement automatique des langues dans les industries de l'information

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Participer à l activité en ligne d un groupe. Michel Futtersack, Faculté de Droit, Université Paris Descartes, Sorbonne Paris Cité

Vocabulaire juridique multilingue comparé. Caroline Reichling Direction générale de la Traduction Cour de justice de l Union européenne

Chef de file dans le développement de solutions de gestion de contenu

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Coheris est agréé organisme de formation, n d agrément

Le concept de veille. Définitions. Définition de l AFNOR

Gestion collaborative de documents

Langue, techniques de rédaction et correction d épreuves (412-2A1-LG)

Cours n 2. UE706: Veille et intelligence économique EC3: Intelligence Économique et réseaux. Promo. Master : SIC. Documentation numérique

Initiation à la recherche documentaire

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

Luc Grivel (*, **)

LES MOTEURS DE RECHERCHE SUR INTERNET

Grammaires d unification

fiche D AUTOCORRECTION Frimousse, une petite chienne qu'on a adoptée le mois dernier, est intelligente et docile.

Fourniture d un outil de gestion du courrier électronique pour les sites internet de la Documentation Française

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

Une Démarche pour la sélection d outils de cartographie des processus métiers

Constituer des profils d'experts scientifiques, de centres de recherche et d entreprises innovantes

La Veille Scientifique

Langue Française. Syllabus A1. Description globale du niveau A1 utilisateur élémentaire

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Conception d'une plate-forme collaborative Microsoft SharePoint 2003

Critères comparatifs

Compte-rendu de Hamma B., La préposition en français

Recherche et veille documentaire scientifique

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

ISTEX, vers des services innovants d accès à la connaissance

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

I.1 Introduction. I.2 La recherche d information. I.2.1 Définitions

Les documents primaires / Les documents secondaires

F7n COUP DE BOURSE, NOMBRE DÉRIVÉ

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

N SIMON Anne-Catherine

La recherche d information

White Paper - Livre Blanc

Débouchés professionnels

Calculs de probabilités avec la loi normale

PRISE EN MAIN RAPIDE

Les Bases de données de presse. Recherche documentaire

Au-delà de la simple gestion de votre fonds documentaire, évoluez vers la gestion complète de vos flux d informations.

La documentation en CIO

Introduction. Internet : Moteur de recherche : Google, Yahoo, Forum

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

SharePoint Foundation 2013 Construire un intranet collaboratif en PME (édition enrichie de vidéos)

Initiation à la recherche documentaire LA RECHERCHE SUR INTERNET

TEXT MINING Tour d Horizon

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

Annexe commune aux séries ES, L et S : boîtes et quantiles

Évaluation d outils de Text Mining : démarche et résultats

Ecole Préparatoire SNV Université d Oran Semestre /2015 Matière : Travaux d Initiative Personnelle Encadrés (TIPE) Prof. M. Z.

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

La recherche documentaire et la recherche d informations professionnelles. BU Sciences BIU Montpellier PPE 2012

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Les algorithmes de fouille de données

MANUEL DE PROCÉDURE POUR LA MISE À JOUR DU SITE DE FIDAFRIQUE. Documentation utilisateur Octobre 2005

Guide utilisateur i-milo >> Décisionnel

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Business Intelligence

Livret personnel de compétences

SYSTRAN 7 Guide de démarrage

Transcription:

Outils de veille : typologie Claire FRANCOIS Unité de recherche et Innovation INIST / CNRS

Plan Introduction Les grands types d outils de veille Les différentes fonctionnalités Les technologies mises en œuvre 2 exemples : Stanalyst et Leximine 2

Introduction Veille : différents besoins selon étapes du processus Recherche d information et surveillance Collecte et gestion Analyse : Textuelle Bibliométrie Infométrie Visualisation itérations et interactions 3

Types d outils de veille Recherche d information Bases de données, Internet : portails, annuaires Moteurs de recherche, Agents intelligents Surveillance Outils de surveillance des différentes sources Outils de push Gestion documentaire et gestion des connaissances Exploration du contenu : Analyse texte Classification et Cartographie Évolutions temporelles Systèmes complets de gestion de l information Keywatch ApertoLibro 4

Méthodes utilisées Bibliométrie différents modes de représentation des résultats Analyse textuelle requêtes et textes collectés Statistique ou linguistique Infométrie Classement ou catégorisation Classification automatique Evolution temporelle Visualisation de l information Arborescence graphes Cartographie 5

Les méthodes bibliométriques Exemples : Tétralogie, WordMapper, Simbad, Stanalyst

Quelles analyses? Construire des tableaux de répartition des références selon un ou plusieurs critères Type d Information Mots-clés, titres et résumés des documents Code de classement Auteurs Affiliations (Établissement, pays) Type de document : revues, rapports, communications de congrès Pays éditeur Langue de communication Type d Analyse Analyse de contenu Analyse des acteurs et de leurs relations Analyse de leurs moyens de communication Date de publication Analyse de l évolution de l activité de différents domaines 7

Les lois bibliométriques Fréquence Bradford : productivité des revues scientifiques Une relative petite proportion de périodiques peut satisfaire la requête d une grande proportion d articles. Permet de de déterminer le noyau des périodiques qui cernent le mieux le sujet Lotka : productivité des auteurs Il y a, par rapport au nombre d auteurs qui publient un article, n 2 fois moins d auteurs qui publient n articles. Zipf : répartition des mots-clés Principe du moindre effort, on utilise plus facilement des mots familiers que des mots inhabituels 1 2 3 4 5 n 8

Analyse textuelle

Approches statistiques Traitements de lématisation Fréquence et cooccurrence des termes Segments répétés Utilisation de ressources terminologiques : Dictionnaires de mots vides, Dictionnaires d équivalence, Outils : Alceste, Tétralogie, WordMapper, Sphynix Lexica 10

Approches linguistiques (1) Utilisation de ressources terminologiques : Reconnaissance des termes sous la forme d origine ou sous des formes variantes Analyse des phrases : basée sur les patrons syntaxiques et marqueurs linguistiques Analyse sémantique Résumé ou traduction automatique Ex : Leximine, DigOut4U, Pertimm, Tropes, Insight Discoverer 11

Les variantes flexionnelles La variation flexionnelle permet d'identifier, pour chaque terme, les formes singulier / pluriel des noms Anglais bacterium/bacteria activity/activities Français cheval/chevaux eau/eaux corail/coraux 12

Les variantes syntaxiques (1) Variation d insertion : ajout de tout mot à l'intérieur du groupe nominal structural erm genes -> Structural genes Système racinaire de surface -> Système de surface Variation de coordination : formes coordonnées de mots (adjectifs ou noms) à l'intérieur du groupe nominal structural and regulatory genes -> Structural genes gène de régulation et de structure -> Gène de structure 13

Les variantes syntaxiques (2) Variation de permutation : tout mot ou groupes de mots pouvant permuter autour d'un élément pivot (prépositions ou séquences verbales) : mechanism of clarithromycin resistance -> Resistance mechanism Quasi-inexistante pour le français 14

Variantes morpho-derivationnelles Propriétés linguistiques de mots pouvant être dérivés en d autres mots de catégories grammaticales différentes : abdomen /abdominal dérivations nom adjectif abort/abortion dérivation verbe nom Rare species ->rarely encountered enterococcus species dérivation de l adjectif rare en adverbe : rarely, insertion de encountered enterococcus Variation de alimentation -> Alimentation hydrique d'un arbre varie dérivation du nom variation en verbe varie 15

Exemple : Processus ILC (1) Le traitement automatique des ressources terminologiques : étiquetage grammatical du lexique (TreeTagger) création/utilisation de ressources morphodérivationnelle à partir des mots du lexiques formatage des lexiques en règles PATRII règles sur les mots et règles sur les termes compilation des lexiques en PATRII par l analyseur FASTR 16

Exemple : Processus ILC (2) Le traitement du corpus étiquetage grammatical du corpus (TreeTagger) PATRII indexation du corpus 17

Infométrie

Classement - classification Classement ou catégorisation Mode supervisé Affectation des documents dans une arborescence Ex : Exalead, Vivisimo, Classification automatique Méthodes d analyse de données Méthodes neuronales 19

Analyse de données (1) Méthodes factorielles Produisent des représentations graphiques permettant de positionner les objets sur un plan = réduction dimensionnelle Les composantes des axes factoriels = la solution d une équation mathématique Méthodes de classification Produisent des classes permettant de grouper les objets à décrire Définissent les classes à partir d une formulation 20

Analyse de données (2) Méthodes factorielles Classifications Analyse en Composantes principales Analyse discriminante Analyse Factorielle des correspondances hiérarchique ascendante descendante non hiérarchique k-means Centres mobiles Nuées dynamiques x x x x x x x x x x x x x x O x x O x x x x x x O x xx 21

Classification automatique Mots associés Distance : cooccurrence entre descripteurs Classification hiérarchique Ex : Leximine, WordMapper, SDOC K-means axiales Classification non hiérarchique Ex : CartoWeb, Neurodoc SOM : cartes auto-adaptatives de Kohonen Méthode neuronale : apprentissage compétitif, Contraintes topographiques Ex : Websom, MultiSom 22

Evolution temporelle Courbe de suivi dans le temps d un sujet ou d un terme Ex : Péricles, Leximine Evolution entre 2 analyses à T et T+1 WordMapper Distinction des thèmes émergents, stabilisés et déclinants. Calliope 23

Visualisation

Approches utilisées Arborescence Ex : Exalead, Vivisimo Graphes des classes, réseaux Ex : Leximine, Wordmapper, Tétralogie moteurs Webbrain, kartoo, Mapstan Cartographies : Analyses factorielles Ex : Tétralogie, CartoWeb, Neurodoc, Centralité, densité, ex :Sdoc Cartographie par pavage, ex : Miner 3D, Map.net 25

Mots associés : graphe de cluster SDOC 26

WordMapper Cluster 27

MapStanSearch Cartographie de sites, capitalisation des requêtes des autres internautes. http://search.mapstan.net/fr 28

Webbrain Navigation dans une hiérarchie de concepts http://www.webbrain.com/html/default_win.html 29

Les méthodes factorielles Analyse en Composantes principales S applique aux tableaux de mesures Objets * caractères quantitatifs Analyse factorielle des Correspondances S applique aux tableaux de contingence Caractères qualitatifs * Caractères qualitatifs Ce tableau contient des effectifs Analyse factorielle discriminante Expliquer un caractère qualitatif par un ensemble de caractères quantitatifs. 30

Exemple d ACP C A Corrélations entre classes >= 0,3 >= 0,2 et < 0,3 >= 0,1 et < 0,2 classe isolée B Neurodoc 31

Tétralogie atlas.irit.fr 32

Mots associés : cartographie Densité : moyenne des associations internes SDOC Centralité : moyenne des associations externes 33

mimer3d Visualisation des sites sous un pavage 3D coloré http://www.miner3d.com 34

Map.net (1) Navigation dans les classes de premier niveau Requête : linguistique http://maps.map.net 35

Map.net (2) Navigation dans les sous-classes d une classe premier niveau : la catégorie informatique Intégré dans le site de PubMed 36

Kartoo Métamoteur, Cartographie de sites http://www.kartoo.com 37

WebMap 38

Claude Aschenbrenner Miste Paris 2001-2002