Recherche et Extraction d'information Généralités



Documents pareils
De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Bases de données documentaires et distribuées Cours NFE04

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

OASIS Date de publication

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

Parcours DIWEB : (Données, Interaction et Web)

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie

MARKETING. Denis Pettigrew D. Se. gestion Professeur titulaire de marketing Université du Québec à Trois-Rivières

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Exercice 3 (5 points) A(x) = 1-e -0039' e- 0,039x A '() -'-,..--,-,--,------:-- X = (l_e-0,039x)2

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

XIII. Préface. Introduction 1. de marketing direct

Apprentissage Automatique

LA DÉMARCHE DE VEILLE S.A. MARCHAND PREMIERE PARTIE : AUDIT SUR LA COMMUNICATION INTERNE

College Du Chinchon. Torniké Sidamonidzé 3C. M. Brulé

La fraude à la carte bancaire

Programme Pédagogique National du DUT «Gestion administrative et commerciale» Présentation de la formation

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Place de Wallonie, 1 à 5100 Jambes Secrétariat : 081/ Accompagnement.recherche@spw.wallonie.be. Guide pratique pour les études de faisabilité

PARTICIPEX II. Faire grandir les PME de notre région. Fonds Professionnel de Capital Investissement géré par Participex Gestion

Trois approches du GREYC pour la classification de textes

Cours n 2. UE706: Veille et intelligence économique EC3: Intelligence Économique et réseaux. Promo. Master : SIC. Documentation numérique

Méthodologie d'évaluation des filtres anti-spam

Etablissement Recevant du Public (ERP) de 5 ème catégorie avec locaux à sommeil

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

Méthodologie d'évaluation des filtres anti-spam

Introduction au Data-Mining

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Les diplômes de français professionnel

Gestion de la Relation Client (GRC)

Introduction à la B.I. Avec SQL Server 2008

Déployer une Stratégie Web Globale

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

N SIMON Anne-Catherine

POLITIQUE RELATIVE À L EMPLOI ET À LA QUALITÉ DE LA LANGUE FRANÇAISE

RÉSUMÉ DESCRIPTIF DE LA CERTIFICATION (FICHE RÉPERTOIRE)

Gestion d E-réputation. Management de marque

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

FACULTÉ DES SCIENCES DE L ADMINISTRATION UNIVERSITÉ LAVAL MARKETING RELATIONNEL MRK-22339

PROJET DE FIN D ETUDES

RESPONSABLE DU DEVELOPPEMENT COMMERCIAL IMPORT EXPORT

UDSG CLASSIFICATION DOSSIER DOCUMENTAIRE

Analyser le texte des enquêtes

LES OBJECTIFS. Branche réforme. Buts à atteindre selon le modèle d apprentissage

BTS Assistant de gestion de PME-PMI à référentiel commun européen

PRISMA OFFRE SÉMANTIQUE

Management partie 2 : Marketing

Coheris est agréé organisme de formation, n d agrément

Suite NCR APTRA. La première plateforme logicielle libre-service financière au monde.

L objectif de cet enseignement Est de comprendre comment la créativité et l innovation sont les moteurs de l évolution technologique

Mercredi 15 Janvier 2014

SQL Server 2014 Administration d'une base de données transactionnelle avec SQL Server Management Studio

Le Cadre Européen des Certifications: les principaux défis. Manuela Bonacci Roma, le 9 juin 2010

Éléments d informatique Cours 3 La programmation structurée en langage C L instruction de contrôle if

SQL Server Administration d'une base de données transactionnelle avec SQL Server Management Studio (édition enrichie de vidéos)

Méthodes et outils employés pour développer des logiciels libres

TABLEAU CROISE DYNAMIQUE

Cinq questions sur la vraie utilité de l'iso Alexandre Fernandez-Toro

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

ITIL : Premiers Contacts

Différent et Compétent en Bretagne

Campus. Boostez les talents commerciaux de votre entreprise

Algorithmes d'apprentissage

LE PLAN D'AMÉLIORATION DE LA FONCTION MARKETING

RÉSUMÉ PLAN D'AFFAIRES

LE MODELE CONCEPTUEL DE DONNEES

Plan de formation : Certification OCA Oracle 11g. Les administrateurs de base de données (DBA) Oracle gèrent les systèmes informatiques

Veille stratégique sur Internet Comprendre les enjeux, maîtriser les outils et partager l'information

Microsoft Dynamics CRM : Optimiser la relation client. Être opérationnel sur les différents modules proposés par Microsoft Dynamics CRM 4.0.

MASTER EUROPEEN EN MANAGEMENT ET STRATEGIE D ENTREPRISE SPECIALISATION MANAGEMENT DU DEVELOPPEMENT DURABLE

RESUME DESCRIPTIF DE LA CERTIFICATION (FICHE OPERATIONNELLE METIERS)

TEXT MINING Tour d Horizon

Speexx Basic Anglais, Français, Allemand, Italien, Espagnol,

Contrats et immatériel

PLAN DE COMMUNICATION TACTIQUE COMM Faculté des lettres : Département d'information et de communication PLAN DE COURS

Le marketing stratégique

UCL. Université catholique de Louvain. Métro Web : logiciel de support à l'évaluation de la qualité ergonomique des sites web.

Cas n COMP/M CREDIT MUTUEL / COFIDIS. RÈGLEMENT (CE) n 139/2004 SUR LES CONCENTRATIONS

INF6304 Interfaces Intelligentes

S3CP. Socle commun de connaissances et de compétences professionnelles

Urbanisation de système d'information. PLM 3 (Product Lifecycle Management) Élaborations, versions, variantes, configurations

Une solution éprouvée pour votre entreprise

DIPLÔME APPROFONDI DE LANGUE FRANÇAISE

GUIDE DE PAIEMENT. Pour Bien Effectuer votre Paiement, veuillez suivre les instructions suivantes :

N. Paparoditis, Laboratoire MATIS

Théories de la Business Intelligence

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Gestion du parc informatique matériel et logiciel de l Ensicaen. Rapport de projet. Spécialité Informatique 2 e année. SAKHI Taoufik SIFAOUI Mohammed

Principes de management de la qualité

REFERENTIEL PROFESSIONNEL - BAPAAT

Bases de données pour la recherche : quels enjeux et quel rôle pour les patients?

L importance de la fonction RH dans les organisations

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

FORUM STAGES JOBS EMPLOIS

W3MS Web, Marketeur, Manager de Médias sociaux

Description du programme du Master M2 MIAGE SIIN (1)

Transcription:

Recherche et Extraction d'information Généralités Mathieu Roche Cours ECDA 2014/2015

Plan Motivations Veille technologie Les défis Les méthodes en RI Généralités Les limites des approches actuelles Approches pour améliorer les résultats Evaluation en RI 2

Pourquoi la RI? Un exemple : la veille technologique (1/7) Définition : La veille technologique est l'art de repérer, collecter, traiter, stocker des informations et des signaux pertinents (faibles, forts) qui vont permettre d'orienter le futur (technologique, commercial, etc.) et également de protéger le présent et l'avenir face aux attaques de la concurrence [Rouach 96, Que sais-je?] 3

Pourquoi la RI? Un exemple : la veille technologique (2/7) La veille marketing : recueillir, sélectionner, traiter et diffuser des informations sur les produits et marchés. 4 De manière plus concrète la veille marketing permet d'identifier : les évolutions du marché de l'entreprise, le comportement des consommateurs, les retombées d'une campagne de communication, etc.

Pourquoi la RI? Un exemple : la veille technologique (3/7) La veille concurrentielle : se tenir informés des diverses activités des concurrents (dépôts de brevets, travaux de recherche, etc.), des techniques de vente et de distribution des concurrents et leur politique de communication. détecter des savoir-faire de certains confrères/concurrents et d'engendrer des coopérations potentielles fructueuses. 5

Pourquoi la RI? Un exemple : la veille technologique (4/7) 6 La veille sociétale (aussi appelée veille sociopolitique ou veille environnementale) : Rechercher et traiter des renseignements relatifs aux aspects socio-économiques, politiques, géopolitiques et socioculturels de la société. Etudier, en particulier, l'évolution des moeurs et des mentalités, les risques (désordres, conflits, etc.), les mouvements sociaux et de protestation.

Pourquoi la RI? Un exemple : la veille technologique (5/7) Utilisation des techniques de TAL pour la veille : Des outils de TAL (Traitement Automatique du Langage) sont utilisés pour analyser les données textuelles (groupes de discussion, bulletins électroniques, articles économiques, articles scientifiques, journaux en ligne, etc.). 7 Exemple : extraire des informations et concevoir de manière automatique des formulaires à partir de dépêches d'actualités économiques

Pourquoi la RI? Un exemple : la veille technologique (6/7) Extraction d'informations : Dépêche économique L'Europe donne son feu vert au rachat de Materis par Wendel. Annoncé début janvier, le rachat par Wendel Investissement de Matreis appartenant à LBO France s'élève à 1,01 milliard d'euros. Une transaction qui valorise Materis à environ 2 MdE. Si Wendel Investissement et Materis ne sont pas présentes sur les mêmes marchés, Materis achète certains services fournis par le Bureau Veritas qui appartient à Wendel. Bureau Veritas s'occupe du contrôle et de la certification de produits, de procédés et de projets. 31/03/2006 8

Pourquoi la RI? Un exemple : la veille technologique (7/7) Extraction d'informations : Trois étapes : (a) Analyser les textes (analyse lexicale et syntaxique). (b) Extraire des éléments pertinents dans les textes (noms de personnes, de société, de lieu, etc.). (c) Déterminer les relations entre ces éléments 9

Les défis internationaux MUC : les conférences MUC (Message Understanding Conferences) permettent depuis une quinzaine d'années de confronter divers systèmes d'extraction d'informations autour de quatre tâches : "Named Entity" : extraction des formes linguistiques contenant un nom propre ou un nombre (autre qu'un cardinal d'ensemble) pour faire référence à une entité. "Coreference" : calcul de chaînes de référence. "Template Element" : remplissage de fiches contenant pour chaque entité concernée une simple liste attributs-valeurs. "Scenario Template" : remplissage de fiches contenant pour un type d'événement caractéristique du domaine traité la mise en relation entre ces événements et les entités impliquées. TREC (Text REtrieval Conference) : TREC Genomics, Novelty, Spams, etc. 10

Les défis francophones DEFT (DEfi Francophone de Fouille de textes) : Identification d'auteurs Segmentation thématique Classification de textes d'opinion EASY (Evaluation des Analyseurs SYntaxiques) 11

... et des exemples d'autres tâches Analyse d'articles scientifiques, Classification thématique, d'opinions, Constitution de dictionnaires (vocabulaire spécialisé, sigles, etc) etc. 12

Plan Motivations Veille technologie Les défis Les méthodes en RI Généralités Les limites des approches actuelles Approches pour améliorer les résultats Evaluation en RI 13

Les méthodes de RI - Généralités Types de méthodes : Statistiques Linguistiques Mixtes Apprentissage supervisé / non supervisé 14 Méthode sac de mots

Les limites des méthodes de RI Limites liées aux langues étudiées Complexité du traitement du langage naturel (polysémie, traitement des anaphores, etc.) Quantité et qualité des données disponibles Qualité des systèmes de TAL 15

Les améliorations possibles Ajouter des connaissances sémantiques (généralistes, spécialisées, comment obtenir ces informations?) Ajouter des connaissances lexicales Ajouter des connaissances syntaxiques Leur combinaison? 16

Plan Motivations Veille technologie Les défis Les méthodes en RI Généralités Les limites des approches actuelles Approches pour améliorer les résultats Evaluation en RI 17

Evaluation des méthodes de RI Notion générale de précision et de rappel précision nombre d'exemples positifs couverts nombre d'exemple couverts Une précision de 100% signifie que tous les exemples couverts sont positifs. rappel nombre d'exemples positifs couverts nombre d'exemples positifs 18 Une couverture de 100% signifie que tous les exemples positifs sont couverts.

Evaluation des méthodes de RI Mesure pour combiner Rappel et Précision : la F-mesure (ou F-score). Variantes de la F-mesure 19

Evaluation des méthodes de RI Front de Pareto (courbe Rappel/Précision) : plusieurs critères sont abordés Le front de Pareto est défini par l ensemble des approches telles qu'il n'existe pas une solution qui soit la meilleure pour tous les critères (ici précision et rappel). Les approches qui ne sont pas sur le front de Pareto sont dites dominées. Classement possible par front de Pareto 20

Evaluation des méthodes de RI Evaluation des fonctions de rang Utilisation des courbes ROC (Receiver Operating Characteristic) : courbe dont le taux de vrais positifs est représenté en ordonnées et le taux de faux positifs est représenté par l'axe des abscisses Avantage : pas de sensibilité dans le cas d'un déséquilibre entre les classes. 1 taux de vrais positifs AUC 21 0 taux de faux positifs 1

Evaluation des méthodes de RI A : + ++++--++-+----- B : + --++ --++-++--+- s 1 s 2 Intérêt décroissant Vrais positifs (VP) S 1 S 2 A VP = 1/8 FP = 0 VP = 5/8 FP = 0 s 2 22 B VP = 1/8 FP = 0 VP = 3/8 FP = 2/8 s 1 Faux positifs (FP)

Evaluation des méthodes de RI Evaluation des fonctions de rang Exercice : Soit les deux listes ci-dessous : liste 1 : - - + + - liste 2 : + - - - + Quelle est la liste la plus pertinente selon le critère AUC? 23

Evaluation des méthodes de RI Et dans le cadre de la problématique de la classification de textes? 24

Evaluation de classifieurs (1/3) 25

Evaluation de classifieurs (2/3) 26

Evaluation de classifieurs (3/3) La validation croisée sert à estimer l'erreur réelle d'un modèle (adaptée aux méthodes supervisées comme les KPPV) Validation croisée (S,x) // S est un ensemble x est un entier Découper S en x parties égales {S 1,...,S x } 27 Pour i de 1 à x Construire un modèle M avec l'ensemble S-Si Evaluer l'erreur ei de M avec Si Fin Pour Retourner la moyenne des e i = Σ i=1..x e i /x