Extraction d entités nommées à partir de graphes de mots

Documents pareils
Apprentissage Automatique

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

N SIMON Anne-Catherine

ACADÉMIE DE NANTES UNIVERSITÉ DU MAINE THÈSE. présentée à l Université du Maine pour obtenir le diplôme de DOCTORAT

Projet de Master en Informatique: Web WriteIt!

Laboratoire 4 Développement d un système intelligent

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Langage SQL (1) 4 septembre IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes

Learning Object Metadata

Modélisation du comportement habituel de la personne en smarthome

Application Form/ Formulaire de demande

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

Traitement automatique des entités nommées en arabe : détection et traduction

Master Développement Durable et Organisations Master s degree in Sustainable Development and Organizations Dossier de candidature Application Form

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

Apprentissage statistique dans les graphes et les réseaux sociaux

Quel est l apport de la détection d entités nommées pour l extraction d information en domaine restreint?

Introduction au Data-Mining

Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales

SAISIE DES NOTES DE BAS DE PAGE et BIBLIOGRAPHIE MEMO RÉSUMÉ. Norme AFNOR Z NF ISO 690. Dernière édition : octobre 2011

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

Formation Pédagogique 3h

Bienvenue à la formation

1. Qu est-ce que la conscience phonologique?

1 Introduction et installation

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

Conserver les Big Data, source de valeur pour demain

Ministère des Affaires étrangères et européennes. Direction de la politique culturelle et du français. Regards VII

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

DEPARTEMENT ARTS, LETTRES ET LANGUES ANNEE UNIVERSITAIRE

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Compte-rendu de Hamma B., La préposition en français

Plan de la présentation

HELLO KIDS. Learn English with Charlie, Lily, Max & Fiona GUIDE PÉDAGOGIQUE

SITES WEB GRATUITS D APPRENTISSAGE EN ANGLAIS ET EN D AUTRES LANGUES

Document d aide au suivi scolaire

LIVRE BLANC Décembre 2014

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

Deadline(s): Assignment: in week 8 of block C Exam: in week 7 (oral exam) and in the exam week (written exam) of block D

RÉSUMÉ DES NORMES ET MODALITÉS D ÉVALUATION AU SECONDAIRE

Catalogue DIF. Formations linguistiques

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

PLAN D ÉTUDES. école fondamentale

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Katja Ingman. Être pro en anglais. Sous la direction de Marie Berchoud. Groupe Eyrolles, 2009 ISBN :

TRAVAUX DE RECHERCHE DANS LE

JADT /06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire

IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels

Introduction au Data-Mining

I/ CONSEILS PRATIQUES

part de mon expérience.

Évaluation de G-LexAr pour la traduction automatique statistique

Thèmes et situations : Achat-Vente. Fiche pédagogique

Dire à quelqu un de faire quelque chose

Trois approches du GREYC pour la classification de textes

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

Contributions à la reconnaissance robuste de la parole

! Text Encoding Initiative

MODERN LANGUAGES DEPARTMENT

Université de Lausanne

Tâche finale : communiquer avec un locuteur natif par webconference lors d activités menées en classe par petits groupes. Niveau : Cycle 3 CM1 /CM2

SIP. Plan. Introduction Architecture SIP Messages SIP Exemples d établissement de session Enregistrement

à retourner à Thotm éditions, 5 rue Guy de la Brosse, Paris, France, mode de paiement

Thèmes et situations : Renseignements et orientation. Fiche pédagogique

Convention de transcription CIEL-F

F-7a-v3 1 / Bourses de mobilité / Mobility Fellowships Formulaire de demande de bourse / Fellowship Application Form

Polémique autour des droits de retransmission de la CAN

Citizenship Language Pack For Migrants in Europe - Extended FRANÇAIS. Cours m ultim édia de langue et de culture pour m igrants.

Annotations manuelles et automatiques de corpus

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

Utilisation du TNI en classe d anglais. PROJET INNOVANT présenté par la SECTION D ANGLAIS du Lycée Jean-Paul de Rocca Serra, Porto-Vecchio

Description de Produit Logiciel. AMI News Monitor v2.0. SPD-AMINM-10 v1.0

Introduction au datamining

BusinessHIGHLIGHT GESTION DE LA PRESSION COMMERCIALE. Optimiser ET SI C ÉTAIT UN PROBLÈME D ORGANISATION? n /... SOMMAIRE INTRODUCTION

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

TEXT MINING Tour d Horizon

Initiation à LabView : Les exemples d applications :

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

SOMMAIRE. Dossier : Aide au suivi du stagiaire

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

CATALOGUE DES FORMATIONS 2014

Instrumentation de la recherche en Education : analyse épistémologique de quelques logiciels d aide à l analyse d enregistrements vidéos

I. COORDONNÉES PERSONNELLES / PERSONAL DATA

Liste des documents. Par Catégorie. Centre de documentation. Ouvrage. Auteur(s) : BYRNE, Michael;DICKINSON, Michele.

B2i Brevet Informatique. Internet. Livret de l enseignant

Compte rendu de la formation

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Accélérer l agilité de votre site de e-commerce. Cas client

LE NUMÉRIQUE Dans ce numéro, vous trouverez :


Outils informatiques de manipulation de la vidéo et du son : une introduction

Transcription:

Extraction d entités nommées à partir de graphes de mots Frédéric Béchet Aix Marseille Université LIF-CNRS Laboratoire d Informatique Fondamentale de Marseille

Introduction Pourquoi utiliser des graphes de mots? Représentation d une entrée ambiguë Texte «non natif», généré par un processus automatique Reconnaissance Automatique de la Parole (RAP) Reconnaissance de caractères Traduction automatique Résumé automatique Ambiguïtés de segmentation dans des textes bruts (et bruités) Segmentation en phrases Segmentation en tokens Qu est ce que ça change? Recherche jointe Meilleure séquence de mots ou «tokens» Meilleure séquence d entités nommées Problème Limiter l explosion combinatoire

Introduction Deux approches complémentaires Evaluation jointe des chemins tokens / entités nommées Modification de la fonction de coût d un chemin Recherche du meilleur chemin tokens/entités Recherche d entités dans le graphe d hypothèses Transformation du graphe d hypothèses Probabilités a posteriori, mesures de confiances Réseaux de confusion Utilisation d informations a priori Définir les entités potentielles et leurs structures Vérification de la présence des entités dans le graphe score de confiance pour chaque détection

Introduction Cadre de ces travaux Reconnaissance d entités nommées dans des flux audio Traitement des disfluences, des erreurs de reconnaissance Corpus Dialogues Homme-Machine Corpus How May I Help You? (AT&T) Emissions radiophonique Corpus ESTER Dialogues enregistrés dans des centres d appels Corpus DECODA

Reconnaissance d EN dans des flux audio Problématique Parole spontanée = disfluences Exemple : corpus DECODA Centre d appel de la RATP rue euh Bretagne en fait on on prend euh on part par euh l' aéroport euh Roissy - Charles de Gaulle euh là je suis à l' arrêt euh Trosy et après vous avez la rue Cavai Cavillon il est au bout de la rue euh Jean c' est avenue hein Jean Mermoz gare euh Montparnasse de la gare des des Ardoines l' arrêt Louis euh Boilly en vérité il est rue du Colonel a Avia c' est le long de euh Porte de d' Orléans et du six décembre au au six au vingt-six décembre c' est pendant cinq semaines depuis le deux deux novembre le premier premier février mardi dix euh novembre

Reconnaissance d EN dans des flux audio Texte non natif Génération d une transcription W à partir d un signal A : Principale conséquence Vocabulaire fermé Tout les mots doivent être dans le modèle génératif P(W) Les transcriptions automatiques ne contiennent aucun mot inconnus!! Segmentation en phrases Silences, fixe, indices prosodiques/lexicaux/syntaxiques Disfluences Très mal transcrites Hypothèses multiples avec des scores de confiance Graphes de mots, réseaux de confusion,.

Extraire des entités nommées d archives sonores RAP donne des résultats corrects à condition.. Très grande similitude entre les corpus d apprentissage et de test Cependant.. Archives sonores de grande taille Très grande variété de domaine, grande période temporelle Décalage Thematique / Temporel Performance RAP / EN WER and F-measures sont corrélées (Miller et al., ANLP-NAACL 2000) Les performance NE sont très affectées par la présence de mots hors-vocabulaire

Système développés pour le texte vs. Sorties RAP (1/2) Flux de mots ni ponctuation, ni découpage en phrase, ni capitalisation Erreurs de RAP Disfluences, bruit, confusions lexicales Modéliser les erreurs de transcription (Palmer, HLT 2001) Utiliser des treillis de mots (Saraclar, HLT-NAACL 2004) Mots hors-vocabulaire RAP optimisée pour les mots les plus fréquents Utiliser des méta-données pour mettre à jour les modèles de RAP et d entités nommées

Système développés pour le texte vs. Sorties RAP (2/2) Sur le texte Point clé => capacité de généralisation pour les mots hors-vocabulaire Contexte, indication graphique, morphologie Avantage: augmenter le rappel Risque: diminuer la précision Sur les sorties RAP Principale caracteristique vocabulaire fermé Les mots inconnus peuvent être détecté et des fois réparé (Bisani, Eurospeech 2005) Mais pas de processus générique!! Pas besoin des capacités de généralisation des systèmes développés sur le texte, utilisation d informations a priori sur tous les mots du lexique de RAP

Un système développé pour traiter les flux audio Système LIA_NE (participation à ESTER2) Système téléchargeable (avec modèles) sur ma page WEB du LIF www.lif.univ-mrs.fr Système à 4 niveaux 1. Étiqueteur lexical morpho-syntaxique/sémantique Modèle à base de Hidden Markov Models (HMM) 1. Segmenteur en Entités Nommées (EN) Trouver les frontières et le type des EN Modèle à base de Conditional Random Fields (CRF) 1. Regroupement d entités, correction de frontières Entités englobées / englobantes Règles manuelles / obtenues sur corpus 1. Validation par base de connaissance Dictionnaire d entités Classifieurs pour la validation contextuelle

Un système développé pour traiter les flux audio Adaptation au traitement de transcriptions automatiques Apprentissage sur sortie bruitée Suppression des ponctuations et majuscules Collectes de données sur tous les noms propres du lexique de RAP Wikipedia Corpus journalistiques : AFP, Le Monde Transcriptions de l oral : ESTER, EPAC Traitement des sorties multiples Pour ESTER 2, pas d intégration avec le traitement de graphes de mots Traitement des n-meilleures hypothèses uniquement Problèmes d ambiguïtés N-meilleures séquences de mots Module de Reconnaissance Automatique de la Parole N-meilleures séquences de Parties de Discours (POS) Étiqueteur HMM N-meilleures séquences d étiquettes Entités Nommées Etiqueteur CRF

Corpus d apprentissage «brut» et «adapté» Corpus avec casse et ponctuations bonjour NMS O. YPFOR O investiture NFS O aujourd'hui ADV B-TIME à PREPADE O Bamako XLOC B-LOC, YPFAI O Mali XLOC B-LOC, YPFAI O du PREPDU O président NMS B-FONC Amadou XPERS B-PERS Toumani XPERS I-PERS Touré XPERS I-PERS, YPFAI O réélu VPPMS O en PREP B-TIME avril NMS I-TIME dernier AMS I-TIME Corpus «normalisé» (pas de ponctuation, tout en minuscule) bonjour NMS O investiture NFS O aujourd'hui ADV B-TIME à PREPADE O bamako XLOC B-LOC mali XLOC B-LOC du PREPDU O président NMS B-FONC amadou XPERS B-PERS toumani XPERS I-PERS touré XPERS I-PERS réélu VPPMS O en PREP B-TIME avril NMS I-TIME dernier AMS I-TIME

Lien Taux Erreur Mots / Erreur Entités Nommées

Influence du formatage des données 51.64 56.79 61.49 56.77 43.37 42.95 23.91 29.81

Traitement de graphes de mots Intégration des processus Recherche de meilleurs chemins / reconnaissance EN Modification de la fonction de coût utilisée en RAP Le terme P(t 1,n,W 1,n ) = modèle de langage + modèle d étiquetage Implémentation Facile en utilisant des HMM Favre, 2005 Horlock, 2003

Traitement de graphes de mots Problèmes Modèles de langage mots appris sur de très grandes quantités de données Ressources limitées étiquetées en Entités Nommées Difficulté d intégration de méthodes discriminantes MaxEnt, CRF, SVM, Performance limitée de cette approche mais.. Passage d un graphe de mots à un graphe d entités nommées Méthodes alternatives Effectuer d abord une recherche de meilleurs chemins en mots Graphe avec probabilité a posteriori / Réseaux de confusion Rechercher ensuite les entités dans des zones du graphes Sélectionnées à l aide d informations a priori Détectées grâce à des indices dans le graphe de mots Expériences How May I Help You? ESTER DECODA

How May I Help You? (AT&T) Méthode Extraction de connaissances a priori sur le dialogue en cours Exemples: system> in Marseille I propose the Hotel la Fanette and the Hotel du Port user> ASR> where is the Hotel la Fanette? where is the Hotel Lafayette I wanna know why I was charged on September sixth 11 dollars 63 cents for calling 8 5 6 2 1 6 5 5 2 1 Clementon New Jersey for 1 minute PHONE BILL SEPTEMBER 2001 DATE PHONE# DURATION PLACE AMOUNT 09062001 8562165521 01:00 Clementon, NJ 11.63.......... Exemple: AT&T How May I Help You? tm

How May I Help You? (AT&T) Méthode Détection d hypothèses d entités nommées typées sur la meilleure transcription en mot Tagger HMM appris sur des transcriptions automatiques Sur-détection d entités Recherche des entités dans un réseau de confusion Dans les zones sélectionnées par le tagger En utilisant le type détecté Production d une liste de n-meilleures hypothèses sur les entités nommées Exemple Référence Dilek Hakkani-Tur and Frederic Bechet and Giuseppe Riccardi and Gokhan Tur Beyond ASR 1-Best: Using Word Confusion Networks for Spoken Language Understanding Computer Speech and Language, Elsevier pages 495-514 volume 20, Issue 4 October 2006 ( 2006 )

How May I Help You? (AT&T) Transcr. bos I'm Claire Ferguson at 8 5 0 6 3 8 1 8 2 6 I would like to know 1-best. bos <PHONE> I'm ca- 8 5 0 6 3 8 1 8 cents </PHONE> I would like to know Graphe de mots Sous-graphe sélectionné Composition avec les automates Meilleurs chemins N-BEST sur les valeurs 1] 8 5 0 6 3 8 1 8 2 6 2] 1 8 5 0 6 3 8 1 8 2 3] 8 5 0 6 3 8 1 8 8 6 4] 8 5 0 2 3 8 1 8 2 5

ESTER I Principe Sélection d une liste d entités par rapport à une période temporelle Recherche systèmatique de chaque entité dans le graphe de mots issu du module de reconnaissance de la parole Méthode Système à 2 niveaux Constitution d une grammaire des entités nommées Faible longueur des entités Patrons d entités obtenus sur des corpus étiquetés Grammaires lexicalisées par les mots du lexique de RAP Composition entre le graphe de mots et la grammaire représentée sous forme d automates Transduction mots entités Réévaluation des chemins par un étiqueteur HMM Projection du transducteur vers les entités nommées Énumération des n-meilleures hypothèses d entités nommées Mesures de confiance : proba du système de RAP + scores tagger

ESTER I <location> $TOWN $COUNTRY </location> I come from New York City Speech Signal <person> NE grammars $FIRST_NAME $LAST_NAME miss mister </person> from to in NE tagger new (location,begins) york (location,continues) york (location,ends) york (location,unique) city (location,ends) I come from mike rome farm Word Lattice new knew york your city sit Composition new york mike rome new york I come from new york city Entity Lattice N-best paths city Composition Locations new york city s_asr new york s_asr york s_asr rome s_asr Persons: mike s_asr s_tag s_tag s_tag s_tag s_tag

ESTER 1 : exemple de collecte de méta-données Utilisation de l information temporelle Meta-données collectées : Newsletters du journal Le Monde (corpus NL ) Données journalières, du 1er janvier au 31 décembre 2004 Couvre la période temporelle de Test 2 Mais ce ne sont que des résumés d actualité.. Description du corpus NL 1 M de mots avec 140K EN 72% des EN n apparaisse qu une fois!! (similaire à Whittaker, ITRW 2001)

ESTER 1 : exemple de collecte de méta-données % de EN du Test 2 qui apparaissent au moins n jours avant ou après dans corpus NL Pic pour n=0 mais.. seulement 25% d EN communes cependant.. Ce Ce sont sont les les EN EN clés clés pour pour Caractériser l actualité d une d une journée

ESTER 1 : Evaluation Lexique 1K nouveaux noms propres ajoutés Réduction du taux de mots hors vocabulaire (OOV) = 0.14% sur Test 2 Performances de RAP et EN Petites améliorations Focus WER: 26.4 26.1 F-measure: 63 63.3 Oracle recall: 76.9 79.9 entités de corpus NL apparaissant le même jour dans le corpus de test

ESTER 1 : Evaluation Résultats Condition Precision Recall F-measure Oracle recall no adaptation 87.0 75.7 80.9 83.6 avec adaptation 87.5 83.9 85.7 92 Amélioration importante de la mesure de rappel Adapter les modèles avec des méta-données Peu d impact sur les performances globales Mais impact important sur les entités correspondant aux données d adaptation Référence Benoît Favre and Frédéric Béchet and Pascal Nocéra Robust Named Entity Extraction from Spoken Archives EMNLP ( 2005 ) Vancouver, Canada

DECODA Corpus de conversations orales Projet ANR CONTINT 2009 Centre d appels de la RATP Beaucoup de disfluences mais entités restreintes Lieux, adresses, quantités, produits Annotations en disfluences et entités nommées Principe de traitement Chaîne d outils MACAON Prendre de l ambiguïté en entrée Garder l ambiguïté à chaque niveau de traitement Graphes de mots Graphes de Parties de Discours (POS) Graphes de chunks Graphes d entités nommées

DECODA Gestion de l ambiguïté avec MACAON Chaque niveau génère son propre graphe d hypothèses Pas de mélange des scores (jusqu à la décision finale) Chaîne de traitement Graphes de mots Enrichissement du graphe avec la détection des disfluences Rajouts de chemins pour corriger les disfluences «simples» Détection des entités nommées sur le graphe de mots Tagger HMM + tagger CRF Enrichissement du graphe avec les entités potentielles détectées Analyse syntaxique Étiquetage en partie de discours Découpage en chunks Analyse en dépendance

DECODA Gestion de l ambiguïté avec MACAON

Conclusion Traiter des graphes de mots Intégration des processus de reconnaissance / analyse de parole Gestion des ambiguïtés Disfluences Erreurs de reconnaissance Intégration de connaissances a priori dans le processus de détection Applications Intégration dans la suite d outils de TAL MACAON http://macaon.lif.univ-mrs.fr Projet ANR DECODA «speech analytics» Campagne d évaluation ANR/DGA REPERE Détection de personnes dans des vidéos Campagne d évaluation ANR ETAPE Emissions télévisuelles Outils Téléchargement : http://pageperso.lif.univ-mrs.fr/~frederic.bechet