Etiquetage Morphosyntaxique



Documents pareils
Apprentissage Automatique

1 Description générale. Résumé

Annotations manuelles et automatiques de corpus

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

! Text Encoding Initiative

Détection des propositions syntaxiques du français : en vue de l alignement des propositions de textes parallèles français-japonais

(TALN) . Traitement Automatique du Langage Naturel. Outils d analyse de données textuelles. Laurent Audibert (LIPN - UMR CNRS 7030) 4 novembre 2010

Trois approches du GREYC pour la classification de textes

MATHÉMATIQUES ET INFORMATIQUE

Application d un algorithme de traduction statistique à la normalisation de textos

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

FRENCH Language (Advanced Level III)

N SIMON Anne-Catherine

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Apprentissage statistique dans les graphes et les réseaux sociaux

Ressources lexicales au service de recherche et d indexation des images

GRIVEL Luc, GUILLEMIN-LANNE Sylvie, COUPET Pascal, HUOT Charles {luc.grivel, sylvie.guillemin-lanne, pascal.coupet,

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

Multi-catégorisation de textes juridiques et retour de pertinence

Contemporary Engineering Sciences, Vol. 2, 2009, no. 4,

Évaluation de G-LexAr pour la traduction automatique statistique

LA CONJONCTION MÊME SI N EXISTE PAS!

LEXOS, logiciel d'étude lexicale et de conjugaison

1 On peut consulter et interroger ce corpus sur le site de l équipe DELIC :

Extraction de mots-clefs dans des vidéos Web par Analyse Latente de Dirichlet

TiLT : plate-forme pour le traitement automatique des langues naturelles

Tableau des contenus

Laboratoire 4 Développement d un système intelligent

CONSTITUTION D'UN CORPUS D'ERREURS DU DACTYLOGRAPHE

Extraction automatique de terminologie à partir de libellés textuels courts

Luc Grivel (*, **)

TP 1. Prise en main du langage Python

ADAPT: un modèle de transcodage des nombres. Une application des systèmes de production au développement

Évaluation et implémentation des langages

Interférences lexicales entre deux langues étrangères: anglais et français

Expériences de formalisation d un guide d annotation : vers l annotation agile assistée

Traitement automatique des entités nommées en arabe : détection et traduction

Formation Pédagogique 3h

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Extraction automatique de modèles de processus pour l étude de la résolution collective de problèmes dans les communautés du logiciel libre

E-Gen : traitement automatique des offres d emploi

Traitement bas-niveau

PROJET DE FIN D ETUDES

Compte-rendu de Hamma B., La préposition en français

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

CORRIGÉ DU DOSSIER N 2

ANALYSE SÉMANTICO-DISCURSIVE DES COLLOCATIONS LEXICALES EN CORPUS SPÉCIALISÉ : LA BASE CONNAISSANCE-S

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

La répétition de phrases comme aide au diagnostic des enfants dysphasiques C. Maillart*, A.L. Leclercq*, P. Quemart*

Vers la correction automatique de textes bruités: Architecture générale et détermination de la langue d un mot inconnu

Indexation sémantique au moyen de coupes de redondance minimale dans une ontologie

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

Prévalence et étiologie. Le retard mental : langage et communication. Définitions et classifications (2) Définitions et classifications

Créer un mémento grammatical portatif et évolutif pour tablettes et smartphones

Méthode de classification des réponses d un moteur de recherche

Etudes des échanges électroniques sur internet et intranet : forums et courriers électroniques

LIVRET PERSONNEL DE COMPÉTENCES

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

Mode d emploi MD6000F

fiche D AUTOCORRECTION Frimousse, une petite chienne qu'on a adoptée le mois dernier, est intelligente et docile.

I. Le déterminant Il détermine le nom. Le déterminant indique le genre, le

Atelier rédactionnel

mes m est mets/met mais mets

TRANSPORT ET LOGISTIQUE :

Livret personnel de compétences

Transmission d informations sur le réseau électrique

Grammaires d unification

La construction de composants de connaissance pour l extraction et le filtrage de l information sur les réseaux

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

DEFT 09 : détection de la subjectivité et catégorisation de textes subjectifs par une approche mixte symbolique et statistique

La phonétisation de "plus", "tous" et de certains nombres : une analyse phono-syntaxique

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Dafoe Présentation de la plate-forme UIMA

Caractéristiques du nom

Modélisation d'une ontologie de domaine et des outils d'extraction de l'information associés pour l'anglais et le français

Une approche de désambiguïsation morpho_lexicale évaluée sur l analyseur morphologique Alkhalil*

Réaliser un journal scolaire

De la mesure à l analyse des risques

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi

Évaluation transparente de systèmes de questions-réponses : application au focus

Projet de Master en Informatique: Web WriteIt!

Atelier ATOLL pour les grammaires d arbres adjoints

Le traitement automatique des langues dans les industries de l'information

Algorithmes d'apprentissage

pythonocc: une plateforme de développement agile d applications CAO.

La traduction automatique des articles de l anglais au français

Le modèle standard, SPE (1/8)

Laboratoire d Informatique, de Traitement de l Information et des Systèmes EA établissements T. Paquet D. Olivier T. Lecroq A.

Boléro. d information. Notice

Homophones grammaticaux de catégories différentes. ce se

Instrumentation de la recherche en Education : analyse épistémologique de quelques logiciels d aide à l analyse d enregistrements vidéos

Introduction au Data-Mining

Le nous du général de Gaulle

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Tableau mettant en relation les niveaux du CECRL et les programmes IFALPES par compétences.

Observatoire des ressources numériques adaptées

Transcription:

Etiquetage Morphosyntaxique François Yvon École Nationale Supérieure des télécommunications Département Informatique et Réseaux 13 mars 2007 Etiquetage morphosyntaxique Un premier niveau de modélisation d une phrase (1) La/DET coronarographie/n met/v en/prep évidence/n des/det lésions/n bitronculaires/adj./pointfinal Version de base Nom Verbe Prep Adj Adv Det Pro Conj Ponct Préfixe Intj Sigle Date Versions étendues NomMS... Vinf... DetFS... DetDem... ProRel... ConjC... PointF Virgule...

Etiquetage morphosyntaxique Désambiguïsation lexicale Étiquetage morphosyntaxique «Part-of-speech tagging» Problème de classification séquentiel : déterminer la catégorie lexicale de chaque mot d un texte...... sans effectuer une analyse syntaxique complète des phrases... en s appuyant sur des lexiques, des connaissances morphologiques, et le contexte d occurrence. De multiples applications Préparation de l analyse syntaxique : réduction de l ambiguïté la/det - la/pp. Lemmatisation / Indexation : résolution des homographies vase/nf - vase/nm. Repérage de termes par appariement de patrons. un terme est une association fréquente respectant des formes : N DE N : algorithme d optimisation ; V N : remonte pente... Synthèse vocale à partir du texte Désambiguïsation des homographes (but/v -but/n, couvent/n - couvent/n)...

Problèmes Un mot plusieurs catégories lexicales : (2) La/DET/N/PRO coronarographie/n/v est/a/n/v normale/a/n. (3) Polyarthrite/N rhumatoïde/? avec/adv/prep atteinte/n/v viscérale/a traitée/v par/n/prep LASILIX/? Un problème massif : 50% des occurrences! Une phrase de 20 mots à 2 10 analyses possibles. Les mots inconnus (noms propres, emprunts, sigles) : quelles étiquettes a priori? Le contexte est lui même ambigu : des erreurs en cascade? Règles d étiquetage Prise en compte du contexte local : (4) DET/PRO V PRO V «Grammaires locales» d INTEX (Silberztein, 1993) Transducteurs de Xerox (Chanod & Tapanainen, 1995) + Fondement linguistique ; règles lisibles, modifiables manuellement, facilite la compréhension des erreurs + Implémantation (automates finis) - Écriture manuelle des règles : difficile, délicat et très coûteux. - Robustesse : traitement des entrées bruitées ; des OOVs

Une grammaire locale d INTEX!! exempl : il/pro la/det/n/pro ferme/a/n/v Grammaires locales : implantation Une phrase est un automate fini S L ensemble des analyses possibles s obtient par projection (composition) avec le lexique L Chaque règle exprime des restrictions sur les séquences licites d étiquettes, représentables par un automate fini R i L intersection des R i correspond à l ensemble des contraintes, et peut être optimisée (minimisation, déterminisation) Désambiguïser = S L ( T i R i) Implantations efficaces : 10K mots / secondes.

Apprendre par correction : l étiquetteur de Brill Apprentissage fondé sur des transformations (Transformation-based error-driven learning), guidé par les erreurs (Brill, 1995 ; de Loupy, 1995) Idée : Étiqueteur [E 0 ] très simple mais approximatif : l étiquette la plus probable (hors contexte). Apprendre itérativement des règles de correction des sorties de E 0 : E 1... E n Apprentissage par correction : vue d ensemble Texte brut Annotation intiale 1. Espace des transformations 2. Fonction d évaluation 3. Règles ordonnées Texte annoté Annotations correctes 1 2 Apprenti EBT Règles de correction 3

Règles de correction Règles de récriture changer l étiquette de Déterminant en Pronom si le mot suivant est un Verbe conjugué (6) Il/PRO la/det voit/v Il/PRO la/pro voit/v Espace des règles contextuelles changer l étiquette de a à b lorsque : le mot précédent (suivant) est étiqueté z le deuxième mot qui précède (suit) est étiqueté z l un des deux mots qui précèdent (suivent) est étiqueté z l un des trois mots qui précèdent (suivent) est étiqueté z le mot précédent est étiqueté z et le mot suivant est étiqueté w le mot précédent (suivant) est étiqueté z et le deuxième mot qui précède (suit) est étiqueté w

Exemples de règles (Winbrill) PRV:++ PREP WDNEXTTAG en ADJ:sg SBC:pl ADJ:pl PREV1OR2TAG SBC:pl PRO:sg PRV:sg PREVTAG - DTN:sg PRV:sg NEXTTAG ACJ:sg PRV:sg PRO:sg WDPREVTAG PREP elle VPAR:sg ADJ1PAR:sg PREV1OR2OR3TAG ECJ:sg DTN:pl PRV:pl LBIGRAM à les SUB$ SUB PREVTAG PREP VCJ:sg VPAR:sg PREV1OR2OR3TAG ACJ:sg ADJ:sg SBC:sg SURROUNDTAG DTN:sg PREP Espace des règles lexicales changer l étiquette de a à b lorsque : le mot courant (suivant) est z le mot courant est z et le mot précédent est w le mot courant est z et le mot suivant est v le suffixe de longueur k du mot courant est s le mot courant débute par une majuscule... Augmenter l espace des règles augmente la complexité de la recherche de la meilleure transformation!

Exemples de règles lexicales (Winbrill) e char SBC:sg 2904.47563601746 s hassuf 1 SBC:pl 1886.94262577434 it hassuf 2 VCJ:sg 983.930470192473 nt hassuf 2 VCJ:pl 687.710506160506 er hassuf 2 VNCFF 674.779828095881 NN i fchar SBC:sg 610.543031204011 * char SBP:sg 598 a hassuf 1 VCJ:sg 459 VCJ:pl ant fhassuf 3 VNCNT 414.52742248062 ment hassuf 4 ADV 323 un goodright SBC:sg 316.84875643057 je goodright VCJ:sg 313.386615439306 SBC:sg ez fhassuf 2 VCJ:pl 259 Apprendre par correction : les points forts + Acquisition automatique des règles + Obtient des résultats aussi bons que les méthodes probabilistes + en se contentant d un corpus d apprentissage beaucoup plus petit + Les règles sont compréhensibles, et peuvent être modifiées à la main + Nombre de règles moins élevé ( 100) + Implantations efficaces (combinaison de transducteurs)

Autres types d apprentissage Point de vue classification : mapping contexte une classe/l étiquette Plus proches voisins Régressions logistique / modèles maximum d entropie Séparateurs vaste marge (SVM) Point de vue transcodage : mapping Σ 1 Σ 2 probabilisation de Σ 1 Σ 2 (HMM) fonction de Sigma 1 vers Sigma 2 (CRFs) Etiqueteurs probabilistes : HMM et variantes Modèle probabiliste sur les séquences de couples (mot, étiquette) : p(m, E) M = w i 2 w i 1 w i mots E = e i 2 e i 1 e i étiquettes La meilleure décision E maximise : Hypothèses simplificatrices : p(e M) = p(m, E ) p(m) = p(e )p(m E) p(m) Les séquences d étiquettes sont Markoviennes d ordre k : p(e 1... e n ) = p(e 1 ) ky p(e i e i 1 ) à l ordre 2 i=1 L émission du mot w i ne dépend que de l étiquette courante p(w i e 1... e i, w 1... w i ) = p(w i e i ) paramètres du modèles : probabilités de transition p(e i e i k+1... e i 1 ) (n k c) probabilité d émission p(w j e i ) (n c n w )

Etiqueteurs probabilistes (suite) Implantation (Viterbi, Baum Welsch, Lissage) Etiqueteurs probabilistes (discussion) + Acquisition automatique des probabilités + Très bons résultats + Implantations efficaces (transducteurs pondérés) + De nombreuses variantes (modèles MaxEnt, Champs conditionnels aléatoires) - Grand nombre de «règles probabilistes» (paramètres) - Les raisons pour lesquelles l étiquetage fonctionne bien ou échoue sont très difficilement accessibles - plafonnement des performance ; il est difficile d analyser, de comprendre et d améliorer la capacité de ces approches à modéliser le comportement linguistique sous-jacent

Etiqueteurs du Français Xerox http://www.xrce.xerox.com/competencies/content-analysis/ demos/ Input : La petite ferme du père Fouchard se trouve à la sortie du défilé. Résultats : La le +DET_SG petite petit +ADJ2_SG ferme ferme +NOUN_SG du de=le +PREP_DE père père +NOUN_SG Fouchard Fouchard +guessed+noun_inv se se +PC trouve trouver +VERB_P3SG à à +PREP_A la le +DET_SG sortie sortie +NOUN_SG Un exemple d utilisation http://www.ims.uni-stuttgart.de/projekte/corplex/ TreeTagger/DecisionTreeTagger.html Créer un dossier TreeTagger, s y placer, et télécharger : les exécutables les scripts d étiquetages les ressources (dépendant de la langue) le script d installation Lancer l installation : sh install-tagger.sh lancer l étiquetage : cmd/tree-tagger-french fichier.txt >fichier.tt

Identification des groupes But : repérer des constituants linéaires : groupe nominal simple, noyau verbal, etc repérage des frontières étiquetage des groupes (par l étiquette de la tête) Intuition : rassembler les têtes (mots pleins) et leurs dépendants locaux verbe et auxiliaires, verbe et adverbes nom et déterminant adjectif et adverbes Applications : groupes de souffles (synthèse vocale) extraction de termes parsage robuste (énoncés bruités, etc). Approches du chunking Symboliques : spécification des patrons de groupes : GN DETADJ NNADJ implémentés par des transducteurs finis Numériques : tâche d étiquettage séquentiel Paul/NN ne/adv mange/vrb avec/prep plaisir/nn que/ B GN B GV I GV B GP I GP B mêmes techniques que pour POS

Quelques références CHANOD, J.-P. & TAPANAINEN, P. (1995). Statistical and constraint-based taggers for French. In Proc 7th EACL, Dublin, Ireland. SILBERZTEIN, M. (1993). Dictionnaires électroniques et analyse automatique de textes : le système INTEX. Paris : Masson. CHARNIAK E (1993). Statistical Language Learning, Cambridge : MIT Press (1993). BRILL, E. (1995). Transformation-based error-driven learning and naturallanguage processing : A case study in part-of-speech tagging. Computational Linguistics, 21(4), 543-565. DE LOUPY, C. (1995). La méthode d Étiquetage d Eric Brill. Traitement Automatique des Langues, 36(1-2), 37-46. HABERT, B., NAZARENKO, A. & SALEM, A. (1997). Les linguistiques de corpus. Paris : Armand Colin. ABNEY, S. Parsing (1996) : Partial Parsing via Finite-State Cascades, J. of Natural Language Engineering, 2(4) : 337-344. Quelques implémantations libres acopost (acopost.sourceforge.net) : HMM, MaxEnt, Transformation-based learning (C) opennlp (sourceforge.net/projects/maxent/ : MaxEnt (python) Brill (www.cs.jhu.edu/~brill/code.html) : implémentation originale de Brill

Etiquetage morphosyntaxique : une tâche emblématique problème quasi-résolu des méthodes d apprentissage sont très performantes un problème générique : assigner des catégories à des tokens identification des débuts/fins de phrase, de groupes syntaxiques identification des débuts/fins d entités nommées (noms de personnes, de lieux...)...