Etiquetage Morphosyntaxique François Yvon École Nationale Supérieure des télécommunications Département Informatique et Réseaux 13 mars 2007 Etiquetage morphosyntaxique Un premier niveau de modélisation d une phrase (1) La/DET coronarographie/n met/v en/prep évidence/n des/det lésions/n bitronculaires/adj./pointfinal Version de base Nom Verbe Prep Adj Adv Det Pro Conj Ponct Préfixe Intj Sigle Date Versions étendues NomMS... Vinf... DetFS... DetDem... ProRel... ConjC... PointF Virgule...
Etiquetage morphosyntaxique Désambiguïsation lexicale Étiquetage morphosyntaxique «Part-of-speech tagging» Problème de classification séquentiel : déterminer la catégorie lexicale de chaque mot d un texte...... sans effectuer une analyse syntaxique complète des phrases... en s appuyant sur des lexiques, des connaissances morphologiques, et le contexte d occurrence. De multiples applications Préparation de l analyse syntaxique : réduction de l ambiguïté la/det - la/pp. Lemmatisation / Indexation : résolution des homographies vase/nf - vase/nm. Repérage de termes par appariement de patrons. un terme est une association fréquente respectant des formes : N DE N : algorithme d optimisation ; V N : remonte pente... Synthèse vocale à partir du texte Désambiguïsation des homographes (but/v -but/n, couvent/n - couvent/n)...
Problèmes Un mot plusieurs catégories lexicales : (2) La/DET/N/PRO coronarographie/n/v est/a/n/v normale/a/n. (3) Polyarthrite/N rhumatoïde/? avec/adv/prep atteinte/n/v viscérale/a traitée/v par/n/prep LASILIX/? Un problème massif : 50% des occurrences! Une phrase de 20 mots à 2 10 analyses possibles. Les mots inconnus (noms propres, emprunts, sigles) : quelles étiquettes a priori? Le contexte est lui même ambigu : des erreurs en cascade? Règles d étiquetage Prise en compte du contexte local : (4) DET/PRO V PRO V «Grammaires locales» d INTEX (Silberztein, 1993) Transducteurs de Xerox (Chanod & Tapanainen, 1995) + Fondement linguistique ; règles lisibles, modifiables manuellement, facilite la compréhension des erreurs + Implémantation (automates finis) - Écriture manuelle des règles : difficile, délicat et très coûteux. - Robustesse : traitement des entrées bruitées ; des OOVs
Une grammaire locale d INTEX!! exempl : il/pro la/det/n/pro ferme/a/n/v Grammaires locales : implantation Une phrase est un automate fini S L ensemble des analyses possibles s obtient par projection (composition) avec le lexique L Chaque règle exprime des restrictions sur les séquences licites d étiquettes, représentables par un automate fini R i L intersection des R i correspond à l ensemble des contraintes, et peut être optimisée (minimisation, déterminisation) Désambiguïser = S L ( T i R i) Implantations efficaces : 10K mots / secondes.
Apprendre par correction : l étiquetteur de Brill Apprentissage fondé sur des transformations (Transformation-based error-driven learning), guidé par les erreurs (Brill, 1995 ; de Loupy, 1995) Idée : Étiqueteur [E 0 ] très simple mais approximatif : l étiquette la plus probable (hors contexte). Apprendre itérativement des règles de correction des sorties de E 0 : E 1... E n Apprentissage par correction : vue d ensemble Texte brut Annotation intiale 1. Espace des transformations 2. Fonction d évaluation 3. Règles ordonnées Texte annoté Annotations correctes 1 2 Apprenti EBT Règles de correction 3
Règles de correction Règles de récriture changer l étiquette de Déterminant en Pronom si le mot suivant est un Verbe conjugué (6) Il/PRO la/det voit/v Il/PRO la/pro voit/v Espace des règles contextuelles changer l étiquette de a à b lorsque : le mot précédent (suivant) est étiqueté z le deuxième mot qui précède (suit) est étiqueté z l un des deux mots qui précèdent (suivent) est étiqueté z l un des trois mots qui précèdent (suivent) est étiqueté z le mot précédent est étiqueté z et le mot suivant est étiqueté w le mot précédent (suivant) est étiqueté z et le deuxième mot qui précède (suit) est étiqueté w
Exemples de règles (Winbrill) PRV:++ PREP WDNEXTTAG en ADJ:sg SBC:pl ADJ:pl PREV1OR2TAG SBC:pl PRO:sg PRV:sg PREVTAG - DTN:sg PRV:sg NEXTTAG ACJ:sg PRV:sg PRO:sg WDPREVTAG PREP elle VPAR:sg ADJ1PAR:sg PREV1OR2OR3TAG ECJ:sg DTN:pl PRV:pl LBIGRAM à les SUB$ SUB PREVTAG PREP VCJ:sg VPAR:sg PREV1OR2OR3TAG ACJ:sg ADJ:sg SBC:sg SURROUNDTAG DTN:sg PREP Espace des règles lexicales changer l étiquette de a à b lorsque : le mot courant (suivant) est z le mot courant est z et le mot précédent est w le mot courant est z et le mot suivant est v le suffixe de longueur k du mot courant est s le mot courant débute par une majuscule... Augmenter l espace des règles augmente la complexité de la recherche de la meilleure transformation!
Exemples de règles lexicales (Winbrill) e char SBC:sg 2904.47563601746 s hassuf 1 SBC:pl 1886.94262577434 it hassuf 2 VCJ:sg 983.930470192473 nt hassuf 2 VCJ:pl 687.710506160506 er hassuf 2 VNCFF 674.779828095881 NN i fchar SBC:sg 610.543031204011 * char SBP:sg 598 a hassuf 1 VCJ:sg 459 VCJ:pl ant fhassuf 3 VNCNT 414.52742248062 ment hassuf 4 ADV 323 un goodright SBC:sg 316.84875643057 je goodright VCJ:sg 313.386615439306 SBC:sg ez fhassuf 2 VCJ:pl 259 Apprendre par correction : les points forts + Acquisition automatique des règles + Obtient des résultats aussi bons que les méthodes probabilistes + en se contentant d un corpus d apprentissage beaucoup plus petit + Les règles sont compréhensibles, et peuvent être modifiées à la main + Nombre de règles moins élevé ( 100) + Implantations efficaces (combinaison de transducteurs)
Autres types d apprentissage Point de vue classification : mapping contexte une classe/l étiquette Plus proches voisins Régressions logistique / modèles maximum d entropie Séparateurs vaste marge (SVM) Point de vue transcodage : mapping Σ 1 Σ 2 probabilisation de Σ 1 Σ 2 (HMM) fonction de Sigma 1 vers Sigma 2 (CRFs) Etiqueteurs probabilistes : HMM et variantes Modèle probabiliste sur les séquences de couples (mot, étiquette) : p(m, E) M = w i 2 w i 1 w i mots E = e i 2 e i 1 e i étiquettes La meilleure décision E maximise : Hypothèses simplificatrices : p(e M) = p(m, E ) p(m) = p(e )p(m E) p(m) Les séquences d étiquettes sont Markoviennes d ordre k : p(e 1... e n ) = p(e 1 ) ky p(e i e i 1 ) à l ordre 2 i=1 L émission du mot w i ne dépend que de l étiquette courante p(w i e 1... e i, w 1... w i ) = p(w i e i ) paramètres du modèles : probabilités de transition p(e i e i k+1... e i 1 ) (n k c) probabilité d émission p(w j e i ) (n c n w )
Etiqueteurs probabilistes (suite) Implantation (Viterbi, Baum Welsch, Lissage) Etiqueteurs probabilistes (discussion) + Acquisition automatique des probabilités + Très bons résultats + Implantations efficaces (transducteurs pondérés) + De nombreuses variantes (modèles MaxEnt, Champs conditionnels aléatoires) - Grand nombre de «règles probabilistes» (paramètres) - Les raisons pour lesquelles l étiquetage fonctionne bien ou échoue sont très difficilement accessibles - plafonnement des performance ; il est difficile d analyser, de comprendre et d améliorer la capacité de ces approches à modéliser le comportement linguistique sous-jacent
Etiqueteurs du Français Xerox http://www.xrce.xerox.com/competencies/content-analysis/ demos/ Input : La petite ferme du père Fouchard se trouve à la sortie du défilé. Résultats : La le +DET_SG petite petit +ADJ2_SG ferme ferme +NOUN_SG du de=le +PREP_DE père père +NOUN_SG Fouchard Fouchard +guessed+noun_inv se se +PC trouve trouver +VERB_P3SG à à +PREP_A la le +DET_SG sortie sortie +NOUN_SG Un exemple d utilisation http://www.ims.uni-stuttgart.de/projekte/corplex/ TreeTagger/DecisionTreeTagger.html Créer un dossier TreeTagger, s y placer, et télécharger : les exécutables les scripts d étiquetages les ressources (dépendant de la langue) le script d installation Lancer l installation : sh install-tagger.sh lancer l étiquetage : cmd/tree-tagger-french fichier.txt >fichier.tt
Identification des groupes But : repérer des constituants linéaires : groupe nominal simple, noyau verbal, etc repérage des frontières étiquetage des groupes (par l étiquette de la tête) Intuition : rassembler les têtes (mots pleins) et leurs dépendants locaux verbe et auxiliaires, verbe et adverbes nom et déterminant adjectif et adverbes Applications : groupes de souffles (synthèse vocale) extraction de termes parsage robuste (énoncés bruités, etc). Approches du chunking Symboliques : spécification des patrons de groupes : GN DETADJ NNADJ implémentés par des transducteurs finis Numériques : tâche d étiquettage séquentiel Paul/NN ne/adv mange/vrb avec/prep plaisir/nn que/ B GN B GV I GV B GP I GP B mêmes techniques que pour POS
Quelques références CHANOD, J.-P. & TAPANAINEN, P. (1995). Statistical and constraint-based taggers for French. In Proc 7th EACL, Dublin, Ireland. SILBERZTEIN, M. (1993). Dictionnaires électroniques et analyse automatique de textes : le système INTEX. Paris : Masson. CHARNIAK E (1993). Statistical Language Learning, Cambridge : MIT Press (1993). BRILL, E. (1995). Transformation-based error-driven learning and naturallanguage processing : A case study in part-of-speech tagging. Computational Linguistics, 21(4), 543-565. DE LOUPY, C. (1995). La méthode d Étiquetage d Eric Brill. Traitement Automatique des Langues, 36(1-2), 37-46. HABERT, B., NAZARENKO, A. & SALEM, A. (1997). Les linguistiques de corpus. Paris : Armand Colin. ABNEY, S. Parsing (1996) : Partial Parsing via Finite-State Cascades, J. of Natural Language Engineering, 2(4) : 337-344. Quelques implémantations libres acopost (acopost.sourceforge.net) : HMM, MaxEnt, Transformation-based learning (C) opennlp (sourceforge.net/projects/maxent/ : MaxEnt (python) Brill (www.cs.jhu.edu/~brill/code.html) : implémentation originale de Brill
Etiquetage morphosyntaxique : une tâche emblématique problème quasi-résolu des méthodes d apprentissage sont très performantes un problème générique : assigner des catégories à des tokens identification des débuts/fins de phrase, de groupes syntaxiques identification des débuts/fins d entités nommées (noms de personnes, de lieux...)...