Représentation informatique de grammaires fortement lexicalisées Application à la grammaire d arbres adjoints. Institut Gaspard Monge

Documents pareils
Évaluation et implémentation des langages

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

Cours 1 : La compilation

Grammaires d unification

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Atelier ATOLL pour les grammaires d arbres adjoints

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

Éléments d informatique Cours 3 La programmation structurée en langage C L instruction de contrôle if

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Logiciel Libre Cours 3 Fondements: Génie Logiciel

La syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait

Apprentissage Automatique

Formula Negator, Outil de négation de formule.

Définitions. Numéro à préciser. (Durée : )

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

Génie Logiciel avec Ada. 4 février 2013

Chapitre 1 : Introduction aux bases de données

OCL - Object Constraint Language

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Chapitre VIII. Les bases de données. Orientées Objet. Motivation

Développement d un interpréteur OCL pour une machine virtuelle UML.

Le modèle standard, SPE (1/8)

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB Olivier Augereau Formation UML

Conception des bases de données : Modèle Entité-Association

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

Présentation du PL/SQL

ADAPT: un modèle de transcodage des nombres. Une application des systèmes de production au développement

Méthodes d évolution de modèle produit dans les systèmes du type PLM

IFT2255 : Génie logiciel

CH.6 Propriétés des langages non contextuels

Cours Composant 2. Qualité logicielle et spécications algébriques

WEA Un Gérant d'objets Persistants pour des environnements distribués

Introduction à MATLAB R

Suivant les langages de programmation, modules plus avancés : modules imbriqués modules paramétrés par des modules (foncteurs)

Cours de Master Recherche

Traduction des Langages : Le Compilateur Micro Java

Cours 1 : Introduction. Langages objets. but du module. contrôle des connaissances. Pourquoi Java? présentation du module. Présentation de Java

IN Cours 1. 1 Informatique, calculateurs. 2 Un premier programme en C

Document d aide au suivi scolaire

Chapitre VI- La validation de la composition.

Machines virtuelles Cours 1 : Introduction

S3CP. Socle commun de connaissances et de compétences professionnelles

Image d un intervalle par une fonction continue

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

TD 1 - Structures de Traits et Unification

Chapitre 10 Arithmétique réelle

Système de Gestion de Fichiers

TP1 : Initiation à Java et Eclipse

INITIATION AU LANGAGE C SUR PIC DE MICROSHIP

Rappels sur les suites - Algorithme

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Avis n sur la méthodologie relative aux comptes combinés METHODOLOGIE RELATIVE AUX COMPTES COMBINES

Conservation des documents numériques

INF 232: Langages et Automates. Travaux Dirigés. Université Joseph Fourier, Université Grenoble 1 Licence Sciences et Technologies

Anne Tasso. Java. Le livre de. premier langage. 10 e édition. Avec 109 exercices corrigés. Groupe Eyrolles, , ISBN :

! Text Encoding Initiative

Entraînement au concours ACM-ICPC

Management des processus opérationnels

Chapitre V : La gestion de la mémoire. Hiérarchie de mémoires Objectifs Méthodes d'allocation Simulation de mémoire virtuelle Le mapping

Chapitre 2. Eléments pour comprendre un énoncé

N SIMON Anne-Catherine

«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie. Agnès Dullin, lycée J. Racine 20 rue du Rocher, Paris

Le code à barres EAN 13 mes premiers pas...

Compilation (INF 564)

Cours 1 : Qu est-ce que la programmation?

Documentation utilisateur. [EIP] TransLSF

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Expériences de formalisation d un guide d annotation : vers l annotation agile assistée

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Matrice d accès. Master SEMS, Pierre Paradinas. October 16, 2013

Politique de Certification Pour les Certificats de classe 0 et 4 émis par l autorité de certification Notaires PUBLIÉ

Atelier rédactionnel

Chp. 4. Minimisation d une fonction d une variable

Fiche pédagogique : ma famille et moi

NOM : Prénom : Date de naissance : Ecole : CM2 Palier 2

Déroulement. Evaluation. Préambule. Définition. Définition. Algorithmes et structures de données 28/09/2009

DOCM Solutions officielles = n 2 10.

4.2 Unités d enseignement du M1

Plan du cours Cours théoriques. 29 septembre 2014

UML (Diagramme de classes) Unified Modeling Language

Modélisation des données

Aide : publication de décisions VS

Processus d Informatisation

1 Introduction et installation

UML Diagramme de communication (communication diagram) Emmanuel Pichon 2013

PROGRAMME DETAILLE. Parcours en première année en apprentissage. Travail personnel CC + ET réseaux

Algorithmique et Programmation, IMA

Differential Synchronization

Gérer, stocker et partager vos photos grâce à Picasa. Janvier 2015

Mise sur le marché des engrais en Europe. Paris, le 9 septembre Vincent Delvaux

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Atelier A7. Audit de la gestion globale des risques : efficacité ou conformité?

APPLICATION POUR L ANALYSE DES BESOINS LINGUISTIQUES Guide de l utilisateur

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Codage d information. Codage d information : -Définition-

Groupe Eyrolles, 2004 ISBN :

Transcription:

Représentation informatique de grammaires fortement lexicalisées Application à la grammaire d arbres adjoints Institut Gaspard Monge Benoit Crabbé Lattice Université Paris 7 Représentation de grammaires fortement lexicalisées 1

Prégénérique Implémentation de grammaires électroniques de taille importante pour le langage naturel Grammaires motivées linguistiquement On focalise sur l implémentation de grammaires d arbres adjoints augmentées d une composante sémantique On donne un langage et une méthodologie qui permettent de faciliter l implémentation effective de grammaires de ce type Le langage et la méthodologie sont validés par l implémentation d une grammaire de compétence couvrant un fragment important du français Représentation de grammaires fortement lexicalisées 2

Plan Introduction Désidératas et motivations Partage de structure/alternatives Un langage de représentation Langage de contrôle/langage de description arborescentes Méthodologie Langage Partage de structure / alternatives Comparaisons Métarègles Candito Xia Validation : Implantation d une grammaire/évaluation Conclusion Représentation de grammaires fortement lexicalisées 3

The big picture Problème général : implémentation de formalismes d analyse syntaxiques de haut niveau (grammaire de compétence) Formalisme de bas niveau : bonnes propriétés formelles et informatiques mais expressivité réduite : Exemples : CFG, DCG, TAG... Formalisme de haut niveau : propriétés formelles et informatiques moins bonnes (moins bien connues) mais grand pouvoir d expressivité Exemples : PATR II, ANLT (GPG), TDL (HPG), métagrammaire... Idée : compilation (=traduction) automatique du langage de haut niveau dans le langage de bas niveau. Représentation de grammaires fortement lexicalisées 4

Exemple classique (GPG/ANLT) Implémentation ANLT de (Carroll 93) Langage de bas niveau = grammaire CF + unification à traits atomiques dont les symboles sont codés sur des entiers Langage de haut niveau = ANLT, permet par exemple d exprimer : Propagation de traits de tête, de traits de valence, de slash (dépendances à longue distance) Métarègles (alternances actif/passif) Le parsing pour le langage de bas niveau s implémente avec un algorithme classique Les propriétés informatiques du langage de haut niveau sont mauvaises (indécidable, métarègles = machine de Turing) Représentation de grammaires fortement lexicalisées 5

Le cas du travail : TAG et grammaires d arbres lexicalisées Pour l analyse syntaxique des langues naturelles, TAG est utilisé dans sa version lexicalisée (LTAG) Résultat formel : (Joshi et chabès 97) et Joshi (2005) démontrent que LTAG lexicalise fortement une grammaire hors contexte grace à l adjonction. LTAG = combiner des arbres élémentaires dotés d une ancre lexicale par substitution et adjonction N V V V Adv = N V V Adv N N V V Adv = N Jean V V Adv mange trop mangetrop Jean mangetrop mangetrop Représentation de grammaires fortement lexicalisées 6

LTAG comme formalisme de bas niveau Formellement, une grammaire LTAG c est une grammaire de bas niveau doté de propriétés formelles intéressantes (lexicalisation) et pour lequel on dispose d algorithmes de parsing efficaces. En pratique pour l implémentation de grammaires c est insuffisant : Une grammaire TAG est constituée d un ensemble conséquent d unités élémentaires disparates (arbres élémentaires) : Manque d expressivité : Impossibilité de capturer des généralisations redondance descriptive et maintenance Représentation de grammaires fortement lexicalisées 7

Quelques arbres associés au verbe manger (a) (c) (d) N V N mange Jean mange des biscuits (b) N V PP V V P N mangéspar Les biscuits sont mangés par les enfants N V Cl V mangés Les enfants les ont mangés (e) N V N mangent Les enfants mangent des biscuits PP P N N V par V V mangés Par quels enfants les biscuits sont-ils mangés? (a) représente un contexte canonique (b) représente un contexte pluriel (c) représente un contexte passivisé (d) représente un contexte à argument clitique (e) représente un contexte passivisé avec argument interrogé Représentation de grammaires fortement lexicalisées 8

Implémentations et schémas d arbres En pratique les implémentations (XTAG) distinguent schèmes / lexique Première étape de factorisation qui permet de gérer les variantes morphologiques (typiquement traitées par un tokenizer, tagger) Les arbres élémentaires sont créés à la volée par l analyseur syntaxique Un lemme donné est associé à une famille d arbres N V N N V N mange N V V V N V N mangent PP P N par + MANGER N V PP V V P N mangéspar Représentation de grammaires fortement lexicalisées 9

Nécessité d un langage de haut niveau Dans les implantations, une grammaire TAG c est un ensemble de schémas La morphologie est prétraitée (prétraitement classique), on ne s en soucie pas (vs approches et langages théoriques). Dans une grammaire réaliste, le nombre de schémas est très élevé (milliers, dizaines de milliers) Pour des raisons de maintenance et de facilité d écriture de la grammaire (redondance), on souhaite un mécanisme qui permette de réutiliser des informations générales exprimées de manière factorisée pour produire les schémas automatiquement (= métagrammaire) Représentation de grammaires fortement lexicalisées 10

Plan Introduction Désidératas et motivations Partage de structure/alternatives Un langage de représentation Langage de contrôle/langage de description arborescentes Méthodologie Langage Partage de structure / alternatives Comparaisons Métarègles Candito Xia Validation : Implantation d une grammaire/évaluation Conclusion Représentation de grammaires fortement lexicalisées 11

Partage de structure et alternatives On trouve dans les formalismes syntaxiques postgénératifs deux axes de représentation Un axe représentant le partage de structure Exemple : un verbe transitif comme un verbe verbe intransitif partagent l information qu il sont des verbes Un axe représentant les alternatives : Exemple : un verbe au passif est une variante de verbe à l actif Formalisation Le partage de structure se formalise classiquement par une hiérarchie d héritage Les alternatives se formalisent par des métarègles (GPG) ou par des règles lexicales. Représentation de grammaires fortement lexicalisées 12

Exemple : métarègles TAG (Becker 93) (Partage de structure) Factorisation d arbres de base dans une hiérarchie d héritage (Alternatives) Définit des métarègles ( transformations précompilées à localité réduite) qui produisent des arbres dérivés (procédural et indécidable) N 0 V N 1 N 1 V PP V V mode=ppart P N 0 être LR-PAIVE par V N Cl LR-CLITIC(OBJ) V V Représentation de grammaires fortement lexicalisées 13

Plan Introduction Désidératas et motivations Partage de structure/alternatives Un langage de représentation Langage de contrôle/langage de description arborescentes Méthodologie Langage Partage de structure / alternatives Comparaisons Métarègles Candito Xia Validation : Implantation d une grammaire/évaluation Conclusion Représentation de grammaires fortement lexicalisées 14

XMG : idées centrales XMG est un langage de représentation grammatical Qui permet de représenter Le partage de structure Les alternatives Motivations Problèmes pratiques d ordonnancement de règles lexicales Problèmes formels liés aux règles lexicales (boucles) Declaratif et monotone Formellement : Deux langages sont combinés : Un langage de contrôle qui s interprète comme un programme logique Un langage de description d arbres qui s interprète par un problème de satisfaction de contraintes Représentation de grammaires fortement lexicalisées 15

Partage de structure Partage de structure : N V N Jean mange des biscuits N N* N N V Les biscuits que Jean mange On souhaite identifier et réutiliser des fragments arborescents partagés par de nombreux arbres de la grammaire (sujet canonique) Représentation de grammaires fortement lexicalisées 16

Alternatives Alternatives : N V N arbre pour l actif N V PP V V P N par arbre de passif (par) Les alternatives ont un statut particulier : Contribuent à décrire des ensembles d arbres mis en relation ( partagent une sémantique commune) Exemple : Une famille TAG est un ensemble d arbres décrivant des réalisations alternatives d un même cadre de sous-catégorisation. Représentation de grammaires fortement lexicalisées 17

Le langage de contrôle Permet de nommer des descriptions grammaticales (1)a. ujetcanonique N V b. ujetrelativé N N* N V c. FormeActive V Une description nommée (ou classe) peut être réutilisée par ailleurs (de manière analogue à une macro) Représentation de grammaires fortement lexicalisées 18

Combiner les descriptions Disjonction (choix) de descriptions (2) ujet ujetcanonique ujetrelativé Un sujet est soit un sujet canonique soit un sujet relativé. La disjonction est un choix (interpretation indéterministe) Conjonction de descriptions (3) VerbeIntransitif ujet FormeActive Une conjonction de descriptions est interprétée comme la conjonction syntaxique de deux descriptions arborescentes où les noms des noeuds sont renommés Représentation de grammaires fortement lexicalisées 19

Interpretation par l exemple Evaluation de la classe VerbeIntransitif : N V Le garçon... V dort N V Le garçon dort N N* N V (Le garçon) qui... V dort N N* N V Le garçon qui dort Représentation de grammaires fortement lexicalisées 20

Formellement : programme logique yntaxe abstraite du langage de contrôle : Clause ::= N om But But ::= But But But But φ N om Une description grammaticale est interprétée comme une grammaire de réécriture où : Les descriptions arborescentes jouent le rôle des terminaux La composition ( ) joue le rôle de la concaténation de langages Les règles récursives sont interdites Etant donné un axiome, l interprète de la description grammaticale génère l ensemble des arbres correspondant au langage engendré par cette grammaire Représentation de grammaires fortement lexicalisées 21

Langage de description d arbres On répond ici à 2 questions : que sont ces fragments? comment sont-ils combinés? = Langage classique de descriptions d arbres Particularité (vs Candito 99, Xia 01) : lors de la composition ( ) de deux descriptions, les noeuds sont renommés permet de réutiliser plusieurs fois la même classe pour engendrer un arbre donné Le langage classique est augmenté de principes qui permettent de garantir la bonne formation des arbres engendrés en suivant des critères linguistiques Représentation de grammaires fortement lexicalisées 22

Le Langage de base Le langage de descriptions d arbres comprend les relations de dominance réflexive et transitive, de dominance immédiate, de précédence et d adjacence Les noeuds sont étiquetés par des catégories (complexes) Notation : (D 0 ) y + z z w x y x y x w x : X y : Y z : Z w : W X est noté (D 0 ) Y + Z W Une formule du langage est interprétée par un modèle (arbre fini) minimal Représentation de grammaires fortement lexicalisées 23

Modèle minimal Étant donné une formule, on cherche la classe de modèles (= arbres finis ordonnés linéairement) qui satisfont la formule. On a une infinité de modèles qui satisfont une formule donnée Modèle minimal Minimise le nombre de noeuds Minimise la dominance linéaire Exemple : a b a c a c a a (1) (2) (3) b b c b c (4) a b c (5) a b c x (6) b a x c Représentation de grammaires fortement lexicalisées 24

Questions de nommage Une classe de la métagrammaire définit un espace de nom qui lui est propre Lorsqu on combine deux descriptions on renomme tout Exemple : Deux descriptions dont les noms sont anonymisés : X W Z X Z Y Ca donne (avec unicité de la racine, unification des catégories) : X X (a) W Z Y (b) W Z Z Y (b) est indésirable Représentation de grammaires fortement lexicalisées 25

Préserver les noms? Préserver les noms et imposer leur identification? = olution de (Candito, Xia) Xa Xa W b Zc Zc Y d Problème : nommage global et collisions de noms On perd largement les bénéfices de la factorisation Collisions de noms délicates lorsqu on utilise plusieurs fois la même classe On résout le problème en introduisant des contraintes additionelles sur les structures décrites par le langage de description Représentation de grammaires fortement lexicalisées 26

Contraintes additionelles Pour des raisons formelles aussi bien que pratiques le langage de base est insuffisant On permet de le paramétrer avec des contraintes supplémentaires, c està-dire : Un ensemble de propriétés unaires additionelles associées aux noeuds Une contrainte tire parti de ces propriétés pour contraindre davantage l admissibilité des modèles engendrés Exemples : Contraintes de coloration, d unicité d argument extrait, d ordonnancement des clitiques, ilôts-wh. Représentation de grammaires fortement lexicalisées 27

Contrainte de coloration (Objectif) Inspiré des systèmes à polarités (ex. Grammaire d interactions) Introduction d un schéma de combinaison : Chaque noeud de la description est associé à une propriété, une couleur (blanc, noir, rouge) Contrainte : chaque noeud d un modèle résultant est colorié soit en noir soit en rouge. Quand deux noeuds sont fusionnés, les couleurs sont mélangées comme suit : B R W B B R W B W Le rouge représente la saturation totale, le noir la saturation partielle (combinaison optionelle) et le blanc la non saturation Représentation de grammaires fortement lexicalisées 28

Contrainte de coloration (suite) Exemple : X B W R Z B X W Z W Y R Autres solutions possibles (Allemand, Coréen?) : quelques noms globaux + un nom anonyme (rouge) à investiguer Le problème de nommage est très difficile. contradiction : On repose sur une (Enjeu expressif) TAG définit un domaine de localité (= portée des noms) étendu, on veut pouvoir accéder à tout noeud d un arbre (Enjeu pratique) D autre part on souhaite localiser les noms dans les classes (principe de base en informatique) Représentation de grammaires fortement lexicalisées 29

Contrainte d ordonnancement des clitiques Rang des clitiques = propriétés unaires Contraintes = ordre linéaire défini sur le rang V V N + V Cl 3 + V Cl 4 + V V V = N V Cl 3 Cl 4 V N V Cl 4 Cl 3 V Représentation de grammaires fortement lexicalisées 30

Unicité de l argument extrait Les extractions multiples sont peu communes en français * A quelle fille Quels biscuits Jean donne? On utilise un principe d unicité : Propriété attachée au noeud : E Contrainte : Un modèle ne peut comprendre plus d un seul noeud marqué de cette propriété PP N N V E PN V E à Jean...... quels biscuits...... à quelle fille... donne V Représentation de grammaires fortement lexicalisées 31

Classification de Contraintes Mes contraintes viennent en droite ligne des contraintes LFG/GPG (Kaplan, Gazdar,Pullum) Classification (inspirée de G.K. Pullum) : Contraintes formelles = structures sur lesquelles on travaille (ici arbres) Contrainte opérationelle (nommage) : coloration Contraintes universelles ( principes) : ex. complétude/unicité en LFG, (Frank 02) pour TAG... absent de la métagrammaire Contraintes spécifiques au langage ( paramètres) : ex. ordonnancement des clitiques, extraction, etc. L implantation est conçue pour permettre l ajout de nouvelles contraintes (de façon programmatique). Hence XMG Idée semblable à XDG (Debussman et. al) : ici on applique les contraintes offline Représentation de grammaires fortement lexicalisées 32

Plan Introduction Désidératas et motivations Partage de structure/alternatives Un langage de représentation Langage de contrôle/langage de description arborescentes Méthodologie Langage Partage de structure / alternatives Comparaisons Métarègles Validation : Implantation d une grammaire/évaluation Conclusion Représentation de grammaires fortement lexicalisées 33

Méthodologie (introduction) On montre que le langage de description grammaticale permet de réutiliser largement la méthodologie de (Candito 99, Xia 01) pour décrire une grammaire du français On fonctionne en quatre étapes : Description et organisation fragments d arbres Expression d alternatives fonctionelles Expression d alternatives de diathèse Description de familles d arbres Représentation de grammaires fortement lexicalisées 34

Fragment d arbres (blocs de construction) Chaque fragment d arbre est associé à un nom qui permet de le réutiliser par après ujcanon ObjCanon N ObjIndCanon ObjParCanon FormeActive V V N V PP P N à V PP P N par V ujetrel ObjWh ObjIndWh ObjParWh N N* N V N V FormePassive PP P N à PP P N par V V V Représentation de grammaires fortement lexicalisées 35

Organisation des fragments en une hiérarchie d héritage Exemple : ObjIndCanon PPCanon φ φ est l information supplémentaire qui représente la spécialisation On dit informellement que ObjIndCanon hérite de PPCanon ArgumentVerbal ujcanon CompltCanon Wh ujrel ObjCanon PPCanon ObjWh PPWh ObjIndCanonObjParCanon ObjIndWh ObjParWh En contexte d héritage on utilise également un mécanisme supplémentaire qui permet à une sous-classe d accéder aux noms déclarés dans les superclasses Représentation de grammaires fortement lexicalisées 36

Fonctions syntaxiques Fonctions sont vues comme des abstractions sur des realisations syntaxiques (4)a. ujet ujcanon ujrel b. Objet ObjCanon ObjWh c. ObjetPar ObjParCanon ObjParWh d. ObjetIndirect ObjIndCanon ObjIndWh Par exemple, ObjetIndirect represente des alternatives telles que : (5)a. Jean parle à Marie (Objet indirect canonique) b. A qui Jean parle-t-il? (Objet indirect wh) Représentation de grammaires fortement lexicalisées 37

Alternatives de diathèse Ici on traite les alternatives comme actif/passif. (6) AlternanceTransitive (ujet FormeActive Objet) (ujet FormePassive ObjetPar) Indique qu à l actif le premier argument est réalisé par un sujet ujet et que le second comme un Objet alors qu au passif le premier argument est réalisé par un ObjetPar et le second par un ujet. Par exemple : (7)a. Jean envoie une lettre b. Une lettre est envoyée par Jean c. Par quelle personne la lettre est-elle envoyée? Représentation de grammaires fortement lexicalisées 38

Familles TAG Finalement on peut représenter les familles TAG (8) FamilleDitransitive AlternanceTransitive ObjetIndirect Une famille TAG représente l ensemble des réalisations alternatives d un cadre de sous-catégorisation donné. Autrement dit on rend compte de contextes du type : (9)a. Jean offre des fleurs à Marie b. A quelle fille Jean offre-t-il des fleurs? c. Le garçon qui offre des fleurs à Marie d. Quelles fleurs le garçon offre-t-il à Marie? e. Les fleurs sont offertes par Jean à Marie f. Par quel garçon les fleurs sont-elles offertes à Marie? Représentation de grammaires fortement lexicalisées 39

Plan Introduction Désidératas et motivations Partage de structure/alternatives Un langage de représentation Langage de contrôle/langage de description arborescentes Méthodologie Langage Partage de structure / alternatives Comparaisons Métarègles Candito Xia Validation : Implantation d une grammaire/évaluation Conclusion Représentation de grammaires fortement lexicalisées 40

Comparaisons (métarègles) Métarègles (Becker 93) Métagrammaire = déclaratif et pas de problèmes de terminaison Les fragments que l on utilise dans la métagrammaire correspondent aux parties gauches et droites modifiées par les métarègles Les fragments sont factorisés entre eux dans la métagrammaire Possibilité de gérer les interactions de réalisation (ex. clitiques) dans la métagrammaire Représentation de grammaires fortement lexicalisées 41

Comparaison (métagrammaires) Métagrammaires (Candito 99, Xia 99) Langage et méthodologie monotones : Pas de distinction contexte de base/contexte dérivé Réutilisation des idées théoriques de la théorie du liage Pour grammaires à (au moins) deux dimensions Importance accrue de la notion d alternative Distinction stricte système formel méthodologie Effort calculatoire réduit : Renommage de noeuds + couleurs réduit les problèmes de noms Alternatives sont plus faciles (directes) à exprimer Représentation de grammaires fortement lexicalisées 42

Plan Introduction Désidératas et motivations Partage de structure/alternatives Un langage de représentation Langage de contrôle/langage de description arborescentes Méthodologie Langage Partage de structure / alternatives Comparaisons Métarègles Candito Xia Validation : Implantation d une grammaire/évaluation Conclusion Représentation de grammaires fortement lexicalisées 43

Validation et implémentations (DLP 04) ont implémenté un interprète concret pour le langage présenté Le langage de contrôle est implémenté comme un programme logique Les descriptions d arbres sont traitées par un constructeur de modèles adapté de (DN 00) Réutilisation de techniques connues en programmation logique Implémenté en Mozart/Oz permet de bénéficier des optimisations de la bibliothèque Efficacité (rapidité) de la compilation Développement rendu plus facile : Rapidité de développement Plusieurs utilisateurs du système Représentation de grammaires fortement lexicalisées 44

Validation : Un fragment de grammaire du français Pour tester l adéquation du langage, j ai implémenté un fragment large de grammaire du français (TAG, d après Candito 99, Abeillé 02) Aperçu de la couverture (Dépendants verbaux et adjectivaux) Constructions Fonctions syntaxiques Diathèse ous-catégorisation Evaluation avec TNLP (Lehmann 96) Réalisée avec l analyseur LLP2 (LORIA) Items grammaticaux : accepte 76% Items aggramaticaux : rejette 83 % Ambiguité moyenne : 1.63 Canonique, Clitique, Interrogative, Relative, Cliv ujet, Objet, Objet Indirect, Genitif, Locatif, Obliq ujet phrastique, Objets phrastiques, interrogativ Actif, Passif, Impersonnel, Moyen, Réflechi 46 cadres de sous-catégorisation Représentation de grammaires fortement lexicalisées 45

Principales causes d échecs Coordination Négation Incises Comparatif Causatif Inversion clitique à l impératif Contrôle de l objet Résiduelles : Différences de jugement sur la grammaticalité des phrases Phonologie trouvé-je Expressions idiomatiques Imperfections du lexique Représentation de grammaires fortement lexicalisées 46

Conclusion Proposition Un langage de représentation grammatical déclaratif et monotone : Langage de contrôle (composition, disjonction) Langage de description d arbres (augmenté de principes) Méthodologie compatible avec Les perspectives théoriques en linguistique formelle Implémentation d une dimension sémantique Perspectives Extension à d autres formalismes (GI, XDG, LFG) done! Implémentation effective d une sémantique done! Constitution de lexique almost done! Optimisation des analyseurs (Clergerie 2005) ou upertagging Quoi mettre dans une grammaire? Benchmarking (couverture, accuracy, efficacité) Représentation de grammaires fortement lexicalisées 47