Journée ATALA Interface lexique-grammaire et lexiques syntaxiques et sémantiques

Documents pareils
Atelier ATOLL pour les grammaires d arbres adjoints

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Projet de Conception N 1 Automatisation d'un processus de paiement. Livrable: Spécification du système de compensation

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Compte-rendu de Hamma B., La préposition en français

Constituer et gérer une bibliographie avec le logiciel zotero. Support de cours et liens utiles

Business Intelligence simple et efficace

Ressources lexicales au service de recherche et d indexation des images

Baccalauréat technologique

Nom de l application

Livret personnel de compétences

Détection des propositions syntaxiques du français : en vue de l alignement des propositions de textes parallèles français-japonais

Business Process Modeling (BPM)

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

1 Description générale. Résumé

Grammaires d unification

Expériences de formalisation d un guide d annotation : vers l annotation agile assistée

Méthode de classification des réponses d un moteur de recherche

ÉVALUATION PRIMAIRE D UN SYSTÈME D AIDE AU CONTRÔLE AÉRIEN EN ROUTE

LES TECHNOLOGIES DU WEB APPLIQUÉES AUX DONNÉES STRUCTURÉES

Groupe Mathématiques Instrumentées au Lycée

Apprentissage Automatique

La phonétisation de "plus", "tous" et de certains nombres : une analyse phono-syntaxique

TiLT : plate-forme pour le traitement automatique des langues naturelles

OASIS Date de publication

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

LEXOS, logiciel d'étude lexicale et de conjugaison

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

! Text Encoding Initiative

Parcours DIWEB : (Données, Interaction et Web)

Débuter avec OOo Base

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Dossier justificatif des travaux de R&D déclarés au titre du CIR

LA RECHERCHE DOCUMENTAIRE

N SIMON Anne-Catherine

1 On peut consulter et interroger ce corpus sur le site de l équipe DELIC :

Exercice pour les tuteurs

Mineure Architectures Orientées Services SOA Business Process Modeling (BPM) Mineure SOA. Business Process Modeling (BPM)

Consignes pour les travaux d actualité Premier quadrimestre

LA CONJONCTION MÊME SI N EXISTE PAS!

FICHE DE POSTE. Date de rédaction : 20/02/15. Argumentaire général

Formats de fichiers adaptés à l'archivage électronique à moyen et long terme

Une méthode d apprentissage pour la composition de services web

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Construction et maintenance d une ressource lexicale basées sur l usage

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

L'interrogation de bases de données comme application des classes d'objets. Béatrice Bouchou, Julien Lerat, Denis Maurel

CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS

MÉMOIRE DE STAGE DE MASTER SPÉCIALITÉ : Recherche en Informatique Mention : Informatique, Mathématiques, Statistiques

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Dossier projet isn 2015 par Victor Gregoire

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

Comprendre Merise et la modélisation des données

Guide d installation de l Adaptateur CPL 500AV+ Nano XAV5601

Contenu disciplinaire (CK)

Les tableaux croisés dynamiques

RECOMMANDATIONS POUR L EVALUATION ET LE TRAITEMENT DES DOSSIERS D ETUDIANTS

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

ANALYSE SÉMANTICO-DISCURSIVE DES COLLOCATIONS LEXICALES EN CORPUS SPÉCIALISÉ : LA BASE CONNAISSANCE-S

UFR d Informatique. FORMATION MASTER Domaine SCIENCES, TECHNOLOGIE, SANTE Mention INFORMATIQUE

MATHEMATIQUES ET SCIENCES POUR L INGENIEUR

Tutoriel - flux de facturation

Louis-Philippe Gagnon Auditeur De Système D Alarme LABORATOIRES DES ASSUREURS DU CANADA 12 Novembre, 2014

LA STRUCTURE FACTITIVE-CAUSATIVE FAIRE +INF. DU FRANÇAIS ET SES ÉQUIVALENTS EN ROUMAIN

INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE

Créer un mémento grammatical portatif et évolutif pour tablettes et smartphones

LE PROBLEME DU PLUS COURT CHEMIN

CORRIGÉ DU DOSSIER N 2

Trois approches du GREYC pour la classification de textes

Université Paris XI Faculté des sciences d Orsay THÈSE. présentée pour l obtention du grade de Docteur en Sciences de l Université Paris-Sud XI Orsay

Microsoft Excel : tables de données

Atelier rédactionnel

Reproductibilité des expériences de l article "Analyse et réduction du chemin critique dans l exécution d une application"

ITIL, le CMS et vous LIVRE BLANC DES MEILLEURES PRATIQUES

La plate-forme DIMA. Master 1 IMA COLI23 - Université de La Rochelle

Démarches d urbanisation : réorganiser le Système d Information en structurant ses fonctions dans des blocs fonctionnels communicants.

Gestion de projet. GanttProject Didacticiel V novembre Gérard Gervois Frédéric Giamarchi

Introduction à la relativité générale

Annexe : La Programmation Informatique

Université de Haute Alsace. Domaine. Sciences Humaines et Sociales. MASTER Mention Éducation, Formation, Communication UHA, ULP, Nancy 2

Entrepôt de données 1. Introduction

CALC2QIF Conversion de données OpenOffice au format QIF

Recommandations pour la réalisation pratique et la diffusion des mémoires

Utilisation de l analyse statique comme outil d aide au développement. par. Yves Gauthier

Intelligence Economique - Business Intelligence

Un environnement de déploiement automatique pour les applications à base de composants

Travaux pratiques avec RapidMiner

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

Pour écrire un texte sans fautes

THOT - Extraction de données et de schémas d un SGBD

Urbanisation des Systèmes d Information Architecture d Entreprise. 04 Architecture du SI : identifier et décrire les services, structurer le SI

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

Resolution limit in community detection

INSERER DES OBJETS - LE RUBAN INSERTION... 3 TABLEAUX

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Transcription:

Journée ATALA Interface lexique-grammaire et lexiques syntaxiques et sémantiques Les ressources lexicales du LADL: leur utilisation dans un contexte d'analyse syntaxique Olivier Blanc, Matthieu Constant, Javier Sastre Institut Gaspard Monge, laboratoire d'informatique Université de Marne-la-Vallée Introduction / Résumé Dans cet exposé, nous souhaitons présenter les différentes ressources lexicales accumulées depuis une trentaine d'années au LADL par les équipes de Maurice Gross, dans plusieurs langues : dictionnaires morphosyntaxiques (mots simples, mots composés figés et semi-figés), dictionnaires syntaxiques pour les prédicats verbaux, adjectivaux et nominaux et dictionnaires de phrases figées (M. Gross, 1975, 1994; Bibliographie générale du LADL). Dans un souci d'ouverture vers la communauté, ces données sont en train d'être converties dans un format standard XML et vont être librement diffusées totalement ou partiellement. Dans une deuxième partie, nous présentons un analyseur syntaxique alimenté par une grammaire lexicalisée compilée à partir de ces ressources. A cet effet, nous décrirons le formalisme utilisé qui est une grammaire de constituants décrits avec des automates récursifs augmentés de contraintes d'unification. Un système de pondération sur les automates permet au grammairien de donner une priorité à certains chemins par rapport à d'autres (ex. règle lexicale favorisée par rapport à une règle générale) et ainsi de choisir une analyse parmi plusieurs analyses candidates. Afin d'être utilisables, les ressources lexicales ont besoin d'être compilées dans un format directement exploitable par le parseur. Nous utilisons les méthodes décrites par E. Roche (1993). A- Les ressources lexicales A.1- Présentation des ressources Les dictionnaires morphosyntaxiques se trouvent soit sous la forme de listes pour décrire des mots simples et des mots composés, soit sous la forme de graphes (ou grammaires locales) pour décrire des ensembles de variantes plus complexes d'un même lemme. Chaque entrée lexicale comprend plusieurs types d'informations : une forme fléchie, une forme canonique, une partie du discours, des informations morphologiques telles que le genre, le nombre, le temps de conjugaison, etc., des traits sémantiques génériques pour les noms (humain, concret, nom propre, toponyme,...), plus quelques traits syntaxiques de base pour les verbes (transitif, pronom réfléchi obligatoire,...). Une description plus fine du comportement syntaxique et de la sous-catégorisation des éléments prédicatifs est faite dans des dictionnaires syntaxiques. Ces dictionnaires (ou tables de lexique-grammaire) décrivent les comportements syntaxiques pour chaque prédicat de manière exhaustive :

nombre et nature des arguments (ex. complétive, infinitive, groupe nominal humain,...) les prépositions appropriées les transformations acceptées (ex. passif, construction croisée, effacement d'un argument,...) résolution de co-références (ex. entre le sujet d'une infinitive et un argument du verbe principal) Ces propriétés sont codées sous la forme de tables (ligne : entrée lexicale ; colonne : propriété). Il n'existe pas de système de description de sens formalisée. Cependant, les différents emplois (ou sens) pour une même valeur lexicale font l'objet de différentes entrées distinguées à partir de critères syntaxiques formels. Par exemple, le verbe porter comporte une quinzaine d'entrées parmi lesquelles: Max se porte bien Luc porte une cravate La discussion porte sur ce sujet Luc porte la valise dans la voiture Il en est de même pour les noms et les adjectifs prédicatifs. Par exemple, Max fait la fête Max fait sa fête à Luc... Cette description de la langue est complétée par un dictionnaire de phrases figées de 30 000 entrées (français). A.2- Normalisation et diffusion des ressources La construction de ressources linguistiques et leur utilisation est en pleine explosion dans le domaine du Traitement Automatique des Langues. Ainsi, afin de faciliter les échanges dans la communauté, il est important de mettre en place des standards (ex. EAGLES, RNIL). Le formatage des données en XML semble être devenu une règle. Des architectures de système d'échanges des données ont même été conceptualisées (L. Romary, 2000). Dans cette nouvelle optique, l'équipe de linguistique informatique de l'igm, Université de Marnela-Vallée, a mis en place une politique de normalisation et de diffusion des ressources lexicales du LADL. Des outils de conversion des ressources lexicales du format existant à un format XML ont récemment été implantés. Il existe également un éditeur de tables de lexique-grammaire en XML. Aussi, la diffusion des ressources est devenue une priorité : une partie des dictionnaires sont distribués via le logiciel libre Unitex et certaines tables du lexique-grammaire sont visualisables et téléchargeables à partir du site web du laboratoire. La diffusion des grammaires locales constitue la prochaine étape logique de cette politique. B- Un exemple d'utilisation: un analyseur syntaxique alimenté par ces ressources B.1- Formalisme Historiquement, au LADL, la mise en place de systèmes d'analyse syntaxique automatique de textes avec grammaires lexicalisées a commencé avec M. Salkoff (1973), A. Abeillé (1991) [LTAG], M.

Mohri (1993) et E. Roche (1993) [transducteurs]. Le système INTEX (M. Silberztein, 1993) a permis de mettre en place une plate-forme commune à la communauté du lexique-grammaire. La représentation des grammaires sous la forme de graphes et de réseaux récursifs de transitions (RTN) a alors été adoptée pour l'analyse de textes. Ces graphes sont des automates à états finis dont les transitions peuvent être étiquetées soit par des éléments lexicaux, des références à des ensembles lexicaux à travers l'utilisation d'un dictionnaire morphosyntaxique et des références à des sousgraphes. Bien que ce formalisme ne soit pas le plus puissant (cf. TAG, HPSG), sa simplicité a permis une large utilisation pour l'analyse de textes dans des domaines spécialisés, avec succès (T. Nakamura, 2004). Dans cet exposé, nous proposons de présenter un analyseur syntaxique utilisant une grammaire lexicalisée au formalisme plus évolué. Afin de palier aux limites théoriques inhérentes aux RTN, nous avons fait évoluer nos grammaires vers des grammaires à structures de traits. Nous conservons la simplicité initiale du système de graphes, tout en augmentant les grammaires de contraintes d'unification ; notre formalisme se rapproche ainsi du modèle PATR développé par S. Shieber (1986) avec la différence que les règles de réécriture sont remplacées par des descriptions linguistiques représentées par des automates finis. Ces derniers permettent de mettre très simplement en relation les différentes possibilités de réalisation de chaque constituant de la grammaire. Les contraintes d'unification permettent de résoudre de manière homogène différents phénomènes linguistiques tels que les contraintes d'accord, les phénomènes d'extraction et les dépendances non bornées ou encore la résolution de certaines co-référence. Dans un but plus applicatif, nous avons mis en place un système de pondération artisanale sur les automates permettant de donner des notes (ou scores) aux analyses obtenues. Le grammairien pourra, par exemple, favoriser, parmi un ensemble d'analyses candidates, les analyses où tous les arguments du prédicat sont identifiés (problème de l'attachement prépositionnel) ou encore favoriser des analyses de façon ad hoc à partir d'observations empiriques. A titre d'exemple, le graphe de la figure 1 présente différentes réalisations de phrases ayant pour prédicat principal le verbe empêcher dans son emploi décrit dans la table 12 du lexique-grammaire (Gross, 1975). La partie gauche décrit la possibilité d'avoir un sujet sous forme de groupe nominal, complétive ou infinitive : (Lea Que Lea ait quitté Max sortir en boîte) empêche Luc de dormir. L'étiquette <:V> dans la partie centrale fait référence à un sous graphe qui décrit le noyau verbal de la phrase (c'est-à-dire le verbe éventuellement modifié par des adverbes ou des auxiliaires modaux et aspectuels). Enfin la partie droite présente les différentes réalisations du complément N1 pour le verbe empêcher : groupe nominal prédicatif ou complétive au subjonctif. La ligne du bas décrit la possibilité de monter le sujet de la complétive en position d'objet direct, qui est une transformation acceptée par tous les verbes de la table 12. La neige empêche que les gens sortent = La neige empêche les gens de sortir. Les contraintes d'unification sous les boîtes permettent : d'identifier les arguments N0 et N1 du prédicat et de vérifier que leur nature est compatible avec les contraintes de sous-catégorisation, d'imposer l'accord entre le verbe et son sujet, et de résoudre certaines co-références en rétablissant le sujet des infinitives.

B.2- Construction d'une grammaire lexicalisée Nous sommes actuellement en train de construire une grammaire lexicalisée pour le français suivant le formalisme décrit précédemment, générée semi-automatiquement à partir des tables du lexiquegrammaire ; nos travaux sont en partie inspirés de ceux d'anne Abeillé (2002). Pour chaque élément prédicatif, nous décrivons les différentes réalisations des constituants syntaxiques (phrase, infinitive, phrase privée d'un argument, groupe nominal pour les noms prédicatifs, etc.) dont il est le noyau. Afin d'automatiser ce procédé, nous construisons manuellement pour chaque table une metagrammaire constituée d'un ensemble de graphes paramétrés ; cette grammaire paramétrée consiste en la grammaire d'une entrée fictive de la table qui vérifierait toutes les propriétés qui y sont encodées. Chaque chemin de la grammaire est identifié par un paramètre référant à la propriété correspondante dans la table. A partir de cet ensemble de graphes paramétrés, on génère automatiquement pour chaque entrée une grammaire spécialisée dans laquelle seuls les chemins correspondant aux propriétés vérifiées sont conservés. C'est selon ce procédé que le graphe de la figure 1 a été généré à partir du graphe paramétré présenté dans la figure 2. En l'état actuel de nos travaux, la couverture de la grammaire est faible. Nos résultats sont donc partiels mais, dans l'ensemble, encourageants. Références Abeillé, Anne, 1991, Une grammaire lexicalisée d'arbres adjoints pour le français : application à l'analyse automatique, thèse de doctorat, Paris, Université Paris 7. Abeillé, Anne, 2002. Une grammaire électronique du français, CNRS Editions, Paris Constant, Matthieu, 2003, Grammaires locales pour l'analyse automatique de textes : Méthodes de construction et outils de gestion, Thèse de doctorat, Université de Marne la Vallée. Gross, Maurice, 1975, Méthodes en syntaxe, Hermann, Paris. Gross Maurice, 1994, Constructing Lexicon-grammars, In Computational Approaches to the Lexicon, Atkins and Zampolli (eds.), Oxford Univ. Press, pp. 213-263 Mohri, Mehryar, 1993, Analyse et représentation par automates de structures syntaxiques composées : applications aux complétives, Thèse de Doctorat, Paris, Université Paris 7. Nakamura, Takuya, 2004, "Analyse automatique d'un discours spécialisé au moyen de grammaires locales", Le poids des mots : Actes des 7èmes Journées internationales d'analyse statistique des données textuelles, Purnelle G., Fairon C. et Dister A. (eds.), UCL Presse universitaire de Louvain, pp. 837-847. Pollard C. and I.A. Sag (1994), Head-Driven Phrase Structure Grammar, University of Chicago Press and CSLI Publications.

Roche, Emmanuel, 1993, Analyse syntaxique transformationnelle du français par transducteurs et lexique-grammaire, Thèse de Doctorat, Paris, Université Paris 7. Romary, Laurent, 2000, Outils d'accès à des ressources linguistiques, In J.M. Pierrel (ed.), Ingénierie des Langues, Hermes Science, Paris Salkoff, Morris. 1973, Une grammaire en chaîne du français. Analyse distributionnelle, Paris: Dunod. Schabes, Yves, Anne Abeillé and Aravind K. Joshi, 1988, Parsing strategies with `lexicalized' grammars: Application to tree adjoining grammars, In Proceedings of the 12 International Conference on Computational Linguistics (COLING'88), Budapest, Hungary, August 1988. Shieber, Stuart, 1986, An introduction to unification-based theories of grammar, CSLI, University of Chicago Press. Silberztein, Max D., 1993, Dictionnaires électroniques et analyse automatique de textes. Le système INTEX, Paris, Masson, 234 p. Sites Bibliographie générale du LADL, http://infolingu.univ-mlv.fr EAGLES, http://www.ilc.cnr.it/eagles96/home.html RNIL, http://atoll.inria.fr/rn

ANNEXE Figure 1 - Formes de base pour le prédicat empêcher

Figure 2 Formes de base de la table 12