De la linguistique descriptive au TAL Matthieu Constant Université de Marne la Vallée Séminaire SIGNES INRIA 8 avril 2005
Cursus Ingénieur en informatique, électronique et automatique École Polytechnique Universitaire de Lille, juillet 1999 Docteur en informatique linguistique Université de Marne la Vallée, sept. 2003 Recherche post doctorale en entreprise Teragram Corporation, Boston, sept. 2003 août 2004 ATER en informatique Université de Marne la Vallée, sept. 2004...
Approche pluridisciplinaire pragmatique fondement linguistique
Thèmes de recherche Ressources lexicales Constitution de lexiques Gestion des ressources Intégration des ressources Analyse superficielle de textes Analyse profonde de textes
Partie I Ressources lexicales
Partie I.1 Constitution de lexiques
Méthodologie : lexique grammaire Référence : M. Gross (1975) Étude systématique de prédicats verbes, noms, adverbes, adjectifs, figés,... Cadre : phrase simple (libre et figée) Entrée lexicale = un emploi Classification sur critères syntaxiques Étude systématique des propriétés syntaxiques Codage formel systématique
Ressources lexicales Dictionnaires syntaxiques entrées lexicales = prédicats tables de lexique grammaire Grammaires locales phénomènes locaux lexicalisés sous la forme de graphes et équivalentes à des RTNs Dictionnaires morphosyntaxiques listes d'entrées lexicales (mots simples et composés) compressés en FST
Ma contribution Sujets d'étude : expressions de mesure compléments prépositionnels locatifs géographiques Représentations formelles : tables de lexique grammaire grammaires locales
Ma contribution (2) travail linguistique nouvelle pierre à l'édifice méthode classique avec un peu plus de sémantique travail informatique représentation relationnelle compilation
Phrase simple Expressions de mesure (J. Giry Schneider, 1991) ex. N0 avoir un Ng de n Unité =: Max a une taille de 1,80 m Compléments prépositionnels locatifs géographiques N0 être Loc X =: Luc se trouve à l' île de Crète =: Luc se trouve en Crète
Entrées lexicales Noms de grandeur taille, vitesse, distance, angle,... poids (kg), poids (Newton) tension artérielle, tension électrique Noms propres géographiques Paris, ville de Paris Méditerranée, mer Méditerranée département du Nord, mer du Nord
Classification sur critères formels Mesures : mesures absolues L'immeuble a une hauteur de 100 m mesures relatives Marie est à une distance de 10 m de Lea mesures comparatives Luc est 10 kg plus lourd que Max (Ng =: poids) Noms propres géographiques par classifieur mer, ville, pic,...
Permutation Propriétés syntaxiques (1) exemples La corde (a + fait) 10 m de (longueur + long) Le mur (a + fait) 10 cm d' (épaisseur + *épais) * La voiture (fait + a) 10 km/h de vitesse Variations lexico syntaxiques Le livre (a + forme + fait) un angle de 10 degrés avec le stylo Max est à une hauteur de 10 m au-dessus de Léa L'evade est dans un périmètre de 2 km autour de la prison
Propriétés syntaxiques (2) Distribution prépositionnelle avec formes longues La croisière est (dans la + en + *E) mer du Nord Luc est (dans la + *en + E) rue Daubenton Luc est (dans la + *en + *E) ville de Tours Distribution prépositionnelle avec forme courte Marie est (en + *à) Crète Marie est (*en + à) Guernesey Marie est (en + à la) Guadeloupe Marie est (*en + à la) Réunion
Tables de lexique grammaire mesures (absolues, relatives, comparatives) noms propres géographiques «composés» + distribution prépositionnelle
Grammaires locales Mesures : Dnum Unité, etc. Locatifs : Prépositions composées (localisation spatiale), etc.
Partie I.2 Gestion des ressources
Introduction Besoin de gestion des ressources Outils de gestion d'une bibliothèque de grammaires locales Membre du groupe de travail sur les dictionnaires DELA
Bibliothèque de grammaires locales Thèse + en cours (avec J. Sastre, doctorant) genre de «CVS» pour grammaires locales Outils implantés : modification de la base recherche d'information dans la base Problèmes dépendance des grammaires locales informations dans des objets complexes
Outils Modification (créer, ajouter, supprimer,...) pas toujours trivial (dépendance) suppression = CFC + tri topologique Recherche de grammaires locales moteur de recherche dans grammaires et documentation associée indexation (lemmatisation, suppression des mots vides) recherche booléenne par mot contenu (OR, AND) recherche par séquences (reconnues ou «incluses»)
Partie II Analyse de textes
Partie II.1 Analyse superficielle
Analyse superficielle de textes Principe : repérage de séquences pertinentes candidates calcul du degré de pertinence d'une séquence regroupement sémantique des séquences Applications : catégorisation de documents question réponse indexation
Repérage de séquences linguistiques Utilisation de grammaires locales pondérées patrons syntaxiques (chunks) grammaires lexicalisées (informations précises) graphie (entités nommées)
Patrons syntaxiques
Grammaire lexicalisée
Calcul du degré de pertinence Recherche d'informations générales apprentissage statistique (ex. cooccurrences) calculs matriciels (ex. Latent Semantic Indexing) Recherche d'informations spécifiques et précises poids manuels dans grammaires locales
Regroupement sémantique Recherche d'informations générales thèmes abordés : word clustering constitution automatique de classes sémantiques Recherche d'informations précises et spécifiques redondance : word clustering assignation manuelle de catégories sémantiques dans grammaires locales
Applications testées Catégorisation de documents construction automatique de «dictionnaires thématiques» Question réponse : Who is X? réponse biographique
Partie II.2 Analyse profonde
Analyse de textes spécialisés Textes spécialisés : lexique limité constructions syntaxiques limitées Formalisable par grammaires locales Problème : résolution de pronoms et d'inférences Expérience sur des Curriculum Vitae détaillés
Exemple de grammaire locale
Analyse syntaxique Construction d'un analyseur syntaxique alimenté par une grammaire lexicalisée But : grammaire à large couverture application sur textes réels (dépêches AFP, etc.) Collaboration avec O. Blanc (doctorant, UMLV)
Formalisme formalisme et parseur par Olivier Blanc système de règles de réécriture avec RTN (graphes), décorées de contraintes d'unification ressemblance avec LFG pondération
Exemple (aimer)
Exemple (SN)
Lexicalisation de la grammaire Utilisation des informations syntaxiques dans les tables de lexique grammaire verbes, noms, adjectifs,... Méthode étendue d' E. Roche (1993) Les propriétés propres à chaque entrée lexicale (sous catégorisation,...) sont directement codées dans la grammaire
Table (36DT)
Graphe paramétré
Graphe lexicalisé
Remarques Avantages : intégration des grammaires locales met simplement en relation des transformations identification des prédicats sémantiques et leurs arguments tout type de prédicat (noms, adjectifs, etc.) Inconvénients : explosion de la taille de la grammaire problème de souplesse (adjonction?) maintenance? (=> meta grammaires)
Conclusion et perspectives Activités de recherche très variées Combinaison entre techniques linguistiques et statistiques perspectives : vers une linguistique un peu plus sémantique vers un troisième axe : «logique» finir grammaire lexicalisée du français