De la linguistique descriptive au TAL

Documents pareils
Compte-rendu de Hamma B., La préposition en français

Apprentissage Automatique

LA RECHERCHE DOCUMENTAIRE

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Concevoir sa stratégie de recherche d information

Grammaires d unification

RIHANE Abdelhamid Maitre de conférences Université de Constantine (ALGERIE)

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

VALIDATION DES FORMATIONS DOCTORALES FICHE DE SUIVI. Année universitaire

Évaluation de l AERES sur l unité :

! Text Encoding Initiative

FORD C-MAX + FORD GRAND C-MAX CMAX_Main_Cover_2013_V3.indd /08/ :12

Référencement de votre site Web Google et autres moteurs de recherche (4ième édition)

Présentation du Master Ingénierie Informatique et du Master Science Informatique , Année 2 Université Paris-Est Marne-la-Vallée

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Logiciel Libre Cours 3 Fondements: Génie Logiciel

Doctorate of Business Administration Programme francophone

Ministère des Affaires étrangères et européennes. Direction de la politique culturelle et du français. Regards VII

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

fiche D AUTOCORRECTION Frimousse, une petite chienne qu'on a adoptée le mois dernier, est intelligente et docile.

Identification du sujet

Éléments d informatique Cours 3 La programmation structurée en langage C L instruction de contrôle if

Homophones grammaticaux de catégories différentes. s y si ci

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

TiLT : plate-forme pour le traitement automatique des langues naturelles

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

ACCOMPAGNEMENT A LA CERTIFICATION ISO 9001 DE L AGENCE POUR LA RECHERCHE ET L INNOVATION EN CHAMPAGNE-ARDENNE - CARINNA

Guide du mémoire de fin d études

Évaluation des demandes de bourses de cycles supérieurs au CRSNG. Pr. Martin Lévesque 30 août 2012

Évaluation et implémentation des langages

IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels

N SIMON Anne-Catherine

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Coordination de subordonnées relatives : identification et correction

Master CCI. Compétences Complémentaires en Informatique. Livret de l étudiant

Qualité du logiciel: Méthodes de test

Règles d élaboration d une évaluation par Questions à Choix Multiple Joël LECHEVALLIER 1

Des consultants forment des consultants Comment créer ma boite de consultant

Business Process Modeling (BPM)

Test Francophone de Langue Française (TFLF) Niveau B1

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

Etudier l informatique

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

MASTER MANAGEMENT DES RH ET DU DÉVELOPPEMENT SOCIAL SPÉCIALITÉ SCIENCES DES ORGANISATIONS ET DES INSTITUTIONS À FINALITÉS RECHERCHE ET PROFESSIONNELLE

BTS Assistant de gestion de PME-PMI à référentiel commun européen

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

CHAPITRE V SELECTION DES CONSULTANTS ET D AUTRES PRESTATAIRES DE SERVICES

Contemporary Engineering Sciences, Vol. 2, 2009, no. 4,

ENTRE LES MURS : L entrée en classe

Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P

L élaboration de la fiche de poste

Formation des enseignants. Le tensiomètre. Objet technique modélisable issu de l environnement des élèves

Langue Française. Syllabus A1. Description globale du niveau A1 utilisateur élémentaire

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

RESPONSABLE DU DEVELOPPEMENT COMMERCIAL IMPORT EXPORT

Livret personnel de compétences

Les Bases de données de presse. Recherche documentaire

Technologie Comment fabriquer une voiture qui roule avec du matériel de récupération? Cycle 2

2 e partie de la composante majeure (8 points) Les questions prennent appui sur six documents A, B, C, D, E, F (voir pages suivantes).

Atelier rédactionnel

Unix/Linux I. 1 ere année DUT. Université marne la vallée

Employer des phrases avec subordonnées relatives et marqueurs emphatiques (c est qui, c est que)

Une situation d'apprentissage du lexique en MS Les activités gymniques

Document d aide au suivi scolaire

OUVERTURE DE VACANCE

Conception de circuits numériques et architecture des ordinateurs

Une école au Togo, épisode 1/4

Groupes de compétences. C est possible! Même en solo!

1 On peut consulter et interroger ce corpus sur le site de l équipe DELIC :

Dis-moi ce que tu as fait, je te dirai qui tu es 1

Déjeuner EIM Enterprise Information Management. Mardi 16 novembre 2010 Restaurant l Amourette Montreuil Thomas Dechilly CTO Sollan

PERSONNEL RETRAITE AYANT UNE ACTIVITE BENEVOLE A L UNIVERSITE PIERRE ET MARIE CURIE

Ecole Préparatoire SNV Université d Oran Semestre /2015 Matière : Travaux d Initiative Personnelle Encadrés (TIPE) Prof. M. Z.

La scénographie des environnements d apprentissage électroniques. Une étude de cas en FLE

«Bienvenue en Europe» : fiche Apprenant Thème : technologies, innovations et médias

La syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait

Les outils actuels permettent-ils d automatiser la production de cartes? De quels outils dispose-t-on?

Séminaires Paris le 14 et 15 mars 2007 Grenoble le 21 et 22 Mars 2007

Langage SQL : créer et interroger une base

Un verbe changeant : Étude sur les diverses structures argumentales de changer

Parcours DIWEB : (Données, Interaction et Web)

Programme de la formation en référencement LYON/PARIS 2015

LE DISCOURS RAPPORTÉ

Fiche conseil n 16 Audit

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

Tableau des contenus

Simulation de Réseaux Ferroviaires

Analyse dialectométrique des parlers berbères de Kabylie

Enseignement Informatique. Classe de Bac Pro SAPAT

Sciences de l'information et de la communication. Enseignant-e-s. Année/Structure/Enseignements. H/sem.

Demande d inscription ANNEE UNIVERSITAIRE

MAINTENANCE AGENT DE MAINTENANCE

TEXT MINING Tour d Horizon

LES INTERFACES HOMME-MACHINE

Transcription:

De la linguistique descriptive au TAL Matthieu Constant Université de Marne la Vallée Séminaire SIGNES INRIA 8 avril 2005

Cursus Ingénieur en informatique, électronique et automatique École Polytechnique Universitaire de Lille, juillet 1999 Docteur en informatique linguistique Université de Marne la Vallée, sept. 2003 Recherche post doctorale en entreprise Teragram Corporation, Boston, sept. 2003 août 2004 ATER en informatique Université de Marne la Vallée, sept. 2004...

Approche pluridisciplinaire pragmatique fondement linguistique

Thèmes de recherche Ressources lexicales Constitution de lexiques Gestion des ressources Intégration des ressources Analyse superficielle de textes Analyse profonde de textes

Partie I Ressources lexicales

Partie I.1 Constitution de lexiques

Méthodologie : lexique grammaire Référence : M. Gross (1975) Étude systématique de prédicats verbes, noms, adverbes, adjectifs, figés,... Cadre : phrase simple (libre et figée) Entrée lexicale = un emploi Classification sur critères syntaxiques Étude systématique des propriétés syntaxiques Codage formel systématique

Ressources lexicales Dictionnaires syntaxiques entrées lexicales = prédicats tables de lexique grammaire Grammaires locales phénomènes locaux lexicalisés sous la forme de graphes et équivalentes à des RTNs Dictionnaires morphosyntaxiques listes d'entrées lexicales (mots simples et composés) compressés en FST

Ma contribution Sujets d'étude : expressions de mesure compléments prépositionnels locatifs géographiques Représentations formelles : tables de lexique grammaire grammaires locales

Ma contribution (2) travail linguistique nouvelle pierre à l'édifice méthode classique avec un peu plus de sémantique travail informatique représentation relationnelle compilation

Phrase simple Expressions de mesure (J. Giry Schneider, 1991) ex. N0 avoir un Ng de n Unité =: Max a une taille de 1,80 m Compléments prépositionnels locatifs géographiques N0 être Loc X =: Luc se trouve à l' île de Crète =: Luc se trouve en Crète

Entrées lexicales Noms de grandeur taille, vitesse, distance, angle,... poids (kg), poids (Newton) tension artérielle, tension électrique Noms propres géographiques Paris, ville de Paris Méditerranée, mer Méditerranée département du Nord, mer du Nord

Classification sur critères formels Mesures : mesures absolues L'immeuble a une hauteur de 100 m mesures relatives Marie est à une distance de 10 m de Lea mesures comparatives Luc est 10 kg plus lourd que Max (Ng =: poids) Noms propres géographiques par classifieur mer, ville, pic,...

Permutation Propriétés syntaxiques (1) exemples La corde (a + fait) 10 m de (longueur + long) Le mur (a + fait) 10 cm d' (épaisseur + *épais) * La voiture (fait + a) 10 km/h de vitesse Variations lexico syntaxiques Le livre (a + forme + fait) un angle de 10 degrés avec le stylo Max est à une hauteur de 10 m au-dessus de Léa L'evade est dans un périmètre de 2 km autour de la prison

Propriétés syntaxiques (2) Distribution prépositionnelle avec formes longues La croisière est (dans la + en + *E) mer du Nord Luc est (dans la + *en + E) rue Daubenton Luc est (dans la + *en + *E) ville de Tours Distribution prépositionnelle avec forme courte Marie est (en + *à) Crète Marie est (*en + à) Guernesey Marie est (en + à la) Guadeloupe Marie est (*en + à la) Réunion

Tables de lexique grammaire mesures (absolues, relatives, comparatives) noms propres géographiques «composés» + distribution prépositionnelle

Grammaires locales Mesures : Dnum Unité, etc. Locatifs : Prépositions composées (localisation spatiale), etc.

Partie I.2 Gestion des ressources

Introduction Besoin de gestion des ressources Outils de gestion d'une bibliothèque de grammaires locales Membre du groupe de travail sur les dictionnaires DELA

Bibliothèque de grammaires locales Thèse + en cours (avec J. Sastre, doctorant) genre de «CVS» pour grammaires locales Outils implantés : modification de la base recherche d'information dans la base Problèmes dépendance des grammaires locales informations dans des objets complexes

Outils Modification (créer, ajouter, supprimer,...) pas toujours trivial (dépendance) suppression = CFC + tri topologique Recherche de grammaires locales moteur de recherche dans grammaires et documentation associée indexation (lemmatisation, suppression des mots vides) recherche booléenne par mot contenu (OR, AND) recherche par séquences (reconnues ou «incluses»)

Partie II Analyse de textes

Partie II.1 Analyse superficielle

Analyse superficielle de textes Principe : repérage de séquences pertinentes candidates calcul du degré de pertinence d'une séquence regroupement sémantique des séquences Applications : catégorisation de documents question réponse indexation

Repérage de séquences linguistiques Utilisation de grammaires locales pondérées patrons syntaxiques (chunks) grammaires lexicalisées (informations précises) graphie (entités nommées)

Patrons syntaxiques

Grammaire lexicalisée

Calcul du degré de pertinence Recherche d'informations générales apprentissage statistique (ex. cooccurrences) calculs matriciels (ex. Latent Semantic Indexing) Recherche d'informations spécifiques et précises poids manuels dans grammaires locales

Regroupement sémantique Recherche d'informations générales thèmes abordés : word clustering constitution automatique de classes sémantiques Recherche d'informations précises et spécifiques redondance : word clustering assignation manuelle de catégories sémantiques dans grammaires locales

Applications testées Catégorisation de documents construction automatique de «dictionnaires thématiques» Question réponse : Who is X? réponse biographique

Partie II.2 Analyse profonde

Analyse de textes spécialisés Textes spécialisés : lexique limité constructions syntaxiques limitées Formalisable par grammaires locales Problème : résolution de pronoms et d'inférences Expérience sur des Curriculum Vitae détaillés

Exemple de grammaire locale

Analyse syntaxique Construction d'un analyseur syntaxique alimenté par une grammaire lexicalisée But : grammaire à large couverture application sur textes réels (dépêches AFP, etc.) Collaboration avec O. Blanc (doctorant, UMLV)

Formalisme formalisme et parseur par Olivier Blanc système de règles de réécriture avec RTN (graphes), décorées de contraintes d'unification ressemblance avec LFG pondération

Exemple (aimer)

Exemple (SN)

Lexicalisation de la grammaire Utilisation des informations syntaxiques dans les tables de lexique grammaire verbes, noms, adjectifs,... Méthode étendue d' E. Roche (1993) Les propriétés propres à chaque entrée lexicale (sous catégorisation,...) sont directement codées dans la grammaire

Table (36DT)

Graphe paramétré

Graphe lexicalisé

Remarques Avantages : intégration des grammaires locales met simplement en relation des transformations identification des prédicats sémantiques et leurs arguments tout type de prédicat (noms, adjectifs, etc.) Inconvénients : explosion de la taille de la grammaire problème de souplesse (adjonction?) maintenance? (=> meta grammaires)

Conclusion et perspectives Activités de recherche très variées Combinaison entre techniques linguistiques et statistiques perspectives : vers une linguistique un peu plus sémantique vers un troisième axe : «logique» finir grammaire lexicalisée du français