Analyse syntaxique et application aux langues naturelles. Jacques Farré et Sylvain Schmitz

Documents pareils
majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

TEXT MINING von 7

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

fiche D AUTOCORRECTION Frimousse, une petite chienne qu'on a adoptée le mois dernier, est intelligente et docile.

Et si vous faisiez relire et corriger vos textes par un professionnel?

Langue, techniques de rédaction et correction d épreuves (412-2A1-LG)

La post-édition : l'avenir incontournable du traducteur?

Rédigez efficacement vos rapports et thèses avec Word (2ième édition)

quelque quelque(s) quel(s) que/quelle(s) que quel(s) / quelle(s) qu elle(s)

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

leur(s) leur LES EXERCICES DE FRANÇAIS DU CCDMD Homophones grammaticaux de catégories différentes

Homophones grammaticaux de catégories différentes. ce se

Norme de qualité. Catégorie 3 : Services de traduction juridique (de l anglais au français ou du français à l anglais)

Le plus grand dictionnaire actuel!

son sont SON HOMOPHONES LES EXERCICES DE FRANÇAIS DU CCDMD Homophones grammaticaux de catégories différentes

Les technologies d aide

Contemporary Engineering Sciences, Vol. 2, 2009, no. 4,

Grammaires d unification

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Cours Bases de données

Homophones grammaticaux de catégories différentes. s y si ci

Évaluation et implémentation des langages

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Déterminants possessifs

Travaux dirigés - Exercices de grammaire et traduction grammaticale

Accompagnement personnalisé 6e

Pour écrire un texte sans fautes

Aide-mémoire : Chaque, leur, même, quelque, tout

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

peu peux/peut peut être peut-être

mes m est mets/met mais mets

Évaluation de G-LexAr pour la traduction automatique statistique

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

ces ses c est s est sais / sait

Problématiques de recherche. Figure Research Agenda for service-oriented computing

SYSTRAN 7 Guide de démarrage

NOM : Prénom : Date de naissance : Ecole : CM2 Palier 2

ça sa ÇA HOMOPHONES LES EXERCICES DE FRANÇAIS DU CCDMD Homophones grammaticaux de catégories différentes

Course Offerings Courses taught in foreign languages at the University of Craiova

Attestation de maîtrise des connaissances et compétences au cours moyen deuxième année

Exercice pour les tuteurs

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

LA RECHERCHE DOCUMENTAIRE

Accès instantané aux mots et aux locutions Le dictionnaire électronique offre une traduction rapide d'un mot ou d'une locution

Livret personnel de compétences

Les Bases de données de presse. Recherche documentaire

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Atelier ATOLL pour les grammaires d arbres adjoints

TYPO3 & Synomia Cédric Tempestini <ctempestini@archriss.com>

MATHÉMATIQUES ET INFORMATIQUE

Interférences lexicales entre deux langues étrangères: anglais et français

traduction - translation Les affaires sans frontières PROFIL d ENTREPRISE

Utilisation des auxiliaires avoir et être

Citizenship Language Pack For Migrants in Europe - Extended FRANÇAIS. Cours m ultim édia de langue et de culture pour m igrants.

demander pourquoi mon site n'apparaît pas sur google ou pourquoi mon site n'est pas référencé par les moteurs de recherche?

ÉVALUATION NATIONALE DES ACQUIS DES ÉLÈVES EN CE1

GRAMMATICAUX DE CATÉGORIES DIFFÉRENTES QUANT QUAND 1 Homophones grammaticaux de catégories différentes

ÉVALUATION DE LA PRODUCTION DE QUATRE SYSTÈMES TRADUCTION AUTOMATIQUE. Christine Yen

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

Workflow/DataWarehouse/DataMining LORIA - Université d automne Informatique décisionnelle - L. Mirtain 1

Distinction des questions et des consignes

I. Le déterminant Il détermine le nom. Le déterminant indique le genre, le

quoi que quoique LES EXERCICES DE FRANÇAIS DU CCDMD

Comment référencer votre annonce Sur les moteurs de recherche?

Recherche bibliographique

Concevoir sa stratégie de recherche d information

ÉVALUATION NATIONALE DES ACQUIS DES ÉLÈVES EN CM2

N Y OU OÙ 1 Homophones grammaticaux de catégories différentes. ni n y ou où

Et avant, c était comment?

CONSTITUTION D'UN CORPUS D'ERREURS DU DACTYLOGRAPHE

CATALOGUE DES FORMATIONS 2014

Fiche Info : Compétences essentielles

Informatique Théorique : Théorie des Langages, Analyse Lexicale, Analyse Syntaxique Jean-Pierre Jouannaud Professeur

Applications Section candidats

DOCADOCT 2014/2015 MOTEURS DE RECHERCHE SPECIALISES

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Réussir son entrée en grammaire au CE1

Initiation à la recherche documentaire

4.2 Unités d enseignement du M1

Vers une approche générique pour l interprétation de commandes en langage naturel

Les datas = le fuel du 21ième sicècle

Les apports de l informatique. Aux autres disciplines

LES PRONOMS INTERROGATIFS

Détection des propositions syntaxiques du français : en vue de l alignement des propositions de textes parallèles français-japonais

! Text Encoding Initiative

TECHN 18. Les logiciels de recherche documentaire. 1. Introduction. Publication technique de la SmalS-MvM / Technische uitgave van de SmalS-MvM

Le livre blanc de la traduction

Liste de conférences et revues Thème Com A

Indexation sémantique au moyen de coupes de redondance minimale dans une ontologie

Club langue française Quiz. Par Julien COUDERC et Maxence CORDIEZ

Les items explicités. Pistes de justifications de demandes en cours de français-histoire-géographie. Guillaume HAINAUT

L'assurance qualité automatisée en agence de traduction (QA Distiller, Xbench et SDLX QA Check)

1 Description générale. Résumé

PROSOP : un système de gestion de bases de données prosopographiques

Construction et maintenance d une ressource lexicale basées sur l usage

Extraction automatique de modèles de processus pour l étude de la résolution collective de problèmes dans les communautés du logiciel libre


Le verbe avoir (to have) infinitif = avoir. j ai nous avons tu as vous avez. Exemples: J ai une copine à Montréal.

Transcription:

Analyse syntaxique et application aux langues naturelles Jacques Farré et Sylvain Schmitz

Plan du cours 2. Introduction, généralités, rappels 3. Analyse ascendante, LR, LALR, 4. N SLR, N LALR et LALR R 5. GLR, Earley, CYK 6. TP d utilisation d outils Analyse syntaxique et application aux langues naturelles (introduction) 2

Bibliographie sommaire (analyse syntaxique) Parsing Techniques A Practical Guide, 2ème edition, D. Grune & C.J.H. Jacobs, Springer Verlag, 2006 Parsing Theory, S. Sippu & E. Soisalon Soinnen, Springer Verlag, 1988 R. Grishman, Computational Linguistic: an introduction, Cambridge University Press, 1986 L intelligence artificielle et le langage naturel, G. Sabah, Hermès, 1988 1989 (2 volumes) Les nouvelles syntaxes : grammaires d unification et analyse du français, A. Abeillé, Colin, 1993 Analyse syntaxique et application aux langues naturelles (introduction) 3

Principaux journaux Computational Linguistics Computers and the Humanities Computer, Speech & Language Computer Assisted Language Learning Grammars Journal of Language and Computation (logic, linguistics, formal grammar, and computational linguistics) Linguistics Literary and Linguistic Computing Natural Language Engineering Machine Translation Analyse syntaxique et application aux langues naturelles (introduction) 4

Quelques conférences Sous l égide de l (European) Association for Computational Linguistic : ACL COLING (Int l Conf on Comp. Ling.) CICLing LATIN (Latin American Theoretical Informatics) ANLP (Applied Nat. Lang. Processing) IEEE Int l Conf on Natural Language Processing and Knowledge Engineering CIAA (Implementation & Application of Automata) Analyse syntaxique et application aux langues naturelles (introduction) 5

Domaines d application (1) Traitement documentaire Traduction automatique (cf société Systran) Bons traducteurs dans un domaine spécialisé pour préparer le terrain à une traduction par un humain Recherche de documents Veille scientifique Routage, indexation de documents Analyse de documents Graphe de relations entre termes d un document E learning Analyse syntaxique et application aux langues naturelles (introduction) 6

Domaines d application (2) Production de documents Correcteurs d orthographe, de syntaxe, Correcteurs stylistiques (bonnes pratiques rédactionnelles dans un domaine donné) Génération automatique à partir de spécifications plus ou moins formelles (documents techniques, juridiques, ) de documents finalisés par des humains Analyse syntaxique et application aux langues naturelles (introduction) 7

Domaines d application (3) Interfaces homme machine Interrogation de bases de données Traduction langage naturel E learning (encore) Interfaces vocales SQL Téléphonie Ordinateurs (et autres machines) mains libres Marché de plusieurs milliards de dollars Analyse syntaxique et application aux langues naturelles (introduction) 8

Un peu d histoire (1) A l origine, les militaires (comme souvent) Années 50 : traduction de documents russes (nucléaire, recherche spatiale, ) Concentré sur l élaboration de dictionnaires bilingues Traduction mot à mot pour l essentiel Exemple célèbre : The spirit is willing but the flesh is weak donne traduite en russe puis retraduite en anglais The vodka is strong but the meat is rotten Analyse syntaxique et application aux langues naturelles (introduction) 9

Un peu d histoire (2) Travaux de Noam Chomsky (fin des 50) sur les grammaires formelles et leurs relations avec les langues naturelles Parallèlement, travaux sur l intelligence artificielle (Mc Carthy, Minsky, ) Système ELIZA (MIT, 1966) : simulation d un dialogue entre un psy et son patient (application de modèles reprenant des motclés du patient) Analyse syntaxique et application aux langues naturelles (introduction) 10

Un peu d histoire (3) Travaux sur la représentation des connaissances dans les années 70 (Minsky, Shank, ) La sémantique prime, la syntaxe est jugée secondaire Mais aussi développement de l analyse syntaxique (dans le cadre des langages de programmation, mais récupéré en partie pour les langues naturelles) Analyse syntaxique et application aux langues naturelles (introduction) 11

Problématique Difficultés de plusieurs ordres, notamment Ambiguïtés Des terminaisons : que marque un s final? Des lexèmes : les poules du couvent couvent Des formes grammaticales : il poursuit les filles à vélo Implicite/contextuel : à qui/quoi réfère il Le prof a saqué cet élève parce qu il ne peut pas le sentir (il, prof) qu il lui a cassé les pieds toute l année (il, élève) Analyse syntaxique et application aux langues naturelles (introduction) 12

Niveaux de traitement et outils Lexical : découper le texte en mots et calculer leur genre (adjectif/verbe/nom/préposition ) Dictionnaires, automates à états finis Syntaxique : trouver la structure de la phrase (quelque chose comme sujet verbe complément) Grammaires, arbres, forêts (partagées) Sémantique : donner un sens Graphes conceptuels, prédicats logiques : ce chien est curieux, il poursuit les [filles à vélo] Pragmatique : juger la pertinence selon le contexte J ai froid ferme la fenêtre/serre moi dans tes bras Analyse syntaxique et application aux langues naturelles (introduction) 13

Traitement lexical : buts (1) Décomposition en unités lexicales (lexème) Trouver les mots : ambiguïté des séparateurs, par ex. le point (point final, abréviation, sigles comme S.N.C.F. ) Un segmenteur (tokenizer) doit connaître les règles d usage des signes de ponctuation de la langue Une forme enrichie des textes (HTML ) peut être une aide Taux d erreur des meilleurs segmenteurs pour reconnaître la fin d une phrase 1% Analyse syntaxique et application aux langues naturelles (introduction) 14

Traitement lexical : buts (2) Caractériser les lexèmes Nom, adjectif, verbe, Singulier, pluriel, diminutif, abréviation, Difficile de ranger tous les mots possibles d une langue dans un dictionnaire : conjugaison des verbes, composition de noms, néologismes, Avoir une forme de dérivation des mots à partir d une racine Analyse syntaxique et application aux langues naturelles (introduction) 15

Traitement lexical : moyens (1) Exemple de règle de formation des mots (français) forme stemme suffixe flexionnel s préfixe dérivationnel stemme <singulier pluriel> anti <R R> racine suffixe dérivationnel alcool ique <nom, singulier> <nom adjectif> antialcooliques : <adjectif, pluriel, (idée d opposition à alcool)> Analyse syntaxique et application aux langues naturelles (introduction) 16

ique Traitement lexical : moyens (2) Par un automate d état fini (non déterministe) anti ε ε ε alcool ε s ε Les pro nucléaires et les antis Antimilita(i)r(e)iste règles d ajustement phonologique Analyse syntaxique et application aux langues naturelles (introduction) 17

Traitement lexical : moyens (3) Relations entre concepts Synonymie : X est équivalent à Y Antonymie : X est l opposé de Y Hyponymie : X est une spécialisation de Y Hyperonymie : X est une généralisation de Y Mécanismes de composition de mots Nom + adjectif (système distribué) Nom + préposition + nom (réseau de neurones) Analyse syntaxique et application aux langues naturelles (introduction) 18

Traitement lexical : quelques problèmes Minimisation des automates Par un automate reconnaissant un langage plus grand (une couverture) a b a b a b c donne (en O(n 2 ), peut on faire mieux?) c a b c c a Analyse syntaxique et application aux langues naturelles (introduction) 19

Traitement lexical : quelques problèmes Tolérance aux erreurs (fautes d orthographe) Notion de région dans laquelle on cherche à corriger l erreur : pour antialcalique, chercher à corriger par un mot de la région anti alcool ique Essai Google : Essayez avec cette orthographe : antialcoolique Aucun document ne correspond aux termes de recherche spécifiés (antialcalique) Analyse syntaxique et application aux langues naturelles (introduction) 20 alcali

Traitement syntaxique : buts Vérifie la validité d une suite de lexèmes Permet de lever des ambiguïtés lexicales comme dans les poules du couvent couvent nom sujet verbe Vérification de fautes d accord : groupe nominal article pluriel nom pluriel Dégage une organisation hiérarchique : sujet, verbe, complément, Analyse syntaxique et application aux langues naturelles (introduction) 21

Traitement syntaxique : outils Grammaires non contextuelles (context free) Plusieurs (dizaines de) milliers de règles Nécessairement ambiguës, et reconnaissent un sur langage Quelle que soit la méthode d analyse employée, construction d une forêt partagée d arbres syntaxiques : les phases sémantique/pragmatique choisiront l arbre final Variante : grammaires probabilistes Analyse syntaxique et application aux langues naturelles (introduction) 22

Forêt partagée : arbres de dérivation P P GN GV GN GVP V GNP GVS GP Pr GN GP Pr V GN Il poursuit les filles à vélo Il poursuit les filles à vélo Ambiguîté non soluble en l absence d informations sémantiques contextuelles Analyse syntaxique et application aux langues naturelles (introduction) 23

Traitement syntaxique : problèmes Analyseurs courants basés sur LR(0), SLR (1) ou LALR(1) Provoquent des conflits là où il n y a pas d ambiguïté Élargir la taille de la fenêtre? non ambiguës LRR GLR, Earley, CYK non contextuelles NDR DR=LR LALR NLALR Analyse syntaxique et application aux langues naturelles (introduction) 24