Traitement de Langages et Dialogues Naturels par Ordinateur



Documents pareils
Grammaires d unification

TD 1 - Structures de Traits et Unification

fiche D AUTOCORRECTION Frimousse, une petite chienne qu'on a adoptée le mois dernier, est intelligente et docile.

dans un cadre richement typé

Chapitre 2. Eléments pour comprendre un énoncé

Systèmes décisionnels et programmation avancée

Déterminants possessifs

Utilisation des tableaux sémantiques dans les logiques de description

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

mes m est mets/met mais mets

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Intelligence Artificielle et Robotique

Évaluation et implémentation des langages

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

Cours de Master Recherche

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

quelque quelque(s) quel(s) que/quelle(s) que quel(s) / quelle(s) qu elle(s)

Détection des propositions syntaxiques du français : en vue de l alignement des propositions de textes parallèles français-japonais

Modélisation des données

Compte rendu de la formation

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

Pour écrire un texte sans fautes

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

GOL502 Industries de services

1.The pronouns me, te, nous, and vous are object pronouns.

Accompagnement personnalisé 6e

La phonétisation de "plus", "tous" et de certains nombres : une analyse phono-syntaxique

MIS 102 Initiation à l Informatique

RECONNAÎTRE UN NOM. Tu vas apprendre à reconnaître un nom!!!!!!

ces ses c est s est sais / sait

Distinction des questions et des consignes

! Text Encoding Initiative

T2GC. Enseignement secondaire technique Régime de la formation de technicien. Date: ANGLA6. Anglais 6

Formula Negator, Outil de négation de formule.

Thomas Dutronc : Demain

TP1 - Prise en main de l environnement Unix.

Document d aide au suivi scolaire

Voici Léa : elle est blonde et elle a les yeux bleus. Elle a douze ans. Elle porte un t-shirt blanc. a. b. c.

Créer un mémento grammatical portatif et évolutif pour tablettes et smartphones

NOM : Prénom : Date de naissance : Ecole : CM2 Palier 2

Homophones grammaticaux de catégories différentes. s y si ci

I. Le déterminant Il détermine le nom. Le déterminant indique le genre, le

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

Atelier ATOLL pour les grammaires d arbres adjoints

Fiche de synthèse sur la PNL (Programmation Neurolinguistique)

Mots interrogatifs. Quand,comment,pourquoi,qui... sont des mots interrogatifs qui servent à introduire une phrase interrogative.

Expression des contraintes. OCL : Object C o n t r a i n t L a n g u a g e

Attestation de maîtrise des connaissances et compétences au cours moyen deuxième année

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

Réussir son entrée en grammaire au CE1

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal

POUR ÉCRIRE UN MOT 1 : LOGICIEL DE SIMULATION LINGUISTIQUE

Les cinq premiers pas pour devenir vraiment agile à XP Day Suisse 2009 par Pascal Van Cauwenberghe et Portia Tung: La Rétrospective

I. LE CAS CHOISI PROBLEMATIQUE

PROJET DE FIN D ETUDES

eduscol Ressources pour la voie professionnelle Français Ressources pour les classes préparatoires au baccalauréat professionnel

Apprentissage Automatique

Transducteurs d arbres et (peut-être un peu) apprentissage

Homophones grammaticaux de catégories différentes. ce se

Langue Française. Syllabus A1. Description globale du niveau A1 utilisateur élémentaire

Formation Pédagogique 3h

Initiation à la Programmation en Logique avec SISCtus Prolog

Livret personnel de compétences

Théorie des Langages

Créer le schéma relationnel d une base de données ACCESS

Fondements de l informatique Logique, modèles, et calculs

Stratégies favorisant ma réussite au cégep

S organiser autrement

LIVRET PERSONNEL DE COMPÉTENCES

CH.6 Propriétés des langages non contextuels

Direct and Indirect Object Pronouns

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Le modèle standard, SPE (1/8)

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

«La pomme qui voulait voyager»

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

Jeux mathématiques en maternelle. Activités clés. Jeu des maisons et des jardins (Yvette Denny PEMF)

données en connaissance et en actions?

L apprentissage automatique

Maple: premiers calculs et premières applications

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Prise en main rapide

Construction et maintenance d une ressource lexicale basées sur l usage

Bases de données Cours 5 : Base de données déductives

Dire à quelqu un de faire quelque chose

LIVRE BLANC Décembre 2014

ça sa ÇA HOMOPHONES LES EXERCICES DE FRANÇAIS DU CCDMD Homophones grammaticaux de catégories différentes

Cours 1 : Qu est-ce que la programmation?

Atelier rédactionnel

Présentation du langage et premières fonctions

Qu est-ce qu une problématique?

Compte-rendu de Hamma B., La préposition en français

ACTIVITÉ 1 : LES ADJECTIFS POSSESSIFS

Et avant, c était comment?

La fonction exponentielle

1 On peut consulter et interroger ce corpus sur le site de l équipe DELIC :

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

scientifique de Kourou (présence du on) mois, avant, quelques jours, avant, à partir de, le dernier jour.

Employer des phrases avec subordonnées relatives et marqueurs emphatiques (c est qui, c est que)

Transcription:

Traitement de Langages et Dialogues Naturels par Ordinateur Une introduction Philippe Muller muller@irit.fr Institut de Recherche en Informatique de Toulouse CNRS-Université Paul Sabatier http://www.irit.fr/ Philippe.Muller Traitement de Langageset Dialogues Naturelspar Ordinateur p.1/75

Plan du cours Introduction les applications les problèmes l analyse syntaxique automatique la représentation du sens des phrases l au-delà travaux pratiques Cours Enseeiht Septembre 2003 p.2/75

Pour quoi faire : les applications traduction automatique interface homme-machine (IHM) systèmes de dialogues (oral ou non) interrogation de bases de données génération de textes résumé automatique recherche d information et indexation Cours Enseeiht Septembre 2003 p.3/75

Les domaines concernés la linguistique l intelligence artificielle la philosophie du langage la psychologie Plusieurs appelations linguistique informatique (Computational Linguistics CL) traitement automatique des langues naturelles TALN Natural Language Processing (NLP) Cours Enseeiht Septembre 2003 p.4/75

La traduction automatique La traduction automatique, c est facile, non? (1) It is not hard, I think? Ce est pas dur, je pense? (2) Automated translation is not hard, isn t it? automatisé traduction est pas dur, est pas ce? (3) la traduction automatique, c est facile, non? is machine translation, it easy, not? (altavista.com) problème des constructions (adjectifs, genre, articles) structures différentes entre langages Cours Enseeiht Septembre 2003 p.5/75

Problèmes du mot à mot (4) Time flies like an arrow. a. Temps mouche comme une flèche. b. Les mouches du temps aiment une flèche. c. Le temps vole comme une fléche. (5) Le temps file comme une flèche. (6) les enfants et les femmes enceintes (7) pregnant children and women Problèmes majeurs : ambiguïté lexicale ambiguïté grammaticale Cours Enseeiht Septembre 2003 p.6/75

Interface homme-machine M où voulez vous aller? H je veux un billet pour paris M ok, en 1ere ou 2e classe? M euh non je me suis trompé sur la première réponse, je veux aller à Bordeaux H en première classe. ce sera XXXX euros SVP. Cours Enseeiht Septembre 2003 p.7/75

La recherche d information répondre à des questions : (8) Qui a gagné Roland-Garros [chez les femmes]? (9) Qui a découvert la radioactivité? (10) Qui a le record du 100m haies? Cours Enseeiht Septembre 2003 p.8/75

La recherche d information Ex : lister tous les records sportifs et les mettre sous la forme : Nom/Discipline Bidule a battu le record du 100m. Cours Enseeiht Septembre 2003 p.9/75

La recherche d information Ex : lister tous les records sportifs et les mettre sous la forme : Nom/Discipline Bidule a battu le record du 100m. Bidule a explosé l ancien record de Machin. Cours Enseeiht Septembre 2003 p.9/75

La recherche d information Ex : lister tous les records sportifs et les mettre sous la forme : Nom/Discipline Bidule a battu le record du 100m. Bidule a explosé l ancien record de Machin. Le 100 mètres a un nouveau recordman : Bidule. Cours Enseeiht Septembre 2003 p.9/75

La recherche d information Ex : lister tous les records sportifs et les mettre sous la forme : Nom/Discipline Bidule a battu le record du 100m. Bidule a explosé l ancien record de Machin. Le 100 mètres a un nouveau recordman : Bidule. Bidule a presque battu le record du 100m. Cours Enseeiht Septembre 2003 p.9/75

La recherche d information Ex : lister tous les records sportifs et les mettre sous la forme : Nom/Discipline Bidule a battu le record du 100m. Bidule a explosé l ancien record de Machin. Le 100 mètres a un nouveau recordman : Bidule. Bidule a presque battu le record du 100m. Le record du 100m a été battu par bidule. Cours Enseeiht Septembre 2003 p.9/75

La recherche d information Ex : lister tous les records sportifs et les mettre sous la forme : Nom/Discipline Bidule a battu le record du 100m. Bidule a explosé l ancien record de Machin. Le 100 mètres a un nouveau recordman : Bidule. Bidule a presque battu le record du 100m. Le record du 100m a été battu par bidule. Bidule a fait forte impression au 100m. Il a battu le record. Cours Enseeiht Septembre 2003 p.9/75

La recherche d information Ex : lister tous les records sportifs et les mettre sous la forme : Nom/Discipline Bidule a battu le record du 100m. Bidule a explosé l ancien record de Machin. Le 100 mètres a un nouveau recordman : Bidule. Bidule a presque battu le record du 100m. Le record du 100m a été battu par bidule. Bidule a fait forte impression au 100m. Il a battu le record. La compagnie Truc produit plus de 100 mètres de couturière par jour, un record. Cours Enseeiht Septembre 2003 p.9/75

La génération automatique input : x entier naturel(x) y y = successeur(x) output : Tout entier naturel a un successeur. Cours Enseeiht Septembre 2003 p.10/75

Le résumé automatique input : ce cours Cours Enseeiht Septembre 2003 p.11/75

Le résumé automatique input : ce cours output : Traiter le langage naturel par ordinateur, c est compliqué mais on y arrive à peu près. Cours Enseeiht Septembre 2003 p.11/75

Grammaire et analyse Pourquoi la grammaire? structuration du sens phrase liste de mots Justine Henin a battu Kim Clijsters Kim Clijsters a battu Justine Henin mais Kim Clijsters a été battue par Justine Henin je (ne) veux (pas) un billet pour Paris (Pierre et Marie Curie) ont découvert la radioactivité Cours Enseeiht Septembre 2003 p.12/75

Les niveaux de traitement phonologie : les sons les mots morphologie : la forme des mots (conjugaisons, etc) syntaxe/lexique : l organisation des mots en structures sémantique : le sens des mots le sens de la phrase pragmatique : le sens des phrases en contexte (dans un texte, un dialogue). Cours Enseeiht Septembre 2003 p.13/75

Deuxième partie : la syntaxe de la bonne vieille grammaire...? Cours Enseeiht Septembre 2003 p.14/75

Deuxième partie : la syntaxe de la bonne vieille grammaire...? des règles structurales Cours Enseeiht Septembre 2003 p.14/75

Deuxième partie : la syntaxe de la bonne vieille grammaire...? des règles structurales pouvoir décrire les structures de phrase possibles Cours Enseeiht Septembre 2003 p.14/75

Deuxième partie : la syntaxe de la bonne vieille grammaire...? des règles structurales pouvoir décrire les structures de phrase possibles pouvoir analyser les phrases en structure Cours Enseeiht Septembre 2003 p.14/75

Des règles structurales pourquoi certaines phrases sont correctes et pas d autres règles de bonne formation L ignorance toujours est prête à s admirer. Admirer toujours prête est ignorance l à s Cours Enseeiht Septembre 2003 p.15/75

Des règles structurales pourquoi certaines phrases sont correctes et pas d autres règles de bonne formation L ignorance toujours est prête à s admirer. Admirer toujours prête est ignorance l à s certains mots sont complètement substituables dans les mêmes contextes catégories syntaxiques Je vois un problème/je vois un chien Cours Enseeiht Septembre 2003 p.15/75

Des règles structurales pourquoi certaines phrases sont correctes et pas d autres règles de bonne formation L ignorance toujours est prête à s admirer. Admirer toujours prête est ignorance l à s certains mots sont complètement substituables dans les mêmes contextes catégories syntaxiques Je vois un problème/je vois un chien certains groupes de mots sont complètement substituables constituants Je vois un problème arriver/je vois le chien du voisin arriver Cours Enseeiht Septembre 2003 p.15/75

Notions de grammaire formelle Pour rendre compte de ces régularités, un modèle de base serait assimilable à un système de production/réécriture ( générativisme ) : DET le S NP VP NP DET N VP V VP V NP DET la N chien N chat V mange V dort symbole terminaux / symboles non-terminaux (mots)/(catégories syntaxiques) lexique / structure Cours Enseeiht Septembre 2003 p.16/75

Complétude et correction On essaie de faire coller le langage généré avec le langage naturel. Parmi les phrases acceptées : Le chien mange le chat. Le chien dort. Le chien dort le chat. La chien mange. surgénération (grammaire incorrecte) Phrase refusée : Le chien marche dans le parc. sous-génération (grammaire incomplète) Cours Enseeiht Septembre 2003 p.17/75

Différents types de grammaire règle générale de réécriture : A 1, A 2,..., A i B 1, B 2,... B j même chose avec i j même chose avec i = 1 A B C D même chose avec symbole terminal à gauche de toute partie droite de règle A x B C D hiérarchie de complexité de Chomsky : type 0 type 1 type 2 type 3 Cours Enseeiht Septembre 2003 p.18/75

Utilisation en analyse Analyse de Le chien mange le chat Cours Enseeiht Septembre 2003 p.19/75

Utilisation en analyse Analyse de Le chien mange le chat S NP DET le N chien VP V mange NP DET N le chat Cours Enseeiht Septembre 2003 p.19/75

Concevoir la grammaire Problèmes : que mettre dans le lexique? (mot, racine) quels constituants? quelles hiérarchies? contraintes lexicales (transitivité,...) Cours Enseeiht Septembre 2003 p.20/75

Expressivité et performances l exemple plus haut ne contient pas de récursivité : on peut définir simplement l analyse par un automate à état fini. grammaire trop simple la grammaire des langages naturels est intrinsèquement récursive : NP NP PROP RELATIVE PROP RELATIVE QUI V NP Cours Enseeiht Septembre 2003 p.21/75

Expressivité et performances règle générale de réécriture : A 1, A 2,..., A i B 1, B 2,... B j trop complexe à analyser (reconnaissance en grammaire transformationnelle indécidable) type 1 : à peine mieux, complexité exponentielle. Plus simple et praticable : context-free grammar (type 2) A B 1, B 2,... B j squelette commun aux formalismes grammaticaux modernes Cours Enseeiht Septembre 2003 p.22/75

La question de l expressivité besoin d exprimer plus de généralités : accord en genre : GN DET feminin Nom féminin GN DET masculin Nom masc Cours Enseeiht Septembre 2003 p.23/75

La question de l expressivité besoin d exprimer plus de généralités : accord en genre : GN DET feminin Nom féminin GN DET masculin Nom masc accord en nombre : explosion! GN DET feminin sg Nom féminin GN DET masculin sg Nom féminin GN DET feminin pl Nom masc pl GN DET masculin pl Nom masc pl Cours Enseeiht Septembre 2003 p.23/75

Grammaires avec traits syntaxiques la solution : factoriser GN[genre=a] DET[genre=a] Nom[genre=a] GN[nombre=a] DET[nombre=a] Nom[nombre=a] signifie que l accord doit se faire avec deux traits : genre+nombre= accord grammatical GN[gen=a,nb=b] DET[gen=a,nb=b] Nom[gen=a,nb=b] factoriser : une structure accord=gen+nb Cours Enseeiht Septembre 2003 p.24/75

Structures de traits Problème : dans les chiens, les est ambigu entre féminin et masculin structure de traits : matrice de paires d attributs-valeurs, pas nécessairement instanciées [ [ genre masc vs acc nombre pluriel acc nombre pluriel ] ] Cours Enseeiht Septembre 2003 p.25/75

La subsomption Une ST S1 subsume une ST S2, si toute l information contenue dans S1 est aussi dans S2 (S1 est plus générale que S2) genre nombre [ nombre masc pluriel pluriel ]?? nombre genre nombre personne 2 pluriel masc pluriel Cours Enseeiht Septembre 2003 p.26/75

L unification L unification de deux structures S1 et S2 correspond à la fusion des informations qu elles contiennent, si elles sont compatibles. Formellement : l unification de S1 et S2, si elle existe, est une ST S3 telle que S3 est subsumée par S1 et S2, et S3 est minimale par rapport à la subsomption. ex : genre nombre nombre personne 3 genre masc pluriel pluriel masc nombre personne 3 pluriel Cours Enseeiht Septembre 2003 p.27/75

Unification (suite) l accord est alors l unification des structures de traits les Det [ ] acc nombre pluriel +chiens N acc genre masc nombre pluriel [GN les chiens]= GN genre acc nombre grammaire d unification masc pluriel Cours Enseeiht Septembre 2003 p.28/75

Structures de traits complexes st structure récursive : valeures peuvent etre des ST accord cas nombre sg pers 3 datif accord cas genre nombre féminin sg pers 3 accusatif Cours Enseeiht Septembre 2003 p.29/75

Structures de traits complexes on peut contraindre une ST avec des liens réentrants : A= sujet verbe acc 1 [ acc 1 ] nombre sg pers 2 différent de : B= sujet verbe acc acc nombre sg pers 2 nombre sg pers 2 pourquoi? Cours Enseeiht Septembre 2003 p.30/75

Réponse C= sujet [ acc [ genre ] masc quel est le résultat de A C, et B C? Cours Enseeiht Septembre 2003 p.31/75

Réponse C= sujet [ acc [ genre ] masc A C= sujet verbe [ ] genre masc acc 1 nombre sg pers 2 [ ] acc 1 Cours Enseeiht Septembre 2003 p.31/75

Réponse C= sujet [ acc [ genre ] masc A C= sujet verbe [ ] genre masc acc 1 nombre sg pers 2 [ ] acc 1 B C= sujet verbe [ genre masc acc nombre sg [ acc pers 2 [ nombre sg pers 2 ] ]] Cours Enseeiht Septembre 2003 p.31/75

Structure de traits réentrantes elles sont en fait formellement équivalentes à des graphes dirigés non-cycliques (DAG : directed acyclic graphs). sujet acc pers 2 nb sg verbe acc Cours Enseeiht Septembre 2003 p.32/75

Techniques d analyse des CFG problème : à partir d une grammaire, comment extraire la structure d une phrase donnée? recherche top-down dans graphe et/ou (profondeur ou largeur) bottom-up à partir de la chaine (de G à D ou de D à G). éventuellement plusieurs résultats possibles reconnaissance : une phrase est-elle admise ( correcte ) pour une grammaire analyse : quelles sont les règles qui expliquent la bonne formation (ou les bonnes formations) Cours Enseeiht Septembre 2003 p.33/75

Analyse Top-down Le chien mange le chat. (objectif : S) Cours Enseeiht Septembre 2003 p.34/75

Analyse Top-down Le chien mange le chat. (objectif : S) S NP VP Cours Enseeiht Septembre 2003 p.34/75

Analyse Top-down Le chien mange le chat. (objectif : S) S NP VP NP DET N VP V NP Cours Enseeiht Septembre 2003 p.34/75

Analyse Top-down Le chien mange le chat. (objectif : S) S NP VP NP DET N DET le N chien VP V NP Cours Enseeiht Septembre 2003 p.34/75

Analyse Top-down Le chien mange le chat. (objectif : S) S NP VP NP DET N DET le N chien VP V NP V mange NP DET N... Cours Enseeiht Septembre 2003 p.34/75

Analyse Top-down gauche à droite // droite à gauche profondeur ou largeur d abord problèmes : règles du type NP NP PP doit stocker une grande partie de l arbre de recherche en cas de largeur d abord. Cours Enseeiht Septembre 2003 p.35/75

Analyse Bottom-Up exemple en gauche droite Le chien mange le chat. Cours Enseeiht Septembre 2003 p.36/75

Analyse Bottom-Up exemple en gauche droite Le chien mange le chat. DET N V DET N Cours Enseeiht Septembre 2003 p.36/75

Analyse Bottom-Up exemple en gauche droite Le chien mange le chat. DET N V DET N NP DET N NP V DET N Cours Enseeiht Septembre 2003 p.36/75

Analyse Bottom-Up exemple en gauche droite Le chien mange le chat. DET N V DET N NP DET N NP DET N NP V DET N NP V NP Cours Enseeiht Septembre 2003 p.36/75

Analyse Bottom-Up exemple en gauche droite Le chien mange le chat. DET N V DET N NP DET N NP DET N VP V NP NP V DET N NP V NP NP VP Cours Enseeiht Septembre 2003 p.36/75

Analyse Bottom-Up exemple en gauche droite Le chien mange le chat. DET N V DET N NP DET N NP DET N VP V NP S NP VP NP V DET N NP V NP NP VP S Cours Enseeiht Septembre 2003 p.36/75

Analyse Bottom-Up exemple en gauche droite Le chien mange le chat. DET N V DET N NP DET N NP DET N VP V NP S NP VP NP V DET N NP V NP NP VP S gauche à droite // droite à gauche profondeur ou largeur d abord Cours Enseeiht Septembre 2003 p.36/75

Analyse Coin gauche left-corner parsing top-down : méthode trop aveugle (beaucoup de règles dans une grammaire par rapport à celles effectivement appliquée sur une phrase particulière, ignore les mots de la phrase. Cours Enseeiht Septembre 2003 p.37/75

Analyse Coin gauche left-corner parsing top-down : méthode trop aveugle (beaucoup de règles dans une grammaire par rapport à celles effectivement appliquée sur une phrase particulière, ignore les mots de la phrase. bottom-up : méthode aussi peu informée : on essaye tout, en partant du bas, sans s occuper de ce qu on cherche au final. Cours Enseeiht Septembre 2003 p.37/75

Analyse Coin gauche left-corner parsing top-down : méthode trop aveugle (beaucoup de règles dans une grammaire par rapport à celles effectivement appliquée sur une phrase particulière, ignore les mots de la phrase. bottom-up : méthode aussi peu informée : on essaye tout, en partant du bas, sans s occuper de ce qu on cherche au final. intermédiaire : bottom up au départ, en cherchant à continuer à reconnaître ce qu on a commencé (top-down à ce moment) Cours Enseeiht Septembre 2003 p.37/75

Exemple d analyse Le chien mange le chat. DET N V DET N DET N NP bottom-up NP est le début de la production S NP VP (coin gauche) on va chercher à vérifier cette règle on cherche donc maintenant un VP (si on regarde de droite à gauche : coin droit de la règle. ) Cours Enseeiht Septembre 2003 p.38/75

Analyse avec trace chart parsing encore un problème : toutes les analyses précédentes jettent les hypothèses infirmées, même quand elles pourraient servir plus tard exemple : VP V NP ADV / VP V NP PP J ai vu (l homme qui a tiré sur Jacques Chirac) de mes propres yeux. on cherche à satisfaire la première règle (échec), on passe à la seconde travail fait deux fois. Cours Enseeiht Septembre 2003 p.39/75

Analyse avec trace solution : garder tous les constituants reconnus, et mettre en attente toutes les règles les faisant potentiellement intervenir chart (une trace de ce qui a été fait) sur l exemple on garde en mémoire : (règles pointées) VP V NP ADV VP V NP PP il ne reste plus qu à trouver un ADV ou un PP. Cours Enseeiht Septembre 2003 p.40/75

Vers une grammaire plus poussée On commence par l anglois : catégories? règles? traits syntaxiques? principes? Cours Enseeiht Septembre 2003 p.41/75

Vers une grammaire plus poussée On commence par l anglois : catégories? Adj, Adv, Pro, Rel, Prep,... règles? traits syntaxiques? principes? Cours Enseeiht Septembre 2003 p.41/75

Vers une grammaire plus poussée On commence par l anglois : catégories? Adj, Adv, Pro, Rel, Prep,... règles? traits syntaxiques? cas, genre, nombre, personne, forme, mode, temps, verbale,... principes? Cours Enseeiht Septembre 2003 p.41/75

Vers une grammaire plus poussée On commence par l anglois : catégories? Adj, Adv, Pro, Rel, Prep,... règles? traits syntaxiques? cas, genre, nombre, personne, forme, mode, temps, verbale,... principes? accord, arguments du verbe Cours Enseeiht Septembre 2003 p.41/75

Un début S -> NP VP NP -> PN NP -> PN Rel NP -> Det Nbar Nbar -> N Nbar -> N Rel Rel -> Wh VP VP -> IV VP -> TV NP VP -> DV NP PP VP -> SV S PP -> P NP Cours Enseeiht Septembre 2003 p.42/75

Quelques problèmes non triviaux dépendances longue distance Myriam a promis à Philippe d être à l heure. J ai vu l homme qui a tiré sur Jacques Chirac. Les Corses sont fiers, les Belges aussi. ambiguité syntaxique : je (vois (un chien) (avec un téléscope)) (dans le parc) je (vois (un quidam avec un chapeau) (dans le parc)) même forme de surface / 2 interprétations Cours Enseeiht Septembre 2003 p.43/75

Quelques formalismes d unification (1) : GPSG Generalized Phrase Structure Grammar pas de réentrance, récursion finie sémantique : Montague Cours Enseeiht Septembre 2003 p.44/75

Quelques formalismes d unification (2) : LFG Lexical Functional Grammar Forme générale S NP V P ( sujet = ) ( = ) traits disjonctifs, contraintes sémantique : C-structures Cours Enseeiht Septembre 2003 p.45/75

Quelques formalismes d unification (3) : HPSG Head-driven Phrase Structure Grammar principes généralisant encore plus : chaque catégorie possède un trait tête, qui dirige la composition de structures. traits disjonctifs, ST typés+héritage sémantique : théorie des situations (situation theory) Cours Enseeiht Septembre 2003 p.46/75

Quelques formalismes d unification (4) : CG grammaire catégorielle (categorial grammar) Forme générale : X (X/Y ) Y X Z X\Z sémantique : Montague Cours Enseeiht Septembre 2003 p.47/75

Problèmes globaux couverture : modèle de grammaire complèt très difficile à faire (mots inconnus, structures oubliées, etc) complexité : trop de lectures possibles rend inexploitables si grammaire trop ambiguë importance de l information lexicale pour désambiguiser (ex : verbes transitifs ou non, structure argumentale), coûteuse à rassembler. quelques alternatives : modèles d apprentissage statistiques, analyse superficielle Cours Enseeiht Septembre 2003 p.48/75

Troisième partie : la sémantique objectifs : représentation & désambiguisation But de la sémantique formelle : construire une représentation de l information véhiculée par des expressions en langage naturel. au niveau de la phrase ; au niveau d une suite de phrases (discours). Cours Enseeiht Septembre 2003 p.49/75

Représentation du discours la mise en relation d une forme (obéissant à des règles de bonne formulation la syntaxe) avec un contenu, le sens, déterminé par le sens des parties. Deux problèmes principaux : 1. quelle est la forme logique d une phrase, d un discours (la sémantique) 2. comment faire correspondre à une phrase sa forme logique par un processus de composition à partir des expressions du langage. (c est l interface entre l ensemble syntaxe/lexique et la sémantique). Cours Enseeiht Septembre 2003 p.50/75

Sémantique simple à base de traits un trait sem ou trad ou... S sem syn... pred 1 sujet 2 NP sem 2 syn... VP sem 1 syn... Cours Enseeiht Septembre 2003 p.51/75

Plus généralement S(sem :f(semnp,semvp)) NP(sem :semnp) VP(sem :semvp) les formalismes varient sur la nature de la fonction de composition du sens représentation exprimable sous forme logique Cours Enseeiht Septembre 2003 p.52/75

Rappel rapide de logique termes : variables x i, constantes c j, images de fonctions f(x) propositions atomiques : prédicats P (x), Q(x 1, x 2, x 3 ) propositions construites avec,,, : P (x) Q(y) quantificateurs :, x[(oiseau(x) pingouin(x)) vole(x)] Cours Enseeiht Septembre 2003 p.53/75

Forme logique la question de la sémantique est : quelle est la forme logique d une phrase? Cours Enseeiht Septembre 2003 p.54/75

Forme logique la question de la sémantique est : quelle est la forme logique d une phrase? (12) Jean dort. Cours Enseeiht Septembre 2003 p.54/75

Forme logique la question de la sémantique est : quelle est la forme logique d une phrase? (13) Jean dort. dort(jean) dort(j) nom(j, Jean ) dort(j, t) dormir(e) agent(e) = j dormir(e, j) e t now Cours Enseeiht Septembre 2003 p.54/75

Interface syntaxe / sémantique Si l on admet que la représentation de la phrase suivante : (14) Un homme dort. est la formule x (homme(x) dort(x)) Les questions à résoudre sont : 1. quelle est la contribution de chaque élément lexical à l ensemble de la formule? 2. quelles sont les règles de combinaison de ces éléments qui donnent la formule finale? Cours Enseeiht Septembre 2003 p.55/75

Exemple avec une CFG S NP V NP D N N homme D un V dort syntaxe + lexique FL de un x... FL de dort prédicat FL de homme prédicat Cours Enseeiht Septembre 2003 p.56/75

Rappel (rapide) de lambdacalcul une façon abstraite de définir une fonction et ses arguments on va ici n utiliser que des fonctions dont le résultat final est une formule logique du premier ordre. ex : λx(oiseau(x)) mécanisme de beta-réduction : composition de formules lambda [λx(oiseau(x))](y) donne oiseau(y) arguments des fonctions peuvent être des prédicats ou même des formules : λp ( x(oiseau(x) P (x)) Cours Enseeiht Septembre 2003 p.57/75

Exemple (suite) Il faut considérer la sémantique des expressions comme des lambda-abstractions en attente de leurs arguments. Ainsi la sémantique d un verbe peut être : [dort] = λx dort(x) Celle d un nom commun est similaire : [homme] = λx homme(x) Et celle du déterminant peut aussi s écrire : [un] = λp λr ( x P (x) R(x)) Cours Enseeiht Septembre 2003 p.58/75

Composition sémantique [un] ([homme]]) =... = λr (homme(x) R(x)) ([un] ([homme]))([dort]) =... = x(homme(x) dort(x)) Cours Enseeiht Septembre 2003 p.59/75

Le processus de traduction category1(sem :f(semnp,semvp)) categorie2(sem :semnp) categorie3(sem :semvp)... ici par exemple, f = application lambda (pour toutes les règles) Cours Enseeiht Septembre 2003 p.60/75

Le processus de traduction S :( x (homme(x) dormir(x))) NP :λr ( x homme(x) R(x)) VP :λx(dormir(x) dort DET :λp λr ( x P (x) R(x)) N :λx(homme(x)) un homme Cours Enseeiht Septembre 2003 p.61/75

Exercice : plus de sémantique noms, verbes intransitifs : ok noms propres (Marie) verbes transitifs (Bernadette aime Jacques) adjectifs (Un bon chien) pronom relatif (Un chien qui passe aboie) quantification : (chaque homme possède un cerveau) Cours Enseeiht Septembre 2003 p.62/75

Noms propres (15) Jerry dort. S NP VP PN V Jerry [dort] = λx dormir(x) dort Cours Enseeiht Septembre 2003 p.63/75

Noms propres (16) Jerry dort. S NP VP PN V Jerry [dort] = λx dormir(x) [Jerry ] = j dort Cours Enseeiht Septembre 2003 p.63/75

Noms propres (17) Jerry dort. S NP VP PN V Jerry [dort] = λx dormir(x) [Jerry ] = j [Jerry ] = λp (P (x)) dort Cours Enseeiht Septembre 2003 p.63/75

Verbes transitifs (18) Georges ennuie Elaine. S NP PN VP V NP Georges ennuie PN Elaine [ennuie] = λp λx[p.λy(ennuie(x, y))] [ennuie] = λxλy(ennuie(x, y)) Cours Enseeiht Septembre 2003 p.64/75

Adjectifs (19) Jerry est malade. (20) Un petit chien aboie. S NP PN VP V ADJ NP DET S ADJ N VP V Jerry est malade un [malade] = λx(malade(x)) petit chien aboie Cours Enseeiht Septembre 2003 p.65/75

Le verbe être (21) Jerry est un comique. (22) Jerry est malade. S NP PN Jerry VP V est DET NP N [etre] = λp P un comique [etre] = λp λxp (λy(p (y) x = y)) Cours Enseeiht Septembre 2003 p.66/75

Quantification universelle (23) Chaque homme aime une femme. NP DET Chaque N homme S VP V aime NP DET N [Chaque] = λp λr( x P (x) R(x)) une femme Cours Enseeiht Septembre 2003 p.67/75

Quantification définie (24) Le voisin dort. S NP DET le N voisin VP V dort [le] = λp λr ( x P (x) ( y P (y) P (x)) R(x)) [le] = λp λr ( x ( y P (y) P (x)) R(x)) Cours Enseeiht Septembre 2003 p.68/75

Verbes enchâssés (25) Kramer préfère dormir. S NP PN VP V VP Kramer préfère V dormir [préf érer ] = λp λx(pref erer(x, P (x)) [dormir ] = L A λxdormir(x) T E X Cours Enseeiht Septembre 2003 p.69/75

Traduction sur mesure on a vu avec un ordre fixe = pas souple pour chaque règle de syntaxe, une règle différente et on ajuste S(semNP(semVP)) > NP VP VP(semNP(semV)) > V NP... Cours Enseeiht Septembre 2003 p.70/75

Ordre d application l ordre est pénible à lister typage sémantique des cat. syntaxiques t : type booléen e : type objet types construits : (T1/T2) est une fonction d un domaine T1 vers un domaine T2, si T1 et T2 sont des types. un prédicat est par exemple de type (e/t) ex de règle (on considère que le type de s est t) : s > np vp np= λ P (..P(x)) (attend un prédicat) type ((e/t)/t) vp= λ x (..(x)) (attend un objet) type (e/t) l ordre de composition est nécessairement [np] ([vp]) Cours Enseeiht Septembre 2003 p.71/75

Retour sur les applications Par rapport aux modèles théoriques : problème de passage à l échelle (scalability) problème des ressources (lexicales essentiellement) problèmes des performances (complexité temps et mémoire) problème de validation Cours Enseeiht Septembre 2003 p.72/75

Simplifications domaines restreints (dialogue, base de données) approches robustes (syntaxe) approches presque exactes, statistiques (recherche d information)... Cours Enseeiht Septembre 2003 p.73/75

Exemple : le dialogue faux départs répétition relâchement de syntaxe (négation) mots manquants fragments Cours Enseeiht Septembre 2003 p.74/75

L au-delà la pragmatique : le langage en contexte présupposition : Le roi de France est chauve. temps : Je suis parti avant qu il arrive/ Je suis parti avant d être saoûl. temps :Jerry alla au restaurant et mangea du homard. / Jerry alla au restaurant et alla au cinema. anaphore : Hillary 1 ne parle pas à Monica 2. Elle 1 ne l 2 aime pas. une certaine forme de raisonnement est nécessaire Cours Enseeiht Septembre 2003 p.75/75