Traitement de Langages et Dialogues Naturels par Ordinateur

Documents pareils
Grammaires d unification

TD 1 - Structures de Traits et Unification

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

fiche D AUTOCORRECTION Frimousse, une petite chienne qu'on a adoptée le mois dernier, est intelligente et docile.

Chapitre 2. Eléments pour comprendre un énoncé

Document d aide au suivi scolaire

Détection des propositions syntaxiques du français : en vue de l alignement des propositions de textes parallèles français-japonais

Évaluation et implémentation des langages

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

dans un cadre richement typé

III- Raisonnement par récurrence

Systèmes décisionnels et programmation avancée

La phonétisation de "plus", "tous" et de certains nombres : une analyse phono-syntaxique

TP1 - Prise en main de l environnement Unix.

Utilisation des tableaux sémantiques dans les logiques de description

Cours de Master Recherche

Compte-rendu de Hamma B., La préposition en français

Exercices - Polynômes : corrigé. Opérations sur les polynômes

LES TECHNOLOGIES DU WEB APPLIQUÉES AUX DONNÉES STRUCTURÉES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

! Text Encoding Initiative

Maple: premiers calculs et premières applications

Expression des contraintes. OCL : Object C o n t r a i n t L a n g u a g e

Atelier ATOLL pour les grammaires d arbres adjoints

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

M06/5/COMSC/SP1/FRE/TZ0/XX INFORMATIQUE NIVEAU MOYEN ÉPREUVE 1. Mardi 2 mai 2006 (après-midi) 1 heure 30 minutes INSTRUCTIONS DESTINÉES AUX CANDIDATS

mes m est mets/met mais mets

Intelligence Artificielle et Robotique

Construction et maintenance d une ressource lexicale basées sur l usage

ADAPT: un modèle de transcodage des nombres. Une application des systèmes de production au développement

Déterminants possessifs

Un guide du trading des Options Binaires, étape par étape.

ces ses c est s est sais / sait

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

UML (Diagramme de classes) Unified Modeling Language


Thomas Dutronc : Demain

Chapitre 11. Séries de Fourier. Nous supposons connues les formules donnant les coefficients de Fourier d une fonction 2 - périodique :

OCL - Object Constraint Language

Langue Française. Syllabus A1. Description globale du niveau A1 utilisateur élémentaire

Logiciel Libre Cours 3 Fondements: Génie Logiciel

Distinction des questions et des consignes

PROJET DE FIN D ETUDES

Mots interrogatifs. Quand,comment,pourquoi,qui... sont des mots interrogatifs qui servent à introduire une phrase interrogative.

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

quelque quelque(s) quel(s) que/quelle(s) que quel(s) / quelle(s) qu elle(s)

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Initiation à l algorithmique

Présentation du langage et premières fonctions

clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE

Ariane Moffatt : Je veux tout

Règles d élaboration d une évaluation par Questions à Choix Multiple Joël LECHEVALLIER 1

1. Coordonnées de l expéditeur. Vous avez réalisé, dans nos locaux, des travaux d aménagement, le jeudi 22 décembre dernier.

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

eduscol Ressources pour la voie professionnelle Français Ressources pour les classes préparatoires au baccalauréat professionnel

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB Olivier Augereau Formation UML

UFR d Informatique. FORMATION MASTER Domaine SCIENCES, TECHNOLOGIE, SANTE Mention INFORMATIQUE

The Grid 2: Manuel d utilisation

ANALYSE SÉMANTICO-DISCURSIVE DES COLLOCATIONS LEXICALES EN CORPUS SPÉCIALISÉ : LA BASE CONNAISSANCE-S

Contribution aux rapports entre la logique combinatoire et les T[Σ]-algèbres.

squelettique Importance pressentie des troubles de santé psychologique Sollicitation par les centres d urgence d

La syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

I. Le déterminant Il détermine le nom. Le déterminant indique le genre, le

Compte rendu de la formation

GOL502 Industries de services

1 Description générale. Résumé

Accompagnement personnalisé 6e

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

Dire à quelqu un de faire quelque chose

Réussir son entrée en grammaire au CE1

Créer le schéma relationnel d une base de données ACCESS

TP 1 Prise en main de l environnement Unix

Compléments de documentation Scilab : affichage de texte et formatage de nombres

Caractéristiques du nom

RTDS G3. Emmanuel Gaudin

Carl-Louis-Ferdinand von Lindemann ( )

Atelier rédactionnel

Apprentissage Automatique

1 On peut consulter et interroger ce corpus sur le site de l équipe DELIC :

Définitions. Numéro à préciser. (Durée : )

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Club langue française Quiz. Par Julien COUDERC et Maxence CORDIEZ

Modélisation des données

Les règles de base du poker :

NOM : Prénom : Date de naissance : Ecole : CM2 Palier 2

Auxiliaire avoir au présent + participe passé

Génie Logiciel avec Ada. 4 février 2013

Building Technologies

TiLT : plate-forme pour le traitement automatique des langues naturelles

STI 20 Édition 3 /Novembre 2002

Comment valoriser une entreprise et sur quels critères? ISEC 22 novembre 2011 Evaluation d entreprises

Études. Certaines filières STS (BTS, BTSA) IUT (DUT) universitaires. Écoles (Social, Santé, Arts, Ingénieurs, Commerce ) Classes préparatoires

Prévalence et étiologie. Le retard mental : langage et communication. Définitions et classifications (2) Définitions et classifications

Transcription:

Traitement de Langages et Dialogues Naturels par Ordinateur Une introduction 3 janvier 2005

Plan du cours Introduction les applications les problèmes l analyse syntaxique automatique la représentation du sens des phrases l au-delà travaux pratiques

Pour quoi faire : les applications traduction automatique interface homme-machine (IHM) systèmes de dialogues (oral ou non) interrogation de bases de données génération de textes résumé automatique recherche d information et indexation

Les domaines concernés la linguistique l intelligence artificielle la philosophie du langage la psychologie Plusieurs appelations linguistique informatique (Computational Linguistics CL) traitement automatique des langues naturelles TALN Natural Language Processing (NLP)

La traduction automatique La traduction automatique, c est facile, non? It is not hard, I think? Ce est pas dur, je pense? Automated translation is not hard, isn t it? automatisé traduction est pas dur, est pas ce? la traduction automatique, c est facile, non? is machine translation, it easy, not? (altavista.com) problème des constructions (adjectifs, genre, articles) structures différentes entre langages

Problèmes du mot à mot Time flies like an arrow. Temps mouche comme une flèche. Les mouches du temps aiment une flèche. Le temps vole comme une flèche. Le temps file comme une flèche. les enfants et les femmes enceintes pregnant children and women Problèmes majeurs : ambiguïté lexicale ambiguïté grammaticale

Interface homme-machine M où voulez vous aller? H je veux un billet pour paris M ok, en 1ere ou 2e classe? M euh non je me suis trompé sur la première réponse, je veux aller à Bordeaux H en première classe. ce sera XXXX euros SVP.

La recherche d information répondre à des questions : Qui a gagné Roland-Garros [chez les femmes]? Qui a découvert la radioactivité? Qui a le record du 100m haies?

La recherche d information Ex : lister tous les records sportifs et les mettre sous la forme : Nom/Discipline Bidule a battu le record du 100m.

La recherche d information Ex : lister tous les records sportifs et les mettre sous la forme : Nom/Discipline Bidule a battu le record du 100m. Bidule a explosé l ancien record de Machin.

La recherche d information Ex : lister tous les records sportifs et les mettre sous la forme : Nom/Discipline Bidule a battu le record du 100m. Bidule a explosé l ancien record de Machin. Le 100 mètres a un nouveau recordman : Bidule.

La recherche d information Ex : lister tous les records sportifs et les mettre sous la forme : Nom/Discipline Bidule a battu le record du 100m. Bidule a explosé l ancien record de Machin. Le 100 mètres a un nouveau recordman : Bidule. Bidule a presque battu le record du 100m.

La recherche d information Ex : lister tous les records sportifs et les mettre sous la forme : Nom/Discipline Bidule a battu le record du 100m. Bidule a explosé l ancien record de Machin. Le 100 mètres a un nouveau recordman : Bidule. Bidule a presque battu le record du 100m. Le record du 100m a été battu par bidule.

La recherche d information Ex : lister tous les records sportifs et les mettre sous la forme : Nom/Discipline Bidule a battu le record du 100m. Bidule a explosé l ancien record de Machin. Le 100 mètres a un nouveau recordman : Bidule. Bidule a presque battu le record du 100m. Le record du 100m a été battu par bidule. Bidule a fait forte impression au 100m. Il a battu le record.

La recherche d information Ex : lister tous les records sportifs et les mettre sous la forme : Nom/Discipline Bidule a battu le record du 100m. Bidule a explosé l ancien record de Machin. Le 100 mètres a un nouveau recordman : Bidule. Bidule a presque battu le record du 100m. Le record du 100m a été battu par bidule. Bidule a fait forte impression au 100m. Il a battu le record. La compagnie Truc produit plus de 100 mètres de couturière par jour, un record.

La génération automatique input : x entier naturel(x) y y = successeur(x) output : Tout entier naturel a un successeur.

Le résumé automatique input : ce cours

Le résumé automatique input : ce cours output : Traiter le langage naturel par ordinateur, c est compliqué mais on y arrive à peu près.

Grammaire et analyse Pourquoi la grammaire? structuration du sens phrase liste de mots Justine Henin a battu Kim Clijsters Kim Clijsters a battu Justine Henin mais Kim Clijsters a été battue par Justine Henin je (ne) veux (pas) un billet pour Paris (Pierre et Marie Curie) ont découvert la radioactivité

Les niveaux de traitement phonologie : les sons les mots morphologie : la forme des mots (conjugaisons, etc) syntaxe/lexique : l organisation des mots en structures sémantique : le sens des mots le sens de la phrase pragmatique : le sens des phrases en contexte (dans un texte, un dialogue).

Deuxième partie : la syntaxe de la bonne vieille grammaire...? des règles structurales pouvoir décrire les structures de phrase possibles pouvoir analyser les phrases en structure pouvoir retrouver certaines structures

Des règles structurales pourquoi certaines phrases sont correctes et pas d autres règles de bonne formation L ignorance toujours est prête à s admirer. Admirer toujours prête est ignorance l à s la grammaticalité d une phrase ne vient pas de ce qu on l a déjà entendu. de la vérité de la phrase Je connais un homme politique sincère. du fait qu on peut lui donner un sens ou non Des idées vertes sans couleur dorment furieusement.

Catégories syntaxiques certains mots sont complètement substituables dans les mêmes contextes catégories syntaxiques (=parties de discours/ part of speech) Je vois un (problème)/je vois un (chien) certains groupes de mots sont complètement substituables constituants ( syntagme / phrase en anglais) Je vois (un problème) arriver/je vois (le chien du voisin) arriver

Tests de constituants pour savoir si un groupe de mots forme un constituant peut-il exister seul? réponse à une question, titre Que font les gens riches? manger dans des restaus chic Les restaus chics font-ils des affaires? oui, les gens riches mangent dans (titre)manger dans des restaus chics à Toulouse (titre)manger dans des (exceptions? si par une nuit d hiver un voyageur ) est-il substituable par une forme pronominale? (ça, tel, là, y,...) Beaucoup de gens riches font ça[, manger dans des restaus chics] peut-on le déplacer? Dans des restaus chics, les riches mangent souvent mangent souvent dans des restaus, les riches chics

Constituants (suite) ce qui forme un constituant peut être dépendant du contexte Agnès et Yves élèvent des enfants. Lila est gardée par Agnès et Yves s occupe de Salomé. la structure de constituants est hiérarchique (pas de recouvrement) on peut donc représenter la structure syntaxique en constituants par un arbre syntaxique

Notions de grammaire formelle Pour rendre compte de ces régularités, un modèle de base serait assimilable à un système de production/réécriture ( générativisme ) : S NP VP NP DET N VP V VP V NP DET le DET la N chien N chat V mange V dort symbole non-terminaux / symboles terminaux (catégories syntaxiques)/(mots) structure/lexique

Complétude et correction On essaie de faire coller le langage généré avec le langage naturel. Parmi les phrases acceptées : Le chien mange le chat. Le chien dort. Le chien dort le chat. La chien mange. surgénération (grammaire incorrecte) Phrase refusée : Le chien marche dans le parc. sous-génération (grammaire incomplète)

Différents types de grammaire règle générale de réécriture : A 1, A 2,..., A i B 1, B 2,... B j même chose avec i j même chose avec i = 1 A B C D même chose avec symbole terminal à gauche de toute partie droite de règle A x B C D hiérarchie de complexité de Chomsky : type 3 type 2 type 1 type 0

Utilisation en analyse Analyse de Le chien mange le chat

Utilisation en analyse Analyse de Le chien mange le chat S NP VP DET N V NP le chien mange DET N le chat

Concevoir la grammaire Problèmes : que mettre dans le lexique? (mot, racine) quels constituants? quelles hiérarchies? contraintes lexicales (transitivité,...)

Expressivité et performances l exemple plus haut ne contient pas de récursivité : on peut définir simplement l analyse par un automate à état fini. grammaire trop simple la grammaire des langages naturels est intrinsèquement récursive : NP NP PROP RELATIVE PROP RELATIVE QUI V NP

Expressivité et performances règle générale de réécriture : A 1, A 2,..., A i B 1, B 2,... B j trop complexe à analyser (reconnaissance en grammaire transformationnelle indécidable) type 1 : à peine mieux, complexité exponentielle. Plus simple et praticable : context-free grammar (type 2) A B 1, B 2,... B j squelette commun aux formalismes grammaticaux modernes

La question de l expressivité besoin d exprimer plus de généralités : accord en genre : GN DET feminin Nom féminin GN DET masculin Nom masc accord en nombre : explosion! GN DET feminin sg Nom féminin GN DET masculin sg Nom féminin GN DET feminin pl Nom masc pl GN DET masculin pl Nom masc pl

Grammaires avec traits syntaxiques la solution : factoriser GN[genre=a] DET[genre=a] Nom[genre=a] GN[nombre=a] DET[nombre=a] Nom[nombre=a] signifie que l accord doit se faire avec deux traits : genre+nombre= accord grammatical GN[gen=a,nb=b] DET[gen=a,nb=b] Nom[gen=a,nb=b] factoriser : une structure accord=gen+nb

Structures de traits Problème : dans les chiens, les est ambigu entre féminin et masculin structure de traits : matrice de paires d attributs-valeurs, pas nécessairement instanciées acc [ genre nombre ] masc vs [ acc pluriel [ nombre ] pluriel

La subsomption Une ST S1 subsume une ST S2, si toute l information contenue [ dans S1 est aussi] dans S2 (S1 est plus générale que [ S2) ] genre masc? nombre pluriel nombre pluriel genre masc [ ] [ ] nombre pluriel? nombre pluriel personne 2

L unification L unification de deux structures S1 et S2 correspond à la fusion des informations qu elles contiennent, si elles sont compatibles. Formellement : l unification de S1 et S2, si elle existe, est une ST S3 telle que S3 est subsumée par S1 et S2, et S3 est minimale par rapport à la subsomption. ex : [ ] [ ] genre masc nombre pluriel nombre pluriel personne 3 nombre pluriel personne 3 genre masc

Unification (suite) l accord est alors l unification des structures de traits les Det [ ] +chiens N [ ] acc nombre pluriel genre masc acc nombre pluriel [GN les chiens]= GN [ genre acc nombre grammaire d unification ] masc pluriel

Structures de traits complexes st structure [ récursive : ] valeurs peuvent etre des ST accord nombre sg genre féminin pers 3 accord nombre sg cas datif pers 3 cas accusatif

Structures de traits complexes on peut contraindre une ST avec des liens réentrants : A= [ ] nombre sg sujet acc 1 pers 2 [ ] verbe acc 1 différent de : B= sujet acc verbe acc [ ] nombre sg pourquoi? pers 2 [ ] nombre sg pers 2

Réponse C= sujet [ acc [ genre ] masc quel est le résultat de A C, et B C?

Réponse C= sujet [ acc [ genre ] masc A C= sujet verbe genre masc acc 1 nombre sg pers 2 [ ] acc 1

Réponse C= sujet B C= sujet acc verbe acc [ acc [ genre genre masc nombre sg pers 2 [ ] nombre sg pers 2 ] masc A C= sujet verbe genre masc acc 1 nombre sg pers 2 [ ] acc 1

Structure de traits réentrantes elles sont en fait formellement équivalentes à des graphes dirigés non-cycliques (DAG : directed acyclic graphs). sujet acc pers 2 verbe acc nb sg

Techniques d analyse des CFG problème : à partir d une grammaire, comment extraire la structure d une phrase donnée? recherche top-down dans graphe et/ou (profondeur ou largeur) bottom-up à partir de la chaine (de G à D ou de D à G). éventuellement plusieurs résultats possibles reconnaissance : une phrase est-elle admise ( correcte ) pour une grammaire analyse : quelles sont les règles qui expliquent la bonne formation (ou les bonnes formations)

Analyse Top-down Le chien mange le chat. (objectif : S)

Analyse Top-down Le chien mange le chat. (objectif : S) S NP VP

Analyse Top-down Le chien mange le chat. (objectif : S) S NP VP NP DET N VP V NP

Analyse Top-down Le chien mange le chat. (objectif : S) S NP VP NP DET N DET le N chien VP V NP

Analyse Top-down Le chien mange le chat. (objectif : S) S NP VP NP DET N DET le N chien VP V NP V mange NP DET N...

Analyse Top-down gauche à droite // droite à gauche profondeur ou largeur d abord problèmes : règles du type NP NP PP doit stocker une grande partie de l arbre de recherche en cas de largeur d abord.

Analyse Bottom-Up exemple en gauche droite Le chien mange le chat.

Analyse Bottom-Up exemple en gauche droite Le chien mange le chat. DET N V DET N

Analyse Bottom-Up exemple en gauche droite Le chien mange le chat. DET N V DET N NP DET N NP V DET N

Analyse Bottom-Up exemple en gauche droite Le chien mange le chat. DET N V DET N NP DET N NP DET N NP V DET N NP V NP

Analyse Bottom-Up exemple en gauche droite Le chien mange le chat. DET N V DET N NP DET N NP DET N VP V NP NP V DET N NP V NP NP VP

Analyse Bottom-Up exemple en gauche droite Le chien mange le chat. DET N V DET N NP DET N NP DET N VP V NP S NP VP NP V DET N NP V NP NP VP S

Analyse Bottom-Up exemple en gauche droite Le chien mange le chat. DET N V DET N NP DET N NP DET N VP V NP S NP VP gauche à droite // droite à gauche profondeur ou largeur d abord NP V DET N NP V NP NP VP S

Analyse Coin gauche left-corner parsing top-down : méthode trop aveugle (beaucoup de règles dans une grammaire par rapport à celles effectivement appliquée sur une phrase particulière, ignore les mots de la phrase. bottom-up : méthode aussi peu informée : on essaye tout, en partant du bas, sans s occuper de ce qu on cherche au final. intermédiaire : bottom up au départ, en cherchant à continuer à reconnaître ce qu on a commencé (top-down à ce moment)

Exemple d analyse Le chien mange le chat. DET N V DET N DET N NP bottom-up NP est le début de la production S NP VP (coin gauche) on va chercher à vérifier cette règle on cherche donc maintenant un VP (si on regarde de droite à gauche : coin droit de la règle. )

Analyse avec trace chart parsing encore un problème : toutes les analyses précédentes jettent les hypothèses infirmées, même quand elles pourraient servir plus tard exemple : VP V NP ADV / VP V NP PP J ai vu (l homme qui a tiré sur Jacques Chirac) de mes propres yeux. on cherche à satisfaire la première règle (échec), on passe à la seconde travail fait deux fois.

Analyse avec trace solution : garder tous les constituants reconnus, et mettre en attente toutes les règles les faisant potentiellement intervenir chart (une trace de ce qui a été fait) sur l exemple on garde en mémoire : (règles pointées) VP V NP ADV VP V NP PP il ne reste plus qu à trouver un ADV ou un PP.

Vers une grammaire plus poussée On commence par l anglois : catégories? règles? traits syntaxiques? principes?

Vers une grammaire plus poussée On commence par l anglois : catégories? Adj, Adv, Pro, Rel, Prep,... règles? traits syntaxiques? principes?

Vers une grammaire plus poussée On commence par l anglois : catégories? Adj, Adv, Pro, Rel, Prep,... règles? traits syntaxiques? cas, genre, nombre, personne, forme, mode, temps, verbale,... principes?

Vers une grammaire plus poussée On commence par l anglois : catégories? Adj, Adv, Pro, Rel, Prep,... règles? traits syntaxiques? cas, genre, nombre, personne, forme, mode, temps, verbale,... principes? accord, arguments du verbe

Un début S NP VP NP PN NP PN Rel NP Det Nbar Nbar N Nbar N Rel Rel Wh VP VP IV VP TV NP VP DV NP PP VP SV S PP P NP

Quelques problèmes non triviaux dépendances longue distance Myriam a promis à Philippe d être à l heure. J ai vu l homme qui a tiré sur Jacques Chirac. Les Corses sont fiers, les Belges aussi. ambiguité syntaxique : je (vois (un chien) (avec un téléscope)) (dans le parc) je (vois (un quidam avec un chapeau) (dans le parc)) même forme de surface / 2 interprétations

Quelques formalismes d unification (1) : GPSG Generalized Phrase Structure Grammar pas de réentrance, récursion finie sémantique : Montague

Quelques formalismes d unification (2) : LFG Lexical Functional Grammar Forme générale S NP VP ( sujet = ) ( = ) traits disjonctifs, contraintes sémantique : C-structures

Quelques formalismes d unification (3) : HPSG Head-driven Phrase Structure Grammar principes généralisant encore plus : chaque catégorie possède un trait tête, qui dirige la composition de structures. traits disjonctifs, ST typés+héritage sémantique : théorie des situations (situation theory)

Quelques formalismes d unification (4) : CG grammaire catégorielle (categorial grammar) Forme générale : sémantique : Montague X (X /Y ) Y X Z (X \Z)

Problèmes globaux couverture : modèle de grammaire complèt très difficile à faire (mots inconnus, structures oubliées, etc) complexité : trop de lectures possibles rend inexploitables si grammaire trop ambiguë importance de l information lexicale pour désambiguiser (ex : verbes transitifs ou non, structure argumentale), coûteuse à rassembler. quelques alternatives : modèles d apprentissage statistiques, analyse superficielle

Analyse probabiliste idée : ne garder que les analyses les plus probables en cas d ambiguïté pour cela on attribue une probabilité aux règles de la grammaire = PCFG Probabilistic Context-Free Grammar la probabilité d une analyse syntaxique est la combinaison de la probabilité des règles utilisées dans sa dérivation nécessite un corpus d entraînement, de phrases avec leurs analyses syntaxiques variante : probabilité sur des arbres problèmes : voir le cours d apprentissage!

Analyse superficielle (shallow parsing) idée : découpage en ilôts, non récursifs, non recouvrants = tranches / chunks tout ce qui n est pas reconnu est ignoré Exemple : si on n a des règles de reconnaissance basiques d un GN Jacques a vu brièvement le président américain hier Jacquesa vu brièvement [le président américain] hier ne pas décider en cas d ambiguité je vois (un chien) (avec une jumelle) peut correspondre à attachements divers, mais pas de problèmes pour groupes basiques (GN simples,...)

En pratique réalisé avec des patrons syntaxiques = expressions régulières nécessite un prétraitement = étiquettage morpho-syntaxique ex : Jacques a vu brièvement le président américain hier NP V V ADV DET N ADJ ADV

Analyse superficielle en cascade une méthode populaire : cascade d automates finis grammaire non récursive, à base d expressions régulières chunking, découpage successifs en composants plus complexes d abord groupes nominaux basiques, verbes, puis GN coordonnés, puis groupes prépositionnels, puis clauses, puis etc

Exemple étage 0 : morpho-syntaxe je vois un gros chien et un chat avec une jumelle

Exemple étage 0 : morpho-syntaxe étage 1 : nx prp (det adj* nn adj*) nam vx v [nx je] [vx vois] [nx un gros chien] et [nx un chat] avec [nx une jumelle]

Exemple étage 0 : morpho-syntaxe étage 1 : nx prp (det adj* nn adj*) nam vx v étage 2 : np nx (et nx)* [np [nx je]] [vx vois] [np [nx un gros chien] et [nx un chat]] avec [np [nx une jumelle]]

Exemple étage 0 : morpho-syntaxe étage 1 : nx prp (det adj* nn adj*) nam vx v étage 2 : np nx (et nx)* étage 3 : pp prep np [np [nx je]] [vx vois] [np [nx un gros chien] et [nx un chat]] [pp avec [np [nx une jumelle]]]

Exemple étage 0 : morpho-syntaxe étage 1 : nx prp (det adj* nn adj*) nam vx v étage 2 : np nx (et nx)* étage 3 : pp prep np étage 4 (clauses) c np vx np* pp* [c [np [nx je]] [vx vois] [np [nx un gros chien] et [nx un chat]] [pp avec [np [nx une jumelle]]]]

[c ] [np [nx je]] [vx vois] [np [nx un gros chien] et [nx un chat]] [pp avec [np [nx une jumelle]]]

Troisième partie : la sémantique objectifs : représentation & désambiguisation But de la sémantique formelle : construire une représentation de l information véhiculée par des expressions en langage naturel. au niveau de la phrase ; au niveau d une suite de phrases (discours).

Représentation du discours la mise en relation d une forme (obéissant à des règles de bonne formulation la syntaxe) avec un contenu, le sens, déterminé par le sens des parties. Deux problèmes principaux : 1 quelle est la forme logique d une phrase, d un discours (la sémantique) 2 comment faire correspondre à une phrase sa forme logique par un processus de composition à partir des expressions du langage. (c est l interface entre l ensemble syntaxe/lexique et la sémantique).

Sémantique simple à base de traits un trait sem ou trad ou... S [ ] pred 1 sem sujet 2 syn... NP [ sem 2 syn... ] [ ] VP sem 1 syn...

Plus généralement S(sem :f(semnp,semvp)) NP(sem :semnp) VP(sem :semvp) les formalismes varient sur la nature de la fonction de composition du sens représentation exprimable sous forme logique

Rappel rapide de logique termes : variables x i, constantes c j, images de fonctions f (x) propositions atomiques : prédicats P(x), Q(x 1, x 2, x 3 ) propositions construites avec,,, : P(x) Q(y) quantificateurs :, x[(oiseau(x) pingouin(x)) vole(x)]

Forme logique la question de la sémantique est : quelle est la forme logique d une phrase?

Forme logique la question de la sémantique est : quelle est la forme logique d une phrase? Jean dort.

Forme logique la question de la sémantique est : quelle est la forme logique d une phrase? Jean dort. dort(jean) dort(j) nom(j, Jean ) dort(j, t) dormir(e) agent(e) = j dormir(e, j) e t now

Interface syntaxe / sémantique Si l on admet que la représentation de la phrase suivante : Un homme dort. est la formule Les questions à résoudre sont : x (homme(x) dort(x)) 1 quelle est la contribution de chaque élément lexical à l ensemble de la formule? 2 quelles sont les règles de combinaison de ces éléments qui donnent la formule finale?

Exemple avec une CFG S NP V NP D N N homme D un V dort syntaxe + lexique FL de un x... FL de dort prédicat FL de homme prédicat

Rappel (rapide) de lambda-calcul une façon abstraite de définir une fonction et ses arguments on va ici n utiliser que des fonctions dont le résultat final est une formule logique du premier ordre. ex : λx(oiseau(x)) mécanisme de beta-réduction : composition de formules lambda [λx(oiseau(x))](y) donne oiseau(y) arguments des fonctions peuvent être des prédicats ou même des formules : λp( x(oiseau(x) P(x))

Exemple (suite) Il faut considérer la sémantique des expressions comme des lambda-abstractions en attente de leurs arguments. Ainsi la sémantique d un verbe peut être : [[dort]] = λx dort(x) Celle d un nom commun est similaire : [[homme]] = λx homme(x) Et celle du déterminant peut aussi s écrire : [[un]] = λpλr ( x P(x) R(x))

Composition sémantique [[un]] ([[homme]]) = = λr (homme(x) R(x)) ([[un]] ([[homme]]))([[dort]]) = = x(homme(x) dort(x))

Le processus de traduction category1(sem :f(semnp,semvp)) categorie2(sem :semnp) categorie3(sem :semvp)... ici par exemple, f = application lambda (pour toutes les règles)

Le processus de traduction S :( x (homme(x) dormir(x))) NP :λr ( x homme(x) R(x)) VP :λx(dormir(x)) dort DET :λpλr ( x P(x) R(x)) N :λx(homme(x)) un homme

Exercice : plus de sémantique noms, verbes intransitifs : ok noms propres (Marie) verbes transitifs (Bernadette aime Jacques) adjectifs (Un bon chien) pronom relatif (Un chien qui passe aboie) quantification : (chaque homme possède un cerveau)

Noms propres Jerry dort. S NP VP PN Jerry [[dort]] = λx dormir(x) V dort

Noms propres Jerry dort. S NP VP PN Jerry [[dort]] = λx dormir(x) [[Jerry]] = j V dort

Noms propres Jerry dort. S NP VP PN Jerry [[dort]] = λx dormir(x) [[Jerry]] = j [[Jerry]] = λp(p(x)) V dort

Verbes transitifs Georges ennuie Elaine. S NP VP PN V NP Georges ennuie PN Elaine

Adjectifs Jerry est malade. Un petit chien aboie. S NP VP PN V ADJ Jerry est malade S NP VP V DET ADJ N un petit chien aboie

Le verbe être Jerry est un comique. Jerry est malade. S NP VP PN V NP Jerry est DET N un comique

Quantification universelle Chaque homme aime une femme. S NP VP DET N V NP Chaque homme aime DET N une femme

Quantification définie Le voisin dort. S NP VP DET N V le voisin dort

Verbes enchâssés Kramer préfère dormir. S NP VP PN V VP Kramer préfère V dormir

Traduction sur mesure on a vu avec un ordre fixe = pas souple pour chaque règle de syntaxe, une règle différente et on ajuste S(semNP(semVP)) NP VP VP(semNP(semV)) V NP...

Ordre d application l ordre est pénible à lister typage sémantique des cat. syntaxiques t : type booléen e : type objet types construits : (T1/T2) est une fonction d un domaine T1 vers un domaine T2, si T1 et T2 sont des types. un prédicat est par exemple de type (e/t) ex de règle (on considère que le type de s est t) : s np vp np= λ P (..P(x)) (attend un prédicat) type ((e/t)/t) vp= λ x (..(x)) (attend un objet) type (e/t) l ordre de composition est nécessairement [[np]] ([[vp]])

Retour sur les applications Par rapport aux modèles théoriques : problème de passage à l échelle (scalability) problème des ressources (lexicales essentiellement) problèmes des performances (complexité temps et mémoire) problème de validation

Simplifications domaines restreints (dialogue, base de données) approches robustes (syntaxe) approches presque exactes, statistiques (recherche d information)...

Exemple : le dialogue faux départs je ne il ne faut pas faire ça répétition je je ne sais pas relâchement de syntaxe (négation) je sais pas mots manquants fragments tu as vu quoi? un film

L au-delà la pragmatique : le langage en contexte présupposition : Le roi de France est chauve. temps : Je suis parti avant qu il arrive/ Je suis parti avant d être saoûl. temps :Jerry alla au restaurant et mangea du homard. / Jerry alla au restaurant et alla au cinema. anaphore : Hillary 1 ne parle pas à Monica 2. Elle 1 ne l 2 aime pas. une certaine forme de raisonnement est nécessaire