La lexicalisation dans GePhoX. Adil El Ghali LaTTiCe - PPS Université Paris 7 adil@linguist.jussieu.fr Journée GenI, Paris - Sept. 2003 p.1/24
Présentation du problème La lexicalisation est la tâche de génération qui permet de passer des représentations conceptuelles aux représentations textuelles de l entrée à exprimer. Journée GenI, Paris - Sept. 2003 p.2/24
Présentation du problème Communicative goals T Box A Box Domain Model A Box User Model Content Determination logical form Document structuring à la SDRT SDRS Micro planner Lexical Bases CLEF Dependency tree Surface realiser Text Journée GenI, Paris - Sept. 2003 p.2/24
Introduction Dans [Stede, 1999], l auteur pose un certain nombre de questions: Qu est ce qu un item lexical? Comment les items lexicaux sont-ils liés au concepts? Quels critères pour choisir un item lexical plutôt qu un autre? A quel moment du processus de génération ce choix est-il fait? Journée GenI, Paris - Sept. 2003 p.3/24
Introduction Comment se traduit la différence entre utilisateurs dans le lexique? La correspondance concept lexème est-elle forcément statique? Dans le domaine mathématique, quelles particularitées des bases lexicales? Journée GenI, Paris - Sept. 2003 p.4/24
Plan Présentation du problème G-TAG Bases de connaissances conceptuelles Bases de connaissances lexicales Acquisition de ressources lexicales Lexicalisation Conclusion Journée GenI, Paris - Sept. 2003 p.5/24
G-TAG [Danlos, 1998] Quoi-dire-?: graphes conceptuels; Comment-le-dire-?: bases lexicales; Un concept est associé à une BL composée des lexicalisations possibles de ce concept; Les choix lexicaux sont effectués en même temps que les choix de réalisation syntaxique; approche lexicalisée tant pour les phrases que pour les textes (pas de modularisation en «text planner» et «sentence planner», mais modularisation basée sur l input); Journée GenI, Paris - Sept. 2003 p.6/24
G-TAG - suite E2 =: NAPPING [NAPPER H1] with [DURATION D1] Journée GenI, Paris - Sept. 2003 p.7/24
G-TAG - suite E2 =: NAPPING [NAPPER H1] with [DURATION D1] BL(NAPPING) = NAPPER a fait la sieste (pendant DURATION). faire-la-sieste * arg1 NAPPER Journée GenI, Paris - Sept. 2003 p.7/24
G-TAG - suite E2 =: NAPPING [NAPPER H1] with [DURATION D1] BL(NAPPING) = NAPPER a fait la sieste (pendant DURATION). faire-la-sieste * arg1 NAPPER La sieste de NAPPER (a duré DURATION). la-sieste * arg1 NAPPER Journée GenI, Paris - Sept. 2003 p.7/24
G-TAG - fin E2 =: SUCCESSION [1st-EVEN E1, 2nd-EVENT E2 ] BL(SUCCESSION)= (+T,+P) (+T,+P) (-T,+P) ensuite auparavant avant arg1 / \ arg2 arg2 / \ arg1 arg1 / \ arg2 1stE 2ndE 2ndE 1stE 1stE 2ndE Journée GenI, Paris - Sept. 2003 p.8/24
Plan Présentation du problème G-TAG Bases de connaissances conceptuelles Bases de connaissances lexicales Acquisition de ressources lexicales Lexicalisation Conclusion Journée GenI, Paris - Sept. 2003 p.9/24
Bases de connaissances conceptuelles Bases de connaissances en DL; DKB: base de connaissances du domaine; UKB: base de connaissances de l utilisateur; UKB DKB Journée GenI, Paris - Sept. 2003 p.10/24
KB conceptuelles - example e:espacevectorielfini pf: PartieFinie (e,pf): EstEngendre d: Dimension (e,d): AvoirDimension EspaceVectorielFini=EspaceVectoriel EstEngendre.PartieFinie EspaceVectorielFini(e) EspaceVectoriel(e) PartieFinie(pf) Est-Engendre(e,pf) Journée GenI, Paris - Sept. 2003 p.11/24
Plan Présentation du problème G-TAG Bases de connaissances conceptuelles Bases de connaissances lexicales Acquisition de ressources lexicales Lexicalisation Conclusion Journée GenI, Paris - Sept. 2003 p.12/24
Bases de connaissances lexicales A la G-TAG: on associe à un concept une BL: ensemble de lexies chaque lexème est associé à un arbre TAG sous-spécifié les entrées sont décorées par des Traits (+T,+P,-T,-P) Journée GenI, Paris - Sept. 2003 p.13/24
Bases de connaissances lexicales - Exem BL(PROVER) = USER prover THM. prover arg1/ \ arg2 USER THM USER demontrer THM. demontrer arg1/ \ arg2 USER THM Journée GenI, Paris - Sept. 2003 p.14/24
Lexeme Hériter des définitions DEC: Lexie = NOM LEXIE DEFINITION (CS) Liste FL Journée GenI, Paris - Sept. 2003 p.15/24
Plan Présentation du problème G-TAG Bases de connaissances conceptuelles Bases de connaissances lexicales Acquisition de ressources lexicales Lexicalisation Conclusion Journée GenI, Paris - Sept. 2003 p.16/24
Acquisition de ressources lexicales La base de connaisances lexicales est construite de manière incrémentale; Utilisation de corpus alignées de preuves formelles textuelles; MIZAR, MBase/OpenMath; On utilise les axiomes (définitions) de la KB pour remplir les champs CS des Lexies, et déduire certaines FL; la table de correspondance KB BL est calculé automatiquement. Journée GenI, Paris - Sept. 2003 p.17/24
Plan Présentation du problème G-TAG Bases de connaissances conceptuelles Bases de connaissances lexicales Acquisition de ressources lexicales Lexicalisation Conclusion Journée GenI, Paris - Sept. 2003 p.18/24
Lexicalisation L opération de lexicalisation prend en entrée le graphe/sdrs produite; On commence par les relations de discours (2nd ordre) RESULTAT, SUCCESSION,...; On propage les contraintes liées aux lexies choisies: TraitTexte; On fait des retour-arrières sur le dernier choix effectué, en cas de blocage; Journée GenI, Paris - Sept. 2003 p.19/24
Lexicalisation Contraintes supplémentaires sont fournies par: La structure communicative; Régles stylistiques, p.ex. éviter les répétitions: ensuite.. ensuite ensuite.. puis. Journée GenI, Paris - Sept. 2003 p.20/24
Exemple π 0,π 1 π 0,π 0 x x π 0 : π 0 : Entier(x) name(x, x ) π 0 : Entier(y) name(y, y ) introduce(x) introduce(y) Parallel(π 0,π 0 ) π 1,π 1 π 1 : π 1 : divise(x,y) Resultat(π 1,π 2 ) π 1 : premier(y) Narration(π 0,π 1 ) Narration. (arg1, arg2) (+T,-P) Resultat alors(p0, p1)(-t,+p) divise divise(arg1, arg2) Journée GenI, Paris - Sept. 2003 p.21/24
Plan Présentation du problème G-TAG Bases de connaissances conceptuelles Bases de connaissances lexicales Acquisition de ressources lexicales Lexicalisation Conclusion Journée GenI, Paris - Sept. 2003 p.22/24
Conclusion Construction de BL guidée par la KB; Calcul des tables de correspondances Concept Lexie automatique; L algorithme de lexicalisation récursif exploite la structure de l entrée; Le système de contraintes permet d éviter certaines configurations impossibles; Implémenté dans CLEF. Journée GenI, Paris - Sept. 2003 p.23/24
References [Danlos, 1998] Danlos, Laurence (1998). G-TAG : un formalisme lexicalisé pour la génération de textes inspiré de TAG. Revue T.A.L., 39(2), 7 33. [Stede, 1999] Stede, M. (1999). Lexical semantics and Knowledge representation in Multilingual text generation. Kluwer Academic Publishers. Journée GenI, Paris - Sept. 2003 p.24/24