Génération de réponses pour un système de questions-réponses



Documents pareils
Évaluation transparente de systèmes de questions-réponses : application au focus

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Expériences de formalisation d un guide d annotation : vers l annotation agile assistée

AGROBASE : un système de gestion de données expérimentales

Une méthode d apprentissage pour la composition de services web

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Entreposage de données complexes pour la médecine d anticipation personnalisée

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

Once the installation is complete, you can delete the temporary Zip files..

Typologie des questions à réponses multiples pour un système de question-réponse

Laboratoire 4 Développement d un système intelligent

Exemple PLS avec SAS

La rencontre du Big Data et du Cloud

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Forthcoming Database

Application Form/ Formulaire de demande

Quel est l apport de la détection d entités nommées pour l extraction d information en domaine restreint?

DOSSIER DE CANDIDATURE PEDAGOGIQUE En seconde Année du MASTER «Sciences de l Ingénieur» (SDI) Année universitaire

FRENCH Language (Advanced Level III)

I. COORDONNÉES PERSONNELLES / PERSONAL DATA

Cette Leçon va remplir ces attentes spécifiques du curriculum :

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

UNIVERSITY OF MALTA FACULTY OF ARTS. French as Main Area in an ordinary Bachelor s Degree

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

Introduction aux Bases de Données

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

Deadline(s): Assignment: in week 8 of block C Exam: in week 7 (oral exam) and in the exam week (written exam) of block D

peu peux/peut peut être peut-être

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Évaluation de G-LexAr pour la traduction automatique statistique

Micro-ordinateurs, informations, idées, trucs et astuces utiliser le Bureau à distance

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

Compte-rendu de Hamma B., La préposition en français

et Active Directory Ajout, modification et suppression de comptes, extraction d adresses pour les listes de diffusion

Notice Technique / Technical Manual

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

AIDE FINANCIÈRE POUR ATHLÈTES FINANCIAL ASSISTANCE FOR ATHLETES

Langage SQL (1) 4 septembre IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes

If you understand the roles nouns (and their accompanying baggage) play in a sentence...

Application d un algorithme de traduction statistique à la normalisation de textos

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Vers des outils robustes et interopérables pour le TAL : la piste UIMA

INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE

Langue Française. Syllabus A1. Description globale du niveau A1 utilisateur élémentaire

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

TEXT MINING von 7

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

The assessment of professional/vocational skills Le bilan de compétences professionnelles

La Routine Quotidienne. Le docteur se lave les mains

Hervé Couturier EVP, SAP Technology Development

1 Description générale. Résumé

CONCLUSION. 31 mars 2015 Laurène Chochois Helpdesk REACH&CLP Luxembourg

Instructions Mozilla Thunderbird Page 1

BILL 13 PROJET DE LOI 13. certains droits relatifs à l approvisionnement en bois et à l aménagement forestier

Marketing et responsabilité sociétale de l entreprise : entre civisme et cynisme

Cedric Dumoulin (C) The Java EE 7 Tutorial

Gestion de références bibliographiques

ICA Congress, Brisbane 2012 Thème général : Les temps qui changent. La confiance et les archives*

How to Login to Career Page

Bases de données relationnelles

Veille concurrentielle et veille stratégique : deux applications d extraction d information

ENDNOTE X2 SOMMAIRE. 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque

IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels

Editing and managing Systems engineering processes at Snecma

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

DOCUMENTATION - FRANCAIS... 2

Interférences lexicales entre deux langues étrangères: anglais et français

Les Portfolios et Moodle Petit inventaire

WEB page builder and server for SCADA applications usable from a WEB navigator

Université de XY University of XY. Faculté XY Faculty of XY

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2

clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

Theme Sensorial marketing, from stores to Internet : retailers and sensorial marketing integration in multichannel distribution management.

Le Traitement Automatique des Langues en France à l ère du Big Data

Cours Bases de données

SQL Parser XML Xquery : Approche de détection des injections SQL

Improving the breakdown of the Central Credit Register data by category of enterprises

Information utiles. webpage : Google+ : digiusto/

L. Obert, T. Lascar, A. Adam

Master 2 Ecologie, Biodiversité, Evolution UE BADE - Pascal Rigolet

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne *** Online Applications Tutorial

Évaluation d une architecture de stockage RDF distribuée

Guide d'installation rapide TFM-560X YO.13

PROTECTION DE VOS DÉPÔTS. De 1 $ jusqu à $

Méthode de classification des réponses d un moteur de recherche

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

Tutoriel de formation SurveyMonkey

8. Cours virtuel Enjeux nordiques / Online Class Northern Issues Formulaire de demande de bourse / Fellowship Application Form

Afin de valider votre inscription merci de bien veiller à :

Programming Server-Side Web Applications with Object-Oriented PHP NC Group Syllabus. Duration: 75 hours 1-2-2

BIG Data et R: opportunités et perspectives

SQL Server et Active Directory

TABLE DES MATIERES A OBJET PROCEDURE DE CONNEXION

I. Présentation générale des épreuves écrites

Transcription:

Génération de réponses pour un système de questions-réponses Van-Minh Pho 1 LIMSI-CNRS, Rue John von Neumann, Université Paris-Sud, 91403 Orsay cedex, France vanminh.pho@gmail.com RÉSUMÉ. Les systèmes de questions-réponses (SQR) actuels répondent à une question posée par l utilisateur en langue naturelle par une information précise ainsi qu un passage de document justifiant cette information. Le principal défaut de ces réponses est qu elles ne créent pas d interaction avec l utilisateur, ce qui peut être problématique, en particulier dans le cas où le SQR est intégré dans un système de dialogue oral. Cet article présente un système générant des réponses en langue naturelle et pouvant être intégré à tout SQR. ABSTRACT. Question answering (QA) is the task of automatically answering a question asked in natural language. The answers returned by QA systems contain minimal answers and excerpts of the documents justifying them. The main drawback is that there is no interaction with the user. This paper presents a system for generating natural language answers, which can be embedded in any QA system. MOTS-CLÉS : Interaction avec l utilisateur, Systèmes de Questions-Réponses, Traitement Automatique de la Langue Naturelle pour la Recherche d Information, Génération Automatique KEYWORDS: User interface, Question answering systems, Natural Language Processing for Information Retrieval, Natural Language Generation 1. Ce travail a été encadré par Anne-Laure LIGOZAT et Anne GARCIA-FERNANDEZ. JJC 2012, pp. 449 454, Bordeaux, 21-23 mars 2012

450 Van-Minh Pho 1. Introduction Les systèmes de questions-réponses (SQR) ont pour fonction de répondre à des questions formulées en langue naturelle, contrairement aux moteurs de recherche où l utilisateur saisit un certain nombre de mots-clés correspondant à sa recherche. Une autre différence avec les moteurs de recherche est le résultat de la requête : alors qu un moteur de recherche retourne un ensemble de pages correspondant aux mots-clés de la requête, les SQR renvoient la réponse précise à la question, ainsi qu un passage de document la justifiant. L exemple suivant montre une telle réponse. Question : Quelle est la taille de la Tour Eiffel? Réponse : 325 m Justification : D une hauteur de 313,2 mètres à l origine, la tour Eiffel est restée le monument le plus élevé du monde pendant 41 ans. Sa hauteur a été augmentée depuis pour culminer à 325 m depuis le 17 janvier 2005. Depuis peu, la formulation des réponses en langue naturelle a reçu plus d attention, permettant ainsi la création de SQR interactifs (Mendes et al., 2004). Dans un dialogue, les interlocuteurs à la recherche d informations ne souhaitent pas forcément connaître la source, ni les justifications des réponses, mais plutôt obtenir une réponse en langage naturel favorisant ainsi une interaction entre eux. Notre objectif est de développer un système de génération de réponses en langue naturelle, qui prend en entrée une question et une réponse courte fournie par n importe quel SQR. 2. État de l art Ces dernières années, la génération de questions a fait l objet de nombreux travaux, notamment dans le cadre des campagnes Question Generation. Les méthodes les plus utilisées pour cette tâche sont la génération fondée sur les patrons (Wyse et al., 2009, Curto et al., 2011) et sur la reformulation de la réponse (Kalady et al., 2010). Un exemple de système de génération fondée sur les patrons est celui de (Wyse et al., 2009), qui prend en entrée des arbres syntaxiques et utilise r 1 pour déterminer la compatibilité des phrases avec des règles spécifiques. Ces règles sont associées à des patrons, remplis par les informations extraites de la phrase générant ainsi la question. Par exemple, le patron «What did X Y ->PAST as?» permet de générer des questions telles que «What did Emmanuel-Joseph Sieyès train as?», où X est un groupe nominal ety le verbe, à l infinitif. Contrairement à la méthode de (Wyse et al., 2009), celle de (Kalady et al., 2010) est fondée sur une reformulation de la phrase complète. Celle-ci subit tout d abord des opérations de pré-traitement, telles que l analyse syntaxique, l extraction des clauses indépendantes et la résolution des anaphores. Pour la génération des questions, plusieurs autres opérations sont effectuées sur la phrase : l identification de l interrogatif à utiliser, l inversion du sujet et du verbe, la suppression des appositions et des groupes prépositionnels.

Génération de réponses 451

452 Van-Minh Pho l utilisation de SYNGE-A à la langue française et d utiliser d autres ressources dans le cas où il serait utilisé pour une autre langue. 3.2. Générateur fondé sur les patrons L utilisation de patrons est la méthode la plus simple pour générer des énoncés. Les patrons sont composés de trois types d éléments : des éléments de la question, qui vont être instanciés en fonction de l analyse de la question, des expressions prédéfinies, et la réponse. Ainsi, pour la question «Dans quelle ville se trouve Le Louvre?», la question est analysée de la façon suivante : «Dans quelle <type attendu>ville</type attendu> <verbe principal>se trouve</verbe principal> <objet>le Louvre</objet>?». Une réponse possible est «Paris», et un patron générant un énoncé réponse est le suivant : «<type attendu> où <verbe principal> <objet> est <information-réponse>», ce qui génère l énoncé «La ville où se trouve le Louvre est Paris.» 3.3. Générateur fondé sur les règles grammaticales Le générateur de SYNGE-A fondé sur les règles grammaticales prend en entrée une analyse syntaxique du couple question-réponse, effectuée par le s r 2 P rs r (Candito et al., 2010). Afin de générer les énoncés répondant à la question, l arbre syntaxique de la question est modifié à l aide des outils r 1 et s r (Levy et al., 2006). r 1 permet d effectuer des recherches sur les arbres et s r effectue la transformation des arbres sélectionnés par r 1. Les règles de génération des énoncés sont un ensemble d opérations de manipulation d arbres (déplacement, insertion et suppression de nœuds). Prenons comme exemple le couple question-réponse («Combien pèse une bouteille d eau?», «2 kilos»). L analyse syntaxique de la question indique que «combien» est un adverbe interrogatif, «pèse» est un groupe verbal et «une bouteille d eau» est un groupe nominal. Une règle applicable est la suivante, qui contient trois opérations : la première est la suppression de l adverbe interrogatif, la seconde est le déplacement du groupe nominal à gauche du groupe verbal et la dernière est l insertion de l information-réponse à droite du groupe verbal. Cette règle permet la génération de l énoncé «Une bouteille d eau pèse 2 kilos.». 3.4. Ajustements linguistiques de surface La génération seule ne suffit pas à produire des énoncés linguistiquement corrects. Par exemple, l énoncé «La Joconde se trouve à le Louvre» est grammaticalement correct, mais ne l est pas morphologiquement : la préposition «à» suivie par le déterminant «le» est incorrecte en français, ces mots devant être contractés afin d obtenir le mot «au». C est pour cette raison qu une étape d ajustement linguistique est obligatoire, dans le but d obtenir des énoncés en langue naturelle. De plus, si SYNGE-A est

Génération de réponses 453 intégré à un système de dialogue écrit, des ajustements typographiques doivent être effectués : par exemple, en français, une phrase commence par une majuscule et finit par un point. 4. Réponses générées SYNGE-A a été testé à partir du corpus MACAQ, corpus multi-annoté de réponses à des questions, en langue française (Garcia-Fernandez et al., 2010). 63 patrons et 20 règles grammaticales du français ont été écrites. La raison pour laquelle moins de règles grammaticales sont écrites est la difficulté de varier les énoncés : en effet, les règles dépendent uniquement de la structure syntaxique des questions. Énoncés générés par le générateur fondé sur les patrons Il s agit d environ 3,2 kilos. Environ 3,2 kilos. Un bébé pèse environ 3,2 kilos à la naissance. Énoncés générés par le générateur fondé sur les règles grammaticales Un bébé pèse environ 3,2 kilos à la naissance. Un bébé pèse environ 3,2 kilos. Tableau 1. Exemple d énoncés générés à partir du couple question-réponse («Un bébé pèse combien à la naissance?», «environ 3,2 kilos»). Le tableau 1 montre différents énoncés produits par les générateurs fondés sur les patrons et les règles grammaticales. 13 énoncés ont été générés à partir du générateur fondé sur les patrons, tandis que 5 l ont été à partir du générateur fondé sur les règles grammaticales. Questions booléennes 30.5 Questions de quantité 11.5 Questions de lieu 10.5 Questions de temps 9 Tableau 2. Nombre moyen d énoncés générés en fonction de la catégorie de la question. En utilisant l ensemble du corpus MACAQ (707 questions), le tableau 2 indique le nombre moyen d énoncés générés par question en fonction de chaque catégorie. À partir de ce corpus, 2681 énoncés non triviaux (contenant d autres éléments que l information-réponse) ont été générés avec le générateur fondé sur les patrons. Nous avons évalué manuellement ces énoncés : 2365 (88 %) sont syntaxiquement et sémantiquement corrects.

454 Van-Minh Pho 5. Conclusion SYNGE-A est un système générant des énoncés en utilisant deux méthodes différentes : la génération fondée sur les patrons, et celle fondée sur les règles grammaticales. Conformément aux contraintes définies dans cet article, toutes les ressources de SYNGE-A ont été externalisées, ce qui lui assure une grande généricité. Ce système doit encore être testé avec d autres corpus de questions et pour d autres langues que le français. D autre part, les générateurs de SYNGE-A peuvent encore être améliorés. En particulier, pour le générateur fondé sur les règles grammaticales, il serait intéressant de procéder à une simplification de la question en éliminant certains compléments. 6. Bibliographie Candito M., Nivre J., Denis P., Henestroza Anguiano E., «Benchmarking of statistical dependency parsers for French», COLING, ACL, p. 108-116, 2010. Curto S., Mendes A. C., Coheur L., «Exploring linguistically-rich patterns for question generation», Proceedings of the UCNLG+Eval : Language Generation and Evaluation Workshop, ACL, p. 33-38, 2011. Garcia-Fernandez A., Rosset S., Vilnat A., «MACAQ : A Multi Annotated Corpus to study how we adapt Answers to various Questions», LREC, 2010. Kalady S., Elikkottil A., Das R., «Natural language question generation using syntax and keywords», Proceedings of QG2010 : The Third Workshop on Question Generation, p. 1-10, 2010. Levy R., Andrew G., «Tregex and Tsurgeon : tools for querying and manipulating tree data structures», LREC, p. 2231-2234, 2006. Mendes S., Moriceau V., «L analyse des questions : intérêts pour la génération des réponses», Workshop Question-Réponse, 2004. Wyse B., Piwek P., «Generating Questions from OpenLearn study units», Proceedings of the International Conference on Artificial Intelligence in Education Workshops (AIED), 2009.