J aimerais profiter de cette page pour remercier tous ceux qui, directement ou indirectement, ont contribué à ce que ce travail arrive jusque là.

Transcription

1 ÍÒ Ú Ö Ø ÌÓÙÐÓÙ ÁÁÁ ÓÖÑ Ø ÓÒ ÓØÓÖ Ð ÁÑ ÁÒ ÓÖÑ Ø ÓÒ ÀÝÔ ÖÑ ÓÐ ÓØÓÖ Ð ÁÒ ÓÖÑ Ø ÕÙ ØÌ Ð ÓÑÑÙÒ Ø ÓÒ Ý Ø Ñ ÕÙ Ø ÓÒ¹Ö ÔÓÒ ÙÖÐ Ï ÁÒØ Ö Ø ÓÒ ÓÒÒ Ò ÙÒ ÌÀ Ë ÔÖ ÒØ Ø ÓÙØ ÒÙ ÔÙ Ð ÕÙ Ñ ÒØÐ ½ ÚÖ Ö¾¼¼ ÓØÓÖ Ø Ð³ÍÒ Ú Ö Ø È ÙÐË Ø ÖßÌÓÙÐÓÙ ÁÁÁ ÔÓÙÖÐ³Ó Ø ÒØ ÓÒ Ù Ô Ð Ø ÁÒ ÓÖÑ Ø ÕÙ µ Î ÖÓÒ ÕÙ ÅÇÊÁ Í Ô Ö Ê ÔÔÓÖØ ÙÖ ÓÑÔÓ Ø ÓÒ Ù ÙÖÝ Ü Ñ Ò Ø ÙÖ Ê Ò Æ Ê ¹Ç Ê ÀÌÈÖÓ ÙÖ Ð³ÍÒ Ú Ö Ø È ÙÐË Ø Ö ÁÊÁÌ ÙÝÄ È ÄÅ È ÖÖ Ï Á Æ ÍÅ ÈÖÓ ÙÖ Ð³ÍÒ Ú Ö Ø ÅÓÒØÖ Ð Ê ÄÁ Ö Ø ÒÊ ÌÇÊ Ö Ø ÙÖ Ö Ö ÆÊË ÄÁÅËÁ ÁÒÚ Ø È ØÖ Ë Í Ä ËÝÒ Ô Ú ÐÓÔÔ Ñ ÒØ ÈÖÓ ÙÖ Ð³ÍÒ Ú Ö Ø ÓÖ ÙÜÁ Ä ÊÁ :È ØÖ Ë ÁÆÌ¹ Á Á Ê Ö Ø ÙÖ Ö Ö ÆÊË ÁÊÁÌ ÁÒ Ø ØÙØ Ê Ö ÒÁÒ ÓÖÑ Ø ÕÙ ÌÓÙÐÓÙ ÍÅÊ ¼ Directeur de thèse

2

3 Remerciements J aimerais profiter de cette page pour remercier tous ceux qui, directement ou indirectement, ont contribué à ce que ce travail arrive jusque là. Mes premiers remerciements s adressent bien sûr aux membres du jury. Merci donc à Guy Lapalme et Pierre Zweigenbaum, rapporteurs, pour avoir accepté d évaluer ce travail et pour leurs remarques qui m ont permis d améliorer ce manuscrit. Merci à Régine André-Obrecht d avoir accepté de présider ce jury, à Christian Retoré qui a guidé mes premiers pas dans la recherche à Nantes (merci de m avoir encouragé à poursuivre dans cette voie!), à Patrick Saint-Dizier et à Patrick Séguéla. Je voudrais remercier ici les personnes rencontrées aux cours de conférences et autres réunions de projet, qui par nos nombreuses discussions m ont permis d avancer. Je pense ici en particulier à Claire Gardent, Françoise Gayral, Yannick Mathieu, Bali Ranaivo-Malançon, Sudeshna Sarkar,... Je tiens également à remercier les membres de l IRIT qui, de près ou de loin, m ont écoutée, conseillée et aidée au cours des derniers mois : Luis Fariñas, Chantal Morand, Agathe et Jean-Pierre Baritaud... Un grand merci à l école doctorale : Louis Féraud et Martine Labruyère pour leur soutien et leur efficacité. Merci également à toute l équipe SAMOVA. Ces années de thèse, je les associe bien sûr aux amis rencontrés à l IRIT. Un énorme merci aux "filles" qui ont transité par l équipe et qui ont été si solidaires : Eli, Farah, Farida, Ilhème, Mouna et Olfa. Merci aussi à Rafika que je n oublie pas et à Sara pour être venue de si loin pour assister à ma soutenance. Je n ose même pas imaginer à quoi ces années auraient ressemblé si vous n aviez pas été là! Je garde en mémoire tous nos fous rires, les expéditions laborieuses et les alibis très... crédibles, les avions (presque) ratés et tant d autres moments. Merci encore pour votre soutien et tous vos encouragements : "dans quelques années, on en rira!". Merci aussi à ceux qui m ont accueillie dès mon arrivée à Toulouse et qui sont devenus au fil du temps de véritables amis sur lesquels je peux compter, qui m ont supportée (dans tous les sens du terme!), écoutée, soutenue dans les moments difficiles et qui ont toujours été là pour me faire passer des moments inoubliables. Un énorme merci donc à Jérôme (pour toutes tes qualités, pas seulement culinaires) et Julien (pour ton côté "bleu"!), Jean-Luc, José, Gaël et Mathieu : merci pour toutes ces sorties, soirées et repas passés ensemble. J espère que l avenir ne nous séparera pas trop... i

4 Un grand merci à Sandra qui a fait circuler mes questionnaires d évaluation à l université de Nantes. Je remercie par la même occasion tous ceux qui ont répondu à ces questionnaires. Merci à Loïc et Cédric (même si tu n as pas toujours été très attentif!) d avoir assisté à ma soutenance. Et puis même à l autre bout de la France, je n oublie pas les amis de plus de 20 ans. Merci à Safia et sa famille qui m accueillent toujours aussi chaleureusement lors de mes (trop rares) retours au pays. Merci pour tous ces moments qui me permettent de ne pas oublier d où je viens... Je remercie également tous les valenciennois et saint-saulviens qui m ont transmis leurs encouragements. Merci aussi à Julien qui, par le récit de ses péripéties, m a si souvent fait pleurer de rire devant mon écran!! Enfin, je tiens à remercier mes parents pour la confiance qu ils m ont faite pendant ces longues années d étude. Merci à mon frère, ma grand-mère et toute la famille pour leurs encouragements. Mes derniers remerciements s adressent bien sûr à toi, Xavier : tu a su m aider, écouter patiemment le long récit de mes journées, me remonter le moral et m encourager quotidiennement pendant ces années. Merci pour tout... En route maintenant pour de nouvelles aventures!! ii

5 Table des matières Table des figures Liste des tableaux ix xi Introduction 1 Partie I Présentation du problème et du système Chapitre 1 Des réponses d un moteur de recherche à une réponse synthétique Introduction État de l art sur la gestion des inconsistances Dans les moteurs de recherche Dans les systèmes question-réponse Dans les systèmes de résumé automatique En intelligence artificielle Synthèse Corpus d étude Constitution du corpus Méthodologie d analyse du corpus Typologie des réponses et mécanismes d intégration associés La relation d alternative La relation d agrégation iii

6 Table des matières La relation d inclusion La relation d équivalence La relation de complémentarité Conclusion Chapitre 2 Présentation du système et hypothèses de travail Introduction Architecture du système L analyseur de questions Le moteur de recherche Le moteur d extraction Le module d intégration Le générateur de langue naturelle Les connaissances requises La base de connaissances Les ontologies Le lexique Les connaissances sur les pages Web Quelques exemples d entrées-sorties Conclusion Partie II Intégration et génération de réponses de type date Introduction 57 Chapitre 3 Intégration de données de type date Extraction des réponses candidates Grammaire d extraction Exemples Détermination de contenu Motivations iv

7 3.2.2 Représentation des données Élaboration de la réponse Synthèse Chapitre 4 Génération des réponses de type date en langue naturelle Objectifs Conception des schémas de génération Degré de certitude des réponses Formalisation des schémas de génération Base de schémas Exemples de réponses générées Synthèse et discussion Chapitre 5 Évaluation pour les réponses de type date Évaluation de l extraction Évaluation de la détermination de contenu Critères d évaluation Méthode Résultats Évaluation des réponses en langue naturelle Protocole Résultats Conclusion 111 Partie III Intégration et génération de réponses de type numérique Introduction 115 v

8 Table des matières Chapitre 6 Présentation du problème État de l art En théorie En pratique Synthèse Une typologie des réponses numériques Processus général de traitement des réponses numériques Chapitre 7 Extraction des réponses candidates Grammaire d extraction Extraction des indices linguistiques Extraction des restrictions Impact de l absence de connaissances Propriétés du "mesureur" Propriétés du "mesuré" Problèmes lors de l extraction Chapitre 8 Génération des explications Détermination de contenu Identification des critères de variation Identification du mode de variation Explications en langue naturelle Objectifs Conception des schémas de génération Synthèse Chapitre 9 Génération de la réponse directe Détermination de contenu Attentes de l utilisateur : contraintes imposées par la question Réponses candidates satisfaisant les contraintes Choix des restrictions à générer dans la réponse directe Choix de la valeur numérique à générer dans la réponse directe Réponse directe en langue naturelle Justification de la réponse Synthèse vi

9 Chapitre 10 Évaluation pour les réponses de type numérique Quelques problèmes Évaluation de l extraction Évaluation de la détermination de contenu Évaluation des réponses directes Évaluation des explications Évaluation des réponses en langue naturelle Conclusion 193 Conclusion générale et perspectives 195 Bibliographie 203 Annexe A Corpus de questions 217 Annexe B Corpus d évaluation : questions temporelles 223 Annexe C Corpus d évaluation : questions numériques 227 Annexe D Implémentation du système 229 D.1 Implémentation D.1.1 Interaction avec QRISTAL D.1.2 Détails sur l implémentation D.2 Performances Résumé 234 vii

10 Table des matières viii

11 Table des figures 1 Nombre de pages de résultats consultées (année 2005) Exemple de Google : indépendance de l Algérie Série proportionnelle pour les couleurs Représentativité des relations par type de question Récapitulatif des mécanismes d intégration Architecture du système Le système QRISTAL Extrait de la DTD de l ontologie des vins Exemple d entrées-sorties : les dates Exemple d entrées-sorties : les réponses numériques Réponses de Google : date de l ouragan Hugo Schéma général du traitement des réponses de type date Sous-intervalles Les 11 réponses candidates et les sous-intervalles Relations temporelles d Allen pour l inclusion Événement unique ou itératif? Événement itératif Événement périodique Échelle de probabilité d un événement Intensité des adverbes lexicalisant le degré de certitude Évaluation : événements uniques ponctuels Distribution des rangs des réponses correctes de Google : événements uniques ponctuels Évaluation : événements uniques duratifs Distribution des rangs des réponses correctes de Google : événements uniques duratifs Évaluation : événements itératifs ponctuels ix

12 Table des figures 5.6 Distribution des rangs des réponses correctes de Google : événements itératifs ponctuels Évaluation : événements itératifs duratifs Distribution des rangs des réponses correctes de Google : événements itératifs duratifs Évaluation sur 72 questions : synthèse Réponses de QRISTAL à Combien y a-t-il d habitants en France? Réponses de Google à âge moyen du mariage en France Génération de graphiques et de légendes [Mittal et al, 1998] Génération de graphiques et de légendes par PostGraphe Typologie des valeurs numériques Exemples de paires question-réponses par critère de variation Schéma général du traitement des réponses numériques Extrait de l ontologie des lieux géographiques Exemple d extraction : Quel est l âge moyen du mariage en France? Extrait de l ontologie des vins Exemple de variation Mode de variation Mode de variation : Combien y a-t-il d habitants en France? Mode de variation : Quel est l âge moyen du mariage en France? Ontologie des vins : concepts généralisants Série proportionnelle pour les verbes décrivant une variation Exemple d extraction : Quel est l âge moyen du mariage en France? Pertinence des restrictions : Combien y a-t-il d habitants en France? Pertinence des restrictions : Quelle est la température de service des vins? Pertinence des restrictions : Combien y a-t-il d habitants en France? Les arrondis vus par les utilisateurs Valuation des arcs d un graphe Graphe des valeurs : hauteur du Mont-Blanc Extrait de page Web : hauteur du Mont-Blanc Traitement complet d un exemple : Quel est l âge moyen du mariage en France? Traitement complet d un exemple : Quel est l âge moyen du mariage en France? Évaluation des réponses directes numériques Distribution des rangs des réponses correctes de Google : réponses numériques Évaluation du point de vue utilisateur : choix des contraintes utilisateurs Évaluation du point de vue utilisateur : ordre des réponses x

13 10.5 Évaluation du point de vue utilisateur : qualité de la réponse Exemple de page sélectionnée par Google News : Combien y a-t-il d adhérents en PS?. 198 xi

14 Table des figures xii

15 Liste des tableaux 1.1 Types de réponses attendues définis par TREC Exemple : Quand a eu lieu la guerre de Sécession? Algorithme de détermination de contenu : réponses de type date Schémas de génération pour les réponses intégrées de type date : événements non périodiques Schémas de génération pour les réponses intégrées de type date : événements périodiques Origine des questions pour chaque type d événements évalués Nombre de questions pour chaque type d événements évalués Évaluation des réponses en langue de type date : tâche Évaluation des réponses en langue de type date : tâche Distribution des questions par type ontologique dans le corpus Schémas de génération pour les explications des réponses numériques (1/3) Schémas de génération pour les explications des réponses numériques (2/3) Schémas de génération pour les explications des réponses numériques (3/3) Schémas de génération pour les réponses directes de type numérique (1/2) Schémas de génération pour les réponses directes de type numérique (2/2) D.1 Temps d exécution pour le traitement des réponses de type date D.2 Temps d exécution pour le traitement des réponses numériques xiii

16 Liste des tableaux xiv

17 Introduction Aujourd hui, le Web met à la disposition du grand public un très grand nombre de données et les systèmes de recherche d informations développés ces dernières années sont des outils pratiques pour qui souhaite trouver une réponse à une requête sur tout type de domaine. L accès aux moteurs de recherche représente d ailleurs plus de 40% du trafic sur le Web (contre 32% pour l accès par liens externes et 27% pour l accès direct) 1. L interrogation de ces moteurs se fait sur la base de mots-clés et ils proposent à l utilisateur un ensemble de liens vers des pages Web et/ou des extraits de ces pages traitant du thème de la requête. Parmi ces moteurs, citons par exemple Google utilisé par plus de 80% des internautes. En revanche, là où les dictionnaires, encyclopédies et bases de données fournissent très souvent une réponse unique, synthétique et cohérente, une analyse rapide des réponses proposées par les moteurs montrent que celles-ci sont, dans le meilleur des cas, redondantes mais qu elles sont aussi très souvent non pertinentes (car elles ne répondent pas à la question que se pose l utilisateur), incohérentes, etc. C est donc à l utilisateur qu il revient de trier et de rechercher au sein de ces pages la réponse à sa question. Cette démarche, souvent laborieuse, nécessite un effort supplémentaire de la part de l utilisateur et entraîne une perte de temps considérable, sans pour autant avoir l assurance de trouver une réponse correcte. C est sans doute pour ces raisons que les internautes ont pour habitude de ne consulter que la première page (i.e. les 10 premiers liens) proposée par les moteurs (cf. figure 1). Il en résulte que c est à l utilisateur de s adapter aux systèmes, d ajuster ses requêtes en fonction du comportement des moteurs déduit à partir de ce qu il a pu observer lors de requêtes précédentes. Une synthèse de ces problèmes est présentée dans [Jenhani, 2006]. Les systèmes question-réponse proposent une alternative à ces problèmes. Ces derniers permettent de poser une question (sous forme de mots-clés ou en langue naturelle) qui est analysée, puis recherchent par l intermédiaire d un moteur de recherche un ensemble de pages Web traitant de la question posée et proposent à l utilisateur des extraits de pages répondant exactement à sa question. Par exemple, supposons qu un utilisateur recherche la date de mort de Beethoven. En utilisant un moteur de recherche sur le Web, l utilisateur doit utiliser des mots-clés pour poser sa question, par exemple mort 1 http :// 1

18 Introduction FIG. 1 Nombre de pages de résultats consultées (année 2005) Beethoven ou simplement Beethoven. Ici, comme il n y a pas d analyse de la question, le moteur de recherche ne sait pas qu il doit renvoyer une date mais il y a de très fortes chances pour qu il propose en réponse des pages de biographie qui contiendront la date de mort de Beethoven (notons que si l utilisateur demande date mort Beethoven, le moteur va rechercher dans les pages le mot-clé date et non pas une information temporelle). En revanche, si un utilisateur recherche la date d un événement autre que biographique, il est fort probable que le moteur ne renvoie pas de réponse acceptable, par exemple des pages traitant de l événement en question mais ne mentionnant pas la date recherchée (à la requête date voyage Chirac Russie, Google propose comme réponses Décembre Voyage officiel de Jacques Chirac en Iran ou Votre voyage en Russie avec Russomania.com!). Une solution proposée par les systèmes question-réponse est de permettre à l utilisateur de poser sa question en langue naturelle (par exemple, quand est mort Beethoven?) : après analyse de la question, le système sait qu il doit rechercher une réponse de type date. Ces systèmes nécessitent l interaction de plusieurs domaines comme le traitement automatique de la langue (par exemple, pour l analyse de la question, la génération de la réponse, etc.) ou la recherche d informations (pour l extraction des informations ou passages pertinents dans les pages Web). Aujourd hui, les systèmes question-réponse sont évalués lors de grandes campagnes internationales telles que TREC QA (Text REtrieval Conference, Question Answering track) mais ne traitent pour la plupart d entre eux que les questions atomiques (ou factuelles : questions en qui, quand,...) ou de type définition et évitent pour la plupart les problèmes causés par une analyse profonde des textes nécessaire pour répondre à des questions narratives (questions en comment, pourquoi,...). Pourtant, certains problèmes demeurent : absence de réponse, trop de réponses, besoin d explications... Pour tenter de les résoudre, des feuilles de route ou roadmaps (par exemple [Burger et al., 2000]) 2

19 proposent d intégrer du raisonnement et un traitement approfondi de la langue afin d améliorer la qualité et la pertinence des réponses. Motivations et objectifs Notre projet se situe dans le cadre des systèmes question-réponse et vise à répondre à des questions atomiques en domaine ouvert. Plusieurs constatations ont motivé notre travail : le temps perdu par les utilisateurs sur le Web pour trouver une réponse quand les réponses proposées par les moteurs de recherche sont multiples, incohérentes, etc. Par exemple, à la question quand a lieu la fête de la musique?, plutôt que de donner les dates de toutes les éditions de la fête, il est plus raisonnable de proposer une réponse synthétique, plus coopérative, telle que la fête de la musique a lieu tous les 21 juin : cette réponse répond non seulement à la question mais synthétise aussi toutes les informations trouvées tout en y apportant une explication sur l événement (ici, la réponse explique que c est un événement périodique), les systèmes question-réponse actuels ne s intéressent qu à la syntaxe et la sémantique de la langue pour l analyse des questions et l extraction des réponses et se contentent pour la plupart d extraire des fragments de pages Web répondant à la question sans générer réellement de réponses en langue naturelle, encore moins d explications ou de justifications. De plus, ces systèmes ne vont pas au delà de la fusion de réponses sémantiquement équivalentes [Dalmas et al, 2005], les travaux en fusion d informations [Dubois et al, 1992] ont leurs limites dans le cadre de ce problème. En effet, seules des probabilités concernant les sources d informations sont fusionnées, et non les informations elles-mêmes, dans le cadre des bases de données, et plus particulièrement celui des entrepôts de données, des méthodes d intégration permettent de combiner des informations provenant de sources et/ou de structures hétérogènes. L intégration consiste à mettre à disposition de l utilisateur une vue unifiée des informations [Hacid et al., 2004], par exemple en transformant, au niveau structurel, l ensemble des données répondant à la requête : il n y a donc pas forcément de gestion des incohérences sémantiques des données. L intérêt de se placer dans le cadre des systèmes question-réponse, en particulier sur le Web, par rapport à celui des bases de données, est multiple : pouvoir étudier des méthodes qui permettent de combiner, autrement que sur des critères structurels, des informations hétérogènes venant de sources différentes et souvent contradictoires, prendre en compte des paramètres issus d une question en langue naturelle, plus flexible ou imprécise qu une requête à une base de données, générer une réponse en langue naturelle. 3

20 Introduction Nos objectifs se situent donc à plusieurs niveaux. Il s agit de modéliser, concevoir et évaluer un système capable, à partir d une question en langue naturelle, d extraire les informations pertinentes sur le Web et de générer en langue naturelle une réponse synthétique, même quand le moteur de recherche sélectionne plusieurs réponses potentielles, tout en y ajoutant des explications appropriées et compréhensibles par l utilisateur : c est à ce niveau que se situe la coopérativité de notre système, définie au sens de [Grice, 1975]. En effet, il faut produire une réponse qui soit pertinente, qui n induise pas l utilisateur en erreur et qui soit ni trop ni trop peu informative, tout cela afin de faciliter le travail de recherche de l utilisateur. Ainsi, un des problèmes majeurs est l étude de la pertinence et de la cohérence des réponses. Ceci nécessite d intégrer entre autres des paradigmes comme la pragmatique, des techniques d analyse de données, la génération de langue naturelle et les méthodes d évaluation. Nos principaux objectifs sont donc : d analyser comment un moteur de recherche standard répond à une requête (quelles sont les différentes configurations ainsi obtenues?) et de dégager un modèle qui permette de répondre à des questions atomiques en domaine ouvert de façon synthétique même quand plusieurs réponses potentielles ont été extraites, de définir comment un tel modèle peut être implémenté en s intéressant en particulier aux besoins en termes de connaissances qui sont nécessaires au système pour entre autres, extraire les réponses, raisonner et générer des explications. Quels types de connaissances sont nécessaires? Connaissances de sens commun et/ou spécifiques au domaine considéré? Comment ces connaissances sont-elles représentées, sous quel formalisme?, d étudier les différentes techniques de génération de langue naturelle : quelles sont celles qui permettent de refléter au mieux le mode coopératif des réponses et des explications : techniques de génération pure, à base de shémas de génération?, Quelles sont les ressources nécessaires?, de proposer des méthodes d évaluation adéquates du système en général et des réponses produites en particulier. Peut-on utiliser les techniques classiques à la TREC pour évaluer un tel système? Méthode de travail Contrairement aux systèmes classiques, nous adoptons une méthode dite en profondeur d abord afin d étudier dans un premier temps la faisabilité de notre approche ainsi que les besoins en ressources (linguistiques, connaissances,...). Cette analyse étant très vaste si l on travaille en domaine ouvert, nous avons choisi de nous focaliser sur certains types de questions : les questions temporelles attendant des réponses de type date et les questions numériques. 4

21 Notre démarche a été tout d abord empirique. Nous avons en effet commencé par construire un corpus de paires question-réponses issues du Web qui nous a permis, dans un premier temps, d identifier les relations pouvant exister entre plusieurs réponses potentielles obtenues pour une même question, puis de dégager un modèle d élaboration de réponses synthétiques. Le travail a ensuite consisté à définir des méthodes d intégration pour chaque type de données conduisant à l élaboration d une réponse synthétique. Puis nous avons identifié, pour chaque type de réponse et mode de coopérativité associé trouvé grâce au corpus, les besoins linguistiques nécessaires à la génération en langue des réponses, comptetenu de nos objectifs. Enfin, nous nous sommes intéressés à l évaluation du système et des réponses ainsi produites sur deux plans : la réponse produite est-elle correcte? la réponse produite est-elle compréhensible, satisfaisante pour les utilisateurs? Nous proposons aussi quelques pistes d amélioration au niveau des ressources et des connaissances, des mécanismes utilisés ainsi que des explications (forme et contenu). Organisation du mémoire Notre projet se place dans le cadre des systèmes question-réponse en domaine ouvert et le but est de générer en langue naturelle une réponse synthétique et coopérative (par l intermédiaire d explications), là où un système classique propose plusieurs réponses potentielles très souvent incohérentes. Le plan de ce mémoire reflète les différentes étapes de notre travail. La première partie présente le problème et les principaux objectifs. Le premier chapitre présente notre étude empirique, la constitution du corpus d étude ainsi que son analyse et décrit comment un humain peut élaborer une réponse en langue naturelle à partir de plusieurs réponses potentielles à une même question. Le deuxième chapitre présente notre système, son architecture ainsi que les différentes hypothèses de travail. Les différentes connaissances et ressources linguistiques utilisées sont également présentées. La deuxième partie est consacrée à l étude des questions attendant des réponses de type date. Cette partie présente une expérimentation qui a permis notamment de mettre en lumière les différents problèmes tant au niveau de la pertinence des réponses que des connaissances et ressources linguistiques requises. En particulier, le chapitre 3 présente le mécanisme d intégration de données pour les dates. Le chapitre 4 est consacrée à la génération en langue naturelle de la réponse ainsi élaborée. Enfin, le chapitre 5 présente des éléments d évaluation. 5

22 Introduction La troisième partie s intéresse aux questions attendant des réponses numériques et propose une approche qui s appuie davantage sur la pragmatique du discours coopératif et qui permet de générer des explications inférées directement du contenu des pages Web afin de minimiser le nombre de connaissances a priori. Nous présentons les principaux enjeux dans le chapitre 6. Le chapitre 7 est consacré à l extraction des informations dans les pages Web candidates. Les chapitres 8 et 9 présentent respectivement les mécanismes mis en œuvre pour la génération des explications et des réponses numériques. Enfin, l évaluation est présentée au chapitre 10. En conclusion, nous rappelons les différentes contributions de notre travail et proposons plusieurs pistes de réflexion futures. 6

23 Première partie Présentation du problème et du système Table des matières Chapitre 1 Des réponses d un moteur de recherche à une réponse synthétique Introduction État de l art sur la gestion des inconsistances Corpus d étude Typologie des réponses et mécanismes d intégration associés Conclusion Chapitre 2 Présentation du système et hypothèses de travail Introduction Architecture du système Les connaissances requises Quelques exemples d entrées-sorties Conclusion

24 TABLE DES MATIÈRES 8

25 Chapitre 1 Des réponses d un moteur de recherche à une réponse synthétique 1.1 Introduction Les moteurs de recherche sur le Web et les systèmes question-réponse actuels proposent à l utilisateur un ensemble de liens vers des pages Web et/ou des extraits de ces pages contenant la ou les informations répondant à une requête. Ces réponses sont extraites des pages par un moteur d extraction qui recherche les informations pertinentes. Dans le cas des systèmes question-réponse, ces réponses sont recherchées en fonction des paramètres obtenus lors de l analyse de la question (focus, type de réponse attendue, etc.). Le problème qui se pose alors est le problème de la pertinence et de la cohérence des réponses proposées à l utilisateur. En effet, quand un utilisateur pose une question à un moteur de recherche ou à un système question-réponse classique, il peut obtenir un ensemble de réponses, considérées comme réponses potentielles par le moteur d extraction (par exemple, parce qu elles ont le type sémantique attendu, etc.), mais ces réponses peuvent être incohérentes jusqu à un certain degré : par incohérentes, nous désignons des réponses qui sont a priori contradictoires mais qui peuvent être en fait redondantes, incomplètes, complémentaires, etc. Dans ce cas, l utilisateur peut ne pas être satisfait des réponses qui lui sont proposées car il ne sait pas laquelle est correcte. Considérons l exemple de la figure 1.1 où la requête indépendance de l Algérie est soumise à Google. On obtient une liste de réponses potentielles contenant quatre dates différentes. Dans ce cas, l utilisateur ne sait pas quelle est la réponse correcte. 9

26 Chapitre 1. Des réponses d un moteur de recherche à une réponse synthétique FIG. 1.1 Exemple de Google : indépendance de l Algérie Intéressons-nous à un second exemple : Question Où est Brest? Réponses en France en Bretagne dans le Finistère Dans ce cas, toutes les réponses sont correctes mais elles sont plus ou moins précises : France est plus générique que Bretagne qui est aussi plus générique que Finistère. Ici, les réponses seront plus ou moins pertinentes selon les connaissances de l utilisateur. 10

27 1.2. État de l art sur la gestion des inconsistances Dans un objectif de coopérativité, nous nous plaçons dans le cadre de systèmes question-réponse qui proposent non pas un ensemble de réponses possibles à une question mais une seule réponse qui n est plus un extrait de pages mais générée en langue naturelle. En particulier, la génération en langue naturelle des réponses que nous proposons se fait à l issue d un certain nombre de mécanismes de raisonnement permettant de fournir à l utilisateur des réponses coopératives en accord avec les principes définis par Grice [Grice, 1975]. Ces principes ou maximes de coopération décrivent le comportement coopératif des humains au cours de dialogues : maxime de qualité : une conversation doit être constructive (ne jamais dire ce qu on pense être faux ou évident), maxime de quantité : une conversation doit être ni trop ni trop peu informative, maxime de style : éviter les expressions peu claires ou ambiguës, maxime de relation : une réponse doit être pertinente par rapport aux attentes du questionneur. Ainsi, dans un système informatique, les réponses coopératives doivent fournir à l utilisateur des explications et/ou des justifications sur les mécanismes mis en œuvre pour l obtention des réponses mais elles doivent être aussi les plus adéquates possibles, tant sur la forme que sur le contenu, en fonction des attentes ou des connaissances des utilisateurs. Le problème que nous devons donc résoudre est de générer une réponse synthétique à une requête même lorsque plusieurs réponses possibles sont trouvées par le moteur d extraction. Pour cela, l idée que nous proposons est d intégrer les différentes réponses possibles afin de générer une seule réponse cohérente mais qui prenne en compte les informations provenant des différentes réponses possibles. L intégration se définit comme l action qui permet "d assembler des éléments divers afin d en constituer un tout organique" (définition du Trésor de la Langue Française). Le but est donc de définir les différents mécanismes pouvant permettre d intégrer plusieurs réponses possibles à une requête afin de ne proposer qu une seule réponse qui soit coopérative. Dans ce chapitre, nous commençons par présenter un bref état de l art où nous montrons comment les différents systèmes actuels traitent le problème. Dans une seconde partie, nous décrivons le corpus que nous avons constitué afin d étudier en détail les relations existant entre différentes réponses possibles à une même question puis nous établissons une typologie de ces relations et des mécanismes à mettre en œuvre pour l intégration. 1.2 État de l art sur la gestion des inconsistances Les systèmes question-réponse actuels se contentent pour la plupart de proposer les réponses à l utilisateur sous forme d un ensemble de liens vers des pages Web ou des extraits de ces pages contenant la ou les réponses aux questions (la génération de langue naturelle dans ces systèmes n a donc été que très 11

28 Chapitre 1. Des réponses d un moteur de recherche à une réponse synthétique peu étudiée). Le problème de la consistance des réponses trouvées par le moteur d extraction ne se pose alors qu en termes de réponses correctes ou incorrectes : le travail consiste à filtrer les réponses jugées non pertinentes. D autres systèmes, tels que les systèmes de résumé automatique, s intéressent aussi aux relations existant entre plusieurs textes ou extraits de pages Web. Dans les sections suivantes, nous présentons les relations (sémantiques ou autres) pouvant exister entre plusieurs textes, comment elles sont établies et traitées dans des domaines comme la recherche d informations, les systèmes question-réponse, de résumé automatique ou les bases de données (dans le cadre de l intelligence artificielle) Dans les moteurs de recherche La plupart des systèmes actuels sur le Web produisent un ensemble de réponses à une requête sous la forme d hyperliens ou d extraits de pages Web contenant les réponses potentielles. Dans ce cas, le problème de la consistance des informations fournies par les systèmes ne se pose pas. En effet, les systèmes actuels sélectionnent des pages et/ou des extraits de pages Web (1) en recherchant les pages qui contiennent les mots-clés de la requête et (2) en classant les pages candidates selon certains critères. Les moteurs de recherche classiques par exemple classent les pages résultats selon des critères de contenu ou de popularité. Ainsi, des moteurs comme Voilà, Lycos ou AltaVista classent simplement les pages selon le nombre d occurrences des termes de la requête dans les pages, de leur proximité, de leur place dans le texte : c est le tri par contenu [Salton, 1989], [Yuwono et al., 1995]. Cette méthode a pourtant ses inconvénients : en effet, certains auteurs n hésitent pas à introduire volontairement des mots souvent utilisés dans les requêtes pour que leurs pages figurent dans les tout premiers liens (spamming). Le moteur Google s appuie lui sur la méthode de tri PageRank [Page et al., 1998] qui classe les pages selon une estimation de leur popularité (probabilité de présence sur la page d un internaute qui se déplace aléatoirement sur le Web) Dans les systèmes question-réponse Les techniques sont différentes pour les systèmes question-réponse. Par exemple, le système COGEX [Moldovan et al., 2003] utilise un moteur d inférence (un démonstrateur logique) pour extraire des relations lexicales entre la question et ses réponses candidates. Les sorties de COGEX sont les réponses classées selon leur score lors de la démonstration. Quant au système Inference Web [McGuinness et al., 2004], il a pour but de donner des informations aux utilisateurs sur les origines des réponses et comment elles ont été trouvées. La notion de provenance des connaissances est utilisée pour augmenter la confiance qu un utilisateur peut avoir en une réponse. 12

29 1.2. État de l art sur la gestion des inconsistances Enfin, d autres systèmes classent les réponses candidates selon des critères syntaxiques, sémantiques, etc. Ainsi, le système présenté dans [Harabagiu et al., 1999] répond à des questions de type liste et définit un seuil en dessous duquel les réponses extraites sont éliminées. L idée est d utiliser des calculs de similarité entre les concepts des réponses candidates afin d établir une valeur seuil pour ne sélectionner que certaines réponses d une liste de réponses. Le générateur de réponses du système JAVELIN [Nyberg et al., 2003] produit quant à lui une liste classée de réponses à partir d un ensemble de réponses candidates. Il effectue aussi plusieurs opérations telles que combiner les réponses candidates équivalentes ou filtrer les réponses incorrectes après vérification du type de la réponse. Pour déterminer les relations existant entre les réponses candidates et la réponse cible, le générateur utilise WordNet afin d obtenir des informations sur les relations d hyperonymie ou de méronymie. Le Web est aussi utilisé pour vérifier les relations trouvées : le générateur crée des patrons de validation à partir du type de réponse attendue et des réponses candidates puis envoie une requête sur le Web et génère un score à partir du nombre de documents retrouvés. Enfin, le système présenté dans [Narayanan et al., 2004] procède à une analyse des questions et des documents (analyse syntaxique, reconnaissance des entités nommées, identification des structures prédicatives et du type de la question). Les réponses candidates sont ensuite classées selon leur adéquation à la structure sémantique recherchée (classes des entités nommées, ontologie des types de réponses). Des critères tels que l auteur, le type ou la fiabilité des documents sont aussi pris en compte. Le système de [Radev et al., 2000] quant à lui, annote les documents par les catégories sémantiques des concepts pour retrouver les réponses candidates plus facilement puis un score est affecté à chaque passage candidat en fonction du type d annotation rencontrée, du nombre de mots de la question apparaissant dans la réponse, de la distance entre les mots... Récemment, les systèmes question-réponse avancés, utilisant du raisonnement, se sont intéressés aux relations entre différentes réponses candidates afin de ne proposer qu une réponse unique et cohérente. Ainsi, dans [Webber et al, 2002], les relations entre plusieurs réponses potentielles sont étudiées en détails afin de proposer une réponse correcte. Une réponse correcte à une question factoïde peut être trouvée dans une phrase ou dans un ensemble de réponses. De plus, celle-ci peut être explicite dans un texte ou peut requérir des inférences ou d autres méthodes de fusion d informations. Pour cela, quatre relations entre réponses sont définies : l équivalence : les réponses équivalentes (qui s impliquent mutuellement) peuvent être remplacées par un membre de l équivalence, l inclusion : une réponse en implique une autre et les réponses peuvent être remplacées par la plus spécifique, l agrégation : les réponses sont mutuellement consistantes mais ne s impliquent pas et peuvent être remplacées par leur conjonction, 13

30 Chapitre 1. Des réponses d un moteur de recherche à une réponse synthétique l alternative : les réponses sont inconsistantes entre elles. Dans le cas de question ayant une réponse unique, seulement une de ces réponses est correcte. Dans le cas contraire, toutes les alternatives peuvent être des réponses correctes. Enfin, le système présenté dans [Harabagiu et al., 2004] est un système question-réponse qui fusionne une collection de réponses pour générer une seule réponse à l aide de patrons. Dans un premier temps, les réponses extraites sont converties en une série de patrons utilisant une structure prédicatargument. Ensuite, un modèle probabiliste détecte les relations entre les patrons, par exemple via une approximation sémantique (utilisant WordNet). L algorithme calcule une distribution de probabilités des relations possibles entre patrons et ne conserve que les relations dont la probabilité dépasse un certain seuil. Un ensemble de 7 opérateurs de fusion des patrons est appliqué aux relations détectées afin de générer l ensemble final de patrons : contradiction (deux patrons contiennent des informations contradictoires), addition (un patron apporte plus d informations qu un autre sur un même fait), raffinement (un patron apporte des informations plus précises qu un autre sur un même fait - par exemple, un patron donne le pays et l autre donne la ville), accord (les patrons sont redondants), généralisation (plusieurs patrons sont complémentaires et contiennent des informations incomplètes qu il faut combiner), tendance (les patrons ont les mêmes caractéristiques à des moments différents), non-information (les patrons ne contiennent pas d information utile ou confirmée). Dans le cadre des systèmes question-réponse, ces relations entre les réponses potentielles peuvent servir à filtrer les réponses redondantes ou équivalentes afin de réduire le nombre de réponses potentielles Dans les systèmes de résumé automatique Utilisant le même principe, les systèmes de résumé automatique s intéressent aussi aux relations entre différents textes ou phrases. Ainsi, le système présenté dans [Barzilay et al., 1999] utilise une méthode permettant de générer automatiquement un résumé concis en identifiant et en synthétisant les éléments similaires d un ensemble de documents. Le système compare les phrases extraites similaires et choisit les groupes de mots à inclure dans le résumé. La détermination du contenu se fait par l intersection des groupes de mots en comparant leurs structures prédicat-argument. Par ce procédé, le système sélectionne les groupes de mots qui contiennent des informations communes au thème du résumé. Le système SUMMONS [Radev et al., 1998] récupère le plus d informations possibles de sources multiples, les combine et les présente de manière concise à l utilisateur. Plusieurs relations sont définies entre les différents éléments à inclure dans le résumé : 14

31 1.2. État de l art sur la gestion des inconsistances le changement de perspective pour une source identique, la contradiction : quand deux sources rapportent des informations contradictoires à propos d un même événement, l addition : de nouvelles informations sont ajoutées par de nouvelles sources, la précision : une nouvelle source peut apporter des précisions sur une information, l accord : quand deux sources rapportent les mêmes informations, la généralisation : pour agréger plusieurs événements rapportés par plusieurs sources, la tendance : quand plusieurs sources rapportent des événements similaires au cours du temps. Radev a ensuite défini la Cross-document Structure Theory (CST) pour l analyse de plusieurs documents [Radev, 2000]. Il établit une taxonomie des relations inter-documents servant au résumé multidocuments pour la longueur du résumé, la provenance des informations, l accord entre les sources ou l ordre chronologique des faits. La taxonomie comporte 24 relations entre des mots, des expressions, des phrases, des paragraphes ou des documents entiers. Elle reprend les relations définies dans [Radev et al., 1998] auxquelles sont ajoutées, entre autres, les relations de jugement, de description, de comparaison, etc En intelligence artificielle En intelligence artificielle, le problème de l inconsistance est aussi souvent traité pour l interrogation et la maintenance de bases de données ou de connaissances. La fusion d informations est alors utilisée dans le cadre de la logique pour construire une base de données cohérente à partir de plusieurs bases. De nombreuses définitions de la fusion d informations existent. Par exemple, [Wald, 2003] définit la fusion d informations comme un cadre formel dans lequel s expriment les moyens et techniques permettant l alliance des données provenant de sources diverses. Elle vise à l obtention d information de plus grande qualité. Selon le groupe de travail européen FUSION (de 1996 à 1999), la fusion d informations consiste à regrouper des informations issues de plusieurs sources et à exploiter l information regroupée. Enfin, selon [Bloch, 2003], la fusion d informations consiste à combiner des informations issues de plusieurs sources afin d améliorer la prise de décision. La fusion d informations est en particulier utilisée pour traiter les informations imparfaites. En présence d informations imparfaites, plusieurs possibilités sont offertes : soit supprimer ces informations, soit les tolérer (les algorithmes utilisés doivent être robustes), soit les modéliser. C est cette dernière approche qui est retenue pour la fusion. 15

32 Chapitre 1. Des réponses d un moteur de recherche à une réponse synthétique Il existe plusieurs types d imperfections des informations : l incertitude : une information incertaine décrit une connaissance partielle de la réalité. Pour mesurer l incertitude, il faut donc connaître la réalité. l imprécision : elle mesure un défaut quantitatif de connaissances (alors que l incertitude mesure un défaut qualitatif). l incomplétude : elle mesure le manque d informations données par la source. la redondance. la complémentarité : des informations sont complémentaires si elles sont de nature différente et permettent de préciser la réponse du système. le conflit : des informations sont en conflit si elles sont contradictoires. Dans le cadre de la théorie des croyances, l inconsistance mesure le conflit entre des informations venant de plusieurs sources. l ambiguïté : elle entraîne plusieurs interprétations à partir d une seule information. La qualité des sources, que l on peut juger par exemple grâce à des critères d indépendance et de fiabilité, est aussi à prendre en considération. [Cholvy et al, 1997] présente un aperçu des différentes approches logiques pour raisonner en présence d inconsistances : la révision de croyances, la mise à jour de données, les contraintes d intégrité, etc. Par exemple, [Lin et al, 1999] utilise le principe de majorité pour fusionner plusieurs bases de connaissances : pour résoudre un conflit, on laisse la majorité décider. [Delgrande et al, 2004] présente deux approches pour la fusion de bases de connaissances : les sources sont combinées de telle sorte que le résultat est le sous-ensemble maximal de formules contenant les données communes à toutes les bases de connaissances [Ullman et al., 1986], les bases sont "projetées" sur une autre : pour cela, les sources à fusionner sont utilisées pour augmenter les connaissances d une autre source. De nombreuses approches logiques en fusion d informations prennent aussi en compte la fiabilité des sources, la fiabilité d une même source pouvant même varier selon le thème abordé [Cholvy, 1994]. Dans cette optique, [Motro et al, 2004] définit des inconsistances intensionnelles (ou inconsistances sémantiques, quand les données de la base sont, par exemple, dans des langues ou des unités différentes) et des inconsistances extensionnelles (ou inconsistances de données, quand des données décrivant un même objet sont différentes). Beaucoup de systèmes, comme HERMES [Subrahmanian et al., 1994], SIMS [Arens et al., 1996] ou TSIMMIS [Garcia-Molina et al., 1997] sont capables de détecter et de résoudre les inconsistances intensionnelles. Au contraire, peu de systèmes se sont intéressés à la détection et à la résolution d inconsistances extensionnelles. Des approches probabilistes se contentent de les détecter et de donner à l utilisateur un ensemble de réponses associées à une probabilité [Tseng et al., 1992], [Lim et al., 1994]. En d autres termes, ces approches fusionnent des probabilités et non des données et peuvent être vues 16

33 1.2. État de l art sur la gestion des inconsistances comme des méthodes de gestion de l incertitude plutôt que de gestion de l inconsistance. En revanche, le système Fusionplex [Motro et al, 2004] permet de détecter et de résoudre les deux types d inconsistances ci-dessus. Pour cela, le système suppose que toutes les données ne peuvent pas être considérées de la même façon. Cinq traits sont donc définis pour caractériser précisément les données : la date : la date à laquelle l information de la source a été validée, le coût : le temps nécessaire pour transmettre l information, le prix de l information, etc., l exactitude : la probabilité indiquant l exactitude de l information, la disponibilité : la probabilité de disposer de l information à un certain moment, la confidentialité : le niveau de confidentialité de l information. L utilisateur peut ensuite choisir le critère auquel il veut accorder le plus d importance ainsi que la méthode de fusion (moyenne, sélection aléatoire,...). Enfin, [Hunter et al, 2004] présente un système de fusion de rapports météo. Quand plusieurs rapports présentent des informations contradictoires, le système utilise plusieurs méthodes pour les fusionner : la disjonction, la conjonction, la généralisation, la préférence vis-à-vis des sources, le vote pondéré ou encore le calcul du centre de gravité (calcul de la distance sémantique entre plusieurs concepts). Une autre approche, appelée entity resolution [Newcombe et al., 1959], consiste à identifier et à fusionner les enregistrements d une base de données considérés comme représentant la même entité. La première étape consiste d abord à comparer les données : cette tâche repose essentiellement sur des techniques de comparaison de chaînes de caractères [Chaudhuri et al., 2003]. Les résultats de ces comparaisons permettent ensuite d identifier les enregistrements à regrouper en utilisant des techniques de "clustering" [Chaudhuri et al., 2005] ou de classification (réseaux bayésiens, SVM, etc.) Synthèse Les différents systèmes que nous avons présentés ci-dessus se sont intéressés aux relations pouvant exister entre un ensemble de réponses à une même question, entre un ensemble de textes ou de données. Ainsi, si l on se place dans le cadre d un système question-réponse, établir des relations entre un ensemble de réponses sert essentiellement à filtrer les réponses pertinentes parmi un ensemble de réponses candidates. Par exemple, quand plusieurs réponses sont considérées comme redondantes (ou équivalentes), le système ne va en proposer qu une seule. Les relations utilisées par ces systèmes, bien que portant des noms différents, sont sensiblement les mêmes. En effet, de nombreux systèmes utilisent WordNet pour établir des relations sémantiques entre les réponses : 17

34 Chapitre 1. Des réponses d un moteur de recherche à une réponse synthétique relations d équivalence pour [Webber et al, 2002] et [Harabagiu et al., 2004] ou d accord pour [Radev et al., 1998], relations d inclusion pour [Webber et al, 2002] et [Nyberg et al., 2003] ou de généralisation pour [Radev et al., 1998], relations d agrégation pour [Webber et al, 2002] ou d addition pour [Radev et al., 1998], et relations d alternative pour [Webber et al, 2002] ou de contradiction pour [Radev et al., 1998]. Ainsi les systèmes question-réponse actuels proposent-ils à l utilisateur soit un ensemble de réponses candidates (classées ou non), soit la "meilleure" réponse selon certains critères de pertinence. Ils ne traitent pas le problème de la production d une réponse qui prendrait en compte les informations fournies par toutes les réponses candidates ni le problème des réponses candidates inconsistantes. Quant aux approches logiques utilisées pour l interrogation de bases de données, elles s appuient pour la plupart soit sur des approches statistiques soit sur la fiabilité des sources. Contrairement à l hypothèse faite dans [Motro et al, 2004] dans le cadre des bases de données, nous avons constaté que les informations concernant la provenance des réponses sur le Web (par exemple, la source, la date, l auteur, etc.) sont plutôt difficiles, voire impossibles à obtenir, du moins en l état actuel des choses (à moins de faire des hypothèses peu satisfaisantes telles que une page officielle est plus fiable qu une page personnelle). Nous supposons donc pour la suite que toutes les pages Web sont plausibles. Le problème qu un système question-réponse sur le Web doit donc résoudre est de générer une réponse à une question même si plusieurs réponses possibles sont sélectionnées par le moteur d extraction. Dans ce but, nous proposons d intégrer, selon certains critères que nous détaillons ensuite, les différentes réponses possibles afin de générer une seule réponse cohérente qui prenne en compte la diversité des réponses potentielles en s appuyant sur le principe suivant : la réponse proposée doit être la réponse la plus cohérente avec l ensemble des réponses candidates et apporter des explications. Pour cela, nous établissons un ensemble de relations entre les réponses candidates, en nous inspirant des quatre principales relations définies ci-dessus (équivalence / accord, inclusion / généralisation, agrégation / addition, alternative / contradiction) mais aussi en définissant de nouvelles relations apparues au cours de notre étude de corpus. Ces relations nous permettent d établir un ensemble de mécanismes d intégration des réponses candidates afin de générer des réponses coopératives qui prennent bien en compte toutes les caractéristiques et particularités des réponses candidates. 1.3 Corpus d étude Afin d identifier les mécanismes d intégration à mettre en œuvre pour la génération de réponses, il est important d étudier les relations qui peuvent exister entre les différentes réponses à une même question. Pour cela, nous avons constitué un corpus de 180 paires question-réponses en français qui reflètent les 18

35 1.3. Corpus d étude différents problèmes (les paires question-réponse sont obtenues via Google - le moteur de recherche le plus utilisé par les internautes - ou le système question-réponse QRISTAL qui s est classé premier lors de la campagne française d évaluation EQuER [QRISTAL]). Dans les sections suivantes, nous détaillons la méthodologie de constitution et d analyse du corpus. Nous faisons l hypothèse que toutes les réponses candidates obtenues via le moteur d extraction sont du même type sémantique que celui attendu par la question Constitution du corpus Afin d identifier les différentes relations existant entre plusieurs réponses possibles à une même question que l on obtient en situation réelle, nous avons constitué un corpus de paires question-réponses. Pour cela, des requêtes ont été posées à Google et QRISTAL et nous avons recueilli l ensemble des réponses proposées. Le but étant de constituer un corpus le plus représentatif possible afin de permettre une étude qualitative des différents phénomènes, nous avons établi un ensemble de 180 questions couvrant le plus grand nombre de types de réponses attendues. Ainsi, nous nous sommes appuyés sur la typologie de réponses attendues utilisée pour les campagnes TREC : les réponses peuvent être de type localisation (ville, région, pays, etc.), numérique (distance, poids, etc.), temporel, etc. (cf. tableau 1.1). Nous ne nous intéressons pas ici aux réponses de type description puisque nous ne traitons que les questions factuelles (i.e. des questions à propos de faits). HUMAIN LOCALI- NUME- TEMPS OBJET DESCRIP- SATION RIQUE TION personne planète comptage année monnaie signification organisation ville prix mois musique manière continent pourcentage jour animal cause pays distance plante région poids nourriture état degré couleur province âge religion rivière rang guerre lac vitesse langue montagne fréquence travail océan taille profession île moyenne loisir jeu TAB. 1.1 Types de réponses attendues définis par TREC 19

36 Chapitre 1. Des réponses d un moteur de recherche à une réponse synthétique À tous ces types de réponses attendues, il convient bien entendu d en ajouter certains afin d avoir un ensemble plus complet : par exemple, le rôle ou la fonction pour le type humain, l heure ou la durée pour le type temps, la direction pour le type localisation, mais aussi le type booléen qui va permettre de traiter des questions de type évaluatif (par exemple, L hôtel X est-il plus cher que l hôtel Y?). Nous avons sélectionné des questions qui n acceptent qu une seule réponse possible et des questions qui en acceptent plusieurs. 44% des questions de notre corpus proviennent du corpus de questions de la campagne d évaluation TREC. Pour le choix des autres questions, nous avons adopté une méthode centrée sur les besoins des utilisateurs : le choix des questions a en effet été guidé par des sites d inventaires des requêtes les plus fréquemment posées sur le Web. Nous avons ainsi utilisé les générateurs de mots-clés de Google 2 et d Overture 3. Par exemple, le mot-clé hauteur soumis à Overture donne, parmi les requêtes les plus fréquentes, hauteur mont-blanc, hauteur panier basket, etc. Les questions ainsi obtenues représentent 38% du corpus. Afin d avoir un corpus le plus diversifié possible, le corpus de questions a ensuite été enrichi manuellement car certains domaines étaient sous-représentés (18% du corpus). Le corpus de questions est donné en annexe A. Les questions sont ensuite soumises à Google sous forme de mots-clés ou à QRISTAL sous forme de question en langue naturelle. Ces deux systèmes fournissent un ensemble de pages comme réponses potentielles. Un premier travail manuel a consisté à ne garder parmi ces pages que celles qui sont jugées pertinentes, c est-à-dire qui proposent effectivement une réponse, même fausse, à la question. Par exemple, la page qui propose comme réponse Ludwig von Beethoven est bien mort des suites d un empoisonnement au plomb à la question Quand est mort Beethoven? n est pas conservée car elle ne donne pas d information temporelle sur la mort de Beethoven. Nous décrivons ci-dessous les principales configurations de relations entre réponses La question n a qu une seule réponse possible Le moteur d extraction peut proposer : (i) une ou plusieurs réponse(s) qui coïncide(nt) avec la réponse attendue Exemple : Q : À qui Bernard Tapie a-t-il vendu le Phocéa? R : - Bernard Tapie a vendu le Phocéa à Mouna Ayoub. - Mouna Ayoub a acheté le Phocéa. 2 https ://adwords.google.fr/select/keywordsandbox 3 http ://inventory.overture.com/d/searchinventory/suggestion/?mkt=fr 20

37 1.3. Corpus d étude - Mouna Ayoub rachète le bateau de Bernard Tapie. (ii) une ou plusieurs réponse(s) qui inclut (incluent) la réponse attendue Exemple : Q : Où se trouve Toulouse? R : - Entre Méditerranée et Atlantique, à 730 km de Paris, Toulouse est la capitale de la grande région Midi- Pyrénées. - L agglomération toulousaine compte parmi les toutes premières métropoles de l Europe du Sud. (iii) une ou plusieurs réponse(s) correcte(s) et une ou plusieurs réponse(s) incorrecte(s) Exemple : Q : Quand a été proclamée l indépendance de l Algérie? R : - 5 juillet 1962 : proclamation de l indépendance de l Algérie. - 3 juillet 1962 : le général de Gaulle proclame l indépendance de l Algérie. (iv) aucune réponse correcte Exemple : Q : Quel est le taux de mariage en France en 2004? R : - de 7,5 à 5,5 entre 1974 et ,4% d étudiants mariés en % mariages mixtes chez les juifs moins de 30 ans La question a plusieurs réponses possibles Le moteur d extraction peut proposer : (i) une seule réponse qui coïncide avec toutes les réponses attendues Exemple : Q : Quelles langues sont parlées sur l île de Jersey? R : L anglais est la langue officielle, la langue française reste officielle pour la documentation légale, 21

38 Chapitre 1. Des réponses d un moteur de recherche à une réponse synthétique mais la langue couramment utilisée est un dialecte normand : le jersiais. (ii) plusieurs réponses, chacune coïncidant avec une des réponses attendues Exemple : Q : Où se trouve Disneyland? R : - à Paris - à Tokyo - à Hong-Kong - à Los Angeles (iii) toutes les réponses attendues et une ou plusieurs réponse(s) incorrecte(s) Exemple : Q : Quelle est la monnaie de la France? R : - le franc - l euro (iv) seulement quelques réponses attendues avec ou sans réponse(s) incorrecte(s) Exemple : Q : Où se trouvent les Alpes? R : - La Suisse fait partie de l Arc alpin. - Les Alpes sont la frontière naturelle entre la France et l Italie. Ici, il manque les réponses suivantes : Allemagne, Autriche et ex-yougoslavie. (v) aucune réponse correcte Exemple : Q : Quels sont les 3 pays les plus grands exportateurs de blé au monde en 2004? R : - L Argentine est le 4ème pays exportateur de blé au monde (2002). - La France est le quatrième producteur agricole du monde et le deuxième pays exportateur de produits agricoles. 22

39 1.4. Typologie des réponses et mécanismes d intégration associés Méthodologie d analyse du corpus Une fois le corpus constitué, l étude de ce dernier doit nous permettre d établir les différentes relations pouvant exister entre plusieurs réponses à une même question. Les critères retenus pour l analyse du corpus sont les suivants : le nombre de réponse(s) attendue(s) par la question (une ou plusieurs), le type de réponse attendue, les relations entre les différentes réponses. Le but est de définir les types de relations entre les réponses en fonction du type de question. Ainsi, les relations entre les réponses seront différentes selon que la question attend une ou plusieurs réponses. Par exemple, si une question n attend qu une seule réponse et que le moteur d extraction en propose plusieurs, ces réponses sont alors soit équivalentes, soit ce que nous appelons "inconsistantes" (réponses qui sont a priori différentes ou effectivement différentes). Dans la section suivante, nous décrivons notre typologie des relations entre les réponses ainsi que les mécanismes d intégration associés à chaque cas. 1.4 Typologie des réponses et mécanismes d intégration associés L étude de corpus nous a permis d identifier les principales relations pouvant exister entre un ensemble de réponses candidates. Nous nous sommes inspirés des quatre principales relations définies dans [Webber et al, 2002], à savoir : l équivalence, l inclusion, l agrégation et l alternative. L étude de corpus nous a permis de les préciser et d identifier les mécanismes d intégration mis en œuvre par des opérateurs humains pour produire une réponse synthétique. Nous supposons tout d abord que le moteur d extraction, qui extrait un ensemble de réponses candidates, ne propose que des réponses correspondant au type de réponse attendue par la question c est-à-dire des réponses potentiellement correctes. Lors de l étude de corpus, nous ne nous sommes donc intéressés qu aux réponses remplissant ces conditions. En reprenant la méthodologie présentée précédemment, l étude de corpus nous a permis de confirmer l existence des quatre relations (équivalence, inclusion, agrégation, alternative) mais surtout de les préciser et d identifier les ressources nécessaires à leur détection. Dans les sections suivantes, nous présentons une typologie des relations entre réponses candidates ainsi que les mécanismes d intégration de données à utiliser pour prendre en compte ces réponses et générer en langue une réponse qui soit la plus coopérative possible. 23

40 Chapitre 1. Des réponses d un moteur de recherche à une réponse synthétique La relation d alternative L alternative définit un ensemble de réponses inconsistantes entre elles. Dans le cas de question ayant une réponse unique, seulement une de ces réponses est correcte. Dans le cas contraire, toutes les alternatives peuvent être des réponses correctes. (i) Indécidabilité Par exemple, la question suivante n admet qu une seule réponse (pour une année donnée) : Q : Quand commence l automne? R : - 20 septembre septembre - SAISONS 2004 : Automne équinoxe : 22 septembre Les trois réponses proposées sont inconsistantes et une seule de ces réponses est correcte. Le but est donc de trouver laquelle de ces réponses est correcte. Il existe pour cela plusieurs solutions : favoriser les pages les plus récentes et, bien sûr, celles qui donnent l information pour l année en cours, calculer le taux de pertinence des différentes pages et favoriser la réponse proposée par la page la plus pertinente, ne privilégier aucune réponse par rapport à une autre mais générer une réponse qui expliquera l inconsistance. (ii) Disjonction La question suivante accepte plusieurs réponses possibles : Q : Avec quoi puis-je payer mon billet d avion Air France? R : - Vous pouvez régler votre billet en envoyant un chèque à l adresse suivante :... - Utiliser votre carte de crédit pour effectuer un paiement via Internet est aussi sûr que de réserver par téléphone. Dans ce premier cas, les deux réponses sont inconsistantes (elles donnent des informations différentes) mais sont toutes deux des réponses correctes en relation d alternative puisqu on ne peut payer que soit par chèque soit par carte (mais pas avec les deux moyens en même temps!). La réponse à générer peut donc être une disjonction des deux réponses candidates (ex : vous pouvez 24

41 1.4. Typologie des réponses et mécanismes d intégration associés payer par chèque ou par carte bancaire). (iii) Filtrage Ce que nous appelons "filtrage" des réponses incorrectes est possible grâce à la prise en compte de certains paramètres comme la date des informations. Q : Combien y a-t-il d habitants en France? R : - 63 millions au 1er janvier en 2003 Ici, si la date n est pas précisée dans la question, on peut supposer que l utilisateur demande une information (le nombre d habitants) pour l année en cours (2006). Les réponses correspondant à des informations pour des années antérieures (ici 2003) peuvent donc être supprimées de l ensemble des réponses candidates. (iv) Généralisation Des généralisations sont possibles parmi un ensemble de réponses candidates inconsistantes. Dans l exemple suivant, l utilisateur demande la date de la fête de la musique et le moteur d extraction propose les pages donnant les dates de toutes les éditions de cette fête. Si les réponses ont certaines caractéristiques communes, on peut les fusionner selon ces caractéristiques. Q : Quand a lieu la fête de la musique? R : - samedi 21 juin juin la Fête de la Musique est lancée, le 21 juin 1982, jour du solstice d été - 21 juin Ainsi, les réponses candidates pour cette question sont des dates et on remarque qu elles ont toutes en commun le jour et le mois (21 juin). On peut générer une réponse qui va généraliser la date selon ces critères. On pourra donc par exemple générer une réponse telle que la fête de la musique a lieu tous les 21 juin. (v) Intervalle Certaines informations, numériques ou non, peuvent être regroupées sous forme d intervalle. 25

42 Chapitre 1. Des réponses d un moteur de recherche à une réponse synthétique Q : Quand a lieu le prochain festival de Cannes? R : - du 15 au 26 mai du 12 au 23 mai l édition 2005 du Festival de Cannes débutera le 11 mai - la clôture du festival de Cannes aura lieu le 22 mai 2005 Dans l exemple ci-dessus, une première étape de filtrage peut être effectuée afin d éliminer des réponses non pertinentes (ici les réponses donnant les dates des festivals antérieurs à la date actuelle). Il reste ainsi deux réponses candidates, l une donnant la date de début du festival et l autre la date de fin. Ces deux réponses peuvent être fusionnées sous forme d un intervalle et permettre ainsi de générer une réponse telle que le prochain festival de Cannes aura lieu du 11 au 22 mai (vi) Moyenne Les réponses de type numérique peuvent être intégrées en utilisant un mécanisme de fusion tel que le calcul de moyenne. Il est bien entendu qu un calcul de moyenne n est possible et cohérent que si les valeurs à fusionner sont du même ordre de grandeur (sinon la réponse risque de proposer une moyenne qui ne sera pas représentative de la réponse attendue). Q : Quelle distance y a-t-il entre Toulouse et Castanet? R : - 11 km - 10 km - une quinzaine de kilomètres L ensemble des réponses candidates propose des distances appartenant au même ordre de grandeur : on peut donc en faire la moyenne (on peut aussi bien sûr les présenter sous forme d intervalle comme précédemment). On pourra alors générer une réponse du type la distance Toulouse-Castanet est d environ 12 km. Si l on veut produire une réponse qui justifie l obtention de réponses inconsistantes, on peut aussi générer une réponse plus coopérative qui expliquera pourquoi les réponses obtenues sont différentes (par exemple, la distance Toulouse-Castanet est comprise entre 10 et 15 km selon les itinéraires). (vii) Comparaison temporelle Enfin, certaines réponses inconsistantes peuvent être intégrées en générant une réponse qui présente l évolution des réponses au cours du temps (par des comparaisons temporelles par exemple mais aussi par des énumérations chronologiques). Ainsi, les réponses suivantes peuvent être intégrées en présentant les faits dans un ordre chronologique et en générant une réponse qui explique ce type d intégration : 26

43 1.4. Typologie des réponses et mécanismes d intégration associés Q : Qui était le Président de la République française en 1995? R : - 7 mai 1995 : Jacques Chirac est élu Président de la République Française - Le 8 mai 1988, François Mitterrand est réélu président de la République en emportant l élection présidentielle contre Jacques Chirac avec 54,0 % des voix. En mai 1995, François Mitterrand achève son second septennat. Ici, une réponse possible est François Mitterrand a été Président de la République française jusqu au 7 mai 1995 puis c est Jacques Chirac qui a été élu Président La relation d agrégation L agrégation définit un ensemble de réponses consistantes. On rencontre cette relation dans le cas où la question accepte plusieurs réponses différentes. En effet, si la question n accepte qu une seule réponse et qu on a plusieurs réponses candidates, alors elles sont soit équivalentes soit inconsistantes (relation d alternative). Dans le cas d une relation d agrégation, les réponses candidates sont alors toutes potentiellement correctes (après filtrage des réponses incorrectes ou non pertinentes) et peuvent être intégrées sous forme d une conjonction de toutes ces réponses. D autres mécanismes sont bien entendu possibles. Nous les présentons ci-dessous. De plus, plusieurs cas peuvent se présenter : si la question n est pas suffisamment précise, on peut obtenir un ensemble de réponses candidates qui seront correctes selon certains critères. Nous détaillons ici ces cas particuliers. (i) Conjonction/énumération Considérons la question suivante : Q : Où se trouve le parc Disneyland? R : - à Paris - à Tokyo - à Hong-Kong - à Los Angeles La question accepte bien plusieurs réponses si l on considère qu il existe plusieurs parcs. Il n existe pas de critères particuliers pour présenter les réponses. On peut donc générer une simple énumération des réponses candidates : il y a des parcs Disneyland à Paris, Tokyo, Hong-Kong et Los Angeles. 27

44 Chapitre 1. Des réponses d un moteur de recherche à une réponse synthétique Considérons maintenant un exemple de réponses dépendant de critères particuliers : Q : Quelle distance y a-t-il entre Paris et Toulouse? R : km en passant par le Massif Central km par l autoroute Orléans-Limoges-Cahors km par l autoroute puis N20 La question peut être considérée comme imprécise puisqu elle demande la distance entre deux points sans préciser l itinéraire. Les réponses candidates sont donc inconsistantes au premier abord puisqu elles donnent des informations différentes mais deviennent consistantes dès que l on prend en compte les différents critères qui les différencient (les itinéraires). Une réponse possible sous forme d énumération des réponses candidates peut donc être : la distance entre Paris et Toulouse est de 713 km en passant par le Massif Central, 678 km en prenant l autoroute Orléans-Limoges-Cahors et 681 km par la N20. (ii) Intervalle Les réponses de l exemple précédent peuvent aussi être intégrées sous forme d intervalle en précisant le critère. On peut ainsi générer une réponse du type : la distance entre Paris et Toulouse est comprise entre 678 km et 713 km selon les itinéraires. (iii) Comparaison Enfin, les réponses peuvent aussi être intégrées en utilisant une comparaison toujours en précisant le critère. On peut ainsi générer une réponse du type : la distance entre Paris et Toulouse est de 35 km de plus en passant par le Massif Central qu en prenant l autoroute Orléans-Limoges-Cahors La relation d inclusion La relation d inclusion existe entre deux réponses quand l une des réponses implique l autre. Cette relation se définit entre des concepts des réponses candidates, ces concepts étant en relation dans une ontologie : les relations ontologiques est-un ou partie-de permettent d établir une relation d inclusion entre deux concepts de réponses candidates a priori différentes. Par exemple, les réponses candidates ci-dessous sont liées par la relation d inclusion : Q : Où se trouve Brest? R : - en France - dans le Finistère 28

45 1.4. Typologie des réponses et mécanismes d intégration associés - en Bretagne Dans cet exemple, on a plusieurs inclusions : le Finistère est "inclus" dans la Bretagne qui est ellemême "incluse" dans la France. Toutes les réponses candidates étant correctes, le problème réside dans le choix de la réponse à proposer. [Webber et al, 2002] propose de donner comme réponse la réponse la plus spécifique mais le choix de la réponse peut aussi être paramétré par un modèle utilisateur : selon l origine géographique de l utilisateur ou selon ses connaissances, on pourra proposer une réponse plus ou moins spécifique. On peut aussi générer une réponse intensionnelle en identifiant le concept généralisant [Benamara, 2004b] La relation d équivalence Les réponses candidates qui sont en relation d équivalence sont consistantes entre elles et s impliquent mutuellement. L étude de corpus nous a permis de mettre en évidence un certain nombre d équivalences que nous présentons dans la suite. Nous avons principalement identifié deux types d équivalences : les équivalences lexicales et les équivalences nécessitant des inférences (notamment du calcul) Équivalence lexicale On définit la relation d équivalence lexicale comme la relation qui lie plusieurs réponses candidates ayant des concepts équivalents (les concepts à considérer sont les concepts réponses et les relations prédicatives qui peuvent exister entre ces concepts). L étude de corpus nous a permis d identifier plusieurs types d équivalence lexicale présentés ci-dessous. (i) Synonymie L équivalence lexicale la plus simple à repérer est la synonymie. Des réponses seront donc équivalentes si elles utilisent des concepts synonymes. Par exemple : Q : Qui a tué John Lennon? R : - Depuis quelques jours, tous les médias s agitaient autour d une possible libération sur parole de Mark Chapman, l assassin de John Lennon. - Le meurtrier de John Lennon, Mark Chapman, qui purge une peine de prison à vie à Attica près de New York (nord-est), pourrait sortir de prison cette semaine après 24 ans passés derrière les barreaux. La réponse à la question Qui a tué John Lennon? est Mark Chapman désigné dans la première réponse comme l assassin de John Lennon et dans la deuxième réponse comme son meurtrier. Les concepts assassin et meurtrier étant des synonymes, les deux réponses candidates sont donc équivalentes. 29

46 Chapitre 1. Des réponses d un moteur de recherche à une réponse synthétique Un autre cas d équivalence lexicale est l utilisation de sigles ou d acronymes pour désigner un concept. Par exemple : Q : Quel diplôme donne accès à l université? R : - le DAEU - le Diplôme d Accès aux Études Universitaires Ici, le DAEU est le sigle correspondant à Diplôme d Accès aux Études Universitaires : les deux réponses sont donc équivalentes. Deux réponses peuvent aussi être équivalentes si elles utilisent les mêmes concepts mais dans des langues différentes comme dans l exemple ci-dessous (États-Unis en français et USA en anglais). Q : Où se trouve l Empire State Building? R : - aux États-Unis - aux USA Dans le cas de la désignation d une personne, celle-ci peut être désignée par son nom ou son surnom (ou un diminutif) dans des réponses qui seront alors équivalentes. Q : Qui était le président des États-Unis en 1996? R : - Bill Clinton - William Jefferson Clinton Ici, Bill est un diminutif de William et les deux réponses candidates désignent une seule et unique personne. Enfin, une personne peut aussi être désignée par son rôle, sa fonction ou le poste qu elle occupe (par exemple, George Bush est le 43ème président des États-Unis). Q : Qui est président des États-Unis? R : - le 43ème président des États-Unis a déclaré : "..." - George W. Bush (ii) Paraphrases Si plusieurs réponses candidates sont des paraphrases, alors elles sont sémantiquement équivalentes. L exemple ci-dessous présente des réponses équivalentes utilisant de l inférence lexicale (X achète Y à Z est équivalent à Z vend Y à X). 30

47 1.4. Typologie des réponses et mécanismes d intégration associés Q : À qui Bernard Tapie a-t-il vendu le Phocéa? R : - Bernard Tapie a vendu le Phocéa à Mouna Ayoub - Mouna Ayoub a acheté le Phocéa - Mouna Ayoub rachète le bateau de Bernard Tapie L exemple suivant présente, quant à lui, des réponses équivalentes utilisant une alternance syntaxique : Q : Où puis-je acheter un billet Air France? R : - Vous pouvez acheter vos billets au guichet Air France ou sur internet... - Les billets peuvent s acheter au guichet Air France (iii) Série proportionnelle sans branchement Enfin, le dernier cas d équivalence lexicale identifié dans le corpus est le cas de réponses candidates présentant des propriétés pouvant être représentées sur une série proportionnelle sans branchement (i.e une hiérarchie qui permet d ordonner des termes selon une propriété ou une dimension [Cruse, 1986]). Considérons l exemple suivant : Q : Quelle est la couleur de la robe des cardinaux? R : - rouge cardinal - pourpre - rouge soutenu Les différentes réponses peuvent être considérées comme équivalentes si l on représente les couleurs sur une série proportionnelle sans branchement selon leur longueur d onde (cf. figure 1.2). FIG. 1.2 Série proportionnelle pour les couleurs Dans ce cas, on peut considérer que les réponses sont équivalentes puisque les couleurs varient dans la même gamme de couleur (les couleurs ont des longueurs d onde proches). On pourrait bien sûr faire une série pour les couleurs jaune/vert/bleu mais elles ne seraient pas pour autant équivalentes! 31

48 Chapitre 1. Des réponses d un moteur de recherche à une réponse synthétique Équivalence par calcul Nous appelons équivalence par calcul la relation qui lie plusieurs réponses candidates et qui nécessite des inférences et du calcul pour vérifier qu elles sont bien équivalentes. Nous donnons quelques exemples ci-dessous. (i) Par inférence Pour déterminer si deux réponses sont équivalentes, il est parfois nécessaire d avoir recours à des connaissances de sens commun et de faire des inférences. Ainsi, dans l exemple suivant : Q : Combien y a-t-il de pions aux échecs? R : - Un jeu d échecs comporte 16 pièces blanches et 16 pièces noires - Les échecs se jouent à 2 joueurs. L un des joueurs joue avec les pièces blanches, et l autre joueur avec les pièces noires. total. On sait que le jeu se joue à deux joueurs et que chaque joueur a 16 pièces : il y a donc 32 pièces au (ii) Par date Il est aussi parfois nécessaire de faire des inférences ou des calculs par rapport à des dates. Ceci est illustré par les deux exemples suivants. Q : Quel âge a l Airbus A320? R : - créé en ans La date de création de l avion nous permet de calculer son âge (date actuelle - date de création : = 22) et nous permet de confirmer l équivalence entre les deux réponses. De la même manière, les dates permettent de calculer des durées. Par exemple, Q : Combien de temps François Mitterrand a-t-il été président? R : - François Mitterrand fut élu Président de la République en 1981 et réélu en Les deux septennats de Mitterrand furent marqués par un ensemble de mesures sociales qu attendait le monde du travail. 32

49 1.4. Typologie des réponses et mécanismes d intégration associés Les dates 1981 et 1988 nous permettent de calculer la durée d un mandat c est-à-dire 7 ans. La première réponse nous indique que François Mitterrand a été élu président deux fois et a donc occupé ce poste pendant 14 ans ce qui est équivalent aux deux septennats de la deuxième réponse. (iii) Par changement de référentiel Le dernier type d équivalence nécessitant des inférences et du calcul est lié aux possibles changements de référentiels, principalement les référentiels de mesure physique. L exemple suivant illustre ce problème. Q : Quelle est la distance Pluton-Soleil? R : millions de km - 39,44 Unités Astronomiques Une unité astronomique (UA) est une unité de mesure qui vaut environ 149,6 millions de kilomètres : 39,44 UA valent donc environ 5900 millions de kilomètres. Les réponses sont donc équivalentes car elles donnent la même distance mais dans des unités de mesure différentes. Le même problème se pose pour toutes les unités de mesure (g/kg/tonne, m/km, centime/euro, euro/dollar, etc.) La relation de complémentarité Les différents types de réponses exposés jusqu ici permettent de répondre correctement à une question en utilisant les informations fournies par toutes les réponses candidates. Cependant, la forme d un certain nombre de questions implique des connaissances et la mise en œuvre de mécanismes d inférence. En effet, pour pouvoir répondre à certains types de questions, il est parfois nécessaire de faire des calculs, des comparaisons, de combiner les informations provenant de plusieurs réponses, etc. : nous appelons relation de complémentarité la relation qui existe entre ces réponses candidates. C est ce que nous montrons dans les exemples suivants Cardinalité Les réponses à certaines questions ne sont pas forcément explicites dans un texte. Elles doivent alors être inférées. Nous donnons ici un exemple où le calcul de la cardinalité de l ensemble des réponses candidates permet de répondre correctement à la question. Q : Combien de fois Kuerten a-t-il remporté Roland Garros? R : - Gaudio devient le premier joueur non tête de série à gagner Roland Garros depuis Kuerten en : G. Kuerten élimine M. Norman (SUE) : 6-2 / 6-3 / 2-6 /

50 Chapitre 1. Des réponses d un moteur de recherche à une réponse synthétique - en 2001, après 3H12 de jeu, Gustavo Kuerten bat l espagnol Corretja en finale. Ici, les réponses sont disjointes : on peut donc calculer le cardinal de l ensemble des réponses candidates pour obtenir la réponse à la question (le cardinal vaut 3) Calcul Certaines questions requièrent des phases de calcul mathématique car les réponses sont difficilement explicites dans les pages Web. Par exemple : Q : Quel est le poids de 30 litres d huile? R : - 1 litre d eau pèse 1 kg - Pour l huile, la densité relative à l eau est égale à 0,9. Il est fort peu probable de trouver la réponse à cette question dans une page Web. En revanche, il est plus facile de trouver le poids d un litre d eau (valeur de référence) et la masse volumique de l huile. Le poids de 30 litres peut ensuite facilement être calculé : si 1 litre d eau pèse 1 kg, alors 1 litre d huile pèse 0,9 kg et 30 litres pèsent 27 kg Comparaison Enfin, certaines questions utilisant des termes flous (meilleur, loin, cher, etc.) demandent un traitement particulier. En effet, il faut souvent avoir de nombreuses réponses candidates pour pouvoir les comparer et ainsi répondre à la question. Par exemple : Q : Quel est le meilleur itinéraire pour aller de Paris à Toulouse? R : km par autoroute Orléans-Limoges-Cahors km par autoroute puis N20-5h33 en train Paris-Bordeaux-Toulouse (départ 14h40) - 6h20 en train Paris-Bordeaux-Toulouse (départ 16h40) - 7h13 en train Paris-Brive-Toulouse L ensemble de réponses candidates propose plusieurs itinéraires Paris-Toulouse. Le but est donc de les comparer pour pouvoir proposer à l utilisateur celui qui est jugé le meilleur. On peut ainsi les comparer en termes de distance, de temps, de coût, etc., ceci devant être expliqué dans la réponse générée. 34

51 1.5. Conclusion 1.5 Conclusion Le tableau de la figure 1.3 montre la représentativité de chaque type de relation entre les réponses en fonction du type de la question (ou du type de réponse attendue). Nous avons classé les questions en cinq catégories (celles utilisées par TREC) : localisation, personne, numérique, temps et objet. Les questions les plus fréquentes dans notre corpus (et parmi les plus fréquemment posées sur le Web) sont les questions attendant des réponses numériques ou temporelles. FIG. 1.3 Représentativité des relations par type de question L étude de corpus nous a ainsi permis de constater que sur les 180 questions de notre corpus, les relations d alternative et d agrégation entre les réponses candidates sont les plus nombreuses, et ce quel que soit le type de la question (il faut signaler que plusieurs réponses candidates à une même question peuvent être liées par plusieurs relations : par exemple, si une question obtient 4 réponses candidates, 2 réponses peuvent être liées par une relation d équivalence et les 2 autres par une relation d inclusion, etc.). Le tableau de la figure 1.4 récapitule les différents mécanismes d intégration à mettre en œuvre dans chaque cas. Ces mécanismes sont issus à la fois de l état de l art et de notre étude de corpus. Dans les chapitres suivants, nous nous intéressons donc à l intégration et à la génération de réponses temporelles et numériques, les plus nombreuses dans notre corpus, liées par les relations d alternative ou d agrégation (les relations d inclusion et d équivalence étant déjà étudiées, notamment par [Dalmas et al, 2005], par exemple pour les questions de localisation). Le but est de produire des réponses synthétiques à partir de plusieurs réponses potentielles en mettant en œuvre des mécanismes d intégration de données tels que ceux utilisés par des humains. 35

52 Chapitre 1. Des réponses d un moteur de recherche à une réponse synthétique FIG. 1.4 Récapitulatif des mécanismes d intégration 36

53 Chapitre 2 Présentation du système et hypothèses de travail 2.1 Introduction Pour ce travail, nous nous plaçons dans le cadre des systèmes question-réponse avancés sur le Web. Ces systèmes permettent à un utilisateur de poser une question en langue naturelle ou sous forme de mots-clés. Cette question est ensuite analysée puis un moteur d extraction va rechercher sur le Web les différentes pages pertinentes, c est-à-dire celles qui sont supposées répondre à la question posée. La réponse qui est finalement proposée à l utilisateur peut prendre plusieurs formes selon la stratégie utilisée par le système : par exemple, le système peut présenter les liens des "meilleures" pages ou les extraits de ces pages contenant la réponse. Le nombre de réponses proposées dépend aussi du système : certains proposent plusieurs réponses ou une seule réponse, celle considérée comme la "meilleure" (selon des critères d analyse propres à ces systèmes). Rappelons brièvement que nous avons choisi d étendre la définition habituelle de l inconsistance de données (en intelligence artificielle, elle est définie comme un ensemble de faits contradictoires) aux cas trouvés lors de notre étude de corpus (cf. chapitre 1). Nous considérons ainsi comme inconsistance le fait que plusieurs réponses différentes soient proposées pour une question. Comme nous l a montré l étude de corpus, les réponses candidates à une même question peuvent être, dans le cas le plus simple, redondantes mais aussi, et le plus souvent, contradictoires, complémentaires, approximatives, liées par une relation d inclusion, etc. Ces cas d inconsistance sont solvables plus ou moins facilement et impliquent l utilisation d un certain nombre de connaissances décrites par la suite. Pourquoi un système question-réponse avancé? Le cadre plus particulier dans lequel nous nous plaçons est celui des systèmes question-réponse dits coopératifs au sens de Grice [Grice, 1975]. WEBCOOP [Benamara, 2004a] par exemple, permet entre autres de proposer une réponse même quand la question 37

54 Chapitre 2. Présentation du système et hypothèses de travail posée par l utilisateur comporte des fausses présuppositions ou des malentendus. Alors que WEBCOOP permet de produire une réponse quand il n y a pas de réponse directe à la question posée, notre système se place quant à lui dans l optique de produire une réponse quand plusieurs réponses différentes à une question sont extraites par le moteur d extraction. Il faut donc pour cela définir des mécanismes capables d élaborer une réponse pertinente qui soit ni trop ni trop peu informative et qui n induise pas l utilisateur en erreur. Des procédures de raisonnement et/ou d apprentissage à partir des données extraites du Web sont ainsi indispensables, comme suggéré par différents roadmaps [Burger et al., 2000]. De plus, dans une perspective coopérative, l idée est de proposer à l utilisateur des informations additionnelles (explications, justifications, etc.) qui rendent compte des différents phénomènes observés à partir des données extraites du Web. Cette dernière phase implique l utilisation d un composant de génération de langue naturelle puisque le contenu des explications est déterminé par le système qui doit ensuite les proposer à l utilisateur de manière intelligible. Dans ce cadre, nos principaux objectifs sont les suivants : 1. Identification des connaissances (extraites des pages Web et base de connaissances prédéfinies) nécessaires à l analyse des données et à l élaboration de réponses pertinentes, 2. Définition de méthodes d analyse des données extraites de Web et identification de phénomènes caractéristiques des données pour produire des explications pertinentes, 3. Définition d un ensemble de mécanismes d intégration pour l élaboration d une réponse la plus cohérente possible au regard des autres réponses potentielles, afin de satisfaire au mieux les maximes de qualité et de quantité de Grice. Des mécanismes adéquats devront être définis pour les différents types de données à intégrer, 4. Génération des réponses en langue naturelle qui expliquent à l utilisateur les phénomènes appris et jusqu à quel point les réponses proposées sont certaines et identification des techniques de génération nécessaires, 5. Réflexion sur les techniques d évaluation d un tel système. Deux points essentiels sont à évaluer : les performances des différents composants du système et comment elles peuvent être améliorées, la qualité des réponses produites, leur intelligibilté et leur utilité pour les utilisateurs finaux. Dans ce chapitre, nous présentons en détail l architecture de notre système, ses composants et les connaissances nécessaires à son fonctionnement. 38

55 2.2. Architecture du système 2.2 Architecture du système La figure 2.1 présente l architecture générale de notre système pour la production d une réponse intégrée. FIG. 2.1 Architecture du système Pour concevoir notre système, nous avons adopté l architecture communément utilisée pour les systèmes question-réponse, à savoir : un analyseur de question dont les résultats permettent à un moteur de recherche de sélectionner les documents pertinents parmi une collection de documents et un moteur d extraction qui extrait les passages réponses dans ces documents, ceci éventuellement couplé à une base de connaissances (une synthèse est présentée dans [Harabagiu et al., 2003]). Étant donné les objectifs que nous nous sommes fixés, à savoir la résolution des inconsistances de données et la production d explications coopératives, il est indispensable d ajouter à cette architecture 39

56 Chapitre 2. Présentation du système et hypothèses de travail classique des modules de raisonnement et de génération de langue. Ainsi, notre système se situe en aval des modules d analyse de questions en langue naturelle et de recherche des réponses potentielles. Il se décompose en quatre principaux modules : une base de connaissances regroupant des connaissances de sens commun, un lexique et des ontologies, un moteur d extraction qui, à partir des pages Web candidates, va extraire les informations nécessaires à la production d une réponse, un module d intégration qui, à partir des informations extraites, élabore la réponse la plus cohérente possible, un générateur de langue naturelle qui génére la réponse et les explications. L analyse des questions et la sélection des documents pertinents ayant déjà fait l objet de nombreux travaux en systèmes question-réponse (entre autres [Harabagiu et al., 1999]) ou en indexation [Woods, 1997], [Green, 1998], nous avons choisi de nous concentrer sur les modules d intégration et de génération des réponses. Nous supposons donc que nous disposons d un analyseur de question et d un moteur de recherche. Dans les sections suivantes, nous décrivons les différents modules L analyseur de questions Pour que le moteur d extraction puisse rechercher les réponses potentielles à une question, l analyseur de questions doit fournir, grâce à une analyse syntaxico-sémantique, les informations nécessaires. Il doit essentiellement : définir la catégorie sémantique de la question, définir le type de la réponse attendue, définir le focus (ce sur quoi porte la question), trouver le corps de la question et les éventuels modifieurs, garder des traces des termes de la question pour éventuellement les réutiliser dans la réponse. Pour identifier le type de réponse attendue, plusieurs typologies ont été établies, par exemple celles de [Lehnert, 1978], [Graesser et al, 1991] ou de [Monceaux et al., 2002]. Le type de réponse peut être identifié par exemple grâce au pronom interrogatif utilisé dans la question ou grâce au type sémantique du nom utilisé dans des questions du type Quel est le nom... ou Combien de kilomètres... Il existe deux principaux types de questions : les questions de type atomique (ou factoïdes ou élémentaires) et les questions de type narratif (questions qui attendent des réponses de type textuel). Ainsi, les questions introduites par : qui sont de type atomique/entité/animé : Qui a assassiné Kennedy?, 40

57 2.2. Architecture du système quand sont de type atomique/quantité/temporelle : Quand est mort Beethoven?, combien sont de type atomique/quantité/numérique : Combien coûte un ticket de bus?, où sont de type atomique/entité/localisation : Où se trouve le guichet Air France?, puis-je, existe-il,... sont de type atomique/booléen : Puis-je payer mon billet d avion par chèque?, comment sont de type narration/procédure : Comment changer une roue?, pourquoi sont de type narration/cause : Pourquoi faire une thèse?, etc. Dans notre cadre, nous ne nous intéressons qu aux questions attendant une réponse de type atomique. Un analyseur de questions est nécessaire pour notre système car nous n avons pas accès aux résultats de l analyse des questions effectuée par le système QRISTAL que nous utilisons comme moteur de recherche (cf. section 2.2.2). Notre analyseur de questions est simulé et nous supposons qu il produit un quadruplet représentant les informations nécessaires aux autres modules et en particulier au moteur d extraction : Ø_ ÓÒ ÔØ ÓÙ ÓÒØÖ ÒØ Ä Ü_Õµoù : Ø_ ÓÒ ÔØest la exemple, entité/animé, quantité/temporelle,...), ÓÙ est le catégorie sémantique de la question ou le type de réponse attendue (par focus de la question. Plusieurs définitions existent. La plus ancienne en questionréponse [Lehnert, 1978] définit le focus comme le composant de la question sur lequel est dirigée l attention. D autres comme [Plamondon et al, 2004] choisissent le focus en fonction des besoins du mécanisme de recherche de la réponse. Enfin, dans [Ferret et al, 2002], le focus est le nom ou le groupe nominal de la question qui idéalement devrait être présent dans la phrase réponse. C est cette dernière définition que nous utilisons sans pour autant étendre le focus aux éventuels modifieurs qui sont, quant à eux, identifiés comme des contraintes, ÓÒØÖ ÒØ est un ensemble de contraintes éventuellement imposées par la question et qui sont essentiellement exprimées par l intermédiaire de modifieurs, par exemple des contraintes de lieu (Combien y a-t-il d habitants en France?), de temps (Combien coûtait une baguette de pain en 1980?), etc., Ä Ü_Õest la liste des termes de la question qui peuvent être éventuellement réutilisés lors de la phase de génération de la réponse. Cette liste peut être composée de termes correspondant aux choix lexicaux ou syntaxiques, par exemple : Ø½ Ø_ ÝÒØ Ü½ ØÒ Ø_ ÝÒØ ÜÒ où Ø_ ÝÒØ Ü½est la catégorie syntaxique deø½. 41

58 Chapitre 2. Présentation du système et hypothèses de travail Par exemple, la question Combien y avait-il d habitants en France en 2000? est représentée par le quadruplet suivant : (Cat_Concept = quantité/numérique/personne, Focus = habitants, Contraintes = Ì ÑÔ ¾¼¼¼ Ä Ù Ö Ò, Lex_q = avoir, verbe ). En pratique, c est à l utilisateur de fournir ces informations lors de la saisie de la question Le moteur de recherche En théorie, il existe plusieurs techniques d extraction des réponses sur le Web : recherche de la présence des mots-clés de la question dans les pages, unification de la représentation du corps de la question avec les représentations du contenu des pages Web, etc. En pratique, notre système d intégration de données doit pouvoir avoir accès au contenu des pages Web susceptibles de répondre à la question posée (contenu accessible par l intermédiaire de leurs URLs et les "snippets") afin d extraire les informations pertinentes et d élaborer une réponse. N importe quel système (moteur de recherche ou système question-réponse) fournissant des résultats sous cette forme peut donc être utilisé en aval de notre module d intégration. Cependant, la qualité des réponses produites par notre système est dépendante de la qualité des pages Web sélectionnées, cette qualité étant souvent faible pour les moteurs de recherche classiques (cf. chapitre 1). Pour toutes ces raisons, nous avons choisi d utiliser le système QRISTAL 4 pour réaliser la tâche de recherche des pages pertinentes. QRISTAL est un système question-réponse sur le Web commercialisé qui a obtenu des résultats relativement satisfaisants et s est classé premier lors de la campagne française d évaluation EQuER [Laurent et al, 2005]. QRISTAL prend en entrée une question en langue naturelle, l analyse puis recherche les réponses candidates sur le Web. L analyse de la question se fait au niveau : syntaxique (identification de la catégorie et fonctions grammaticales de chacun des mots de la question), sémantique (identification du type de la question, positionnement des mots dans une ontologie). QRISTAL interprète la question posée et la traduit dans un langage propre aux moteurs de recherche classiques (Google, MSN, etc.) puis rapatrie les pages trouvées par ces moteurs. Ces pages sont ensuite indexées et analysées (comparaison lexicale et ontologique avec la question, comparaison du type de la question et de la réponse,...) pour ne conserver que celles contenant les réponses candidates. Les pages ainsi obtenues sont ensuite classées selon le score qu elles obtiennent pendant la phase d analyse (score calculé à partir des comparaisons question/réponses). QRISTAL propose ensuite comme réponse celle provenant de la page la mieux classée mais fournit aussi la liste des liens vers les pages Web sélectionnées 4 Synapse Développement 42

59 2.2. Architecture du système ainsi que les extraits ("snippets") associés. QRISTAL peut être paramétré pour prendre en compte la langue de la question, la langue des réponses, les moteurs de recherche à utiliser (Google, Yahoo ou MSN) ainsi que le nombre maximal de pages candidates extraites (cf. figure 2.2). FIG. 2.2 Le système QRISTAL Nous avons donc choisi le français comme langue pour les questions et les réponses. Nous avons aussi paramétré QRISTAL afin qu il sélectionne au maximum 50 réponses candidates par question, ces réponses étant recherchées sur Google. Ces choix se justifient notamment par le fait qu ajouter d autres moteurs de recherche ne permet pas d obtenir des réponses candidates différentes (redondance des pages obtenues). La question en langue naturelle soumise à notre système doit donc aussi être soumise à QRISTAL et QRISTAL permet d enregistrer les résultats (liste des pages candidates sélectionnées et leur extrait respectif) dans un fichier utilisable par notre système Le moteur d extraction C est donc le système QRISTAL qui réalise la tâche de recherche des réponses candidates et c est à partir des réponses candidates proposées par QRISTAL que notre système va réaliser l intégration et la 43

60 Chapitre 2. Présentation du système et hypothèses de travail génération des réponses. Le travail du moteur d extraction consiste à rechercher dans les pages sélectionnées les réponses candidates. Comme nous le verrons plus tard, les informations nécessaires à la génération de la réponse sont extraites dans les "snippets" (extraits de pages) proposés par QRISTAL pour les questions temporelles (cf. chapitre 3). On voit bien ici l intérêt d utiliser un système capable d analyser la question posée pour être sûr que le "snippet" proposé contiendra bien une information temporelle. En revanche, les informations sont extraites dans les pages entières pour les questions numériques (cf. chapitre 7). Plutôt que de rechercher les réponses à l aide de patrons construits à partir de la question, et par conséquent trop figés, comme cela est fait notamment par [de Chalendar et al., 2002] [Anaya et al, 2003], nous devons rechercher, reconnaître et extraire non seulement des éléments issus de l analyse de la question (en particulier, le type de réponse attendue et le focus) mais aussi les informations nécessaires à l intégration comme les éventuels modifieurs. Nous utilisons pour cela un formalisme de grammaire, nos grammaires d extraction étant équivalentes à des patrons par réécriture (cf. chapitres 3 et 7). Enfin, à l inverse de QRISTAL, plutôt que de proposer de façon catégorique une réponse qui est peut-être incorrecte (la réponse la mieux classée n est pas forcément correcte), nous préférons proposer une réponse qui tienne compte de la diversité des réponses candidates sélectionnées : ceci est effectué par le module d intégration Le module d intégration Le module d intégration dont nous détaillons les mécanismes dans les chapitres suivants prend en entrée les informations représentant les réponses candidates provenant du moteur d extraction. Ces informations sont ensuite analysées afin d identifier le type de données à manipuler et les relations existant entre les différentes réponses. Ceci déclenche le mécanisme approprié d intégration des réponses à mettre en œuvre. Les différents mécanismes d intégration sont capables : de produire une information intégrée qui sera la réponse directe à la question, d inférer un certain nombre de phénomènes caractéristiques des données analysées qui vont être fournis à l utilisateur sous forme d explications. Le module d intégration produit ainsi une représentation de la réponse intégrée : c est cette représentation qui est fournie en entrée du générateur Le générateur de langue naturelle La génération de langage naturel a pour but de produire des énoncés en langue naturelle à partir de représentations informatiques abstraites de l information (formules logiques, frames, etc.). Un système 44

61 2.3. Les connaissances requises de génération est le plus souvent construit selon une architecture en pipeline [Reiter et al, 1997] qui se décompose en trois principaux modules : la macroplanification (ou quoi dire?) : cette phase consiste à construire la représentation sémantique de l information à générer (aussi appelée détermination de contenu), la microplanification (ou comment le dire?) : cette phase consiste à produire un énoncé cohérent et structuré, la réalisation linguistique qui gère la syntaxe et la morphologie. La phase de macroplanification est réalisée par le module d intégration qui, à partir des représentations de toutes les réponses candidates, construit la représentation de la réponse intégrée. Les phases de microplanification et de réalisation linguistique sont réalisées par le module de génération qui, à partir de la représentation de la réponse intégrée, génère la réponse en langue naturelle. Pour cela, il faut bien sûr avoir recours aux techniques classiques de lexicalisation (comment un concept est réalisé en langue par un mot, une expression, etc. [Stede, 1993], [Cahill, 1999], [Reiter et al, 2002]) et d agrégation (pour rendre le texte généré plus concis en éliminant par exemple les redondances, etc. [Wilkinson, 1995]). Le module de génération de notre système reçoit donc en entrée la représentation de la réponse qu il doit générer en langue naturelle et doit fournir des explications afin de justifier les réponses proposées à l utilisateur. À chaque type d inférence effectué lors de l intégration des données sont associés des explications sous forme de schémas de génération qui expliquent à l utilisateur certains phénomènes caractéristiques et pertinents des données analysées. Les éléments sous-spécifiés dépendent de la question ainsi que du type d intégration utilisé. Un travail sur la pertinence des éléments explicatifs à générer est aussi indispensable. 2.3 Les connaissances requises Un de nos objectifs est de pouvoir répondre à des questions en domaine ouvert avec un minimum de connaissances. Cependant, comme dans la plupart des systèmes question-réponse avancés qui intègrent du raisonnement, un certain nombre de connaissances et de ressources, outre les connaissances inférées directement des pages Web, sont nécessaires afin de mettre en œuvre les différents mécanismes d intégration qui vont proposer à l utilisateur une réponse coopérative. Les besoins en connaissances pour la génération des réponses sont assez limités, grâce notamment à l utilisation de schémas de génération. 45

62 Chapitre 2. Présentation du système et hypothèses de travail En revanche, l étude de corpus (cf. chapitre 1) nous a permis d identifier un certain nombre de connaissances assez génériques mais suffisantes pour l extraction des informations pertinentes nécessaires à l élaboration de réponses les plus précises possibles en domaine ouvert. Ces connaissances sont essentiellement utilisées pour le traitement des réponses numériques et nous discutons l apport de ces connaissances au chapitre 7. Un de nos objectifs est de limiter les besoins en termes de connaissances pour que le système : 1. analyse les données principalement à l aide des informations fournies par les pages Web et non grâce à des connaissances définies préalablement, et 2. génère des réponses courtes par l intermédiaire de schémas de génération : cette technique permet entre autres de réutiliser, dans la réponse, les termes de la question et ainsi de limiter les besoins qui seraient plus considérables avec des techniques de génération pure. C est pourquoi nous avons pu définir manuellement une base de connaissances et un lexique de taille limitée répondant aux besoins du système La base de connaissances Comme nous l avons vu au chapitre 1, un certain de nombre de connaissances de sens commun sont nécessaires pour que les mécanismes d intégration puissent être mis en œuvre. Ces connaissances sont décrites a priori et manuellement, et se présentent sous forme de règles de déduction, de faits de sens commun, etc. Comme nous avons choisi de travailler sur les relations d agrégation et d alternative, le système n utilise pas de connaissances pour réaliser des inférences ou du calcul. Dans notre base de connaissances, on trouve par exemple principalement les règles de conversion d unité de mesure pour le traitement des questions numériques. Cette base peut bien sûr être augmentée pour prendre en compte d autres phénomènes numériques (calcul de fraction, de pourcentage, etc.) Les ontologies Pour mettre en évidence certaines relations entre plusieurs réponses candidates, une ontologie est indispensable. Ainsi, la relation d inclusion que nous avons présentée au chapitre 1 ne peut être établie entre des concepts que si l on dispose d une ontologie permettant d identifier les liens existant entre ces concepts. L inclusion d un concept dans un autre peut ainsi être établie si ces concepts sont liés, par exemple, par les relations est-un ou partie-de dans l ontologie. Dans le cas des relations d alternative et d agrégation que nous avons choisi d étudier, et tout particulièrement pour les questions numériques, des connaissances relatives à certains domaines spécialisés sont 46

63 2.3. Les connaissances requises aussi indispensables pour la génération d une réponse pertinente et qui soit la plus précise possible. En effet, pour expliquer certaines variations numériques, il faut parfois connaître les propriétés des concepts en question. Dans le cadre de cette thèse, nous avons voulu étudier la faisabilité de notre approche dont un des objectifs est de pouvoir fonctionner en domaine ouvert avec un minimum de connaissances. Cependant, nous montrons dans la troisième partie de ce manuscrit concernant les réponses numériques, que des connaissances sont parfois nécessaires pour produire des réponses plus précises dans certains domaines. Nous avons donc voulu étudier la possibilité pour le système d utiliser des ontologies de domaine en s intéressant plus particulièrement aux points suivants : quelles informations doivent être représentées dans les ontologies pour permettre de produire une réponse la plus précise possible? comment ces informations doivent-elles être hiérarchisées? quel est l apport des ontologies en termes de performance pour le système? Nous avons ainsi mené cette étude de faisabilité en utilisant deux ontologies : une ontologie des vins et une ontologie des lieux géographiques. Des ontologies étant disponibles sur le Web 5, nous nous sommes principalement intéressés au problème de leur portabilité (ou de leur adéquation par rapport à la tâche visée) et de leur formalisme pour que le système puisse les utiliser et fonctionner efficacement. On trouve, par exemple, sur le Web des ontologies décrites dans des langages comme RDF, DAML, etc. : le problème consiste alors à uniformiser les formats de représentation. Ce travail va au delà des objectifs que nous nous sommes fixés, c est pourquoi nous avons choisi de décrire les ontologies grâce au langage XML, un langage standard et suffisant pour nos besoins. Notre système est conçu de telle sorte que les ontologies utilisées hiérarchisent les principaux concepts pour un domaine donné grâce aux relations est-un ou partie-de. De plus, chaque concept d une ontologie peut être associé à un ensemble de propriétés sur lesquelles les mécanismes d intégration pourront s appliquer. Par exemple, la figure 2.3 présente un extrait de la DTD de l ontologie des vins : à chaque concept est attribué des propriétés de couleur, de goût, etc. Il a fallu, pour cet exemple, traduire l ontologie en français. Nous présentons le formalisme des ontologies et leur utilisation au chapitre 7. Dans ce même chapitre, nous discutons de l apport des ontologies. 5 http :// 47

64 Chapitre 2. Présentation du système et hypothèses de travail FIG. 2.3 Extrait de la DTD de l ontologie des vins Le lexique Un ensemble de connaissances linguistiques représentées grâce à un lexique est aussi indispensable. Ces connaissances vont servir non seulement à l extraction des données dans les pages Web mais aussi à la génération des réponses. En effet, même si la plupart des concepts recherchés dans les pages Web et utilisés pour la génération de la réponse proviennent de la question, l étude de corpus nous a permis d identifier un certain nombre de besoins lexicaux. Par exemple, pour l extraction des réponses candidates, le système doit pouvoir extraire les synonymes des concepts de la question, des modifieurs (de temps, de lieu) ou des propriétés des concepts. Ces termes sont principalement des noms, des adjectifs, des verbes et des prépositions. Pour la génération de la réponse, le système a aussi besoin de connaître, par exemple, leurs caractéristiques morphologiques et syntaxiques. Nous définissons donc ces éléments dans un lexique. Pour le moment, nous ne nous définissons pas de représentation sémantique des concepts dans le lexique car le système n en utilise pas. Le moteur d extraction et le générateur ont ainsi besoin, outre les informations fournies par l analyseur de questions, d un lexique définissant : des noms pour l extraction et la génération de syntagmes nominaux de temps ou de lieu, des unités de mesure et leurs abbréviations, des propriétés des concepts, des adjectifs pour l extraction et la génération de propriétés (forme, couleur, etc.), des prépositions pour l extraction et la génération des expressions de lieu, de temps, de quantité, etc., 48

65 2.3. Les connaissances requises des adverbes de certitude qui vont indiquer le degré de certitude des réponses proposées (cf. chapitre 3), des verbes qui vont être utilisés essentiellement pour la génération des explications concernant les réponses numériques (cf. chapitre 4). Les représentations données ici sont relativement simples et les entrées du lexique, hormis celles obtenues par l intermédiaire des ontologies, sont des termes assez génériques car le système doit fonctionner en domaine ouvert. Les noms Le lexique pour les noms est construit à partir des concepts des différentes ontologies de domaines (chaque nœud de l ontologie est lié à une entrée lexicale) et à partir de nos observations en corpus. Ainsi, outre les concepts issus des ontologies (vins et lieux géographiques), nous avons défini une centaine de noms qui sont représentés dans le lexique par le prédicat : nom(lex, genre, comptable, nominalisation), où : lex est la lexicalisation du nom, genre est le genre du nom (masculin ou féminin), comptable indique si le nom est comptable ou massif, nominalisation représente le verbe dont est issu le nom (par exemple, le nom service est la nominalisation du verbe servir). Ces informations permettent au système d extraire, par exemple : des syntagmes nominaux de temps, des synonymes des concepts de la question : nous avons défini une liste de synonymes essentiellement pour les concepts utilisés pour la recherche de réponses numériques (par exemple, hauteur/altitude). Elles permettent aussi de les générer correctement du point de vue morphologique et syntaxique. Par exemple, le nom année est représenté dans le lexique par : nom(année, féminin, comptable, _ ). Pour l extraction et la génération des expressions de lieu, les noms propres pour les lieux géographiques sont représentés par le prédicat : nom_propre(lex, type_sém), où type_sém est le type sémantique du nom défini dans l ontologie. Par exemple, le nom propre Toulouse est représenté par nom_propre(toulouse, ville). Pour notre système, nous avons défini environ 300 noms propres correspondant aux noms de continents, de pays, de régions et départements pour la France et quelques villes françaises. Ils sont issus d une 49

66 Chapitre 2. Présentation du système et hypothèses de travail ontologie des lieux géographiques que nous avons construite à partir de données disponibles sur le Web 6. Les adjectifs Les adjectifs sont représentés dans le lexique par le prédicat adjectif(lex, classe_sém), où : lex est la lexicalisation de l adjectif, classe_sém est la classe sémantique de l adjectif. En plus des adjectifs associés aux propriétés définies dans les ontologies, nous avons défini une liste non exhaustive d une quarantaine d adjectifs, issus de notre étude de corpus, par exemple les principaux adjectifs de couleur ou de forme, qui permettent d identifier certaines propriétés de concepts dans les pages Web. Ces classes sont relativement ouvertes mais, comme nous avons voulu avant tout mener une étude de faisabilité, nous ne représentons dans le lexique ques les adjectifs les plus courants ou les plus génériques (pour les couleurs par exemple, des adjectifs courants comme bleu ou rouge sont dans le lexique mais pas bleu foncé ou vermillon). Par exemple, rouge est représenté par adjectif(rouge, couleur). Les prépositions et adverbes L étude de corpus a montré l importance des prépositions pour introduire, par exemple, des expressions de localisation (spatiale ou temporelle), de quantité (précise ou approximative), des contraintes exprimées par des modifieurs ou des restrictions. Les prépositions sont représentées dans le lexique par le prédicat prep(lex, dom_concept), où : lex est la lexicalisation de la préposition, dom_concept est la liste des domaines conceptuels de la préposition. Par exemple, la préposition dans est représentée dans le lexique par : prep(dans, [spatial, temporel]). Ici, la préposition dans peut être interprétée dans le domaine spatial ou le domaine temporel. Les adverbes sont représentés dans le lexique par le prédicat adv(lex, type), où : lex est la lexicalisation de l adverbe, type est le type ou la classe de l adverbe [Quirk et al, 1985] (pour notre système, nous n utilisons que des adverbes de certitude). 6 http :// 50

67 2.3. Les connaissances requises Par exemple, l adverbe certainement est représenté dans le lexique par : adv(certainement, [certitude]). Les prépositions et adverbes représentent une vingtaine d entrées dans le lexique. Les verbes Comme nous avons choisi de nous intéresser aux questions temporelles et numériques, les verbes définis dans le lexique sont principalement des verbes aspectuels et des verbes qui s appliquent aux valeurs numériques (une centaine). Ils sont utilisés pour l extraction et la génération de réponses temporelles et numériques. Les verbes sont représentés dans le lexique par le prédicat : verbe(lex, arité, r_sélection, c_wordnet, variation), où : lex est la lexicalisation du verbe, arité est le nombre d arguments du verbe, r_sélection est la liste des restrictions de sélection du verbe, c_wordnet est la classe WordNet du verbe [Fellbaum, 1998]. Nous utilisons principalement les verbes d état, de changement et de mouvement, variation est le type de variation exprimée par le verbe (augmentation ou diminution). On pourrait aussi ajouter, pour chaque verbe, la liste de ses alternances afin de pouvoir générer différentes constructions syntaxiques mais nous ne traitons pas ce problème pour le moment. Une étude portant sur les verbes de mouvement a permis de définir les restrictions de sélection de ces verbes [Moriceau et al, 2003]. Par exemple, le verbe monter est représenté dans le lexique par : verbe(monter, 3, [entité mesurable,...], mouvement, augmentation). Ici, le verbe monter est un verbe de mouvement décrivant l augmentation d une entité mesurable (par exemple, la température monte). Le verbe peser, quant à lui, est représenté par : verbe(peser, 2, [entité,...], état, _ ). Nous présentons plus finement les recours à ces données dans les chapitres 3 et Les connaissances sur les pages Web Les techniques de fusion classiques utilisées en intelligence artificielle (théorie possibiliste, etc.) impliquent de connaître la fiabilité des sources d information. Comme proposé par [Motro et al, 2004], la fiabilité d une source, et d une page Web en particulier, peut être établie si l on connaît les informations concernant entre autres la source, la date, l auteur, etc. Définir ces attributs dans les pages Web est par 51

68 Chapitre 2. Présentation du système et hypothèses de travail exemple un des objectifs du Web sémantique 7. Cependant, ces informations sont impossibles à obtenir pour une très grande majorité des pages Web (même dans le code source de la page). C est pourquoi nous avons supposé pour la suite que toutes les pages Web sont également plausibles. Pourtant, pour un certain nombre de pages provenant d organismes officiels (agence de presse, journaux en ligne, etc.), des informations comme la date ou l heure de l information, le nom de l agence de presse, du journaliste, peuvent être disponibles. Nous évoquons dans la conclusion de ce manuscrit comment ces informations peuvent être prises en compte dans les mécanismes d intégration. 2.4 Quelques exemples d entrées-sorties Nous présentons ici quelques exemples d entrées-sorties du système. Exemple 1 La figure 2.4 montre un exemple de sortie du système pour une question attendant une réponse de type date. Comme nous ne disposons pas d analyseur de question, il est demandé à l utilisateur de fournir les informations concernant le focus, le type de réponse attendue et les éventuelles contraintes (modifieurs de temps, de lieu, etc.). Ici, neuf réponses candidates ont été extraites. Le type de réponse attendue étant une date, le module d intégration spécifique aux données de type date est mis en œuvre. Une réponse intégrée est proposée, modulée par un adverbe qui indique le degré de certitude de la réponse produite. Ceci est présenté dans la partie 2. Exemple 2 La figure 2.5 montre un exemple de sortie du système pour une question attendant une réponse numérique. Quinze réponses candidates ont été extraites. Une réponse numérique étant attendue (hauteur), le module d intégration spécifique aux données numériques est mis en œuvre. Une réponse intégrée est proposée, composée de deux parties : 7 http :// 52

69 2.5. Conclusion 1. une réponse directe à la question qui doit tenir compte des contraintes éventuelles imposées par la question, 2. une explication qui présente les phénomènes inférés lors de l analyse des données : ici, il a été inféré à partir des données que la hauteur du Mont-Blanc augmente dans le temps. Ceci est présenté dans la partie Conclusion Nous avons présenté dans ce chapitre les motivations et les objectifs de notre système. Notre système se situe en aval des modules classiques d un système question-réponse, à savoir un analyseur de questions et un moteur de recherche. L architecture de notre système se décompose en quatre modules : un module de connaissances qui regroupe une base de connaissances, un lexique et des ontologies de domaines spécialisés, un module d extraction des informations nécessaires à la génération des réponses, un module d intégration, nouveauté par rapport aux systèmes question-réponse existants, qui gère les inconsistances de données et fournit une représentation de la réponse à générer, et finalement un module de génération de langue naturelle. La réponse générée cherche à être coopérative dans le sens où elle respecte les maximes de Grice, à savoir : la maxime de qualité : les principales incohérences entre les réponses candidates sont résolues et les réponses générées indiquent à l utilisateur à quel point l information donnée est sûre, la maxime de quantité : le système produit une réponse unique au lieu d une liste de réponses potentielles accompagnée d explications qui synthétisent l ensemble des données trouvées sur le Web, la maxime de relation : les réponses sont générées en fonction des attentes des utilisateurs (en satisfaisant les contraintes éventuelles de la question), la maxime de style : les réponses générées sont des phrases courtes et réutilisent les mots de la question posée par l utilisateur. Les exemples présentés précédemment montrent d une part les principales fonctionnalités de notre système, et d autre part comment les mécanismes d intégration peuvent produire une réponse synthétique dans un système question-réponse sur le Web. Nous présentons dans les parties suivantes les mécanismes d intégration qui s appliquent aux données temporelles (de type date) et numériques. 53

70 Chapitre 2. Présentation du système et hypothèses de travail FIG. 2.4 Exemple d entrées-sorties : les dates FIG. 2.5 Exemple d entrées-sorties : les réponses numériques 54

71 Deuxième partie Intégration et génération de réponses de type date Table des matières Chapitre 3 Intégration de données de type date Extraction des réponses candidates Détermination de contenu Synthèse Chapitre 4 Génération des réponses de type date en langue naturelle Objectifs Conception des schémas de génération Exemples de réponses générées Synthèse et discussion Chapitre 5 Évaluation pour les réponses de type date Évaluation de l extraction Évaluation de la détermination de contenu Évaluation des réponses en langue naturelle

72 TABLE DES MATIÈRES 56

73 Introduction Dans le chapitre 1, nous avons présenté comment les cas d inconsistance des données étaient traités dans des cadres comme les systèmes question-réponse, l intelligence artificielle, etc. Dans cette partie, nous nous intéressons aux cas que nous avons appelés indécidabilité et filtrage lors de notre étude de corpus et tout particulièrement à l élaboration d une réponse intégrée obtenue à partir de plusieurs réponses de type date et liées par des relations soit d alternative soit d agrégation, les plus nombreuses dans notre corpus (cf. chapitre 1). Comme le montre l exemple de la figure 1, un moteur de recherche trouve très souvent une grande quantité de réponses différentes à une question de type date. Les questions auxquelles nous nous intéressons dans notre cadre peuvent porter sur différents types d événements, identifiés dans un grand nombre d études ou d applications (par exemple, [Allen, 1983], [Maingueneau, 1981], [Pustejovsky et al, 2003], [Pan et al, 2006]). Ces événements peuvent être : des événements ponctuels (sous forme de dates), des événements duratifs (sous forme d intervalles temporels). Ces deux types d événements pouvant être soit uniques soit itératifs et se situer dans le passé, le présent et/ou le futur. Le but est donc d élaborer, à partir d un ensemble de réponses candidates, une réponse synthétique en éliminant les réponses incorrectes ou non pertinentes. La réponse générée doit expliquer à l utilisateur les phénomènes caractéristiques des données trouvées (par exemple, un événement se répète, etc.). La figure 2 présente l architecture générale du système pour le traitement de telles questions. Comme le montre cette figure, l élaboration de réponses coopératives de type date nécessite quatre étapes principales : l analyse de la question : nous supposons que, pour chaque question, l analyseur de question fournit le type de réponse attendue, le focus (ce sur quoi porte la question) ainsi que les éventuels modifieurs (de temps, de lieu, etc.) (cf. chapitre 2), l extraction des réponses candidates dans les pages Web, la détermination de contenu : élaboration de la réponse et apprentissage de phénomènes temporels, 57

74 Introduction FIG. 1 Réponses de Google : date de l ouragan Hugo la génération en langue de la réponse. Dans le chapitre 3, nous présentons la phase d extraction des réponses candidates à partir de pages Web et nous détaillons la phase de macroplanification ou détermination de contenu, c est-à-dire à partir de plusieurs réponses candidates, comment est élaborée la réponse qui sera proposée à l utilisateur. La phase de génération de la réponse en langue naturelle est présentée dans le chapitre 4. Finalement, le chapitre 5 présente quelques éléments d évaluation. 58

75 FIG. 2 Schéma général du traitement des réponses de type date 59

76 Introduction 60

77 Chapitre 3 Intégration de données de type date Dans ce chapitre, nous présentons dans un premier temps la phase d extraction des réponses candidates à partir de pages Web. Puis nous détaillons la phase de détermination de contenu ou comment l intégration des différentes réponses candidates permet d élaborer une réponse pertinente et coopérative pour des questions attendant des réponses de type date. 3.1 Extraction des réponses candidates Le travail consiste à rechercher les réponses candidates (les informations de type quantité/temporel qui correspondent effectivement au focus recherché) dans les extraits de pages sélectionnées par le moteur de recherche (QRISTAL). Ici, les extraits de pages sont suffisants car ils contiennent l information temporelle qui est susceptible de répondre à la question. Nous nous appuyons ainsi sur les techniques d annotation d expressions temporelles pour définir une grammaire qui permet d extraire ces informations des pages Web candidates [Radev et al., 2002], [Mani, 2004]. Le tableau 3.1 montre un exemple des extraits que le système QRISTAL propose comme réponses à la question Quand a eu lieu la guerre de Sécession?. Notre grammaire doit alors être capable d identifier les informations de type quantité/temporel qui correspondent au focus guerre de Sécession. On remarque dans cet exemple que pour identifier les réponses de type quantité/temporel (en gras dans le tableau), outre le focus de la question (noté en gras), un certain nombre d autres "indices" sont nécessaires (notés en italique dans l exemple) du fait de la grande variété de structure des réponses. Ces indices peuvent prendre plusieurs formes : des noms, des verbes (et leurs synonymes), de la ponctuation. Ce sont essentiellement des marqueurs de début ou de fin d événement. La grammaire doit donc être capable de reconnaître différents indices temporels et d interpréter ces indices [Harabagiu et al., 2005]. 61

78 Chapitre 3. Intégration de données de type date Quand a eu lieu la guerre de Sécession? Entre le 17 avril et le 21 mai 1861 ce sont l Arkansas, la Caroline du Nord, le Tenessee et la... C est le début des affrontements de la guerre de Sécession avril avril Guerre de Sécession. Capitulation d Appamatox 22 septembre Proclamation de l émancipation des esclaves. Liens mai 1865 Fin de la guerre de Sécession. Le général sudiste Lee avait capitulé le 9 avril, et Johnston le 26 avril. Ce jour... John Paul Jones ; Les Américains vaincus à Québec (4 janvier 1776) ; Siège... Guerre de Sécession - Fin de la guerre civile américaine (9 avril 1865)... La guerre de sécession qui a commencé le 12 avril 1861 par l attaque des sudistes du Fort Sumter fait plus de morts.... Signé à Londres le 13 mai 1865 par le Conseil central, au nom de l Association internationale des... En fait, la guerre de Sécession traîna jusqu en Le 12 avril 1861, le Sud ouvre les hostilités. La guerre de Sécession fut une guerre de type moderne, notamment par l importance des effectifs engagés (2... le Sud fait sécession 21 juillet 1861 : début de la guerre, 1er-3 juillet 1863 : bataille de Gettysburg 9 avril 1865 : fin de la guerre de Sécession 14 avril... La guerre de sécession est sans doute le conflit qui a été l un des plus grands... reprirent le dessus et amenèrent la capitulation du sud le 9 avril 1865 à... TAB. 3.1 Exemple : Quand a eu lieu la guerre de Sécession? quadruplet Ê ÔÓÒ ÆÌ Ì È Grammaire d extraction Notre grammaire Ø qui permet de reconnaître et d extraire les réponses candidates de type quantité/temporel est définie, comme pour les grammaires formelles, par un Ê µoù : Ê ÔÓÒ est le symbole initial qui représente une réponse candidate et qui se réécrit en symboles non-terminaux et terminaux par des règles de réécriture. Ce symbole a deux arguments représentant les dates de début et de fin d un intervalle temporel, ÆÌest l ensemble des symboles non-terminaux, Ìest l ensemble des symboles terminaux, 62

79 3.1. Extraction des réponses candidates Èest l ensemble des procédures utilisées par exemple pour du calcul (elles sont notées entre accolades), est l ensemble des fonctions utilisées par exemple obtenir les synonymes des termes, Ê est l ensemble des règles de réécriture (ou de production). Dans certains cas, les réponses candidates peuvent contenir des informations inutiles qu il ne faut pas prendre en compte ni analyser. Par exemple, dans la réponse suivante, le texte en gras est inutile pour la recherche de la date : La guerre de sécession est sans doute le conflit qui a été l un des plus grands... reprirent le dessus et amenèrent la capitulation du sud le 9 avril Pour cette raison, nous utilisons le formalisme des grammaires à "trous" (gapping grammars) défini par [Dahl et al, 1984] qui permet de "sauter" les éléments inutiles (dans notre grammaire, les "trous" sont notés "_"). Par exemple, la règleë _ _ avec ¾Ìpermet de reconnaître l expression. De plus, pour autoriser une certaine souplesse dans l ordre des éléments, nous n imposons pas d ordre entre les éléments à l intérieur d une règle de production. Cependant, des contraintes d ordre peuvent s avérer parfois indispensables pour que l analyse syntaxique soit correcte : ces contraintes de précédence sont exprimées grâce à la virgule. Nous définissons donc les ensembles de non-terminauxæìet de terminauxì(non-exhaustifs) par : ÆÌ Î Ö Å ÖÕ_ Å ÖÕ_ Ò ÙÖ ÈÓÒØ où : est le focus de la question, Î Ö est le verbe aspectuel utilisé dans la réponse à analyser, est une information de type quantité/temporel (date, heure,...), Å ÖÕ_ etå ÖÕ_ Òsont respectivement des indicateurs de début ou de fin d événements, ÙÖ est une expression de durée, ÈÓÒØregroupe les symboles de ponctuation. Ìest l ensemble des éléments terminaux que l on peut retrouver dans les réponses, entre autres : le focus de la question ou un synonyme (obtenu par le lexique ou une ontologie), le verbe de la question ou des verbes aspectuels, des prépositions, les noms de jour, de mois, etc. Ils sont notés en italique dans la grammaire ci-dessous. Pour la grammaire des informations de type quantité/temporel, nous nous sommes inspirés de la grammaire définie dans [Maurel, 1991]. 63

80 Chapitre 3. Intégration de données de type date Nous donnons ici quelques exemples de règles de l ensembleê. (N.B. : La virgule est un symbole de précédence. L absence de virgule permet de déplacer les éléments à l intérieur d une règle. Ici, nous ne donnons que les verbes terminaux sous forme infinitive mais la recherche s effectue sur les formes conjuguées.) Réponse (D1, D2) ¾µ ½µ ½ µ µ µ F, _, Verbe, _, D D, _, Verbe, _, F F, Ponct, D µ µ F_Marq_deb D1 _ Marq_fin D2 F_Marq_deb D1 _, Durée {D2 = datefin(d1,durée)} F_Marq_fin D2 _, Durée {D1 = datedébut(d2,durée)} µ µ µ F Focus synonyme(focus) Verbe Verbe_question avoir lieu être se dérouler... Marq_deb début débuter commencer à partir de avoir lieu... Marq_fin fin finir terminer jusqu à... Ponct ½¼µ ½¾µ ½½µ D ½ µ ½ µ - : (... Durée Verbe_durée, Nombre, Unité Prep_durée, Nombre, Unité Unité jours mois années heures... Verbe_durée durer... Prep_durée pendant depuis... ½ µ Jour, Mois, An Jour, Mois, An, Ponct, Jour, Mois, An du, Jour, Mois, An, au, Jour, Mois, An entre le, Jour, Mois, An, et le, Jour, Mois, An Les performances de la grammaire sont présentées dans le chapitre 5 consacré à l évaluation Exemples Appliquons maintenant cette grammaire à quelques réponses candidates à la question Quand a eu lieu la guerre de Sécession?. 64

81 3.2. Détermination de contenu Exemple 1 L application de la règle (2) (réponse date, ponctuation, focus) puis de la règle (15) permet d extraire la date 12 avril avril 1865 de la réponse : 12 avril avril Guerre de Sécession. Capitulation d Appamatox 22 septembre Proclamation de l émancipation des esclaves. Liens.... Exemple 2 L application de la règle (3) après ordonnancement des éléments (réponse date, Marq_deb/fin, focus) permet d extraire les dates 21 juillet 1861 et 9 avril 1865 comme date de début et date de fin de la guerre dans la réponse : le Sud fait sécession 21 juillet 1861 : début de la guerre, 1er-3 juillet 1863 : bataille de Gettysburg 9 avril 1865 : fin de la guerre de Sécession 14 avril... Exemple 3 L application de la règle (4) après ordonnancement des éléments (réponse focus, Marq_deb, date, durée) permet d extraire la date 12 avril 1861 comme date de début et, connaissant la durée, de calculer la date de fin (12 avril ans = avril 1865) : La guerre de sécession qui a commencé le 12 avril 1861 par l attaque des sudistes du Fort Sumter et a fait plus de morts, a duré 4 ans... Le moteur d extraction fournit au module de détermination de contenu la liste des informations extraites (soit des dates, soit des couples de dates pour les intervalles temporels). 3.2 Détermination de contenu Le problème auquel nous nous intéressons ici est le problème de la détermination de contenu quand plusieurs réponses différentes à une même question ont été sélectionnées par le moteur d extraction. Le but est donc d élaborer une réponse (déterminer le quoi dire?) à partir de l ensemble des réponses candidates. Les questions que nous avons choisi d étudier attendent des réponses directes de type quantité/temporel et en particulier, des réponses de type date dont nous définissons la représentation par la suite. Dans les sections suivantes, nous détaillons et motivons l algorithme de détermination de contenu et nous illustrons chaque notion par un exemple. 65

82 Chapitre 3. Intégration de données de type date Motivations À partir d un ensemble de réponses candidates différentes, plusieurs approches sont possibles pour proposer une réponse à l utilisateur mais ces réponses ne sont pas forcément coopératives : le système répond qu il n a pas trouvé de réponse précise à la question : ceci viole la maxime de quantité car le système n est pas assez informatif, le système fait l énumération de toutes les réponses candidates qu il a trouvées : ceci viole aussi la maxime de quantité car le système est trop informatif (et l utilisateur ne sait toujours pas quelle est la réponse correcte parmi toutes celles qui lui sont proposées), le système propose comme réponse la réponse candidate la plus fréquente : ceci peut violer la maxime de qualité car plusieurs pages Web peuvent donner des informations fausses si elles ont toutes la même source et surtout si la réponse est contextualisée (par exemple, à la question Quand a eu lieu l ouragan Hugo?, une majorité de pages donne une réponse équivalente à Hugo a touché la Guadeloupe le 16 septembre 1989, ce qui n est qu une partie de la réponse recherchée), le système élabore par exemple, soit l intervalle qui regroupe toutes les réponses candidates (union de toutes les réponses), soit le plus petit intervalle commun à toutes les réponses candidates (intersection des réponses) : ceci peut violer la maxime de qualité car la réponse peut être trop ou pas assez précise et ceci peut entraîner de fausses présuppositions de la part de l utilisateur. Notre approche est motivée principalement par les principes de coopérativité de Grice et par les constatations issues de notre étude de corpus. En effet, celle-ci a montré que les réponses en langue peuvent avoir des formes différentes selon que l événement est unique (par exemple, l automne commence le 21 septembre) ou itératif (par exemple, la fête de la musique a lieu tous les 21 juin car l événement a lieu plusieurs fois). Afin de réduire le nombre de connaissances nécessaires au traitement des événements (est-ce un événement unique ou itératif?,...), nous préférons définir un mécanisme d élaboration de réponses qui traite tous les types d événements. Notre but étant de proposer une réponse la plus coopérative possible, la réponse proposée doit être informative et ne pas induire de fausses présuppositions de la part de l utilisateur. Pour cela, notre hypothèse est que la réponse doit être non seulement cohérente avec un maximum de réponses candidates mais aussi cohérente en termes de durée. Par exemple, si toutes les réponses candidates ont une durée de 15 jours, on peut supposer que l événement recherché a effectivement duré 15 jours : on ne peut donc pas proposer comme réponse un intervalle qui soit l union ou l intersection de toutes les réponses candidates si la durée de celui-ci est aberrante. 66

83 3.2. Détermination de contenu Pour cela, nous avons élaboré une méthode d intégration des différentes réponses candidates qui s appuie sur deux points : la définition d une zone de forte cohérence des réponses entre elles, cette zone représentant un intervalle temporel qui doit avoir une durée cohérente avec la durée des réponses candidates, l identification des événements itératifs et périodiques afin d informer au mieux l utilisateur. Enfin, pour satisfaire la maxime de qualité, nous voulons expliquer à l utilisateur à quel point la réponse qui lui est proposée est sûre grâce à un degré de certitude de la réponse Représentation des données Nous considérons que les réponses candidates sont sous la forme de date (Beethoven est mort le 26 mars 1827) ou d intervalle temporel (Le festival de Cannes a eu lieu du 11 au 22 mai 2005). Une date est représentée selon les règles de la norme ISO 8601 qui spécifie entre autres la représentation des dates et des heures. Il existe plusieurs niveaux de granularité dans ce format et il est possible d omettre certains éléments qui ne sont pas pertinents pour l information recherchée. Par exemple, si une question recherche l année d un événement, alors les autres valeurs (jour, mois, heure) peuvent être omises. Les principaux formats sont les suivants : année : YYYY (ex : 1997) où YYYY représente l année dans le calendrier grégorien, année et mois : YYYY-MM (ex : ) où MM représente le mois (de 01 à 12), date complète : YYYY-MM-DD (ex : ) où DD représente le jour (de 01 à 31), date complète avec heure et minutes : YYYY-MM-DDThh:mmTZD (ex : T19:20 +01:00) où hh représente l heure (de 00 à 24), mm représente les minutes (de 00 à 59) et TZD représente le fuseau horaire, date complète avec heure, minutes et secondes : YYYY-MM-DDThh:mm:ss TZD (ex : T19:20:30+01:00) où ss représente les secondes (de 00 à 59). Nous appelons donc date une donnée représentée sous l un de ces formats. Dans notre système, nous considérons les formats année, année et mois et date complète. Un intervalle temporel est ensuite défini comme un couple de dates composé d une date de début et d une date de fin de l événement. 67

84 Chapitre 3. Intégration de données de type date Comme les réponses candidates sélectionnées par le moteur d extraction sont souvent dans des formats différents, une première étape consiste à uniformiser les données : d un point de vue sémantique, toutes les réponses candidates doivent être dans le même référentiel temporel (par exemple, en corrigeant les éventuels décalages horaires, etc.), certaines réponses candidates peuvent être incomplètes : par exemple, il peut manquer la date de fin d un intervalle (Quand a eu lieu la Seconde Guerre Mondiale? La Seconde Guerre Mondiale a débuté en 1939). Les réponses candidates qui sont incomplètes par rapport aux autres réponses extraites sont alors omises, enfin, toutes les réponses candidates sont mises sous forme d intervalle. En effet, l étude de corpus montre que les réponses candidates peuvent être sous forme de date et d intervalle temporel. Pour cette raison, nous avons choisi d élaborer une méthode qui traite les réponses quelle que soit leur forme : ainsi, une date ponctuelle sera représentée par un intervalle dont les dates de début et de fin sont identiques. 68

85 3.2. Détermination de contenu Exemple : (NB : Dans les sections suivantes, nous illustrons chaque nouvelle notion grâce à cet exemple) Supposons que la question Quand a eu lieu l ouragan Hugo? soit posée à un système question-réponse (en l occurrence QRISTAL). Le tableau suivant donne la liste des réponses candidates. Question Quand a eu lieu l ouragan Hugo? 16 septembre 1989 Réponses du 10 au 22 septembre 1989 candidates 16 septembre septembre 1989 du 10 au 25 septembre septembre septembre 1989 du 16 au 22 septembre 1989 du 10 au 25 septembre septembre septembre 1989 Il y a 11 réponses candidates dans différents formats : toutes les réponses doivent être mises sous la forme d intervalles. Le tableau suivant présente les 11 réponses candidates ( ½ ¾ ½½) mises au format : Question Quand a eu lieu l ouragan Hugo? Réponses ¾ ¾ ¾ [ , candidates [ , ½ ½ ½ [ , ] ] [ , ] [ , ] ] [ , ] [ , ] [ , ] [ , ] ½¼ ½¼ ½¼ [ , ] ½½ ½½ ½½ [ , ] Une fois que toutes les réponses candidates ont été formatées, les réponses aberrantes sont éliminées par des méthodes statistiques (points qui s éloignent de l écart-type [Fourastié et al, 1987]). Le processus d élaboration d une réponse cohérente peut ensuite être appliqué. 69

86 Chapitre 3. Intégration de données de type date Élaboration de la réponse Le but est d élaborer à partir de plusieurs réponses candidates, la "meilleure" réponse. Nous considérons comme la "meilleure" réponse celle qui est la plus cohérente avec les autres. Dans ce but, nous définissons un taux de cohérence des réponses. Nous présentons ci-dessous les différentes étapes du processus de détermination de contenu qui prend en compte ce taux de cohérence. Supposons qu à une même question il existe N réponses candidates provenant de M pages Web différentes. Comme expliqué précédemment, nous considérons que chaque réponse candidate est un intervalle temporel de la forme où est la date de début et la date de fin de l événement. Soient avec½ Æles N réponses candidates. Notre hypothèse est que le taux de cohérence d une réponse candidate doit être élevé si celle-ci est cohérente en termes de durée et avec l ensemble des autres réponses candidates. Il faut pour cela définir des zones de forte cohérence. Ainsi, nous supposons que la réponse la plus cohérente est l intervalle qui intersecte le plus grand nombre d intervalles candidats et qui a une durée "pertinente". Dans ce but, une stratégie consiste à définir tous les sous-intervalles temporels minimaux que l on peut obtenir à partir des réponses candidates et à affecter un taux de cohérence à chacun d entre eux. Par exemple, sur la figure 3.1, nous avons 3 réponses candidates ½ ¾et. Elles forment 4 sousintervalles : ½ ¾, ¾, et ½. FIG. 3.1 Sous-intervalles La zone que nous considérons comme celle de plus forte cohérence est celle définie par l intervalle parce que la fréquence d occurrence de celui-ci qui vaut 3 (i.e. le nombre de fois où il intersecte les réponses candidates est 3) est la plus élevée. Nous ne tenons pas compte pour cet exemple du critère de durée : nous détaillons ce point par la suite. 70

87 3.2. Détermination de contenu Construction des zones de cohérence Pour définir les sous-intervalles et ainsi identifier les zones de forte cohérence, nous nous appuyons sur les modèles de construction de zones [Balbiani et al., 2000] ou de fragments [Terenziani, 2003] utilisés en raisonnement temporel sur les intervalles et en particulier pour la résolution de problèmes de Ñ ¾ ½ Æ satisfaction de contraintes. Pour cela, il faut donc connaître les bornes des N intervalles candidats. Soient Ü tel queü¾ et½ Æ l ensemble ordonné des bornes des N intervalles. SoitÆ le nombre de bornes de l ensemble (Æ Ö µ). Un intervalle minimal est de la forme Ñ Ñ ½ (il n y a pas d autre point entreñ etñ ½) avec ½(comme est ordonné,ñ est un point (i.e. une date) antérieur àñ ½). Exemple : Ñ½ ¾ ½ Reprenons Ñ¾ ½ ½ ½¼ Ñ ½ l exemple précédent de l ouragan Hugo. L ensemble ordonné des bornes des intervalles est : ¾ ½ ½ ¾ etæ. Ñ ½ ½ ¼ ½ Ñ ¾ ½ Ñ ½ ¼ ½, ¾¾, ¾, Ñ ½ ¼ Par conséquent, nous avons (cf. figure 3.2) : ½, Les sous-intervalles sont donc : Ñ½ Ñ¾ Ñ¾ Ñ Ñ Ñ Ñ Ñ Ñ Ñ Ñ Ñ. Nous définissons à présent Ñ Ñ ½ comme la ½ Æ ½ Ñ Ñ ½ Ö Ñ Ñ ½ µ fréquence d occurrence de l intervalle Ñ Ñ ½, i.e. le nombre de fois où Ñ Ñ ½ est inclus dans les N réponses candidates. Nous considérons qu un intervalle X est inclus dans un intervalle Y s il satisfait une des relations égal (=), pendant (d), commence (s) ou termine (f) définies dans [Allen, 1983] (cf. figure 3.3). Une fréquence d occurrence est donc affectée à chaque sous-intervalle : où ½ ½ Æ Æ sont les N intervalles candidats. 71

88 Chapitre 3. Intégration de données de type date FIG. 3.2 Les 11 réponses candidates et les sous-intervalles FIG. 3.3 Relations temporelles d Allen pour l inclusion Ñ½ Ñ¾ ¾et Ñ½ Ñ¾ et Ñ½ Ñ¾ que ½ Æ Ñ½ Ñ¾ µ Ñ¾ Ñ et Ñ¾ Ñ et Ñ¾ Ñ et Ñ¾ Ñ ½¼et Ñ¾ Ñ ½½ que ½ Æ Ñ¾ Ñ µ ½¼ donc : Ñ½ Ñ¾ Ö tel Ñ¾ Ñ ½et Ñ¾ Ñ ¾et Ñ¾ Ñ et Ñ¾ Ñ et Ñ¾ Ñ et donc : Ñ¾ Ñ Ö tel Exemple : Dans notre exemple, on a : (avecæ ½½) 72

89 Ñ Ñ ¾et Ñ Ñ et Ñ Ñ et Ñ Ñ Ñ Ñ ¾et Ñ Ñ et Ñ Ñ et Ñ Ñ et Ñ Ñ que ½ Æ Ñ Ñ µ donc Ñ Ñ ¾et Ñ Ñ et Ñ Ñ et Ñ Ñ que ½ Æ Ñ Ñ µ : Ñ Ñ Ö tel donc Ñ Ñ et Ñ Ñ que ½ Æ Ñ Ñ µ : Ñ Ñ Ö tel que ½ Æ Ñ Ñ µ ¾ donc : Ñ Ñ Ö tel donc : Ñ Ñ Ö tel ½ Æ ½ Ø Ñ Ñ ½ Æ ¼ Ø ½µ 3.2. Détermination de contenu À la manière de [Hunter, 2002] dans le cadre de la logique quasi-classique, le taux de cohérenceø qui est affecté ensuite à chaque sous-intervalle Ñ Ñ ½ est le rapport entre la fréquence d occurrence et le nombre de réponses candidates : Ø½ Ñ½ Ñ¾ ½½ ¼ ¾ Ø¾ Ñ¾ Ñ ½¼ ½½ ¼ ½ Exemple : Dans notre Ø Ñ Ñ exemple, les taux de cohérence de chaque sous-intervalle sont : ½½ ¼ Ø Ñ Ñ ½½ ¼ Ø Ñ Ñ Æ ½½ ¼ Ø Ñ Ñ Æ ¾ ½½ ¼ ½ Mais l exemple précédent nous montre que choisir l intervalle ayant le taux de cohérence le plus élevé ne suffit pas (dans l exemple, la réponse serait le 16 septembre 1989 ce qui paraît peu plausible, un 73

90 Chapitre 3. Intégration de données de type date ouragan ne durant pas qu une journée). Le but est d éviter à l utilisateur de faire de fausses présuppositions sur la durée d un événement en lui proposant une réponse d une durée non pertinente. L hypothèse qui se présente alors est que l intervalle choisi comme étant le plus cohérent ou le plus plausible doit aussi avoir une durée pertinente. Dans ce but, notre stratégie consiste à construire de nouveaux intervalles à partir des sous-intervalles précédents : les sous-intervalles peuvent ainsi être "allongés" pour qu ils aient une durée pertinente, i.e. une durée qui prenne en compte les durées de toutes les réponses candidates. Pour cela, nous supposons qu une durée est pertinente si elle est proche de la durée moyenne des N réponses candidates. : ÙÑÓÝ Æ ½ Ù Prise en compte de la durée moyenne Æ Soit Ù la durée de l intervalleá(elle peut être un nombre de jours, de mois, d années, etc.). On fixe à un jour la durée d une date ponctuelle. La durée moyenne ÙÑÓÝest la moyenne des durées des N intervalles candidats, elle est définie par Exemple : La durée moyenne des 11 réponses candidates de notre exemple est de 5,3 jours. Nous construisons ensuite un ensemble de réponses cohérentes composé des intervalles satisfaisant la contrainte de durée définie ci-dessous et auxquels nous affectons un nouveau taux de cohérence. Pour cela, nous faisons donc l union des sous-intervalles Ñ Ñ ½ consécutifs jusqu à ce que leur durée satisfasse la contrainte de durée. Le nouveau taux de cohérence qui est affecté à chaque nouvel intervalle ainsi obtenu est la moyenne des taux de cohérence des intervalles le composant. L algorithme présenté ci-dessous permet de construire l ensemble des réponses cohérentesê Ô Ó composé des intervalles qui ont une durée pertinente auquel on associe un nouveau taux de cohérence. Contrainte de durée : La durée suffisante pour qu un intervalle soit considéré comme pertinent doit être comprise entre la partie entière de ÙÑÓÝ(notée ÒØ ÙÑÓÝµ) et la partie entière ½, ce qui permet de borner la durée des intervalles par les valeurs entières immédiatement inférieure et supérieure à ÙÑÓÝ(par exemple, si la durée moyenne vaut 5.7 jours, alors la durée des intervalles pertinents doit être comprise entre 5 et 6 74

91 3.2. Détermination de contenu Ê Ô Ó jours). Algorithme : pour de½àæ ½, (1) pour de àæ Ñ Ñ ½ Ñ Ñ ½ ½, Ø ½ ½ Ø ¼ Ø ½ ½µ alorsê Ô Ó Ê Ô Ó Ñ Ñ ½ Ø ½µ Ê Ô Ó Ñ Ñ ½ Ø ½µ ½ Æ Ú Ñ Ñ ½ Ñ Ñ ½ ½ Æ ½ Ø ÐÕÙ ÒØ ÙÑÓÝµ Ù Ñ Ñ ½ ÒØ ÙÑÓÝµ ½ ØØ ½ ½ Ø (2) le taux de cohérence de Ñ Ñ ½ est : (3) si Ñ Ñ ½ satisfait la contrainte de durée, L ensemble des réponses cohérentesê Ô Ó est donc défini par : Exemple : Pour l exemple de l ouragan Hugo, nous pouvons à présent construire l ensemble des réponses cohérentesê Ô Ó composé des intervalles ayant une durée satisfaisant la contrainte de durée (i.e. la durée moyenne ÙÑÓÝvalant 5,3 jours, la durée des intervalles doit donc être comprise entre 5 et 6 jours). Nous affectons ensuite à chacun de ces intervalles un nouveau taux de cohérence. Nous détaillons à présent l algorithme de construction deê Ô Ó : 75

92 Chapitre Ñ½ Ñ¾ ½ ½ Ñ Ñ ½ Ø Ù Ñ½ Ñ¾ ØØ½¾ ½ ½ 3. Intégration de données de type date Ñ½ Ñ ¾ ½ Ñ Ñ ½ Ø Ù Ñ½ Ñ ØØ½ ¾ ½½ ½ Ø Ø ½ Ø½ ¼ ¾ pour ½, Ñ½ Ñ ½ Ñ Ñ ½ Ø Ù Ñ½ Ñ ¾ ½ ½ Ø½ Ø¾ ¾ ¼ Ñ¾ Ñ ¾ ¾ Ñ Ñ ½ Ø Ù Ñ¾ Ñ ½ pour ¾, Ñ¾ Ñ ¾ Ñ Ñ ½ Ø Ù Ñ¾ Ñ ØØ¾ ¾ ½ Ø ¾ Ø¾ Ø Ø Ø ¼ ¾ Ñ Ñ Ñ Ñ ½ Ø Ù Ñ Ñ ½ pour, Ñ Ñ Ñ Ñ ½ Ø Ù Ñ Ñ ØØ ½ Ø Ø Ø Ø ¼ Ñ Ñ Ñ Ñ ½ Ø Ù Ñ Ñ ½ Ñ Ñ Ñ Ñ ½ Ø Ù Ñ Ñ ØØ Ø pour, ½ Ø Ø ¾ ¼ ½ 76

93 3.2. Détermination de contenu Ñ Ñ Ñ Ñ ½ Ø Ù Ñ Ñ ØØ ½ Ø Ø ¼ pour, Ñ Ñ Ñ Ñ ½ Ø Ù Ñ Ñ pour, Ê Ô Ó Ñ½ Ñ¾ ¼ ¾ µ Ñ½ Ñ ¼ µ Ñ¾ Ñ ¼ ¾µ Ñ Ñ ¼ µ Ñ Ñ ¼ ½µ Ñ Ñ ¼ µ Par conséquent, l ensembleê Ô Ó, composé des intervalles qui satisfont la contrainte de durée, est : Une fois que l ensemble des réponses cohérentes a été construit, il reste à vérifier si la réponse attendue est un événement unique ou itératif. En effet, le processus de sélection de la réponse ne sera pas le même selon que l on se trouve dans un cas ou dans l autre Sélection de la réponse la plus cohérente Il existe deux principales approches pour formaliser les connaissances sur le temps : la logique temporelle et le raisonnement à partir de contraintes. Dans ce dernier domaine, des travaux récents se sont intéressés au problème des événements itératifs (entre autres, [Cukierman et al, 1998], [Morris et al, 1998], etc.). Ainsi, [Morris et al, 1998] présente un modèle de représentation des événements itératifs. Les propriétés de tels événements sont le nombre et la durée de chaque occurrence de l événement, la durée entre deux occurrences successives et la période. Les contraintes de ce modèle imposent des valeurs pour borner ces différentes propriétés. Dans notre cadre, les seules propriétés que nous pouvons déduire des réponses candidates et qui nous sont nécessaires pour déterminer si un événement est itératif ou non sont : le nombre d occurrences de l événement, la durée de l événement, la durée entre deux occurrences successives. La période ne nous sera utile que lors de la phase de génération. Il peut exister d autres "indices" dans les pages Web (par exemple des termes comme tous les 4 ans, etc., que l on identifie grâce à la grammaire d extraction) qui peuvent compléter la base de connaissances et ainsi confirmer la périodicité 77

94 Chapitre 3. Intégration de données de type date d un événement. Nous considérons donc qu un événement est itératif s il se répète plusieurs fois, autrement dit s il existe un certain nombre d intervalles deê Ô Ó (i.e. nombre d occurrences de l événement) qui sont suffisamment distants dans le temps (cf. figure 3.4). Nous rappelons que les intervalles deê Ô Ó ont été construits en respectant la contrainte de durée. Par conséquent, tous ces intervalles ont une durée à peu près équivalente. FIG. 3.4 Événement unique ou itératif? Il est ainsi nécessaire de définir un certain nombre de paramètres qui vont déterminer si un événement est itératif ou non : un paramètre qui fixe le nombre minimum d itérations d un intervalle et, un paramètre qui fixe la durée entre deux intervalles successifs. Ces paramètres dépendent bien sûr de la granularité des données. Soit le nombre minimum d itérations des intervalles deê Ô Ó. Soit la durée minimale entre deux intervalles consécutifs deê Ô Ó. SoitÆ Ê Ô Ó le nombre d intervalles deê Ô Ó (Æ Ê Ô Ó Ö Ê Ô Ó µ). SoientÁ ½ Æ Ê Ô Ó les intervalles Á Á Á etá ½ Á ½ Á ½. deê Ô Ó ordonnés chronologiquement avec On a donc :Á est antérieur àá ½, c est-à-dire Á est une date antérieure ou égale Á ½. 78

95 3.2. Détermination de contenu Á ½ Á µ Un événement est considéré comme itératif s il existe au moins intervalles deê Ô Ó qui sont distants de leur successeur d au moins une durée (cf. figure 3.5). tels que Ö Á ¾Ê Ô Ó tel que ½ Æ Ê Ô Ó etá ½¾Ê Ô Ó FIG. 3.5 Événement itératif De la même manière, un événement itératif est considéré comme périodique s il existe au moins Á ½ Á µ intervalles deê Ô Ó qui sont distants de leur successeur d une durée qui est toujours plus ou moins proche de, le paramètre permettant de tolérer une marge d erreur (cf. figure 3.6). tels que Ö Á ¾Ê Ô Ó tel que ½ Æ Ê Ô Ó etá ½¾Ê Ô Ó FIG. 3.6 Événement périodique 79

96 Chapitre 3. Intégration de données de type date À ce stade, il y a donc deux possibilités : soit l événement est unique : Dans ce cas, l ensemble de réponsesê Ôàproposer à l utilisateur est composé des intervalles de Ê Ô Ó ayant le taux de cohérence le plus élevé (plusieurs intervalles peuvent avoir le taux de cohérence le plus élevé). Les intervalles à proposer à l utilisateur sont donc : queø Ñ ÑÐ Ø Ðµ¾Ê Ô Ó Ø Ðµ Ê Ô Ñ Ñ Øµ¾Ê Ô Ó tel Ñ Ü soit l événement est itératif (périodique ou non) : Dans ce cas, il peut y avoir des contraintes temporelles imposées par la question : par exemple, la question attend comme réponse un événement soit passé soit futur, un événement pour une année en particulier, etc. Quand la question n impose pas de contrainte, on choisit, parmi les intervalles qui satisfont la contrainte d itérativité, celui qui représente le prochain événement dans le futur (s il n y en a pas, on choisit l intervalle le plus récent dans le passé) : c est la phase de génération qui devra expliquer ces mécanismes à l utilisateur. SoitÊ Ô Ó Õle sous-ensemble des intervalles deê Ô Ó qui satisfont les contraintes temporelles de la question. AlorsÊ Ôest l ensemble des réponses (intervalles) deê Ô Ó Õqui ont le taux de cohérence le plus élevé et qui peuvent être proposées à l utilisateur : queø Ñ ÑÐ Ø Ðµ¾Ê Ô Ó Õ Ø Ðµ Ê Ô Ñ Ñ Øµ¾Ê Ô Ó Õtel Ñ Ü Exemple : Ê Ô Ñ½ Ñ ¼ µ Reprenons l exemple de l ouragan Hugo. L événement ne peut pas être considéré comme un événement itératif puisque tous les intervalles deê Ô Ó sont contigus. Ainsi, la réponse qui peut être proposée à l utilisateur est l intervalle deê Ô Ó ayant le taux de cohérence le plus élevé : i.e. du 10 au 16 septembre 1989 (en fait, l ouragan Hugo a débuté le 10 septembre dans l océan atlantique et est arrivé dans les Caraïbes le 16) (pour les explications de la réponse en langue, voir le chapitre 4). 80

97 fixe ¾ 3.3. Synthèse Prenons maintenant un exemple de traitement d événements itératifs. Supposons que l on (car le nombre d intervalles à tester est volontairement faible pour cet exemple) et 6mois. À la question Quand a eu lieu le festival de Cannes?, l ensemble des réponses cohérentesê Ô Ó est constitué des intervalles suivants chronologiquement ordonnés : Á½= [ , ], Á¾= [ , ], Á = [ , ], Á Á Á¾ Á = [ , ]. On vérifie si ces intervalles vérifient la contrainte d itérativité. On a ainsi : Á½ ³3 ans an Á¾ ³1 Á ³1 Ici, on a donc un nombre suffisant d intervalles (3 intervalles :Á½ Á¾etÁ ) qui satisfont la contrainte d itérativité avec ¾( ). De plus, on a 2 intervallesá¾etá qui satisfont aussi la contrainte pour les événements périodiques avec ³1an (le signe³permet d approximer ). L événement peut donc être considéré comme un événement périodique. La question attend une réponse dans le passé mais n impose pas de contrainte sur une année en particulier. La réponse donnée à l utilisateur est donc la réponse la plus récente (du 11 au 22 mai 2005). En pratique, nous considérons que 3 intervalles satisfaisant la contrainte d itérativité suffisent pour conclure à un événement itératif ( ). Nous avons aussi fixé le paramètre à1an car nous n avons considéré que des événements itératifs ou périodiques respectant au moins cette contrainte. Cependant, on peut envisager de fixer dynamiquement la valeur de en fonction de la configuration des intervalles candidats. Par exemple, si une majorité des intervalles candidats sont distants d une durée de 6 mois alors peut être fixé à 6 mois, ce qui permet d "apprendre" la périodicité directement à partir des données. 3.3 Synthèse Le tableau 3.2 récapitule l algorithme de détermination de contenu. 81

98 Chapitre 3. Intégration de données de type date SoitÆ Ö µ Définition des sous-intervalles Ñ Ñ ½ avecñ ¾ ½ Æ ½ Soient avec½ Æles N réponses candidates. Soit ½ Æl ensemble ordonné des bornes des N intervalles. avec Ñ Ñ ½ Ö Ñ Ñ ½ µ de Ñ Ñ ½ : ½ Æ ½ Ø Ñ Ñ ½ Æ ¼ Ø ½µ Sous-intervalles : Taux de cohérence (1) Ñ Ñ ½ Ñ Ñ ½ pour de àæ ½ Prise en compte la durée (2)Ø ½ ½ Ø ½, ¼ Ø ½ ½µ queá ½ Á ½ Á ½ ¾Ê Ô Ó Á ½ que Ö Á Á Á ¾Ê Ô Ó ½ Æ Ê Ô Ó Á µ Contrainte d itérativité (I) : tels tel si (I) alors Ñ ÑÐ Ø Ðµ¾Ê Ô Ó Õ Ø Ðµ Ê Ô Ñ Ñ Øµ¾Ê Ô Ó Õtel sinon queø Ñ ÑÐ Ø Ðµ¾Ê Ô Ó Ø Ðµ Ê Ô Ñ Ñ Øµ¾Ê Ô Ó tel Ê Ô Ó de½àæ pour i alorsê Ô Ó Ê Ô Ó Ñ Ñ ½ Ø ½µ si ÒØ ÙÑÓÝµ Ù Ñ Ñ ½ ÒØ ÙÑÓÝµ ½ (3) Sélection de la réponse Ñ Ü Ñ Ü TAB. 3.2 Algorithme de détermination de contenu : réponses de type date 82

99 Chapitre 4 Génération des réponses de type date en langue naturelle Une fois que la réponse la plus cohérente a été élaborée, il reste à la générer en langue naturelle. En effet, une réponse d un système question-réponse avancé se doit non seulement de répondre correctement à la question posée mais aussi d expliquer à l usager la réponse proposée [Burger et al., 2000]. 4.1 Objectifs Dans de nombreux systèmes experts ou question-réponse, la génération se fait par l intermédiaire de fragments de textes prédéfinis (ou patrons) [Reiter, 1995]. Ainsi, le système JAVELIN décrit le processus de sélection de la réponse [Nyberg et al., 2003] ; le système Inference Web décrit en langue naturelle l origine de la réponse et les différentes étapes d inférence [McGuinness et al., 2004]. Nous nous situons dans une approche sensiblement différente. En effet, présenter à l utilisateur toutes les étapes d élaboration de la réponse ne nous paraît pas être suffisamment coopératif. En revanche, il nous paraît plus indispensable d expliquer à l utilisateur à quel point la réponse qui lui est proposée est sûre : c est à ce niveau que se situe le caractère coopératif de notre système. Comme les questions sont généralement de la forme Quand sujet verbe (objet)?, une façon relativement simple et intuitive de générer les réponses est de produire des réponses sous la forme schématique : sujet verbe (objet) réponse. Notre stratégie est donc de définir des schémas de réponses (ou templates) qui permettent de faciliter les tâches de génération [Busemann et al., 1998]. 83

100 Chapitre 4. Génération des réponses de type date en langue naturelle 4.2 Conception des schémas de génération La première partie de la réponse (sujet verbe (objet)) est générée de façon classique en gardant des traces des lexicalisations des termes de la question afin de les réutiliser autant que possible dans la réponse. Des traitements morphologiques sont bien sûr nécessaires en particulier pour les verbes (temps, personne, genre, etc.). Par exemple, une réponse à la question Quand Aldous Huxley a-t-il écrit "Le meilleur des mondes"? peut être mise sous la forme Aldous Huxley a écrit "Le meilleur des mondes"... L idée est d annoter les termes de la question (rôle syntaxique, temps, nombre, etc.) de telle sorte qu ils puissent être réutilisés facilement lors de la génération de la réponse. Des questions de la forme Quand puis-je...? nécessitent des traitements plus élaborés : changements des pronoms (par exemple, je devient vous), des modaux selon la question (Quand puis-je... / Vous devez...), etc. Comme nous nous plaçons dans le cadre des systèmes coopératifs, l idée est d introduire des modalités ou des degrés de possibilité pour expliquer à l utilisateur jusqu à quel point il peut croire en la réponse qui lui est proposée. Dans ce but, nous définissons un degré de certitude de la réponse élaborée lors de la phase de détermination de contenu Degré de certitude des réponses Quelques approches en système question-réponse utilisent cette notion de degré de certitude. Par exemple, certains systèmes question-réponse affectent des scores aux réponses candidates, sans que ce score soit présenté effectivement à l utilisateur. Ainsi, le système QALC [de Chalendar et al., 2002] recherche les réponses candidates à la fois sur le Web et dans un corpus de référence (AQUAINT) puis affecte à chaque réponse candidate une mesure de similarité avec la question qui permet de classer les réponses selon leur pertinence. Ensuite, le système préfère les réponses qui sont trouvées dans les deux sources (Web et corpus) plutôt que les réponses qui ont un poids élevé mais sont présentes dans une seule source. Dans notre cadre, c est sur la base du taux de cohérence que se fait le classement des réponses. En revanche, nous souhaitons pouvoir expliquer en langue à quel point la réponse proposée est sûre. Pour cela, nous définissons un degré de certitude de la réponse qui dépend de deux paramètres : le taux de cohérence de la réponse choisie et le nombre de réponses candidates : La réponse élaborée lors de la détermination de contenu peut être considérée comme plus sûre s il y a un grand nombre de réponses candidates d origines différentes. En effet, siæet le taux de cohérence de la réponse choisie sont élevés, alors cela signifie qu il y avait peu de contradictions parmi les réponses candidates, 84

101 4.2. Conception des schémas de génération l écart entre les taux de cohérence : Si la différence entre le taux de cohérence de la réponse choisie (i.e. celle qui a le taux de cohérence Ê Ô Ó Ê Ôest le plus élevé) et le taux de cohérence des autres réponses est élevée, alors cela signifie que la réponse choisie a plus de chance d être sûre (puisque la différence entre les taux de cohérence est assez significative). Ø Soit la différence entre le taux de cohérence le plus élevé (celui de la réponse choisie) et le deuxième taux de cohérence le plus élevé. Cette différence est définie par : Ñ ÑÐ Ø Ðµ (Pour la suite, on considère queê Ôest la(les) réponse(s) à proposer à l utilisateur (i.e. celle(s) qui a(ont) le meilleur taux de cohérence) et ÑÖ Ñ ØÖ µ¾ê Ô Ó Ö Ñ Ü Ê Ô ØÖ µ l ensemble des réponses cohérentes privé de la(des) "meilleure(s)" réponse(s).) avec Ñ Ñ Ø µ¾ê Ôet Ñ ÑÐ Ø Ðµest donc la réponse ayant le deuxième taux de cohérence le plus élevé. Nous définissons doncæ comme le degré de certitude de la réponse Ñ Ñ.Ce degré prend en compte les paramètres précédemment énoncés. Comme le nombre de réponses candidatesæest déjà pris en compte lors du calcul des taux de cohérence, et le taux de cohérenceø sont des paramètres suffisants. Æ ½ Comme les taux de cohérence sont des valeurs comprises entre 0 et 1, on a :¼ ½. Ø Ø ½ ÒÓÒ On veut que le degré de certitudeæ soit lui aussi compris entre 0 et 1, sachant qu il doit valoir 1 si la réponse est complètement certaine. On a donc : Ce degré est très faible dans le cas où est très faible. Nous présentons dans la section comment ceci est expliqué en langue. 85

102 Chapitre 4. Génération des réponses de type date en langue naturelle Ainsi, comme¼ Ø ½et¼ ½, cela signifie que : plusæ tend vers 1, plus la réponse Ñ Ñ est certaine (Æ ½siØ ½, c est-à-dire s il n y a aucune contradiction parmi les réponses candidates), Æ tend vers 1 quand etø sont élevés : si le taux de cohérenceø est très élevé et si l écart entre les taux de cohérence est très grand, alors la réponse est d autant plus certaine. Il est maintenant possible de définir des schémas de réponses pour chaque type de réponse en s appuyant sur ce degré de certitude. Nous distinguons trois principaux cas. 1. soitê Ô, 2. soitæ ½, 3. soitæ ½, i.e. aucune réponse cohérente n a pu être construite. Dans ce cas, l idée est de sélectionner la réponse candidate qui a le taux de cohérence le plus élevé même si elle ne satisfait pas la contrainte de durée mais il faut alors expliquer que la réponse n est pas sûre, i.e. la réponse choisie Ñ Ñ est certaine, alors la réponse générée doit prendre en compte le paramètre. Ainsi, si est élevé, cela signifie que le taux de cohérence de la réponse choisie est bien supérieur aux autres taux de cohérence : dans ce cas, la réponse choisie peut être considérée comme sûre. Au contraire, si est faible, cela signifie que le taux de cohérence de la réponse choisie est très proche des autres taux de cohérence : dans ce cas, plusieurs réponses peuvent être générées car elles sont considérées comme potentiellement correctes. Les formulations de la réponse en langue vont donc différer selon la valeur de. L idée est de générer des réponses avec différents degrés de certitude en s appuyant sur le paramètre Æ: intuitivement, nous avons choisi d exprimer ce degré en langue à l aide d adverbes. La figure 4.1 représente l échelle de probabilité d un événement. FIG. 4.1 Échelle de probabilité d un événement 86

103 4.2. Conception des schémas de génération Formalisation des schémas de génération Un schéma de génération est une expression sous-spécifiée composée d éléments appartenant à : un ensembleède termes prédéfinis de la langue, un ensemble de concepts à générer : par exemple, la réponse sous forme de date ou les termes de la question à réutiliser, un ensemble de fonctions de lexicalisation qui sélectionnent la meilleure lexicalisation parmi un ensemble de lexicalisations possibles d un élément (concept, propriété, connecteur, etc.). Les lexicalisations possibles sont décrites dans le lexique. Le choix lexical (opération complexe étudiée entre autres par [Cahill, 1999] et [Reiter et al, 2002]) dépend du contexte de la question et peut même dépendre des connaissances de l utilisateur [Reiter et al., 2003] (nous ne gérons pas ce dernier point puisque notre système ne possède pas de modèle utilisateur). Un schémaøest donc une séquence finie d éléments ¾ È µet il existe au moins un concept de C à lexicaliser (i.e. un élément variable pour chaque schéma) et une fonction de lexicalisation de. Ainsi, les réponses en langue naturelle sont produites à l aide de schémas de génération et le caractère coopératif des réponses est exprimé grâce aux textes prédéfinis (éléments deè) et aux choix lexicaux effectués par les fonctions de qui vont lexicaliser les différents degrés de certitude des réponses Base de schémas Présentons à présent les principaux schémas de génération que nous avons définis pour la génération de réponses intégrées de type date. Nous donnons ci-dessous les conventions de notation : chaque schéma est notéì_æóñ-ì ÑÔÐ Ø, oùæóñ-ì ÑÔÐ Ø est le nom du schéma et est la condition d application du schéma, les éléments prédéfinisô ¾Èsont en italique, la fonctionð Ü Ú ÒØ¾ est la fonction qui lexicalise la date d un événement (en particulier, celle élaborée lors de la détermination de contenu), la fonctionð Ü ÖØ ØÙ ¾ est la fonction qui lexicalise le degré de certitudeæde la réponse, la fonctionð ÜÈ Ö Ó ¾ est la fonction qui lexicalise le paramètre de la contrainte d itérativité des événements, la fonctionð Ü¾ est la fonction qui lexicalise les autres éléments (sujet, verbe de la réponse, etc.). Nous avons choisi intuitivement de lexicaliser le degré de certitude des réponses par des adverbes et de représenter leur intensité par la série proportionnelle de la figure 4.2. Par exemple, si le degré de certitudeæde la réponse est élevé, il sera lexicalisé par un adverbe de forte intensité. 87

104 Chapitre 4. Génération des réponses de type date en langue naturelle En observant les résultats expérimentaux, nous avons constaté qu il arrive que le degré de certitude soit très faible (cas impossibilité de la figure 4.1), ce qui signifierait que la réponse élaborée est fausse. Plutôt que ne proposer aucune réponse, nous avons choisi de regrouper les cas impossibilité et faible probabilité de la figure 4.1 en un seul qui correspond au cas où le degré de certitude est compris entre 0 et 0,5 (cas probable). Nous proposons des idées d amélioration en conclusion de ce chapitre. FIG. 4.2 Intensité des adverbes lexicalisant le degré de certitude Nous développons des exemples par la suite. La fonction de lexicalisationð Ü Ú ÒØa trois arguments : la date de l événement qui doit être générée, un argumentê qui précise si l événement en question est un événement périodique ou non, et le paramètre de la contrainte d itérativité. En effet, si un événement itératif est périodique, alors des généralisations peuvent être faites. Rappelons qu un événement est périodique s il est itératif et si le paramètre est le même pour toutes les réponses (i.e. l événement a lieu à intervalle régulier). Par exemple, si = 1 an, une généralisation possible est : X a lieu tous les ans le... Les tableaux 4.1 et 4.2 présentent les différents schémas de génération que nous avons définis pour la génération de réponses intégrées de type date. Ci-dessous, nous présentons les différents paramètres. Rappelons que nous avons distingué trois principales conditions d application des schémas de génération qui s excluent mutuellement (cf. section 4.2.1) : le cas (1) oùê Ô, i.e. aucune réponse n a pu être élaborée, le cas (2) oùæ ½, i.e. la réponse est certaine, : ØÊ le cas (3) oùæ ½et il faut prendre en compte le paramètre. SoientÊla réponse à proposer (celle ayant le taux de cohérence le plus élevé) etê¼celle ayant le taux de cohérence le plus proche de celui deê. SoientØÊetØÊ¼les taux de cohérence respectifs deêetê¼. On a donc ØÊ¼. Si est faible (i.e. les taux de cohérence sont proches), alors les réponsesêetê¼peuvent être proposées mais à des degrés de certitude sensiblement différents. 88

105 4.2. Conception des schémas de génération On note aussi ÙØ-È Ö les concepts à générer qui représentent la première partie de la réponse - par exemple, le sujet et le verbe (et qu on peut lexicaliser de la même façon que dans la question). Remarque : pour les schémas 3.2, 3.3, 3.5 et 3.6, si les fragments prédéfinis ou moins et mais plus sont suivis par les lexicalisations d adverbes très probablement ou très certainement, alors on supprime très pour que ce soit grammaticalement correct (*mais plus très certainement/mais plus certainement). Cela ne change en rien l intensité de l adverbe puisque l atténuation ou le renforcement de l intensité se fait désormais grâce à moins ou plus. 89

106 90 Q Ê Ô Événements non périodiques Conditions Schémas de génération Exemples d application cas (1) T_Date1.1 : probablement lexevent(r, nonreg,_) lex(deb-phrase) cas (2) T_Date2.1 : Q Ê¾Ê Ô Ó Ê¾Ê Ô lex(deb-phrase) cas (3) T_Date3.1 : Q Ê¾Ê Ô ÆÊ ½ : Quand la Première Guerre Mondiale s est-elle terminée? La Première Guerre Mondiale s est terminée probablement entre le 15 septembre et le 11 novembre : Quand Chomsky est-il né? lexevent(r, nonreg,_) Chomsky est né le 7 décembre lexcertitude(æê) lexevent(r, nonreg,_) : Quand Desmond Tutu a-t-il reçu le prix Nobel de la paix? Desmond Tutu a reçu le prix Nobel de la paix lex(deb-phrase) est élevé certainement en ÆÊ ½ cas (3) T_Date3.2 : : Quand l indépendance de l Algérie a-t-elle été proclamée? lexcertitude(æê) lexevent(r, nonreg,_) L indépendance de l Algérie a été proclamée certainement le 5 juillet 1962 est faible ou moins lexcertitude(æê) lexevent(r, nonreg,_) ou moins certainement le 4 juillet Chapitre 4. Génération des réponses de type date en langue naturelle Ê¾Ê Ô Q T_Date3.3 : Q : Quand l ouragan Hugo a-t-il eu lieu? lex(deb-phrase) lexcertitude(æê) lexevent(r, nonreg,_) L ouragan Hugo a eu lieu probablement du 10 au 22 septembre 1989 mais plus lexcertitude(æê) lexevent(r, nonreg,_) mais plus probablement du 16 au 22 septembre ÆÊ ½ lex(deb-phrase) TAB. 4.1 Schémas de génération pour les réponses intégrées de type date : événements non périodiques

107 Q Ê Ô Événements périodiques Conditions Schémas de génération Exemples d application cas (1) T_Date1.2 : : Quand aura lieu l élection du président de l UPS? tous les lexperiode( ) probablement lexevent(r, reg, ) probablement en L élection du président de l UPS a lieu tous les 4 ans cas (2) T_Date2.2 : tous les lexperiode( ) lexevent(r, reg, ) : Quand a lieu la fête de la musique? La fête de la musique a lieu tous les ans le 21 juin. 91 Q cas (3) T_Date3.5 : Ê¾Ê Ô Q Ê¾Ê Ô : Quand a lieu la fête de la musique? ÆÊ ½ lex(deb-phrase) tous les lexperiode( ) est faible lexcertitude(æê) lexevent(r, reg, ) certainement le 21 juin ou moins lexcertitude(æê) lexevent(r, reg, ) ou moins certainement le 20 juin. T_Date3.6 : La fête de la musique a lieu tous les ans Q : Quand aura lieu le festival de Cannes? lex(deb-phrase) tous les lexperiode( ) Le festival de Cannes a lieu tous les ans lexcertitude(æê) lexevent(r, reg, ) probablement du 15 au 22 mai 2005 mais plus lexcertitude(æê) lexevent(r, reg, ) mais plus certainement du 11 au 22 mai TAB. 4.2 Schémas de génération pour les réponses intégrées de type date : événements périodiques 4.2. Conception des schémas de génération Ê¾Ê Ô Ó lex(deb-phrase) Q cas (3) T_Date3.4 : Ê¾Ê Ô : Quand a lieu le sommet du G8? Le sommet du G8 a lieu tous les ans tous les lexperiode( ) est élevé lexcertitude(æê) lexevent(r, reg, ) très certainement du 6 au 8 juillet ÆÊ ½ lex(deb-phrase) ÆÊ ½ lex(deb-phrase)

108 Chapitre 4. Génération des réponses de type date en langue naturelle 4.3 Exemples de réponses générées Dans cette section, nous présentons quelques exemples de réponses intégrées de type date générées par notre système. Connaissant les taux de cohérence des réponses élaborées lors de la détermination de contenu à partir des différentes réponses candidates, nous calculons le degré de certitude de la réponse choisie et nous générons la réponse en langue naturelle à partir du schéma de génération approprié. Exemple 1 À la question Quand Chomsky est-il né?, la seule réponse obtenue est R = [ , ] et son taux de cohérence vaut donc 1. Le degré de certitude de cette réponse est donc :ÆÊ ½. Nous somme ainsi dans le cas (2). Puisque l événement n est pas itératif (et donc pas périodique), c est le schéma T_Date2.1 qui doit être appliqué : lex(deb-phrase) lexevent(r, nonreg,_). Par conséquent, la réponse générée en langue naturelle est : Chomsky est né le 7 décembre Exemple 2 :ÆÊ ¼ ¼ ¼ µ ¼ ¼ À la question En quelle année D. Tutu a-t-il ( ¼ reçu le prix Nobel de la paix?, les réponses potentielles deê Ô Ó et leur taux de cohérence respectif sont : ([1981, 1981], 0.08), ([1984, 1984], 0.88) et ([1986, 1986], 0.04). La réponse R = ([1984, 1984], 0.88) est choisie car elle a le taux de cohérence le plus élevé et son degré de certitude est Nous sommes dans le cas (3) avec élevé ¼ ¼ ) c est-à-dire que la réponse choisie est beaucoup plus certaine que celle qui se classe deuxième par le taux de cohérence. L événement n est pas périodique. Il faut donc appliquer le schéma T_Date3.1 : lex(deb-phrase) lexcertitude(æê) lexevent(r, nonreg,_). Le degré de certitude deêest élevé : il est lexicalisé par un adverbe d intensité élevé. La réponse générée en langue naturelle est donc : D. Tutu a reçu le prix Nobel de la paix certainement en

109 4.3. Exemples de réponses générées Exemple 3 À la question Quand a eu lieu la guerre de Sécession?, les réponses potentielles deê Ô Ó et leurs taux de cohérence respectifs sont : - ([ , ], 0.29), - ([ , ], 0.33), - ([ , ], 0.32), - ([ , ], 0.31). ¼ ¾µ ¼ ¼ ¼¼. :ÆÊ ¼ La réponse R = ([ , ], 0.33) est choisie car elle a le taux de cohérence le plus élevé et son degré de certitude est ¼ ¾) donc Nous somme dans le cas (3) avec faible (¼ peuvent être utilisés : les schémas T_Date3.2 ou T_Date3.3 ou lex(deb-phrase) lexcertitude(æê) lexevent(r, nonreg,_) ou moins lexcertitude(æê) lexevent(r, nonreg,_). lex(deb-phrase) lexcertitude(æê) lexevent(r, nonreg,_) mais plus lexcertitude(æê) lexevent(r, nonreg,_). avecê¼= [ , ]. La réponse n est pas un événement itératif et son degré de certitude est très faible donc l adverbe qui le lexicalise doit être de très faible intensité. Par conséquent, les réponses en langue naturelle peuvent être : La guerre de Sécession a eu lieu probablement du 12 avril 1861 au 9 avril 1865 ou moins probablement du 17 avril 1861 au 9 avril ou mieux : La guerre de Sécession a eu lieu probablement du 17 avril 1861 au 9 avril 1865 mais plus probablement du 12 avril 1861 au 9 avril Dans cet exemple, les réponses potentielles deê Ô Ó ont quasiment le même taux de cohérence et ont toutes la même date de fin, ce qui renforce la certitude de cette information. On pourrait donc envisager de n appliquer le degré de certitude que sur la date de début (par exemple, la guerre de Sécession a commencé très probablement le 12 avril 1861 et s est terminé le 9 avril 1865) ou de regrouper ces 93

110 Chapitre 4. Génération des réponses de type date en langue naturelle intervalles (union) ce qui donnerait une date de début plus floue (par exemple, la guerre de Sécession a commencé très probablement en 1861 et s est terminé le 9 avril 1865). 4.4 Synthèse et discussion Dans cette partie, nous avons présenté la phase de génération en langue des réponses intégrées de type date. Le générateur de notre système combine plusieurs techniques de génération : des techniques de génération dite pure et des schémas sous-spécifiés. Nous n avons pas détaillé ici les techniques de génération pure concernant le processus de lexicalisation des dates mais des techniques classiques de lexicalisation et d agrégation doivent bien sûr être utilisées. Ainsi, la fonction de lexicalisationð Ü Ú ÒØpermet de lexicaliser une date comme [ , ] en 20 mai 2005 ou un intervalle comme [ , ] en du 14 avril 2004 au 20 mai En outre, des techniques d agrégation [Wilkinson, 1995] sont aussi utilisées afin, par exemple, d éliminer des redondances : ainsi, plutôt que de générer du 10 septembre 2004 au 22 septembre 2004, on générera du 10 au 22 septembre Nous avons vu dans la section que le degré de certitude de la réponse à générer peut être très faible : dans ce cas, la réponse proposée est considérée comme probable. Pourtant, cette solution peut être améliorée. Par exemple, si les deux meilleures réponses ont respectivement les taux de cohérence ¼ ¾et¼, alors vaut¼ ¼, ce qui donne un degré de certitude très faible. De la même manière, si les deux meilleures réponses ont respectivement les taux de cohérence¼ ¼ et¼ ¼, alors vaut aussi ¼ ¼. Dans ce cas, les deux réponses vont être générées avec le même adverbe alors que la réponse ayant un taux de cohérence à¼ ¾semble plus sûre que celle ayant un taux à¼ ¼. Pour améliorer ce point, il faudrait créer de nouveaux schémas de génération qui prendrait en compte non seulement le degré de certitude et le paramètre, mais aussi le taux de cohérence de la meilleure réponse. Il reste à résoudre des problèmes dus aux schémas correspondant aux événements périodiques (cf. tableau 4.2). En effet, ces schémas sont définis pour une réponse à une question au présent : par exemple, à la question Quand a lieu la fête de la musique?, le schéma va permettre de générer une réponse de la forme La fête de la musique a lieu tous les ans le 21 juin. En revanche, si la question posée est Quand a eu lieu la première fête de la musique? ou Quand aura lieu la prochaine fête de la musique?, une réponse comme La fête de la musique a lieu tous les ans le 21 juin n est pas forcément acceptable. Pour être vraiment coopératif, il serait préférable de donner une réponse telle que La fête de la musique a lieu tous les ans le 21 juin, la première fête a eu lieu le 21 juin

111 4.4. Synthèse et discussion Il faut donc définir des schémas composés de deux parties : une première partie comme celle présentée dans le tableau 4.2 qui explique à l utilisateur le caractère périodique de l événement et une seconde partie qui donne effectivement la date de l événement pour la question posée. Les schémas peuvent aussi être affinés dans certains cas. Par exemple, si les deux meilleures réponses sont des intervalles consécutifs (i.e. ils ont une borne en commun) et que est faible (i.e. les deux réponses ont un taux de cohérence très proche), alors on peut imaginer faire l union des deux deê Ô Ó intervalles. Dans un autre cas, si toutes les réponses deê Ô Ó ont une caractéristique commune, alors il est fort probable que celle-ci soit certaine. L adverbe d intensité peut alors porter sur les informations qui diffèrent pour nuancer leur degré de certitude. Par exemple, à la question Quand a commencé la guerre de Sécession?, toutes les réponses donnent comme année de début 1861 mais avec des jours ou des mois différents. On peut donc imaginer un schéma qui proposera une réponse comme La guerre de Sécession a commencé en 1861, plus probablement le 12 avril (cf. exemple 3 de la section précédente). 95

112 Chapitre 4. Génération des réponses de type date en langue naturelle 96

113 Chapitre 5 Évaluation pour les réponses de type date Pour notre système, nous avons plusieurs points essentiels à évaluer : l extraction des réponses candidates par la grammaire, la détermination de contenu, à savoir si la réponse élaborée est correcte ou non, la génération des réponses, à savoir si la formulation en langue est adéquate et compréhensible par l utilisateur. Pour cela, nous avons donc collecté un ensemble de 72 questions qui vont permettre l évaluation. Ces questions recouvrent tous les types de questions possibles de type date. Parmi ces 72 questions, 37 questions portent sur des événements uniques : ces questions sont issues du corpus de questions de la campagne TREC. Le corpus TREC ne comportant que très peu de questions portant sur des événements itératifs, nous avons ajouté 35 questions de ce type portant sur des événements grand public. Ces questions proviennent pour la moitié d entre elles du site d inventaire de questions Overture. Les autres sont des questions que nous avons créées et qui portent sur le même type d événement (cf. tableau 5.1). Le corpus de questions pour cette évaluation est donné en annexe B. Origine des questions Événement unique Événement itératif Total TREC Overture Autre Total TAB. 5.1 Origine des questions pour chaque type d événements évalués 97

114 Chapitre 5. Évaluation pour les réponses de type date Chacun de ces sous-ensembles de questions se décompose en questions portant sur : des points : uniques : par exemple, Quand est mort Beethoven?, itératifs : par exemple, Quand aura lieu la prochaine fête des mères?, des intervalles : duratifs : par exemple, Quand a eu lieu la guerre des six jours?, itératifs : par exemple, Quand a eu lieu la dernière coupe du monde de football? Le tableau 5.2 récapitule la distribution des différents types de question évalués. Réponse attendue Événement unique Événement itératif Total type point type intervalle Total TAB. 5.2 Nombre de questions pour chaque type d événements évalués Ceci va nous permettre de répondre à une question essentielle : sur quel(s) type(s) de réponses ou de données temporelles notre méthode est-elle la plus(la moins) efficace? 5.1 Évaluation de l extraction Pour évaluer la qualité de l extraction, nous avons soumis les 72 questions de type date à QRISTAL. Nous avons ensuite extrait les réponses candidates manuellement et nous avons comparé les résultats d une extraction manuelle avec les résultats obtenus par la grammaire d extraction. La grammaire parvient à extraire correctement les dates dans 74% des cas. Les échecs proviennent en très grande majorité de problèmes de référence. Par exemple, dans l extrait de page suivant Ludwig van Beethoven est né à Bonn le 17 décembre Sa mort à Vienne, le 26 mars 1827, donne lieu à un deuil national, la grammaire ne peut pas extraire la date de mort car elle ne peut pas résoudre la référence portant sur sa mort. Le problème se pose aussi dans le cas de références temporelles : notre grammaire ne permet pas par exemple de reconstruire une date à partir de références telles que à la veille de, à la fin du siècle,... Notons aussi des cas où la grammaire extrait des informations non pertinentes dues à une mauvaise connaissance du contexte ou une imprécision de la question. Par exemple, à la question quand est mort Beethoven?, il est fort probable que l utilisateur recherche la date de mort de Ludwig von Beethoven or la grammaire va extraire une date non pertinente dans la réponse Johann von Beethoven, le père de Ludwig, décéda le 18 décembre

115 5.2. Évaluation de la détermination de contenu 5.2 Évaluation de la détermination de contenu La campagne d évaluation TREC pour les systèmes question-réponse [Voorhees, 2003] vise à évaluer les systèmes question-réponse, en particulier en domaine ouvert, qui produisent des réponses plutôt que des documents et qui classent les réponses selon un score de confiance. Par exemple, COGEX [Moldovan et al., 2003], le système le plus performant, a obtenu un score de 83% de réponses correctes. Les autres systèmes participants ont répondu correctement aux 500 questions entre 54.2% et 26.6%. Quand plusieurs réponses candidates sont proposées comme réponses à une même question, il existe deux traitements possibles : soit on ne choisit qu une seule réponse parmi les réponses candidates soit on les utilise toutes afin de construire une réponse plausible. La première approche peut, par exemple, s effectuer sur la base d un comptage du nombre d occurrences des réponses candidates : on choisit alors la réponse la plus fréquemment donnée. C est une méthode notamment utilisée par [Clarke et al., 2001] ou [Brill et al., 2002]. Pourtant un simple comptage du nombre d occurrences des réponses candidates est parfois impossible ou non pertinent. Il est impossible notamment lorsque plusieurs réponses candidates ont le même nombre d occurrences (on ne peut alors pas en choisir une plutôt qu une autre) mais il est surtout non pertinent dans un grand nombre de cas. Reprenons l exemple de l ouragan Hugo. QRISTAL renvoie 11 réponses candidates provenant de 11 pages Web différentes. La majorité d entre elles (6 pages) donne comme réponse la date du 16 septembre 1989 (date à laquelle l ouragan a touché la Guadeloupe) : cette réponse est bien évidemment incorrecte (un ouragan ne dure pas qu une journée!). C est pourquoi nous avons préféré élaborer un algorithme de détermination de contenu qui prend en compte l ensemble des réponses candidates. Notre algorithme de détermination de contenu se ramène à un comptage de fréquence lorsque toutes les réponses candidates sont des points (et non des intervalles temporels). En effet, dans ce cas la durée moyenne des réponses vaut 1 (1 jour ou 1 année, etc) et la réponse choisie est donc celle ayant le taux de cohérence le plus élevé, i.e. celle dont le nombre d occurrences est le plus élevé. En revanche, notre algorithme de détermination de contenu est intéressant lorsque l on doit traiter des réponses candidates de type intervalle mais aussi et surtout lorsque la question impose des contraintes temporelles sur des événements itératifs. Cela nécessite bien-entendu quelques procédés de raisonnement, chose que ne peut pas résoudre un simple comptage de fréquence. Nous avons donc choisi d évaluer notre approche selon les critères présentés ci-dessous et de la comparer aux résultats obtenus par d autres méthodes Critères d évaluation Notre méthode peut être comparée à plusieurs autres approches. Les moteurs de recherche classiques peuvent ainsi être le premier élément évident de comparaison : en effet, pourquoi élaborer des 99

116 Chapitre 5. Évaluation pour les réponses de type date algorithmes de génération de réponse si des moteurs comme Google renvoient des réponses correctes? Ensuite, nous pouvons aussi nous demander ce que le système QRISTAL ou une méthode utilisant un comptage de fréquence obtiennent comme résultats. Nous avons donc choisi de comparer notre approche : au moteur de recherche Google : à savoir, quel est le rang du lien contenant la réponse correcte à la question?, existe-il des réponses incorrectes données avant la réponse correcte? au système QRISTAL : la réponse proposée par QRISTAL (i.e. la réponse candidate la mieux classée) est-elle correcte?, à un comptage de fréquence : la réponse la plus fréquemment donnée par QRISTAL est-elle correcte? Méthode L ensemble des 72 questions a été soumis en langue naturelle au système QRISTAL et sous forme de mots-clés à Google (par exemple, la question Quand Kennedy a-t-il été élu président des États-Unis? posée à QRISTAL devient Kennedy élu président États-Unis pour Google). Pour comparer notre méthode aux résultats de Google, nous avons donc soumis les 72 questions à Google sous forme de mots-clés et noté le rang du lien contenant la réponse correcte (donnée par l encyclopédie Universalis). Ceci nous donne une indication de l efficacité de Google : en effet, si un utilisateur trouve une réponse fausse dans le premier lien, il n ira pas forcément chercher la réponse ailleurs car il ne sait pas que l information qu il a trouvée est fausse. Nous avons ensuite posé toutes ces questions au système QRISTAL qui donne un ensemble de liens vers les réponses candidates et propose la réponse la mieux classée (cf. chapitre 2). Nous avons paramétré QRISTAL pour qu il renvoie au maximum 50 réponses candidates. De l ensemble des liens obtenus par QRISTAL nous n avons gardé que les réponses provenant de pages Web différentes et exclu manuellement les réponses aberrantes et incomplètes (dans notre corpus d évaluation, environ 85% des questions ont au moins une réponse incomplète, i.e. une réponse moins précise que les autres). Nous avons ensuite appliqué deux méthodes : notre algorithme de détermination de contenu et un comptage de fréquence (appelé ensuite Fréquence dans les tableaux présentant les résultats). Pour chacune des trois réponses obtenues respectivement par QRISTAL, par notre algorithme et par un comptage de fréquence, nous avons identifié plusieurs cas : réponse correcte : la réponse proposée est la même que celle donnée par l encyclopédie, réponse incluse : la réponse proposée (intervalle temporel) est incluse dans l intervalle donné par l encyclopédie, 100

117 5.2. Évaluation de la détermination de contenu réponse incomplète : la réponse proposée est incomplète, i.e. il manque une information par rapport à celle donnée par l encyclopédie (il manque le jour, l année, etc.), réponse incorrecte : la réponse proposée est complètement incorrecte, cas impossible : le choix de la réponse la plus fréquente est impossible car plusieurs réponses ont la même fréquence ou la réponse correcte ne se trouve pas parmi les réponses candidates. Pour l évaluation de Google, les cinq cas précédents sont définis plus finement. Ainsi, on compte comme réponse correcte seulement les réponses correctes qui sont données dans le premier lien ou qui ne sont pas précédées d une réponse incorrecte ou incomplète. Par exemple, si une réponse incorrecte est donnée au 2ème lien et que la réponse correcte est donnée au 5ème lien, alors la réponse n est pas comptabilisée comme correcte : on compte alors ces réponses comme incorrectes ou incomplètes selon le cas. Le cas "impossible" se présente quand aucune réponse n a été trouvée dans les 30 premiers liens proposés par Google Résultats Les tableaux suivants présentent les résultats obtenus pour chaque type d événement questionné. L évaluation ayant été réalisée sur un petit échantillon de questions, elle nous permet d avoir des indications de performance des différentes approches. Événements uniques ponctuels La figure 5.1 présente les résultats obtenus pour des questions portant sur des événements uniques et ponctuels (par exemple, Quand est mort Beethoven? le 26 mars 1827). Comme nous l avons déjà expliqué précédemment, notre algorithme de détermination de contenu revient à un comptage de fréquence pour ce type de questions. Ces deux méthodes obtiennent de bien meilleurs résultats que QRISTAL. Quant à Google, il donne la bonne réponse en moyenne au lien de rang 3, avec une majorité de bonnes réponses dans le lien de rang 1 (cf. figure 5.2). Si l on compare maintenant les résultats de notre approche avec ceux de Google, on remarque les mêmes tendances avec des résultats meilleurs pour notre algorithme. Google obtient beaucoup plus de réponses incomplètes : ceci peut s expliquer par le fait que Google propose les liens classés par ordre de fréquentation des pages et certaines pages beaucoup visitées, et donc bien classées, ne sont pas forcément des pages "spécialistes" de la question d où des réponses moins précises. 101

118 Chapitre 5. Évaluation pour les réponses de type date FIG. 5.1 Évaluation : événements uniques ponctuels FIG. 5.2 Distribution des rangs des réponses correctes de Google : événements uniques ponctuels En conclusion, pour les événements uniques et ponctuels, notre algorithme de détermination de contenu obtient des résultats satisfaisants et meilleurs que ceux de QRISTAL (89% de réponses correctes contre 61% pour QRISTAL). Du fait qu on s intéresse aux événements uniques et ponctuels, notre approche obtient les mêmes résultats qu un comptage de fréquence. En revanche, pour ce type d événements, notre approche n apporte pas de grande différence par rapport à Google (17%de réponses correctes en plus) qui dans la plupart des cas donne la bonne réponse dans le premier lien, cette différence n étant pas réellement significative du fait du petit échantillon de test. 102

119 5.2. Évaluation de la détermination de contenu Événements uniques duratifs La figure 5.3 présente les résultats obtenus pour des questions portant sur des événements uniques où la réponse attendue est un intervalle temporel (par exemple, Quand Nixon a-t-il visité la Chine? du 21 au 28 février 1972). FIG. 5.3 Évaluation : événements uniques duratifs Dans ce cas, notre algorithme de détermination obtient de bien meilleurs résultats que QRISTAL ou qu un comptage de fréquence, notamment parce que ces derniers sont incapables de reconstruire des intervalles. Quant à Google, il donne la bonne réponse en moyenne au lien de rang 3, avec une majorité de bonnes réponses dans les liens de rang 1 ou 2 (cf. figure 5.4). Si l on compare maintenant les résultats de notre approche avec ceux de Google, on remarque qu on obtient quasiment le même taux de réponse correcte. En revanche, alors que notre algorithme fournit des réponses incomplètes ou incluses, Google quant à lui donne un grand nombre de réponses incorrectes. En conclusion, pour les événements uniques et duratifs, notre algorithme de détermination de contenu obtient des résultats moyens mais bien meilleurs que ceux de QRISTAL ou qu un comptage de fréquence car il permet de reconstruire des intervalles à partir des différentes réponses candidates, chose que ne peuvent pas faire les deux autres approches puisqu elles traitent les réponses candidates individuellement et non dans leur globalité. Les résultats moyens pour le taux de réponses correctes viennent du fait que, contrairement au cas précédent, notre algorithme donne plus de réponses incluses ou incomplètes : ceci peut s expliquer notamment par le fait que la durée moyenne des réponses peut être biaisée par certaines réponses candidates trop imprécises. 103

120 Chapitre 5. Évaluation pour les réponses de type date FIG. 5.4 Distribution des rangs des réponses correctes de Google : événements uniques duratifs Par rapport à Google, notre algorithme obtient le même taux de réponses correctes. En revanche, contrairement à Google, notre algorithme ne donne pas de réponse incorrecte (on peut supposer qu il est préférable de donner une réponse incomplète plutôt qu une réponse fausse). Événements itératifs ponctuels La figure 5.5 présente les résultats obtenus pour des questions portant sur des événements itératifs ponctuels (par exemple, Quand a eu lieu la dernière éruption majeure du Mont St-Hélène? le 18 mai 1980). FIG. 5.5 Évaluation : événements itératifs ponctuels 104

121 5.2. Évaluation de la détermination de contenu FIG. 5.6 Distribution des rangs des réponses correctes de Google : événements itératifs ponctuels Dans ce cas aussi, notre algorithme de détermination obtient de bien meilleurs résultats que QRISTAL ou qu un comptage de fréquence, notamment parce que ces derniers sont incapables de reconstruire des intervalles. Quant à Google, il donne la bonne réponse en moyenne au lien de rang 4 ou 5, avec une majorité de bonnes réponses dans les liens de rang 1 ou 2 (cf. figure 5.6). Si l on compare maintenant les résultats de notre approche avec ceux de Google, on remarque qu on obtient des résultats sensiblement meilleurs pour le taux de réponse correcte. Encore une fois, alors que notre algorithme fournit plutôt des réponses incomplètes ou incluses, Google, quant à lui, donne un plus grand nombre de réponses incorrectes. Il existe aussi un petit nombre de questions (7%) auxquelles Google n a pas trouvé de réponses dans les 30 premiers liens. En conclusion, pour les événements itératifs et ponctuels, notre algorithme de détermination de contenu obtient des résultats satisfaisants et meilleurs (67% de réponses correctes) que ceux de QRISTAL ou qu un comptage de fréquence. Il obtient aussi de meilleurs résultats que Google pour le taux de réponse correcte et incorrecte (16% de réponses incorrectes contre 28% pour Google). Événements itératifs duratifs La figure 5.7 présente les résultats obtenus pour des questions portant sur des événements itératifs où la réponse attendue est un intervalle temporel (par exemple, Quand a eu lieu le festival de Cannes en 2005? du 11 au 22 mai 2005). 105

122 Chapitre 5. Évaluation pour les réponses de type date FIG. 5.7 Évaluation : événements itératifs duratifs FIG. 5.8 Distribution des rangs des réponses correctes de Google : événements itératifs duratifs Dans ce cas, notre algorithme de détermination obtient de très bons résultats car contrairement à QRISTAL, Google ou un comptage de fréquence, notre algorithme est capable de satisfaire les contraintes temporelles imposées par la question. Quant à Google, il donne la bonne réponse en moyenne au lien de rang 4 ou 5 (cf. figure 5.8) mais propose une grande majorité de réponses incorrectes (53%). C est donc pour les événements itératifs et duratifs que notre algorithme de détermination de contenu se montre le plus performant par rapport aux autres méthodes. Synthèse La figure 5.9 présente une synthèse des résultats obtenus pour les 72 questions. 106

123 5.2. Évaluation de la détermination de contenu FIG. 5.9 Évaluation sur 72 questions : synthèse L évaluation sur les 72 questions nous permet d avoir des indications de qualité de notre méthode. Tous types d événements confondus, notre algorithme de détermination de contenu obtient des résultats satisfaisants et meilleurs que les autres méthodes ou systèmes évalués. Il est en particulier plus performant sur le traitement des événements duratifs car il permet, contrairement aux autres approches, de reconstruire des intervalles à partir de plusieurs réponses candidates. Surtout, il n existe pas de cas où notre système est moins bon que les autres. Notre approche se différencie des autres par le fait qu elle informe sur le degré de certitude de la réponse mais aussi parce qu elle donne peu de réponses incorrectes mais plutôt des réponses incluses ou incomplètes (4% de réponses incorrectes contre 46% pour QRISTAL et 25% pour Google). Si l on analyse maintenant plus en détail les causes d échec de notre algorithme, on remarque que : pour les questions où notre algorithme a donné une réponse incorrecte, ceci est dû au fait que les réponses candidates proposées par QRISTAL étaient toutes incorrectes. De plus, pour toutes ces questions, Google n a pas non plus trouvé de réponse correcte, pour les questions où notre algorithme a donné une réponse incluse, les réponses candidates proposées par QRISTAL étaient soit des dates qui ont biaisé le calcul de la durée moyenne soit des intervalles flous (par exemple, en mai 2005 au lieu de du 11 au 22 mai 2005). Pour ces questions aussi, Google donne une majorité (80%) de réponses incorrectes ou incomplètes. Pour éviter que la durée moyenne des réponses ne soit biaisée, on peut envisager d apporter un certain nombre de connaissances sémantiques qui permettent d éliminer des réponses candidates incorrectes (pour l ouragan Hugo par exemple, plusieurs réponses candidates indiquent que l événement a duré plusieurs jours : on peut donc inférer qu un ouragan ne dure pas qu une journée et 107

124 Chapitre 5. Évaluation pour les réponses de type date ainsi supprimer les réponses candidates aberrantes), pour les questions où notre algorithme a donné une réponse incomplète, les réponses candidates proposées par QRISTAL étaient soit des dates qui ont biaisé le calcul de la durée moyenne soit des intervalles flous ou incomplets. Pour ces questions aussi, dans une grande majorité (67%) Google n a pas trouvé de réponse ou donne des réponses incorrectes ou incomplètes. Enfin, nous avons effectué l évaluation sur des réponses candidates obtenues par QRISTAL mais comptetenu des résultats satisfaisants de Google, il est légitime de se demander si l on pourrait utiliser ce dernier à la place de QRISTAL. Pourtant, on peut penser que les résultats de notre méthode ne seraient pas forcément meilleurs en utilisant Google comme moteur d extraction. En effet, si une question introduite par quand est posée à un système possédant un analyseur de questions, alors le système sait qu il doit rechercher dans les pages Web une information temporelle : c est ce que fait QRISTAL en recueillant, grâce à Google, un ensemble de pages contenant une information temporelle concernant le focus de la question. En revanche, quand la requête est soumise à Google, elle l est sous forme de mots-clés : le moteur connaît donc le focus mais ne sait pas forcément qu il doit rechercher une information temporelle. Les pages qui sont alors proposées peuvent ne pas répondre à la question. Par exemple, supposons que la question Quand est mort Beethoven? est posée à QRISTAL. Le système, après analyse, sait qu il doit rechercher une date. Si la requête est soumise à Google (par exemple, mort Beethoven ou Beethoven), le moteur va rechercher les pages les plus fréquentées qui contiennent ces mots et il est fort probable que les pages les mieux classées soient des pages de biographie ce qui explique pourquoi, pour ce genre de requêtes (événements uniques ponctuels), Google obtient de bons résultats lors de notre évaluation. En revanche, si une question comme Quand aura lieu le voyage de Chirac au Maroc? est soumise à Google sous la forme Chirac voyage au Maroc, alors le moteur, ne sachant pas qu il faut trouver une date, propose une très grande majorité de pages ne répondant pas à la question (pages relatant des discours, du voyage d une autre personnalité, etc.). L évaluation montre d ailleurs que Google obtient des résultats très moyens pour des événements qui ne sont pas uniques et ponctuels. Notre méthode ne pourrait donc pas s appliquer efficacement puisque Google ne propose pas toujours de réponses candidates pertinentes aux questions portant sur des événements duratifs ou itératifs. 108

125 5.3. Évaluation des réponses en langue naturelle 5.3 Évaluation des réponses en langue naturelle Le deuxième point à évaluer est la qualité des réponses générées. D une façon générale, il n existe pas de véritable méthode d évaluation pour les systèmes de génération automatique de langue naturelle [Dale et al, 1998]. Cependant, dans notre cas, il est intéressant d évaluer la bonne compréhension des réponses par les utilisateurs. L hypothèse que nous avons faite est l utilisation d adverbes pour rendre compte du degré de certitude des réponses proposées. L objectif est donc de vérifier : 1. si les utilisateurs perçoivent correctement les nuances de degré des adverbes, 2. si des formulations autres que les adverbes pourraient être utilisées Protocole Le protocole d évaluation est soumis à un ensemble de 12 sujets d âges, de langues maternelles et de niveaux d étude différents. Deux tâches sont proposées aux sujets : Tâche 1. Pour vérifier que les utilisateurs perçoivent correctement les nuances de degrés entre les adverbes, on leur demande de classer les phrases suivantes de la plus sûre à la moins sûre : 1. Chomsky est né très certainement le 7 décembre Chomsky est né probablement le 7 décembre Chomsky est né le 7 décembre Chomsky est né certainement le 7 décembre Chomsky est né très probablement le 7 décembre Le classement que l on doit obtenir, d après l échelle de la figure 4.2, est (3), (1), (4), (5), (2). Tâche 2. Pour vérifier si les utilisateurs préférent avoir des explications supplémentaires sur la réponse ou un degré de certitude exprimé d une autre manière (par exemple, en pourcentage), on leur demande de classer les réponses suivantes par ordre de préférence : 1. Chomsky est né très certainement le 7 décembre Chomsky est né le 7 décembre Cette réponse est sûre à 90%. 3. Le système a trouvé plusieurs réponses possibles mais Chomsky est né très certainement le 7 décembre

126 Chapitre 5. Évaluation pour les réponses de type date Tâche 1 Ordre correct 1 permutation Ordre incorrect Nombre de sujets TAB. 5.3 Évaluation des réponses en langue de type date : tâche 1 Tâche 2 Réponse préférée : 1 Réponse préférée : 2 Réponse préférée : 3 Nombre de sujets TAB. 5.4 Évaluation des réponses en langue de type date : tâche Résultats Les tableaux 5.3 et 5.4 présentent les résultats obtenus pour les deux tâches proposées. Pour la tâche 1, 8 sujets sur 12 (environ 66%) ont proposé un ordre pour les adverbes en accord avec notre proposition d ordonnancement. Deux sujets ont proposé un ordre correct mais avec une permutation (entre certainement et très certainement). Enfin, deux sujets ont proposé un ordre complétement différent de notre proposition. Ces résultats permettent de confirmer que globalement, les utilisateurs perçoivent correctement les nuances de degrés entre les adverbes de certitude. Pour la tâche 2, il n apparaît pas de large majorité pour le choix d une formulation de la réponse en langue. Ces résultats ne nous permettent donc pas de conclure : il faudrait réaliser ce protocole sur un plus grand nombre de sujets. 110

127 Conclusion Dans cette partie, nous avons présenté le problème de la génération de réponses de type date quand le moteur d extraction a sélectionné plusieurs réponses candidates à une même question. L objectif est d élaborer, à partir de l ensemble des différentes réponses candidates, une réponse qui satisfait les principes de coopérativité (et en particulier les maximes de quantité et de qualité). Pour cela, nous avons développé dans un premier temps un algorithme d intégration des dates qui élabore une réponse cohérente en termes de durée et vis-à-vis de l ensemble des réponses candidates. L évaluation a montré que les résultats de l algorithme étaient très satisfaisants et meilleurs que ceux des autres systèmes auxquels il a été comparé (QRISTAL et Google). En particulier, notre méthode obtient d excellents résultats pour les réponses aux questions portant sur des événements duratifs et itératifs. L analyseur de question est simulé et nous avons utilisé QRISTAL comme moteur de recherche puis nous avons appliqué et évalué notre algorithme sur les réponses candidates fournies par ce système. Il est bien évident que les résultats de l évaluation seraient sensiblement différents si l on avait utilisé d autres moyens que QRISTAL. Cependant, au vu des performances moyennes de QRISTAL, on peut penser que notre approche aurait au moins d aussi bons résultats si on l appliquait à d autres systèmes à performances équivalentes ou meilleures. L autre point que nous avons abordé dans ce chapitre est la génération des réponses intégrées de type date par l intermédiaire de schémas de génération. Nous avons ainsi défini un ensemble de templates qui permettent de proposer à l utilisateur une réponse coopérative accompagnée de parties explicatives. Ces explications prennent diverses formes : le degré de certitude exprimé par un adverbe indique à quel point la réponse est sûre, l indication d événement périodique, etc. Il reste à définir de nouveaux schémas pour pouvoir générer des réponses ayant des structures différentes, par exemple des énumérations quand plusieurs réponses ont le même degré de certitude, etc. 111

128 Conclusion 112

129 Troisième partie Intégration et génération de réponses de type numérique Table des matières Chapitre 6 Présentation du problème État de l art Une typologie des réponses numériques Processus général de traitement des réponses numériques Chapitre 7 Extraction des réponses candidates Grammaire d extraction Extraction des indices linguistiques Extraction des restrictions Problèmes lors de l extraction Chapitre 8 Génération des explications Détermination de contenu Explications en langue naturelle Synthèse

130 TABLE DES MATIÈRES Chapitre 9 Génération de la réponse directe Détermination de contenu Réponse directe en langue naturelle Justification de la réponse Synthèse Chapitre 10 Évaluation pour les réponses de type numérique Quelques problèmes Évaluation de l extraction Évaluation de la détermination de contenu Évaluation des réponses en langue naturelle

131 Introduction Dans cette partie, nous nous intéressons à l élaboration d une réponse synthétique obtenue à partir de plusieurs réponses de type numérique. Les questions de ce type sont relativement fréquentes sur le Web et portent sur des propriétés numériques telles que la distance, le poids, la quantité, etc. Pour identifier et comprendre les problèmes qui se posent, intéressons-nous aux exemples des figures 1 et 2. FIG. 1 Réponses de QRISTAL à Combien y a-t-il d habitants en France? La figure 1 présente un échantillon des réponses proposées par QRISTAL à la question Combien y a-t-il d habitants en France?. On remarque que l on obtient non seulement des réponses numériques non pertinentes (3 millions de personnes mal logées en France) mais aussi plusieurs réponses numériques qui sont à première vue différentes mais qui, en fait, sont des valeurs "datées" (62 millions au 1er janvier 2004, au 1er juillet 2005,...). Si l on se place dans une perspective coopérative, il faut éliminer les réponses incorrectes (pour respecter la maxime de qualité) puis générer une réponse à la question qui synthétise toutes les données disponibles 115

132 Introduction (pour respecter les maximes de quantité et de relation). Ainsi, une réponse coopérative idéale serait par exemple de la forme : Question : Combien y a-t-il d habitants en France? Réponse : La France comptait 62 millions d habitants en La population française a augmenté d environ 2 millions entre 1999 et La figure 2 donne un échantillon des résultats proposés par Google à la requête âge moyen du mariage en France. Ici, les pages donnent des âges qui diffèrent en fonction de l année, des hommes, des femmes, etc. FIG. 2 Réponses de Google à âge moyen du mariage en France 116

133 Dans ce cas, une réponse coopérative idéale serait par exemple de la forme : Question : Quel est l âge moyen du mariage en France? Réponse : L âge moyen du mariage en France est aujourd hui de 27,7 ans pour les femmes et de 29,8 ans pour les hommes. Il a reculé d environ 5,5 ans entre 1972 et Ces réponses sont composées de deux parties : 1. une réponse directe à la question plutôt qu une liste de réponses potentielles, qui satisfait les attentes de l utilisateur (maxime de qualité et de relation), 2. une explication qui synthétise l ensemble des données trouvées (maxime de quantité). Cette explication caractérise dans ces exemples le mode de variation de la valeur numérique. Ce modèle de réponse permet de présenter les informations d une façon synthétique et évite à l utilisateur de devoir fouiller dans un ensemble de pages pour trouver les informations pertinentes par rapport à sa requête. Pour parvenir à une réponse de cette forme, il est nécessaire d intégrer les différentes réponses trouvées par le moteur de recherche à plusieurs niveaux : 1. intégrer les réponses candidates pour produire la réponse directe à la question : l intégration consiste en la résolution des inconsistances et la satisfaction des attentes des utilisateurs, 2. intégrer les caractéristiques des réponses candidates pour en dégager des explications. Dans les chapitres suivants, nous commençons par présenter les principaux enjeux, problèmes et objectifs, puis nous détaillons chacune des étapes nécessaires à la génération de réponses telles que présentées ci-dessus. 117

134 Introduction 118

135 Chapitre 6 Présentation du problème Dans les sections suivantes, nous commençons par présenter un bref état de l art sur le traitement des valeurs numériques et la génération d explications, puis nous présentons chacune des étapes nécessaires à la génération de réponses telles que présentées en introduction. 6.1 État de l art Nous donnons dans les sections suivantes quelques éléments d état de l art sur les théories consacrées aux explications ainsi que sur les systèmes traitant des données numériques et de la génération d explications En théorie Beaucoup de domaines se sont intéressés aux explications. Citons par exemple les recherches en intelligence artificielle, et les systèmes experts en particulier, où un des buts était d expliquer les raisonnements menant aux décisions du système [Brézillon, 1994], [Karsenty, 1996]. D autres domaines comme la didactique [Balacheff, 1990] ou les sciences cognitives [Ganet et al, 2003] s y sont aussi largement intéressés sous différents angles : prise en compte du contexte, processus de catégorisation pour la comparaison d objets, etc. Dans tous ces domaines de recherche, la définition de l explication est large : elle permet entre autres d exposer, de commenter, d argumenter, de justifier, de raisonner, etc. Sont définis généralement trois niveaux d explications : le premier niveau prend la forme la plus simple : les explications (appelées explications descriptives) sont utilisées pour décrire des objets et leurs propriétés, le deuxième niveau établit des liens entre les objets (par exemple des liens cause/conséquence), 119

136 Chapitre 6. Présentation du problème le troisième niveau décrit un raisonnement, en prenant en compte, par exemple, les liens de causalité. Enfin, en pragmatique, la théorie de la pertinence [Sperber et Wilson, 1986] s est intéressée à la pertinence des énoncés, et en particulier à la pertinence des conclusions dérivées d un ensemble de données [Van der Henst et al, 2002]. Selon cette théorie, une information est jugée pertinente si elle permet d apporter de nouvelles connaissances à l utilisateur, de réviser ses croyances ou encore de répondre à ses questions tout en minimisant ses efforts cognitifs. Ainsi, une conclusion (respectivement une explication) dérivée d un ensemble de prémisses (respectivement de données) n est pas plus pertinente que l ensemble initial du point de vue de l effet produit mais peut être plus pertinente du point de vue de l effort cognitif à fournir par l utilisateur qui sera moindre En pratique La génération d explications a été étudiée notamment dans le cadre des systèmes experts et de la génération de langue naturelle. Nous présentons quelques éléments ici Les systèmes experts La génération d explication dans les systèmes experts avait pour but à l origine d expliquer le raisonnement effectué ou de justifier la solution proposée à l utilisateur (citons par exemple le système MYCIN développé à l université de Stanford dans les années 70). Ceci était principalement effectué en produisant une trace du raisonnement mais il est vite apparu que cette méthode n était pas entièrement satisfaisante. Des systèmes experts permettant de générer des explications adaptées à chaque type d utilisateur ont donc fait leur apparition. Citons par exemple le système XPLAIN [Swartout, 1983] qui produit des explications en faisant varier le nombre d étapes du raisonnement à inclure. Le système de [Wallis et al, 1984] génère des explications qui sont adaptées au niveau d expertise des utilisateurs ainsi qu au nombre d informations qu ils souhaitent. Pour cela, les utilisateurs associent une mesure de complexité à chaque règle et concept de la base de connaissances. D autres systèmes comme TAILOR [Paris, 1990] ou ADVISOR [McKeown et al, 1985] produisent des explications adaptées respectivement aux connaissances et aux buts des utilisateurs Les systèmes de génération de langue naturelle Quelques systèmes de génération de langue naturelle se sont intéressés à la génération de résumés à partir de données numériques, qui s apparentent à des explications descriptives. Citons par exemple le système ANA [Kukich, 1983] qui génére des résumés des fluctuations journalières des actions en bourse. Les données en entrée sont les prix des actions fournis toutes les demi-heures. Le système calcule ensuite 120

137 6.1. État de l art les variations pour chaque intervalle temporel, ainsi que les points le plus bas et le plus haut pour une journée donnée. S inspirant de ce système, StockReporter [Dale, 2003] a été développé afin de générer des résumés décrivant l évolution d une action pendant une période donnée. C est un système de génération dynamique de document en ligne qui prend en entrée des prix d actions et génère des rapports pour une action et une période demandées par l utilisateur, en incorporant des textes et des graphiques issus du Web. L évolution de l action choisie peut aussi être comparée à celle du Dow Jones ou du NASDAQ. Le système FoG [Goldberg et al., 1994] produit, quant à lui, des bulletins météorologiques pour le grand public et la marine, en français et en anglais. Les données en entrée sont des paramètres météorolgiques (atmosphère, température,...) pris toutes les heures. Citons enfin le projet SumTime qui a donné naissance à plusieurs systèmes : SumTime-Mousam [Sripada et al, 2003a] est un système qui, comme FoG, génère des prévisions météorologiques à partir de simulations atmosphériques, SumTime-Neonate [Sripada et al, 2003b] génère des résumés à partir de données obtenues par des capteurs pour les bébés en soins intensifs, SumTime-Turbine [Yu, 2004] génère des résumés présentant les données de capteurs de turbines. Par exemple, SumTime-Mousam génère un texte initial à partir de prédictions météorologiques numériques (vitesse du vent, température, etc.). Aidé de ce texte, un expert peut ensuite modifier les prévisions si nécessaire et un texte révisé est généré. Les systèmes issus du projet SumTime effectuent les tâches suivantes : analyse des tendances des données en entrée (identification de pics, oscillations, etc.) par interpolation, régression linéaire, etc., détermination des informations à mettre dans le résumé (en utilisant des techniques et une ontologie du domaine suggérées par des experts), choix des mots et des structures linguistiques à utiliser dans le texte final grâce à une analyse fine des choix faits par des rédacteurs humains, génération du texte en utilisant une grammaire spécifique au domaine. Dans le cadre du traitement des valeurs numériques, d autres systèmes se sont aussi intéressés à la génération parallèle de graphiques et d explications descriptives, les explications étant essentiellement les légendes des graphiques. En effet, certaines présentations graphiques complexes peuvent être difficiles à comprendre pour les utilisateurs, surtout quand plusieurs attributs et relations sont représentés. Des études ont montré que l ajout de légendes explicatives peut améliorer significativement la compréhension d un graphique [Nugent, 1983], [Large et al, 1995]. 121

138 Chapitre 6. Présentation du problème Dans ce but, le système proposé par [Mittal et al, 1998] permet de générer en langue naturelle des légendes accompagnant des graphiques complexes qui présentent divers ensembles de données. Ce système intègre deux autres systèmes : SAGE qui permet de générer les graphiques représentant des informations quantitatives, temporelles, géographiques, etc. et, un générateur de langue qui détermine le contenu et la structure des légendes. La figure 6.1 montre un exemple de sortie du système. Les légendes permettent principalement d expliquer à l utilisateur comment sont représentées les données (en particulier les axes). FIG. 6.1 Génération de graphiques et de légendes [Mittal et al, 1998] Le système PostGraphe [Fasciano et al, 2000] permet, quant à lui, de générer des graphiques et des explications en français plus précises concernant des valeurs numériques. Ces explications permettent notamment de décrire des évolutions temporelles (augmentation, diminution ou stabilité), des comparaisons, des corrélations ou des distributions. La figure 6.2 montre un exemple de différentes explications possibles. 122

139 6.1. État de l art FIG. 6.2 Génération de graphiques et de légendes par PostGraphe Synthèse Nous avons donné ici quelques éléments de définition et d application des explications dans différents domaines de recherche tels que l intelligence artificielle, les sciences cognitives ou le traitement de la langue, du point de vue de la génération de langue en particulier. Les explications que nous proposons de produire, et que nous avons présentées dans l introduction de ce chapitre, sont essentiellement des explications dites descriptives. Elles doivent permettre notamment : de présenter l ensemble des réponses candidates trouvées sur le Web de manière synthétique afin d être coopératif en respectant la maxime de quantité. L explication doit être concise pour ne pas "submerger" l utilisateur avec des informations qu il n a pas demandées, d apporter des informations additionnelles à l utilisateur en lui expliquant les phénomènes caractéristiques (évolution, etc.) de la valeur numérique à laquelle il s intéresse. En effet, si le système laisse à l utilisateur le soin de manipuler les données numériques extraites pour en tirer ses propres observations (par exemple, que le prix d une voiture est différent selon le modèle, le carburant, etc.), alors c est l utilisateur qui doit fournir des efforts, faire des calculs pour avoir les informations et ceci va à l encontre de la théorie de la pertinence. Le but des explications que nous souhaitons produire est donc de minimiser les efforts à faire par l utilisateur. 123

140 Chapitre 6. Présentation du problème Les systèmes présentés précédemment ont des modules d analyse des données numériques plus ou moins efficaces mais ne décrivent, pour la plupart, que des évolutions numériques temporelles. De plus, ces systèmes prennent en entrée des données qui ne sont pas contradictoires. Dans le cadre des systèmes question-réponse, nous avons vu au chapitre 1 que ces systèmes ne fournissent pas directement d explication car ils ne génèrent pas de réponse en langue naturelle. De plus, il existe d autres problèmes majeurs que les systèmes présentés précédemment ne traitent pas ou du moins n ont pas besoin de résoudre. Par exemple, quand une question numérique est soumise à un système questionréponse, un ensemble de données numériques est extrait du Web. Le but est ensuite, non pas de décrire l ensemble des données (par un résumé par exemple), mais de trouver une réponse appropriée qui satisfait les attentes de l utilisateur et qui résoud les phénomènes d inconsistance des données. De plus, il est intéressant de pouvoir générer des explications qui décrivent non seulement une évolution temporelle des données numériques mais aussi d autres types de variation, par exemple selon le lieu, etc. Nous commençons par définir les types de questions et de données numériques auxquelles nous nous intéressons, puis nous présentons les différentes étapes qui permettent d élaborer une réponse coopérative telle que celle présentée en introduction. 6.2 Une typologie des réponses numériques Afin d identifier les différents types de réponses numériques, nous avons rassemblé un ensemble de 80 paires question-réponses issues du Web en nous appuyant sur une typologie des valeurs numériques (cf. figure 6.3) que nous avons construite en combinant celles définies par [Monceaux, 2001] et [Hovy et al., 2002] (par exemple, quand certains types étaient absents d une des typologies et présents dans l autre). Le tableau 6.1 présente la distribution des paires pour chaque type numérique. FIG. 6.3 Typologie des valeurs numériques L ensemble de questions est composé des 47 questions numériques du corpus d étude (cf. chapitre 1). Nous y avons ajouté des questions provenant des sites d inventaire de requêtes sur le Web (27% des questions) ainsi que des questions portant sur des faits d actualité grand public (14% des questions). 30 de 124

141 6.2. Une typologie des réponses numériques Type ontologique Nombre de questions temps 6 profondeur 7 température 7 âge 8 poids 8 vitesse 8 longueur (taille) 8 hauteur 8 prix 10 quantité 10 TAB. 6.1 Distribution des questions par type ontologique dans le corpus ces questions ajoutées sont données en annexe C (elles seront utilisées au chapitre 10 pour l évaluation). Le but est ensuite de déterminer pour chaque paire question-réponses : 1. si la question accepte une ou plusieurs réponses (i.e. si les réponses candidates sont respectivement en relation d alternative ou d agrégation, cf. chapitre 1), 2. pourquoi les valeurs numériques obtenues sont différentes : est-ce ou non une inconsistance? une évolution? si oui, selon quel(s) critère(s)? L analyse de ces paires question-réponses nous a permis d identifier les cas suivants. La question n a qu une seule réponse possible Par exemple, À quel âge est mort Zola?, Combien de temps dure le Festival de Cannes?,... Ce cas correspond au cas par défaut : les réponses candidates ne se trouvent dans aucune des configurations présentées par la suite. En effet, dans ce cas, il n y a pas d évolution des données numériques et la génération d une explication est alors impossible. Seule la réponse directe est à générer. Dans ce cas, si l on obtient plusieurs réponses candidates différentes, il y a forcément une inconsistance qu il faut résoudre (relation d alternative). Nous verrons comment dans le chapitre

142 Chapitre 6. Présentation du problème La question a plusieurs réponses possibles Ces cas se produisent essentiellement parce que les valeurs numériques recherchées dépendent ou évoluent selon certains critères, ceux-ci n étant pas forcément précisés dans la question (relation d agrégation). Considérons les exemples suivants. Exemple 1 : Q : Quelle est la hauteur du Mont-Blanc? R : - Longtemps, l altitude officielle du Mont-Blanc a été de 4807 mètres. - Nouvelle hauteur officielle pour le Mont-Blanc : 4808,45m (17/10/03) Dans cet exemple, on obtient plusieurs réponses numériques différentes car la valeur numérique recherchée (hauteur) est une propriété qui varie dans le temps. Les réponses candidates situent d ailleurs ces valeurs dans le temps (dates (17/10/03), adverbes de temps (longtemps), autres indices (nouvelle)). Exemple 2 : Q : Quel est l âge moyen du mariage des femmes en 2004? R : - En Iran, l âge moyen du mariage des femmes a reculé de 19 à 21 ans en En 2004, les femmes au Maroc se marient en moyenne à 27 ans. Dans cet exemple, on obtient plusieurs réponses numériques différentes car la valeur numérique recherchée (âge du mariage) dépend du lieu (en Iran, au Maroc). Exemple 3 : Q : À quelle température servir le vin? R : - Bordeaux rouge : il se boit chambré donc au moins à 18ÆC. - Champagne et vins mousseux : entre 8 et 10ÆC. - Vins blancs : comptez de 8 à 10ÆC. Dans cet exemple, on obtient plusieurs réponses numériques différentes car la valeur numérique recherchée (température) dépend du type de vin. Exemple 4 : Q : Quel est l âge moyen du mariage? R : - En 1972, l âge moyen du mariage en France était de 24,5 ans pour les hommes et 22,4 ans pour 126

143 6.2. Une typologie des réponses numériques les femmes. - Les français en 2000 : âge moyen du mariage : 27,7 pour les femmes / 29,8 pour les hommes. - En Iran, l âge moyen du mariage des femmes a reculé de 19 à 21 ans en Enfin, dans cet exemple, on obtient plusieurs réponses numériques différentes car la valeur numérique recherchée (âge) varie selon le temps (en 1972, au 1er janvier 2000, en 2004), le lieu (en France, en Iran) mais aussi selon le type de personnes (pour les hommes/ femmes). Ces quelques exemples nous permettent de dégager les trois principaux critères de variation des valeurs numériques que l on a trouvés dans notre corpus : le temps (cf. exemple 1), le lieu (cf. exemple 2), les autres restrictions (restrictions qui expriment des propriétés du focus de la question : par exemple, Bordeaux et Champagne pour vin, cf. exemple 3). Nous les définissons plus tard. Ces trois critères peuvent aussi se combiner : par exemple, des valeurs peuvent dépendre du temps et du lieu, du temps et de restrictions, etc. (cf. exemple 4). Dans notre corpus, ces critères de variation s appliquent à tous les types de valeurs numériques et apparaissent fréquemment lorsque la question est imprécise ou qu elle n impose pas de contrainte sur ces critères. Ainsi, la question Combien y a-t-il d habitants en France? obtient plusieurs réponses à des dates différentes parce que la question, qui porte sur une donnée qui évolue au cours du temps, n impose pas explicitement de contrainte temporelle : une question plus précise qui éviterait ce problème serait Combien y a-t-il d habitants en France en 2006? Dans notre cadre, nous nous intéressons à tous les types de questions, précises ou imprécises. Dans ce dernier cas, il est nécessaire de fixer un ensemble de règles qui permettent de proposer quand même une réponse directe satisfaisant au mieux l utilisateur. Nous présentons ces règles ultérieurement. La figure 6.4 présente quelques exemples de paires question-réponses pour chaque critère de variation. Pour la suite, nous avons choisi de ne pas nous intéresser aux questions portant sur des prix et des distances puisqu il existe déjà de nombreux sites Web dédiés (Mappy, Kelkoo, etc.). 127

144 Chapitre 6. Présentation du problème FIG. 6.4 Exemples de paires question-réponses par critère de variation 6.3 Processus général de traitement des réponses numériques Comme le montre la figure 6.5, l élaboration de réponses numériques coopératives telles que présentées précédemment nécessite quatre principales étapes : l analyse de la question : nous supposons que, pour chaque question, l analyseur de question fournit le type de réponse attendue, le focus (ce sur quoi porte la question) ainsi que les éventuels modifieurs (de temps, de lieu, etc.) (cf. chapitre 2), l extraction, via une grammaire dédiée, des réponses candidates dans les pages Web sélectionnées par le moteur de recherche, la caractérisation de la variation numérique (critères et mode de variation), si nécessaire, la génération en langue de la réponse directe et d une explication synthétique. 128

145 6.3. Processus général de traitement des réponses numériques FIG. 6.5 Schéma général du traitement des réponses numériques Nous présentons chacune de ces étapes dans les chapitres suivants. 129

146 Chapitre 6. Présentation du problème 130

147 Chapitre 7 Extraction des réponses candidates Comme pour les questions temporelles, notre système réalise l extraction des informations à partir des réponses proposées par QRISTAL. A la différence des questions temporelles où les réponses étaient extraites des "snippets", l extraction se fait ici dans les pages Web entières. En effet, pour les questions numériques, il faut souvent parcourir tout le texte pour trouver des informations sur le contexte des valeurs, des indices de variation, etc. Une fois que QRISTAL a sélectionné les pages Web candidates, il faut vérifier que chacune d entre elles contient les informations nécessaires à la génération d une réponse appropriée et les extraire (ceci est réalisé par la grammaire présentée par la suite). Ces informations sont : la valeur numérique recherchée (notée val), l unité de mesure, le focus de la question, la date et le lieu de l information, les restrictions (qui expriment des propriétés) du focus. L étude de corpus nous a aussi permis d identifier un certain nombre d informations essentielles à la caractérisation des valeurs numériques. Ce sont principalement des indices linguistiques indiquant notamment : le degré de précision de la valeur numérique (par exemple, des adverbes ou des prépositions comme environ, autour de, presque, etc.), une variation de la valeur numérique (par exemple, des adverbes de temps, des verbes de changement, etc., comme augmenter, monter, etc.). 131

148 Chapitre 7. Extraction des réponses candidates Notre étude mène à la définition d une frame 8Ö qui rassemble toutes ces informations pour une Ö ¾ valeur numérique. Précision Unité Val Focus Variation Restriction Date Lieu Une grammaire extrait ces informations des pages Web candidates : on obtient ainsi un ensembleê constitué deæframes représentant lesæréponses candidates :Ê Ö½ ÖÆ. 7.1 Grammaire d extraction Certains systèmes question-réponse [de Chalendar et al., 2003], [Brill et al., 2001] reformulent les questions sous une forme affirmative pour extraire le moins de variations possibles par rapport à la formulation d origine de la question : par exemple, pour la question Quand est mort Beethoven?, seule la reformulation exacte Beethoven est mort le... est recherchée et extraite. D autres approches permettent d apprendre automatiquement un ensemble d expressions capables de paraphraser la réponse à une question [Duclaye, 2003]. Cependant, ces méthodes ne nous permettent pas d extraire les modifieurs ou informations contextuelles telles que la date, le lieu et les restrictions. De plus, nous devons pouvoir tolérer différentes formulations de réponses, en particulier différentes lexicalisations pour le verbe utilisé qui peut apporter des indices intéressants pour la caractérisation de la variation des valeurs numériques. Nous avons défini une grammaire d extraction (équivalente à des patrons d extraction via une énumération récursive) qui s applique aux textes entiers "nettoyés" (suppression des balises, des scripts, etc.) des pages Web sélectionnées par QRISTAL. Les textes sont ensuite découpés en phrases. Notre grammaire s applique à chaque phrase et extrait les informations recherchées au sein d une même phrase sans analyse syntaxique préalable : les phrases doivent au moins contenir le focus de la question ainsi qu une valeur numérique correspondant au type de réponse attendue. Si des informations relatives au focus et à la valeur numérique se trouvent dans des phrases différentes, alors ces informations ne peuvent être extraites. 8 Nous appellerons frame le "formulaire" d extraction qui doit être rempli par la grammaire. 132

149 7.1. Grammaire d extraction De plus, la grammaire ne considère que les phrases ayant des formes syntaxiques bien définies : des phrases nominales (par exemple, Hauteur du Mont-Blanc : 4810 mètres), des phrases verbales (par exemple, la hauteur du Mont-Blanc est de 4810 mètres). La grammaire d extraction est définie par un quadruplet Réponse ÆÌ Ì Ê µoù : Réponse est le symbole initial qui représente une réponse candidate (chaque phrase des textes) et qui se réécrit en symboles non-terminaux et terminaux par des règles de réécriture, ÆÌest l ensemble des symboles non-terminaux, Ìl ensemble des symboles terminaux (notés en italique dans la grammaire) et, l ensemble des fonctions qui permettent d accèder aux éventuelles ontologies (par exemple, fils(focus) ou partie(focus)), Ê l ensemble des règles, avec en particulier : NT = {Focus, Date, Lieu, Verbe, Unité,...} représentant entre autres les champs des frames, Focus est le focus de la question, X représente une suite finie de mots autres que les verbes définis dans l ensemble des verbes terminaux, Unité se dérive selon le type de réponse attendue : si la question attend une réponse de type poids alors Unité se dérive en unité de mesure de poids, etc. Nous donnons ici les principales règles de la grammaire d extraction. Les règles sont de la forme : «avec«¾ Ê ÔÓÒ ÆÌµet ¾ Ì ÆÌ µ. Les éléments qui ne sont pas obligatoirement présents dans la phrase analysée sont entre crochets. On note "_" les éléments inutiles à l analyse et la virgule est un symbole de précédence ( signifie que doit apparaître avant dans la phrase). Les deux premières règles sont les règles principales. Elles sont gérées par un superviseur : la première permet d extraire dans un premier temps les informations essentielles (valeur numérique, unité, restriction, etc.), puis en cas de succès la seconde permet d extraire les modifieurs de temps et/ou de lieu. Superviseur : Réponse (Frame_entrée, Frame_sortie, Phrase) Information_num(Frame_entrée, Frame_entree1, Phrase), Modifieurs(Frame_entrée1, Frame_sortie, Phrase). 133

150 Chapitre 7. Extraction des réponses candidates Information_num (Frame_entrée, (val = Val, unité = Unité, précision = Précision, focus = Focus, date =, lieu =, restriction = Restriction, variation = Variation), Phrase) Focus, [Restriction], Ponct, X, [Précision], Val, Unité Focus, [Restriction], Verbe, _, [Précision], Val, Unité Modifieurs (Frame_entrée1, (val = Val, unité = Unité, précision = Précision, focus = Focus, date = Date, lieu = Lieu, restriction = Restriction, variation = Variation), Phrase) _, [Date], _, [Lieu], _ _, [Lieu], _, [Date], _ Ponct : - ( Verbe Variation peser mesurer estimer... Variation augmenter diminuer monter tomber Précision... environ en moyenne plus de... Lieu Pays Ville... Restriction Ontologie_Domaine Prop_base Ontologie_Domaine fils(focus) partie(focus) propriété(focus) fils(focus) propriété(fils(focus)) Prop_base Couleur Forme Matière... Forme rond rectangulaire... Matière verre terre métal fer acier L utilisation de la règle Ontologie_Domaine est présentée dans la section Pour l extraction des lieux, nous disposons d une ontologie des lieux géographiques construite à partir des données disponibles sur le Web 9 (cf. figure 7.1). La figure 7.2 montre le résultat d une extraction obtenue à partir de 10 phrases pour la question Quel est l âge moyen du mariage en France?. 7.2 Extraction des indices linguistiques Pour l extraction des verbes, nous avons identifié, à partir d une classification de verbes du français [Saint-Dizier, 1999], 101 verbes qui peuvent s appliquer à des valeurs numériques. 9 http :// 134

151 7.2. Extraction des indices linguistiques FIG. 7.1 Extrait de l ontologie des lieux géographiques Ces verbes sont issus des classes : de changement : augmenter, diminuer, évoluer, etc., de mouvement : monter, descendre, grimper, tomber, etc., utilisés dans des usages métaphoriques [Moriceau et al, 2003], d état : mesurer, peser, etc. Pour l extraction des informations de type précision, nous avons utilisé la ressource PrepNet qui fournit une description syntaxique et sémantique des prépositions [Saint-Dizier, 2005]. Nous nous sommes plus particulièrement intéressés aux prépositions et locutions prépositionnelles de la classe de quantité : quantité précise : à, jusque, sous, au dessus de, en dessous de, moins de, plus de, quantité approximative : autour de, entre... et... Nous avons ajouté à ces prépositions un ensemble d adverbes qui sont des indices de précision des valeurs numériques (environ, presque, à peu près,...). Au total, nous avons identifié une quinzaine de prépositions et d adverbes. Ces indices linguistiques (verbes, adverbes et prépositions) sont définis dans le lexique. 135

152 Chapitre 7. Extraction des réponses candidates FIG. 7.2 Exemple d extraction : Quel est l âge moyen du mariage en France? 7.3 Extraction des restrictions Nous avons vu au chapitre 6 que certaines valeurs numériques peuvent varier en fonction de certaines propriétés du concept en question. Si l on veut pouvoir produire une réponse précise et qui explique ces variations, il faut que le système puisse identifier ces propriétés. Nous montrons ici quelle est l influence des connaissances sur la qualité des réponses produites Impact de l absence de connaissances Supposons que le système ne dispose pas de connaissance sur les propriétés des concepts. Considérons les deux exemples suivants. À la question Quel est le salaire d un maître de conférences?, on trouve sur le Web les réponses candidates suivantes : - Le salaire d un maître de conférences est d environ 1600 euros net mensuel en début de carrière et 136

153 7.3. Extraction des restrictions 2600 euros net mensuel en fin de carrière. - Un maître de conférences à l Université gagne en début de carrière 1405 euros nets mensuels. Pour cet exemple, sans connaissance, le système est incapable d extraire des propriétés comme net, mensuel ou en début de carrière. Le système va donc n extraire que les valeurs numériques 1600, 2600, 1405 et générer une réponse telle que le salaire d un maître de conférence est entre 1405 et 2600 euros. Cette réponse est relativement correcte mais elle ne précise pas les propriétés qui expliquent la variation du salaire. De même, à la question Quelle est la température de service des vins?, on trouve sur le Web les réponses candidates suivantes : - champagnes et vins blancs secs : 9 à 10ÆC. - vins rosés : 8 à 12ÆC. - vins blancs : 11 à 14ÆC. - vins rouges, Bordeaux, Banuyls, etc. : 14 à 18ÆC. Sans connaissance sur des propriétés génériques comme les couleurs ou des propriétés plus spécifiques aux vins, le système va extraire les températures et générer une réponse de la forme la température de service des vins est entre 8 et 18ÆC. Ici encore, la réponse n est pas incorrecte mais assez imprécise. Notre système peut donc produire des réponses acceptables sans connaissance a priori mais on voit bien l apport des connaissances sur la qualité et la précision des réponses. Pour mieux mesurer l apport de ce genre de connaissances, il faudrait mener une évaluation pour vérifier si les utilisateurs trouvent utile ou pertinent d avoir des présicions sur les différentes propriétés. Nous montrons dans les sections suivantes comment des connaissances génériques ou spécifiques à un domaine peuvent être utilisées pour améliorer la qualité des réponses. Pour environ la moitié des questions de notre corpus, il n y a pas de propriété des concepts à extraire. Dans les autres cas, nous avons identifié deux types de propriétés : 1. des propriétés qui concernent la dimension mesurée : nous appelons ce concept le "mesureur", et 2. des propriétés qui concernent l objet mesuré. Par exemple, dans hauteur du Mont-Blanc, hauteur est le "mesureur" et Mont-Blanc est le "mesuré". 137

154 Chapitre 7. Extraction des réponses candidates Propriétés du "mesureur" Nous appelons concept "mesureur" le concept qui exprime la quantité ou le type numérique recherché, par exemple hauteur, prix, poids, etc. Il correspond au type de réponse attendue. Un certain nombre de modifieurs s appliquent fréquemment à ces concepts et permettent d exprimer des différences entre des valeurs numériques. Par exemple, un même salaire peut avoir des valeurs différentes selon que l on considère la valeur du salaire net ou brut. Il est donc primordial de pouvoir extraire ces modifieurs afin d identifier correctement les variations numériques. Pour identifier et extraire les modifieurs exprimant des propriétés, nous avons appliqué une méthode de "bootstrapping" : nous avons soumis chacun des concepts "mesureur" à Google et récupéré l ensemble de leurs modifieurs, essentiellement des adjectifs. Ceci permet de collecter les modifieurs les plus fréquemment utilisés et les plus pertinents pour chaque concept. Ces modifieurs sont essentiellement : temporels : ancien, actuel, officiel, annuel, etc., algébriques : des modifieurs génériques (moyen, total, maximum,...) et d autres plus spécifiques (par exemple pour le domaine financier, hors-taxe, brut,...). Par exemple, dans le montant mensuel brut du SMIC, les modifieurs mensuel et brut s appliquent au "mesureur" montant. Dans la hauteur actuelle du Mont-Blanc, le modifieur actuelle s applique au "mesureur" hauteur. Enfin, nous avons identifié un ensemble de modifieurs non pertinents, c est-à-dire qu ils n expriment pas des propriétés du concept, par exemple des modifieurs qui expriment un point de vue subjectif (idéal, excessif, avantageux, nécessaire, etc.). Nous avons décidé de ne pas les considérer lors de l extraction car ils ne sont pas pertinents pour identifier une variation numérique. En effet, ces modifieurs peuvent être supprimés sans changer pour autant la valeur numérique : par exemple, l adjectif idéal peut être supprimé dans le poids idéal d un bébé à la naissance est de 3,5kg sans avoir d influence sur la valeur numérique. Au contraire, si l on supprime l adjectif ancienne dans ancienne hauteur du Mont-Blanc : 4807 mètres, ceci peut entraîner de fausses présuppositions. Au total, nous avons donc défini dans le lexique un ensemble, non exhaustif, d environ 50 modifeurs temporels et algébriques qui sont utilisés comme modifieurs du concept "mesureur" Propriétés du "mesuré" Nous appelons concept "mesuré" le concept focus de la question. Ici encore, de nombreux modifieurs peuvent s appliquer et permettent de préciser la valeur numérique recherchée pour une propriété particulière du focus. Extraire et analyser ces propriétés est donc essentiel pour identifier les éventuels critères 138

155 7.3. Extraction des restrictions de variation d une valeur numérique. Nous avons identifié dans notre corpus deux principaux types de propriétés de l objet "mesuré" : des propriétés dites de "base" communes à de nombreux objets, et des propriétés spécifiques au concept ou au domaine considéré. Propriétés de base Dans le but de minimiser le plus possible le besoin en connaissances, nous avons défini à partir des observations en corpus un ensemble de propriétés que nous appelons propriétés de "base" qui sont communes à de nombreux objets pour lesquels des connaissances pré-définies sont inutiles. Par exemple, il n est pas raisonnable d envisager avoir des connaissances a priori sur la Tour Eiffel pour pouvoir extraire les propriétés dans une Tour Eiffel en argent ou une Tour Eiffel en verre car ces propriétés ne sont pas des propriétés intrinsèques à la Tour Eiffel et donc difficiles à collecter et difficilement représentables! Ces propriétés de base regroupent donc des propriétés exprimant principalement : la couleur : bleu, rouge, noir, etc., la matière : verre, acier, métal, bois, etc., la forme : rectangulaire, ovale, rond, etc, la localisation : bord, fond, centre, central, interne, etc. [Borillo, 1988], [Borillo, 1998]. Au total, nous avons ainsi défini un ensemble non exhaustif d environ 70 propriétés de base définies dans le lexique et que la grammaire peut extraire. Propriétés spécifiques Il existe d autres types de propriétés qui nécessitent d avoir recours à des connaissances spécifiques au domaine considéré. Nous nous sommes inspirés du projet italien CLIPS 10 afin de représenter certaines connaissances sous forme d ontologies. CLIPS est la plus vaste ressource lexicale électronique de l italien. Elle comprend mots codés sur plusieurs niveaux de description linguistique. Sont décrits, pour chaque lemme, ses propriétés phonologiques, morphologiques et syntaxiques ainsi que ses arguments. Au niveau sémantique, chaque sens est associé à un ensemble structuré d informations, parmi lesquelles son type ontologique et les différentes facettes de sa sémantique par l intermédiaire des relations de la structure 10 http :// 139

156 Chapitre 7. Extraction des réponses candidates Qualia. Au niveau sémantique, le lexique est structuré sur la base de l ontologie SIMPLE-CLIPS composée de 157 types sémantiques indépendants de toute langue et de tout domaine d application. La modélisation des informations sémantiques d une unité lexicale s inspire de la structure Qualia du Lexique Génératif [Pustejovsky, 1995]. Dans la structure Qualia, quatre rôles sont définis : le rôle formel permet de décrire une entité en termes de forme, taille, couleur, etc. : par exemple, le rôle formel de roman et dictionnaire est livre, le rôle agentif permet de décrire l origine de l objet : par exemple, écrire est le rôle agentif de roman, le rôle constitutif permet de décrire la constitution d un objet (matière, composantes, etc. : par exemple, un des rôles constitutifs du pain est farine (le pain est fait de farine) ; de même, un des rôles constitutifs de voiture est moteur (le moteur fait partie de la voiture), le rôle télique permet de décrire les fonctions de l objet : par exemple, le rôle télique d un couteau est de couper. Dans CLIPS, les rôles sont étendus. Par exemple, le rôle formel est exprimé par la relation d hyperonymie est-un mais aussi par les relations est-défini-par ou est-caractérisé-par. Le rôle constitutif est, quant à lui, exprimé par la relation de méronymie partie-de mais aussi par la relation membre-de. Dans notre cadre, seuls les rôles formel et constitutif sont nécessaires pour décrire les propriétés des objets, et en particulier les propriétés qui peuvent être la cause d une variation numérique. Ainsi, dans notre base de connaissances, chaque concept de l ontologie d un domaine particulier est défini par : le nom du concept (C), ses lexicalisations (liste_lexicalisations), sa structure Qualia où nous définissons essentiellement : le rôle formel : propriétés de taille, forme, etc. (liste_formels), le rôle constitutif : constitution, composants (liste_constitutifs). Un concept est donc défini par : concept(c, liste_lexicalisations, liste_formels, liste_constitutifs). 140

157 7.3. Extraction des restrictions Tous les concepts sont structurés grâce à la relation est-un (est-un(x,y) signifie que X est un type de Y). Des exemples sont donnés ci-après. Nous donnons dans la suite les différents cas d utilisation des ontologies pour l extraction des restrictions. Cas 1 : la restriction à extraire est une propriété du concept (rôle formel) Par exemple, le concept voiture est représenté de la façon suivante : concept(voiture, [voiture,...], [couleur¾{noir,...},... ], [roues,...]). Ainsi, si l on pose la requête prix d une voiture et que l on obtient la réponse le prix d une voiture rouge est de 9500 euros, la règle propriété(voiture) (notée propriété(focus) dans la grammaire) permet d extraire la propriété rouge définie dans l ensemble des rôles formels du concept voiture. Cas 2 : la restriction à extraire est une partie constitutive du concept Par exemple, si l on soumet à un moteur de recherche la requête nombre d habitants en France, on peut trouver dans les pages Web des informations concernant le nombre d habitants en France, en métropole, en Bretagne, etc. Pour pouvoir extraire et analyser ces informations correctement, il faut disposer de connaissances sur les lieux géographiques : nous utilisons pour cela l ontologie présentée précédemment (cf. figure 7.1). Dans cette ontologie, on trouve par exemple les concepts suivants : concept(france, [France], [ ], [métropole, outre-mer]). concept(métropole, [métropole], [ ], [Aquitaine, Bretagne,...]). Pour cet exemple, on trouve dans les parties constitutives du concept France le concept métropole, puis par héritage le concept Bretagne. Pour la requête nombre d habitants en France, le concept France fait partie du focus de la question. Dans les extraits de réponses candidates le nombre d habitants en Bretagne est de... et nombre d habitants en métropole, les éléments Bretagne et métropole, définis dans la liste des rôles constitutifs, peuvent donc être considérés comme des restrictions de France. 141

158 Chapitre 7. Extraction des réponses candidates Cependant, la restriction métropole est plus pertinente que Bretagne du point de vue de la réponse : en effet, si l utilisateur recherche le nombre d habitants en France, il est plus pertinent de proposer comme réponse le nombre d habitants en métropole plutôt qu en Bretagne. C est pourquoi la grammaire extrait uniquement les parties constitutives du concept considéré sans appliquer de récursivité (règle notée partie(focus) dans la grammaire d extraction). En revanche, si l on trouve une information sur la population carcérale en France, celle-ci ne sera pas extraite car la propriété carcérale ne se trouve pas dans l ontologie des lieux géographiques. Cas 3 : la restriction à extraire est un concept fils du focus Les restrictions peuvent donc être des parties constitutives d un concept (comme dans l exemple précédent) mais aussi d autres concepts liés. Par exemple, pour la question quelle est la température de service des vins? dont le focus est vin, les pages Web proposent des températures pour le Bordeaux, le Champagne, les vins secs, rouges, etc. Pour pouvoir extraire ces restrictions, il est indispensable de disposer de connaissances spécifiques au domaine des vins. Nous disposons, pour ce cas particulier, d une ontologie des vins 11 dont la figure 7.3 présente un extrait. FIG. 7.3 Extrait de l ontologie des vins Cette ontologie est structurée par la relation est-un et fournit, par la relation est-caractérisé-par, un ensemble de propriétés pour chaque concept précisant sa couleur, son goût, son origine géographique, etc., par exemple : concept(vin, [vin], [couleur¾{rouge,...}, goût¾{sec,... },...], [...]). concept(bordeaux, [Bordeaux], [couleur = rouge, goût =...,...], [...]). concept(champagne, [Champagne], [couleur¾{blanc,rosé}, goût...],[...]). est_un(bordeaux, vin). est_un(champagne, vin). 11 Ontologie disponible sur http :// 142

159 7.4. Problèmes lors de l extraction Il est ainsi possible d extraire dans les pages Web : des propriétés du concept vin telles que rouge ou sec par la règle propriété(vin) (cf. cas 1), différents types de vins, comme le Bordeaux, par la règle fils(vin) (notée fils(focus) dans la grammaire d extraction) puisque Bordeaux et vin sont liés par la relation est-un, différents types de vins et leurs propriétés associées, par exemple du Champagne rosé, grâce à la règle de grammaire notée fils(focus) propriété(fils(focus)). 7.4 Problèmes lors de l extraction Lors d une analyse de texte et d une extraction en particulier, il existe certains problèmes que la grammaire ne peut résoudre facilement, les plus importants étant les problèmes de synonymie et de référence. Par exemple, une des pages Web candidates proposée comme réponse à la question Quelle est l altitude du Mont-Blanc? donne : Longtemps l altitude officielle du plus haut sommet des Alpes a été de mètres. La mesure faite en 2002 par les géomètres experts avait donné 4 810,40 mètres. (...) Lors de la campagne rendue publique le 16 décembre 2005 l altitude du Mont-Blanc a été mesurée à 4808,45 mètres. Dans cet extrait, les informations concernant le focus de la question, la date et la valeur numérique recherchée peuvent être facilement extraites dans la dernière phrase grâce à la règle : Réponse Date, Focus, Verbe, Unité. Les informations extraites Ö ¾ Val ¼ dans ce cas sont : Précision Date ½ ½¾ ¾¼¼ Unité mètres Focus altitude du Mont-Blanc Restriction Lieu Variation En revanche, dans la première phrase de l extrait, l utilisation de la périphrase le plus haut sommet des Alpes pour désigner le Mont-Blanc ne permet pas à la grammaire d extraire les informations car le focus de la question (Mont-Blanc) n est pas explicitement présent. De même, dans la phrase la mesure faite en 2002 par les géomètres experts avait donné 4 810,40 mètres, l ellipse du focus (la mesure faite en 2002 pour la mesure de l altitude du Mont-Blanc faite en 2002) ne 143

160 Chapitre 7. Extraction des réponses candidates permet pas d extraire les informations recherchées. Une autre difficulté pour la grammaire est la présence dans les textes d anaphores ou de références temporelles. Considérons la réponse suivante : La dernière campagne de mesure du Mont-Blanc a été effectuée en Lors de cette mesure, la hauteur du Mont-Blanc a été estimée à 4 808,45 mètres. Ici, la référence temporelle lors de cette mesure ne permet pas à la grammaire d extraire la date effective de la mesure (2005). Nous donnons des éléments d évaluation des performances de la grammaire et des idées d amélioration dans le chapitre 10 consacré à l évaluation. Dans les chapitres suivants, nous présentons dans un premier temps la génération des explications (chapitre 8), puis la génération des réponses directes (chapitre 9). 144

161 Chapitre 8 Génération des explications Nous nous intéressons dans ce chapitre à la génération des explications. Nous rappelons que les explications que nous souhaitons produire doivent décrire une variation numérique en précisant le mode et les critères de variation (par exemple, l âge du mariage a augmenté de 5,5 ans entre 1972 et 2005). Notre but est de pouvoir générer de telles explications directement à partir de l observation des informations extraites du Web pour limiter les besoins en connaissances. Ainsi, l analyse des données du Web comporte deux étapes essentielles : 1. l identification d une éventuelle variation des valeurs numériques et des critères de variation, 2. l identification du mode de variation (augmentation, diminution, variation aléatoire). Cette phase d analyse constitue la détermination de contenu (préparation du quoi dire). Les explications doivent ensuite être générées en langue naturelle. Nous décrivons chacune de ces étapes dans les sections suivantes. 8.1 Détermination de contenu Comme expliqué précédemment, la phase de détermination de contenu doit identifier les informations pertinentes à générer dans les explications. Dans notre cadre, ces informations sont les critères et le mode de variation Identification des critères de variation Une fois que l on dispose des frames représentant les informations extraites, les objectifs sont : 1. de déterminer si les valeurs numériques varient, 2. d identifier les éventuels critères de variation, afin de proposer une explication synthétique à l utilisateur. 145

162 Chapitre 8. Génération des explications Pour pouvoir identifier une variation des valeurs numériques selon certains critères, il faut les comparer entre elles. Cependant, des valeurs peuvent être différentes parce qu il y a effectivement une variation mais aussi parce que les valeurs sont erronées. Il est donc nécessaire de définir un seuil qui va imposer un nombre minimal de valeurs différentes pour un même critère : par exemple, si parmi 50 réponses candidates, il n y a que 2 valeurs numériques différentes pour un même critère, ceci ne nous permet pas de conclure à une variation selon ce critère de façon certaine. Nous considérons donc qu il y a variation selon un critère si, parmi lesæframes, il existe au moins valeurs numériques différentes pour le critère considéré. Plus il y a de réponses candidates, plus doit être grand : en pratique, nous avons fixé arbitrairement Æ mais ce nombre reste à évaluer. On note Ö µla ÍÒ Ø Ö µ ÍÒ Ø Ö µ Ø Ö µ Ø Ö µ Ö µ fonction qui renvoie la valeur de l attribut de la frameö. Ainsi, une valeur numérique varie en fonction : 1. du temps s il existe, parmi l ensembleêdesæframes, au moins valeurs numériques différentes (ayant la même unité de mesure) pour des dates différentes : ÍÒ Ø Ö µ ÍÒ Ø Ö µ Ä Ù Ö µ Ä Ù Ö µ Ö µ 2. du lieu s il existe, parmi l ensembleêdesæframes, au moins valeurs numériques différentes (ayant la même unité de mesure) pour des lieux différents : Ö µ ÍÒ Ø Ö µ ÍÒ Ø Ö µ Ê ØÖ Ø ÓÒ Ö µ Ê ØÖ Ø ÓÒ Ö µ 3. des restrictions s il existe, parmi l ensembleêdesæframes, au moins valeurs numériques différentes (ayant la même si ½µ ¾µ unité de mesure) pour des restrictions différentes : si ¾µ µ si ½µ µ si ½µ ¾µ µ 4. du temps et du lieu 5. du temps et des restrictions 6. du lieu et des restrictions 7. du temps, du lieu et des restrictions que Î Ð Ö µ Î Ð Ö µ Î Ð Ö µ Ö Ö ¾Ê tel que Î Ð Ö µ Î Ð Ö µ Î Ð Ö µ Ö Ö ¾Ê tel que Î Ð Ö µ Î Ð Ö µ Î Ð Ö µ Ö Ö ¾Ê tel Les valeurs numériques ne peuvent bien entendu être comparées que si elles ont la même unité de mesure, sinon elles doivent être converties. 146

163 8.1. Détermination de contenu De plus, comme le montrent les points 4, 5, 6 et 7, ces critères peuvent être combinés : certaines valeurs peuvent varier selon le temps et le lieu, selon le temps et les restrictions, etc. Dans l exemple de la figure 7.2, l âge moyen du mariage varie en fonction du temps, du lieu et des restrictions. Pour chaque critère (temps, lieu ou restriction), seules les informations du même type sémantique ou du même niveau ontologique peuvent être comparées. Par exemple, à la question combien y a-t-il d habitants en France?, les valeurs décrivant la population pour les restrictions DOM-TOM et métropole peuvent être comparées car DOM-TOM et métropole sont des restrictions du même type et du même niveau ontologique. En revanche, les informations sur le lieu ne peuvent être comparées que si elles ont le même niveau ontologique : par exemple, les prix à Paris et à Toulouse peuvent être comparés car les lieux ont le même type/niveau ontologique (ville), ce qui permet de générer une explication telle que les prix varient selon les villes. En revanche, même s il peut sembler pertinent de comparer les prix à Paris et les prix en France qui ne sont pas au même niveau ontologique (cf. figure 7.1), ceci ne permet pas de générer des explications telle que celles que nous proposons. Nous discutons de la possibilité de générer d autres types d explications, notamment comparatives, dans la conclusion de ce manuscrit. Dans les cas où aucune information n a pu être extraite pour certains critères, il est nécessaire de définir des règles de comparaison. SoientÖ Ø¾ Ø Ä Ù Ê ØÖ Ø ÓÒ et Æ Ö Ö ¾Ê, si aucune information n a été extraite pour deux critères comparés, alors nous considérons par défaut que ces critères sont égaux (en d autres termes, il n y a aucune information permettant de si Ö Ø Ö µ et Ö Ø Ö µ, alors Ö Ø Ö µ Ö Ø Ö µ, conclure qu il y a une variation numérique selon ces critères) i.e. : Par exemple, si l on a Ø Ö µ et Ø Ö µ et que Î Ð Ö µ Î Ð Ö µ, il n y a aucune information permettant de conclure que la valeur numérique varie selon le temps donc on considère que les "valeurs vides" du critère Date sont égales. si aucune information n a été extraite pour un des deux critères comparés, alors nous considérons que les informations pour ces deux critères sont différentes (donc il y a une variation selon ce si Ö Ø Ö µ et Ö Ø Ö µ, alors Ö Ø Ö µ Ö Ø Ö µ, critère), i.e. : Dans l exemple de la figure 7.2, l âge moyen du mariage varie en fonction du temps, du lieu et des restrictions. Dans l exemple de la figure 8.1, le prix varie en fonction du temps (septembre 2005/ ) et du lieu (Paris/Toulouse). Dans un souci de place, nous ne donnons ici que deux frames pour cet exemple mais il est bien évident que ceci ne suffit pas pour conclure à une variation. 147

164 Chapitre 8. Génération des explications FIG. 8.1 Exemple de variation Ainsi, les critères de variation des valeurs numériques sont inférés à partir des informations extraites des pages Web afin de minimiser les besoins en connaissances, qui seraient trop importants en domaine ouvert Identification du mode de variation Pour les valeurs numériques qui varient en fonction de temps, il est intéressant de caractériser le mode de variation dans le but d en rendre compte à l utilisateur. L idée est donc de dégager une tendance de variation dans le temps (augmentation, diminution) pour qu une explication la plus précise possible puisse être générée. Dans ce but et dans le cas d une variation numérique dans le temps, nous disposons d un ensemble de couples (valeur numérique, date) représentant l ensemble des réponses extraites. La droite de régression (droite qui passe au plus près de tous les points) obtenue à partir de cet ensemble permet de déterminer la relation existant entre la valeur numérique et le temps. En particulier, le coefficient de corrélation (Ö) reflète à quel point les deux variables sont liées. Ce coefficient varie de ½à ½. Cet indicateur est aussi utilisé dans des systèmes comme SumTime [Sripada et al, 2003a] ou PostGraphe [Fasciano et al, 2000]. Par exemple, la figure 8.2 montre qu un coefficient de corrélation positif implique une tendance à l augmentation de la valeur tandis qu un coefficient négatif implique une tendance à la diminution. Dans le cas où la valeur absolue du coefficient est faible, alors la tendance (augmentation ou diminution) est mathématiquement considérée comme aléatoire [Fisher, 1925]. En pratique, nous considérons que la variation est aléatoire si ¼ Ö ¼ :ceci découle des observations de [Fisher, 1925] mais il est bien évident que si le nombre de points est très petit ou très grand, ce seuil peut varier sensiblement. 148

165 8.1. Détermination de contenu FIG. 8.2 Mode de variation Ö ÔÚ Ö Ò µ Ú Ö Ò Úµ ÓÚ Ö Ò Úµ SoientÚ les valeurs numériques et les dates associées. Alors le coefficient de corrélation linéaireövaut : Cette méthode possède plusieurs avantages. Elle permet tout d abord de caractériser le mode de variation dans le temps des valeurs numériques et de déterminer si les valeurs sont fortement dépendantes du temps ou non (plusöest élevé, plus les valeurs numériques dépendent du temps). Mais elle permet aussi d établir une tendance de variation même avec un très petit nombre de données. De plus, le coefficient de corrélation permet de prendre en compte les faibles incohérences de données (phénomènes d arrondi) qui ne faussent pas la tendance de variation. La figure 8.3 montre les résultats pour la question combien y a-t-il d habitants en France? Des valeurs numériques différentes et les dates associées sont extraites des pages Web. Le coefficient de corrélation vaut ici¼ i.e. le nombre d habitants augmente dans le temps (ici entre 1999 et 2005). On remarque dans cet exemple que la faible incohérence de données due aux arrondis pour l année 2004 ne fausse pas la tendance à l augmentation. Le coefficient de corrélation ne peut bien entendu être calculé que pour des couples (valeur numérique, date) ayant les mêmes critères de lieu ou de restrictions. Il faut donc pour cela déterminer les sous-ensembles de couples ayant les mêmes caractéristiques. Ainsi, pour l exemple de la figure 7.2 concernant l âge moyen du mariage en France, il faut construire des sous-ensembles de données ayant les mêmes critères de variation. Ici, toutes les valeurs concernent le lieu France mais elles sont associées à des restrictions différentes (homme/femme). Il faut donc construire deux sous-ensemble de couples (valeur numérique, date) : un sous-ensemble qui concerne la restriction homme et un autre qui concerne la restriction femme. 149

166 Chapitre 8. Génération des explications FIG. 8.3 Mode de variation : Combien y a-t-il d habitants en France? Le coefficient de corrélation entre l âge du mariage et le temps vaut alors 0,99 pour les hommes et 0,99 pour les femmes (cf. figure 8.4) : l âge du mariage a donc augmenté entre 1985 et 2000 pour les hommes et les femmes. FIG. 8.4 Mode de variation : Quel est l âge moyen du mariage en France? 150

167 8.1. Détermination de contenu Calcul de l amplitude de variation Dans le cas d une augmentation ou d une diminution de la valeur numérique recherchée selon le temps, il est intéressant de connaître l amplitude de variation pour que l explication à générer soit plus précise. Il faut pour cela connaître les valeurs numériques associées à la date la plus ancienne et à la date la plus récente. Dans le cas d inconsistances (valeurs erronées ou valeurs arrondies), il peut y avoir plusieurs valeurs associées à chaque date. _ Ò Î Ð Ö µ Ø ÐÕÙ Î Ð Ö µ Ø _Ñ Òµ¾ Î Ð_ Ø Ú Ø _Ñ Ò Ñ Ò Ö ¾Ê Ø Ö µµ Ainsi, l ensemble _ Òdes valeurs numériques associées à la date la plus ancienne est défini par : _Ê ÒØ Î Ð Ö µ Ø ÐÕÙ Î Ð Ö µ Ø _Ñ Üµ¾ Î Ð_ Ø Ú Ø _Ñ Ü Ñ Ü Ö ¾Ê Ø Ö µµ De même, l ensemble _Ê ÒØdes valeurs numériques associées à la date la plus récente est défini par : Î Ð_ ÑÔÐ Î Ð Ö µ¾ _Ê ÒØ Î Ð Ö µµ ÑÓÝ ÒÒ Î Ð Ö µ¾ _ Ò Î Ð Ö µµ ÑÓÝ ÒÒ Ainsi : si¼ Ö ½(augmentation), alors l amplitude de variationî Ð_ ÑÔÐvaut : Î Ð_ ÑÔÐ ½ Ö Î Ð Ö µ¾ _ Ò Î Ð Ö µµ ÑÓÝ ÒÒ Î Ð Ö µ¾ _Ê ÒØ Î Ð Ö µµ ÑÓÝ ÒÒ si ¼ (diminution), alors l amplitude de variationî Ð_ ÑÔÐvaut : Soit Î Ð_ Ø Î Ð Ö µ Ø Ö µµ Ö ¾ÊØ ÐÕÙ Ø Ö µ l ensemble des couples (valeur numérique, date). Dans le cas où il y a plusieurs valeurs possibles associées à la date la plus récente (resp. ancienne), alors on calcule la moyenne de toutes ces valeurs pour avoir une approximation de l amplitude. Ceci doit bien sûr être précisé en langue naturelle dans l explication. 151

168 Chapitre 8. Génération des explications 8.2 Explications en langue naturelle Connaissant les critères et le mode de variation ainsi que l amplitude, le but est maintenant de générer les explications en langue naturelle. Dans les sections suivantes, nous présentons nos objectifs en termes de génération d explication ainsi que les différents schémas de génération qui ont été définis Objectifs Comme nous l avons vu au chapitre 6, plusieurs systèmes de génération de langue se sont intéressés à la génération d explications numériques. Ces systèmes produisent notamment des explications qui décrivent les différents phénomènes de variation. Pour produire de telles explications, plusieurs problèmes se posent : comment présenter les différents critères de variation?, comment préciser le mode et/ou l amplitude de variation?, comment combiner les informations lorsqu il y a une variation selon plusieurs critères?. Dans notre système, les explications doivent présenter à l utilisateur les éventuels critères de variation de la valeur numérique recherchée d une manière synthétique en évitant d énumérer toutes les informations trouvées. Une possibilité est de proposer des explications intensionnelles [Benamara, 2004b], qui présentent les différents critères de variation par l intermédiaire d un terme généralisant (par exemple, le poids d un i-pod varie selon le modèle). Dans le cas d une variation dans le temps, les explications doivent aussi présenter le mode de variation et l amplitude (par exemple, le nombre d habitants en France a augmenté d 1 million entre 2004 et 2006). Nous remarquons que les explications ont toutes la même structure syntaxique et leur forme de surface étant relativement simple, nous avons choisi, comme au chapitre 4, d utiliser des schémas de génération afin de faciliter la tâche de génération. Des schémas doivent ainsi être définis pour chaque type d explications et permettre de gérer les problèmes précédemment exposés Conception des schémas de génération Comme nous l avons présenté au chapitre 4, un schéma de génération est composée d éléments appartenant à : un ensembleède termes prédéfinis de la langue, un ensemble de concepts à générer, un ensemble de fonctions de lexicalisation qui sélectionnent la meilleure lexicalisation parmi un ensemble de lexicalisations possibles d un élément (concept, propriété, connecteur, etc.). 152

169 que ¾ ½ Ò 8.2. Explications en langue naturelle Un schémaøest donc une séquence finie d éléments ¾ È µtels ¾ ¾. Présentons à présent les principaux schémas que nous avons définis pour la génération des explications. Nous donnons ci-dessous les conventions de notation : chaque schéma est notéì_æóñ-ì ÑÔÐ Ø, oùæóñ-ì ÑÔÐ Ø est le nom du schéma et est la condition d application du schéma, les éléments prédéfinisô ¾Èsont en italique, la fonctionð Ü Ú ÒØ¾ est la fonction qui lexicalise la date d un événement, la fonctionð Ü¾ est la fonction qui lexicalise les autres éléments (sujet, verbe de la réponse, etc.). Nous avons défini 13 schémas qui permettent de générer des explications de variation numérique selon un ou plusieurs critères. Nous présentons ici les conditions d applications des schémas. Schémas de génération associés à une variation selon le lieu Le schéma associé aux explications d une variation selon le lieu est celui qui a la forme la plus simple : T_Num-Lieu½=Lex(Focus) Lex(Verbe) selon le lieu. où Lex(Verbe) est la réalisation en langue (lexicalisation, morphologie) du verbe varier. Exemple. Soit la question quelle température fait-il en hiver en France?. Le focus de la question est température en hiver. Les réponses candidates donnent par exemple les températures moyennes à Brest sont de 6ÆC en hiver et Température moyenne à Paris en hiver (France) : 12ÆC. Il y a ici une variation de la température selon le lieu. Après instanciation du schéma, l explication générée est donc la température en hiver varie selon le lieu (c est la réponse directe qui va préciser les températures pour chaque lieu). Schémas de génération associés à une variation selon les restrictions Les schémas associés aux explications d une variation selon les restrictions ont aussi une forme relativement simple. La difficulté ici consiste à trouver précisément le critère de variation. En effet, proposer à l utilisateur une explication telle que le poids d un i-pod varie selon les restrictions est loin d être explicite! Le but est donc de trouver quel est le type précis des restrictions en définissant un terme généralisant [Benamara, 2004b]. 153

170 Chapitre 8. Génération des explications Comme expliqué précédemment, les restrictions peuvent être définies soit dans l ensemble dit des "propriétés de base" soit dans l ontologie du domaine considéré. Exemple 1. Soit la question combien pèse une paire de lunettes?. Les réponses obtenues donnent des poids pour des lunettes en titane, en plastique, etc. Le poids varie selon des restrictions définies dans l ensemble des propriétés de base : il faut donc trouver le concept généralisant de toutes ces restrictions, ici la matière (cf. grammaire d extraction). Le schéma utilisé est défini par : T_Num-Rest¾ ½=Lex(Focus) Lex(Verbe) selon Lex(GenPropBase(Restriction)). Pour cet exemple, on a donc : le poids d une paire de lunettes varie selon la matière. Exemple 2. Soit la question quelle est la température de service des vins?. Les réponses obtenues donnent des températures pour le Bordeaux, le Champagne, etc. La température varie selon des restrictions définies dans l ontologie des vins : il faut donc trouver le concept généralisant, ici c est le concept père de toutes ces restrictions (cf. figure 8.5). Le schéma utilisé est défini par : T_Num-Rest¾ ¾=Lex(Focus) Lex(Verbe) selon le type de Lex(Père(Restriction)). Pour cet exemple, on a donc : la température de service des vins varie selon le type de vin. Exemple 3. Soit la question quelle est la température de service des vins?. Les réponses obtenues donnent des températures pour les vins rouges, blancs, etc. La température varie selon des restrictions définies dans l ontologie des vins : il faut aussi trouver le concept généralisant, ici c est le type de propriétés défini dans l ontologie (cf. figure 8.5). Le schéma utilisé est défini par : T_Num-Rest¾ =Lex(Focus) Lex(Verbe) selon Lex(TypeProp(Restriction)). Pour cet exemple, on a donc : la température de service des vins varie selon la couleur. 154

171 8.2. Explications en langue naturelle FIG. 8.5 Ontologie des vins : concepts généralisants Schémas de génération associés à une variation aléatoire selon le temps Pour les valeurs numériques qui varient aléatoirement en fonction du temps (i.e. aucun mode de variation n a pu être identifié), le schéma associé à l explication est défini par : T_Num-Temps ½=Lex(Focus) Lex(Verbe) dans le temps. Par exemple, on a l explication : le nombre de chômeurs en France varie dans le temps. Schémas de génération associés à une variation non aléatoire selon le temps Pour les valeurs numériques qui varient en fonction du temps, si le mode de variation a pu être caractérisé (augmentation ou diminution), alors l explication doit être plus précise : plutôt que de générer X varie selon le temps, on préfére générer une explication telle que X a augmenté/diminué entre... et... C est ici le verbe qui va retranscrire avec le plus de précision possible le phénomène de variation. Le choix du verbe à générer est donc un point essentiel. Des descriptions lexicales fines sont nécessaires et 155

172 Chapitre 8. Génération des explications nous nous appuyons pour cela sur les verbes de changement et de mouvement que nous avons définis dans le lexique et nécessaires aussi pour la phase d extraction. À partir de ces verbes, il faut définir des classes qui expriment l augmentation et la diminution. La tâche de lexicalisation pour le choix du verbe est ainsi contrainte par le mode de variation de la valeur numérique. Il est ensuite nécessaire de disposer d une description sémantique fine des verbes pour générer une explication qui prenne en compte autant que possible toutes les caractéristiques de la variation numérique : par exemple, la vitesse et l amplitude de variation. Ainsi, pour chaque classe de verbes et leur mode de variation associé, il faut définir les domaines ontologiques sur lesquels les verbes peuvent s appliquer ainsi que leurs restrictions de sélection pour qu un verbe approprié puisse être choisi. Le but est de définir quels sont les verbes les plus appropriés pour décrire une augmentation de prix, une diminution d âge, etc. [Moriceau et al, 2003]. L idée que nous proposons est d utiliser des séries proportionnelles sans branchement représentant chaque classe de verbes selon la vitesse et l amplitude de variation. Par exemple, le verbe grimper (respectivement tomber) indique une croissance (respectivement, diminution) beaucoup plus rapide que monter (respectivement, descendre). On préférera donc choisir le verbe grimper pour générer les prix de l essence ont grimpé de 20.3% en octobre 2005 alors qu on utilisera plutôt monter ou augmenter (verbes plus neutres) pour générer les prix de l essence ont augmenté de 7.2% en septembre 2005 (cf. figure 8.6). FIG. 8.6 Série proportionnelle pour les verbes décrivant une variation Le schéma associé aux explications d une variation selon le temps est défini par : T_Num-Temps ¾=Lex(Focus) Lex(VerbeVariation, Variation) d environ Lex(Val_Ampl) Lex(Unité) entre Lex(DateAncienne) et Lex(DateRécente) où Variation prend la valeur + dans le cas d une augmentation dans le temps ou la valeur dans le cas d une diminution et VerbeVariation regroupe l ensemble des verbes du lexique exprimant une variation numérique. La fonction Lex(VerbeVariation, Variation) permet donc de choisir un verbe qui va exprimer 156

173 8.2. Explications en langue naturelle soit une augmentation soit une diminution (par défaut, ce sont les verbes augmenter et diminuer qui sont utilisés). Exemple. Soit la question quelle est la hauteur du Mont-Blanc?. Les réponses obtenues donnent des valeurs différentes selon les années. La hauteur varie dans le temps : en l occurrence, elle augmente. Le schéma utilisé est donc : T_Num-Temps ¾=Lex(Focus) Lex(VerbeVariation, +) d environ Lex(Val_Ampl) Lex(Unité) entre Lex(DateAncienne) et Lex(DateRécente). Pour cet exemple, on a donc : la hauteur du Mont-Blanc a augmenté d environ 3 mètres entre 1976 et Schémas de génération associés à une variation selon plusieurs critères Comme nous l avons déjà vu, certaines valeurs numériques peuvent varier en fonction d une combinaison de critères : temps/lieu, lieu/restriction, etc. Pour chaque combinaison de critères, l explication est alors une combinaison des différents schémas associés qui nécessite la mise en oeuvre de mécanismes d agrégation [Wilkinson, 1995]. Nous présentons ici chacun des cas.. Variation selon le temps, le lieu et les restrictions. Nous ne considérons ici que les variations aléatoires dans le temps. Une observation des schémas associés aux variations selon le temps (aléatoire), le lieu et les restrictions, permet de constater que toutes les explications ont la même forme (X varie selon un critère). Cette régularité syntaxique est un avantage dans le cas d une variation selon plusieurs critères car elle permet de générer une nouvelle explication en conservant la structure syntaxique et en coordonnant les différents critères de variation. Soit CRIT-VAR Ø ÑÔ Ð Ù Ò_Ê Ø½ Ò_Ê ØÆ l ensemble des critères de variation de la valeur numérique recherchée. Le critèreø ÑÔ est utilisé ici pour une variation aléatoire dans le temps et les critères Ò_Ê Ø sont les différents généralisants des restrictions (une valeur peut varier selon plusieurs restrictions). Ainsi, le schéma associé aux explications d une variation selon plusieurs critères est défini par : T_Num-Crit ½=Lex(Focus) Lex(Verbe) selon Lex(CRIT-VAR). Le signe + permet de générer une coordination des différents critères. Par exemple, ce schéma permet de générer des explications telles que : l âge moyen du mariage varie selon le temps, le lieu et le sexe (temps, lieu, restriction), 157

174 Chapitre 8. Génération des explications l âge moyen du mariage en France varie selon le temps et le sexe (temps, restriction), la température de service des vins varie selon la couleur et le goût (plusieurs restrictions), etc.. Variation selon le temps et le lieu. Nous ne considérons ici que les augmentations ou diminutions dans le temps (i.e. nous ne considérons pas les variations aléatoires dans le temps). Les schémas associés aux variations selon le temps et selon le lieu ont des formes syntaxiques différentes : la solution proposée pour générer l explication est d utiliser les deux schémas T_Num-Lieu½et T_Num-Temps ¾. Par exemple, les explications générées sont de la forme : Le nombre de chômeurs varie selon le lieu. Il a augmenté de entre... et.... Variation selon le temps et une restriction. Nous ne considérons ici que les augmentations ou diminutions dans le temps ne concernant qu une seule restriction. Le schéma associé est une adaptation de T_Num-Temps ¾. Il est défini par : T_Num-Crit =Lex(Focus) Lex(Gen_Rest) Lex(VerbeVariation, Variation) d environ Lex(Val_Ampl) Lex(Unité) entre Lex(DateAncienne) et Lex(DateRécente). Par exemple, pour la question quel est l âge moyen du mariage des femmes?, ce schéma permet de générer une explication telle que l âge moyen du mariage des femmes a augmenté d environ 4 ans entre 1980 et Variation selon le temps et plusieurs restrictions. Nous considérons ici les augmentations ou diminutions dans le temps concernant plusieurs restrictions. Ce cas est le plus complexe. En effet, plusieurs cas de figure se présentent. 1. la tendance et l amplitude de variation sont les mêmes pour toutes les restrictions : Dans ce cas, il est inutile de générer une explication qui énumère toutes les caractéristiques des différentes restrictions puisque ces caractéristiques sont identiques. Il est donc possible de les "factoriser" et le schéma T_Num-Temps ¾peut être utilisé. Par exemple, plutôt que de générer l âge du mariage des hommes et des femmes a augmenté de 4 ans entre 1980 et 2006, le schéma permet de synthétiser ces informations et de générer : l âge du mariage a augmenté de 4 ans entre 1980 et les restrictions ont la même tendance de variation mais une amplitude différente : 158

175 8.3. Synthèse Dans ce cas, seule la tendance de variation peut être "factorisée". schéma associé est défini par : T_Num-Crit =Lex(Focus) Lex(VerbeVariation, Variation) d environ Lex(Val_Ampl) Lex(Unité) Lex(Gen_Rest) entre Lex(DateAncienne) et Lex(DateRécente). Par exemple, le schéma permet de générer l explication suivante : l âge du mariage a augmenté d environ 4 ans pour les femmes et d environ 5 ans pour les hommes entre 1990 et les restrictions ont des tendances de variation différentes : Dans ce cas, aucune information ne peut être "factorisée" : il faut énumérer les caractéristiques de chaque restriction. L explication est générée grâce à une coordination de plusieurs schémas du type T_Num-Crit ¾. Par exemple, on peut générer l explication l âge du mariage des femmes a diminué d 1 an et l âge du mariage des hommes a augmenté de 3 ans Synthèse Les tableaux 8.1, 8.2 et 8.3 présentent les différents schémas de génération que nous avons définis pour la génération des explications. 159

176 160 Explications numériques Conditions d application Schémas de génération Exemples Variation T_Num-Lieu1 : selon le lieu Q : Quelle température fait-il en France en hiver? Lex(Focus) Lex(Verbe) selon le lieu La température en hiver varie selon le lieu. Chapitre 8. Génération des explications le généralisant est : T_Num-Rest2.1 : Q : Quel est le poids d une paire de lunettes? une propriété Lex(Focus) Lex(Verbe) selon Lex(GenPropBase(Restriction)) Le poids d une paire de lunettes varie selon la matière. de base Variation T_Num-Rest2.2 : selon les le concept père Q : Quelle est la température de service des vins? restrictions dans l ontologie Lex(Focus) Lex(Verbe) selon le type de Lex(Père(Restriction)) La température de service des vins varie selon le type de vin. T_Num-Rest2.3 : une propriété dans l ontologie Lex(Focus) Lex(Verbe) selon Lex(TypeProp(Restriction)) La température de service des vins varie selon la couleur. TAB. 8.1 Schémas de génération pour les explications des réponses numériques (1/3)

177 Explications numériques Conditions d application Schémas de génération Exemples T_Num-Temps3.1 : variation Q : Combien y a-t-il de chômeurs en France? aléatoire Lex(Focus) Lex(Verbe) dans le temps Le nombre de chômeurs en France varie dans le temps. T_Num-Temps3.2 : Variation Q : Quelle est la hauteur du Mont-Blanc? selon le augmentation Lex(Focus) Lex(VerbeVariation, +) d environ Lex(Val_Ampl) La hauteur du Mont-Blanc a augmenté d environ temps Lex(Unité) entre Lex(DateAncienne) et Lex(DateRécente) 3 mètres entre 1976 et T_Num-Temps3.2 : Q : Combien y a-t-il de chômeurs en France en 2006? diminution Lex(Focus) Lex(VerbeVariation, ) d environ Lex(Val_Ampl) Le nombre de chômeurs a diminué d environ Lex(Unité) entre Lex(DateAncienne) et Lex(DateRécente) entre 2005 et Lex(CRIT-VAR) Variation aléatoire T_Num-Crit4.1 : selon le temps, Q : Quel est l âge moyen du mariage en France? et/ou le lieu, Lex(Focus) Lex(Verbe) selon L âge moyen du mariage en France varie selon le temps et le sexe. et/ou les restrictions 161 Variation non aléatoire T_Num-Crit4.2 : Q : Combien y a-t-il de chômeurs? selon le temps Le nombre de chômeurs varie selon le lieu. et le lieu T_Num-Lieu1. T_Num-Temps3.2 Il a augmenté d environ entre juin et juillet TAB. 8.2 Schémas de génération pour les explications des réponses numériques (2/3) 8.3. Synthèse

178 162 Explications numériques Conditions d application Schémas de génération Exemples Variation non aléatoire T_Num-Crit4.3 : selon le temps Q : Quel est l âge moyen du mariage des femmes en France? et une restriction Lex(Focus) Lex(Gen_Rest) Lex(VerbeVariation, Variation) L âge moyen du mariage des femmes a augmenté d environ Lex(Val_Ampl) Lex(Unité) d environ 4 ans entre 1980 et entre Lex(DateAncienne) et Lex(DateRécente) Chapitre 8. Génération des explications même tendance T_Num-Crit4.4 : Q : Quel est l âge moyen du mariage en France? même amplitude L âge moyen du mariage en France a augmenté de variation T_Num-Temps3.2 d environ 4 ans entre 1980 et Variation non même tendance, T_Num-Crit4.5 : Q : Quel est l âge moyen du mariage en France? aléatoire amplitudes L âge moyen du mariage en France a augmenté selon le temps différentes Lex(Focus) Lex(VerbeVariation, Variation) d environ d environ 4 ans pour les femmes et d environ et plusieurs Lex(Val_Ampl) Lex(Unité) Lex(Gen_Rest) entre 5 ans pour les hommes entre 1980 et restrictions Lex(DateAncienne) et Lex(DateRécente) (T_Num-Crit4.2) tendances T_Num-Crit4.6 : Q : Quel est l âge moyen du mariage? de variation différentes d environ 1 an et l âge moyen du mariage L âge moyen du mariage des femmes a diminué des hommes a augmenté d environ 4 ans... TAB. 8.3 Schémas de génération pour les explications des réponses numériques (3/3)

179 Chapitre 9 Génération de la réponse directe Nous nous intéressons dans ce chapitre à la génération de la réponse directe. Pour pouvoir produire une réponse qui soit la plus coopérative possible, plusieurs problèmes se posent : 1. dans un premier temps, il faut identifier les besoins de l utilisateur : au niveau de la question : à partir de la question posée, que peut-on conclure des attentes de l utilisateur?, au niveau de la réponse directe : quelles informations le système doit-il donner et sous quelle forme?, 2. puis, il faut résoudre les éventuels problèmes d inconsistance de données : les données sont-elles fortement inconsistantes (données erronées) ou faiblement inconsistantes (données approximatives, arrondies)? Comment choisir une réponse parmi un ensemble de données? Cette première phase constitue la détermination de contenu puis les réponses directes doivent être générées en langue naturelle. Nous décrivons chacune de ces étapes dans les sections suivantes. 9.1 Détermination de contenu Nous nous intéressons dans cette section à la détermination de contenu. Cette phase doit identifier les attentes de l utilisateur ainsi que les informations à faire figurer dans la réponse directe tout en traitant le problème des éventuelles inconsistances de données. Nous commençons donc par présenter comment les besoins de l utilisateur sont identifiés à partir de l analyse de la question, puis comment les inconsistances sont gérées pour élaborer la réponse directe Attentes de l utilisateur : contraintes imposées par la question La génération de la réponse directe est principalement guidée par les attentes de l utilisateur. En effet, pour être coopérative, la réponse ne doit présenter à l utilisateur que les informations demandées 163

180 Chapitre 9. Génération de la réponse directe ou nécessaires pour ne pas être trop informatif ou provoquer des malentendus. Comme nous nous plaçons dans le cadre d un système sans modèle utilisateur, les attentes sont essentiellement exprimées dans la question, et ceci sous plusieurs formes : force illocutoire, contraintes pour restreindre un domaine trop grand, etc. C est à ce dernier cas que nous nous intéressons plus particulièrement (des éléments indiquant la force illocutoire étant peu présents dans les questions factuelles et difficiles à interpréter automatiquement). Dans notre cadre, les contraintes de la question peuvent porter sur les trois critères de variation possibles, à savoir le temps, le lieu ou les restrictions. Nous définissons donc comme étant l ensemble des contraintes de la question : Ø Ð Ö où : - Øest la contrainte de temps ( Ø¾ ÜÔÖ ÓÒ_Ø ÑÔÓÖ ÐÐ ), - Ðest la contrainte de lieu ( Ð¾ ÜÔÖ ÓÒ_Ð Ù ), - Öest la contrainte sur les restrictions ( Ö¾ ÜÔÖ ÓÒ_Ö ØÖ Ø ÓÒ ). Pour une question donnée, chaque contrainte ne peut avoir qu une valeur possible. Les contraintes de la question peuvent prendre plusieurs formes : des contraintes explicites : elles sont principalement exprimées grâce à des modifieurs. On suppose que ces contraintes sont fournies par l analyseur de question. Par exemple, dans la question combien y a-t-il d habitants en France en 2006?, des contraintes explicites portent sur le lieu (en France) et le temps (en 2006). Pour cet exemple, l analyseur de question doit donner : Ø ¾¼¼ Ð France, Ö. En revanche, dans la question combien y a-t-il d habitants en France?, il n y a pas de contrainte de temps. L analyseur de question doit donc donner : Ø Ð France, Ö. Il peut aussi n y avoir aucune contrainte imposée par la question : par exemple, quelle est la température du Soleil?. Ici, l analyseur de question doit donner : Ø Ð, Ö. des contraintes implicites : même lorsque l utilisateur n a pas imposé de contrainte dans sa question, il existe quand même parfois des contraintes implicites. Par exemple, si un utilisateur demande combien y a-t-il d habitants en France?, il est raisonnable de penser qu il cherche à connaître le nombre d habitants pour l année en cours : c est ce que nous appelons une contrainte 164

181 9.1. Détermination de contenu implicite. Plusieurs cas se présentent alors : Ø Ñ Ü s il n y a pas de contrainte de temps explicite dans la question et si l analyse des caractéristiques de la valeur numérique a conclu à une variation dans le temps, alors on suppose que l utilisateur souhaite avoir l information pour la date courante si des données existent pour cette date, ou par défaut l information la plus récente donc : Ö ¾Ê Ø Ö µµ, s il n y a pas de contrainte de lieu explicite dans la question et si l analyse des caractéristiques de la valeur numérique a conclu à une variation selon le lieu, alors on suppose que l utilisateur souhaite avoir l information pour le lieu le plus proche de lui. Un modèle utilisateur pourrait, par exemple, fournir au système l information sur le lieu le plus proche de l utilisateur. Comme nous ne disposons pas d un tel modèle, nous avons choisi par défaut le lieu Ð France, s il n y a pas de contrainte de restriction explicite dans la question et si l analyse des caractéristiques de la valeur numérique a conclu à une variation selon les restrictions, alors il n y a pas de raison de penser que l utilisateur recherche une valeur pour une restriction en particulier (sinon il l aurait précisée dans sa question). On suppose donc que l utilisateur souhaite avoir l information pour toutes les restrictions trouvées. On maintient donc Ö et, dans ce cas, n importe quelle expression de restriction satisfera cette contrainte. Pour l exemple de la figure 9.1, à la question quel est l âge moyen du mariage en France?, l analyseur de question donne les contraintes explicites suivantes : Ø Ð France, Ö. L analyse des données pour cette question montre qu il y a une variation de l âge du mariage selon le temps et les restrictions (hommes/femmes). Il y a donc des contraintes implicites sur le temps (il vaut mieux donner l information pour la date la plus récente) et les restrictions. Le nouvel ensemble de contraintes (explicites et implicites) est donc : Ø ¾¼¼¼ Ð France, Ö Réponses candidates satisfaisant les contraintes Une fois les attentes de l utilisateur identifiées grâce aux contraintes de la question, il faut rechercher parmi l ensemble des réponses candidates extraites celles qui satisfont ces contraintes. Nous choisissons donc comme réponse directe potentielle la ou les valeurs numériques qui satisfont l ensemble de contraintes. 165

182 Chapitre 9. Génération de la réponse directe FIG. 9.1 Exemple d extraction : Quel est l âge moyen du mariage en France? L ensembleê de frames (représentant les réponses extraites) qui satisfont, par égalité, l ensemble de contraintes est défini par : Ê ØÖ Ø ÓÒ Ö µ Ö Ä Ù Ö µ Ð Ø Ö µ Ø ÜÔÖ ÓÒ_Ö ØÖ Ø ÓÒ Ö Ö Ê Ö ¾Ê tel que } 166

183 9.1. Détermination de contenu Ainsi, pour qu une frameö satisfasse l ensemble de contraintes, il faut que la date et le lieu indiqués dansö coïncident avec les contraintes de temps Øet de lieu Ð. Pour le cas des restrictions : si une contrainte est imposée dans la question (i.e. Ö ), alors il faut que la restriction indiquée dansö coïncide avec Ö, si aucune contrainte n est imposée dans la question (i.e. Ö ), alors n importe quelle expression de restriction extraite des pages Web satisfait Ö(cf. section ). Pour l exemple de la figure 9.1, l ensemble de contraintes est : Ø ¾¼¼¼ Ð France, Ö. L ensemble des frames satisfaisant est donc :Ê Ö½ Ö¾ Ö Ö Choix des restrictions à générer dans la réponse directe Nous disposons maintenant de l ensembleê des réponses directes potentielles à partir desquelles il faut générer une ou plusieurs réponses. En effet, comme expliqué précédemment, plusieurs réponses sont générées dans le cas particulier où la valeur recherchée varie selon les restrictions et que la question de l utilisateur n impose pas de contrainte sur ces restrictions ( Ö ). La réponse directe est donc une énumération des différentes valeurs numériques associées à chaque restriction trouvée. Pour cela, il faut définir des sous-ensembles deê qui vont regrouper les frames ayant les mêmes restrictions : une réponse sera ainsi générée pour chaque sous-ensemble (i.e. pour chaque restriction) jugé pertinent. Nous définissons donc l ensembleêqui regroupe les partitions de frames satisfaisant les contraintes et ayant les mêmes restrictions :Ê Ê ½ Ê Å. On définit la relation d équivalence a_même_restriction telle que : a_même_restriction Ö Ö µsignifie que Ê ØÖ Ø ÓÒ Ö µ Ê ØÖ Ø ÓÒ Ö µ. Les partitionsê correspondent donc aux classes d équivalence définies par : Ê Ö ¾Ê tel que Ö Ö ¾Ê a_même_restriction Ö Ö µ. Ainsi, pour l exemple de la figure 9.1, nous avons :Ê Ê ½ Ê ¾ avec : Ê ½ Ö½ Ö (sous-ensemble de frames pour la restriction femme) et, Ê ¾ Ö¾ Ö (sous-ensemble de frames pour la restriction homme). Parmi ces partitions de frames ayant les mêmes restrictions, certaines sont plus pertinentes que d autres à générer du point de vue de l utilisateur. Ainsi, nous considérons que les partitions les plus pertinentes pour l utilisateur en termes de restriction sont par ordre de préférence : 167

184 Chapitre 9. Génération de la réponse directe 1. celles qui décrivent directement le focus de la question (pas de restriction ou même restriction que celle de la question), 2. celles qui décrivent des propriétés du focus (propriétés de base ou ontologiques), 3. celles qui décrivent les fils les plus proches du focus (en termes de distance) dans l ontologie. Ê Ê Ö Ô¾Ê Ê ØÖ Ø ÓÒ Ö Ôµ Ö Ô¾Ê Ê ØÖ Ø ÓÒ Ö Ôµ Ö Ainsi, nous avons l algorithme suivant : si cas (1) : il n y a pas de restriction sur le focus dans le sous-ensembleê considéré ou la restriction est la même que celle de la question ( Ö) i.e. : alors réponse = génère_réponse Ê µ sinon Ê Ê Ö Ô¾Ê Ê ØÖ Ø ÓÒ Ö Ôµ¾ÈÖÓÔ si cas (2) : la restriction du sous-ensembleê considéré est une propriété définie dans l ensemble des propriétés de base ou dans l ontologie du concept i.e. : soientèöóô l ensemble des propriétés de base (couleur, matière,...) etèöóôóòøól ensemble des propriétés du focus définies dans une ontologie (si elle existe), réponse = génère_réponse Ê µ Ê Ê Ö Ô¾Ê ÔÖÓÜÓÒØÓ Ê ØÖ Ø ÓÒ Ö Ôµ ÓÙ µ Ë Ù Ð sinon si cas (3) : la restriction du sous-ensembleê considéré est un fils du focus proche dans l ontologie utilisée i.e. : soitôöóüóòøó ½ ¾µle nombre d arcs entre deux concepts d une ontologie, alors réponse = génère_réponse Ê µ Ö Ô¾Ê Ê ØÖ Ø ÓÒ Ö Ôµ¾ÈÖÓÔÓÒØÓ alors La fonction génère_réponse permet de choisir un template de génération en fonction de conditions d application : nous la présentons plus tard. Le paramètreë Ù Ðpermet de fixer un seuil pour la notion de proximité afin d éviter de générer des réponses non pertinentes. En pratique, nous avons fixé ce seuil à 1 car nous considérons que seuls les fils directs du focus sont pertinents vis-à-vis de la question de l utilisateur. Nous donnons ici des exemples d application de l algorithme. 168

185 9.1. Détermination de contenu Exemple 1 : la restriction coïncide avec celle de la question (cas 1). La figure 9.2 montre les partitions de frames satisfaisant les contraintes de la question combien y a-t-il d habitants en France?. Pour la partitionê ½, il n y a pas de restriction (cas 1) alors queê ¾etÊ portent respectivement sur les restrictions métropole et outre-mer qui sont des parties du concept France (cas 3). Le cas 1 étant prioritaire, c estê ½qui est choisi pour générer la réponse directe (ici, la réponse est le nombre d habitants en France en 2006 est de ). FIG. 9.2 Pertinence des restrictions : Combien y a-t-il d habitants en France? Exemple 2 : la restriction est une propriété du focus (cas 2). La figure 9.3 montre les partitions de frames satisfaisant les contraintes de la question Quelle est la température de service des vins?. Les partitionsê ½etÊ ¾portent respectivement sur les restrictions rouge et rosé qui sont des propriétés du concept vin (cas 2) alors que la restriction Champagne est un type de vin (cas 3). Le cas 2 étant prioritaire, ce sontê ½etÊ ¾qui sont choisis pour générer la réponse directe. FIG. 9.3 Pertinence des restrictions : Quelle est la température de service des vins? Exemple 3 : la restriction est un fils du focus (cas 3). La figure 9.4 montre les partitions de frames satisfaisant les contraintes de la question combien y a-t-il d habitants en France?. Les partitionsê ½, Ê ¾etÊ portent sur des restrictions qui sont des parties du concept France. Les restrictions métropole et outre-mer étant des concepts directement liés au concept France, ce sontê ¾etÊ qui sont choisis 169

186 Chapitre 9. Génération de la réponse directe pour générer la réponse directe. La restriction Toulouse dépasse le seuil de proximité car le nombre d arcs entre France et Toulouse dans l ontologie est supérieur à 1. FIG. 9.4 Pertinence des restrictions : Combien y a-t-il d habitants en France? Dans les trois exemples précédents, chaque partitionê ne contient qu une seule frame donc il n y a pas d inconsistance de données à l intérieur d une partition. Voyons maintenant les problèmes qui se posent lorsqu il y a plusieurs frames/réponses possibles dans une partition Choix de la valeur numérique à générer dans la réponse directe Chaque partitionê peut contenir une ou plusieurs frames, donc une ou plusieurs valeurs numériques, car : des valeurs peuvent être des valeurs aberrantes : elles sont éliminées par des méthodes statistiques classiques, en éliminant les valeurs qui s éloignent de l écart-type [Fourastié et al, 1987]. Appliquer cette méthode sur les sous-ensemblesê de mêmes restrictions permet d éliminer seulement les valeurs qui sont aberrantes pour une restriction donnée, des valeurs peuvent être égales ou différentes à certains degrés : c est le cas par exemple des valeurs approximatives ou arrondies. Problème. Nous développons ici le deuxième cas, plus complexe. Il existe différents opérateurs utilisés en logique pour la fusion de données : la conjonction, la disjonction, des opérateurs qui ignorent ou qui renforcent les informations redondantes, etc. (une synthèse est présentée dans [Kaci, 2002]). Cependant, ces opérateurs risquent de produire une réponse non coopérative. En effet, proposer à l utilisateur la conjonction ou la disjonction des valeurs ne permet pas de donner une réponse cohérente et peut induire en erreur. En ce qui concerne les opérateurs statistiques, ils ne sont pas réellement satisfaisants. Par exemple, proposer la moyenne des valeurs serait une réponse "artificielle" puisque calculée et non directement issue d une page Web. De même, la médiane (valeur se trouvant au milieu de la liste ordonnée des valeurs) ou le mode (la valeur la plus fréquente) ne tiennent compte que de la distribution des données 170

187 9.1. Détermination de contenu : ¼¼ ¼ ¼ ¼ ¼ ½¼ ½¼ ½ ½ mais pas de la "qualité" des valeurs numériques en elles-mêmes. En d autres termes, ces opérateurs ne permettent pas de traiter correctement les phénomènes d approximation ou d arrondi. Par exemple, supposons qu à la question quelle est la hauteur du Mont-Blanc?, on ait comme réponses candidates les valeurs suivantes en mètres La moyenne vaut ici ¼ qui ne correspond à aucune des valeurs extraites : ceci peut donc induire l utilisateur en erreur. Le mode vaut ¼ et la médiane ¼ :ces valeurs ne sont pas non plus réellement représentatives de l ensemble des valeurs. En effet, en observant les valeurs, on peut remarquer par exemple que ¼¼est un arrondi inférieur de toutes les autres valeurs ou que ½¼est un arrondi inférieur de ½ et supérieur de toutes les autres valeurs. Le problème que nous devons donc traiter est de choisir une valeur parmi l ensemble des valeurs possibles tout en prenant en compte la qualité des valeurs numériques i.e. en traitant les phénomènes d approximation et d arrondi. Étude expérimentale. Afin de définir une méthode pour choisir une valeur parmi un ensemble, nous avons tout d abord voulu étudier les réactions d utilisateurs face à ce problème. Pour cela, nous avons proposé le protocole dont un extrait est représenté sur la figure 9.5 à 16 utilisateurs d âge et de niveau d étude différents. Ces utilisateurs ne sont pas tous familiers avec la recherche d informations sur le Web. Nous leur avons demandé, pour chaque question, de choisir la valeur numérique qu ils préfèreraient avoir comme réponse et d expliquer les différences entre les valeurs proposées. Dans tous les cas, les utilisateurs ont correctement perçu que certaines réponses proposées étaient des arrondis plus ou moins fins des autres valeurs. À la première question, les utilisateurs avaient le choix entre une valeur précise et une valeur arrondie proche : 93% d entre eux ont choisi la valeur arrondie. À la deuxième question, les utilisateurs avaient le choix entre trois valeurs arrondies à différents degrés : 62% d entre eux ont choisi la valeur qui, selon eux, leur semblait être la plus proche de la réalité. À la troisième question, les utilisateurs avaient le choix entre une valeur précise et deux valeurs arrondies à différents degrés : 50% d entre eux ont choisi la valeur arrondie la plus proche de la valeur précise contre 25% pour chacune des autres valeurs. 171

188 Chapitre 9. Génération de la réponse directe FIG. 9.5 Les arrondis vus par les utilisateurs Les utilisateurs ont justifié leurs choix par les explications suivantes : une réponse arrondie est suffisante lorsqu il s agit d une requête grand public, une réponse arrondie est plus facile à mémoriser, les arrondis ne doivent pas être trop "grossiers" : quand les utilisateurs ont le choix entre plusieurs valeurs arrondies, ils choisissent l arrondi le plus fin. Notre objectif est donc de formaliser le comportement des utilisateurs pour permettre de choisir une valeur parmi un ensemble de données. Il faut proposer une méthode qui permette dans un premier temps de formaliser les relations d arrondi puis de choisir une valeur qui sera générée dans la réponse directe. 172

189 9.1. Détermination de contenu Solution proposée. Afin de représenter les relations d arrondi qui peuvent exister entre les valeurs, nous avons choisi de représenter les différentes valeurs candidates à la réponse directe sous forme d un graphe orienté et pondéré. Le but est ensuite de choisir la valeur qui minimise tous les effets d arrondis (choix de l arrondi le plus "fin"). Le graphe Ë µdes valeurs est défini par : un ensembleëde sommets représentant les différentes valeurs numériques candidates. Chaque sommetüest associé à un poidsôó Üµcorrespondant au nombre d occurrences de la valeurü dans l ensemble des données extraites, un ensemble d arcs orientés et pondérés. Un arc relie une valeurüàune valeurýsiýest un arrondi deü. Pour cela, nous considérons que si l on compare deux valeurs proches, celle qui a le moins de chiffres significatifs est probablement un arrondi de l autre. Par exemple, si l on compare ¼ et ½¼, on considère que ½¼(qui a 3 chiffres significatifs) est probablement un Ò _ Ò Üµ Ò _ Ö Üµ arrondi de 4809 (qui a 4 chiffres significatifs) : un arc peut donc relier ¼ àla valeur ½¼. Ò _ Ö Üµ Ò _Þ ÖÓ_ Ò Ð Üµ ÒÓÒ ÜÒ Ø ÖÑ Ò Ô Ô Ö¼ Nous rappelons que les valeurs comparées ici sont relativement proches puisqu elles concernent une même restriction et que les valeurs aberrantes ont été éliminées. Nous avons donc : Ü Ýµ¾ Ò _ Ò Üµ Ò _ Ò Ýµoù ( Ü Ý Ainsi, la construction du graphe est impossible si toutes les valeurs ont le même nombre de chiffres significatifs. La valuation Ü Ýµd un arc Ü Ýµest pondérée par : Ü Ýµ Ü le coût entre les deux valeurs reliées Ý), Ý Ý ÔÓ Üµ le poids deü(nous considérons qu une réponse fréquente (poids fort) est plus probable). Ainsi, la valuation Ü Ýµde l arc Ü Ýµvaut : La figure 9.6 montre un exemple de calcul des valuations. Intuitivement, la valuation Ü Ýµreprésente l "effort" qu il faut fournir pour aller d une valeur Üvers la valeurý. Ainsi, plus la valuation d un arc est élevée, plus la "distance" entre les deux valeurs est grande et plus l arrondiýest grossier. 173

190 Chapitre 9. Génération de la réponse directe FIG. 9.6 Valuation des arcs d un graphe La valeur à choisir pour la réponse directe doit minimiser les effets d arrondis avec l ensemble des autres valeurs. Pour cela, nous calculons pour chaque valeur la différence entre le coût nécessaire pour quitter cette valeur et le coût nécessaire pour l atteindre. La valeur qui est ensuite choisie pour la réponse directe est celle qui maximise cette différence (notée coût(x)) : réponse_directe Ö Ñ Ü ¾Ë( coût_sortie( ) coût_entrée( )) avec coût_sortie(ü) È Ü Ü µet coût_entrée(ü) È Ü Üµ. Intuitivement, la valeur qui est choisie est telle qu il faut fournir un "effort" beaucoup plus grand pour en sortir (i.e. pour aller vers d autres arrondis plus coûteux donc plus grossiers) que pour y entrer : elle correspond donc à l arrondi le plus fin de toutes les autres valeurs. Considérons un exemple. Supposons qu à la question quelle est la hauteur du Mont-Blanc?, les valeurs suivantes sont candidates à une réponse directe : 4800, 4807 (2 occurrences), 4808 (2 occurrences), , 4810 (8 occurrences) et La figure 9.7 montre le graphe des valeurs : ici la valeur choisie est S il n est pas possible de construire un graphe des valeurs, alors le système propose comme réponse l intervalle des valeurs. Par exemple, supposons qu à la réponse quelle est la hauteur de la Tour Eiffel?, on ait les réponses suivantes : 315, 316 et 318. Ici, les trois réponses possibles ont le même nombre de chiffres significatifs : il n est donc pas possible de les relier dans un graphe. Dans ce cas, la réponse directe proposée est l intervalle entre 315 et

191 9.2. Réponse directe en langue naturelle FIG. 9.7 Graphe des valeurs : hauteur du Mont-Blanc 9.2 Réponse directe en langue naturelle que ¾ ½ Ò ¾ Connaissant la(les) valeur(s) numériques associées à chaque restriction jugée pertinente, le but est maintenant de générer les réponses directes en langue naturelle. Comme déjà présenté pour la génération des explications, un schéma de générationøest une instantiation d un modèle de schémaìet est une séquence finie d éléments tels È µet ¾ ½ Ò ¾ ¾. Présentons à présent les principaux schémas que nous avons définis pour la génération des réponses directes. Nous rappelons ci-dessous les conventions de notation : chaque schéma est notéì_æóñ-ì ÑÔÐ Ø, oùæóñ-ì ÑÔÐ Ø est le nom du schéma et est la condition d application du schéma, les éléments prédéfinisô ¾Èsont en italique, la fonctionð Ü¾ est la fonction qui lexicalise les autres éléments (sujet, verbe de la réponse, etc.). Nous avons défini 6 schémas qui permettent de générer les réponses directes numériques et qui peuvent se combiner pour générer des réponses plus complexes. Nous présentons ici les conditions d application des schémas. Soit réponse_directe la valeur choisie grâce au graphe des valeurs ou la seule valeur candidate (cas où il n y a qu une seule valeur dans le graphe). 175

192 Chapitre 9. Génération de la réponse directe Il n y a qu une seule valeur dans le graphe - Quand il n y a aucune restriction à générer, le schéma associé est défini par : T_Rep-dir½ ½=Lex(CØ) Lex(CÐ), Lex(Focus) Lex(Verbe) Lex(réponse_directe) Lex(Unité). Notons que Øet Ðne sont pas générés si Ø ou Ð. Par exemple, à la question quel est l âge moyen du mariage en France? où Ø ¾¼¼ et Ð Ö Ò, on a la réponse suivante : En 2006 en France, l âge moyen du mariage est 30 ans. - Quand il y a une valeur associée à chaque restriction à générer, le schéma associé est défini par : T_Rep-dir½ ¾=Lex(CØ) Lex(CÐ), Lex(Focus) Lex(Verbe) Lex(réponse_directe) Lex(Unité) Lex(Restriction). Par exemple, on a la réponse suivante : En 2006 en France, l âge moyen du mariage est 30,6 ans pour les hommes et 28,5 ans pour les femmes. Le graphe a permis de choisir une valeur Ici, la valeur choisie dans le graphe est une valeur arrondie : ceci est lexicalisé dans la réponse par environ. - Quand il n y a aucune restriction à générer, le schéma associé est défini par : T_Rep-dir¾ ½=Lex(CØ) Lex(CÐ), Lex(Focus) Lex(Verbe) environ Lex(réponse_directe) Lex(Unité). Par exemple, on a la réponse suivante : En 2005, la hauteur du Mont-Blanc est environ 4810 mètres. - Quand il y a une valeur associée à chaque restriction à générer, le schéma associé est défini par : T_Rep-dir¾ ¾=Lex(CØ) Lex(CÐ), Lex(Focus) Lex(Verbe) environ Lex(réponse_directe) Lex(Unité) Lex(Restriction). Par exemple, on a la réponse suivante : En 2006 en France, l âge moyen du mariage est environ 30 ans pour les hommes et environ 28 ans pour les femmes. 176

193 9.2. Réponse directe en langue naturelle La construction du graphe est impossible Dans ce cas, plusieurs valeurs sont possibles pour la réponse directe. Nous avons choisi de proposer à l utilisateur un intervalle. - Quand il n y a aucune restriction à générer, le template associé est défini par : T_Rep-dir ½=Lex(CØ) Lex(CÐ), Lex(Focus) Lex(Verbe) entre Lex(Val_min) et Lex(Val_max) Lex(Unité). où Val_min et Val_max sont respectivement les valeurs candidates minimale et maximale. Par exemple, on a la réponse suivante : En 2005, la Tour Eiffel mesure entre 315 et 318 mètres. - Quand il y a une valeur associée à chaque restriction à générer, le template associé est défini par : T_Rep-dir ¾=Lex(CØ) Lex(CÐ), Lex(Focus) Lex(Verbe) entre Lex(Val_min) et Lex(Val_max) Lex(Unité) Lex(Restriction). Par exemple, on a la réponse suivante : L âge moyen du mariage est entre 27 et 29 ans pour les hommes et entre 24 et 28 ans pour les femmes. Dans le cas où il y a plusieurs restrictions à générer et que chaque restriction se trouve dans un des cas précédents, des combinaisons de schémas sont possibles pour éviter de générer une énumération de schémas ayant la même structure. Par exemple, on peut avoir la réponse suivante : la température de service du vin est d environ 18ÆC pour les vins rouges et entre 7 et 9ÆC pour les vins blancs. Cette réponse est obtenue à partir d une combinaison de T_Rep-dir¾ ¾et T_Rep-dir ¾grâce à des mécanismes d agrégation. 177

194 Chapitre 9. Génération de la réponse directe 9.3 Justification de la réponse Notre méthode permet de produire une réponse coopérative composée de deux parties : une réponse directe à la question, une explication sur la variation éventuelle de la valeur numérique recherchée (cf. chapitre 8). Cependant, il se peut que la réponse proposée ne soit pas très sûre en raison d un trop grand ou trop petit nombre de valeurs candidates à la réponse directe. De même, il peut être parfois difficile de générer une réponse synthétique surtout lorsqu il y a beaucoup de restrictions sur le focus, et donc beaucoup de cas différents à énumérer. Dans tous ces cas, il peut être nécessaire d apporter des informations complémentaires à l utilisateur pour justifier ou compléter la réponse que le système propose. Une perspective possible est l ajout à notre système d un composant de savoir-faire coopératif qui mesure la complexité de la réponse et le besoin en explications supplémentaires. Ce composant permettrait, chaque fois que nécessaire, de sélectionner une page ou un extrait de page Web pertinent à proposer à l utilisateur ou d ajouter, dans les schémas, des hyperliens menant vers ces justifications [Dale et al, 1998]. Ces extraits doivent bien sûr contenir des informations sur les différentes valeurs numériques recherchées mais aussi des informations additionnelles, par exemple des explications sur les causes de variation. Plusieurs indices peuvent être utilisés pour sélectionner des extraits de page : nombre de valeurs numériques concernant le focus de la question dans la page, présence de marqueurs introduisant des causes ou des conséquences, des arguments (à cause de, dû à, impliquer, etc.), informations plus récentes que celles données par le système, des indices de variation (verbes, etc.), etc. Ainsi, pour la question quelle est la hauteur du Mont-Blanc?, la réponse générée est : La hauteur du Mont-Blanc est d environ 4810 mètres. Elle varie dans le temps. Comme il y a beaucoup de valeurs différentes candidates à la réponse directe et que la valeur choisie est une valeur arrondie, il peut être utile d ajouter des explications. L extrait de la figure 9.8 peut être proposé à l utilisateur. Cet extrait contient : de nombreuses valeurs numériques datées concernant le focus de la question (4810,40 mètres en 2002, 4808,75 mètres en 2005,...), des marqueurs de cause et d argumentation (résulter de, effectivement, dû aux,...), des indices de variation (diminution, décalage,...). 178

195 9.4. Synthèse FIG. 9.8 Extrait de page Web : hauteur du Mont-Blanc 9.4 Synthèse Les figures 9.9 et 9.10 montrent un exemple complet, de l extraction des données à leur analyse puis de la génération de la réponse. Les tableaux 9.1 et 9.2 récapitulent les différents schémas de génération que nous avons définis pour la génération des réponses directes. 179

196 Chapitre 9. Génération de la réponse directe FIG. 9.9 Traitement complet d un exemple : Quel est l âge moyen du mariage en France? 180

197 9.4. Synthèse FIG Traitement complet d un exemple : Quel est l âge moyen du mariage en France? 181

198 182 Réponses directes Conditions d application Schémas de génération Exemples T_Rep-dir1.1 : Lex(CØ) Lex(CÐ), Lex(Focus) Lex(Verbe) Lex(réponse_directe) Lex(Unité) Une seule valeur dans le graphe T_Rep-dir1.2 : Q : Quel est l âge moyen du mariage en France? En 2006 en France, l âge moyen du mariage est 30 ans. Q : Quel est l âge moyen du mariage en France? Lex(CØ) Lex(CÐ), Lex(Focus) Lex(Verbe) Lex(réponse_directe) Lex(Gen_Rest) Lex(Unité) pour les hommes et 28,5 ans pour les femmes. En 2006 en France, l âge moyen du mariage est 30,6 ans Chapitre 9. Génération de la réponse directe T_Rep-dir2.1 : Q : Quelle est la hauteur du Mont-Blanc? Plusieurs valeurs Lex(CØ) Lex(CÐ), Lex(Focus) Lex(Verbe) La hauteur du Mont-Blanc est environ 4810 mètres. dans le graphe environ Lex(réponse_directe) Lex(Unité) T_Rep-dir2.2 : Q : Quel est l âge moyen du mariage en France? Lex(CØ) Lex(CÐ), Lex(Focus) Lex(Verbe) En 2006 en France, l âge moyen du mariage est environ environ Lex(réponse_directe) Lex(Unité) Lex(Gen_Rest) 30 ans pour les hommes et environ 28 ans pour les femmes. TAB. 9.1 Schémas de génération pour les réponses directes de type numérique (1/2)

199 Réponses directes Conditions d application Schémas de génération Exemples Construction du graphe impossible T_Rep-dir3.1 : Lex(CØ) Lex(CÐ), Lex(Focus) Lex(Verbe) entre Lex(Val_min) et Lex(Val_max) Lex(Unité) Q : Combien mesure la Tour Eiffel? La Tour Eiffel mesure entre 315 et 318 mètres. T_Rep-dir3.2 : Q : Quel est l âge moyen du mariage en France? Lex(CØ) Lex(CÐ), Lex(Focus) Lex(Verbe) L âge moyen du mariage est entre 27 et 29 ans entre Lex(Val_min) et Lex(Val_max) Lex(Unité) Lex(Gen_Rest) pour les hommes et entre 24 et 28 ans pour les femmes. TAB. 9.2 Schémas de génération pour les réponses directes de type numérique (2/2) 9.4. Synthèse 183

200 Chapitre 9. Génération de la réponse directe 184

201 Chapitre 10 Évaluation pour les réponses de type numérique Chaque composant de notre système doit être évalué, à savoir l extraction des réponses candidates, la caractérisation des valeurs numériques et la génération des réponses en langue naturelle. Comme nous l avons déjà expliqué au chapitre 5, une évaluation à la TREC est impossible dans notre cadre. Nous proposons donc dans les sections suivantes des éléments d évaluation adaptés. Nous commençons ici par présenter les cas qui posent problème et que notre système ne peut résoudre de façon satisfaisante Quelques problèmes Certains types de questions numériques ne permettent pas au système de générer une réponse entièrement satisfaisante. Considérons l exemple suivant : Q : Quel est le nombre de buts marqués par Zidane en équipe de France? R : Le nombre de buts marqués par Zidane en équipe de France est 31. Il a augmenté de 20 entre 1998 et Dans cet exemple, l explication générée est certes correcte sur le fond mais loin d être pertinente. En effet, l amplitude de variation donnée ici n apporte pas d information vraiment utile. De plus, le nombre de buts ne peut qu augmenter! Le problème de la génération d explications non pertinentes se pose dans le cas de questions portant en particulier sur un nombre d événements. En effet, un nombre d événements ne peut être que cumulatif (le nombre de fois où un événement se produit ne peut pas diminuer). Des questions portant sur un nombre d événements (achats, ventes, morts, etc.) peut donc entraîner la génération d explications 185

202 Chapitre 10. Évaluation pour les réponses de type numérique inutiles pour l utilisateur. Dans l évaluation qui suit, nous n avons pas considéré ce type de question. Nous proposons quelques pistes de réflexion dans la conclusion de ce manuscrit. L ensemble de l évaluation porte sur 30 questions de type numérique qui portent sur des poids, tailles (hauteur, longueur, etc.), températures, âges et quantités. Nous rappelons que ces questions sont des questions provenant des sites d inventaire de requêtes sur le Web ou portant sur des faits d actualité grand public. Elles sont données en annexe C Évaluation de l extraction Pour évaluer la qualité de l extraction, nous avons soumis les 30 questions de type numérique à QRISTAL. Nous avons ensuite évalué manuellement la pertinence des pages Web (pages entières) sélectionnées par QRISTAL : une page est jugée pertinente si elle contient une réponse, même fausse, à la question (la réponse est du type sémantique attendu). Sur l ensemble des 50 pages sélectionnées au maximum par QRISTAL pour chaque question, on obtient en moyenne 45% de pages pertinentes. Parmi ces pages jugées pertinentes, nous avons ensuite rempli les frames manuellement et nous avons comparé les résultats d une extraction manuelle avec les résultats obtenus par la grammaire d extraction. Une frame extraite par la grammaire et provenant d une pageôest jugée incorrecte si elle diffère d au moins un champ par rapport à la frame extraite manuellement et provenant de la même pageô. La grammaire parvient à extraire correctement les informations dans 67% des cas. Les échecs proviennent en très grande majorité : de problèmes de référence, notamment de références temporelles, de synonymie (que l on peut résoudre lors d une extraction manuelle mais que notre grammaire ne traite pas), de manque de connaissances spécifiques au domaine, en particulier pour l extraction des restrictions (même si l ensemble des propriétés définies dans le lexique permet tout de même de couvrir un grand nombre de cas). Il existe des approches qui pourraient améliorer les résultats, par exemple en identifiant les entités nommées, en analysant les textes syntaxiquement [Appelt et al, 1993], sémantiquement [Katz et al, 2003], en résolvant les problèmes d anaphore [Lappin et al, 1994] [Vicedo et al, 2000] ou grâce à de l inférence temporelle [Harabagiu et al., 2005]. Cependant, comme il existe beaucoup de redondances au sein des pages Web, les cas d échecs n ont pas de conséquences graves sur le mécanisme d intégration. 186

203 10.3. Évaluation de la détermination de contenu 10.3 Évaluation de la détermination de contenu L évaluation de la détermination de contenu consiste à vérifier si le contenu de la réponse générée est correct. Elle concerne donc les deux parties de la réponse : la réponse directe et les explications Évaluation des réponses directes L évaluation de la détermination de contenu pour les réponses directes consiste à évaluer si les valeurs numériques proposées (avec les éventuelles restrictions) sont correctes. Méthode. Comme pour l évaluation du chapitre 5, nous avons comparé notre approche : au moteur de recherche Google : à savoir, quel est le rang du lien contenant la réponse correcte à la question?, existe-il des réponses incorrectes données avant la réponse correcte? au système QRISTAL : la réponse proposée par QRISTAL (i.e. la réponse candidate la mieux classée) est-elle correcte?, à un comptage de fréquence : la réponse la plus fréquemment donnée par QRISTAL est-elle correcte? L ensemble des 30 questions a été soumis en langue naturelle au système QRISTAL et sous forme de mots-clés à Google. De l ensemble des liens obtenus par QRISTAL nous n avons gardé que les réponses provenant de pages Web différentes. Nous avons ensuite appliqué deux méthodes : notre méthode de détermination de contenu et un comptage de fréquence (appelé ensuite Fréquence dans le tableau présentant les résultats). Pour chacune des quatre réponses obtenues respectivement par Google, QRISTAL, notre méthode et par un comptage de fréquence, nous avons identifié plusieurs cas : réponse correcte : la réponse proposée (valeur numérique et éventuelles restrictions) est correcte (la réponse est comparée aux informations venant d encyclopédies ou de documents officiels). Pour le cas de Google, on compte comme réponse correcte seulement les réponses correctes qui sont données dans le premier lien ou qui ne sont pas précédées d une réponse incorrecte ou incomplète, réponse arrondie : les éventuelles restrictions sont correctes et la valeur proposée est un arrondi de la valeur correcte, réponse incomplète : la réponse proposée est incomplète, i.e. il manque des informations sur certaines restrictions, intervalle : la réponse proposée est un intervalle (cas où la construction du graphe est impossible), réponse incorrecte : la réponse proposée est complètement incorrecte, 187

204 Chapitre 10. Évaluation pour les réponses de type numérique pas de réponse : les systèmes n ont pas trouvé de réponse. Par exemple, le choix de la réponse la plus fréquente est impossible car plusieurs réponses ont la même fréquence. Pour le cas de Google, ce cas se présente quand aucune réponse n a été trouvée dans les 30 premiers liens proposés. Résultats. Les figures 10.1 et 10.2 présentent les résultats obtenus. FIG Évaluation des réponses directes numériques FIG Distribution des rangs des réponses correctes de Google : réponses numériques Pour les réponses qui présentent des valeurs pour plusieurs restrictions, il est possible d avoir, dans une même réponse, plusieurs cas de figure pour chaque restriction : par exemple, une valeur arrondie associée à une restriction et un intervalle associé à une autre restriction, etc. (ce qui explique que la somme des pourcentages ne fasse pas toujours 100). Les résultats obtenus grâce à notre méthode sont bien supérieurs à ceux obtenus par tous les autres systèmes. En effet, Google et QRISTAL ne donnent que très peu, voire pas de réponse correcte. En particulier, là où Google et QRISTAL donnent des réponses incorrectes, incomplètes ou ne donnent 188

205 10.3. Évaluation de la détermination de contenu aucune réponse, notre méthode permet dans la majorité des cas testés d obtenir soit une réponse correcte soit une réponse arrondie ou un intervalle. Les quelques réponses incomplètes sont dues à l absence de connaissances pour extraire correctement les différentes restrictions. Ces résultats montrent bien l intérêt de générer une réponse synthétique qui prend en compte des informations venant de plusieurs pages Web car une seule page Web ne permet que très rarement d obtenir l intégralité des informations recherchées (en particulier pour les restrictions qui se trouvent souvent dans des pages différentes) Évaluation des explications L évaluation de la détermination de contenu pour les explications consiste à évaluer la qualité des caractéristiques des valeurs numériques inférées à partir des pages Web, c est-à-dire : 1. si les critères de variation inférés (temps, lieu, restrictions) sont effectivement corrects et, 2. si le mode de variation inféré (augmentation, diminution ou variation aléatoire) est lui aussi correct. Ceci est évalué en consultant des documents officiels (encyclopédies, documents INSEE, etc.) décrivant les données ou par rapport à notre propre connaissance du phénomène pour les cas simples. Nous avons évalué ces deux points sur les 30 questions précédentes qui portent sur des valeurs numériques pouvant varier selon zéro, un ou plusieurs critères. Critères de variation. Les critères de variation (ou l absence de critère de variation) sont correctement identifiés dans 89% des cas. Les cas d échecs sont dus au fait que les critères n ont pas pu être identifiés car la grammaire n a pas pu les extraire des pages Web. Mode de variation. Pour les valeurs numériques pour lesquelles le critère de variation selon le temps a été correctement identifié, nous avons évalué si le mode de variation inféré à partir de la régression linéaire est correct. Celui-ci est correct dans 86% des cas. Les cas d échecs proviennent du fait que le critère de variation selon le temps n a pas pu être identifié (et donc la régression linéaire n a pu être faite) car la grammaire n a pas pu extraire les informations temporelles des pages Web. Cependant, dans ce cas, il serait possible d améliorer les résultats et d identifier le mode de variation si des indices linguistiques de variation (verbes d augmentation, etc.) ont pu être extraits des textes. Pour le moment, notre système ne traite pas ces indices. Synthèse. Les résultats peuvent être considérés comme très satisfaisants. En effet, dans une très grande majorité des cas, le contenu des explications est correct. 189

206 Chapitre 10. Évaluation pour les réponses de type numérique Les cas d échecs ne sont pas réellement pénalisants car ils correspondent en fait à une absence de reconnaissance des critères et mode de variation et non à une mauvaise reconnaissance. Ceci a pour conséquence qu aucune explication ne pourra être générée (seule la réponse directe est générée), ce qui est bien évidemment préférable à une explication erronée Évaluation des réponses en langue naturelle Nous avons finalement souhaité évaluer la satisfaction des utilisateurs face aux réponses qui leur sont proposées par le système. Nous avons pour cela soumis trois questionnaires à 15 sujets entre 20 et 35 ans, de niveaux d étude différents et qui ont l habitude d utiliser des moteurs de recherche sur le Web. Tâche 1. Dans un premier temps, nous avons voulu évaluer quels types de réponses les utilisateurs produisent à partir d un ensemble de réponses candidates. Pour cela, nous leur avons proposé 5 questions numériques avec leurs réponses candidates variant selon le temps, le lieu ou les restrictions et nous leur avons demandé de produire leur propre réponse. La figure 10.3 présente un extrait du questionnaire. FIG Évaluation du point de vue utilisateur : choix des contraintes utilisateurs Pour les questions variant selon les restrictions (comme dans l exemple précédent), 93% des sujets ont produit une réponse qui est une énumération des valeurs pour les différentes restrictions. Pour les questions variant selon le temps, 80% des sujets ont produit une réponse donnant l information la plus récente. Enfin, pour les questions variant selon le lieu, 73% des sujets ont produit une réponse donnant l information pour le lieu le plus proche d eux. Ces résultats valident nos hypothèses faites pour le choix des contraintes implicites imposées par la 190

207 10.4. Évaluation des réponses en langue naturelle question (cf. chapitre 9). Tâche 2. Le deuxième point que nous voulions évaluer est l ordre de présentation des différentes composantes de la réponse. Notre système produit des réponses sous la forme d une réponse directe puis d une explication. FIG Évaluation du point de vue utilisateur : ordre des réponses Les résultats d une évaluation présentée dans [Yu et al., 2005] montrent que face à un résumé de données numériques, les utilisateurs préférent avoir d abord un résumé général puis une focalisation sur un phénomène intéressant. Nous avons voulu vérifier si ces résultats sont aussi valables dans notre cadre en proposant aux utilisateurs une paire question-réponse où les différentes parties de la réponse (réponse directe, explication et justification avec extrait de page Web) sont proposées dans des ordres différents. Nous avons demandé aux utilisateurs de choisir l ordre de présentation qui leur convenait le mieux (cf. figure 10.4). Contrairement aux résultats de [Yu et al., 2005], 73% des sujets ont préféré l ordre proposé par le système (proposition 2 dans l exemple de la figure 10.4). En effet, dans le cadre d un système question-réponse, 191

208 Chapitre 10. Évaluation pour les réponses de type numérique les utilisateurs veulent d abord avoir la réponse à leur question avant d avoir des informations additionnelles. Tâche 3. Enfin, pour évaluer la qualité des réponses produites, nous avons proposé 5 questions aux sujets. Pour chacune des questions, nous leur avons demandé : de choisir quelle réponse directe ils préférent parmi : la réponse de notre système, une moyenne, un intervalle et une disjonction de toutes les réponses candidates, de dire s ils jugent l explication utile, de dire s ils souhaitent d autres informations additionnelles, de dire s ils jugent les informations additionnelles proposées utiles (un extrait de page Web). La figure 10.5 présente un extrait de ce questionnaire. FIG Évaluation du point de vue utilisateur : qualité de la réponse 91% des sujets ont préféré la réponse directe du système et 73% des sujets ont trouvé que l explication fournie était utile. Les utilisateurs sont donc très satisfaits des réponses produites par le système. En revanche, seulement 31% des sujets ont souhaité avoir des informations additionnelles et seulement 28% les ont trouvées utiles. Synthèse. L évaluation de la réponse du point de vue utilisateur donne des résultats très satisfaisants. Elle nous a permis de valider les choix effectués concernant les attentes de utilisateurs, les informations pertinentes à générer et la forme des réponses. 192

209 Conclusion Nous avons présenté dans cette troisième partie les problèmes liés aux réponses numériques trouvées sur le Web et proposé une approche pour la génération de réponses coopératives. La coopérativité se situe à deux niveaux : une réponse directe synthétique est générée en langue naturelle à partir d un ensemble de réponses potentielles extraites par un moteur de recherche, des informations additionnelles sont générées, qui expliquent à l utilisateur les variations éventuelles de la valeur numérique recherchée. L originalité de notre méthode réside dans les points suivants : les attentes de l utilisateur, déduites de la question, sont utilisées pour générer une réponse directe pertinente. Une étude des éléments pertinents à générer a notamment été menée afin que la réponse générée ne surprenne pas l utilisateur (maxime de pertinence), les inconsistances de données trouvées sur le Web sont identifiées. Plutôt que de présenter à l utilisateur un ensemble de réponses incohérentes, notre méthode permet par exemple de détecter les relations d arrondi et de choisir une valeur numérique satisfaisante pour l utilisateur (maxime de qualité), au lieu de laisser l utilisateur tirer ses propres conclusions à partir d une grande quantité de données sur le Web, les explications présentent d une façon synthétique l ensemble des données trouvées sur le Web en expliquant les phénomènes de variation propres à une valeur numérique donnée (maxime de quantité). Nous avons finalement évalué notre méthode du point de vue technique et du point de vue utilisateur. Les résultats de ces évaluations sont très satisfaisants, l une des principales limites étant le besoin de ressources pour améliorer la précision des réponses. Cependant, une grande majorité des cas testés sont couverts par les ressources du lexique et ne nécessitent pas de ressource spécialisée. De plus, l absence de connaissances spécifiques à un domaine n empêche pas la génération de la réponse, elle influe seulement sur le niveau de précision de celle-ci. Enfin, notre système nécessite une représentation des connaissances de type ontologique qui est relativement standard (relation de méronymie/hyperonymie) ce qui lui permet d utiliser des ontologies déjà définies et dont certaines sont disponibles sur le Web. 193

210 Conclusion 194

211 Conclusion générale et perspectives Nous avons présenté dans ce manuscrit l approche que nous avons adoptée, dans le cadre des systèmes question-réponse, pour concevoir un système coopératif qui se situe en aval d un analyseur de questions et d un moteur de recherche des réponses candidates sur le Web. L originalité de notre système repose sur un module d intégration de données qui permet de produire une réponse synthétique quand plusieurs réponses candidates à une question sont extraites du Web. Notre système fonctionne en domaine ouvert. Nous nous sommes concentrés sur deux types de questions : les questions attendant des réponses temporelles de type date et celles attendant des réponses numériques. Ceci nous a permis de mesurer les besoins et les coûts en domaine ouvert du point de vue des mécanismes d intégration de données et des connaissances nécessaires. Contributions Étant donné nos objectifs, nos principales contributions portent sur : L analyse du problème et la conception du système. Grâce à notre étude de corpus, nous avons identifié les problèmes qui se posent pour répondre à une question lorsque plusieurs réponses sont sélectionnées par un moteur de recherche. Nous avons ainsi identifié les relations pouvant exister entre plusieurs réponses potentielles à une question et proposé des formulations de réponses synthétiques en langue naturelle. L objectif était de concevoir un système qui puisse traiter ces problèmes. Cette étude nous a permis d implémenter un système dont l architecture repose sur une architecture classique (analyse de la question et recherche des réponses candidates) à laquelle nous avons ajouté sur un module de raisonnement spécifique aux systèmes coopératifs (module d intégration de données) et un module de génération pour les réponses et les explications. Notre système a été implémenté en Perl, les grammaires d extraction étant en Prolog (cf. annexe D). La représentation des connaissances. Nous avons identifié puis intégré plusieurs modèles de représentation des connaissances nécessaires à l analyse des données et à la génération des réponses. Ainsi, nous avons montré qu un lexique et une base de connaissances de sens commun de taille limitée permettent de couvrir une grande partie des besoins en domaine ouvert. Dans 195

212 Conclusion générale et perspectives certains cas, des ontologies décrivant des domaines plus finement peuvent être utilisées (certaines pouvant être trouvées sur le Web) pour améliorer la précision des réponses. Les mécanismes d intégration. Nous avons étudié pour notre système deux mécanismes d intégration de données, à savoir l intégration de données temporelles (dates) et l intégration de données numériques. pour les données temporelles (dates), le mécanisme d intégration permet d identifier des phénomènes propres aux événements traités (itérativité, périodicité, etc.) et de définir un degré de certitude de la réponse proposée, pour les données numériques, nous avons dans un premier temps identifié les éléments pertinents à générer du point de vue de l utilisateur. Le mécanisme d intégration permet d identifier les propriétés des concepts et de résoudre les inconsistances de données afin de proposer une réponse et une explication. La génération des réponses. Dans notre système, les réponses sont générées en langue naturelle. Cette génération s appuie sur des techniques utilisant des schémas de génération et de la génération "pure" (techniques de lexicalisation, d agrégation, etc.). Les schémas que nous avons définis reflètent les différents mécanismes mis en œuvre et les phénomènes caractéristiques des données qui ont pu être identifiés. Les réponses sont composées d une réponse directe et d une partie coopérative (degré de certitude ou explication). L évaluation. Nous avons proposé des méthodes d évaluation de notre système à différents niveaux : une évaluation des performances des composants du système et une évaluation plus cognitive du point de vue utilisateur. Nous avons développé notre approche dans le cadre des systèmes question-réponse sur le Web mais celle-ci pourrait aussi être utilisée pour l interrogation de bases ou d entrepôts de données. De plus, les mécanismes d intégration des données sont indépendants de la langue : ils peuvent ainsi être utilisés dans des systèmes multilingues par exemple. Perspectives et orientations futures Au cours du développement des différentes étapes et de l évaluation, nous avons identifié de nouveaux problèmes, plus ou moins complexes, qui concernent l extraction et l analyse des données, les mécanismes d intégration et la génération des réponses. Nous proposons ici quelques pistes de réflexion. 196

213 Un de nos objectifs de départ pour le développement d un tel système en domaine ouvert était de minimiser le besoin en connaissances et d inférer les connaissances nécessaires à l élaboration de la réponse directement à partir des pages Web. Ainsi, le lexique que nous avons défini est assez réduit : en effet, les principaux concepts nécessaires à l extraction ou la génération des réponses sont issus directement de la question. De même, pour la génération des réponses, le système n a besoin que de ressources lexicales concernant certains verbes et prépositions. Cependant, nous envisageons de nous intéresser à d autres types de questions (par exemple, les questions en pourquoi?) et donc à d autres formes de réponses. Dans ce cas, d autres ressources lexicales sont sansdoute nécessaires. L extension du lexique pour traiter d autres questions risque donc d être coûteuse. Lors de la mise en œuvre des mécanismes d extraction et d intégration des données numériques, nous avons constaté que, pour certains domaines spécialisés, les informations nécessaires à la génération de la réponse ne peuvent être traitées que si le système dispose de connaissances fines sur le domaine considéré. C est pourquoi le système a recours à des ontologies pour produire des réponses les plus précises possibles. Des ontologies, définies de façon standard, sont aujourd hui disponibles sur le Web. Le problème réside dans le fait qu elles peuvent ne pas être réellement appropriées par rapport à la tâche envisagée. En effet, ces ontologies sont souvent définies par des experts, pour un certain type de public ou d application. Il faut donc adapter ces ontologies aux besoins. Les résultats des différentes évaluations nous ont permis d identifier quelques pistes d amélioration que nous présentons à présent. À court terme. Nous envisageons de nous intéresser à deux principaux points : la prise en compte de la crédibilité des sources d information et l amélioration de l extraction. Pour le moment, nous n avons pas pris en compte la crédibilité des pages Web car nous avons vu que les informations sur la date ou l auteur de la page sont rarement disponibles. En revanche, pour des questions portant sur des faits d actualité, les informations sur la source peuvent être récupérées et utilisées dans les mécanismes d intégration. Dans le cadre d un projet STIC Asie, nous nous sommes intéressés plus particulièrement aux questions numériques portant sur des faits d actualité. Nous avons pour cela utilisé le moteur de recherche Google News qui renvoie, pour une requête donnée, une liste de liens vers des sites d informations (journaux en ligne, etc.) qui répondent à la question. Une analyse rapide des résultats de Google News nous permet de constater que pour chacun des sites renvoyés, des informations sur la date, la source, l auteur... sont disponibles. Ces informations que 197

214 Conclusion générale et perspectives nous n avons jusqu alors pas prises en compte dans les mécanismes d intégration car absentes d une grande majorité des pages Web, peuvent être déterminantes dans le cas des questions portant sur des faits d actualité. Les mécanismes d intégration peuvent, dans ce cas, prendre en compte un critère de fiabilité de l information défini à partir de la date de l information, de la source, etc. Ceci nous a menés à la définition d une nouvelle frame pour l extraction des données dans les sites d actualité. Le champ Crédibilité contient les informations propres à la page Web (source, date et lieu de l information). Le champ Perspective contient éventuellement une information sur la personne/l organisme... qui rapporte les faits. Par exemple, la figure 1 présente une page Web sélectionnée par Google News et une frame obtenue manuellement. FIG. 1 Exemple de page sélectionnée par Google News : Combien y a-t-il d adhérents en PS? Nous réfléchissons actuellement à la façon de prendre en compte ce paramètre de crédibilité dans le mécanisme d intégration. Notre système est aussi en cours d implémentation pour l anglais à l IIT Kharagpur. Il faut en particulier adapter les schémas de génération, la grammaire d extraction étant relativement stable par rapport 198

Montrer encore