Recherche flexible d information par filtrage flou qualitatif

Transcription

1 N o d ordre : 5158 THÈSE Présentée devant l Université Paul Sabatier de Toulouse en vue de l obtention du Doctorat de l Université Paul Sabatier Spécialité Informatique Par Yannick Loiseau Recherche flexible d information par filtrage flou qualitatif Soutenue le 16/12/2004 devant le jury composé de : M. Boughanem Mohand Professeur à l Université P. Sabatier, Toulouse directeur de thèse Mme Bruandet Marie-France Professeur à l Université J. Fourier, Grenoble examinatrice M. Chrisment Claude Professeur à l Université P. Sabatier, Toulouse président du jury M. Gallinari Patrick Professeur à l Université Paris 6 rapporteur M. Mouaddib Noureddine Professeur à l Université de Nantes rapporteur M. Prade Henri Dr. CNRS, Université P. Sabatier, Toulouse directeur de thèse Institut de recherche en informatique de Toulouse Centre National de la Recherche Scientifique - Institut National Polytechnique - Université Paul Sabatier Université Paul Sabatier, 118 Route de Narbonne, Toulouse Cedex 4, Tel : +33 (0)

2

3 Remerciements Je tiens à remercier très sincèrement messieurs les professeurs Claude Chrisment et Gilles Zurfluh, responsables de l équipe SIG, et monsieur Henri Prade, Dr. CNRS, responsable de l équipe RDPMP pour m avoir accueilli en son sein afin de mener à bien mes travaux de recherche. Je tiens à exprimer ma gratitude aux membres du jury pour l honneur qu ils m ont fait en acceptant de juger mon travail. Je remercie particulièrement messieurs Patrick Gallinari, professeur à l Université Paris 6, et Noureddine Mouaddib, professeur à l Université de Nantes, d avoir accepté d être les rapporteurs de cette thèse et pour leurs remarques constructives. Merci également à Marie-France Bruandet, professeur à l Université J. Fourier de Grenoble, pour avoir accepté d être examinatrice de mon travail en participant à ce jury. Je remercie aussi très sincèrement Mohand Boughanem, professeur et Henri Prade, Dr. CNRS, tous deux de l Université P. Sabatier de Toulouse, qui ont dirigés cette thèse. Je leur suis reconnaissant pour leur disponibilité et leur confiance. Leurs critiques et leur soutien m ont été précieux tout au long de ce travail. Mes remerciements vont également à Gabriella Pasi, docteur au CNR-ITC de Milan, avec qui la collaboration a été des plus enrichissantes. Merci à ceux qui ont partagé mon bureau pendant ces années, Kais, Faiza, Anis, et plus particulièrement Hamid, pour l aide et les encouragements mutuels au cours de cette thèse. Je remercie également tous les membres des équipes SIG et RDPMP de l Irit, qui m ont accueilli pendant ces années de thèse, ainsi que tous les membres du personnel du laboratoire. Je remercie aussi les personnes que j ai rencontrées pendant mes enseignements, pour les conseils sur les cours et le co-voiturage lors des déplacements. 3

4 4 Merci aux amis qui ont été là, Guilhem, Cyrille, pour la bonne humeur qu ils m ont communiquée. Je remercie Amélie du fond du cœur, pour ses encouragements et sa tendresse. Elle a su être présente pour moi, et m a toujours soutenu et encouragé, même pendant son absence. Je remercie enfin ma famille pour les corrections tardives et tout le soutien qu ils ont su m apporter.

5 Table des matières Introduction 15 1 Bases de données floues Introduction Concepts fondamentaux des bases de données Modèle relationnel Clés Algèbre relationnelle et manipulation des données Opérations ensemblistes Opérations relationnelles Requêtes Conclusion Bases de données floues Requêtes flexibles Modélisation de requêtes flexibles sur des données classiques Algèbre relationnelle pour relations floues Incertitude et incomplétude des données Approches par logiques multivaluées Approche possibiliste Similarité et modèle relationnel Unicité et redondance

6 6 TABLE DES MATIÈRES Évaluation de requêtes Modèles de proximité Conclusion Recherche d information Introduction Recherche d information classique Présentation des SRI Formulation des requêtes Indexation Indexation manuelle Indexation automatique Correspondance requête - documents Modèles de systèmes de recherche d information Modèle booléen Modèle vectoriel Modèle LSI Modèle probabiliste Réseaux d inférence bayésiens Modèle connexionniste Modèles de langues Reformulation de requêtes Bouclage de pertinence Utilisation de ressources linguistiques Croisement de langues en recherche d information Approches de la traduction des requêtes Désambiguïsation des traductions Évaluation des performances des systèmes de recherche d information 63

7 TABLE DES MATIÈRES Précision et rappel Précision à x Autres mesures Collections de test Conclusion Recherche d information floue Indexation floue Indexation de documents non structurés Représentation et indexation de documents structurés Requêtes floues Requêtes pondérées Opérateurs d agrégation Amélioration du résultat par les associations floues Thésaurus flou Classification floue Conclusion Filtrage qualitatif symbolique Introduction Le filtrage flou Filtrage qualitatif Évaluation de requêtes par ontologies possibilistes Modèle d ontologies possibilistes Appariement possibiliste entre requête et information Autres approches utilisant des ontologies Conclusion

8 8 TABLE DES MATIÈRES 4 Filtrage qualitatif et Bases de données Introduction Interrogation des bases de données Évaluation sur les attributs linguistiques Évaluation sur les attributs numériques Évaluation mixte Expérimentation et résultats Description de la plate-forme Preti Ontologies utilisées Terme montagne Terme littoral Résultats Conclusion Recherche d info. par filtrage qualitatif Introduction Modèle Indexation possibiliste Une ontologie possibiliste basée sur WordNet Extension à l information multilingue Évaluation de requêtes Illustration de l évaluation sur un exemple multilingue Illustration sur une base de titres Illustration sur une base de titres Description des données Description des requêtes Évaluation et résultats Conclusion

9 TABLE DES MATIÈRES 9 6 Pertinence en RI par méthodes multicritères Introduction À propos des méthodes multicritères Agrégation multicritères Raffinements de l agrégation par le minimum Expérimentation et résultats Présentation de la collection Présentation du système Mercure Adaptation au modèle possibiliste Évaluations et Résultats Évaluation de requêtes mono-terme Évaluation de requêtes multi-termes Évaluation des méthodes de tri Conclusion Conclusion et perspectives 153 Bibliographie 156 A Théorie des ensembles flous 171 A.1 Ensembles flous A.2 Imprécision et incertitude B Projet e-court 177 C Ressources de l exemple des titres 179 C.1 Liste des titres C.2 Relations de l ontologie définies manuellement

10 10 TABLE DES MATIÈRES

11 Table des figures 1.1 Exemple de représentation de valeurs mal connues par des possibilités Exemple de calcul des degrés de la condition modéré sur un prix imprécis Processus général de la recherche d information Exemple de réseau Bayésien Exemple de réseau de neurones Ontologie des hébergements Ontologie des lieux Distributions des prix Attributs linguistiques pour les prix Distribution du terme montagne Répartition du terme montagne de seuils 25 75% Autres types de répartition pour l altitude Indexation d un document dans l ontologie Liaison entre un document et un synset Structure de l ontologie multilingue Exemple d ontologie multilingue Ontologies pour les titres d articles Poids de l agrégation par OWmin

12 12 TABLE DES FIGURES 6.2 Relation entre w et (Π, N) selon α Variation de la précision en fonction de α Répartition des termes selon leur poids

13 Liste des tableaux 1.1 Exemple de relations sur les hôtels Exemple de base de données de lieux de vacances Résultat de l évaluation de R Résultat de l évaluation de R Résultat de l évaluation de R R Données d expérimentation de Preti Résultats de la requête sur corbieres Résultats de la requête R Résultats de la requête R Résultats de la requête sur les prix Résultats de la requête R Résultats de la requête R Exemple d index de document Exemple de base de titres d articles Index obtenu à partir des titres Nombre de documents pertinents pour les requêtes Résultats sans ontologie Résultats en utilisant l ontologie Documents pertinents pour les requêtes 1 et Détail pour la requête

14 14 LISTE DES TABLEAUX 5.9 Résultats des requêtes floues sans l ontologie Résultat de la requête 5 pondérée sans ontologie Résultats des requêtes floues avec l ontologie Exemples de l utilisation de OWmin Évaluation type Mercure : utilisation directe du poids Utilisation du poids w doc pour le calcul de N et Π Utilisation du poids w coll pour le calcul de N et Π Évaluation type Mercure Utilisation du poids w coll pour le calcul de N et Π Évaluation des méthodes de tri

15 Introduction générale Avec la démocratisation des moyens informatiques, et notamment leur utilisation comme outil de communication, une somme toujours plus importante de sources d informations est mise à la disposition du public, sous forme de bases de données, de textes, d articles. Face à cette multiplication des données informatiques, qu elles soient structurées ou documentaires, la nécessité de systèmes de recherche efficaces se fait de plus en plus sentir. Le but de ces systèmes de recherche est d aider un utilisateur n étant pas spécifiquement un expert à trouver l information désirée parmi la masse de données disponibles. Ainsi, l utilisateur doit formuler son besoin d information sous la forme d une requête, et la tâche du système est d identifier les documents ou les enregistrements qui répondent à ce besoin, afin d en fournir une liste à l utilisateur, traditionnellement triée en fonction de leur pertinence estimée vis-à-vis du besoin de l utilisateur, c est-à-dire de sa satisfaction. Cependant, la formulation de ces besoins en une requête efficace reste une démarche relativement ardue, en partie due au fait que celle-ci doit être compréhensible par le système informatique, et cela malgré l imprécision du besoin initial. En effet, il n est pas rare que l utilisateur ne sache pas lui-même formuler clairement son besoin. L efficacité de ces systèmes passe donc entre autre par une meilleure adéquation entre la machine et l humain, dans le mode de représentation et de description des informations contenues dans le système, mais aussi des besoins formulés par l utilisateur. Une des solutions permettant de s approcher plus fidèlement du mode de pensée humain, caractérisé en outre par l imprécision et l ambiguïté, est l utilisation de la logique floue, qui permet de modéliser ces caractéristiques de manière formelles, et ainsi de les intégrer dans un système d évaluation. En outre, l information est souvent représentée sous forme de termes linguistiques. Ces termes peuvent provenir de documents textuels ou d attributs linguistiques représentant des données numériques. Lorsque les sources d information diffèrent, il n est pas rare que 15

16 16 INTRODUCTION GÉNÉRALE le vocabulaire utilisé pour ces termes soit hétérogène, et souvent incompatible ou contradictoire entre les différentes sources. Ce problème d hétérogénéité se pose aussi lors de la formulation des requêtes, puisque l utilisateur doit connaître a priori le vocabulaire utilisé dans la représentation de l information. Un outil issu de la théorie des possibilités, appelé «filtrage flou» se prête particulièrement bien à cette application, que ce soit dans le domaine des bases de données ou de la recherche documentaire. Il permet en effet de représenter dans quelle mesure il est possible et certain qu une information satisfait un besoin. Ces besoins peuvent de plus être exprimés de manière flexible, c est à dire en tenant compte des préférences de l utilisateur. Cependant, cet outil se base sur la théorie des ensembles flous, et s il s applique parfaitement aux données pouvant se traduire par des valeurs numériques ou assimilables, son utilisation dans le cadre de données touchant au langage naturel est moins évidente. L autre point clé de ces systèmes de recherche est l évaluation de la pertinence des résultats vis-à-vis de la requête, et le tri de ceux-ci de manière judicieuse. Classiquement, une mesure de pertinence est calculée entre la donnée (document ou enregistrement de base de données) et la requête, et cette mesure est utilisée pour trier les résultats obtenus afin de ne présenter que les plus pertinents. Cependant, cette approche peut être considérée comme trop simplificatrice. En effet, une requête, même simple, est généralement constituée d une liste de mots-clés, considérés comme définissant les besoins, c est à dire les sujets devant être traités dans le document recherché dans le cadre de recherche documentaire par exemple. Ainsi, l approche classique calcule une seule valeur de pertinence pour cet ensemble de mots-clés, et perd ainsi la spécificité de chacun des mots, et donc des grands thèmes de la requête. Suite à cette perte d information, il peut devenir impossible de départager certain résultat sur la base de cette valeur unique de pertinence, ou bien certain documents peuvent être pénalisés trop fortement par un seul critère de recherche insuffisamment rempli. L approche développée ici se propose d utiliser et étendre le filtrage flou pour définir une technique de représentation et de recherche de données linguistiques, comme des termes ou des concepts, afin de représenter au mieux le vocabulaire et l information contenue dans le langage naturel. Ainsi, la correspondance entre les termes de la requête et des données ne nécessite plus une identité parfaite, mais découle d un processus d appariement qualitatif. En utilisant les propriétés des ensembles flous sous-jacents à ce modèle, il est ainsi possible de définir des classes, imprécises, de termes ou de concepts. Ces concepts peuvent ainsi être mis en relations afin de représenter les liens sémantiques et l ambiguïté propres au langage naturel, définissant ainsi une ontologie possibiliste de concepts. Des vocabulaires

17 INTRODUCTION GÉNÉRALE 17 hétérogènes peuvent ainsi être mis en relation, afin d uniformiser la représentation de l information disponible. Enfin, en représentant de la même manière les besoins exprimés par un utilisateur, il est possible de les faire correspondre avec la représentation des informations, et ainsi d effectuer des recherches exploitant ces liens, pour permettre d obtenir des résultats plus pertinents, correspondant mieux à l attente de l utilisateur. De plus, le modèle utilisé permet l élaboration de requêtes complexes pouvant représenter les préférences de l utilisateur ainsi que la prose en compte de priorités entre les différents éléments du besoin d information, dans le but de fournir des résultats approximatifs à l utilisateur dans le cas ou sa recherche ne pourrait pas être pleinement satisfaite. Nous nous attacherons également à explorer de nouvelles méthodes d évaluation de la pertinence des documents en recherche d information. Pour cela, nous étudierons l impact de méthodes multicritères pour mieux tenir compte des différences entre les termes d une requête, afin de gagner en spécificité, plutôt que d agréger les termes de la requête au sein d une unique valeur, comme c est traditionnellement le cas. Ces méthodes font appel elles aussi à des techniques issues de la logique floue, et ont pour but de s intégrer avec le modèle décrit précédemment afin d aboutir à un système élaboré et performant de recherche d information. Cette thèse est organisée selon le plan suivant. Dans le chapitre 1, nous présenterons tout d abord les différents aspects des bases de données et notamment leur intégration avec la logique floue. Après un bref rappel de la problématique des bases de données classique, un tour d horizon des techniques floues sera abordé, présentant les problèmes liés à l élaboration de requêtes flexibles, les différentes méthodes de gestion de l incertitude dans les données, et enfin l estimation de la satisfaction des requêtes vis-à-vis des données. Le chapitre 2 présentera une vue d ensemble de la recherche documentaire, que ce soit l approche dite «classique», ou les travaux visant à intégrer les techniques floues et la recherche d information. Plus précisément, les points clé du cycle de recherche d information seront développés, depuis la formulation des requêtes aux techniques d apprentissage et de reformulation en passant par la présentation des différents modèles utilisés pour l appariement des représentations des requêtes et des documents. Nous présenterons également comment est effectuée l évaluation des systèmes d information, à partir de collections de test et de mesures d efficacité. Le parallèle sera ensuite fait entre ces étapes du processus de recherche et leur adaptation aux techniques issues de la logique floue. Dans la suite, nous présenterons la modélisation théorique de notre approche pour la représentation des requêtes et de l information basée sur le filtrage flou et le modèle

18 18 INTRODUCTION GÉNÉRALE d appariement qui en découle sera développé. Le chapitre 4 présentera ensuite l application de ce modèle à une base de données, ainsi que les résultats expérimentaux obtenus. Le chapitre 5, quant à lui, utilise cette approche dans le cadre de recherche d information textuelle, en présentant les problèmes spécifiques à ce domaine. Enfin, le chapitre 6 aborde la problématique de l évaluation de la pertinence en recherche d information. Nous présenterons donc les résultats d expériences menées selon la méthodologie TREC, sur la collection de test issue de la campagne d évaluation CLEF2001. Ces tests ont pour objectifs d estimer l effet de l utilisation des degrés possibilistes dans l appariement des requêtes et des documents, comparé à l utilisation du poids classique, et mesurer l impact des méthodes multicritères sur l ordonnancement des résultats, et donc sur les performances du système de recherche d information.

19 Chapitre 1 Bases de données floues 1.1 Introduction Apparues au début des années 70 avec l augmentation du besoin des entreprises à gérer une quantité toujours croissante de données de plus en plus complexes, les systèmes de gestion de bases de données ont pour but principal de stocker de façon permanente de grandes quantités de données structurées, afin d en faciliter l accès (requêtes) et la maintenance (mises à jour). Parallèlement, la logique floue, et plus précisément les ensembles flous, se sont développés. Ils permettent d introduire les notions d imprécision et d incertitude dans un système d information, étendant ainsi leurs possibilités et permettant de gérer des données imprécises ou incertaines. Dans ce chapitre, nous allons tout d abord rapidement présenter les systèmes de bases de données traditionnels. Nous aborderons ensuite les ensembles flous, et leur application aux bases de données, notamment dans la gestion des requêtes plus flexibles et des données moins précises. 1.2 Concepts fondamentaux des bases de données Modèle relationnel Les systèmes de base de données les plus répandus actuellement sont les systèmes relationnels, basés sur la théorie des ensembles [Codd, 1970]. Cette approche ensembliste 19

20 20 CHAPITRE 1. BASES DE DONNÉES FLOUES permet de donner un cadre formel pour le stockage et l interrogation des données. Dans ces systèmes, les données sont encodées sous forme de relations, qui peuvent être vues comme des tables, elles-mêmes constituées de n-uplets, c est-à-dire d ensembles d attributs, les colonnes des tables. Ces attributs sont définis sur un domaine donné, prédéfini lors de la modélisation de la relation. Une relation est donc un sous-ensemble de toutes les combinaisons possibles entre les valeurs des domaines des différents attributs. Afin de représenter les cas où la valeur d un attribut est inconnue, une valeur nulle a été introduite. Elle représente la totale ignorance ou l absence de valeur, permettant ainsi de rendre certains attributs optionnels Clés Les différents enregistrements de la relation (les lignes de la table) sont identifiés de manière unique par un sous-ensemble de leurs attributs, appelé clé ou identifiant. En effet, le modèle ensembliste sous-jacent implique que tous les n-uplets d une relation doivent être distincts, et donc différer deux à deux par la valeur d au moins un attribut, afin de pouvoir garantir un accès unique à chaque enregistrement. Il est donc possible de trouver un groupe minimal d attributs caractéristiques de chaque n-uplet Algèbre relationnelle et manipulation des données Afin de pouvoir manipuler ces relations, et en particulier reconstruire les données originales à partir des différentes relations et des dépendances définies dans le schéma relationnel, l algèbre relationnelle a été élaborée. Elle utilise donc deux aspects du schéma tel qu il a été défini : le point de vue ensembliste des relations et leur structure Opérations ensemblistes Les relations étant basées sur des ensembles, les opérateurs classiques des ensembles s appliquent. Il est ainsi possible d effectuer des unions, intersections et différences de relations, dans la mesure où ces opérations s appliquent à un sous-ensemble commun des attributs des différentes relations mises en jeu. Le produit cartésien de relations est aussi possible. Ces relations peuvent être des relations réelles du schéma ou des ensembles de n-uplets résultant d autres opérations antérieures, comme une jointure par exemple.

21 1.2. CONCEPTS FONDAMENTAUX DES BASES DE DONNÉES Opérations relationnelles La principale tâche de manipulation des données, concernant leur consultation, est de reconstruire les n-uplets désirés à partir des relations et des dépendances fonctionnelles, et de sélectionner ceux contenant les valeurs intéressantes. Différents opérateurs relationnels ont cette fonction : Sélection : La sélection consiste à ne considérer que les n-uplets ayant une valeur particulière pour un ou plusieurs de ses attributs. Le critère de sélection est une fonction sur le domaine de l attribut, généralement une comparaison avec une valeur fixée. Projection : La projection ne conserve qu un sous-ensemble des attributs de la relation. Jointure : La jointure est l opérateur clé de l algèbre relationnelle. En effet, c est elle qui permet d exploiter les dépendances fonctionnelles pour reconstruire les n-uplets précédemment décomposés. Concrètement, la jointure de deux relations r et s sur les attributs A et B par l opérateur de comparaison θ est le sous-ensemble de l union des n-uplets de r et s pour lesquels les valeurs de A et B respectent AθB. Dans l exemple de la commande décomposée en trois relations «commande», «client» et «produit», il est ainsi possible de retrouver la relation initiale complète en effectuant une jointure entre «commande» et «produit» sur l égalité des identifiants de produits, puis une jointure entre ce résultat et «client» sur l égalité des identifiants de clients. Division : Le but de la division est de trouver les n-uplet d une relation pour lesquels la valeur d un attribut apparaît dans une deuxième relation. Dans le cadre de notre exemple, une division pourrait se formuler par une requête du type «trouver les clients ayant commandé plus de 100 pièces de tous les produits valant plus de 150e». Elle peut se décrire à l aide des opérateurs déjà mentionnés, en particulier la projection, la différence et le produit cartésien Requêtes Les requêtes sur ces systèmes sont définies à l aide des opérations précédentes, combinées successivement. Les critères utilisés dans la sélection et la jointure peuvent en outre être agrégés par les opérateurs booléens classiques. Généralement, les systèmes autorisent aussi des opérations de regroupement des n-uplets en fonction de la valeur d un ou plusieurs attributs, accompagnées de fonctions s appliquant sur des ensembles d éléments, comme le calcul de la moyenne de la valeur d un attribut par exemple.

22 22 CHAPITRE 1. BASES DE DONNÉES FLOUES Ainsi, des requêtes élaborées peuvent être construites par l utilisateur afin d extraire des données de la base, voire obtenir de nouvelles données par le calcul Conclusion Le modèle relationnel permet donc une modélisation puissante des cas concrets des données de l entreprise. Cependant, il ne permet de gérer que les données atomiques et parfaitement connues. De plus, la recherche est basée sur des opérateurs ensemblistes stricts, et ne permet que la formulation de requêtes booléennes. Les données mal connues, imprécises et entachées d erreurs sont donc difficiles à représenter directement dans le cadre de ce modèle. Les requêtes plus flexibles, autorisant la préférence et la tolérance ne sont pas non plus implémentables directement à l aide des outils disponibles. Dans la section suivante, nous allons donc aborder l utilisation des ensembles flous dans le domaine des bases de données afin d étendre le modèle relationnel classique et de permettre ainsi plus de flexibilité. 1.3 Bases de données floues Pour résoudre le problème des données imprécises ou incertaines, et pour permettre d élaborer des requêtes plus flexibles, exprimant divers niveaux de préférences, le monde des bases de données s est tourné vers les techniques issues de la logique floue. L utilisation de ces techniques amène ainsi à considérer trois aspects importants pour leur application : la formulation de requêtes flexibles, l incertitude et l incomplétude des données, et le calcul de similarité pour l appariement des requêtes et des données. Dans un premier temps, la formulation des requêtes, ainsi que l algèbre relationnelle qui en découle, doivent être adaptés au modèle de la logique floue choisi, afin d obtenir des requêtes flexibles, notamment par l introduction de pondération ou de quantificateurs flous sur les éléments de la requête et l utilisation d opérateurs d agrégations adaptés. La représentation des données doit également être revue, en se basant en particulier sur les ensembles flous pour définir des valeurs d attributs pouvant être mal connues. Enfin, l évaluation des requêtes sur ce type de données doit faire appel à des propriétés spécifique des modèles utilisés, en définissant des mesures de similarité ou de proximité entre

23 1.3. BASES DE DONNÉES FLOUES 23 les requêtes et les données, afin d effectuer un appariement des deux. Ces trois aspects vont être examinés dans la suite Requêtes flexibles La plupart des bases de données déjà existantes contenant des données classiques, il est naturel de vouloir adapter les systèmes afin de pouvoir interroger ces données de manière flexible, c est-à-dire où les résultats peuvent être plus ou moins satisfaisants. Différentes approches ont été suggérées afin de permettre à l utilisateur d introduire la notion de préférence dans ses requêtes. Deux catégories principales peuvent être dégagées : 1. l utilisation des ensembles flous pour représenter les termes imprécis des requêtes ([Tahani, 1977] par ex.) 2. une extension spécifique du système relationnel (algèbre et langage). Le but est de différencier les éléments de la réponse en fonction de leur degré de satisfaction des conditions de la requête, les préférences de l utilisateur pouvant s appliquer aussi bien à des conditions élémentaires qu à une combinaison de conditions. Ainsi, dans le système PREFERENCES de [Lacroix et Lavency, 1987], les résultats d ensembles ou de listes de conditions booléennes sont agrégés numériquement, de manière à ce qu un un n- uplet soit jugé d autant plus pertinent qu il satisfait de conditions, et s il ne satisfait pas une des conditions d une liste, les suivantes sont ignorées. Une autre approche utilise la notion de distance par rapport à la valeur idéalement souhaitée. Un opérateur de similarité est alors défini, considérant comme acceptable les valeurs ayant une distance avec la valeur idéale en dessous d un seuil prédéfini, ces résultats étant discriminés en fonction de la distance elle-même, comme dans [Ichikawa et Hirakawa, 1986, Motro, 1988] et [Rabbiti, 1990] pour une approche orientée recherche d information. On peut montrer (cf. [Bosc et Pivert, 1992]) que les requêtes des approches précédentes peuvent être reformulées en termes d ensembles flous de la forme : «S alors O» où S est une sélection booléenne, O un composant d ordonnancement dont les expressions sont agrégées de façon appropriée (moyenne) et alors représente la succession de ces opérations. Ces systèmes spécifiques sont moins généraux que ceux basés sur les ensembles flous. En effet, les requêtes ont une forme prédéfinie (sélection suivie de tri) et l échelle de distinction des résultats est limitée. De plus, ces systèmes ne proposent que des méthodes d agrégation prédéfinies, contrairement aux ensembles flous où l utilisateur peut choisir le mécanisme

24 24 CHAPITRE 1. BASES DE DONNÉES FLOUES approprié. Enfin, la forme des requêtes introduit une discontinuité entre sélection et tri. Par exemple, dans les systèmes basés sur les distances, un élément satisfaisant tous les critères, même avec une valeur faible, sera accepté alors qu un élément ayant de bons résultats dans tous les critères, sauf un où il est hors du seuil établi, sera rejeté Modélisation de requêtes flexibles sur des données classiques Afin de retrouver les données stockées dans la base, on définit des requêtes flexibles. Plutôt que de formuler la requête en terme de valeurs voulues pour les attributs, comme c est le cas dans les systèmes relationnels traditionnels, une requête flexible spécifie des préférences au sein de conditions élémentaires, et des priorités entre ces conditions, permettant une transition plus douce entre la satisfaction totale de la requête et le rejet de l élément. Ainsi, le résultat de la requête n est plus un ensemble d éléments sélectionnés, mais un ensemble d éléments, discriminé en fonction de leur satisfaction globale. Un exemple typique de requête floue est : «trouver les appartements bon marché et situés pas trop loin du centre-ville», décrivant une préférence sur le prix et la localisation. Ainsi, la condition «bon marché» est plus tolérante que par exemple «prix < 500e», comme dans le cas classique. Cette définition de requête flexible en terme de préférences s effectue à plusieurs niveaux. Dans un premier temps, les prédicats de la requête elle-même peuvent être exprimés par des ensembles flous, comme c est le cas de «bon marché» par exemple. Par ailleurs, différents niveaux de priorités peuvent être appliqués à ces prédicats. Enfin, les fonctions de regroupement appliquées à ces prédicats quantifiés sont définies par des fonctions sur les ensembles flous obtenus. Différentes approches sont utilisées pour arriver à ce résultat. Les prédicats flous permettent d exprimer les préférences vagues de l utilisateur au moyen de propriétés voulues, modélisées par des ensembles flous. Ainsi, la distinction entre les éléments est plus graduelle, puisque exprimée par un degré d appartenance à ces ensembles. L utilisateur peut ainsi représenter une préférence parmi différents résultats acceptables. Cette approche a deux avantages majeurs sur les requêtes classiques. Elle permet : 1. de donner des réponses approchées alors qu une requête stricte trop restrictive aurait eu un résultat vide, 2. de trier les «bonnes» réponses en fonction de leur degré de satisfaction, au lieu de donner une liste de réponses indifférenciées.

25 1.3. BASES DE DONNÉES FLOUES 25 Ce type de requête est défini par plusieurs constructeurs. Les prédicats atomiques, tels que grand ou récent, sont définis par un ensemble flou sur un ou plusieurs domaines, ici, la taille et l âge. Des modificateurs peuvent être appliqués aux fonctions d appartenance définissant ces ensembles flous afin de modéliser des variations linguistiques telles que très, plutôt, etc. Ces modificateurs sont des fonctions du type dilatation, concentration ou translation [Bouchon-Meunier et Yao, 1992]. Par exemple la fonction définie sur la taille et représentant le prédicat très grand sera obtenu à partir de celle définissant grand en effectuant une translation vers la taille croissante, pour définir une nouvelle fonction dont les seuils seront plus élevés par exemple. Combinaison et importance : Les conditions précédentes peuvent être combinées, sous forme d expressions logiques, par des opérations sur les ensembles flous, de type conjonctions et disjonctions. Le plus souvent, la conjonction est obtenue en appliquant l opérateur min sur les degrés, et la disjonction le max. Cette approche, qui ne prend en compte que la moins bonne propriété, ou la meilleure, peut être trop restrictive dans certain cas. Pour tempérer cet aspect, une solution courante est d exprimer une préférence entre les propriétés elles-mêmes. Dans ce cas, les conjonctions et disjonctions peuvent être exprimées, en utilisant l implication de Dienes, par [Dubois et Prade, 1986, Sanchez, 1989] : min max(c i (A i (x)), 1 w i ), i (1.1) max min(c i (A i (x)), w i ). i (1.2) où C i est la condition s appliquant à la valeur de l attribut A i du n-uplet x (A i (x)) et w i le poids d importance de cette condition. Ces poids sont normalisés, c est-à-dire max i (w i ) = 1. Ainsi, il y a toujours une condition considérée comme vraiment importante ou prioritaire. Cette utilisation considère dans ce cas le poids w i comme étant un niveau d importance. D autres implications peuvent également être utilisées, comme celle de Gödel par exemple, où le poids est alors interprété comme un seuil. Ces implications sont décrites plus en détail dans l annexe A. Un autre moyen de raffiner le minimum et le maximum classique est d utiliser les opérateurs discrimin (resp. discrimax) ou leximin (resp. leximax), issus des méthodes d analyse multicritères, pour effectuer les agrégations. Sommairement, ces opérateurs n effectuent pas une agrégation des éléments d un vecteur, mais les comparent deux à deux, et ne tiennent compte que des éléments différents pour la comparaison globale. Ainsi, deux vecteurs de poids (ici les C i (A i (x))) ayant la même valeur minimale pourront être discriminés, puisque

26 26 CHAPITRE 1. BASES DE DONNÉES FLOUES cette valeur ne sera pas prise en compte dans leur comparaison relative. L utilisation de l analyse multicritère est abordée plus en détails au chapitre 6. D autres opérateurs existent pour représenter la conjonction et la disjonction floues. Citons par exemple le produit ou max(0, a + b 1) pour la conjonction, et la somme probabiliste a + b aḃ ou la somme bornée min(1, a + b) pour la disjonction. Il existe aussi beaucoup d opérateurs intermédiaires entre le min et le max, comme par exemple la moyenne arithmétique ou la «moyenne pondérée ordonnée» (ordered weighted average) introduite dans [Yager, 1993]. Les énoncés quantifiés flous peuvent être considérés comme un autre type d agrégation, et sont utilisés aussi bien pour la sélection d éléments que d ensembles d éléments de la base. Les énoncés quantifiés ont été introduits dans [Kacprzyk et Ziolkowski, 1986]. Ainsi, l agrégation peut être utilisée entre les critères de la requête ou entre les éléments de l ensemble résultat. Ils sont basés sur des quantificateurs linguistiques, tels que la plupart, alliés à des prédicats flous. Par exemple, une requête de ce type pourrait être : «trouver un quartier où la plupart des appartements sont récents». La forme générique d un énoncé quantifié est «Q X sont A», où Q est le quantificateur linguistique (la plupart), X l attribut considéré (les appartements), et A est le prédicat flou (récent). Les quantificateurs flous sont introduits dans [Zadeh, 1983]. On distingue les quantificateurs absolus et relatifs. Ainsi, un quantificateur linguistique absolu est représenté par une fonction Q : R [0, 1], alors qu un quantificateur relatif est représenté par Q : [0, 1] [0, 1]. Q(j) définie alors la valeur de vérité de l énoncé quantifié quand exactement j éléments de X satisfont totalement le prédicat A. Ces quantificateurs permettent de représenter des expressions linguistiques comme beaucoup ou au moins une douzaine Ici encore, plusieurs méthodes ont été proposées pour calculer la valeur de vérité de ces requêtes quantifiées. Les plus satisfaisantes en terme de propriétés et de compatibilité avec les mesures floues sont celles présentées dans [Yager, 1983] et [Yager, 1991], qui retournent un degré de vérité. La première approche, appelée agrégation compétitive, est définie par : max min(q(i), A(x i)) = min max(1 w i, A(x i )) 1 i n 1 i n où Q est l opérateur linguistique, A(x 1 ) A(x n ) et w i = 1 Q(i 1) si Q est absolu et 1 Q((i 1)/n) si Q est relatif (n étant le cardinal de l ensemble considéré). La deuxième approche, basée sur les OWA, définit la valeur de vérité par : n w i A(x i ) i=1

27 1.3. BASES DE DONNÉES FLOUES 27 avec A(x 1 ) A(x n ) et w i = Q(i) Q(i 1) si Q est absolu (resp. Q(i/n) Q((i 1)/n) si Q est relatif). Elle a été étendue dans [Yager, 1993, Bosc et Liétard, 1993] Les requêtes avec fonction de regroupement sont utilisées pour cumuler les résultats afin d obtenir des valeurs calculées sur ceux-ci, la moyenne d un attribut sur un ensemble de résultats par exemple. Ainsi, la somme ou la moyenne, et plus généralement toutes fonctions scalaires sur un ensemble d objets, comme on le fait dans les bases de données classiques, s appliquent à un ensemble flou d objet, pour effectuer ces regroupements. Un exemple de telles requêtes serait «Trouver le prix moyen d un hôtel confortable». Une représentation de ce type de requêtes, basée sur les coupes α est décrite dans [Dubois et Prade, 1990a]. Ainsi, si f est une fonction de regroupement sur l ensemble et A un ensemble flou, une valeur possible de f(a) est l ensemble flou de valeurs N : N(r) = sup{(α ]0, 1], f(a α ) = r)} où A α est la coupe de niveau α de A. Par exemple, étant donnée la relation des hôtels décrite en tableau 1.1, et la requête précédente, on a f = avg (moyenne), puisque l on veut calculer la moyenne sur les prix. Le résultat est alors : N = {(1, avg(100)); (0.9, avg(100, 80)); (0.7, avg(100, 80, 45))} = {(1, 100); (0.9, 90); (0.7, 75)} ce qui signifie qu il y a trois résultats plus ou moins possibles pour décrire le «prix moyen d un hôtel confortable» : 100 au degré 1, 90 au degré 0.9 et 75 au degré 0.7. ID Prix Confortable Tableau 1.1 Exemple de relations sur les hôtels Algèbre relationnelle pour relations floues Les requêtes flexibles basées sur les ensembles flous, transforment des relations classiques en relations floues pondérées, la pondération des n-uplets représentant le degré de satisfaction aux prédicats flous de la requête. Il est donc intéressant d étendre les méthodes de

28 28 CHAPITRE 1. BASES DE DONNÉES FLOUES compositions des relations classiques, telle que l algèbre relationnelle, aux relations floues, afin de permettre la représentation de requêtes complexes ([Tahani, 1977] par ex.) Ainsi, le produit cartésien de deux relations R et S définies respectivement sur les univers X et Y est défini par : R S = min(r(x), S(y)) (1.3) De même, si R et S sont définies sur le même univers, on définit les opérations d union, intersection et différence par : R S = max(r(x), S(x)), (1.4) R S = min(r(x), S(x)), (1.5) R \ S = R S = min(r(x), 1 S(x)) (1.6) La division de relations floues, contrepartie de la division relationnelle classique présentée en section , est plus complexe à définir. En introduisant des relations floues, elle pourrait se formuler par «trouver les clients ayant commandé beaucoup d exemplaires de tous les produits chers». La division classique se définit par : x div A (R, S) S Γ 1 (x) où Γ 1 (x) = {a (x, a) R} Dans [Dubois et Prade, 1996] et [Bosc et al., 1997], la division floue est définie en remplaçant l inclusion stricte précédente par une inclusion graduelle de S dans Γ 1 (x), qui devient aussi un ensemble flou. Dans ce contexte, l inclusion peut être basée sur une implication floue f ou sur une norme triangulaire. On a donc : div A (R, S)(x) = min (S(a) f R(a, x)) a S a S (S(a) R(a, x)) div A (R, S)(x) = a S S(a) Le choix de l implication ou de la norme triangulaire définit l interprétation de cette expression. Ainsi, si on utilise une implication de type Gödel a G b = 1 si a b, b sinon, S(a) est considéré comme un seuil devant être atteint. Si c est l implication de Dienes a D b = max(1 a, b) qui est utilisée, S(a) joue le rôle de niveau d importance. Les mêmes interprétations s appliquent pour la norme triangulaire selon que l on utilise le minimum ou le produit respectivement. La possibilité de décomposer la division comme mentionné précédemment ainsi que d autres propriétés de la division classique, dépendent

29 1.3. BASES DE DONNÉES FLOUES 29 du choix du type du degré d inclusion (implication ou norme triangulaire) et de l opérateur choisit pour celui-ci. D autres définitions de la division de relations floues, ayant des n-uplets pondérés, sont présentées dans [Yager, 1991, Cubero et al., 1994, Mouaddib, 1994]. Une autre possibilité pour rendre floue la division est de replacé la condition tous de celle-ci par un opérateur moins strict, comme «presque tous» ou «la plus part». Cette approche est présentée dans [Yager, 1991, Cubero et al., 1994, Dubois et al., 1997] SQLf est un langage permettant de formuler des requêtes d algèbre relationnelle floue sur une base de données [Bosc et Pivert, 1995]. Il est basé sur le langage SQL qui est la référence pour la gestion et l interrogation des données dans le domaine des bases de données relationnelles classiques. C est un langage déclaratif, construit autour des opérateurs relationnels, principalement la sélection et la projection. Une requête à ainsi la forme : «select attributs from relations where conditions booléennes» L objectif principal de SQLf est de supporter un grand nombre de requêtes floues tout en restant dans l esprit du SQL original. Pour cela, il introduit du flou au niveau des prédicats eux-mêmes et au niveau de leurs combinaisons. De plus, il est permis à l utilisateur de réguler le résultat, soit en spécifiant le nombre de réponses voulues, soit sous forme d un seuil interprété comme une coupe de niveau α. Notons que de nombreux systèmes relationnels modernes intègrent la spécification du nombre de résultats voulus, ainsi qu un éventuel décalage, comme des extensions au SQL classique. Les conditions booléennes utilisées dans la clause de sélection sont replacées par des conditions floues. On peut ainsi utiliser des quantificateurs linguistiques et des prédicats flous pour formuler des énoncés quantifiés flous, combinés par des opérateurs linguistiques du type «la plus part». Les fonctions de regroupement, comme la moyenne ou la somme de la valeur d un attribut sur un ensemble de n-uplets, sont définies dans SQL par des requêtes du type : «select attributs from relations where conditions sur le n-uplets group by attributs having conditions sur un ensemble de n-uplets». SQLf intègre les regroupements flous en introduisant des conditions floues sur les ensembles de résultats, en utilisant le résultat des fonctions de regroupement dans des prédicats flous. Ces conditions peuvent elles aussi être combinées par des opérateurs d agrégations flous. Cependant, la condition portant sur les n-uplets doit être booléenne pour que les fonctions puissent s appliquer sur un ensemble classique. Les énoncés quantifiés flous de la forme «quantificateur linguistique EST prédicat flou» sont aussi utilisables dans la condition du regroupement. Ils sont alors agrégés par

30 30 CHAPITRE 1. BASES DE DONNÉES FLOUES des opérateurs de type OWA. Enfin, la division est gérée en introduisant un opérateur de comparaison d ensembles flous dans la clause having, basé sur l implication de Dienes Incertitude et incomplétude des données La représentation des données incertaines ou incomplètes est un problème majeur dans les systèmes de base de données classiques. Dans cette section, nous allons rappeler quelques approches de ces représentations, et plus particulièrement celles liées au modèle possibiliste Approches par logiques multivaluées Valeurs Nulles La première représentation des données imprécises dans les bases de données a été proposée par [Codd, 1979], et traite des valeurs nulles. Codd définit une logique trivaluée introduisant la valeur nulle ( ). Ici, cette valeur nulle a le sens d inconnue. Il introduit donc les prédicats suivants : 1. xθy si x ou y sont nuls et θ est <,, =,,, >, 2. x S si x est nul pour tout sous-ensemble S du domaine, c est-à-dire si on ne sait pas si x appartient ou non à S 3. T S si x T et x est nul, pour tout sous-ensemble S. ainsi que les extensions aux opérateurs logiques : T = T, F =, = T =, F = F, = = Dans [Gessert, 1991], cette approche est étendue pour gérer plusieurs interprétations des valeurs nulles. Des valeurs par défaut sont attribuées aux données manquantes, et un degré de vérité leur est associé. Une logique quadrivaluée est utilisée, de façon à ce que le statut logique des données par défaut, représenté par leur valeur de vérité, puisse être interprété comme vrai et faux, mais aussi inconnu et inapplicable. Un calcul complètement compositionnel par rapport à tous les connecteurs n est cependant pas compatible avec une modélisation satisfaisante de l information manquante. Voir par exemple à ce sujet [de Tré et al., 2004].

31 1.3. BASES DE DONNÉES FLOUES 31 Intervalles Le problème des intervalles de valeur est abordé dans [Grant, 1980]. Pour les valeurs numériques, trois types sont gérés : une valeur simple si l information est complète, une paire représentant l intervalle des valeurs possibles, et une valeur nulle si l information est manquante. Le prédicat peut-être est introduit à des fins de comparaisons, et signifie «vrai ou peut-être vrai». Il s applique lorsque la valeur recherchée est dans l intervalle défini pour la valeur de l élément. Ceci illustre un aspect problématique des bases de données floues. En effet, les n-uplets des relations de la base de données sont normalement uniques, mais dans ce cas, deux n-uplets ayant les mêmes intervalles de valeurs peuvent en fait avoir des valeurs réelles différentes, et donc être distincts. Ainsi, on considère qu il peut y avoir autant de n-uplets que de valeurs possibles dans l intervalle sans que la contrainte d unicité ne soit violée. Approche basée sur la logique modale En définissant Q et T comme les ensembles des objets du monde réel pouvant être représentés par respectivement la requête Q et le n-uplet T, [Lipski, 1979] définit trois catégories dans lesquelles les n-uplets sont classés en fonction de la requête : 1. T {certain} si T Q 2. T {possible} si T Q 3. T {rejeté} si T Q = Par exemple, avec une relation HOT EL(ID, P rix), le n-uplet T = [1, 40 50], en supposant les prix entiers, peut représenter onze objets du monde réel. Ainsi, la requête HOT EL[P rix < 45] place T dans l ensemble des résultats possibles, et la requête HOT EL[P rix > 30] HOT EL[P rix < 60] le place dans l ensemble des résultats certains. Bases de données statistiques et probabilistes L utilisation d un modèle de données probabilistes est une manière naturelle de traiter les données incertaines. Le modèle développé dans [Barbara et al., 1992] est un des plus aboutis. Chaque attribut stochastique est considéré comme une fonction discrète de distribution de probabilité, et les valeurs des attributs du n-uplet sont normalisées (somme égale à 1). Le concept de probabilité manquante est introduit pour palier la difficulté de déterminer une probabilité pour toutes les valeurs possibles du domaine. Elles permettent ainsi de représenter l incertitude de la valeur des données. L approche probabiliste est cependant peu adéquate pour représenter de l information imprécise et incomplète, car en probabilité, l absence complète de certitude qu un énoncé soit vrai implique nécessairement la certitude que l énoncé contraire est vrai,

32 32 CHAPITRE 1. BASES DE DONNÉES FLOUES ce qui est discutable et d ailleurs faux dans l approche précédente, comme dans l approche possibiliste Approche possibiliste L approche basée sur la théorie des possibilités, décrite dans [Prade, 1984, Prade et Testemale, 1984, Prade et Testemale, 1987], décrit l information sur la valeur d un attribut A(x) pour un objet x par une distribution de possibilité π A(x) définie sur D {e} où e est un élément additionnel permettant de traiter le cas où l attribut A ne s applique pas au n-uplet x. Cette distribution peut être considérée comme une restriction floue des valeurs possibles pour l attribut, et est donc normalisée, soit max d D {e} π A(x) (d) = 1, puisque soit il existe une valeur tout à fait possible, soit l attribut n est pas applicable. Ces valeurs sont considérées comme mutuellement exclusives. Le degré π A(x) (d) = 1 signifie simplement qu il est totalement possible que d D soit une valeur pour A(x), mais ne dit rien quant à la certitude de cette valeur. Cette approche permet de modéliser les interprétations de la valeur nulle suivante : 1. la valeur existe mais est inconnue : d D, π A(x) (d) = 1, π A(x) (e) = 0, 2. l attribut ne s applique pas : d D, π A(x) (d) = 0, π A(x) (e) = 1, 3. le cas est inconnu : d D, π A(x) (d) = 1, π A(x) (e) = 1. Ainsi, les différents types de valeurs possibles pour un attribut peuvent être représentés de manière unifiée. En particulier, l attribut peut avoir une valeur précise, représentée par un singleton, une valeur nulle, une valeur imprécise, représentée par un ensemble de valeurs, ou une valeur vague ou incertaine, représentée alors par un ensemble flou. Différentes illustrations de ces représentations sont présentées dans la figure 1.1, dans le cas d un attribut représentant un prix. Ainsi, la figure 1.1(a) représente la distribution de π pour un prix dont la valeur imprécise est comprise entre 40 et 50. Dans la figure 1.1(b), le prix est représenté par un ensemble discret de prix possibles {35, 45, 55}. Le cas d un prix représenté par un ensemble flou identifié par le terme cher est présenté en figure 1.1(c). Enfin, dans la figure 1.1(d), il est α-certain que le prix est de 60. Toutes ces représentations sont traitées de manières homogènes par l approche possibiliste. En outre, il est également possible de représenter des attributs multivalués en définissant la distribution de possibilité sur les produits des domaines des attributs.

33 1.3. BASES DE DONNÉES FLOUES Prix Prix (a) Intervalle classique (b) Disjonction discrète 1 Cher 1 α Prix Prix (c) Ensemble flou (d) 60 est α-certain Figure 1.1 Exemple de représentation de valeurs mal connues par des possibilités Deux valeurs définies par leurs distributions de possibilité respectives π a et π b peuvent être comparées par les mesures de possibilité et de nécessité que a et b soient égaux : Π(a = b) = sup min(π a (x), π b (y), = (x, y)) x,y N(a = b) = inf a(x), 1 π b (y), = (x, y)) x,y En effet, l égalité des distributions de possibilités de deux valeurs n implique pas leur égalité : deux logements chers peuvent avoir des prix différents. Notons que N(a = b) est nul en dehors des distributions «quasi-précises» de la forme x 0, π a (x 0 ) = 1, x x 0, π a (x) α < 1, focalisant sur le même x 0. Évaluation de requêtes dans un cadre possibiliste Du point de vue possibiliste, quand une condition s applique à des données mal connues, la satisfaction des éléments à la requête peut être incertaine. L évaluation de la requête passe donc par le calcul de deux degrés pour traduire dans quelle mesure il est possible et certain (nécessaire) que la condition soit satisfaite. Ainsi, pour une distribution π A(x) de l attribut A défini sur D et

34 34 CHAPITRE 1. BASES DE DONNÉES FLOUES une condition P, les degrés Π(P, A(x)) et N(P, A(x)) sont définis par : Π(P, A(x)) = sup min(p (d), π A(x) (d)) (1.7) d D {e} N(P, A(x)) = 1 Π(P, A(x)) = inf d D {e} max(p (d), 1 π A(x)(d)) (1.8) et exprime respectivement dans quelle mesure au moins une valeur restreinte par π A(x) est compatible avec P et toutes les valeurs plus ou moins possibles pour A(x) sont incluses dans P. Par exemple, pour évaluer dans quelle mesure un logement dont le prix est imprécis correspond à la condition prix modéré, on calculera : comme représenté en figure 1.2. min(π prix (u), µ modéré (u)) et max(1 π prix (u), µ modéré (u)) 1 1 N modéré µ valeur du prix π Prix modéré µ valeur du prix 1 π Prix min( µ, π ) max( µ, 1 π ) (a) (b) Figure 1.2 Exemple de calcul des degrés de la condition modéré sur un prix imprécis Il est donc possible de calculer l ensemble d éléments satisfaisant plus ou moins possiblement la condition et de distinguer parmi ceux-ci ceux qui la satisfont plus ou moins certainement. Le point essentiel étant que dès que les données deviennent imprécises, le résultat de la requête devient incertain. Afin d exprimer la tolérance et l importance entre conditions, ce mécanisme peut être généralisé à tout opérateur de comparaison θ, représenté par sa fonction d appartenance

35 1.3. BASES DE DONNÉES FLOUES 35 θ(x), tels que «approximativement égal» ou «beaucoup plus grand que». Ainsi, pour une valeur éventuellement floue v, les degrés de possibilité et nécessité que la condition «Aθv» soit satisfaite sont données par [Dubois et Prade, 1995] : avec v θ(u) = sup d D min(θ(d, d ), v(d )). Π(v θ A(x)) = sup min(v θ(d), π A(x) (d)) d D N(v θ A(x)) = inf A(x)(d)) d D Enfin, les relations au-dessus peuvent être étendues pour tout type de relation du type AθB, définissant ainsi un modèle de requête basé sur le filtrage flou [Cayrol et al., 1982] : Π(A(t)θB(t)) = sup min(π A(t) (x), π B(t) (y), θ(x, y)) x,y N(A(t)θB(t)) = inf A(t)(x), 1 π B(t) (y), θ(x, y)) x,y En supposant que les différents attributs sont logiquement indépendants, les conditions composées peuvent être déduites des relations de bases de la théorie des possibilités, Π(P 1 P n ; A 1 (x) A n (x)) = min(π(p 1 ; A 1 (x)),, Π(P n ; A n (x))), N(P 1 P n ; A 1 (x) A n (x)) = min(n(p 1 ; A 1 (x)),, N(P n ; A n (x))), Π(P P n ; A 1 (x) + + A n (x)) = max(π(p 1 ; A 1 (x)),, Π(P n ; A n (x))), N(P P n ; A 1 (x) + + A n (x)) = max(n(p 1 ; A 1 (x)),, N(P n ; A n (x))). où A 1 (x) A n (x) exprime une conjonction par le produit cartésien étendu défini par : π A1 (x) A 2 (x)(d 1, d 2 ) = min(π A1 (x)(d 1 ), π A2 (x)(d 2 )) P 1 P 2 est aussi une conjonction définie de même, et P 1 + P 2 = P 1 P 2 représente une disjonction par : (P 1 + P 2 )(d 1, d 2 ) = max(p 1 (d 1 ), P 2 (d 2 )) Ces combinaisons sont en outre compatibles avec les opérations sur les ensembles flous, puisque lorsque l information devient précise, les mesures de possibilité et nécessité se confondent en un degré d appartenance. Par exemple, [Mouaddib et Subtil, ] utilise un modèle basé sur la théorie des possibilités pour effectuer des évaluations de requêtes complexes sur une base de données dont les attributs sont représentés par des ensembles flous pondérés. En outre, les attributs comme les éléments de requêtes peuvent être nuancés par des opérateurs linguistiques. Une des

36 36 CHAPITRE 1. BASES DE DONNÉES FLOUES particularités de cette approche est de définir en extension les domaines des attributs en spécifiant les combinaisons possibles entre modificateurs et valeur. Les opérateurs de l algèbre relationnelle posent problème dans ce cadre. La sélection est modélisée par le filtrage flou (cf. section 3.2) qui compare deux valeurs d attributs, et la projection est effectuée simplement en limitant les attributs concernés. En revanche, la jointure entre deux relations sur un attribut défini par une distribution de possibilité n est pas triviale. En effet, deux valeurs d un attribut représentées par la même distribution peuvent en fait être deux valeurs différentes ayant la même représentation floue. Une approche permettant de traiter ce problème dans des ces particuliers est abordée dans [Bosc et Pivert, 2002] Similarité et modèle relationnel [Buckles et Petry, 1982] ont proposés une autre extension de l algèbre relationnelle en introduisant des relations de similarités sur le domaine de l attribut. Dans cette approche, un attribut est associé à un domaine D j. Ces domaines sont constitués d ensembles, finis ou infinis, de valeurs discrètes, nombres ou scalaires, comme des termes linguistiques par exemple dans le cas d un ensemble fini de scalaires. Ici, le modèle flou permet la comparaison de ces termes linguistiques en utilisant la relation de similarité définie explicitement, dont l identité est un cas particulier [Zadeh, 1971]. Dans ces bases de données «floues», la valeur d un attribut est définie comme étant un sous-ensemble du domaine D j associé. Les relations de similarité sont donc utilisées pour modéliser l interchangeabilité des valeurs de ces domaines, qu ils soient linguistiques ou numériques. La description de l incertitude des étiquettes (labels) est basée sur deux types d ensembles de domaines utilisant la similarité : un ensemble fini d étiquettes et une relation de similarité satisfaisant une max-min transitivité 1, pouvant être une relation d identité, un ensemble infini d étiquettes et une relation d identité. Les valeurs d un attribut, d ij sont un ou plusieurs éléments du domaine D j, et donc d ij D j, ou i est l indice du n-uplet et j celui du domaine. Le seuil (threshold) de similarité est alors donné par : T hres(d j ) = min{ min [s(x, y)]} i x,y d ij 1 c-à-d : y, s(x, y) min(s(x, y), s(y, z)) soit s(x, y) max y min(s(x, y), s(y, z))

37 1.3. BASES DE DONNÉES FLOUES 37 Il est à noter que dans le cas de données non floues, d ij = 1 et s(x, x) = 1, et donc, T hres(d j ) = 1 pour tout j. Les opérations de l algèbre relationnelle floue sont ensuite définies de la même manière que les relations traditionnelles, mais en considérant un seuil minimum de similarité à respecter à la place d une égalité stricte Unicité et redondance L unicité et la redondance des n-uplets sont elles aussi soumises à cette contrainte de seuil, appelée aussi niveau des valeurs. En effet, dans une base de données floue, chaque n-uplet peut faire l objet d une multitude d interprétation, chacune étant un élément du produit cartésien des domaines. Ainsi, deux n-uplets t i = [d i1,..., d im ] et t k = [d k1,..., d km ] sont considérés redondants si Level(D j ) min x dij,y d kj [s(x, y)], j = 1,..., m, le niveau Level(D j ) étant donné a priori. Étant donnée une interprétation du domaine, la relation ne devrait contenir qu un seul n-uplet correspondant à cette interprétation. On démontre que dans une relation floue ne contenant pas de n-uplets redondants, et dont la relation de similarité pour chaque domaine est max-min transitive, T i T j = si i j, T i étant l ensemble des interprétations possibles du n-uplet t i [Bosc et al., 1999]. La réciproque est également vraie. Si aucun n-uplet ne peut être considéré identique, alors il existe un niveau pour les domaines tels qu aucun n-uplet ne soit redondant. Si les seuils de similarité de tous les domaines sont à 1, la relation est alors non floue, et tous les n-uplets n ont donc qu une interprétation possible. Si le seuil est inférieur, l unicité des interprétations des n-uplets est encore applicable. De plus, une relation floue obtenue en fusionnant les n-uplets redondants est unique si toutes les similarités sont maxmin transitives. Les opérations d algèbre relationnelle telles que la projection, l union et l intersection sont essentiellement basées sur la fusion ou la sélection de n-uplets en fonction de leur similarité, et peuvent donc être étendues dans le cadre de ce modèle. Les relations utilisées dans ce modèle pour les domaines discrets et finis ne peuvent cependant pas être directement étendues aux domaines continus. En effet, l unicité de la représentation de la relation ne peut être garantie par le partitionnement du domaine impliqué par les propriétés de transitivités. Les α-similarité et α-proximités définis dans [Buckles et Petry, 1983], permettent de partitionner le domaine des nombres flous. Deux nombres flous sont α-similaires si leur union forme un ensemble de niveau α continu. Ainsi, en utilisant cette représentation dans le modèle relationnel, l unicité décrite au-dessus est préservée.

38 38 CHAPITRE 1. BASES DE DONNÉES FLOUES Évaluation de requêtes Les requêtes booléennes généralisées telles que définies dans [Buckles et Petry, 1985], sont composées de un ou plusieurs facteurs combinés par des opérateurs de conjonction ou de disjonction booléens. Pour être bien formé en fonction de la relation r ayant pour domaines D 1,..., D m, chaque facteur V j doit être soit un élément du domaine D j, soit un élément de ce domaine modifié par un quantificateur linguistique, comme très ou plus ou moins. Ainsi, un exemple de requête sur des logements pourrait être : «plus ou moins grand et pas très cher», où grand et cher correspondent à des domaines de taille et de prix, et où plus ou moins (resp. très) est interprété comme une dilatation (resp. concentration). Une telle requête Q induit une valeur d appartenance Q(t) pour le n-uplet t de la réponse, basée sur la similarité de chaque domaine s j, et fonction de la possibilité de sa correspondance à la requête. Ainsi, Q(t) est évalué ainsi : chaque interprétation I = [a 1,..., a m] de t détermine une valeur s j (a j, a j) pour chaque élément a j D j de Q(a i,..., a k ) l évaluation des modificateurs et des opérateurs de Q sur les valeurs de similarité s j (a j, a j ) donne la valeur d appartenance Q(I) de l interprétation en fonction de la requête. Q(t) = max I Q(I) La valeur d appartenance du n-uplet représente donc la meilleure interprétation correspondante, et la réponse à la requête est constituée de l ensemble des n-uplets dont la valeur est non nulle. D autres méthodes ont été proposées pour calculer la mesure de similarité, notamment la moyenne, les racines n-ièmes et la somme pondérée [Pak et al., 1993] Modèles de proximité Le modèle de similarité précédent est limité par la contrainte de transitivité max-min, qui peut introduire des difficultés dans la modélisation de relations entre les domaines, notamment la formulation de la transitivité de ces relations. De plus, certains niveaux peuvent entraîner la fusion d éléments faiblement corrélés. Le point clé du modèle de similarité est la partition des domaines. Celle-ci peut également être effectuée par une relation de proximité, non transitive, comme montré dans [Shenoi et Melton, 1989]. Cette approche a été généralisée à une relation d équivalence dans [Shenoi et Melton, 1990]. Le modèle précédent est donc étendu en remplaçant

39 1.4. CONCLUSION 39 la relation de similarité par une relation de proximité sur les domaines scalaires. Cette relation de proximité est symétrique, mais pas forcément transitive. Si P est une relation de proximité sur le domaine D j, alors pour α [0, 1], les éléments x, y D j sont α-proches si et seulement si xp + α z ou il existe une séquence y 1,..., y r D j telle que : où P α est la coupe de niveau α de P et P + α xp α y 1 P α... P α y r P α z sa fermeture transitive. On montre alors que la α-proximité peut être utilisée pour partitionner un domaine scalaire avec la relation de proximité associée. Une relation de similarité précédente est alors un cas particulier de proximité respectant la transitivité, définissant une α-similarité S α, partitionnant le domaine de la même manière. En effet, pour une relation de similarité S et α [0, 1], S α et S α + génèrent les mêmes partitions. Puisqu une relation de similarité est aussi une relation de proximité, l α-proximité partitionne aussi un domaine avec une relation de similarité. On obtient donc bien les mêmes caractéristiques que dans le modèle précédent. 1.4 Conclusion Les bases de données relationnelles sont un moyen efficace de stocker des données complexes et structurées. Cependant, leur conception, et le modèle sous jacent, limite leur utilisation à des données strictes et connues, qui correspondent mal aux données réelles, souvent incertaines ou imprécises. De plus, la construction de requêtes élaborées est souvent complexe, et l expressivité est limitée. Leur évaluation est en outre binaire, et ne permet pas de gradualité dans la satisfaction de celles-ci. Les bases de données classiques peuvent être étendues à deux niveaux : dans l expressivité des requêtes : la représentation floue permet d introduire des poids pour exprimer l importance relative des différents éléments de la requête. Ces poids peuvent en outre être exprimés au moyen de variables linguistiques. De nouveaux opérateurs flous ont également été introduits, eux aussi exprimable sous forme de variables linguistiques. Les requêtes sont ainsi plus flexibles et plus faciles à exprimer pour un utilisateur non-spécialiste du système. au niveau des données : la représentation des données sous forme d ensembles flous permet d introduire de la tolérance et de l incertitude dans celles-ci, et ainsi de coder l information de façon plus complète et fidèle.

40 40 CHAPITRE 1. BASES DE DONNÉES FLOUES Ceci permet en outre d introduire un système d évaluation de requêtes lui aussi basé sur les ensembles flous, qui autorise une correspondance partielle et approchée de la requête et donc d obtenir des résultats classés plutôt qu une dichotomie entre n-uplets satisfaisants et non satisfaisants. Ainsi, pour la gestion des données imprécises, les modèles basés sur la proximité permettent d exploiter des relations existantes entre les valeurs d un même domaine, tandis que l approche possibiliste permet de représenter l imprécision et l incertitude de manière qualitative.

41 Chapitre 2 Recherche d information 2.1 Introduction Le but des systèmes de recherche d information (SRI) est de représenter et stocker une collection de documents textuels de différents types et tailles, tels que livres, articles de journaux ou rapports techniques, de manière à ce qu ils soient facilement accessibles par un utilisateur. Pour cela, le système doit évaluer les besoins en information de l utilisateur, formulés sous forme de requête, et les comparer aux informations concernant le contenu des documents archivés. Les documents traitant des informations voulues doivent alors être renvoyés à l utilisateur. Dans ce chapitre, nous allons tout d abord présenter les systèmes de recherche d information classiques, puis nous nous intéresserons à leur extension à l aide de techniques de logique floue. 2.2 Recherche d information classique Présentation des SRI Dans un système de recherche d information, la recherche s effectue généralement en comparant une représentation du besoin de l utilisateur et une représentation du document. Ceci nécessite de définir une représentation formelle de l information contenue dans 41

42 42 CHAPITRE 2. RECHERCHE D INFORMATION ce dernier. La phase d indexation permet l extraction des éléments d information importants contenus dans un texte. Ces éléments peuvent ensuite être utilisés pour représenter l information globale contenue dans le document, selon le modèle de représentation utilisé. La formulation de la requête est généralement laissée à la charge de l utilisateur, mais on trouve des outils permettant de faciliter cette construction, qui peut être complexe dans le cas de requêtes élaborées. La requête est ensuite interprétée par le système afin d obtenir une représentation des besoins de l utilisateur qui soit compatible avec la représentation des documents obtenue à la phase d indexation. En effet, ces deux représentations doivent être comparées pour pouvoir évaluer dans quelle mesure le document correspond aux besoins exprimés par l utilisateur. Les documents identifiés comme pertinents sont alors retournés à l utilisateur, sous forme d une liste ordonnée en fonction de la pertinence, si le modèle du système utilisé le permet. La figure 2.1 illustre le processus général d un système de recherche d information, qui sera détaillé dans la suite de ce chapitre. Utilisateur Besoin d information Documents Reformulation Interprétation Indexation Représentation du besoin Correspondance Jugement Représentation des documents Utilisateur Documents réponse Bouclage de pertinence Figure 2.1 Processus général de la recherche d information

43 2.2. RECHERCHE D INFORMATION CLASSIQUE 43 Ainsi, la formulation de la requête par l utilisateur et son interprétation par le système, décrite en section 2.2.2, peut prendre plusieurs formes. Cette interprétation conduit à une représentation des besoins de l utilisateur. L information contenue dans la collection des documents interrogés doit au préalable être extraite, comme décrit en section Cette indexation permet d obtenir une représentation de l information contenue dans les documents. Ces deux représentations (besoins utilisateur et information des documents) sont ensuite mises en correspondance selon deux grandes approches présentées en section La comparaison peut prendre différentes formes selon le modèle de représentation des données choisi. Ces modèles sont décrits en section Le résultat de cette comparaison est donc un indice de pertinence, ou de satisfaction, de chaque document envers les besoins de l utilisateur. Les documents correspondant à la recherche sont ensuite retournés à l utilisateur, triés en fonction de cet indice. Afin d améliorer les résultats de la recherche, le système peut utiliser le jugement de l utilisateur sur les documents retrouvés pour reformuler une requête, qui sera de nouveau soumise au système. Cette amélioration, appelée bouclage de pertinence (ou «relevance feedback») est décrite en section Le croisement de langues, qui permet de prendre en comptes plusieurs langues à différentes étapes du système, sera abordé en section Enfin, les méthodes d évaluation des performances d un système de recherche d information seront présentées en section Formulation des requêtes Selon les systèmes de recherche d information, les requêtes peuvent être formulées de différentes façons par l utilisateur. Une des méthodes les plus courantes est la notation booléenne. Ici, la requête est donnée sous la forme de termes reliés par les opérateurs d agrégation booléens classiques (ET et OU) avec éventuellement le modificateur NON pour spécifier les termes ne devant pas se trouver dans le document. Les opérateurs d agrégation peuvent parfois être omis, la requête étant alors uniquement composée d une liste de termes. Dans ce cas, on considère généralement que l opérateur implicite est une conjonction. La plupart des moteurs de recherche du web fonctionnent sur ce principe. Notons toutefois que certains moteurs, comme Google par exemple, ont une formulation implicite plus élaborée, puisque ici, l ordre des mots est significatif, et l agrégation par défaut est plus proche d un opérateur comme «la plupart» (voir la section pour un développement de ce type d opérateur)

44 44 CHAPITRE 2. RECHERCHE D INFORMATION Une autre méthode consiste à formuler la requête en langage naturel, c est-à-dire fournir une description textuelle du thème dont doivent traiter les documents recherchés. Ce type de requête peut être plus simple à formuler pour l utilisateur, mais il demande de la part du système de recherche un travail supplémentaire d extraction de l information contenue dans la requête, selon un principe similaire à l indexation des documents. Ceci introduit plus d incertitude quant à l information recherchée que la formulation booléenne. En effet, ce genre de requête se traduit souvent par une conjonction des termes significatifs de la requête, éventuellement pondérés. La facilité de formulation cache donc le manque d expressivité, puisque la disjonction et la négation ne peuvent être formulées, sauf dans le cas de l utilisation d un système avancé de traitement du langage naturel, comme une analyse lexicale et un étiquetage par exemple. Enfin, certains systèmes comme PROTEUS [Signore et al., 1992] proposent une interface d aide à la formulation. Ce type d aide affiche une représentation graphique des termes significatifs des documents, éventuellement reliés par des liens sémantiques (on parle alors de thésaurus, voir section 2.3.3). L utilisateur peut alors choisir les termes de sa requête parmi ceux proposés. Cette approche de formulation par vocabulaire contrôlé, lorsque les termes proposés sont ceux utilisés dans l index ou leur étant liés, évite à l utilisateur de formuler une requête contenant des mots qui ne seront pas significatifs, et donc aide à élaborer une requête plus efficace Indexation La phase d indexation est de première importance pour un SRI. En effet, c est là que se construit la représentation du document, et donc l extraction de l information elle-même. Le but est d obtenir un compromis entre efficacité pour la recherche et exhaustivité de la représentation. Le résultat de l indexation de la collection, l index, est généralement composé d une liste de termes associés à chaque document. Ces termes, éventuellement pondérés pour représenter leur importance, doivent décrire le plus précisément possible le contenu du document qui leur est associé Indexation manuelle L indexation manuelle, c est-à-dire le choix par un expert des mots-clés les plus significatifs pour chaque document n est pas toujours efficace. En effet, elle est non seulement très coûteuse en temps, et inapplicable sur un gros volume de données, mais de plus elle produit

45 2.2. RECHERCHE D INFORMATION CLASSIQUE 45 une représentation subjective des documents, qui n est donc pas forcément la même que celle de l utilisateur, ce qui complique l élaboration de requêtes. Elle est cependant utilisée notamment dans le monde de la documentation, comme dans les bibliothèques, et sert en général à la classification des ouvrages par thèmes. Dans ce cadre, un ensemble prédéfini de mots-clés et de catégories est défini précisément pour faciliter l indexation et la formulation des requêtes (vocabulaire contrôlé) Indexation automatique Afin de palier aux inconvénients des systèmes manuels, des procédures d indexation automatiques ont été mises au point. La plus simple est basée sur une analyse statistique du texte. Elle suppose que la présence ou l absence d un mot dans le texte est significative du sujet du document [Salton, 1970, Salton et McGill, 1983]. Dans ce modèle, les mots sont automatiquement extraits du texte et comptabilisés. Généralement, les mots considérés comme vide de sens, comme les déterminants, les pronoms, appelés mots vides (stop words), sont ignorés, et les autres sont lemmatisés pour les réduire à une racine commune et supprimer les variantes comme le genre, le nombre ou la conjugaison. Ils sont ensuite regroupés dans un fichier inverse pour en optimiser le temps d accès. Afin d obtenir une représentation plus fine que la simple présence ou absence d un terme dans le document, on calcule un poids représentant l importance qu a le terme dans le document considéré. Ainsi, la forme générale de ce poids est basée sur les fréquences des termes [Salton, 1989] : d(t) = tf dt idf t (2.1) où tf dt est la fréquence du terme t dans le document d et idf t est la fréquence inverse des documents contenant t. Le plus souvent, cette fréquence inverse est calculée par : ( ( )) N idf t = g log N t (2.2) où N est le nombre total de documents dans la collection, N t le nombre de documents contenant le terme t et g est une fonction de normalisation. D autres mesures ont été proposées pour cette fonction, ainsi que de nombreuses variantes de cette forme générale, notamment en jouant sur les paramètres de normalisation. Globalement, ces fonctions, représentant l importance du terme t pour représenter la thématique du document d sont définies pour croître avec la fréquence de t dans d et diminuer avec la fréquence du terme dans tous les documents de la collection. En effet, plus un

46 46 CHAPITRE 2. RECHERCHE D INFORMATION terme est présent dans un document et uniquement dans celui là, plus il est représentatif de ce document. Les termes apparaissant dans tous les documents ou presque ne sont pas discriminants dans la recherche. Cette approche du calcul des poids permet de retrouver la définition des mots vides, qui possèdent ici un idf très élevé Correspondance requête - documents De manière générale, le but est de calculer pour chaque document une valeur représentant la pertinence du document par rapport à la requête, c est-à-dire dans quelle mesure le document contient l information demandée par l utilisateur. Cette valeur est appelée la RSV pour «retrieval status value». Pour une requête q et un document d, on a généralement rsv(q, d) [0, 1]. De manière générale, il y a deux façons de considérer la correspondance entre une requête et un document. La première consiste à rechercher la correspondance exacte de la requête et du document (exact match retrieval). Cette approche est souvent choisie pour sa simplicité. Dans ce cas, la requête est considérée comme une proposition booléenne, et seuls les documents lui correspondant totalement sont retournés. Ce modèle booléen suppose que la présence d un terme dans le document est une condition nécessaire et suffisante pour considérer que le document traite du thème représenté par ce terme. La deuxième méthode, best match retrieval, est basée sur l ordonnancement des termes de l index en fonction de leur poids, sensé représenté la pertinence avec laquelle ils décrivent le document associé. Ainsi, la simple présence d un terme dans le document n est pas considérée comme étant un critère suffisant pour déduire la pertinence du document. De plus, ce système permet d obtenir une liste ordonnée de résultats, selon leur degré de pertinence, contrairement à la correspondance exacte pour laquelle un document est considéré soit totalement pertinent, soit totalement non pertinent. Cette deuxième approche est la plus répandue car elle permet plus de flexibilité et de précision dans l évaluation Modèles de systèmes de recherche d information Les différents types de modèles de systèmes de recherche peuvent se distinguer par le processus d indexation ou la formulation des requêtes, mais plus particulièrement par le processus d appariement entre les représentations des requêtes et des documents. On peut distinguer trois grandes classes de modèles :

47 2.2. RECHERCHE D INFORMATION CLASSIQUE 47 ensemblistes, par exemple le modèle booléen, sont basés sur la théorie des ensembles, ce sont les plus simples et les premiers à avoir été mis en place. algébriques, comme le modèle vectoriel, qui calculent des distances entre les représentations. probabilistes, qui sont basés sur la théorie des probabilités, et estime des probabilités de pertinence d un document en fonction de la requête. Les exemples les plus courants de ces modèles sont présentés dans la suite de cette section Modèle booléen Dans ce modèle, basé sur la théorie des ensembles et l algèbre de Boole, le document est représenté comme l ensemble de ses termes [Salton, 1971]. Les requêtes étant aussi représentées par un ensemble de mots-clés exprimant le besoin d information, le processus de recherche consiste à trouver les documents décrit exactement par la requête, c est à dire les documents contenant tous les termes de la requête (intersection des ensembles). Cette approche est donc très stricte et ne classe les documents que dans deux catégories : les pertinents et les non pertinents (rsv(q, d) {0, 1}). Une première extension possible de ce modèle est d utiliser des requêtes plus élaborées, en agrégeant avec différents opérateurs, comme la disjonction des termes recherchés (OU) par une union des ensembles et en autorisant la négation (NON) comme la soustraction des ensembles. La requête gagne ainsi en expressivité, et permet de relâcher les critères. Cependant, la formulation de celle-ci est d autant plus complexe, et l évaluation des résultats reste binaire. L autre extension possible est l introduction de poids dans l index et leur utilisation pour le calcul du degré de pertinence du document vis-à-vis de la requête. Ainsi, les documents peuvent être triés en fonction de leur pertinence de manière continue plutôt que d être classés dans deux catégories discrètes. Cette extension est discutée en section Modèle vectoriel Dans le modèle vectoriel, les documents sont représentés sous forme de vecteurs dans l espace des termes. On se trouve alors dans un espace ayant pour dimension le nombre de termes distincts dans la collection. La valeur de chaque coordonnée est donnée par le poids dans l index du terme dans le document. Formellement, un document d est représenté par un vecteur d = (d 1,.., d n ), où d k est le poids du terme pour le document, tel qu il est

48 48 CHAPITRE 2. RECHERCHE D INFORMATION calculé dans l index, et n le nombre de termes dans l index. Les requêtes sont modélisées par un ensemble de termes pondérés. Ainsi, les requêtes ont une représentation homogène avec les documents q = (q 1,.., q n ), et peuvent donc être représentées dans le même espace. L appariement s effectue ainsi avec des fonctions de comparaison de vecteurs classiques, tel qu un calcul de distance. La mesure la plus simple est le produit scalaire des deux vecteurs. On a alors : rsv(q, d) = n d i q i Le problème du produit scalaire est qu il ne tient pas compte de la longueur du document et de la requête. L utilisation du cosinus de l angle des deux vecteurs permet d ignorer la longueur de ceux-ci : rsv(q, d) = i=1 n i=1 d i q i n i=1 q2 i n i=1 d2 i D autres mesures normalisées ont été développées à partir du produit scalaire dans le but de diminuer l influence de la longueur des documents. On peut citer notamment la mesure de Dice la mesure de Jaccard rsv(q, d) = rsv(q, d) = 2 n i=1 d i q i n i=1 d2 i + n i=1 q2 i n i=1 d i q i n i=1 d2 i + n i=1 q2 i n i=1 d i q i et le coefficient de superposition [van Rijsbergen, 1977] rsv(q, d) = n i=1 d i q i min ( n i=1 d2 i, n i=1 q2 i ) On peut remarquer qu il existe un ordonnancement de ces différentes mesures. En effet, on a min(a, b) a b a+b, soit en posant a = n 2 i=1 q2 i et b = n i=1 d2 i, superposition cosinus Dice. On vérifie également que n i=1 d2 i + n i=1 q2 i n i=1 d i q i n i=1 d2 i + et donc Dice Jaccard. n i=1 q2 i Un des principaux défauts de l approche vectorielle est qu elle considère tous les termes comme étant équivalents et ne tient donc pas compte des liens entre ceux-ci. En outre, l espace à considérer possède un grand nombre de dimensions. Le modèle vectoriel généralisé (GVSM pour generalized vector space model) [Wong et al., 1985] permet de résoudre le problème de l indépendance des termes. En effet,

49 2.2. RECHERCHE D INFORMATION CLASSIQUE 49 dans ce modèle, les vecteurs définissant l espace d indexation ne sont pas orthogonaux. Ils sont représentés à partir de composants, les «min-termes», en tenant compte de la co-occurrence des termes dans les documents, en supposant que la co-occurrence de deux termes dans un document implique leur inter-dépendance. Les min-termes sont donc des expressions atomiques ou des concepts, représentés à partir de conjonctions de termes. Ainsi, le min-terme m k est définis par : m k = x 1 x 2 x n où x i est t i ou t i, les t i étant les termes de la collection ; ces termes apparaissent une et une seule fois dans les m k. La conjonction de deux min-termes étant toujours fausse, on peut faire correspondre les 2 n min-termes à la base des termes de l espace vectoriel classique R 2n par : m 1 = (1, 0,..., 0); m 2 = (0, 1, 0,..., 0); m 2n = (0,..., 0, 1) Les t i peuvent également être exprimé en fonction des m k sous forme disjonctive t i = m i1 m ir où les m i sont les min-termes pour lesquels t i n est pas nié. Les documents sont donc représentés dans un espace tenant compte des dépendances entre les termes Modèle LSI Ce modèle, dérivé du modèle vectoriel, a pour but de corriger les défauts de celuici. En effet, il utilise les techniques de l analyse en composante principale sur l espace des termes. Ainsi, le nombre de dimensions est réduit, et les corrélations entre les termes sont exploitées, utilisant un sens «caché» des termes (LSI : Latent Semantic Indexing) [Dumais, 1995, Foltz, 1990]. On obtient ainsi une représentation conceptuelle des documents, ce qui limite l impact de la variation dans l utilisation des termes dans les documents. L exploitation des composantes principales conduit à une représentation proche pour des documents contenant des termes co-occurrents, et pas seulement égaux. Ainsi, la représentation du document est indépendante des mots eux-mêmes, puisque dans l espace réduit des composantes principales, un document est représenté par un vecteur ne correspondant plus aux mots mais à leur transformation, qui peut être vue comme la représentation statistique du concept, basée sur la co-occurence des termes dans la collection. Un document pertinent ne contenant aucun mots de la requête, pourra malgré tout être retrouvé, les deux représentations étant similaires dans le nouvel espace.

50 50 CHAPITRE 2. RECHERCHE D INFORMATION Concrètement, le modèle LSI réduit l espace de représentation des documents en ne considérant que les axes porteurs d information, en utilisant une ACP 1 sur la matrice termes-documents, dont les valeurs sont les poids des termes dans chaque document [Berry et al., 1999]. Ainsi, si N est cette matrice, LSI calcule une approximation ˆN de celle-ci : ˆN = U ˆΣV t où U et V sont des matrices telles que U t U = V t V = I, et ˆΣ est une matrice diagonale donnée par : ˆΣ = diag(σ 1,..., σ r, 0,..., 0) où les σ i sont les composantes principales telles que i {1,..., r 1}, σ i σ i+1. Les requêtes, représentées initialement par leur vecteur, subissent également la transformation afin d être elles aussi représentées dans l espace réduit. La similarité entre documents ou entre une requête et un document est calculée par : s(d i, d j ) = S ij S = t ˆN ˆN = U ˆΣ 2 U t Cependant, cette méthode nécessite une quantité de données importante afin de calculer une bonne approximation de la matrice. Si la base de documents est trop petite, les composantes principales extraites ne seront pas bien représentatives de la collection Modèle probabiliste Ce modèle a été présenté dans les années 60 [Maron et Kuhns, 1960]. Ici, la similarité entre une requête q et un document d, et donc la pertinence du document vis-à-vis de la requête, est calculée comme le rapport de la probabilité que le document soit pertinent pour la requête, P (d/q) et la probabilité qu il soit non pertinent P (d/q). Ces probabilités sont estimées par les probabilités qu un terme de la requête soit dans un document pertinent et non pertinent. La pertinence globale est généralement calculée par : 1 Analyse en Composante Principale rsv(q, d) = P (d/q) P (d/q) = t p(1 q) log q(1 p) i=1

51 2.2. RECHERCHE D INFORMATION CLASSIQUE 51 où p = P (terme t i présent/d pertinent), q = P (terme t i présent/d non pertinent) et t est le nombre total de termes dans la requête. Ainsi, les documents sont triés en fonction de leur probabilité de pertinence. Cependant, deux hypothèses doivent être vérifiées pour garantir les performances d un tel ordonnancement [Robertson, 1977] : la pertinence des documents est une variable aléatoire binaire. les pertinences des documents sont indépendantes les unes des autres. Le système OKAPI implémente le modèle probabiliste [Robertson et Walker, 1999]. Il utilise la fonction BM25 pour calculer la probabilité de pertinence d un document d vis-àvis d une requête q : avec : rsv(q, d) = t q ω (1) (k 1 + 1) tf K + tf K = k1(1 b + b dl avdl ) tf : fréquence d apparition du terme t dans le document d, qtf : fréquence d apparition du terme t dans la requête q, (k 3 + 1) qtf k 3 + qtf k 1, b et k 3 : paramètres dépendant de la nature des requêtes et du corpus dl : la longueur du document d, avdl : la longueur moyenne des documents, ω (1) : poids de Robertson-Sparck Jones du terme t dans la requête q : ω (1) = log r+0.5 R r+0.5 n r+0.5 N n R+r+0.5 r : nombre de documents pertinents contenant le terme t, R : nombre total de documents pertinents, n : nombre de documents contenant le terme t, N : nombre total de documents. Cette approche est particulièrement intéressante dans le cadre du bouclage de pertinence (cf. section 2.2.6). En effet, la pertinence et la non-pertinence des documents étant connues, puisque données par l utilisateur, la probabilité de pertinence de chaque terme de ces documents peut être calculée plus précisément et exploitée dans la reformulation des requêtes.

52 52 CHAPITRE 2. RECHERCHE D INFORMATION Réseaux d inférence bayésiens Un réseau d inférence bayésien tel que présenté dans [Turtle et Croft, 1990] est un graphe de dépendance orienté et acyclique. Dans ce graphe, les nœuds représentent des variables propositionnelles et les arcs des relations de dépendance entre ces variables, représentant par exemple la cause ou l implication entre les propositions. Appliqués à la recherche d information, les nœuds représentent des concepts, des ensembles de termes, des requêtes ou des documents, et les arcs des dépendances entre termes ou entre termes et documents. Ainsi, une requête q composée de trois termes t 1, t 2 et t 3 est représentée comme en figure 2.2. Dans ce cas, les nœuds sont des variables aléatoires représentant l accomplissement des événements associés. Ainsi, q = 1 si une combinaison des événements associés aux termes t i est vraie (t i = 1). De même, ceux-ci sont inférés par la pertinence du document (d = 1). d t 1 t 2 t 3 q Figure 2.2 Exemple de réseau Bayésien On a donc la probabilité combinée : P (d, t 1, t 2, t 3, q) = P (d) P (t 1 d) P (t 2 d, t 1 ) P (t 3 d, t 1, t 2 ) P (q d, t 1, t 2, t 3 ) qui, étant donné les dépendances définies par le graphe, peut se simplifier en : P (d, t 1, t 2, t 3, q) = P (d) P (t 1 d) P (t 2 d) P (t 3 d) P (q t 1, t 2, t 3 ) Le but final étant de trier les documents selon leur pertinence, on utilise pour cela la probabilité de réalisation de la requête pour le document, soit : P (q = 1 d = 1) = = P (q = 1, d = 1) P (d = 1) P (d = 1, t1 = 1, t 2 = 1, t 3 = 1, q = 1) P (d = 1)

53 2.2. RECHERCHE D INFORMATION CLASSIQUE 53 Cependant, ce modèle nécessite de connaître a priori différentes probabilités : P (d), P (t i d) et P (q t 1,..., t n ) qui est d autant plus complexe à spécifier que la requête contient beaucoup de termes. Le système de recherche Inquery implémente le modèle bayésien [Allan et al., 2001] pour l évaluation de la pertinence. Pour cela, le degré de croyance en un terme t dans le document d est donné par la fonction de pondération : w td = tf td tf td length(d) avglen log N+0.5 n t log(n + 1) où tf td est la fréquence du terme t dans le document d, length(d) est la longueur du document d, avglen est la longueur moyenne des documents de la collection, N est le nombre de documents dans la collection et n t est le nombre de documents contenant le terme t. L approche basée sur les réseaux d inférence a l avantage de tenir compte de la dépendance entre les termes, mais plusieurs problèmes se posent. Ces dépendances doivent être connues a priori, de même que la probabilité P (t i d). Enfin, comme déjà spécifié, le calcul des probabilités augmente exponentiellement avec le nombre de termes dans la requête, ce qui engendre des calculs très lourds Modèle connexionniste Ce modèle utilise les réseaux de neurones pour modéliser l information et effectuer la recherche [Boughanem, 1992, Kwok, 1989]. Dans ce cas, les neurones représentent les objets de la recherche d information. En effet, les principes de propagation et d activation des réseaux de neurones correspondent bien au processus associatif qu est la recherche d information. De plus, ce modèle se prête bien à l apprentissage, qui peut jouer un grand rôle dans un système de recherche d information en les rendant adaptatifs (voir section 2.2.6). De manière générale, les représentations sous forme de réseaux (inférence, neurones), se prête bien à la recherche d information. En effet, elles permettent de modéliser facilement les relations existant entre les différents éléments du système : entre termes : relations de synonymie, spécialisation (cf. section 2.3.3) entre documents : similarité, classification. entre termes et documents : statistiques, poids.

54 54 CHAPITRE 2. RECHERCHE D INFORMATION Les systèmes de recherche d information basés sur le modèle connexionniste peuvent être répartis en deux catégories selon l architecture de leur réseau : 1. Les modèles à auto-organisation : ils permettent, à partir de la description des documents, d en réaliser une classification par l apprentissage du réseau. Ils sont basés sur le modèle des cartes topologiques de Kohonen [Kohonen, 1989] 2. Les modèles à couches : certains de ces modèles sont basés sur le modèle probabiliste [Kwok, 1989, Belew, 1989, Crestani et van Rijsbergen, 1994, Kwok, 1995] et d autres sur le modèle vectoriel. Ainsi, le réseau est construit à partir de la description des documents en terme de mot-clé, la requête étant représentée par la première couche du réseau. L évaluation de celle-ci s effectue donc par le processus d activation et de propagation à partir de cette couche vers celle décrivant les documents. Le niveau d activation final des documents donne leur pertinence vis-à-vis de la requête. Requête q 1 q n t 1 t n Termes w 11 w 1m w nm d 1 d m Documents Figure 2.3 Exemple de réseau de neurones Dans le modèle PIRCS [Kwok et al., 1999] la pertinence du document est le résultat de la combinaison de deux valeurs de pertinences, l une produite par le document d et l autre par la requête q, obtenues par propagation des signaux dans le réseau de neurones. La pertinence finale est donnée par : rsv(q, d) = α rsv d + (1 α) rsv q où rsv d et rsv q sont respectivement les pertinences focalisées sur le document et sur la requête données par : rsv d = k rsv q = k ( ) qtfk S w dk L q ( ) tfk S w qk L d

55 2.2. RECHERCHE D INFORMATION CLASSIQUE 55 avec ( tfk w dk = log N ) w L d F k + tf k L d tf k F k tf ( k qtfk w qk = log N ) w F k L q qtf k F k où tf k et qtf k sont les fréquences du terme k dans d et q respectivement, L d = k tf k, L q = k qtf k sont les longueurs de d et q, S est une fonction de type sigmoïde, F k est la fréquence du terme k dans la collection et N w = k F k est le nombre d éléments dans la collection Modèles de langues Les systèmes de recherche d information utilisant les modèles de langues suivent une approche différente des autres modèles. En effet, dans la plupart des modèles, on cherche à comparer une représentation de la requête de l utilisateur avec une représentation du document recherché pour évaluer la pertinence de celui-ci. Ici, on part de l observation que l utilisateur crée la requête à partir d une représentation hypothétique qu il se fait du document recherché. La requête est donc «générée» à partir des documents voulus. Le but du modèle de langue est donc de générer des requêtes à partir des documents, et comparer celles-ci avec la requête de l utilisateur. La pertinence d un document est donc estimée en calculant la probabilité que la requête utilisateur soit inférée par celui-ci. En supposant les termes indépendants, on a [Ponte et Croft, 1998] : n p(q d i ) = p(q k d i ) k=1 où les q k sont les termes de la requête. Pour formaliser l effet de dérivation des requêtes, le paramètre de Markov Kernel t(q k w j ) est ajouté [Berger et Lafferty, 1999], qui donne de manière simplifiée : n m p(q d i ) = φ(n) t(q k w j ) p() k=1 j=1 où φ(n) est la probabilité de générer une requête de longueur n et m le nombre de terme dans le document. Pour l application à la recherche d information, la formule dérivée suivante est utilisée : n p(d i, t 1,..., t n ) = p(d i ) (1 λ)p (t j ) + λp (t j d j ) j=1

56 56 CHAPITRE 2. RECHERCHE D INFORMATION Reformulation de requêtes En recherche d information, l utilisateur n a souvent qu une idée vague de son besoin d information. La formulation des requêtes est donc complexe, même lors de l utilisation de systèmes étendus comme décrit précédemment. Afin de faciliter la construction de requête efficace, le système de bouclage de pertinence, relevance feedback en anglais, a été développé. Il consiste à étendre la requête initiale à l aide de documents évalués comme pertinents par l utilisateur dans les résultats de celle-ci, dans un cycle itératif, pour raffiner la formulation des besoins. Concrètement, les termes les plus significatifs sont extraits de ces documents et inclus dans la requête. Ce processus permet d améliorer significativement les performances des systèmes de recherche d information [Rocchio, 1971, Salton et McGill, 1983, Salton, 1989]. Une autre technique de reformulation de requête consiste à utiliser des connaissances a priori sur le vocabulaire utilisé afin de remplacer les termes de la requête par un groupe de termes équivalent au niveau sémantique, mais permettant de retrouver plus de documents puisque ayant une meilleure représentation dans l index. Typiquement, cela consiste à remplacer un terme par l ensemble de ses synonymes. L utilisation de ressources linguistiques telles que les thésaurus permet ainsi une bonne expansion des requêtes Bouclage de pertinence Les premières approches traitant du bouclage de pertinence sont basées sur le modèle vectoriel. Ici, étant donné une requête Q old donnant un ensemble de documents R e, l utilisateur sélectionne un sous-ensemble de ces documents R 1 jugés pertinents. Ces documents sont utilisés pour générer une nouvelle requête Q new ayant un vecteur plus proche des vecteurs des documents de R 1 : Q new = αq old + β d i γ i R 1 i (R e R 1 ) où les d i sont les vecteurs des documents de R 1 et α, β et γ sont des paramètres du système. Le plus souvent, on a γ < β. En effet, on considère en général que l information extraite des documents pertinents est plus utile que celle de l ensemble complémentaire. Cependant, dans le cas où l utilisateur a aussi spécifié les documents non pertinents, on peut avoir γ = β. Ce processus peut être réitéré, mais il a été montré que seule les premières itérations sont significatives. d i

57 2.2. RECHERCHE D INFORMATION CLASSIQUE 57 Une autre approche, développée dans [van Rijsbergen, 1979] se base sur le modèle probabiliste. Ici, la requête étendue n est pas construite, mais un degré de pertinence est calculé pour chaque terme des documents marqués comme pertinents, ou non pertinents, par l utilisateur. Ce degré révisé est une fonction de probabilité de la présence du terme dans l ensemble des documents pertinents, ou non pertinents. Enfin, un facteur de pertinence pour chaque document est calculé en fonction du degré révisé de ses termes, et les documents sont retrouvés et triés selon ce dernier degré. En ce qui concerne le modèle strictement booléen, le bouclage est effectué en calculant la valeur de prédominance des termes des documents jugés pertinents [Dillon et Desper, 1980]. Cette valeur est calculée en fonction du nombre d occurrences de ces termes dans les documents en question. Les termes sont ensuite groupés en catégories en fonction de leur valeur de prédominance. La requête étendue est générée comme une conjonction de disjonctions des termes de chaque classe. Les systèmes de recherche basés sur les réseaux de neurones sont très bien adaptés au bouclage de pertinence. En effet, l apprentissage est inhérent au système des réseaux de neurones. Un tel système est proposé dans [Bordogna et Pasi, 1996, Kwok, 1989, Boughanem, 1992]. Le réseau de neurones est construit dynamiquement à partir de l analyse des documents jugés pertinents par l utilisateur. Ainsi, l activation des neurones, représentant les termes les plus significatifs pour le document, est calculée en fonction de l importance du terme dans le document, et le poids des synapses entre termes est calculé à partir de la similarité des ces importances. Une phase d apprentissage, en utilisant par exemple les collections d évaluation, peut également être appliquée au système. Ainsi, les différents poids et paramètres du réseau s adaptent à la collection, afin de faire correspondre au mieux le système de recherche aux besoins de l utilisateur Utilisation de ressources linguistiques Une autre approche permettant d étendre les requêtes est l utilisation de ressources linguistiques telles que les thésaurus. Un thésaurus représente des relations entre différents termes. Ainsi, il permet d améliorer le système au niveau de l indexation et de l interrogation, en précisant le contexte de la recherche, ce qui peut lever un certain degré d ambiguïté, et en étendant la requête avec des termes considérés comme similaires. Les types de relations traditionnellement définies dans les thésaurus sont : la généralisation ou hyperonyme, désigne les termes ayant un sens plus large. Elle est parfois notée BT pour broader term

58 58 CHAPITRE 2. RECHERCHE D INFORMATION la spécialisation ou hyponyme, désigne les termes ayant un sens plus spécifique, et est donc la relation symétrique de la précédente. C est la relation is a. Elle est notée NT pour narrower term. la synonymie, réelle ou approchée, désigne les termes ayant un sens équivalent ou proche et est notée RT pour related term. la composition, ou méronymie, représente la composition de concepts, comme les parties d un objet. On définit ainsi une hiérarchisation dans les termes de la langue au moyen de la classification [Soergel, 1997]. On peut citer WordNet [Miller et al., 1990] comme exemple de thésaurus hiérarchique. C est une base de données lexicale pour l anglais, basée sur des principes linguistiques. Dans cette hiérarchie, les éléments sont en fait des cliques de termes synonymes appelés synset. Cependant, la création manuelle de thésaurus est une tâche longue et coûteuse. C est pourquoi des techniques de créations automatiques basées sur la co-occurrence des termes dans une collection de documents (corpus) ont été développées. La méthode la plus simple est de considérer simplement la présence de termes au sein d un même document. Une méthode plus élaborée consiste à utiliser l index construit lors de la phase d indexation, qui donne une représentation des termes dans l espace des documents, pour obtenir une matrice des distances termes-termes. Ces distances sont calculées avec une des mesures précédemment définies, par exemple le cosinus. Des techniques de classifications (ACP, CAH 2 ) peuvent ensuite être utilisées pour construire des classes de termes similaires, qui peuvent être utilisés dans l expansion de requête. Cependant, ces techniques ne considèrent la présence des termes qu au niveau du document. Selon le cas, ceci peut être trop restrictif, si des termes équivalents ne sont pas utilisés au sein d un seul document, mais dans des documents similaires de la collection. Cela peut aussi être trop large si un document parle de beaucoup de sujets différents, comme un extrait de journal par exemple. On peut raffiner cette approche en ne calculant la co-occurrence des termes qu à l intérieur d une fenêtre de n termes voisins, ce qui permet de limiter l impact des documents traitant de plusieurs sujets. 2 Classification Ascendante Hiérarchique

59 2.2. RECHERCHE D INFORMATION CLASSIQUE Croisement de langues en recherche d information Dans un système de recherche d information multilingue, la collection documentaire contient des documents formulés dans plusieurs langues, soit au sein de la collection, soit même au sein d un même document, qui contient un texte et sa traduction par exemple. Le croisement de langues est une technique utilisée dans le cadre des systèmes de recherche d information multilingues. Dans ce cas, la requête est formulée dans une langue différente de celle des documents. Ceci s applique à des collections monolingues, pour faciliter la formulation de la requête dans la langue maternelle de l utilisateur, mais aussi dans le cas de collections multilingues, où les documents sont dans diverses langues, comme c est le cas du web. Le but est alors de trouver les documents pertinents quelle que soit leur langue, ou dans des langues prédéfinies, et cela quelle que soit la langue de la requête. Cependant, il existe différentes interprétations de ce que doit être un système multilingue : Le système contient des collections parallèles dans différentes langues, indépendantes les unes des autres, la requête étant donc limitée à rechercher une seule langue à la fois. C est généralement le cas des moteurs de recherche sur web. Différentes langues sont présentes dans l index, mais la requête doit être formulée dans la langue du document recherché. La collection est monolingue, mais l interrogation peut s effectuer dans différentes langues. Le système est basé sur une collection multilingue, et la requête peut être formulée dans n importe quelle langue supportée. Les documents pertinents sont retrouvés, qu elle que soit leur langue. Les documents eux-mêmes sont multilingues, et plus seulement la collection, c est-àdire que plusieurs langues sont présentes au sein d un même document. Ici aussi, la langue de la requête est quelconque. Seuls les trois derniers modèles sont concernés par le croisement de langues. Le but des systèmes de recherche d information par croisement de langues est ainsi d obtenir une représentation homogène des documents et des requêtes qui soit indépendante de la langue initiale de ceux-ci. La majorité des approches est basée sur la traduction de la requête et/ou des documents. Les différents cas se présentent donc : Traduction de la requête dans la langue de la collection, puis interrogation monolingue. Dans le cas d une collection multilingue, il suffit de réitérer l opération pour chaque langue et de fusionner les résultats. Le principal problème est que la requête étant constituée de termes isolés et donc hors contextes, la traduction de celle-ci est souvent ambiguë.

60 60 CHAPITRE 2. RECHERCHE D INFORMATION Traduction des documents dans la langue de la requête et recherche monolingue. Cette approche est limitée par la taille de la collection. En effet, il n est pas envisageable de traduire toute la collection si celle-ci contient plusieurs centaines de milliers (voire des millions) de documents. Utilisation d un référentiel commun, comme un langage pivot ou un thésaurus multilingue comme EuroWordNet par exemple. Cependant, la disponibilité de ces vocabulaires communs peut parfois poser problème. La traduction de requête est l approche la plus couramment adoptée [Boughanem et Nassr, 2000, Gollins et Sanderson, 2000, Shauble et Brashler, 2000]. Dans ce cas, la première étape est donc la traduction des termes de la requête, à l aide de dictionnaires par exemple. Cependant, un terme peut souvent être traduit par différents termes, selon le contexte, sans parler de la polysémie des mots. Se pose alors le problème de la désambiguïsation, qui consiste à trouver le «bon» sens des termes de la requête, et donc la traduction la plus fidèle Approches de la traduction des requêtes Différentes approches sont possibles pour la traduction des requêtes. Traduction automatique : Une première approche pour la traduction des requêtes est celle basée sur les traducteurs automatiques. Ces systèmes, basés sur l analyse du langage naturel entre autre, permettent de traduire un texte dans différentes langues de destination. Ceci peut paraître intéressant pour le problème de croisement de langues. Cependant, de par leur nature, les traducteurs automatiques ne fonctionnent bien que sur des textes d une longueur minimum, et retournent donc souvent une mauvaise traduction des requêtes composées de mots-clés isolés, ce qui conduit à de mauvais résultats pour la recherche d information [Pirkola, 1998, Yamabana et al., 1998]. Dictionnaire : Une approche plus performante consiste à utiliser des dictionnaires pour la traduction mot à mot de la requête. Ces dictionnaires sont généralement de simples listes de mots avec le ou les mots traduits associés. La traduction par dictionnaires se heurte à différents problèmes. Le premier est la couverture de langue, qui est souvent incomplète, notamment pour les termes techniques. La seconde est la polysémie des mots ; en effet, les mots étant hors de leur contexte, on ne peut choisir la bonne signification, et donc la bonne traduction. De plus un mot peut avoir différentes traductions, même si son sens

61 2.2. RECHERCHE D INFORMATION CLASSIQUE 61 dans la langue source n est pas ambiguë. Enfin, les mots composés et expressions sont rarement présents dans de tels dictionnaires. Ainsi, une utilisation trop directe de dictionnaire peut mener à une baisse des performances du système [Ballesteros et Croft, 1996]. L utilisation de dictionnaires en croisement de langues doit donc s accompagner d un système de désambiguïsation. Corpus alignés : Afin de résoudre le problème de l incomplétude des dictionnaires de traduction, l utilisation de corpus alignés a été développée afin d en extraire l information manquante des dictionnaires. Un corpus aligné est constitué d un ensemble de documents alignés avec leur équivalent dans une autre langue. Cet alignement peut être parallèle, lorsque les documents sont traduits exactement et que l on fait se correspondre les paragraphes, les phrases ou même les termes. Lorsque les documents ne sont pas des traductions strictes, mais sont seulement des documents traitant du même sujet, on parle d alignements comparables. Le premier principe est de construire une matrice de co-occurrence des termes dans les documents parallèles afin d obtenir les relations entre les termes d une langue et ceux de l autre langue, utilisée ensuite pour traduire les requêtes [Sheridan et Ballerini, 1996, Littman et al., 1998]. Vocabulaire : Dans ce modèle, le vocabulaire possible pour la requête est prédéfini. Ainsi, l utilisateur choisit non pas des termes, mais des classes d équivalences, dans lesquelles sont regroupés les termes ayant le même sens, que ce soit dans une même langue (synonymes) ou dans des langues différentes (traduction). Ainsi, le problème de l ambiguïté est levé par l utilisateur lui-même lors de la formulation de la requête. L indexation des documents est aussi réalisée à l aide de ce vocabulaire, afin d avoir une représentation homogène de la requête et du document. Si ce thésaurus est convenablement construit, le résultat de l évaluation est presque aussi bon que dans le cas monolingue [Salton, 1970, Pevzner, 1972]. Cependant la construction de ce thésaurus nécessite souvent une intervention humaine, et est donc difficile à mettre en œuvre. Dans [Diekema et al., 1998], WordNet est utilisé pour comme base de vocabulaire pour effectuer une traduction français-anglais, avec des performances à 75% de la recherche monolingue. LSI : Proposée dans [Littman et al., 1998], cette approche propose d utiliser les techniques de LSI, similaires à l analyse en composante principale, sur des corpus alignés afin de créer des classes de termes proches qui seront ensuite utilisées pour la traduction des

62 62 CHAPITRE 2. RECHERCHE D INFORMATION requêtes. Dans les corpus parallèles utilisés, les différentes versions d un document, selon les langues, sont concaténées au sein d un unique document. En effet, l analyse de la LSI regroupe les termes estimés proches par des critères de co-occurrence dans la collection et au sein des documents. Comme les documents considérés sont dans plusieurs langues, les classes obtenues contiennent les termes similaires, au sens de la mesure utilisée, quelle que soit leur langue. Les documents et les requêtes sont ainsi représentés dans un espace indépendant des termes et de la langue. La technique de recherche décrite en section s applique alors, et les documents sont retrouvés dans toutes les langues disponibles dans la collection. De nombreux travaux ont montré l efficacité de cette approche [Landauer et Littman, 1998, Oard et al., 1998], mais elle dépend beaucoup de la longueur des documents et de la taille de la collection utilisée pour l apprentissage du système Désambiguïsation des traductions Comme nous l avons vu, la traduction des termes de la requête introduit des ambiguïtés lorsqu un mot possède plusieurs traductions possibles. Il convient donc de lever cette ambiguïté, faute de quoi le système risque de retrouver beaucoup de documents non pertinents. Beaucoup d approches sont basées sur l utilisation de corpus alignés [Sheridan et Ballerini, 1996, Savoy, 2001, Benferhat et al., 2002]. Dans ces modèles, les corpus sont utilisés pour calculer des valeurs de co-occurrence des termes entre les différentes langues. Ces valeurs sont ensuite utilisées pour choisir la meilleure traduction parmi les différentes possibilités pour chaque terme [Ballesteros et Croft, 1998]. Une autre approche consiste à comparer les résultats de chacune des traductions possibles de la requête sur un corpus parallèle. La traduction retournant les documents les plus proches des documents résultats de la recherche initiale sur l autre partie du corpus, est considéré comme la bonne [Davis, 1998]. Une autre approche est présentée dans [Boughanem et al., 2001] et n est pas basée sur des corpus, mais sur des dictionnaires. Le principe de base est de traduire les termes à l aide d un dictionnaire, puis de retraduire chacune des traductions possibles vers la langue d origine. Les traductions ayant donné le plus de termes communs avec les termes de la requête initiale sont conservées.

63 2.2. RECHERCHE D INFORMATION CLASSIQUE Évaluation des performances des systèmes de recherche d information L évaluation des performances des systèmes de recherche d information est une étape indispensable dans le cadre de la recherche. En effet, il faut comparer les performances des différentes méthodes pour élaborer un système fonctionnel. De nombreux modèles possèdent différents paramètres et constantes qu il convient également de déterminer par des tests de performance du système. La qualité d un système de recherche d information peut se situer à différents niveaux. En effet, le but d un système de recherche d information est de présenter de manière utilisable à l utilisateur des documents correspondant à son besoin. Le premier point présenter de manière utilisable implique notamment l interface utilisateur, c est à dire la manière de présenter les résultats, d accéder aux documents complets, mais aussi la création des requêtes et d effectuer le bouclage de pertinence. Ainsi, les systèmes questions/réponses sont basés sur un échange entre le système et l utilisateur, et on trouve des systèmes graphiques pour l aide au choix des termes de la requête. Concernant la présentation, la mise en évidence des termes de la requête dans le document peut aider l utilisateur à localiser les sections intéressantes dans le document. D un point de vue plus technique, le temps de réponse est également important pour déterminer l efficacité d un système. En effet, un utilisateur n acceptera généralement pas de patienter plusieurs minutes pour obtenir une réponse à sa requête. Tous ces critères sont importants pour l efficacité du système, et ne doivent pas être négligés, surtout dans le cadre d un système fonctionnant en situation réelle. Cependant, d un point de vue théorique, pour l évaluation des différents modèles, l efficience du système est le principal critère considéré. Elle représente les performances brutes en matière de pertinence des documents retrouvés par le système, et donc de leur adéquation avec les besoins de l utilisateur. C est cette évaluation qui va être abordée par la suite Précision et rappel Afin d évaluer les différents systèmes de recherche d information en terme d efficacité (qualité), des mesures de performance ont été définies. Deux mesures, la précision et le rappel, permettent de déterminer l efficacité du système pour retrouver les documents pertinents et ignorer les documents non pertinents. Ainsi, le rappel est une mesure du pourcentage de documents pertinents ayant été retrouvés, et dénote donc l exhaustivité du

64 64 CHAPITRE 2. RECHERCHE D INFORMATION système, c est à dire aussi le silence du système. Elle s exprime par : R = nombre de documents pertinents retrouvés nombre de documents pertinents dans la collection Parallèlement, la précision calcule le pourcentage de documents pertinents parmi les documents retrouvés, ou le bruit du résultat, et mesure donc la spécificité du système. Elle est calculée comme : P = nombre de documents pertinents retrouvés nombre total de documents retrouvés La plupart du temps, ces deux mesures sont en équilibre. Si on augmente le rappel en retrouvant plus de documents pertinents, et donc en étant plus tolérant dans l appariement, on diminue la précision en retrouvant aussi plus de documents non pertinents. Inversement, une requête plus stricte a moins de bruit, et donc a une plus grande précision, mais risque de rejeter des documents pertinents, ce qui diminue le rappel. Le but d un SRI est donc de trouver un bon équilibre entre ces deux mesures Précision à x Pour faciliter les calculs de précision et de rappel, on calcule en général la précision à x. Elle représente la proportion de documents pertinents présents dans les x premiers documents retrouvés, en supposant ces documents triés selon leur valeur de pertinence (RSV). Ainsi, on calcule typiquement les précisions à 5, 10, 15 pour un système, et ces mesures sont notées alors P5, P10, P15, etc. La précision exacte découle de ces mesures. C est la précision à x, où x est le nombre total de documents pertinents dans la collection pour la requête. La précision moyenne est aussi calculée pour chaque requête. C est la moyenne des précisions pour chaque document pertinent. La précision d un document pertinent est la précision à x, x étant la position de ce document dans la liste triée des documents retrouvés. Si un document pertinent n est pas retrouvé, sa précision est nulle. Enfin, les précisions moyennes pour l ensemble des requêtes, qui sont donc les moyennes des précisions (moyennes, exactes,... ) par requête, permettent d obtenir une mesure de la performance globale du système.

65 2.2. RECHERCHE D INFORMATION CLASSIQUE Autres mesures D autres mesures sont significatives des qualités des systèmes de recherche d information. Ainsi, un temps de réponse court par exemple est fondamental pour que le système soit utilisable dans un environnement de production. La longueur de recherche espérée est définie comme étant le nombre de documents non pertinents que doit consulter l utilisateur avant de trouver un nombre prédéfini de documents pertinents [Cooper, 1968]. Cette mesure est équivalente à une mesure de précision. Un cas particulier de cette mesure, lorsque le nombre est de un, est donc le rang du premier document pertinent. Des mesures ont également été élaborées à partir de combinaisons du rappel et de la précision [Kraft et Bookstein, 1978]. [van Rijsbergen, 1979] définis ainsi la E-mesure, qui mesure l efficacité du système par : E = 1 (1 + β2 ) P R β 2 P + R Une autre approche utilise le tri des documents [Bollmann-Sdora et Raghavan, 1993], en définissant le R-norme : ) R norme = 0.5 (1 + S+ S S + max où S + est le nombre de documents pertinents consécutifs dans la liste des résultats triés, S le nombre de documents non pertinents consécutifs, et S max + la plus grande valeur possible de S Collections de test Le rappel est très difficile à calculer, étant donné que l on doit pour cela connaître a priori le nombre de documents pertinents pour la requête dans toute la collection. Ceci n est pas applicable dans un système réel. Des collections de documents ont donc été élaborées afin de faciliter l évaluation des systèmes. Ces collections contiennent un ensemble de documents à indexer sur lesquels les systèmes seront évalués. Le nombre de documents dans la collection doit être suffisamment important pour que les évaluations soient significatives. Une liste de requêtes, généralement formulées sous forme de description textuelle des documents devant être retrouvés, est également fournie, ainsi que la liste des documents pertinents pour chacune de ces requêtes. La pertinence des documents est évaluée par des

66 66 CHAPITRE 2. RECHERCHE D INFORMATION experts humains. Ainsi, les variables nécessaires au calcul des mesures de rappel et de précision sont connues, et celles-ci peuvent donc être calculées précisément. La première grande collection d évaluation a été développée dans le cadre du projet Cranfield [Cleverdon, 1967]. Elle contient (dans Cranfield I) articles et requêtes. Toutes ces requêtes sont évaluées par des experts humains pour déterminer les documents pertinents dans la collection pour chacune d elle. Le résultat de l évaluation par le système y est ensuite comparé. Le projet Cranfield a une influence marquante sur toute l histoire de la RI. On utilise encore aujourd hui les mêmes principes d évaluation pour les systèmes de RI Une des collections les plus utilisées actuellement en recherche d information est la collection TREC (Text retrieval conference) [Harman, 1992]. Elle est utilisée dans une campagne d évaluation annuelle depuis 1992, sponsorisée par le NIST 3 et le DARPA 4. Son but est de fournir à la communauté de la recherche d information une infrastructure nécessaire à l évaluation et la comparaison homogène des systèmes de recherche d information. Différentes tâches sont définies dans une campagne TREC afin de couvrir les différents aspects de la recherche d information, comme le filtrage, le croisement de langues, les modèles d interaction, les questions/réponses, ou encore la recherche de vidéo ou orienté web. En 1993, 93 groupes ont participé à cette campagne. Les documents de la collection sont tirés de publications dans différents journaux Conclusion Les techniques de recherche d information présentées ici représentent la grande majorité des systèmes réels existants. Cependant, le fait d établir la correspondance entre les documents de la collection et la requête sur la seule base de leurs mots communs peut paraître trop restrictive. En effet, cette approche ne permet pas de capturer les subtilités de la langue, ni les préférences de l utilisateur concernant la formulation de ses besoins. L introduction de techniques issues de la logique floue permet de répondre à ces problèmes dans une certaine mesure, comme nous allons le montrer dans la section suivante. 3 National Institute of Standards and Technology 4 Defence Advanced Research Project Agency

67 2.3. RECHERCHE D INFORMATION FLOUE Recherche d information floue L application des techniques issues de la logique floue aux systèmes de recherche d information est prometteuse. En effet, la phase d indexation du document, c est-à-dire la représentation de son contenu sous forme de mots-clés pondérés, est fortement réductrice et donc introduit différents types d incomplétudes et d imprécisions dans la phase de recherche. Ainsi, la polysémie des mots selon le contexte, et la pertinence des mots choisis pour représenter le document sont, entre autres, des facteurs déterminants et complexes à modéliser. De plus, de part leur nature même, les données textuelles sont incomplètes ou/et imprécises, et sujettes à des variations, difficilement compatibles avec les techniques statistiques citées précédemment. En outre, les utilisateurs n ont souvent eux-mêmes qu une idée assez vague de leurs besoins, et la formulation de requêtes strictes en terme de mots-clés n est pas toujours aisée. Le système doit donc considérer que le document aussi bien que la requête sont empreints d imprécision. Les ensembles flous trouvent donc naturellement leur place dans ce contexte, aussi bien au stade de l indexation ou de l interprétation des requêtes que dans l évaluation de leur correspondance avec les documents ([Bordogna et Pasi, 1993, Miyamoto, 1990a, Buell, 1985, Bookstein, 1980] par ex.) Plus précisément, un des premiers objectifs est de réduire l imprécision et l incomplétude de la représentation du document. Pour cela, l indexation du document devient floue, en représentant ce dernier comme un ensemble flou de termes. Le second objectif est de permettre à l utilisateur de formuler des requêtes vagues et incomplètes. L adaptation des requêtes booléennes au flou se fait à deux niveaux : en donnant des priorités aux éléments de la requête par leur pondération, et en utilisant des opérateurs d agrégation plus flexibles. Enfin les techniques d associations floues permettent une reformulation plus précise des requêtes afin d augmenter le nombre de documents pertinents retrouvés Indexation floue Le modèle booléen strict décrit précédemment est étendu avec la théorie des ensembles flous en définissant une fonction d appartenance qui ne soit pas binaire. Ainsi, le poids du terme dans l index représente dans quelle mesure le terme est représentatif du sujet du document [Salton, 1989]. L introduction de degrés d importances dans la représentation des documents permet d en obtenir une description plus complète et précise [Radecki, 1979]. L extension d un SRI booléen par une représentation floue des documents suffit à apporter

68 68 CHAPITRE 2. RECHERCHE D INFORMATION au système la possibilité de trier les résultats de manière progressive. En effet, la correspondance exacte du système booléen est remplacée par une mesure de correspondance graduelle, évaluant le degré de satisfaction de la requête par chaque document. Cette indexation floue a été abordée selon deux angles : l indexation de textes non structurés et l indexation de textes structurés, visant à tirer parti de l information contenue dans la structure du document Indexation de documents non structurés Dans ce modèle, le document est donc représenté par un ensemble flou de termes R(d) = {(t, d(t)) t T } pour d D où T est l ensemble des termes, D l ensemble des documents et d(t) = F (d, t) est le poids du terme t dans le document d. F est donc une fonction d appartenance mesurant le degré d appartenance de t à d. Il est ainsi possible de calculer une valeur de pertinence pour le document en fonction de la requête et de la représenter par une valeur numérique, la RSV (pour retrieval status value). Cette valeur exprime dans quelle mesure le document satisfait la requête [Buell, 1982]. La définition de cette fonction d appartenance F est donc déterminante pour les performances du système. Généralement, elle est basée sur le même type d analyse statistique des documents que lors du calcul des poids des termes dans l index (cf. formule 2.1) Représentation et indexation de documents structurés Dans l approche de base l indexation, le document est considéré comme étant un ensemble de mots (bag of words) indistincts. Cependant, beaucoup de documents rencontrés dans la recherche d information sont des documents structurés ou semi-structurés. En effet, les articles disposent d un titre et de différentes sections, possédant elles-mêmes un titre, et découpées en paragraphes. Ces découpages du document apportent une information, puisque les paragraphes ou les sections se rapportent en général à une même idée directrice, et les titres sont représentatifs du contenu de la section qui suit. De nombreux travaux s intéressent à la prise en compte de la structure du document dans la phase d indexation, comme [Salton et al., 1994] ou [Bordogna et Pasi, 1995a]. Ainsi la présence d un terme dans le titre d un article suggère que cet article parle du thème représenté par ce terme, alors que l unique présence de ce terme dans les références indique simplement que

69 2.3. RECHERCHE D INFORMATION FLOUE 69 l article fait référence à ce sujet, mais pas qu il le développe. L importance des termes dans la description du document doit donc dépendre de leur position dans la structure du document. Ainsi, afin de traiter les documents structurés, il faut tenir compte d une part de l occurrence de leurs termes dans les différentes sections du document à la phase d indexation, et d autre part de leur position dans le document lors de la phase d évaluation des requêtes. En effet, selon les besoins de l utilisateur, les sections du document intéressantes peuvent changer (titre, auteurs, références). Une approche représente les documents comme des entités structurées [Bordogna et Pasi, 1995a]. On suppose pour cela que tous les documents de la collection ont une structure commune. Ainsi, à chaque couple terme-document de l index est associé un ensemble de poids représentant l impact du terme dans la section correspondante du document. Le document est donc représenté par la relation floue : R(d) = {((t, c), d(t, c)) t, c T C} avec C l ensemble des classes (sections) définies pour la collection et d(t, c) = F c (d, t) le poids du terme t dans la section c du document d. De même, les classes sont aussi des ensembles flous de leurs termes définis par : R(c) = {((t, d), c(t, d)) t, d T D} avec c(t, d) = F c (d, t). Les c(t, d) sont ensuite agrégés pour obtenir le poids général du terme dans le document F (d, t). L agrégation utilisée est basée sur les OWA [Yager, 1988] : OW A(a 1,..., a m ) = m w j b j (2.3) j=1 avec W = [w 1,..., w m ] le vecteur de pondération tel que j w j = 1 et où les b j sont les a j une fois triés. Pour caractériser le comportement de ces opérateurs, on définit : ρ = 1 m 1 m (m j) w j (2.4) j=1 qui représente la proximité avec l opérateur classique OU (orness). Il est à noter que si w 1 = 1, alors le OWA est équivalent au max, qui correspond au OU flou, et si w m = 1, il est équivalent au min, qui est un ET flou. Enfin, un w k = 1 peut se traduire par «au moins k».

70 70 CHAPITRE 2. RECHERCHE D INFORMATION Ainsi, l agrégation des différentes sections du document s effectue par la pondération préalable des c(t, d), qui traduit l importance relative des sections dans le document, puis par l agrégation par les OWA. La pondération est effectuée par : H(α i, c i (t, d)) = max(α i, (1 ρ)) [c i (t, d)] max(α i,ρ) Une autre approche d indexation des documents structurés est abordée dans [Molinari et Pasi, 1996], qui exploite le balisage Html 5, aussi bien structurel que de mise en forme, pour attribuer une importance relative aux termes en fonction de la balise dans laquelle ils se trouvent. En attribuant différentes importances aux balises en fonction de leur sémantique directe ou implicite, il est possible d attribuer un poids numérique à celle-ci et ainsi moduler l importance des termes dans l index Requêtes floues La formulation des requêtes classiques, un ensemble de mots-clés, éventuellement agrégés par des ET et de OU, peut être étendue à deux niveaux : 1. en augmentant l expressivité des critères élémentaires de la requête (les mots-clés), 2. en rendant l agrégation de ces critères plus flexible. La première solution est obtenue en ajoutant des poids d importance sur les termes de la requête. Ceci peut être ensuite étendu en représentant ces poids sous la forme de variables linguistiques, comme l importance, à valeur sur un ensemble d étiquettes représentées par des ensembles flous, ce qui facilite le processus de création de requête. Plusieurs approches ont été suivies pour la deuxième solution. Ainsi, les opérateurs booléens sont considérés difficiles à utiliser car non adaptés au monde flou de la recherche d information textuelle [Chang et Chen, 1987]. De nombreux opérateurs alternatifs ont donc été proposés ([Myoung et al., 1993, Harashi et al., 1992, Sanchez, 1989, Bordogna et Pasi, 1995b] par exemple) Requêtes pondérées Cette approche consiste à introduire des importances relatives entre les termes de la requête pour permettre plus d expressivité dans les critères de recherche. On définit une fonction de pondération a(q, t) représentant l importance du terme t dans la requête q. 5 HyperText Markup Language

71 2.3. RECHERCHE D INFORMATION FLOUE 71 Cependant, ce poids peut être interprété comme une importance relative des termes, comme un seuil devant être atteint ou comme la valeur de pertinence que doit avoir le terme. Ainsi, si on note g la fonction d évaluation d un terme pondéré par rapport à un document, g(f (d, t), a(q, t)) représente alors la RSV d une requête q composée de l unique terme t. La définition de g induit la manière d interpréter le poids a. Importance relative Dans cette approche, les poids des termes de la requête représentent une mesure d importance relative de chaque terme par rapport aux autres. Une manière d interpréter le poids des termes comme une importance relative est de définir g = F a. Cependant, dans le cas d une conjonction (min), un poids faible amène à ne considérer que le terme ayant ce poids, ce qui est le contraire de l objectif de l utilisateur. Ainsi des travaux proposent des fonctions utilisant le maximum et le minimum pondérés, définis par [Yager, 1987, Sanchez, 1989, Dubois et Prade, 1986] : { min(a, F (d, t)) si disjonction g(f (d, t), a) = max(1 a, F (d, t)) si conjonction Seuil de pertinence Une autre approche consiste à considérer le poids du terme comme un seuil devant être atteint par sa valeur de pertinence [Kraft et Buell, 1983]. Ainsi, les termes ayant une RSV supérieure à leur poids sont favorisés. La fonction d évaluation est alors définie par : g(f (d, t), a) = { P (a) F (d,t) a P (a) + Q(a) F (d,t) a 1 a si F (d, t) < a sinon où P (a) et Q(a) sont utilisés pour ajuster le comportement du seuil [Buell et Kraft, 1981]. P (a) = 1 + a 1 a2 ; Q(a) = 2 4 Ainsi, pour F < a, la fonction g évalue la proximité de F avec le seuil a, et pour F > a, elle estime dans quelle mesure la valeur dépasse, c est à dire est plus satisfaisante, que le seuil a. Description du document Dans [Bordogna et al., 1991], la requête est considérée comme étant une description du document idéal voulu par l utilisateur, et donc le poids du terme dans celle-ci est vu comme étant la valeur que doit avoir la RSV. La fonction g est alors une mesure de proximité, pouvant être définie par : K (F (d,t) a)2 g(f (d, t), a) = e

72 72 CHAPITRE 2. RECHERCHE D INFORMATION Cette mesure est symétrique, et a été étendue dans [Kraft et al., 1995] en une version asymétrique pour raffiner l approche du seuil de pertinence : { K (F (d,t) a)2 P (a) e si F (d, t) < a g(f (d, t), a) = P (a) + Q(a) F (d,t) a sinon 1 a Quantificateurs linguistiques Ces poids sur les termes d une requête sont complexes à utiliser. En effet, ils requièrent la quantification de l importance de concepts qualitatifs et vagues. De plus, comme nous l avons vu, il existe une certaine ambiguïté dans l interprétation de ces poids, et l utilisateur doit donc bien connaître le modèle utilisé. Afin de simplifier l utilisation de tels poids, on peut avoir recourt à des poids et variables linguistiques [Zadeh, 1975, Bordogna et Pasi, 1993]. Ainsi, l utilisateur peut quantifier les termes de la requête non plus avec des poids numériques, mais avec des expressions linguistiques comme important, elles-mêmes modulées par des opérateurs tels que très ou assez. Cependant, le problème de la modélisation de la sémantique de la requête est reporté sur la fonction représentant le quantificateur flou µ important. On doit donc se demander si la présence d un terme quantifié dans requête doit être interprétée comme son inclusion dans le document ou la similarité des quantifications (importance relative ou description du document). Cette fonction est modélisée comme un modificateur de la fonction d évaluation g. Pour cela, on définit un intervalle de valeur dans lequel la contrainte du quantificateur est totalement respectée, qui joue ainsi le rôle de la valeur de a précédemment. Ainsi, dans l approche d importance relative, µ important est décrite par : µ important (F (d, t)) = max g(f (d, t), a) a [i,j] dans l approche considérant le poids comme un seuil étendu, on a [Kraft et al., 1995] : 1+i 2 ek (F (d,t) i)2 si F (d, t) < i 1+F (d,t) µ important (F (d, t)) = 2( ) si i F (d, t) j 1+j 1 + F (d,t) j si F (d, t) > j 2 2 et en le considérant comme une description de l idéal [Bordogna et Pasi, 1993] : K (F (d,t) i)2 e si F (d, t) < i µ important (F (d, t)) = 1 si i F (d, t) j K (F (d,t) j)2 e si F (d, t) > j

73 2.3. RECHERCHE D INFORMATION FLOUE 73 Les modificateurs comme très sont obtenus en déplaçant les bornes i, j de l intervalle, vers 1 pour augmenter l impact du quantificateur, vers 0 pour le diminuer. L intervalle final ne varie qu avec le quantificateur utilisé et les modificateurs appliqués, et est donc indépendant des termes utilisés dans la requête Opérateurs d agrégation L autre aspect de la flexibilité des requêtes est l agrégation des critères élémentaires de recherche. On doit donc définir une fonction de [0, 1] n [0, 1] qui retourne la valeur de pertinence d un document (RSV ) en fonction d une requête de n termes pondérés, les poids pouvant être numériques ou linguistiques. Afin de préserver un homomorphisme entre l évaluation d un seul critère pondéré et celle d une requête booléenne complexe, on doit d abord évaluer chaque terme pondéré indépendamment des autres, puis les agréger selon la structure de la requête [Cater et Kraft, 1989]. Les conjonctions et disjonctions sont généralement modélisées à l aide de t-normes et de t-conormes respectivement [Yager, 1988, Dubois et Prade, 1985, Fodor et al., 1997]. On peut citer comme t-normes min(g 1, g 2 ), 1 min(1, (1 (1 g 1 ) w + (1 g 2 ) w ) 1/w ) pour w 1, max(g 1 + g 2 1, 0), ou encore g 1 g 2. Parallèlement, max(g 1, g 2 ), min(1, (g1 w + gw 2 )1/w ), min(1, g 1 + g 2 ) ou g 1 + g 2 g 1 g 2 sont des exemples de t-conormes. Généralement, les systèmes de recherche d information utilisent le min et le max pour modéliser la conjonction et la disjonction, la négation utilisant le complément à 1. Une alternative à la négation est proposée dans [Yager et Filev, 1994] sous la forme de (1 g w ) 1/w. Bien que ces approches floues des opérateurs booléens permettent une meilleure expression des besoins de l utilisateur, la formulation de telle requête pour un non-expert demeure une tâche complexe. Des variantes sur les opérateurs d agrégation ont donc été proposées afin de la faciliter. Ainsi [Harashi et al., 1992, Sanchez, 1989] définissent des opérateurs intermédiaires entre le ET et le OU, et [Eastman et Nakkouzi, 1987] considèrent les négations dans les requêtes imprécises. Les relations d agrégation entre les critères de la requête peuvent aussi être définies de manière flexible par des opérateurs linguistiques, facilitant ainsi l utilisation par un nonexpert [Bordogna et Pasi, 1995b]. Cette approche utilise les opérateurs OWA 6 [Yager, 1988] pour définir des variables linguistiques telles que «la plupart» ou «au moins k», qui sont alors des intermédiaires entre le ET («tous») et le OU («au moins 1»). Par exemple, 6 Ordered weighted averaging operators

74 74 CHAPITRE 2. RECHERCHE D INFORMATION le moteur de recherche Google utilise par défaut une agrégation de type «la plupart». Il classe d abord les documents contenant tous les termes de la requête, puis ceux n en contenant que n 1, etc. Cette approche simplifie grandement la tâche de l utilisateur. En effet, une agrégation d au moins trois termes parmi quatre s écrit beaucoup plus simplement que les quatre disjonctions de trois conjonctions qu elle implique dans le modèle booléen. Ainsi, un opérateur «au moins k» est défini par un OWA ayant un vecteur de pondération W au moins k avec w k = 1, modélisant donc un seuil strict sur le nombre k de critères à satisfaire. De même, «presque k», défini par W presque k avec w i = i P k j=1 j pour i k et w i = 0 si i > k, modélise un seuil flou sur k. Ainsi, même si moins de k critères sont satisfaits, la requête globale a quand même un certain degré de satisfaction. Enfin, pour l opérateur «plus de k», le vecteur est défini par w i = n i+1 P n k j=1 j pour i > k et w i = 0 pour i k. Ici, la satisfaction globale est d autant plus élevée que le nombre de critères satisfaits est plus grand que k. Les opérateurs d agrégation pouvant être imbriqués, la satisfaction globale de la requête est calculée en agrégeant récursivement les critères de recherche élémentaires. De plus, ces opérateurs peuvent s appliquer aussi bien sur des critères pondérés que non pondérés. Il est ainsi possible de définir facilement des requêtes flexibles, beaucoup moins strictes que les requêtes booléennes classiques, qui permettent de trier les résultats obtenus selon leur degré de satisfaction global à la requête Amélioration du résultat par les associations floues Les méthodes associatives utilisent des thésaurus et des pseudo-thésaurus flous afin d étendre le nombre de termes, que ce soit de la requête ou de l index, en tenant compte de la variation de leur pertinence dans la représentation d un concept de la requête ou du sujet du document. Les techniques de classification floue sont utilisées quant à elles pour étendre l ensemble des documents résultat de la requête par des documents associés, en fonction de la pertinence du document lui-même. Le principe des systèmes de recherche associatifs est de permettre de retrouver des documents n étant pas directement indexés par les termes de la requête. Pour cela, on définit des relations floues entre deux ensembles X et Y comme f : X Y [0, 1]. Différents types de relations sont utilisés en recherche d information. Typiquement, on utilise des relations entre les termes de l index ou de la requête (thésaurus) ou entre les documents (classification).

75 2.3. RECHERCHE D INFORMATION FLOUE Thésaurus flou Un thésaurus est utilisé pour représenter différents types de relations entre les termes d un vocabulaire, comme il a été décrit en section Dans le cas des thésaurus flous, les relations représentées sont pondérées [Miyamoto, 1990a, Miyamoto, 1990b, Neuwirth et Reisinger, 1982]. Ainsi, avec T l ensemble des termes et C l ensemble des concepts, on définit un thésaurus flou par les ensembles flous des concepts h(t) : h(t) = {(c, t(c)) c C} où t(c) est le degré avec lequel le terme t est relié au concept c. La relation de synonymie est alors représentée par une s-similarité entre deux termes t 1 et t 2 définie par : s(t 1, t 2 ) = M(h(t 1) h(t2)) M(h(t 1 ) h(t 2 )) où M est une mesure, typiquement la cardinalité des ensembles flous. Cette définition vérifie les propriétés : Ainsi : si t 1 et t 2 sont des synonymes parfaits, on a h(t 1 ) = h(t 2 ) et donc s(t 1, t 2 ) = 1 si t 1 et t 2 ne sont pas sémantiquement liés, on a h(t 1 ) h(t 2 ) = et s(t 1, t 2 ) = 0 t 1, t 2 T, s(t 1, t 2 ) = s(t 2, t 1 ) si t 1 est plus similaire à t 3 qu à t 2, alors s(t 1, t 3 ) > s(t 1, t 2 ) La spécialisation représente le degré d inclusion des concepts représentés par les termes. ayant les propriétés : nt(t 1, t 2 ) = M(h(t 1) h(t 2 )) M(h(t 1 )) si le concept de t 1 est totalement inclus dans celui de t 2, alors h(t 1 ) h(t 2 ) et donc nt(t 1, t 2 ) = 1 si t 1 et t 2 ne sont pas sémantiquement liés, on a h(t 1 ) h(t 2 ) = et nt(t 1, t 2 ) = 0 si l inclusion du concept de t 1 dans celui de t 3 est plus grande que dans celui de t 2, alors nt(t 1, t 3 ) > nt(t 1, t 2 ) Si M est la cardinalité, on a donc : s(t 1, t 2 ) = nt(t 1, t 2 ) = M k=1 min(t 1(c k ), t 2 (c k )) M k=1 max(t 1(c k ), t 2 (c k )) M k=1 min(t 1(c k ), t 2 (c k )) M k=1 t 1(c k ) (2.5) (2.6)

76 76 CHAPITRE 2. RECHERCHE D INFORMATION Par analogie, on définit un pseudo-thésaurus en remplaçant l ensemble des concepts par l ensemble des documents D [Miyamoto et Nakayama, 1986]. Ainsi, l ensemble flou des documents indexés par le terme t est décrit par : h(t) = {(d, t(d)) d D} où t(d) = F (d, t) est le poids de l index comme défini précédemment. Dans ce contexte, la similarité et la spécialisation sont décrites par : s(t 1, t 2 ) = nt(t 1, t 2 ) = M k=1 min(f (t 1, d k ), F (t 2, d k )) M k=1 max(f (t 1, d k ), F (t 2, d k )) M k=1 min(f (t 1, d k ), F (t 2, d k )) M k=1 F (t 1, d k ) (2.7) (2.8) Avec cette modélisation, les degrés s et nt dépendent de la co-occurrence des termes dans l ensemble des documents. Ainsi, l ensemble des termes indexés d un document peut être étendu avec les termes ayant une similarité ou une spécialisation avec ceux-ci supérieure à un seuil donné. Afin de réduire les différences introduites dans les relations par les mesures statistiques sur les termes, une approche propose d utiliser des mots-clés hiérarchiques des documents pour calculer les relations du pseudo-thésaurus [Ogawa et al., 1991]. Une approche probabiliste des relations entre termes a également été proposée dans [van Rijsbergen, 1979]. En effet, en supposant le thésaurus dépendant de la collection, si un terme est un bon discriminant entre documents pertinents et non pertinents, alors un terme proche sera aussi un bon discriminant. La proximité est ici déterminée par une mesure statistique de la co-occurrence. Enfin, on peut utiliser les mesures F (d, t) pour déterminer une valeur de lien sémantique entre termes [Salton et al., 1994, Kohout et al., 1983]. Ainsi, la synonymie et la spécialisation sont définies par : µ synonyme (t 1, t 2 ) = min(f (d, t 1 ) F (d, t 2 ), F (d, t 1 ) F (d, t 2 )) d D µ spécialise (t 1, t 2 ) = F (d, t 1 ) F (d, t 2 ) d D où F (d, t 1 ) F (d, t 2 ) est une implication floue, définie par exemple par max(1 F (d, t 1 ), F (d, t 2 )) ou min(1, 1 F (d, t 1 ) + F (d, t 2 )).

77 2.4. CONCLUSION Classification floue Une autre approche permettant d étendre les résultats d une recherche est basée sur la classification des documents [Kamel et al., 1990, Miyamoto, 1990b]. Cette méthode permet de partitionner un ensemble de documents en groupes de documents proches en terme d une mesure de similarité définie pour chaque paire de documents. Ces groupes sont ensuite utilisés comme index pour la recherche d information. Ainsi, les documents appartenant au même groupe que le document indexé directement par les termes de la requête sont également considérés comme pertinents. Les mesures de similarité utilisées sont généralement établies empiriquement ou sont basées sur des heuristiques [Salton et McGill, 1983, Sparck Jones, 1971]. Dans le contexte classique, on peut utiliser les mesures déjà définies (cosinus, Dice, Jaccard) pour définir une distance entre les représentations des documents dans l espace des termes. Des techniques de classifications telles que l ACP ou les k-moyennes peuvent ensuite être utilisées pour obtenir des classes de documents semblables. Dans le cadre des ensembles flous, la classification peut être considérée comme une association floue. En définissant la fonction d appartenance à l ensemble des termes représentant le document d par le poids dans l index d(t) = F (d, t), la relation de similarité précédente peut être utilisée comme relation pour la classification des documents. Ainsi : s(d 1, d 2 ) = M k=1 min(f (d 1, t k ), F (d 2, t k )) M k=1 max(f (d 1, t k ), F (d 2, t k )) où M = T. Dans la classification floue, les documents possèdent un degré d appartenance à chaque sous-ensemble flou de la collection, et la superposition complète des groupes est possible. Une version simplifiée est souvent utilisée. Dans ce cas, un seuil limitant le nombre de documents dans chaque groupe est mis en place, permettant ainsi de contrôler le degré de flou de la classification. 2.4 Conclusion Avec l objectif de représenté de manière succincte mais fidèle l information contenue dans un document textuel non structuré, la recherche d information à rapidement eu recourt aux techniques issues de la logique floue afin de mieux représenter les imprécisions

78 78 CHAPITRE 2. RECHERCHE D INFORMATION inhérentes au langage naturel. Cette utilisation a aussi profité au pouvoir d expression de l utilisateur, en lui permettant de formuler des requêtes plus flexible et correspondant mieux à son besoin en information. Cette extension du modèle classique s applique à la formulation des requêtes, en permettant de définir des opérateurs moins stricts que le modèle booléen classique, ainsi que des variables linguistiques, plus faciles à maîtriser par l utilisateur. Elle permet également de définir une préférence entre les termes de la requête à l aide de poids numérique ou de variables linguistiques. Enfin, la modélisation des documents sous forme d ensemble flous permet une représentation plus fidèle de l information imprécise et vague contenue dans les documents textuels. Dans la suite de ce travail, nous nous proposons d exploiter ces propriétés, afin de mieux gérer l imprécision et l hétérogénéité du vocabulaire de documents provenant de sources différentes. En effet, la représentation des documents et des requêtes comme des ensembles flous permet de calculer des mesures d inclusions et d intersections de ceux-ci, et ainsi d estimer dans quelle mesure le document répond à la requête. Nous allons définir des relations entre les termes eux-mêmes, basées sur les propriétés de la théorie des possibilités. Ces relations nous permettrons de gérer des vocabulaires hétérogènes pour les documents, et d élaborer un système d appariement qualitatif entre des requêtes flexibles, utilisant des termes pondérés et les documents, eux aussi considérés comme des ensembles flous.

79 Chapitre 3 Du filtrage flou au filtrage symbolique qualitatif 3.1 Introduction Dans les sources de données, même standardisées, l information est souvent représentée par des mots ou des termes, aussi bien que par des valeurs numériques. De plus, lorsque l information provient de sources différentes, les vocabulaires utilisés pour la représenter sont souvent hétérogènes. Les catégories ou les termes utilisés par une des sources pour représenter un concept ne correspondent pas forcément aux catégories et termes utilisés par les autres sources. Ce problème se pose aussi en recherche d information, quand les documents de la collection sont d auteurs différents, voire appartiennent à des domaines d application différents, et donc les vocabulaires utilisés sont différents. De plus, même dans le cas d une source d information unique, les requêtes peuvent ne pas être formulées en des termes correspondant exactement à ceux utilisés dans la base de données ou le document, puisque l utilisateur ne connaît pas forcément a priori le vocabulaire utilisé dans la source d information. Ce problème d hétérogénéité des sources se pose également à plus grande échelle lors de l utilisation de sources d information utilisant des langues différentes (approche multilingue). En outre, les préférences de l utilisateur doivent être prises en compte dans le processus d évaluation des requêtes, lorsque celles-ci peuvent être flexibles ([Andreasen et al., 1997, Kraft et al., 1999] par ex.) Aussi bien dans le domaine des bases de données que pour la recherche d information, l utilisation de techniques basées sur les ensembles flous permet une modélisation plus 79

80 80 CHAPITRE 3. FILTRAGE QUALITATIF SYMBOLIQUE fidèle de l information, et permet à l utilisateur de créer des requêtes plus flexibles, qui représentent mieux ses besoins. Ces techniques peuvent s appliquer à des bases de données classiques ou floues, contenant elles-mêmes des données imprécises, tout comme à des données documentaires. Dans le filtrage flou en particulier, chaque terme de la requête ou de l information est représenté par un ensemble flou. Ces ensembles sont définis sur le même domaine, et peuvent ainsi être comparés par les deux mesures de possibilité et de nécessité, conservant ainsi l asymétrie entre le besoin d information et l information elle-même. Afin de pouvoir gérer des requêtes exprimées à l aide de termes linguistiques et les évaluer sur des données du même type, nous nous proposons d adapter le filtrage flou à l utilisation de labels symboliques. Ainsi, la correspondance entre les termes de la requête et des données ne nécessite plus une identité parfaite, mais plutôt de l ordre d une similarité sémantique, calculée par des relations pondérées définies entre ces termes, afin d obtenir un processus d appariement qualitatif. Il est ainsi possible de faire correspondre une requête à une donnée même si celle-ci ne correspond pas parfaitement à la requête, ce qui peut résoudre dans une certaine mesure le problème des vocabulaires hétérogènes. De plus, cette méthodologie permet la formulation de requêtes pondérées, plus à même de représenter les préférences de l utilisateur. Cette approche amènera à la définition d une ontologie possibiliste basée sur ces relations, afin de permettre une organisation et une hiérarchisation du vocabulaire utilisé. Dans la section 3.2, nous présenterons les concepts clés du filtrage flou qui servent de base à notre approche. La section 3.3 présentera ensuite le filtrage qualitatif, qui définit les relations de possibilités et de nécessité entre des termes purement linguistiques ainsi que les contraintes s y appliquant. Enfin, la section 3.4 définira des ontologies possibilistes, puis la méthode utilisée pour effectuer l appariement qualitatif entre les requêtes et l information. 3.2 Le filtrage flou Le filtrage flou, ou fuzzy pattern matching, est une technique d appariement développée dans le cadre de la théorie des ensembles flous [Cayrol et al., 1982, Dubois et al., 1988, Dubois et Prade, 1995]. Elle est utilisée dans la formulation de requêtes flexibles à l aide d ensembles flous, celles-ci devant être évaluées sur des données imprécises, elles aussi représentées par des ensembles flous.

81 3.2. LE FILTRAGE FLOU 81 Le filtrage flou calcule ainsi dans quelle mesure il est possible et certain que les données, représentées par des attributs imprécis, satisfassent une requête flexible, exprimée par des ensembles flous représentant les préférences de l utilisateur. On appelle pattern un ensemble de besoins, représentés par des étiquettes, ou labels, encodant des propriétés sur le domaine des attributs. Par exemple, le pattern «bon marché et grand», associé à une base de données contenant des descriptions de maisons à louer, est sensé représenter le besoin que les attributs «prix» et «taille» de la maison recherchée par l utilisateur, correspondent respectivement à bon marché et grand L idée de base est d associer à chaque étiquette d un pattern une fonction d appartenance à un ensemble flou, permettant ainsi de restreindre les valeurs qui sont plus ou moins compatibles avec la signification de l étiquette. Ces valeurs appartiennent à un domaine particulier, correspondant au domaine des attributs auxquels l étiquette fait référence. Ainsi, dans notre exemple, bon marché et grand sont associés à des fonctions d appartenance définies sur les domaines de leurs attributs respectifs (prix et taille). Ces domaines peuvent être aussi bien représentés par des intervalles numériques que par des ensembles discrets de valeurs spécifiques. De plus, les données sont également représentées par des listes d étiquettes dont les composants sont associés à des ensembles flous. Ces ensembles flous sont vus comme des distributions de possibilités modélisant l imprécision inhérente aux données, et réduisant les valeurs plus ou moins possibles des attributs considérés, ceux-ci pouvant être incertains. Plus précisément, la distribution de possibilité associée à une étiquette dans la liste des besoins correspond à un seul élément, imprécis, du domaine de l attribut concerné, supposé monovalué. L asymétrie de la correspondance entre le besoin (pattern) et les données est préservée par cette convention de modélisation. En effet, un pattern flou représente une classe d objets décrite de manière imprécise ; cette classe étant le résultat recherché. Ainsi, soient T et T respectivement une étiquette de pattern (c est-à-dire un besoin) et un élément appartenant au même attribut monovalué (c est-à-dire une donnée), que l on cherche à comparer. T et T appartiennent au même domaine U englobant leurs sens. Soit µ T la fonction d appartenance associée à l étiquette T et π T la distribution de possibilité correspondant à T. Toutes deux sont des fonctions de U dans [0, 1]. Soit u un élément de U. Alors, µ T (u) est le degré de compatibilité entre la valeur de u et la signification de T. En d autres

82 82 CHAPITRE 3. FILTRAGE QUALITATIF SYMBOLIQUE termes, µ T (u) = 1 représente une compatibilité totale avec T et µ T (u) = 0 représente une incompatibilité totale avec T. Parallèlement, π T (u) est le degré de possibilité que u soit la valeur de l attribut décrivant l objet associé à l élément de donnée. T est un ensemble flou des valeurs possibles, dont une seule est la vraie valeur de l attribut incertain, alors que T est un ensemble flou des valeurs plus ou moins compatibles. Plus particulièrement, π T (u) = 1 signifie que u est totalement possible, alors que π T (u) = 0 signifie que u est totalement impossible comme valeur d attribut pour l objet auquel correspond l élément. Cependant, il peut exister des valeurs u and u distinctes telles que π T (u) = π T (u ) = 1. Dans la suite, µ T et π T sont toujours supposés être normalisés, c est-à-dire qu il y a toujours une valeur totalement compatible avec T, et une valeur totalement possible dans T, soit max U µ T (u) = 1 et max U π T (u) = 1 Deux mesures scalaires sont utilisées pour estimer la compatibilité entre un élément de requête T (atome de pattern) et sa contrepartie T dans les données (élément de la liste) : un degré de possibilité Π(T ; T ) et un degré de nécessité N(T ; T ) définis par [Cayrol et al., 1982] : Π(T ; T ) = sup min(µ T (u), π T (u)), (3.1) u U N(T ; T ) = 1 Π(T ; T ) = inf u U max(µ T (u), 1 π T (u)). (3.2) La mesure de possibilité Π(T ; T ) estime à quel point il est possible que T et T fassent référence à la même valeur u. Π(T ; T ) est un degré d intersection de l ensemble flou des valeurs compatibles avec T, avec l ensemble flou des valeurs possibles de T. La mesure de nécessité N(T ; T ) estime à quel point il est nécessaire, ou certain, que la valeur à laquelle T correspond soit parmi celles compatibles avec T. N(T ; T ) représente l inclusion des valeurs possibles de T dans l ensemble des valeurs compatibles avec T. Les cas limites, lorsque Π(T ; T ) et N(T ; T ) ont pour valeur 0 et 1 sont intéressants à examiner afin d expliciter la sémantique de ces indices. Pour tout ensemble flou F sur U, soient F = {u U µ F (u) = 1} le noyau de F, et s(f ) = {u U µ F (u) > 0} son support. On peut vérifier que [Dubois et al., 1988] : 1. Π(T ; T ) = 0 ssi s(t ) s(t ) =,

83 3.2. LE FILTRAGE FLOU Π(T ; T ) = 1 ssi T T, 3. N(T ; T ) = 1 ssi s(t ) T, 4. N(T ; T ) > 0 ssi T s(t ) (inclusion stricte). On peut montrer que Π(T ; T ) N(T ; T ). On remarque que lorsque T est précis, c est-à-dire que : t, π T (t ) = 1 et u t, π T (u) = 0 que l on peut écrire T = {t }, alors Π(T ; {t }) = N(T ; {t }) = µ T (t ). Il est à noter aussi que pour µ T = π T, Π(T ; T ) = 1, et si T est un ensemble flou, 1 > N(T ; T ) 1. Ceci confirme le fait que même si µ 2 T = π T, on ne peut être totalement certain qu une valeur restreinte par la distribution de possibilité π T est incluse dans le noyau de l ensemble flou T. En particulier, pour les fonctions d appartenance continues sur des domaines réels, (3.2) donne N(T ; T ) = 1 2 si µ T = π T. En effet, il y a des valeurs possibles à un degré 0.5, et qui ne sont que dans les coupes de niveau 0.5 et moins de T, c est-à-dire dans {u, µ T (u) 1 2 }. Les mesures élémentaires de possibilité et nécessité sont agrégées séparément afin d obtenir deux mesures globales entre le pattern complet et l élément de donnée complet. Quand le pattern exprime une conjonction de besoins élémentaires, «T 1 et... et T n», cette agrégation est effectuée en utilisant l opérateur min et préserve les significations respectives des mesures en terme de possibilité et de nécessité. En effet, comme déjà indiqué au 1.3.2, nous avons [Dubois et al., 1988] : Π(T 1 T n ; T 1 T n ) = min i=1,,n Π(T i ; T i ) N(T 1 T n ; T 1 T n ) = min i=1,,n N(T i ; T où T i et T i sont supposés être définis sur le même domaine U i, et ou est le produit cartésien définis pour deux ensembles flous F i et F j par : u i U i, u j U j, µ Fi F j (u i, u j ) = min(µ Fi (u i ), µ Fj (u j )) i ) Le filtrage flou classique tel que nous venons de le présenter est utilisé dans la suite comme base pour définir le filtrage qualitatif. Ce modèle a pour but de permettre de calculer une correspondance floue, par des degrés de possibilité et de nécessité, entre des données purement linguistiques, représentées par des termes ou des concepts. Cette correspondance sera interprétée comme une représentation formelle des relations sémantiques entre ces concepts, comme nous allons le décrire à présent.

84 84 CHAPITRE 3. FILTRAGE QUALITATIF SYMBOLIQUE 3.3 Filtrage qualitatif Les ensembles flous tels que nous venons de les présenter permettent donc de définir une représentation des données numériques par des termes linguistiques, par le biais de fonctions d appartenance, et le filtrage flou donne les outils pour calculer les correspondances entre ces termes. Cependant, tous les termes utilisés dans la description de l informations ne peuvent pas être représentés sur un domaine numérique. La similarité entre ces termes est donc plus complexe à établir. Les mesures de similarité sémantique entre mots ont été abondamment étudiées dans la littérature sur la recherche d information, en utilisant par exemple des distances entre nœuds dans une taxinomie, ou basées sur une probabilité d information commune (par ex. [Resnik, 1999]). Dans le même esprit, une stratégie habituelle quand une requête échoue est de la remplacer par des requêtes similaires (par ex. [Bidault et al., 2002]), générées en utilisant des ontologies. Notre approche se base sur le filtrage flou pour calculer cette similarité. Nous considérons toujours que les étiquettes utilisées dans la formulation des requêtes et la représentation des données sont associées à des attributs bien identifiés, et donc sont définies sur des domaines déterminés. Les éléments de données sont donc décrits en termes d attributs i [1, n]. Pour chaque attribut i, T i est le vocabulaire qui lui est associé, c est-à-dire l ensemble des étiquettes pouvant s y rapporter. Plus précisément, T i = {t j i, j = 1, n(i)}, où est une étiquette (par exemple hôtel) pouvant être utilisée pour représenter la valeur de t j i l attribut i (par exemple le type d hébergement). À la différence du filtrage flou classique, les termes, et plus généralement les expressions symboliques ne sont pas associées à des représentations d ensembles flous, mais leurs significations sont mises en relation au travers d ontologies possibilistes O i pour chaque attribut i, selon l idée suggérée dans [Farreny et Prade, 1986]. Ainsi, les relations dans O i sont modélisées par des degrés de possibilité et de nécessité, pour deux étiquettes t j i et tk i : Π(t j i, tk i ) = Π(t k i, t j i ) représente dans quelle mesure tj i et t k i peuvent correspondre à la même chose. Une possibilité nulle signifie que les deux étiquettes ne représentent jamais la même chose. Si la possibilité est positive mais différente de 1, alors les deux termes peuvent avoir la même signification, mais que ce n est pas toujours le cas. N(t j i, tk i ) estime à quel point il est certain que t k i est une spécialisation de t j i. En particulier, N(t j i, tk i ) = N(tk i, tj i ) = 1 représente la synonymie parfaite. Si tj i spécialise parfaitement t k i, alors N(tk i, tj i ) = 1 Cependant, une valeur nulle n exprime que le manque total de certitude quant à la relation de spécialisation des deux termes. Cette relation n est pas symétrique.

85 3.3. FILTRAGE QUALITATIF 85 Ces mesures doivent satisfaire les propriétés suivantes : Propriété 1 Réflexivité : Π(t j i, tj i ) = 1 Propriété 2 Symétrie : Π(t j i, tk i ) = Π(t k i, t j i ) Propriété 3 Π(t j i, tk i ) N(tj i, tk i ), puisque la spécialisation implique que les sens se recoupent Propriété 4 N(t j i, tk i ) > 0 Π(t j i, tk i ) = 1. En effet, s il est nécessaire que t k i à t j i, alors, cela doit également être totalement possible. corresponde Propriété 5 Si les étiquettes sont précises, on a N(t j i, tj i ) = 1. Si leur sens est vague, on supposera N(t j i, tj i ) 1, en accord avec la situation du filtrage flou. 2 Ceci exprime l incertitude avec laquelle la requête (et donc l utilisateur) et la donnée (le responsable de la base) représente effectivement la même chose par le même terme. Deux personnes différentes n ont, par exemple, pas la même notion de ce qui est cher. Les informations de degré de possibilité et de nécessité figurant dans l ontologie ne sont en fait définies que sur un sous-ensemble du produit cartésien du vocabulaire T i T i. Elles peuvent cependant être complétées en utilisant les propriétés précédentes, ainsi que les deux formes de transitivité suivantes : N(t j i, th i ) min ( N(t j i, tk i ), N(t k i, t h i ) ), (3.3) Π(t j i, th i ) N(tj i, tk i ) Π(tk i, th i ). (3.4) où est définie par : { b si b > 1 a a b = 0 sinon L équation (3.3) représente la transitivité de la spécialisation [Rossazza et al., 1997]. La «transitivité hybride» (3.4) spécifie que si t k i spécialise t j i et si t k i et t h i peuvent représenter la même chose, alors les significations de t j i et t h i se recoupent aussi ; voir [Dubois et Prade, 1990b] pour une preuve de ( ). Le degré de certitude de la

86 86 CHAPITRE 3. FILTRAGE QUALITATIF SYMBOLIQUE synonymie de t j i et t h i peut se calculer comme min(n(t j i, th i ), N(th i, tj i )). En utilisant (3.3), on peut vérifier que ce degré est max-min transitif. En notant Sym(t 1, t 2 ) = min(n(t 1, t 2 ), N(t 2, t 1 )) le degré de certitude de la synonymie de t 1 et t 2, veut montrer que t 3, Sym(t 1, t 2 ) min(sym(t 1, t 3 ), Sym(t 3, t 2 )). On a : min(sym(t 1, t 3 ), Sym(t 3, t 2 )) = min(min(n(t 1, t 3 ), N(t 3, t 1 )), min(n(t 3, t 2 ), N(t 2, t 3 ))) = min(min(n(t 1, t 3 ), N(t 3, t 2 )), min(n(t 2, t 3 ), N(t 3, t 1 ))) min(n(t 1, t 2 ), N(t 2, t 1 )) Sym(t 1, t 2 ) Ainsi, les valeurs non spécifiées directement peuvent être déduites des propriétés et relations précédentes. Les valeurs inconnues après expansion sont considérées comme étant nulles. Le fait que la possibilité soit nulle par défaut correspond à une hypothèse de monde fermé, puisqu elle correspond au fait que les sens de deux termes ne se recoupent pas si ceci n est pas spécifié. Du point de vue pratique, et pour simplifier la manipulation des degrés, les évaluations seront considérées «au pire» et le sera souvent remplacé par une égalité. En pratique, les valeurs pour Π et N seront souvent binaires. Ceci permet notamment d utiliser des bases de connaissances définies de manière non floue, comme WordNet par exemple. Le cas binaire permet cependant de distinguer trois cas : 1. un des termes spécialise l autre : Π(t j i, tk i ) = N(t j i, tk i ) = 1 ou Π(t j i, tk i ) = N(t k i, t j i ) = 1 ; 2. les deux termes ont des sens se recoupant, mais ne sont pas synonymes : Π(t j i, tk i ) = 1 et N(t j i, tk i ) = N(tk i, tj i ) = 0 ; 3. les sens des deux termes sont totalement distincts : Π(t j i, tk i ) = N(t j i, tk i ) = N(t k i, t j i ) = 0. L introduction de valeurs intermédiaires permet de raffiner cette distinction. En tout état de cause, seul un nombre restreint de valeurs entre 0 et 1 seront généralement utilisées. Ceci permettra de distinguer en particulier entre le cas où un terme en spécialise un autre de manière sûre et totale, N(t j i, tk i ) = 1, et le cas où un terme en spécialise généralement un autre, N(t j i, tk i ) > 0. Le filtrage qualitatif nous permet donc de définir des relations sémantiques entre des concepts ou des termes. Dans la suite, nous allons utiliser ces relations, formalisées au sein d une ontologie possibiliste pour définir un processus d évaluation de requêtes.

87 3.4. ÉVALUATION DE REQUÊTES PAR ONTOLOGIES POSSIBILISTES Évaluation de requêtes par ontologies possibilistes Dans la section précédente, nous avons défini une méthode pour estimer dans quelle mesure deux termes correspondent au même concept, ou dans quelle mesure leurs sens sont inclus l un dans l autre. Ce type de relation entre termes n est pas sans rappeler les relations définies dans les ontologies ou les thésaurus, qui représentent les relations sémantiques entre des termes ou des concepts issus du langage naturel. En recherche d information par exemple, ce type de ressource est souvent utilisé afin d effectuer une expansion des termes de la requête avec les termes synonymes ou liés, afin d augmenter la couverture de la requête et retrouver ainsi plus de documents pertinents. Cette utilisation est aussi envisagée dans le monde des bases de données, pour fournir un vocabulaire contrôlé aux attributs textuels. Notre approche est cependant différente. En effet, notre propos est plutôt de définir des relations entre tous les termes de notre vocabulaire, au moyen de degrés de possibilité et de nécessité, et d utiliser ces relations ainsi que les propriétés de transitivités pour calculer directement le degré de pertinence entre le terme de la requête et l information recherchée. Ainsi, ces relations ne sont pas typées, comme dans les ontologies présentées dans la section Le type de la relation est implicitement exprimé par les degrés de possibilités et de nécessité entre deux termes. L ensemble des liens établis au sein d une ontologie possibiliste, permet de calculer ce degré même si le terme recherché n est pas directement présent dans la représentation de l information, et cela sans passer par une phase de reformulation ou d expansion. En effet, la démarche classique pour utiliser ce type de ressources est d utiliser les termes reliés pour reformuler la requête en les lui ajoutant. Notre approche a pour but d utiliser directement les relations dans le calcul des degrés entre termes, plutôt que de reformuler les requêtes. De nombreuses valeurs des degrés de possibilités et de nécessité étant nulles dès qu un vocabulaire devient assez conséquent, et de nombreuses valeurs pouvant également être déduites des relations directes par transitivité, on ne représente que les liens entre termes les plus directs, ce qui aboutit à une représentation semblable aux thésaurus ou ontologies courants. Ainsi, notre procédure d évaluation sera basée sur ce réseau de relations entre les termes du vocabulaire, au moyen duquel les degrés de nécessité et de possibilité entre les termes de la requête et ceux des données seront établis. Ces différents degrés seront ensuite agrégés pour obtenir des degrés de pertinences globales entre la requête et l information obtenue. Nous allons donc tout d abord présenter le modèle adopté pour ces ontologies possibilistes, en les comparant avec d autres approches exploitant de semblables réseaux de

88 88 CHAPITRE 3. FILTRAGE QUALITATIF SYMBOLIQUE termes, puis nous détaillerons la représentation adoptée pour une requête et pour l information stockée, de manière générale, ainsi que la procédure d appariement permettant de calculer dans quelle mesure l information satisfait à la requête Modèle d ontologies possibilistes Les mesures et propriétés présentées précédemment permettent de définir une ontologie possibiliste. Dans une telle ontologie, les relations sémantiques entre les termes sont modélisées en terme de mesures de possibilité et de nécessité entre les termes ou concepts. Ainsi, si on considère les données comme étant décrites par n éléments, on définira n ontologies, spécifiant ainsi un vocabulaire prédéfini pour chaque élément. Cependant, ceci ne s applique bien évidemment qu aux éléments définis sur un domaine non numérique. Selon le type de données que l on cherche à décrire, ces éléments pourront être par exemple des attributs d une base de données, des champs de méta-données d un document ou les termes de l index d un document. Soit Ω l ensemble des ontologies utilisées pour décrire l ensemble des domaines des données : Ω = {O i i = 1,..., n} O i = {t j i T i}, i 0, 1 avec comme précédemment T i le vocabulaire associé à l élément i. Les relations des ontologies sont modélisées par les degrés de possibilité et nécessité entre les termes du vocabulaire. Un exemple de deux ontologies simplifiées pour des types d hébergements de vacances et des lieux sont présentées respectivement en figures 3.1 et 3.2. Ces réseaux sont des représentations simplifiées de la perception des relations de similarités entre les termes. Ainsi, elles sont sensées représenter la connaissance du domaine que possède l utilisateur du système, ainsi que la personne ayant défini les données. Comme cela sera présenté plus loin, le modèle permet de prendre en compte la différence d interprétation d un même concept entre ces deux personnes. En outre, ces ontologies sont incomplètes, et ne servent ici qu à l illustration de notre approche. Seuls les liens ou relations directs sont représentés dans l ontologie. En effet, comme nous l avons vu précédemment, il est possible de retrouver les valeurs implicites des relations entre des termes en utilisant les propriétés et les contraintes s y appliquant. Notons que des mots comme bungalow et auberge ne sont considérés que comme des synonymes possibles, ou au moins comme des entités pouvant offrir les mêmes services.

89 3.4. ÉVALUATION DE REQUÊTES PAR ONTOLOGIES POSSIBILISTES 89 hébergement hôtel 0.6 bungalow auberge camping hôtel appartement motel 1 pension hôtel de luxe hôtel résidentiel motor inn emplacement 0.4 pour caravanes N(A;B) B Π(A;B) B A A Figure 3.1 Ontologie des hébergements pays ensoleillé Grande Bretagne pays méditerranéen Angleterre Grèce France 1 1 Espagne Canaries 1 N(A;B) B Π(A;B) B A A Figure 3.2 Ontologie des lieux La valeur de possibilité entre ces deux termes ne permet pas d inférer quoi que ce soit sur la valeur de nécessité, et il peut donc exister des bungalows qui ne sont pas des auberges. En revanche, la nécessité réciproque entre motel et motor inn étant de 1, ces termes sont considérés comme de vrais synonymes ayant exactement le même sens. Dans le cas de l Angleterre, dans l ontologie des lieux, les degrés de nécessité dissymétrique illustrent l ambiguïté du langage naturel. En effet, dans le langage courant, il n est pas rare de parler de l «Angleterre» pour qualifier la Grande Bretagne. Ainsi, ces deux termes peuvent, à tort, être considérés comme presque synonymes. Même si cette information est fausse du point de vue géo-politique, elle représente l information telle que l utilisateur se la représente. Il est donc intéressant de prendre en compte cette fausse synonymie, afin de mieux correspondre à la connaissance de l utilisateur, et ainsi mieux répondre à ses attentes. Il est

90 90 CHAPITRE 3. FILTRAGE QUALITATIF SYMBOLIQUE cependant certain que l Angleterre est incluse dans la Grande Bretagne, d où la nécessité de 1. Les valeurs des degrés de possibilité et nécessité représentées dans de telles ontologies sont qualitatives, et déterminées d après la sémantique des termes mis en jeu. Par exemple, la valeur N(hôtel, motel) = 0.6 signifie que l on suppose qu il existe des motels qui ne peuvent pas être considérés comme étant des hôtels, mais que généralement, les motels sont une catégorie d hôtels. Ainsi, malgré l utilisation de valeurs numériques pour les degrés, seul l ordre induit entre elles est important, le but final étant de trier les résultats d une recherche, et non d obtenir une valeur absolue de correspondance. En pratique, seul un nombre réduit de valeurs sera utilisé, par exemple {0, 0.4, 0.6, 1}. Dans l optique de l établissement de l ontologie par un expert humain, il est même envisageable d utiliser des variables linguistiques, comme «très similaire» ou «pas du tout similaire» afin de spécifier la valeur des relations, ce type de variables étant plus facile à appréhender pour un humain. Construire de telles ontologies peut être une tâche complexe, spécialement si elles sont élaborées à la main. L utilisation d ontologies existantes, comme Word- Net [Miller et al., 1990] peut être un recours. Ainsi, les relations représentées dans ce type d ontologies, comme l hyperonymie ou la synonymie, peuvent être mises en correspondance avec des degrés de nécessité. D autres relations, telles que la méronymie qui représente la composition d éléments (chambre pour hôtel par ex.), ou du type «voir aussi» peuvent être interprétées en terme de degré de possibilité. Il est également possible de construire une ontologie par une analyse statistique des co-occurrences des termes dans un corpus pour en dégager des relations (par ex. [Crouch, 1990]) Appariement possibiliste entre requête et information Notre but est de proposer une méthode pouvant exploiter une ontologie de ce type conjointement avec les formules de transitivité (3.4)-(3.3) afin d effectuer un appariement entre une requête complexe et flexible et une information, afin d obtenir des degrés de possibilité et de nécessité représentant dans quelle mesure il est possible et certain que cette requête soit satisfaite par cette information. Pour cela, une représentation adéquate de la requête et de l information doivent être formulée, ainsi qu un processus de correspondance. De manière générale, la requête comme l information seront représentées comme des conjonctions de disjonctions d atomes pouvant être pondérées aux deux niveaux d imbrication. Les atomes sont considérés comme le plus petit élément d information sur lequel

91 3.4. ÉVALUATION DE REQUÊTES PAR ONTOLOGIES POSSIBILISTES 91 peut porter la requête, ou pouvant servir à représenter l information stockée. Le type de ces atomes peut varier selon la source de l information. Ainsi, pour une base de données, ils représenteront la valeur des attributs, pouvant être des valeurs numériques ou textuelles, tandis que dans le cadre de la recherche documentaire, ils représenteront les termes issus de l indexation d un document. Ainsi, en reprenant les notations présentées en section 3.2, un élément d information sera représenté formellement comme : T = i 1;n T i et j, T i = j {t i }, j t i T i De manière plus générale, les éléments de la conjonction ne seront pas représentés par un singleton, mais par une disjonction pondérée de termes, pour représenter l incertitude se rapportant aux données, si nécessaire. T i = (λ k i, t k k D(T i ) avec D(T i ) l ensemble des termes du domaine de l attribut i. Les requêtes étant représentées de la même manière, une notation analogue est utilisée. Ainsi, une requête R est un ensemble flou {T i } représentant une conjonction des besoins élémentaires de l utilisateur. Cependant, on autorise des disjonctions pondérées de termes au niveau de chaque conjonction dans les requêtes. En effet, l utilisation de valeurs composées permet de définir de nouveaux concepts. Ainsi, en se basant sur le vocabulaire défini dans l ontologie de la figure 3.1, l utilisateur peut exprimer sa définition d un hébergement confortable comme : (0.5, bungalow) (0.7, motel) (0.8, hôtel appartement) (1, hôtel de luxe) La valeur T i de l élément i pour une requête s exprime ainsi à l aide d une disjonction de termes pondérés. La requête forme générale d une requête est alors : R = i A(R) T i, où T i = j R(T i ) i ) (λ j i, tj i ), tj i T i A(R), étant l ensemble des éléments pris en compte, qui est un sous-ensemble des éléments utilisés pour décrire les données, et R(T i ) l ensemble des termes de R pour l élément i. Le poids λ j i [0, 1] représente la priorité entre les termes. On suppose que max j λ j i = 1, c est à dire qu il y a au moins un terme dans la requête satisfaisant totalement les

92 92 CHAPITRE 3. FILTRAGE QUALITATIF SYMBOLIQUE besoins de l utilisateur. Un poids non exprimé est supposé égal à 1. À ce niveau, la priorité est représentée par une valeur numérique, mais celle-ci peut être dérivée d une variable linguistique, autorisant ainsi des requêtes T i du type «hôtel ou à la rigueur motel» De plus, on peut introduire des niveaux d importance entre les éléments de la requête. Soit ω i l importance de ce qui est requis quant à la valeur de l élément i. La requête est alors de la forme : R = i A(R) (ω i, T i ) avec T i comme précédemment. ω i est soumis aux même contraintes que λ j i. L évaluation d une requête consiste à retrouver toutes les données T telles que Π(R, T ) ou N(R, T ) soient non nulles, en calculant les conjonctions pondérées : avec Π(R, T ) = min i A(R) max(1 ω i, π i ), (3.5) N(R, T ) = min max(1 ω i, ν i ). (3.6) i A(R) π i = max min(λ j i, Π(tj i, k t i )), j R(T i ) ν i = max j R(T i ) min(λj i, N(tj i, t k i )). π i et ν i sont des disjonctions pondérées reflétant les disjonctions figurant dans la requête au niveau de chaque élément des conjonctions, d où l utilisation de l opérateur max. De même, la requête étant considérée comme une conjonction sur ces éléments, c est l opérateur min qui est utilisé dans l agrégation finale. Ces formules sont dérivées directement des équations (1.1) et (1.2) de la page 25. Les valeurs de Π(R, T ) et N(R, T ) estiment respectivement dans quelle mesure la donnée T correspond possiblement et certainement à la requête R. Les résultats sont classés d abord en fonction des valeurs décroissantes de N(R, T ), puis en fonction des valeurs décroissantes de Π(R, T ) pour les T ayant les mêmes valeurs de N(R, T ). Notons que si R contient une disjonction de termes redondants selon l ontologie, c est à dire R = t t et N(t, t ) = 1 dans l ontologie, il peut être vérifié que l évaluation des requêtes t et t t sur une base de données donne le même résultat. En effet, on souhaite que l expansion de la requête par l ajout de termes plus spécifiques, dans une disjonction, n ait pas de conséquence.

93 3.5. AUTRES APPROCHES UTILISANT DES ONTOLOGIES 93 Dans le cas d une représentation de l information imprécise, et contenant donc des disjonctions, l évaluation des degrés de possibilité et nécessité au niveau de l attribut se fait par : Π(T i, T i ) = max j,k min(λj i, λ k i, Π(t j i, t k i )) (3.7) N(T i, T i ) = max min(λ j i, min max(1 λ k i, N(t j j R(T i ) k D(T i ) i, k t i ))) (3.8) La formule 3.8 exprime qu il doit exister un terme t j i dans la requête tel que t k i T i soit une spécialisation de t j i. En effet, la description de la valeur de l élément de donnée est imprécise et on doit être certain que la requête est satisfaite, quelle que soit la valeur de celui-ci. De plus cette contrainte est d autant moins nécessaire que λ k i lorsque λ k i sur le résultat. est faible. Ainsi, = 0 c est à dire que t k i n apparaît pas dans T i, N(tj i, t k i ) n as pas d influence 3.5 Autres approches utilisant des ontologies Les ontologies sont un outil de plus en plus utilisé pour modéliser des connaissances a priori et les utiliser pour améliorer les performances d un système de recherche, que ce soit dans des bases de données ou dans des documents textuels. On peut par exemple citer le projet Semantic Web [Berners-Lee et al., 2001], qui a pour but de fournir un cadre commun pour partager et réutiliser des informations et des données entre des applications, services et communautés du Web. Il est géré par le World Wide Web Consortium, et est basé sur le Xml et le langage RDF (Resource description framework). L idée est de définir des informations de manière précise et compréhensible aussi bien par des programmes que par des utilisateurs humains, pour faciliter la collaboration des services basés sur le Web. Le RDF permet également de définir des règles d inférences et des relations entre des objets, et ainsi de déduire de nouvelles informations. Un des objectifs finaux est de permettre d élaborer des moteurs de recherche «intelligents», capable de comprendre le contenu d un document et ainsi de gérer des requêtes complexes. Ce projet se rapproche en ce sens de notre modèle. Cependant, dans cette approche, les ressources doivent être décrites au moyen de l ontologie par leur créateur humain, et il n y a pas d extraction d information à partir du contenu des documents. Le système d inférence ne se base ainsi que sur la description logique de la ressource faite a priori par l auteur, alors que notre but est d automatiser l extraction de la représentation des ressources.

94 94 CHAPITRE 3. FILTRAGE QUALITATIF SYMBOLIQUE Globalement, on peut distinguer deux types de travaux se rapportant aux ontologies : la construction automatique d ontologies par apprentissage sur des données extraites de textes, et l utilisation d ontologies pour définir les concepts utilisés dans un processus de recherche. Dans le chapitre 2, nous avons présenté des méthodes pour calculer des similarités entre termes et ainsi définir des thésaurus, flous ou non, et les techniques classiques utilisant ces thésaurus pour reformuler les requêtes dans le but d étendre leur portée, et donc retrouver plus de documents pertinents. Cette reformulation peut être transparente, en ajoutant les termes similaires à ceux donnés par l utilisateur dans la requête, ou explicite en faisant choisir à l utilisateur les termes directement dans l ontologie. Elle joue ainsi un rôle d aide à la formulation. On peut citer à ce propos le système Ontoseek [Guarino et al., 1999], qui utilise efficacement l ontologie WordNet pour l expansion de requêtes. L autre utilisation possible dans la recherche d information étant l indexation directe des documents dans l ontologie, telle que nous l avons abordée par exemple. Dans le domaine des bases de données, les ontologies sont également utilisées pour l extension des requêtes portant sur des attributs à valeurs linguistiques, ou pour calculer des similarités entre les termes de la requêtes et les termes de l attribut. Ainsi, [Mouaddib et Subtil, ] présente la définition d un thésaurus utilisé pour l appariement avec une base de donnée floue. Les termes imprécis sont définis comme un ensemble flou d autres termes, et le filtrage flou est utilisé dans le processus d appariement. Cependant, bien que les liens entre termes soient pondérés, ce thésaurus n est pas possibiliste en lui-même dans le sens ou nous l avons défini, et les liens sont typés comme dans les ontologies traditionnelles. Une approche récente utilise un point de vue orienté recherche d information en considérant une pertinence plutôt qu une réelle similarité entre termes [Bulskov et al., 2002]. Des degrés représentant la spécialisation et la généralisation des termes sont ainsi introduits. Ces degrés sont asymétriques, le deuxième étant inférieur au premier. Ainsi, un caniche est une 0.9 spécialisation de chien, alors que chien n est une généralisation de caniche qu à 0.4. Dans notre modèle, deux types de poids sont également utilisés, mais leur signification est totalement différente. En effet, le degré de possibilité est symétrique et une nécessité positive n implique rien pour la nécessité réciproque, même si celle-ci est à 1, contrairement aux degrés de spécialisation et généralisation qui sont simultanément strictement positifs. De plus, l opérateur de transitivité utilisé dans [Bulskov et al., 2002] est le produit, ce qui entraîne un affaiblissement des poids avec la profondeur dans l ontologie. Ceci rend l ontologie dépendante de la granularité de l ontologie. Dans notre approche, le but est plus d estimer si le sens d un terme dans une requête correspond à un terme dans les données

95 3.6. CONCLUSION 95 correspondantes. Ainsi, l utilisation de l opérateur min permet de rendre le calcul de la correspondance indépendant de la granularité et de la profondeur de l ontologie. Une autre approche orientée recherche d information est présentée dans [Boughanem et al., 2004]. Elle utilise les ontologies pour représenter le contenu des documents, et les requêtes sont exprimées comme des ensembles pondérés de nœuds de l ontologie. Cependant, l évaluation des requêtes conjonctives est effectuée par comparaison des sous-graphes minimums contenant les nœuds correspondant à la requête et au document. Cette comparaison est basée sur le calcul d un degré d inclusion multivaluée du graphe du document dans le graphe de la requête. En outre, la description des documents dans l ontologie prend en compte les équivalences sémantiques entre expressions, ainsi que le fait que si un document inclut fortement des termes, il traite aussi dans une certaine mesure de concepts plus généraux. Ainsi, un certain poids est attribué à des termes n apparaissant pas directement dans le document ou dans la requête, mais étant l ancêtre commun dans l ontologie d un ensemble de termes présents dans le document ou la requête. Ceci correspond à une extension de la requête à des termes moins spécifique. De plus, du point de vue du document, cette généralisation permet une meilleure identification des concepts présents dans le document. 3.6 Conclusion Notre approche permet d adapter le filtrage flou à des termes purement linguistiques afin d effectuer un filtrage qualitatif sur des données textuelles. Ainsi, les relations entre les termes sont exprimées en fonction de la possibilité et de la nécessité que leurs sens correspondent au même concept, ou représentent la même idée. De plus, les relations ainsi définies entre les termes du vocabulaire définissant le domaine de ces données permettent de spécifier une ontologie possibiliste, utilisant ces notions d intersection et d inclusion de sens des concepts pour créer un ensemble de relations entre les termes. Ces outils permettent de définir les relations typiques des ontologies, comme la synonymie ou la spécialisation/généralisation de sens. De plus, ces ontologies, au moyen de propriétés de transitivités, induisent à partir de ces relations des liens entre concepts qui n étaient pas spécifiés a priori. En outre, la similarité entre les termes ainsi définie est indépendante de la distance hiérarchique des nœuds dans l ontologie, et donc du niveau de détail de la connaissance du vocabulaire. Il est ainsi possible de changer la précision de l ontologie sans obligatoirement remettre en question la connaissance déjà obtenue.

96 96 CHAPITRE 3. FILTRAGE QUALITATIF SYMBOLIQUE Ce modèle est approprié à l évaluation de requêtes complexes sur une base de données contenant des données textuelles, comme nous allons le présenter dans le chapitre suivant.

97 Chapitre 4 Interrogation flexible de bases de données par filtrage qualitatif 4.1 Introduction Les outils du filtrage qualitatif présentés au chapitre précédent peuvent être appliqués aux bases de données structurées classiques. Ainsi, les ontologies possibilistes précédentes sont utilisées pour rendre les requêtes sur les attributs linguistiques plus flexibles, mettant à profit une connaissance a priori du vocabulaire utilisé pour les valeurs des attributs correspondants. En outre, les bases théoriques des ensembles flous sur lesquels elles reposent permettent d unifier les évaluations utilisant de telles ontologies sur des attributs linguistiques avec des critères portant sur des données numériques, comme nous allons le présenter dans la section 4.2. Ceci permet donc d élaborer des requêtes complexes et flexibles, et de les évaluer sur des données pouvant elles aussi être imprécises. Nous présenterons ensuite en section 4.3 des résultats obtenus avec notre prototype sur une petite base de données, malgré tout réaliste, issue de la plate-forme Preti développé au sein du laboratoire à des fins d expérimentations, afin de valider le modèle présenté sur des données réelles. 4.2 Interrogation des bases de données Dans une base de données, l information est généralement représentée par des enregistrements, constitués par un ensemble d attributs prenant des valeurs de type prédéfinis. Dans notre cas, ces attributs sont considérés comme flous, et donc peuvent être représentés 97

98 98 CHAPITRE 4. FILTRAGE QUALITATIF ET BASES DE DONNÉES par des termes linguistiques associés à des ensembles flous, par des valeurs numériques ou des intervalles de valeurs, ou enfin par des termes issus du langage naturel, et définis dans un vocabulaire préétabli au sein d une ontologie floue comme celles décrites en section 3.4. Le filtrage qualitatif et la correspondance utilisant les ontologies peuvent être appliqués à ce type de base de données, afin de rendre les requêtes plus flexibles. L utilisation du modèle dans le cadre de bases de données tabulaires est assez directe. Les attributs sont assimilés aux éléments des conjonctions précédentes. En effet, chaque attribut est considéré comme participant également à l apport d information, tout en étant défini sur un domaine propre, avec éventuellement une ontologie possibiliste associée. Les attributs de la base représentés par des termes peuvent ainsi être mis en correspondance de manière plus flexible, tout en tirant parti de la connaissance représentée dans l ontologie. De plus, le cadre de définition permet d utiliser également le filtrage flou «classique» sur les attributs représentés sur un domaine numérique, qu ils soient stricts ou flous, représentés par des intervalles ou des variables linguistiques. De la même manière, les requêtes seront des conjonctions sur un sous-ensemble des attributs de la base, la valeur désirée pour chaque attribut étant représentée, dans le modèle le plus général, par une disjonction pondérée d éléments du domaine de l attribut Évaluation sur les attributs linguistiques L utilisation du filtrage qualitatif pour évaluer une requête sur des attributs linguistiques d une base de données permet d exprimer des requêtes flexibles et complexes, tout en augmentant la portée de celles-ci grâce à la connaissance de l ontologie, comme nous allons le montrer dans les exemples suivants. Ces exemples utiliseront la base de données décrivant des hébergements de vacances à la location présentée dans le tableau 4.1. Les ontologies présentées en figures 3.1 et 3.2 du chapitre 3 seront utilisées dans le processus d évaluation. hébergement lieu prix A hôtel Angleterre [65,70] B pension Espagne 25 C bungalow Grèce bon marché D motel France modéré Tableau 4.1 Exemple de base de données de lieux de vacances

99 4.2. INTERROGATION DES BASES DE DONNÉES 99 Exemple de requête sur attribut linguistique : Pour illustrer notre approche, considérons une base de données concernant des lieux de vacances, contenant seulement trois attributs afin de conserver l exemple simple. Ces attributs sont : 1. Le type d hébergement, qui est une valeur textuelle comme hôtel ou auberge, ou dans les cas plus généraux une disjonction de termes afin de représenter une incertitude dans la classification du type. 2. Le lieu géographique (région, pays). 3. Le prix, sur un domaine numérique. Dans la forme la plus simple, il est représenté par un unique nombre. Dans les cas les plus complexes, on peut utiliser des intervalles de valeur ou une variable linguistique pour représenter un prix imprécis. Soit la requête : R = (hôtel auberge) (pays ensoleillé) évaluée sur la base de données décrite dans la table 4.1. Nous avons pour la première donnée : π hébergement = max(π(hôtel, hôtel), Π(auberge, hôtel)), et π lieu = Π(pays ensoleillé, Angleterre). De plus, Π(hôtel, hôtel) = 1 et l ontologie donne Π(auberge, hôtel) = 0.6, donc π hébergement = 1. Comme le terme Angleterre est lié indirectement à pays ensoleillé, l utilisation de l équation (3.4) donne π lieu = 0.6. Ainsi, Π(R, T A ) = min(π hébergement, π lieu ) = 0.6. De plus, N(R, T A ) = 0 Pour B, N(R, T B ) = min(max(n(hôtel, pension), N(auberge, pension)), N(pays ensoleillé, Espagne)) = min(max(0.6, 0), 1) = 0.6 La ligne D illustre l utilisation de la transitivité dans l évaluation. En effet, aucune information directe n est fournie pour N(auberge, motel). Cependant, l ontologie donne N(auberge, motor inn) = 1 et N(motel, motor inn) = N(motor inn, motel) = 1. Ainsi, on sait que motor inn est un type d auberge et que motel et motor inn sont des synonymes parfaits. On peut donc déduire que N(auberge, motel) = 1. Cette «transitivité» n est possible que dans le sens des équations (3.3) et (3.4). Par exemple, rien ne peut être déduit pour Π(bungalow, motor inn) à partir des informations

100 100 CHAPITRE 4. FILTRAGE QUALITATIF ET BASES DE DONNÉES Π(bungalow, auberge) = 1 et N(auberge, motor inn) = 1. En effet, on sait que le sens de bungalow et auberge se recoupent, et que motor inn spécialise auberge, mais cela peut correspondre à un type d auberges qui ne sont pas des bungalows. Les autres données sont évaluées de la même manière, ce qui donne les scores : Π N Rang A B C D Tableau 4.2 Résultat de l évaluation de R Nous obtenons donc la classification : B puis D, C et enfin A. Pour classer D après B, il faut raffiner la procédure de base en remarquant que D a une nécessité de 0.6 sur les deux critères, alors que B a un meilleur résultat sur un des critères de la requête (le lieu), et 0.6 sur l autre. Ceci correspond à l idée de l opérateur multicritère discrimin, qui sera développé plus en détail au chapitre 6. Exemple de requête pondérée : L utilisation de requêtes pondérées permet à l utilisateur d exprimer des préférences en donnant des priorités aux termes de la requête ainsi qu entre les attributs. Soit R = (0.2, (1, hôtel) (0.6, auberge)) (1, (0.4, Angleterre) (1, pays ensoleillé)) Ici, l utilisateur privilégie l attribut concernant le lieu. L évaluation des termes individuels s effectue comme précédemment et n est donc pas détaillée. En revanche, l agrégation finale utilise les poids λ et ω de la requête. Ainsi, le résultat obtenu est : Comparons ceci au résul- Ligne Π N Rang A B C D tat obtenu pour une requête semblable mais donnant la priorité au type de l hébergement : R = (1, (1, hôtel) (0.6, auberge)) (0.7, (0.4, Angleterre) (1, pays ensoleillé))

101 4.2. INTERROGATION DES BASES DE DONNÉES 101 Ligne Π N Rang A B C D Le fait de diminuer l importance du lieu dans la requête amène à préférer l élément D, correspondant à un lieu n étant pas certainement ensoleillé, et n étant pas non plus l Angleterre. De même, A est désormais mieux classé que C. En effet, l hébergement est plus satisfaisant pour A, mais la Grèce (C) est plus ensoleillée que l Angleterre (A), et donc augmenter l importance du type d hébergement par rapport au lieu améliore le classement de A. Exemple de données imprécises : Les données peuvent également être étendues, en considérant la valeur des attributs comme étant une disjonction pondérée de termes. Il est ainsi possible de représenter l incertitude présente dans les données. Ainsi, un hébergement pourra être classé comme hôtel auberge si sa classification n est pas certaine. Ainsi, chaque attribut T i est désormais un ensemble, ou plus généralement un ensemble flou, de termes. Un exemple de donnée disjonctive serait : D = {(1, hôtel) (0.5, motel); F rance} exprimant qu il est possible que ce soit un hôtel ou un motel, mais plus probablement un hôtel. Ainsi, soit la requête R = (1, hôtel). D après l ontologie, N(hôtel, motel) = 0.6 et Π(hôtel, motel) = 1. On a donc : π hébergement = max(min(1, 1, 1), min(1, 1, 0.5)) = 1 ν hébergement = min(1, min(max(1 1, 1), max(1 0.5, 0.6))) = 0.6 En effet, la valeur de l attribut peut être un motel, et un motel peut être différent d un hôtel (cf. fig. 3.1). Comme la requête porte sur un hôtel, la donnée ne correspond pas parfaitement, ce qui justifie ν hébergement < 1.

102 102 CHAPITRE 4. FILTRAGE QUALITATIF ET BASES DE DONNÉES La donnée D = {(1, hôtel) (1, motel); F rance} aurait eu le même résultat, puisque l opérateur max amène à considérer la nécessité N(t j i ; t k i ) et non le poids. Afin de changer le résultat, l importance du terme motel doit être diminuée, de façon à ce que λ k i < 1 N(t j i ; k t i ), définissant ainsi un seuil d importance. Ainsi, avec D = {(1, hôtel) (0.3, motel); F rance}, on obtient ν hébergement = 0.7. Ce résultat est à comparer avec celui obtenu pour la donnée D = {(0.5, hôtel) (1, motel); F rance} qui donne aussi π hébergement = 1 et ν hébergement = 0.6. Dans ce dernier cas, le changement du poids d hôtel ne change pas le degré final, puisque N(hôtel, motel) = 0.6. En outre, on vérifie que si le poids de motel est mis à 0, on retrouve ν hébergement = 1, puisque dans ce cas, la requête et la donnée correspondent parfaitement, ce qui est alors équivalent à n avoir que hôtel dans la description de l attribut. Enfin, si la valeur de l attribut est une disjonction de synonymes parfaits (t 1 i t 2 i ) ayant le même poids, l évaluation équivaudra à ne considérer qu un seul des deux termes. En effet, Π(t 1 i, t 2 i ) = 1 et N(t 1 i, t 2 i ) = N(t 2 i, t 1 i ) = 1, puisque ce sont des synonymes parfaits. On a donc N(t j i, 1 t i ) = N(t j i, 2 t i ), d après (3.3) et Π(t j i, 1 t i ) = Π(t j i, 2 t i ) en utilisant (3.4) Évaluation sur les attributs numériques Le filtrage qualitatif illustré précédemment est basé sur les degrés de nécessité et de possibilité hérités du filtrage flou traditionnel. Ainsi, il s intègre naturellement avec ce dernier pour évaluer des requêtes mixtes sur des attributs purement linguistiques et sur des attributs à base numériques, pour donner à l utilisateur un plus grand pouvoir d expression de ses besoins en information. Exemple de requête sur attribut numérique : Considérons donc à présent une requête sur les prix : R = (modéré). Pour faire correspondre des valeurs numériques à des termes linguistiques, nous devons définir, pour un vocabulaire de prix donné, une représentation de ces termes, tels que modéré, par rapport à des valeurs de prix, c est-àdire définir une distribution de possibilité de prix pour chaque terme de ce vocabulaire. Ceci peut être réalisé comme sur la figure 4.1. Remarquez que les prix sont arbitraires, et peuvent (ou doivent) être définis par l utilisateur, puisque le sens de bon marché par exemple dépend du contexte et de l utilisateur.

103 4.2. INTERROGATION DES BASES DE DONNÉES π/µ Bon Marché Modéré Cher Prix Figure 4.1 Distributions des prix Évaluons la requête avec le FPM classique [Cayrol et al., 1982] : Π(T ; T ) = sup min(µ T (u), π T (u)), u U N(T ; T ) = inf T (u), 1 π T (u)). u U où µ T est la fonction d appartenance associée au terme T et π T la distribution de possibilité attachée à T. On obtient alors : Ligne Π N Rang A B C D Tableau 4.3 Résultat de l évaluation de R Remarquons que la nécessité N(modéré, modéré) est de 0.5 car le terme modéré est flou et qu on ne peut être totalement sûr qu un prix déclaré comme tel le soit effectivement au degré 1. La propriété N(t j i, tj i ) = 1, requise plus haut, suppose que le terme tj i est considéré comme ayant un sens non flou. Si ce n est pas le cas, il convient de fixer une valeur entre 1 et 1/2 pour N(t j i, tj i ) dans l ontologie. Il est intéressant d examiner une évaluation de la première donnée de la table pour modéré et cher. En effet, on a Π(modéré, [65, 70]) = sup x [65,70] µ modéré (x) = 0.75 et N(modéré, [65, 70]) = inf x [65,70] (µ modéré (x)) = 0.5. De même, Π(cher, [65, 70]) = 0.5 et N(cher, [65, 70]) = Nous n avons plus les contraintes définies précédemment (notamment la propriété 3.3), puisque les données sont imprécises, mais seulement les contraintes de filtrage flou classique, c est-à-dire Π(T ; T ) N(T ; T ). Comme [65, 70] est plus proche de modéré que de cher, les degrés sont plus élevés.

104 104 CHAPITRE 4. FILTRAGE QUALITATIF ET BASES DE DONNÉES Évaluation mixte Les deux types d évaluation précédents peuvent être combinés entre eux par l opérateur min, ce qui permet de traiter des requêtes prenant en compte des données hétérogènes, exprimées de différentes manières (termes, valeurs, intervalles). Cependant, la combinaison des degrés obtenus par filtrage qualitatif et de ceux calculés par filtrage flou classique, pose le problème de la commensurabilité des échelles. En effet, le filtrage flou appliqué à une fonction d appartenance continue peut retourner tout réel de [0, 1], alors que le filtrage qualitatif utilise une échelle discrète, avec un nombre restreint de niveaux, représentés numériquement pour des raisons pratiques. En supposant que le filtrage qualitatif utilise une échelle finie et homogène, comme {0, 0.2, 0.4, 0.6, 0.8, 1}, les rangs obtenus par le filtrage flou peuvent être approchés par la plus proche valeur dans cette échelle. Puisque les deux procédures sont basées sur des degrés de possibilité et de nécessité, ceci permet de combiner les évaluations élémentaires calculées pour chaque attribut. Exemple : Ainsi, en considérant une requête combinée R R, le résultat trié serait : Ligne Π N Rang A B C D Tableau 4.4 Résultat de l évaluation de R R Afin de valider ce modèle, il convient de le tester sur un système à plus grande échelle, pour observer son comportement sur des données réelles. C est ce que nous nous proposons de faire à présent 4.3 Expérimentation et résultats Afin d illustrer l application du système à une base de données réelle, une expérimentation à plus grande échelle a été menée. Elle utilise les données de la plate-forme Preti.

105 4.3. EXPÉRIMENTATION ET RÉSULTATS Description de la plate-forme Preti La plate-forme Preti est un système d expérimentation mis en place au sein de l Irit. Il contient environ 600 enregistrements concernant un ensemble de gîtes situés dans le département de l Aude. Pour cette évaluation, seul un sous-ensemble des attributs, décrit en table 4.5, à été considéré. Attribut Type Description ID Chaîne Identifiant du gîte lieux Terme Commune de localisation du gîte confort entier Nombre d épis (entre 0 et 4) prix intervalle réel Intervalle des prix maximum et minimum selon la saison couchage entier Nombre de couchages Tableau 4.5 Données d expérimentation de Preti Ontologies utilisées Afin d expérimenter le modèle précédent, des ontologies et des données floues sont nécessaires. La transformation des différents prix en intervalles introduit un premier niveau d imprécision dans les données. Une représentation linguistique des prix a en outre été ajoutée. Elle est représentée en figure 4.2, les prix étant exprimés en franc. Elle est similaire à celle présentée précédemment, mais les intervalles ont été adaptés aux valeurs de prix présentes dans la base : prix [500, 4500]. π/µ Bon Marché (cheap) Modéré (moderate) Cher (expensive) Prix (franc) Figure 4.2 Attributs linguistiques pour les prix

106 106 CHAPITRE 4. FILTRAGE QUALITATIF ET BASES DE DONNÉES Les ontologies portant sur des attributs linguistiques, elles ne concernent que l attribut de la location géographique. Différentes ontologies ont été développées, mais celles-ci sont connectées entre elles par l intermédiaire des communes et des formules 3.3 et 3.4 qui permettent la «navigation» entre les nœuds. Les communes constituent donc les feuilles des hiérarchies sont les étiquettes effectivement présentes dans la base de données. Ces ontologies ont plusieurs sources, essentiellement basées sur les données administratives. Ainsi, les ontologies prises en compte dans cette expérimentation sont les suivantes : arrondissements : le département est découpé en trois arrondissements administratifs, décrits comme des ensembles de cantons : les arrondissements de Carcassonne (noté a carcassonne), de Narbonne (a narbonne) et de Limoux (a limoux). Le découpage étant strict, les relations représentées dans l ontologie sont des pures inclusions d ensembles (N = 1). Cependant, les cantons donnant leur nom aux arrondissements sont considérés comme ayant une nécessité de 0.5 avec ceux-ci. En effet, un utilisateur peut qualifier l arrondissement par le nom de son principal canton ou ville. Ainsi, on a défini par exemple N(a narbonne, narbonne) = 1 et N(narbonne, a narbonne) = 0.5, même si c est l arrondissement qui contient la ville à strictement parler. cantons : les cantons sont les cantons électoraux, et sont au nombre de 35. Ils sont représentés comme un ensemble strict de communes, et donc ici aussi, les relations représentées sont des inclusions strictes. codes postaux : cette ontologie représente l inclusion des différentes communes dans le code postal associé. micro-régions : les micro-régions peuvent être plus ou moins associées aux terroirs, et sont aussi représentées comme un ensemble de communes. Cette ontologie est extraite des données initiales de Preti, où la micro-région d un gîte est donnée dans la base. Cette information a donc été transformée en ontologie pour l attribut du lieu. Neuf micro-régions sont ainsi définies : Cabardes, Carcasses, Corbières, Lauragais, Minervois, Narbonnais, Pyrénées, Quercorb, Razes-Limouxin. Cependant, certaines communes, selon le gîte, sont classées dans différentes micro-régions. Ainsi, l intersection de certaines micro-régions est non nulle. Par exemple, la commune de narbonne est définie comme appartenant aux micro-régions : cabardes, corbieres, lauragais, narbonnais et razes-limouxin. littoral et montagne : deux termes, littoral et montagne ont été ajoutés dans l ontologie des lieux. L appartenance des communes à chacun des ces termes est déterminée respectivement par leur distance à la mer et par leur altitude. En outre, la micro-région pyrenees est incluse à N = 0.8 dans montagne. Dans les deux cas, l estimation de la

107 4.3. EXPÉRIMENTATION ET RÉSULTATS 107 nécessité entre le terme et la commune se fait à l aide d une fonction d appartenance, dont les seuils sont paramétrables Terme montagne L appartenance des communes au terme montagne est donc calculée en fonction de l altitude de celles-ci, de la même manière que décrit précédemment pour les prix. Les altitudes sont comprises entre 0 et 1200 mètres, et les seuils bas et haut de la fonction d appartenance sont donnés en pourcentage de l altitude maximale. On a donc une distribution pour la fonction d appartenance au terme en fonction de l altitude du type de celle illustrée en figure 4.3. La valeur est ensuite arrondie au dixième pour réduire le nombre de valeurs possibles et ainsi mieux faire correspondre les différentes échelles du système. Ainsi, 1 µ montagne % 50% 75% 100% Altitude Figure 4.3 Distribution du terme montagne avec des seuils de 25% pour le seuil bas et 75% pour le seuil haut, on obtient la répartition présentée en figure 4.4. Les communes marquées noires sont celles pour lesquelles aucune donnée n est disponible. Ce cas sera interprété par le système comme N = 0, Π = 1 si aucune valeur ne peut être déduite, ce qui représente la totale ignorance, et elles sont donc représentées différemment ici pour les distinguer des valeurs dues à la connaissance d une valeur nulle. Seule l altitude moyenne des communes étant disponible, on déduit des formules 3.1 et 3.2 : Π(montagne, commune) = N(montagne, commune) = µ montagne (alt commune )

108 108 CHAPITRE 4. FILTRAGE QUALITATIF ET BASES DE DONNÉES Figure 4.4 Répartition du terme montagne de seuils 25 75% Les degrés sont donc également représentés par les cartes des distributions. La figure 4.5 montre deux autres répartitions. La 4.5(a) est obtenue avec un seuil strict à 50%, où les communes appartiennent totalement au terme montagne ou pas du tout. La deuxième figure 4.5(b) est donnée par une distribution sous forme de rampe, avec les seuils bas et haut respectivement à 0 et 100% de l altitude maximale. Cette carte représente donc l altitude moyenne des communes (modulo l arrondi au dixième du degré de nécessité) Terme littoral Le terme littoral est défini de la même manière que montagne, mais en utilisant la distance à la mer. Cette distance est obtenue à partir de la base Preti originale, où la distance des gîtes à la mer est stockée. Dans notre version floue simplifiée, cette information a donc été interprétée comme des distances maximale et minimale pour la commune, utilisées pour déduire les degrés de nécessité et de possibilité entre la commune du gîte et le terme littoral. Les informations concernant les distances des gîtes étant incomplètes dans la base initiale, et toutes les communes n étant pas couvertes, les liens entre communes et littoral sont approximatifs. Les communes n ayant aucune information mais ne contenant pas de gîtes ne posent cependant pas problème, puisque aucun enregistrement de la base ne les concerne. Les communes contenant des gîtes n ayant pas l information de distance

109 4.3. EXPÉRIMENTATION ET RÉSULTATS 109 (a) Seuil à 50% (b) Rampe de 0 à 100% Figure 4.5 Autres types de répartition pour l altitude ont par défaut une nécessité de 0 et une possibilité de 1, ce qui traduit l ignorance totale de l information. Les degrés de nécessité et de possibilité sont déduits de la fonction d appartenance au terme littoral en fonction de la distance à la mer. Cette fonction est décrite en figure 4.6(a). Dans les expérimentations, un seuil de 50 km a été utilisé, ce qui aboutit µ littoral seuil Distance à la mer (a) Distribution du terme littoral (b) Représentation du terme littoral à la représentation de la figure 4.6(b) Résultats Soit la requête portant sur le lieu uniquement : R = corbieres. L évaluation de cette requête sur la base sans utiliser l ontologie ne donne aucun résultat. En effet, le terme

110 110 CHAPITRE 4. FILTRAGE QUALITATIF ET BASES DE DONNÉES corbieres représente une micro-région, et l attribut de lieu de la base ne référence que des communes. L utilisation de l ontologie où sont définies les micro-régions permet d obtenir des résultats pour cette requête. Nombre de résultats Π N Tableau 4.6 Résultats de la requête sur corbieres Détaillons ces résultats. Les nombreux résultats ayant N = 1 sont dus en parti aux gîtes appartenant aux communes directement incluses dans la micro-région de la requête. Cependant, selon notre ontologie, la micro-région des Corbières contient 106 communes, et les gîtes résultats sont répartis dans 154 communes distinctes. Ainsi, certains gîtes obtiennent ces degrés par transitivité. Les deux gîtes ayant pour degré N = 0.5 sont dans la commune de sainte-valiere. D après l ontologie des micro-régions, il n y a aucun lien entre ces deux termes saintevaliere est dans le minervois. Ce degré de nécessité est obtenu par transitivité en plusieurs étapes. 1. l ontologie des micro-régions donne : N(corbieres, narbonne) = 1, puisque narbonne est dans les corbieres. 2. l ontologie des arrondissements donne : N(narbonne, a narbonne) = 0.5. En effet, comme décrit précédemment, on modélise ainsi l amalgame entre la commune principale et l arrondissement. Cette ontologie fournit aussi N(a narbonne, ginestas) = 1, car cette commune est dans l arrondissement. 3. enfin, l ontologie des cantons définit N(ginestas, sainte valiere) = 1 Par la transitivité de la nécessité, on obtient ainsi N(corbieres, sainte valiere) = 0.5, qui permet d obtenir les deux résultats supplémentaires. Examinons la requête R 2 = pyrenees confort(0.7, 2) 3, signifiant que l on recherche des gîtes dans les Pyrénées, ayant un niveau de confort de 3 ou à la rigueur 2. Ici aussi, l évaluation sans utiliser l ontologie ne donne évidemment rien. L utilisation de l ontologie amène à sélectionner 80 gîtes. Les 15 premiers gîtes sont ceux qui appartiennent à la micro-

111 4.3. EXPÉRIMENTATION ET RÉSULTATS 111 Nombre de résultats Π N Tableau 4.7 Résultats de la requête R 2 région pyrenees, directement ou via un canton, et dont le confort vaut 3. Les 54 suivants appartiennent également à la micro-région, mais ont un confort de 2. Les 6 suivants ont bien un confort de 3, mais ils ne sont pas inclus dans la micro-région. Ils appartiennent à des communes dont uniquement la possibilité avec pyrenees est non nulle, car appartenant à un ensemble de communes ici le canton ayant une intersection non nulle avec l ensemble des communes de pyrenees. On obtient donc une certaine possibilité que ces communes satisfassent la requête, mais ce n est pas certain. Les derniers gîtes sont dans la même situation que les précédents, mais leur confort n est que de 2. Considérons la requête R 3 = montagne confort(0.7, 2) 3. Le critère est le même que précédemment concernant le confort, mais moins restrictif pour ce qui est du lieu, puisque le terme montagne est considéré suffisant. Ici, les seuils d altitudes pour l ontologie sont de 0 et 100, c est à dire que le degré croit linéairement avec l altitude pour tous les gîtes (cf. figure 4.5(b)). De fait, le nombre de gîtes retrouvés est beaucoup plus élevé. Dans l ontologie, on a N(montagne, pyrenees) = 0.8, considérant que toutes les communes de la micro-région pyrenees, qui est un découpage administratif, ne peuvent pas être considérées comme appartenant totalement à la montagne a priori. On retrouve donc les 15 premiers résultats de la requête précédente répartis dans les trois premiers groupes de celle-ci. Les deux premiers, pour lesquels N 0.9, sont ceux appartenant à montagne avec une nécessité supérieure à 0.9 et dont le confort vaut 3. Les 9 gîtes ayant N = 0.8 appartiennent soit à pyrenees, soit ont une nécessité avec montagne de 0.8 déterminée par leur altitude. Le résultat suivant ayant pour valeur Π = 1, N = 0.7 à bien un confort de 3, mais sa nécessité avec montagne n est que de 0.7 (cette valeur n est pas due au poids dans l attribut de confort de la requête, qui vaut aussi 0.7, mais à un lien de l ontologie). Pour les résultats à Π = N = 0.7, on obtient un gîte supplémentaire par rapport à la requête précédente, ce qui est positif. Il appartient à la même commune que le précédent, et apparaît donc pour les mêmes raisons. Le même type d interprétation se fait pour les autres résultats. La valeur

112 112 CHAPITRE 4. FILTRAGE QUALITATIF ET BASES DE DONNÉES Nombre de résultats Π N Tableau 4.8 Résultats de la requête R 3 de possibilité à 1 est induite par un confort à 3, et celle à 0.7 par un confort à 2. La valeur de nécessité est quant à elle déterminée par l inclusion dans montagne, et donc l altitude du gîte, puisqu elle est inférieure à 0.7, qui est la valeur minimale impliquée par le confort et que c est le minimum des deux valeurs qui est gardé. Une requête ne portant que sur les prix avec un intervalle ne donne que trois types de résultats : 1. Π = N = 1 si l intervalle de prix du gîte est inclus dans celui de la requête, 2. Π = 1, N = 0 si les deux intervalles ont une intersection non nulle, 3. Π = 0, N = 0 si les deux intervalles sont distincts. Ainsi, une requête [0, 1500] donne les résultats du tableau 4.9. L évaluation d une requête cheap détermine elle 47 catégories différentes. Ainsi, l utilisation d un terme linguistique permet d augmenter la granularité de l échelle de tri, et la requête est donc plus discrimi-

113 4.4. CONCLUSION 113 Nombre de résultats Π N Tableau 4.9 Résultats de la requête sur les prix nante. Ceci implique la possibilité d effectuer un meilleur tri des résultats, et ainsi placer en tête les gîtes correspondant le mieux à la requête. Examinons à présent une requête portant sur les lieux et les prix. Dans un premier temps, considérons une forme simple : R 4 = (littoral carcassonne) [0, 1500]. Les degrés Nombre de résultats Π N Tableau 4.10 Résultats de la requête R 4 réels de la nécessité sont introduits par l évaluation du terme littoral. Pondérons à présent le terme carcassonne, ce qui représente que l utilisateur préfère un gîte dans le littoral, et donc proche de la mer. On a R 5 = (littoral (0.5, carcassonne)) [0, 1500]. La différence entre ces deux requêtes est introduite par la pondération du terme carcassonne. Les 45 gîtes qui avaient pour degrés Π = 1, N = 0.5 se retrouvent discriminés en 26 éléments à Π = 1, N = 0.5 et 19 à Π = 0.5, N = 0.5. De même, les 241 derniers gîtes, où 53 gîtes obtenus par une relation avec carcassonne voient leur possibilité réduite à Conclusion L application du filtrage qualitatif aux bases de données permet ainsi d évaluer des requêtes flexibles, spécifiées au moyen de termes linguistiques aussi bien que d ensembles

114 114 CHAPITRE 4. FILTRAGE QUALITATIF ET BASES DE DONNÉES Nombre de résultats Π N Tableau 4.11 Résultats de la requête R 5 flous classiques, et gérant les préférences de l utilisateur au moyen de pondérations portant aussi bien sur les termes que sur les attributs. Les données peuvent également être spécifiées en termes d attributs linguistiques ou d ensembles flous, permettant d unifier des données numériques, imprécises ou non, avec les termes d un vocabulaire complexe et hiérarchisé. En outre, la méthode d appariement utilisée permet d éviter la reformulation de la requête à l aide de termes similaires en cas d échec, comme c est généralement le cas, puisque la correspondance exacte des termes n est pas nécessaire, et que les différents concepts liés à un terme sont inclus dans le processus d appariement lui-même. L utilisation de termes du langage naturel et de vocabulaires élaborés dans l évaluation de requêtes complexes amène à se rapprocher du domaine de la recherche d information, où les données considérées sont uniquement d ordre linguistique. Nous allons donc considérer à présent l application de notre approche à la recherche d information «linguistique».

115 Chapitre 5 Recherche d information basée sur le filtrage qualitatif symbolique 5.1 Introduction De la même manière que pour les bases de données, notre approche peut être adaptée, avec quelques modifications, à de l information textuelle. Dans ce cadre, les données ne sont plus vues comme un ensemble d attributs. Une donnée textuelle est considérée comme une liste de mots dont seuls les mots significatifs sont conservés, selon le modèle classique de la recherche d information. Ainsi, contrairement à l approche orientée base de données, où l information était représentée par des attributs ayant chacun un domaine, l information textuelle est représentée par une conjonction de mots-clés et est donc définie sur un seul domaine, celui du vocabulaire des documents. Ainsi, notre modèle s adapte à la recherche d information telle que définie précédemment, et peut donc s appliquer à des collections de documents. L exploitation des propriétés du filtrage qualitatif permet cependant d aborder des problèmes classiques de la recherche d information, tels que l ambiguïté des termes, l expansion de requêtes par des termes similaires, la gestion de connaissances sémantiques, ou même la recherche par croisement de langues. Un des points clé de cette application réside dans l indexation des documents au sein même de l ontologie plutôt que dans un index traditionnel, ce qui permet de calculer les degrés possibilistes définissant les relations entre les termes et les documents, et par-là 115

116 116 CHAPITRE 5. RECHERCHE D INFO. PAR FILTRAGE QUALITATIF même d évaluer la satisfaction de la requête par le document, en utilisant les techniques d agrégation décrites au chapitre 3. Dans ce chapitre, nous présenterons dans un premier temps en section 5.2 le modèle nécessaire à cette utilisation, d abord sur des données restreintes, comme des titres d articles, puis sur une base documentaire. En particulier, nous détaillerons le problème de l indexation possibiliste, ainsi que l aspect propre aux collections multilingues, puis la méthode d évaluation des requêtes sur un tel index, ainsi qu une approche simple de la gestion des expressions du langage. Des tests effectués sur un prototype de système de recherche d information seront présentés en section Modèle de recherche d information basé sur le filtrage qualitatif Nous nous proposons ici d utiliser les notions de la section 3.4 pour évaluer la correspondance entre requête et documents, plutôt que les calculs de distances habituels en recherche d information. Cette approche permet d exploiter la connaissance sémantique modélisée dans l ontologie directement dans l évaluation, et évite ainsi l étape de reformulation de requête couramment utilisée. En recherche d information classique, la pertinence d un document est évaluée par rapport à une requête. Typiquement, celle-ci est une liste de mots-clés pouvant être pondérés et combinés par des et et ou, et les documents sont représentés par une liste pondérée de leurs mots significatifs. Afin de pouvoir utiliser toutes les propriétés de notre modèle, il faut définir les degrés de possibilité et de nécessité entre les termes de la requête et les documents. Pour cela, l ontologie est utilisée comme pivot entre requête et documents. Ainsi, la connaissance sémantique contenue dans celle-ci est exploitable dans le processus d appariement. Il faut donc estimer des degrés de possibilité et de nécessité entre les nœuds de l ontologie et les documents, en indexant le document directement à l aide de ceux-ci. L ontologie utilisée définit le vocabulaire restreint utilisé dans la collection de documents, répertoriant les termes valides aussi bien pour l indexation que pour l interrogation. Certes, on peut définir plusieurs ontologies contenant chacune un vocabulaire spécialisé, mais toutes se rapportent à la langue du document, et pourraient potentiellement être fusionnées dans une seule ontologie représentant la langue.

117 5.2. MODÈLE 117 On supposera dans le modèle que tous les termes présents dans les requêtes et les documents sont dans l ontologie. Concernant les requêtes, cela peut être réalisé en pratique en forçant l utilisateur à choisir les termes de sa requête dans l ontologie. Pour les documents, on peut envisager d ajouter les termes absents de l ontologie à celle-ci lors de la phase d indexation. Ainsi, les lignes de la base de données précédente sont désormais remplacées par une conjonction des termes significatifs du document, obtenus lors de la phase d indexation. Les requêtes demeurent des conjonctions de disjonctions de mots-clés. Cependant, elles ne portent plus sur des attributs, mais sur les termes du document Indexation possibiliste Afin de pouvoir utiliser le filtrage qualitatif sur une collection de documents et tirer partie de la connaissance stockée dans l ontologie, les documents doivent être indexés dans celle-ci au lieu d utiliser un index plat comme c est traditionnellement le cas en recherche d information. Ceci est illustré en figure 5.1 Notre ontologie est définie en s inspirant de WordNet. Ainsi, on introduit la notion de synset comme étant un ensemble de termes synonymes tels que : S h = {t hi T } avec (i, j), t hi t hj, Π(t hi, t hj ) = 1 et N(t hi, t hj ) = N(t hi, t hj ) = 1. Les termes d un synset sont donc considérés comme parfaitement synonymes. Chaque terme appartient à un et un seul synset et est un synonyme de tous les autres termes du synset, conformément à (3.3) et (3.4), en considérant qu un terme t j i est caractérisé par son sens et pas seulement par son libellé (dans le cas de termes polysèmes ou homonymes). Les relations de possibilité et de nécessité pour définir des synonymies et spécialisations approchées sont définies entre synsets, comme ils l étaient entre les nœuds à la section 3.4. Dans ce cadre, la pertinence d un terme de la requête vis-à-vis du document doit être évaluée en utilisant les degrés de nécessité et de possibilité. Pour être homogène à la représentation de l ontologie, la correspondance entre document et synsets doit être estimée avec les mêmes degrés, en tenant compte du poids des termes du document. Le poids d un terme t i dans un document est estimé en combinant la fréquence tf ij de t i dans D j, et la fréquence inverse des termes : idf i = log(d/df i ), où df i est le nombre de documents contenant t i et d est le nombre total de documents. Le document D j est alors représenté par : D j = {(ρ j i, t i), i = 1, n} où n est le nombre total de termes dans l ontologie

118 118 CHAPITRE 5. RECHERCHE D INFO. PAR FILTRAGE QUALITATIF N(A;B) Π(A;B) Synset B B A A Document Figure 5.1 Indexation d un document dans l ontologie (ou le vocabulaire concerné) et ρ j i est le poids du terme t i dans le document D j, calculé à partir de tf ij et idf i, souvent par leur produit. Considérons chaque document comme un ensemble flou (par ex. [Buell, 1982, Kraft et al., 1999]) de ses mots significatifs. Un poids ρ j hi d un terme t hi dans le synset S h relativement au document D j est donc un degré de pertinence de D j par rapport à t hi : ρ j hi = µ D j (t hi ). Étant donné un synset S h = {t hi, i = 1, p}, nous voulons estimer dans quelle mesure il décrit le document D j, c est-à-dire Π(S h, D j ) et N(S h, D j ). Comme les termes dans le synset sont synonymes, chacun d eux est supposé pouvoir décrire identiquement le document. Notons que dans les systèmes classiques, les requêtes sont souvent étendues en agrégeant les synonymes par l opérateur ou. Nous avons Π(S h, D j ) = max i (Π(t hi, D j )) et N(S h, D j ) = max i (N(t hi, D j )) (voir figure 5.2). Th1 ρ h1j Th2 Th3 Th4 Sh ρ h3j Π (Sh,Dj) N(Sh,Dj) Dj Figure 5.2 Liaison entre un document et un synset

119 5.2. MODÈLE 119 En considérant que le poids ρ j hi est un degré intermédiaire entre la possibilité et la nécessité pour le terme de décrire le document, des degrés de possibilité et nécessité seront calculés ainsi [Prade et Testemale, 1987] : { Π(t hi, D j ) = 2ρ j hi ; N(t hi, D j ) = 0 si ρ j hi < 1 2 Π(t hi, D j ) = 1 ; N(t hi, D j ) = 2ρ j hi 1 sinon (5.1) Cette transformation permet de distinguer entre trois situations remarquables des représentations probabilistes (P) et possibilistes (Π,N) : 1. certitude : P = 1, Π = N = 1 ; 2. certitude du contraire : P = 0, Π = N = 0 ; 3. indétermination : P = 1, Π = 1, N = 0. 2 où P est ici la probabilité que le terme apparaisse dans le document sachant que celuici est pertinent, comme présenté dans la section Un document est donc indexé à partir de mesures statistiques de ses termes significatifs (s ils figurent dans l ontologie). On pourrait envisager une évaluation de la possibilité et de la certitude de pertinence d un document par rapport à un mot-clé, et plus généralement par rapport à une requête, qui prendrait en compte non seulement la statistique d apparition des mots, mais aussi leur contexte d apparition (par exemple titre, introduction, corps du texte, conclusion,... ). Par ailleurs, cette approche introduit de nouveaux problèmes. En effet, l ontologie regroupe des concepts, qui peuvent être des groupes de mots, et doivent donc être reconnus comme tels dans le texte. La méthode habituelle est d utiliser un «lemmatiseur» pour réduire les mots à leur forme canonique, et un analyseur syntaxique pour identifier les concepts et expressions, comme dans [Bulskov et al., 2002] par exemple, mais cet aspect n est pas considéré ici. Une approche exploitant l ontologie sera néanmoins présentée en Exemple d indexation d un document : A titre d exemple, considérons un document anglais D, ayant les degrés (Π, N) suivants, donnés par la transformation ci-dessus, et représentés par la table 5.1. Ceci suggère que ce document parle d intelligence artificielle, plus précisément d apprentissage automatique, appliqué aux bases de données. Même si artificial intelligence et AI ont la même signification, leurs poids sont différents puisque d un point de vue statistique, le terme AI est plus fréquent que artificial intelligence dans le document. Le degré (Π, N) entre le synset {Artificial Intelligence, AI} et D est donc (max(0.4, 1), max(0, 0.4)) = (1, 0.4). Le degré de Computer Science est 0, car même si le document traite d informatique, ce terme n y apparaît pas.

120 120 CHAPITRE 5. RECHERCHE D INFO. PAR FILTRAGE QUALITATIF Terme ρ Π N Computer Science Database Artificial Intelligence AI Machine learning Tableau 5.1 Exemple d index de document Une ontologie possibiliste basée sur WordNet Afin de faciliter la création d une ontologie répondant aux caractéristiques de celles présentées ici, nous nous proposons d exploiter des ontologies existantes comme sources de données, et de les adapter au modèle possibiliste décrit précédemment. Ainsi, les données de l ontologie généraliste WordNet [Miller et al., 1990] peuvent être utilisées. Cependant, cette ontologie est binaire et définit plusieurs types de relations entre les termes. Seul deux relations sont directement utilisables dans l importation des données : la synonymie et les relations de spécialisation (hyponymie) et de généralisation (hyperonymie) qui sont synonymes. Les termes des synsets (synonymes) sont initialisés avec des degrés de nécessité et de possibilités à 1, puisque considérés comme des synonymes parfaits. De même, les relations de spécialisation et généralisation de l ontologie sont considérées totales, et représentées avec des degrés à 1 (Π(spe, gen) = Π(gen, spe) = 1, N(spe, gen) = 0 et N(gen, spe) = 1). Certaines restrictions peuvent être adoptées pour simplifier l ontologie. Les termes de l ontologie sont au préalable filtrés par la liste des mots vides. L ontologie est cependant enrichie avec les termes de l index ne s y trouvant pas, en les affectant à des synsets singletons, afin de pouvoir ensuite formuler les requêtes en terme de synsets. En effet, dans notre modèle d indexation des documents dans l ontologie possibiliste, nous supposons que tous les termes de l index sont présents dans l ontologie. Cette situation étant peu probable dans une situation réelle, on adapte a posteriori l ontologie à l index. L ontologie utilisée ici est généraliste, et les termes spécifiques du domaine de la collection de documents (dans le cas d une collection spécifique) peuvent justement être discriminant pour une recherche. Il est donc intéressant d effectuer cet ajout, en ne considérant toutefois que les termes ayant des poids élevés, c est-à-dire apportant beaucoup d information. Problème d ambiguïté : les termes du document doivent être mis en correspondance avec les concepts décrits dans l ontologie. Cependant, l ontologie est supposée être désam-

121 5.2. MODÈLE 121 biguïsée, c est à dire qu un terme pouvant avoir plusieurs sens sera présent plusieurs fois dans l ontologie, dans chaque synset correspondant au concept associé. Ainsi, un problème se pose lors de la mise en correspondance. En effet, il convient d identifier le synset associé au concept auquel il est fait référence dans le document. Pour cela, nous allons mettre à profit les termes synonymes également présents dans le document. Pour cela, un poids de pénalité est calculé pour la relation entre les termes et leur synset. Ce poids est obtenu à la manière de l idf de l index, en fonction du nombre de synsets auxquels appartient la forme du terme, c est à dire du nombre de sens du terme. La formule utilisée est la suivante : p = log( S tot S ) où S tot est le nombre total de synsets et S le nombre de synsets contenant le terme. Les poids sont ensuite normalisés en divisant par la valeur maximale. Cette manipulation a pour but de pénaliser les termes ayant beaucoup de sens possibles, et donc étant moins spécifiques que des termes n ayant qu un seul sens. En effet, lors de l indexation d un document dans l ontologie, on détermine les degrés de possibilité et de nécessité entre les termes de l ontologie, ou plutôt les concepts, et le document en fonction de l occurrence des termes dans celui-ci. Or, lorsqu un terme appartient à plusieurs concepts, il est a priori impossible de déterminer lequel se rapporte au document. Lors de la phase d indexation, les degrés d un terme ambiguë sont pondérés par cette pénalité. Ainsi, l agrégation sur les termes d un synset étant effectuée par le max, les termes synonymes du terme ambiguë présents également dans le document aident à définir le contexte, et à sélectionner le bon synset. En effet, le concept ne correspondant pas au contenu du document a peu de chance d avoir d autres termes du synset présents dans celui-ci. Les degrés entre ce concept et le document seront donc plus faibles qu entre le «bon» concept et le document, et il sera donc ignoré. Ainsi, une agrégation par le max est effectuée entre les différents degrés terme/synset pour les termes du document appartenant à un même synset, après pondération par la pénalité de l ambiguïté. Cette pondération est calculée comme min(penalite, N(terme, synset)) et min(penalite, Π(terme, synset)).

122 122 CHAPITRE 5. RECHERCHE D INFO. PAR FILTRAGE QUALITATIF Extension à l information multilingue Dans le cas particulier d un système multilingue, les documents sont dans des langues différentes, et le système doit retourner les documents pertinents indépendamment de la langue dans laquelle est formulée la requête. Une ontologie multilingue est composée d un ensemble d ontologies dans différentes langues. Les synsets des différentes ontologies sont mis en relation les uns avec les autres par des degrés de possibilité et nécessité de 1 pour modéliser les équivalences de termes entre langues Sa Sb Sc S'c S'a Π(A,B): B A N(A,B): B A synset: Figure 5.3 Structure de l ontologie multilingue Comme dans l ontologie monolingue, il est envisageable d étendre les relations interlangues en utilisant (3.3) et (3.4). Puisque ces propriétés sont indépendantes de la langue, la correspondance entre une requête dans une langue et un document dans une autre langue peut être déduite. Cependant, deux ontologies dans deux langues distinctes peuvent avoir une architecture différente, comme sur la figure 5.3. Ici, le synset S a se traduit par S a, et S c par S c. Mais la traduction de S b n est pas définie dans l ontologie. Néanmoins, les relations de possibilité et nécessité entre S b et S c peuvent être évaluées en utilisant respectivement (3.4) et (3.3). Plus précisément, N(S b, S c ) = min(n(s b, S c ), N(S c, S c )) = 0.6 Ce modèle permet ainsi d utiliser l ontologie comme pivot entre les requêtes et les documents, même lorsque les langues sont différentes. En effet, si l ontologie est constituée de sous ontologies de langues différentes, les documents seront indexés dans la partie correspondant à leur langue, et la requête sera exprimée en fonction des termes de l ontologie correspondant à la langue de l utilisateur. L appariement se fera naturellement, les degrés de possibilité et de nécessité entre un terme et sa traduction étant donnés dans l ontologie.

123 5.2. MODÈLE 123 Ainsi, la procédure d exploitation de l ontologie entraîne une traduction implicite de la requête, de la même manière qu elle implique une expansion de la requête avec ses termes liés dans le cas monolingue classique. La propriété d indépendance des degrés déduits de l ontologie vis-à-vis de la granularité, ou du niveau de détail, de celle-ci trouve ici un intérêt majeur. En effet, dans le cas contraire, les ontologies possédant une structure différente selon la langue donneraient potentiellement des degrés différents entre deux termes selon la traduction Évaluation de requêtes Moyennant l indexation de la collection dans l ontologie, l évaluation des requêtes peut s effectuer selon le modèle décrit au chapitre 3. Ainsi la valeur de pertinence du document pour la requête n est plus donné par une seule valeur calculée en fonction des poids des termes dans l index, mais par un couple de degré de nécessité et de possibilité. Pour une requête R et un document D on a donc : rsv(r, D) = (Π(R, D), N(R, D)) où les degrés sont calculés d après les formules (5.1) et (3.5)-(3.6). Évaluer une requête revient ainsi à estimer dans quelle mesure le document constitue une réponse pertinente au besoin d information exprimé par la requête Illustration de l évaluation sur un exemple multilingue Informatique 1 1 Intelligence Artificielle, IA 0.8 Bases de données,bd Apprentissage Computer science 1 1 Artificial Intelligence,AI Data Management, Information management 1 1 Machine Learning,ML Database, DB Π(A,B): B A N(A,B): B A Traduction: Figure 5.4 Exemple d ontologie multilingue La figure 5.4 montre un fragment d une ontologie entre français et anglais. Notons que dans cette ontologie, la nécessité entre Apprentissage et IA n est que de 0.8 car ce terme

124 124 CHAPITRE 5. RECHERCHE D INFO. PAR FILTRAGE QUALITATIF peut aussi avoir le sens d «éducation» par exemple. Cependant, dans ce contexte, il se traduit parfaitement par Machine Learning. Soit la requête : R = BD Intelligence Artif icielle. Appliquons (3.5)-(3.6) avec des degrés d importance égaux à 1. Nous avons Π(BD, Database) = N(BD, Database) = 1 puisqu ils appartiennent à des synsets en correspondance directe. En utilisant (3.3) et (3.4), on peut déduire que, au pire, N(BD, D) = 0.2 et Π(BD, D) = 1. Pour évaluer la partie Intelligence Artif icielle de la requête sur D, {Artif icial Intelligence, AI} et {M L} doivent être pris en compte. En effet, même si le terme «Artificial Intelligence», qui est la traduction directe de la requête, est moins fréquent que «Machine Learning» dans ce document, nous savons que ML (le concept) EST dans AI (le domaine), le document peut donc être pertinent. Prendre en compte {Artif icial Intelligence, AI} est évident puisque le cas est identique à BD et Database, et donc (Π, N) = (1, 0.4), mais il y a deux façons d évaluer les valeurs de possibilité et nécessité pour {M L}, en utilisant la transitivité : soit spécialiser puis traduire (via Apprentissage), soit traduire puis spécialiser (via AI ). Ainsi, avec l ontologie : IA AI ML donne : Π(IA, ML) = 1 et N(IA, ML) = 1, IA Apprentissage ML donne : Π(IA, ML) = 1 et N(IA, ML) 0.8. De plus, l index donne Π(ML, D) = 1 et N(ML, D) = 0.6. Ceci nous donne les degrés en passant par ML : Π (IA, D) = 1 et N (IA, D) = 0.6. Puisque les deux valeurs (directement par IA ou en passant par ML) sont possibles, elles sont considérées comme disjonctives (comme classiquement dans les systèmes de RI) et la valeur max entre (1, 0.6) et (1, 0.4) (cf. section 5.2.1) est prise en compte, et donc Π(IA, D) = 1 et N(IA, D) = 0.6. Nous supposons ici que les documents plus spécifiques sont aussi pertinents. Si l utilisateur veut seulement extraire les documents généraux, la désactivation de l expansion vers la spécialisation doit être permise, au moins la pertinence des documents ainsi trouvés doit-elle être atténuée. Notez que seul le degré issu de ML influence le résultat, comme si la requête avait été BD ML (pour ce document en particulier), puisque ML est en fait IA (N(IA, ML) = 1). De même, si la requête avait été Informatique, l évaluation n aurait pas été nulle grâce à l expansion de la requête, contrairement à une évaluation classique. L évaluation finale de la requête pour ce document sera : Π(R, D) = min(π(bd, D), Π(IA, D)) = 1 et N(R, D) = min(n(bd, D), N(IA, D)) = 0.2. Les documents pourront être ordonnés

125 5.2. MODÈLE 125 comme en section 3.4. Cet exemple simple peut être étendu en pondérant les termes de la requête comme indiqué en section Illustration sur une base de titres Considérons à titre d exemple la base de données de titres d articles suivante. 1 Dealing with vagueness of natural languages 2 Tolerant fuzzy pattern matching 3 A hierarchical model of fuzzy classes 4 Resolution principles in possibilistic logic 5 Weighted fuzzy pattern matching 6 Flexible queries to a crisp database Tableau 5.2 Exemple de base de titres d articles Les titres sont vus comme des listes (conjonctions) de termes significatifs, les considérations statistiques n ayant pas de sens pour des textes si courts. Ceci revient donc à considérer un index binaire pour les «documents». Supposons que l on cherche des articles sur les fuzzy databases. Même si l on «sait», d après l ontologie de la figure 5.5, que flexible et fuzzy sont souvent synonymes (N = 0.8), le titre 6 ne doit pas correspondre à cette requête, car c est la requête (query) qui est floue dans ce titre, et non la base de données! Pour traiter de tels cas, nous devons tenir compte de la proximité des termes dans le texte. Il y a deux aspects de proximité à gérer : l identification d expressions et le contexte des mots pour la portée de la requête. Nous ne voulons pas traiter des aspects relatifs à l analyse du langage naturel, mais seulement présenter une illustration des potentiels de notre approche. Ces deux problèmes peuvent être résolus dans une certaine mesure par l exploitation de l ontologie. En effet, on peut définir une ontologie thématique spécifique au domaine, contenant les principaux thèmes ou mots-clés d articles. La figure 5.5 suggère un exemple de sous partie de telles ontologies. Ces ontologies seront utilisées pour faire correspondre les titres et les requêtes. Considérons l exemple de la base de données du tableau 5.2 et l ontologie de la figure 5.5 montrant un fragment d une ontologie spécifique de mots-clés ou de sujets d articles. L indexation de ces titres dans l ontologie présentée donne les index décrits en tableau 5.3

126 126 CHAPITRE 5. RECHERCHE D INFO. PAR FILTRAGE QUALITATIF fuzzy 0.6 request evaluation 1 query vagueness flexible1 1 1 weighted fuzzy system database tolerant N(A;B) fuzzy query1 Π(A;B) B A fuzzy database crisp database B A fuzzy pattern matching Figure 5.5 Ontologies pour les titres d articles 1 { deal, vagueness, natural, language } 2 { tolerant, fuzzy pattern matching } 3 { hierarchic, model, fuzzy, classes } 4 { resolution, principle, possibilistic logic } 5 { weighted, fuzzy pattern matching } 6 { flexible, query, crisp database } Tableau 5.3 Index obtenu à partir des titres Évaluons d abord une requête simple : R = fuzzy. On a N(fuzzy, vagueness) = 0.4, donc N(R, D 1 ) = 0.4. Trivialement, N(R, D 3 ) = 1 et N(R, D 4 ) = 0. Comme N(fuzzy, flexible) = 0.8, l article 6 est aussi retrouvé avec N(R, D 6 ) = 0.8. De même, N(f uzzy, tolerant) = 0.8, puisque tolerant et flexible sont presque synonymes. Par conséquent, N(R, D 2 ) = max(0.8, 1) = 1, car D 2 contient les deux termes (idem pour D 5 ). Une requête plus complexe recherchant des articles traitant de fuzzy request est interprétée a priori comme f uzzy request car l expression fuzzy request n est pas identifiée dans l ontologie. Puisque N(request, query) = 1 et N(fuzzy, flexible) = 0.8, D 6 est le seul article satisfaisant avec N = min(0.8, 1) = 0.8. Examinons maintenant la requête f uzzy database. Le terme fuzzy database existant dans l ontologie, la requête est interprétée R = fuzzy database et non comme fuzzy database. De même, en regroupant les mots du titre D 6, le concept crisp database de l ontologie est aussi identifié, ce qui conduit à N(fuzzy database, crisp database) = 0 et Π(fuzzy database, crisp database) = 0, et aucun résultat n est obtenu. Si les mots de

127 5.3. ILLUSTRATION SUR UNE BASE DE TITRES 127 la requête n avaient pas été regroupés, l évaluation de database aurait donné D 6 comme résultat, puisque Π(f uzzy database, database) = 1, ce qui ne satisfait pas la requête. Ce modèle permet donc d adapter les techniques de filtrage qualitatif présentées au chapitre 3 à la recherche d information sur des bases documentaires. Nous allons maintenant présenter une évaluation de ce modèle sur une base correspondant mieux à une application réelle. 5.3 Illustration sur une base de titres Nous allons présenter dans cette section une illustration à plus grande échelle du modèle décrit précédemment, menée sur une base de titres. Nous avons pour cela suivit le protocole d évaluation des campagnes TREC, en définissant des requêtes et les documents pertinents associés afin de calculer les valeurs de précisions obtenues par le système. Cependant, cette expérimentation ne prétend pas être une véritable évaluation d un système de recherche d information dans le sens des campagnes du type TREC. Il s agit plutôt d une validation de l intérêt de notre modèle, et de la possibilité de l appliquer à de la recherche textuelle Description des données Pour cette expérimentation, nous nous sommes limités à une base de titres d articles. Cette approche est simplificatrice, puisque les titres étant des documents courts, les considérations statistiques utilisées pour calculer les degrés ne peuvent pas s appliquer. Malgré cela, cette expérimentation peut être considérée comme représentative de l apport de l utilisation de l ontologie et du filtrage qualitatif dans le processus d évaluation de la requête strictement. Les titres utilisés proviennent de la base bibliographique de l Irit. Pour les besoins de l expérimentation, nous avons considéré les documents publiés dans des revues internationales après 1990 par les deux thèmes «Raisonnement et Décision» et «Indexation, Recherche et Stockage d Informations». Ainsi, la base est constituée de près de 200 titres dont la grande majorité est en anglais, deux titres étant cependant français. De part sa source, cette collection est fortement spécifique à certains domaines. Ceci, de même que le nombre réduit de termes significatifs dû à la faible longueur des documents, facilite la création de l ontologie.

128 128 CHAPITRE 5. RECHERCHE D INFO. PAR FILTRAGE QUALITATIF Afin de pouvoir effectuer l indexation de ces «documents» et l évaluation des requêtes selon notre modèle, nous avons construit une ontologie ad hoc relativement simple correspondant aux titres. Dans le modèle, nous avons supposé que l ontologie est suffisamment complète pour pouvoir indexer les documents dans celle-ci, et ne formuler les requêtes qu à l aide de termes déjà présents dans l ontologie. Puisque nous avons construit l ontologie a posteriori, nous l avons élaborée directement à partir des termes des titres pour construire les nœuds de notre graphe. Les relations ont été définies de plusieurs manières. Dans un premier temps, nous avons généralisé tous les termes par leur forme radicalisée par l algorithme de Porter. On a ainsi N(radical, terme) = 1. Afin de représenter les quelques cas statistiques ou des termes différents, ou représentant des concepts différents, ont le même radical, cette relation n est pas considérée comme purement synonyme, et la nécessité réciproque est initialisée à N(terme, radical) = 0.9. D autres liens ont été créés en traduisant les termes clés des articles français en anglais, considérant les traductions comme des synonymes. En outre, certains termes composés, comme fuzzy set ont également été ajoutés. Enfin, des relations ont été ajoutées «à la main», pour représenter par exemple les liens entre les différents domaines abordés dans les articles. Ces relations sont purement sémantiques, et correspondent au vocabulaire utilisé dans les requêtes et les titres. Ceci permet d illustrer le fait que dans notre modèle peuvent cohabiter, et même interagir, des ontologies provenant de différentes sources, certaines étant générées automatiquement par des méthodes statistiques par exemple, et d autres établies par un humain pour représenter des relations sémantiques correspondant à sa connaissance du domaine. Ainsi, ces relations sont élaborées a priori pour améliorer le résultat présumé des requêtes. Ceci est cohérent avec notre approche. En effet, l ontologie peut être utilisée pour modéliser l information contenue dans la base documentaire, mais également pour modéliser la représentation que se fait l utilisateur de cette information. Ainsi, elle peut contenir de l information «fausse» d un point de vue réel, du moment qu elle correspond à l attente de l utilisateur, et permet donc de mieux modéliser son besoin d information. En outre, l indexation est effectuée dans l ontologie, plutôt qu en extrayant les termes significatifs des titres. Ainsi, si un terme composé est présent dans le titre, il est identifié comme tel. Pour pouvoir déterminer la précision et le rappel pour l évaluation de nos requêtes, les documents pertinents pour chaque requête ont également été déterminés «à la main». Le détail des titres d articles de la base et des relations de l ontologie créées manuellement est donné en annexe C.

129 5.3. ILLUSTRATION SUR UNE BASE DE TITRES Description des requêtes Les requêtes utilisées pour l évaluation sont les suivantes : 1. nutrition (repas équilibré). Afin de correspondre à notre modèle de requête, celle-ci été reformulée comme (nutrition repas) (nutrition équilibré) 2. (nutrition meal) (nutrition balanced). Cette requête correspond à la traduction de la précédente. 3. temporal spacial 4. evaluation f lexible query 5. fuzzy information 6. model (reasoning decision) Avant évaluation, les termes des requêtes ont été mis sous leur forme lemmatisée, pour que l évaluation sans ontologie, et donc dans l index classique, soit possible. Le nombre de documents pertinents pour chacune de ces requêtes est donné dans le tableau 5.4. Cette information permet de mieux interpréter les valeurs des différentes précisions obtenues lors de l expérimentation, que nous allons présenter par la suite. Requête Nombre de doc. pertinents Tableau 5.4 Nombre de documents pertinents pour les requêtes Évaluation et résultats Dans cette expérimentation, nous avons comparé le résultat de l évaluation des requêtes en utilisant directement l index et en utilisant l ontologie. Les valeurs de précisions obtenues sont présentées respectivement dans les tableaux 5.5 et 5.6. Elles représentent les précisions à 5, 10, 15, 20 et la précision moyenne, comme elles ont été décrites au chapitre 2.

130 130 CHAPITRE 5. RECHERCHE D INFO. PAR FILTRAGE QUALITATIF Requête P5 P10 P15 P20 AvgPr Moy Tableau 5.5 Résultats sans ontologie Requête P5 P10 P15 P20 AvgPr Moy Tableau 5.6 Résultats en utilisant l ontologie Examinons ces résultats plus en détail. Les performances des deux premières requêtes ne sont pas surprenant. En effet, un des documents pertinents pour cette requête est en français. Dans le premier cas, le système ne dispose pas de l ontologie pour effectuer la traduction. Il ne sélectionne donc pas le document français (qui ne contient pas nutrition) pour la requête 2, et en trouve 5 sur 6, d où les valeurs pour P5 à 1 et P10 à 0.5. Le terme nutrition ayant la même orthographe en anglais, les autres documents sont retournés. Il se trouve qu il n y a également qu un seul document ne contenant pas nutrition en anglais, et il est identifié par l autre moitié de la requête. Ainsi, les deux versions de la requête ont la même précision. En revanche, l ontologie permet une traduction des termes des deux requêtes, qui retrouvent alors tous les documents pertinents, d où la pertinence moyenne à 1. Pour références, les documents pertinents sont présentés dans le tableau 5.7 Les résultats de la requête 3 sont largement améliorés par l introduction de synonymes des termes de la requête dans l ontologie. Détaillons la requête 5. Sans ontologie, on obtient

131 5.3. ILLUSTRATION SUR UNE BASE DE TITRES Nutri-Expert, an Educational Software in Nutrition 218 Nutri-Expert et Nutri-Advice, deux logiciels d aide à la construction de repas équilibrés pour l éducation nutritionnelle 234 Balancing Meals Using Fuzzy Arithmetics and Heuristic Search Algorithms 237 Multicenter randomized evaluation of a nutritional education software in obese patients 238 Expert system DIABETO and nutrition in diabetes 239 Evaluation of microcomputer nutritional teaching games in 1876 children at school Tableau 5.7 Documents pertinents pour les requêtes 1 et 2 un seul résultat : «Fuzzy sets and fuzzy information-granulation theory». Avec l ontologie, les relations ajoutées permettent d obtenir le classement détaillé au tableau 5.8. Ainsi, le Doc. Π N Titre Practical Handling of Exception-tainted rules and independence information in possibilistic logic Fuzzy logic techniques in multimedia database querying Fuzzy logic techniques in Multimedia database queryring : a preliminary investigation of the potentials Flexible queries in relational databases - The example of the division operator Semantics of quotient operators in fuzzy relational databases Fuzzy scheduling : Modelling flexible constraints vs. coping with incomplete knowledge Handling locally stratified inconsistent knowledge bases Checking the coherence and redundancy of fuzzy knowledge bases Some syntactic approaches to the handling of inconsistent knowledge bases : A comparative study Part 1 : The flat case Tableau 5.8 Détail pour la requête 5 degré de 0.5 est introduit par une nécessité de 0.5 définie entre les termes information et knowledge, qui est contenu dans les titres correspondants. Le degré de 0.8 est obtenu par une nécessité entre fuzzy et flexible, ou par transitivité entre information, data et database, l article contenant le dernier terme, il n est pas retrouvé par la recherche simple. Requêtes pondérées Considérons à présent des requêtes pondérées :

132 132 CHAPITRE 5. RECHERCHE D INFO. PAR FILTRAGE QUALITATIF 3. temporal (0.7, spacial) 4. evaluation (0.6, flexible) query 5. (0.3, fuzzy) information 6. (0.7, model) (reasoning decision) Les résultats obtenus sont présentés dans les tableaux 5.9 et 5.11 Requête P5 P10 P15 P20 AvgPr Moy Tableau 5.9 Résultats des requêtes floues sans l ontologie On remarque que l impact de la pondération sur les requêtes 3 et 4 n as pas d effet sur le résultat final. En effet, pour la requête 3, aucun document ne contient le terme spacial. Le fait de diminuer son importance ne modifie donc pas le classement. En revanche, en diminuant l importance du terme flexible dans la requête 4, on obtient un titre supplémentaire («Multiple query evaluation based on an enchanced genetic algorithm») avec des degrés à 0.4 donné par le poids. Cependant, ce document ne faisant pas allusion à des recherches flexibles, il n est pas pertinent, et donc le résultat ne s en trouve pas amélioré. En revanche, les résultats de la requête 5 sont grandement améliorés. En effet, la précision moyenne passe de à La version non pondérée de la requête ne retournait en effet qu un seul document. L importance réduite de fuzzy dans la requête pondérée ramène un nombre plus important de requêtes détaillé au tableau 5.10 Même si beaucoup de documents ne sont pas pertinents (précision moyenne à 0.1, ce qui est faible), un certain nombre de documents pertinents est retrouvé. On peut supposer que cette amélioration est due à la collection, qui traite en grande partie du flou. Ainsi, même des documents ne contenant pas le terme fuzzy on de bonnes chance d être pertinent. La pondération des termes de la requête permet ici d exploiter une connaissance a priori sur la collection, et donc de diminuer l importance de terme que l on sait ne pas être fortement discriminant. L impact de cette pondération combiné avec l ontologie n est pas probant sur ce test réduit. On constate néanmoins que l affaiblissement du poids de fuzzy dans la requête 5

133 5.3. ILLUSTRATION SUR UNE BASE DE TITRES Fuzzy sets and fuzzy information-granulation theory Internet-based information discovery : Application to monitoring science and technology TétraFusion : Information Discovery on the Internet Information discovery from semi-structured sources Application to astronomical literature On using genetic algorithms for multimodal relevance optimisation in information retrieval Practical Handling of Exception-tainted rules and independence information in possibilistic logic On the use of aggregation operations in information fusion processes Quasi-possibilistic logic and its measures of information and conflit Logical representation and fusion of prioritized information based on guaranteed possibility measures : Application to the distance-based merging of classical bases Possibilistic merging and distance-based fusion of propositional information Tableau 5.10 Résultat de la requête 5 pondérée sans ontologie Requête P5 P10 P15 P20 AvgPr Moy Tableau 5.11 Résultats des requêtes floues avec l ontologie conduit à dégrader les résultats celle-ci. En effet, un poids de 0.3 conduit à obtenir des titres ne possédant pas de termes lié au concept de flou, mais ayant néanmoins des degrés de possibilité et de nécessité à 0.7. Ainsi, de part notre méthode de tri, ils sont mieux classé que les titres liés à ce concept dans l ontologie avec un degré de nécessité de 0.5, et avec information à 0.5 également, qui sont pourtant considérés comme pertinent. De manière générale, l expansion implicite des requêtes effectuée par l ontologie permet d améliorer grandement les performances du système. En outre, il est possible de faire des recherches par croisement de langue, dans la mesure où l ontologie est judicieusement construite. On voit bien ici que le choix de l ontologie est déterminant dans les performances du système. Dans la mesure où la création de telles ontologies est encore un problème

134 134 CHAPITRE 5. RECHERCHE D INFO. PAR FILTRAGE QUALITATIF ouvert, elle se révèle être le point faible du modèle pour la construction d un système réel. La combinaison de vaste données collectées automatiquement et de relations données par l utilisateur permet dans une certaine mesure de contourner ce problème. Ce test n est cependant pas déterminant quant à l évaluation d un système de taille réelle, étant donné la taille réduite de la collection et le faible nombre de requêtes. L expérimentation a ici été en grande partie limitée par la disponibilité de ressources à grande échelle. Cependant, elle permet d apporter une illustration à notre modèle, et d en montrer dans une certaine mesure la faisabilité et les possibilités de ce type d approche. 5.4 Conclusion L application de notre modèle de filtrage qualitatif à la recherche d information, en considérant les documents comme des ensembles flous de termes, permet d exploiter les connaissances a priori sur le vocabulaire des documents, et cela dès la phase d appariement, évitant la reformulation des requêtes. Ainsi, l expansion des requêtes est gérée de manière transparente. L appariement effectué étant qualitatif par nature, il permet d ordonnancer les résultats obtenus, et ainsi de retourner des documents à l utilisateur même si aucun ne répond parfaitement à la requête, en se basant sur les degrés flous obtenus. Typiquement, ceci permet de gérer des documents exprimés dans des vocabulaires hétérogènes, comme dans le cas extrême du croisement de langues, moyennant l ontologie adaptée. En outre, les documents sont indexés dans une ontologie, qui représente un vocabulaire contrôlé et structuré, aussi bien pour l indexation que pour la formulation des requêtes. Cet aspect peut être utilisé pour apporter une aide à l utilisateur lors de la définition de ses besoins, en lui permettant de choisir les termes de l ontologie pour construire sa requête. De plus, la représentation sous forme d ensembles flous permet à l utilisateur de créer des requêtes plus flexibles qu une simple liste de mots-clés, en introduisant des pondérations sur les termes de la requête et des préférences à prendre en compte lors de l agrégation de ces termes pondérés.

135 Chapitre 6 Évaluation de la pertinence en recherche d information basée sur des méthodes multicritères floues 6.1 Introduction En recherche d information classique, les requêtes sont formulées sous forme d ensemble de mots-clés. Les valeurs de pertinence d un document pour ces mots-clés, calculés lors de l indexation à partir de mesures statistiques, sont ensuite agrégées en fonction de la formulation de la requête (pondération, disjonction ou conjonction, etc.) pour obtenir une mesure de pertinence globale du document vis-à-vis de la requête. Les fonctions d agrégation sont variées, les plus fréquentes étant dérivées du produit et de la somme, ou du minimum et du maximum, et plus généralement, il s agit de t-normes et de t-conormes (cf. annexe A). Cependant, cette approche entraîne une perte d information. En effet, les valeurs indépendantes pour chaque mot-clé de la requête, ou pour chaque sous-ensemble de la requête, ne sont plus disponibles. Une des conséquences de cette perte d information est qu il devient impossible de départager des documents ayant la même valeur finale. Par exemple, examinons le cas d une requête de deux termes utilisant la somme comme opérateur d agrégation. Posons R = t 1 t 2 et supposons que l évaluation de la requête R sur deux documents D 1 et D 2 donne les 135

136 136 CHAPITRE 6. PERTINENCE EN RI PAR MÉTHODES MULTICRITÈRES résultats suivant : rsv(r, D 1 ) = w(t 1, D 1 ) + w(t 2, D 1 ) = = 1 rsv(r, D 2 ) = w(t 1, D 2 ) + w(t 2, D 2 ) = = 1 avec w la fonction de pondération de l index, basée sur tf idf par exemple. Avec ces résultats, ces deux documents ne peuvent être discriminés. Bien évidemment, il est possible de trouver des poids pour avoir un résultat analogue quelle que soit la fonction d agrégation. Dans le cas d une conjonction (produit ou min par ex.), un document peut même être éliminé ou fortement pénalisé par un seul terme faiblement satisfaisant, par exemple, pour trois termes R = t 1 t 2 t 3 : rsv(r, D 1 ) = min(0.1, 0.9, 0.8) = 0.1 rsv(r, D 2 ) = min(0.5, 0.5, 0.5) = 0.5 La question est donc de savoir si l on préfère un document répondant «moyennement» à tous les critères ou répondant «bien» à la majorité des critères. Ce problème se rapproche de la pondération des termes de la requête, et notamment de l utilisation des variables linguistiques comme décrit au chapitre 2. Cependant, nous nous proposons dans ce chapitre d aborder le problème non pas sous l angle de la pondération des termes de la requête, mais en revisitant la mesure de pertinence, en utilisant des méthodes d analyse multicritères. Ces techniques se placent en aval de l évaluation des poids entre les termes de la requête et le document, contrairement aux méthodes de pondération, et sont donc indépendantes du système de formulation des requêtes. Nous présenterons ces méthodes dans la section 6.2. Les résultats obtenus sur une évaluation à grande échelle seront présentés en section 6.3.

137 6.2. À PROPOS DES MÉTHODES MULTICRITÈRES À propos des méthodes multicritères Comme nous l avons vu, l objectif de la recherche d information est d obtenir une liste des documents triés selon leur pertinence à la requête. L évaluation des performances d un système dépend de cette liste et de la position des documents effectivement jugés pertinents. La méthode de tri a donc une importance prépondérante dans le résultat de l évaluation d une requête. Dans la première forme de notre modèle, le degré de pertinence du résultat vis-à-vis de la requête est représenté par un ensemble de couple de valeurs de possibilité et de nécessité. Ces valeurs sont agrégées respectivement afin d obtenir un seul couple pour effectuer le tri, selon la nécessité, puis la possibilité pour départager les ex aequo. Cependant, la méthode d agrégation classique décrite précédemment, à savoir le min pour le ET et le max pour le OU, mérite d être raffinée dans le cadre d un modèle flexible de recherche d information. En effet, dans l exemple d un ensemble conjonctif de mots-clés, si un de ceux-ci a un degré très faible et tous les autres un degré de 1, la pertinence finale sera très faible, alors que cet élément (enregistrement de base de données ou document) peut être considéré comme plus pertinent qu un élément ayant un score moyen pour tous les mots-clés. Afin d affiner cet aspect, on peut considérer une autre méthode d agrégation, plus flexible que le simple min. De plus, même en modifiant la fonction d agrégation, il est possible d obtenir des résultats à égalité. Ainsi, des méthodes de tri plus raffinées, basées sur le vecteur des degrés élémentaires des termes de la requête ou des disjonctions plutôt que sur le résultat de l agrégation autorisent un tri plus détaillé des résultats. Les techniques d agrégation multicritères, utilisées pour effectuer la synthèse d informations traduisant des aspects différents d un même objet, sont bien indiquées pour cela, puisqu elles permettent d évaluer les pertinences de différentes alternatives possibles selon différents points de vues et leur ordonnancement selon ces pertinences relatives. Ainsi, leur objectif est de résoudre les problèmes de comparaison selon plusieurs critères pouvant être contradictoires, problème commun avec la recherche d information qui vise à ordonner, et donc comparer, les documents selon les pertinences des mots-clés de la requête. Il existe deux approches classiques lorsque l on cherche à comparer deux objets selon différents critères. La première consiste à agréger ces critères en une valeur unique, censée représenter la valeur globale de l objet, puis de comparer ces valeurs. C est la technique utilisée pour les notes scolaires par exemple, et c est également celle qui prévaut traditionnellement en recherche d information.

138 138 CHAPITRE 6. PERTINENCE EN RI PAR MÉTHODES MULTICRITÈRES La seconde approche est symétrique à la précédente. Elle consiste à comparer les critères de chaque objet afin de déterminer la préférence entre ceux-ci, puis une fois l ordonnancement effectuer, agréger les critères pour obtenir la valeur de pertinence finale. Deux éléments clés se dégagent donc, la fonction d agrégation utilisée, et la fonction d ordonnancement, que nous allons détailler dans la suite Agrégation multicritères Dans notre modèle, les requêtes sont représentées sous forme de conjonctions de disjonction. Nous avons choisi comme option simplificatrice de n appliquer ces méthodes que sur les conjonctions, le niveau des disjonctions étant traité de manière traditionnelle, pour des raisons simplificatrices. En effet, dans l expérimentation, les requêtes générées automatiquement ne seront que des conjonctions. Ainsi, dans la suite, nous ne considérerons que des opérateurs correspondant à des conjonctions, à savoir des t-normes. Il est cependant possible de compléter le modèle en considérant également les t-conormes au niveau des disjonctions, la démarche étant analogue. En plus du minimum classique, nous proposons une autre méthode d agrégation basée sur le même principe que les OWA. Le OWmin utilise un vecteur de pondération pour minimiser l impact des termes ayant les plus faibles degrés sur la valeur finale. Ainsi, de même que pour les OWA, les vecteurs de degrés sont triés et pondérés, mais c est le minimum des valeurs qui est ensuite considéré, et non leur moyenne. Deux méthodes de pondérations ont été considérées, l une basée sur l implication de Dienes, l autre sur l implication de Gödel (cf. annexe A). Plus concrètement, pour un vecteur T = t 1,..., t n représentant les degrés résultats pour le document considéré, t i est le degré de possibilité ou de nécessité entre le terme i de la requête et le document, une fois le vecteur trié de manière décroissante. Soit le vecteur de pondération W = w 1,..., w n. L agrégation par OW min utilisant l implication de Dienes sera : OW min D (T, W ) = min i (max(t i, 1 w i )) Ici, le poids agit comme un niveau d importance pour les degrés. L utilisation de l implication de Gödel donne : OW min G (T, W ) = min(w i t i ) i où l implication est définie par : { 1 si w i t i w i t i = sinon t i

139 6.2. À PROPOS DES MÉTHODES MULTICRITÈRES 139 Le poids joue ici le rôle de seuil devant être atteint par le degré. De manière symétrique, on définit OWmax pour les disjonctions en considérant le maximum des implications. Le vecteur de pondération devant être de la même longueur que le vecteur lui-même, il est estimé en fonction du nombre de terme de la requête, comme présenté en figure 6.1. Les paramètres a et b permettent de déterminer le type d agrégation utilisée a b Nombres de termes Figure 6.1 Poids de l agrégation par OWmin Par exemple, considérons a = 0.5 et b = 1, relativement à la longueur de la requête. On obtiendrait les résultats du tableau 6.1 Données Pondération Agrégations Dienes Gödel (1, 0.3, 0.6) (1, 1, 0) (0, 0.4, 0.2, 0.8) (1, 1, 0.5, 0) (0.4, 0.7, 0.1, 1, 0, 0.3) (1, 1, 1, 0.666, 0.333, 0) (0.4, 0.7, 1, 0.4, 0.1, 1, 0, 0.3) (1, 1, 1, 1, 0.75, 0.5, 0.25, 0) Tableau 6.1 Exemples de l utilisation de OWmin Raffinements de l agrégation par le minimum Deux fonctions de tri avancé sont considérées dans notre approche. Ces méthodes, basées sur l ordre lexicographique, sont le discrimin et le leximin. Elles raffinent le min classique et permettent ainsi de départager des vecteurs dont le minimum serait égal.

140 140 CHAPITRE 6. PERTINENCE EN RI PAR MÉTHODES MULTICRITÈRES Discrimin Concrètement, on compare les vecteurs deux à deux par la valeur de l agrégation de leurs éléments distincts. Formellement, ceci est défini par : où D(a, b) = {i a i b i } a disc b i D(a,b) a i i D(a,b) Ainsi, les valeurs communes pour un même rang dans les deux vecteurs sont éliminées avant de cumuler les valeurs restantes par un opérateur d agrégation conjonctif, ici min ou un des deux OW min pondérés. Ceci permet de n effectuer le tri que sur les valeurs réellement déterminantes. Appliqué à la recherche d information, cet opérateur permet donc de ne pas tenir compte des termes de la requête qui ont le même poids dans deux documents afin de déterminer l ordre de ceux-ci. Par exemple, soient les deux vecteurs à comparer suivants : rsv(q, d 1 ) = (1, 0.5, 0.1, 0.3) rsv(q, d 2 ) = (0.2, 0.7, 0.1, 1) Ces vecteurs représentent les degrés des termes de la requête q pour les documents d 1 et d 2. Ces degrés sont le résultat des diverses pondérations appliquées au degré direct du terme pour le document de manière générale. Dans notre cas, ce sont les degrés de possibilités et de nécessités π i et ν i pondérés par ω i (cf. formules (3.5)-(3.6) p. 92). En utilisant le min comme opérateur d agrégation des composantes du vecteur comme on le faisait précédemment, ce qui revient à considérer la requête comme une conjonction, les deux vecteurs sont à 0.1, et ne peuvent donc pas être distingués. L utilisation du discrimin permet d «éliminer» le troisième terme qui est commun aux deux vecteurs et n est donc pas discriminant dans leur comparaison relative. Ainsi, la valeur pour rsv(q, d 1 ) devient 0.3 contre 0.2 pour rsv(q, d 2 ), ce qui permet de les trier. Le discrimin permet donc un tri plus précis que le simple min. b i Leximin Il revient à appliquer le discrimin sur des vecteurs préalablement réordonnés. Plus formellement : a lex b k n, a(k) > b(k), i 1,..., k 1a(i) = b(i) avec a(1)... a(n), de même pour b. La considération des valeurs communes est ainsi indépendante de leur place dans le vecteur. Dans le cas de l utilisation du minimum comme fonction d agrégation, ce tri est équivalent à un tri lexicographique des vecteurs triés. En

141 6.3. EXPÉRIMENTATION ET RÉSULTATS 141 effet, supposons que les deux vecteurs précédents aient eu pour valeur : rsv(q, d 1 ) = (1, 0.5, 0.1, 0.2) rsv(q, d 2 ) = (0.2, 0.7, 0.1, 1) Le discrimin ne tient pas compte du troisième terme, mais les deux vecteurs sont alors à 0.2, et ne peuvent toujours pas être distingués. En revanche, le leximin ne considère pas l ordre des composantes. Ainsi, la valeur 0.2 commune est aussi ignorée, même si elle ne correspond pas au même terme de la requête, plaçant le document d 2 avant le document d 1, avec rsv(q, d 2 ) = 0.7 contre rsv(q, d 1 ) = Expérimentation et résultats Dans cette section, nous allons présenter les résultats des expérimentations menées sur un prototype du système décrit précédemment. Ces expérimentations ont été effectuées sur la collection de CLEF Les tests effectués ont pour but de mesurer l impact de l utilisation : 1. des degrés possibilistes dans l évaluation des requêtes 2. des méthodes multicritères dans l ordonnancement des résultats. L aspect touchant aux ontologies n a pas été évalué ici. En effet, ce type d ontologie n est pas disponible à une échelle compatible avec la taille et le type de la collection de test utilisé. Une tentative d utilisation de WordNet comme base de construction de l ontologie a été menée, mais son utilisation a dû être écartée pour des raisons de performances au niveau du temps de calcul des degrés Présentation de la collection La collection utilisée est la collection CLEF2001. Cette collection est similaire dans la présentation et les objectifs à celle de TREC, à ceci près quelle est adaptée à la recherche d information par croisement de langues. À cet effet, elle contient différentes collections d articles de journaux dans différentes langues, telles que le français, l anglais ou l espagnol. La collection de documents anglais que nous avons utilisée ici est constituée d articles du Los Angeles Times de l année Ces documents sont généralement au format SGML et 1 Cross Language Evaluation Forum :

142 142 CHAPITRE 6. PERTINENCE EN RI PAR MÉTHODES MULTICRITÈRES sont identifiés par un numéro. Ici, la partie anglaise de la collection 2001 comporte documents. Pour importer cette collection dans le système, les documents passent par une phase d indexation, qui calcule la fréquence des termes dans chaque document. Les termes d un document sont au préalable lemmatisés, c est à dire que les formes dérivées (pluriel, verbes conjugués, etc.) sont réduites à leur racine commune la plus simple, en se basant sur des heuristiques (algorithme de Porter [Porter, 1980]). De plus, les mots vides, c est à dire les mots n apportant aucune information au texte, comme les articles, sont éliminés. Cette phase d indexation a été réalisée par le système Mercure. La collection d évaluation fournit également un ensemble de requêtes, préalablement évaluées sur la collection de documents par des experts humains. Ces requêtes comportent trois parties : un titre bref donnant l idée générale de la requête, une phrase de description courte, telle qu elle pourrait être formulée par un utilisateur pour décrire rapidement son besoin d information, et une partie narrative, qui spécifie plus clairement les différents critères de pertinence que doit remplir un document pour répondre à la requête. Elles sont également identifiées par un numéro. Les documents jugés pertinents par les experts sont également donnés pour chaque requête. Par exemple, la requête 41 est définie par : titre : Pesticides in Baby Food description : Find reports on pesticides in baby food. partie narrative : Relevant documents give information on the discovery of pesticides in baby food. They report on different brands, supermarkets, and companies selling baby food which contains pesticides. They also discuss measures against the contamination of baby food by pesticides Présentation du système Mercure Mercure est un système de recherche d information basé sur le modèle connexionniste, et développé au sein de l équipe SIG de l Irit [Boughanem et al., 1998]. Le poids w du terme dans le document est calculé avec la formule : w = tf dl l + tf (log(n tot )) (6.1) n tf est la fréquence du terme dans le document, dl est le nombre total de termes dans le document, l est la longueur moyenne des documents, n tot le nombre total de documents,

143 6.3. EXPÉRIMENTATION ET RÉSULTATS 143 et n le nombre de documents contenant le terme. Les longueurs de documents sont calculées en comptant le nombre de termes distincts présents dans l index pour ce document, sans tenir compte du nombre d occurrences. Ici, avec la collection CLEF2001, on a l = et n tot = Cette formule est inspirée du système Okapi [Robertson et Walker, 1999]. La variante présentée ici, et testée par l équipe depuis TREC-9 [Boughanem et Nassr, 2000], permet de mieux atténuer l effet des termes ayant une fréquence trop élevée. C est cette formule que nous avons utilisée ici Adaptation au modèle possibiliste Dans notre modèle, le poids des termes doit être dans [0, 1]. Il est donc nécessaire de normaliser la mesure précédente. La normalisation de ce poids peut se faire par : 1. par la valeur maximale de w sur la collection : on obtient w coll w coll = w max coll (w) 2. par la valeur maximale de w sur le document : on obtient w doc w doc = w max doc (w) Enfin, la valeur du poids permet de déduire les degrés de possibilité et de nécessité entre les termes et le document. La formule (5.1) est étendue pour permettre l expérimentation de l impact de cette transformation sur les performances du modèle. Ainsi, le paramètre α est introduit dans les fonctions de transformation, afin de pouvoir modifier le seuil plutôt que de le considérer à 1. Les valeurs de nécessité et possibilité sont donc calculées par : 2 0 si w = 0 Π = 1 si w α (6.2) N = w α sinon 1 si w = 1 w α 1 α 0 sinon si α < 1 et w α (6.3) Ceci vérifie la condition w = απ + (1 α)n. La figure 6.2 illustre un exemple de représentation de la valeur des degrés Π et N en fonction de w, selon α. Avec α = 0.5 on a Π = 1, N = 2w 1 si w 0.5 et Π = 2w, N = 0 sinon, comme spécifié précédemment.

144 144 CHAPITRE 6. PERTINENCE EN RI PAR MÉTHODES MULTICRITÈRES Π, N Π N =α w Figure 6.2 Relation entre w et (Π, N) selon α Évaluations et Résultats Dans cette évaluation, nous cherchons dans un premier temps à mesurer l impact de l utilisation des degrés possibilistes dans la procédure d appariement des requêtes et des documents. Pour cela, deux séries d évaluations sur le système documentaire ont été menées. La première porte sur l évaluation de requêtes ne comportant qu un seul terme, pour valider le système sans tenir compte des fonctions d agrégations. La deuxième évalue des requêtes plus complexes, générées automatiquement à partir des descriptions de requêtes de CLEF, et représentées par une conjonction de mots-clés. Leur longueur est comprise entre 3 et 15 termes. Dans un deuxième temps, les différentes méthodes de tri et d agrégation multicritères précédentes ont été utilisées sur les résultats des requêtes complexes, afin de mesurer leur impact sur les performances du système Évaluation de requêtes mono-terme Ces évaluations ont été effectuées sur 25 requêtes ne comportant qu un seul terme non pondéré afin de ne pas prendre en compte les effets de l agrégation et de la pondération. Ces requêtes ont été élaborées «à la main» d après les requêtes CLEF. Trois requêtes n ont donné aucun résultat, les moyennes sont donc calculées sur 22 requêtes.

145 6.3. EXPÉRIMENTATION ET RÉSULTATS 145 Le but de cette évaluation est d estimer rapidement la différence entre les deux techniques de normalisation, sans tenir compte des effets d agrégation introduits par des requêtes plus complexe. Poids P5 P10 P15 P20 P30 P100 P1000 AvgPr w w coll w doc Tableau 6.2 Évaluation type Mercure : utilisation directe du poids Le tableau 6.2 présente les précisions de l évaluation des requêtes simples en utilisant uniquement le poids, avec différentes normalisations. Cette évaluation sert de base de comparaison pour les suivantes. La première ligne correspond aux précisions à 5, 10,..., 1000 et moyenne pour l évaluation utilisant directement le poids issu du calcul par Mercure (cf. formule 6.1). Ces précisions sont calculées comme décrit au chapitre 2. Les lignes suivantes présentent les mêmes mesures pour les évaluations utilisant les poids normalisés précédents. La normalisation sur la collection (w coll ) ne change pas le classement final, et les précisions sont donc inchangées par rapport au classement non normalisé. Cependant, on observe une précision plus faible lors de l utilisation de la normalisation sur le document (w doc ). Ceci s explique en partie par la présence d égalités introduites par la normalisation. Ainsi, pour ces documents ex aequo, la position dans le classement n est plus dépendante de la valeur de la pertinence, mais de l algorithme de tri. Ceci introduit un ordre différent, qui n a pas d impact formel, qui peut expliquer en partie cette pénalisation. En effet, le calcul des précisions s effectue par comparaison directe avec les documents estimés pertinents par l expert, en tronquant à n document. Si les n + δ n δ documents sont ex aequo, leur ordre n est pas déterminant, mais la sélection des n premiers élimine les suivants, pourtant pertinents au même degré. Les tableaux 6.3 et 6.4 présentent les précisions de l évaluation des même requêtes que précédemment, mais en utilisant les valeurs de N et Π pour le tri final, en faisant varier le seuil α dans les formules 6.2 et 6.3. Les poids utilisés dans le calcul sont respectivement w doc et w coll. On remarque qu à ce stade, la valeur d α n a aucune incidence sur les résultats. En effet, seul les positions relatives dans le classement sont utilisées pour évaluer la précision, et les changements introduits n ont donc pas d impact si aucune agrégation n est effectuée.

146 146 CHAPITRE 6. PERTINENCE EN RI PAR MÉTHODES MULTICRITÈRES α P5 P10 P15 P20 P30 P100 P1000 AvgPr Tableau 6.3 Utilisation du poids w doc pour le calcul de N et Π La transformation de w vers Π, N étant monotone, l ordre relatif de deux documents sera identique selon que le critère de tri utilisé est le poids w ou les degrés de nécessité et de possibilité. Ainsi les résultats obtenus sont les mêmes que lors de l utilisation directe du poids (tableau 6.2). Il convient donc de remarquer que si cette transformation en elle-même n apporte pas d amélioration par rapport à la simple utilisation des poids statistiques, elle ne dégrade pas non plus les résultats. Ainsi, elle semble pouvoir être utiliser librement pour introduire des degrés de nécessité et de possibilité et pouvoir ainsi exploiter le modèle de filtrage qualitatif Évaluation de requêtes multi-termes Dans ces évaluations, les mêmes 25 requêtes que précédemment ont été construites automatiquement à partir de l indexation des termes des descriptions des requêtes CLEF. Les termes des requêtes ainsi construites n ont cependant pas été pondérés ; seule l agrégation est prise en compte dans ces tests. Le tableau 6.5 présente les résultats de l évaluation type Mercure pour les requêtes composées selon la normalisation utilisée. Dans ce test, le poids des termes est directement utilisé, sans passer par l étape du calcul des degrés possibilistes. Le calcul de la similarité S RD d une requête R pour un document D est obtenu par : S RD = t R λ t w td

147 6.3. EXPÉRIMENTATION ET RÉSULTATS 147 α P5 P10 P15 P20 P30 P100 P1000 AvgPr Tableau 6.4 Utilisation du poids w coll pour le calcul de N et Π Poids P5 P10 P15 P20 P30 P100 P1000 AvgPr w w coll w doc Tableau 6.5 Évaluation type Mercure où λ t est le poids du terme t dans la requête (ici, toujours 1) et w td est le poids du terme dans le document D, calculé selon 6.1 puis éventuellement normalisé. Le tableau 6.6 rapporte les mêmes résultats pour l évaluation sur les mêmes requêtes que l évaluation précédente, mais en utilisant les degrés possibilistes pour estimer la pertinence des documents. La requête étant considérée comme étant une conjonction de termes, et l agrégation est effectuée par : où ici aussi, λ t = 1. Π(R, D) = min t, Π(t, D)), t R N(R, D) = min t, N(t, D)). t R La précision pour α = 0 et α = 1 est identique, puisque dans ces deux cas, cela revient à avoir respectivement Π = 1, N = w et Π = w, N = 0. Le tri est donc finalement dans les deux cas effectué sur w. Les performances moyennes sont inférieures à celle de Mercure.

148 148 CHAPITRE 6. PERTINENCE EN RI PAR MÉTHODES MULTICRITÈRES α P5 P10 P15 P20 P30 P100 P1000 AvgPr Tableau 6.6 Utilisation du poids w coll pour le calcul de N et Π Cependant, les performances à P5 pour une valeur de α de 0.2 ou 0.3, sont légèrement supérieures. Ce résultat peut s interpréter avec l aide de la figure 6.4. Cette figure montre la répartition du nombre de termes en fonction de leur poids dans l index. On voit que la majorité des termes ont un poids aux environs de 0.2. La transformation du poids statistique en degré possibiliste étant fonction de la valeur relative de w par rapport à α, on peut donc s attendre à ce que ces valeurs de α discriminent le plus de termes. Pour des valeurs de α supérieures à 0.5, le nombre de terme impliqué étant très faible, il est peu probable que ceux ci figurent dans la requête. Ainsi, pour ces valeurs de α, on se retrouve dans des cas où les documents ne sont discriminés que par Π ou N, la valeur du degré étant directement proportionnelle à w, et les performances se stabilisent donc vers la performance obtenue pour α = 1. Ainsi, notre méthode basée sur les degrés possibiliste permet une légère amélioration (2.3%) du système basé uniquement sur les poids statistiques. Cependant, cette amélioration est dépendante de la valeur du paramètre α, elle-même déterminée par la répartition des termes pour les poids, et donc par la collection. Il serait intéressant d évaluer le système sur d autres collections, afin de mesurer l impact de celle-ci sur les performances du système. En effet, le poids statistique est lui-même calculé en fonction de la répartition des termes dans la collection, afin d augmenter le pouvoir discriminant des termes les moins fréquents. Il est ainsi normal que l on obtienne peu de termes de poids très élevés. Il parait

149 6.3. EXPÉRIMENTATION ET RÉSULTATS P5 P10 Avg Figure 6.3 Variation de la précision en fonction de α donc naturel de supposer que la distribution observée doit être relativement indépendante de la collection, mais cela reste à vérifier Évaluation des méthodes de tri Comme décrit précédemment, plusieurs méthodes de tri des résultats sont possibles. En outre, les différents calculs impliqués dans l établissement des degrés entre un terme et un document et la normalisation, impliquent des valeurs réelles ne diffèrent parfois qu au niveau de la cinquième décimale. Ainsi, un arrondi a été appliqué sur les degrés finaux avant d effectuer le tri, pour limiter l impact de cette précision dans le calcul. Comme précédemment, les évaluations ont été effectuées sur 25 requêtes générées d après leur description, en faisant varier le paramètre α de conversion entre le poids du terme dans le document et les degrés possibilistes. Différentes précisions ont été utilisées pour le tri. Ainsi, les résultats obtenus en gardant de une à six décimales pour les degrés ont été examinés. Enfin, les méthodes de tri décrites en section 6.2 ont été utilisées pour déterminer les documents les plus pertinents. Le tableau 6.7 présente les dix meilleurs résultats pour P5 selon la valeur de α, la précision utilisée, et les méthodes de tri et d agrégation.

150 150 CHAPITRE 6. PERTINENCE EN RI PAR MÉTHODES MULTICRITÈRES Proportion de terme % Poids: w coll Figure 6.4 Répartition des termes selon leur poids Les résultats obtenus sont prometteurs, puisque l on observe une nette amélioration par rapport à la méthode de tri classique utilisée précédemment. Les meilleurs résultats obtenus sont même meilleurs que ceux de Mercure ( à P5, cf. tableau 6.5) avec une amélioration au mieux de 9.3% à P5. Cependant, la précision moyenne est moins bonne. En effet, le nombre de documents réellement pertinents pour chaque requête, donnés dans le fichier de pertinence de la collection, est réduit de l ordre de la dizaine. Le tri perd son impact avec le n de la précision croissant, puisque le calcul de la précision évalue uniquement la proportion de documents pertinents présent dans les n premiers résultats, indépendamment de leur position. La méthode de tri utilisée a donc un fort impact sur les performances du système. Cependant, dans le cadre d un système de recherche d information documentaire à l échelle réelle, seules les performances obtenues pour les premiers résultats sont vraiment déterminantes. En effet, l utilisateur ne considère en général que les premiers documents retournés par sa recherche, sauf si ceux-ci sont de manière évidente non-pertinents, et consulte rarement les 1000 premiers documents obtenus. Ainsi, les résultats obtenus sont considérés comme satisfaisants, malgré les performances moyennes plus faibles.

151 6.4. CONCLUSION 151 α Tri Agrégation Arrondi P5 P10 AvgPr 0.1 leximin OW min D leximin OW min G leximin OW min D leximin OW min D leximin OW min D leximin OW min D leximin min leximin OW min D leximin OW min G discrimin OW min D Mercure somme Tableau 6.7 Évaluation des méthodes de tri 6.4 Conclusion Dans ce chapitre, nous avons présenté une nouvelle approche pour estimer la pertinence générale d un document à partir de la pertinence de ses mots-clés, ainsi que des méthodes d ordonnancement alternatives, basées sur l agrégation multicritères. Cette approche permet de mieux tenir compte des termes de la requête et ainsi de gagner en spécificité. Elle s intègre en outre bien avec notre approche possibiliste. Cette approche a été évaluée à grande échelle sur une collection de documents issue de la collection d évaluation de CLEF2001, en suivant la méthodologie de TREC. Différentes méthodes d ordonnancement et d agrégation ont ainsi été testées, conjointement à l utilisation des degrés possibilistes dans l estimation de la pertinence. Les résultats obtenus sont encourageants, puisque nous avons obtenu une nette amélioration par rapport à une évaluation plus classique basée sur le système Mercure et utilisant directement les poids de l index, calculés à partir des données statistiques sur les documents, agrégés par une somme pondérée, approche classique dans le domaine de la recherche d information. Cette amélioration n a cependant été observée que pour une précision à 5 documents, c est à dire en ne considérant que les 5 premiers documents retrouvés. Ce problème est pourtant à minimiser, dans la mesure où en recherche d information, seules les performances obtenues pour les premiers résultats sont vraiment déterminantes, puisque dans un système réel, l utilisateur limite généralement sa recherche aux premiers documents retournés. Ces

152 152 CHAPITRE 6. PERTINENCE EN RI PAR MÉTHODES MULTICRITÈRES expérimentations méritent donc d être poursuivies, pour explorer toutes les implications de l utilisation des techniques multicritères.

153 Conclusion et perspectives Les travaux présentés dans cette thèse sont liés aux domaines de la recherche d information au sens général, que celle-ci soit de nature documentaire, dans le cas de documents textuels, ou structurés dans le cas de bases de données. Le but de ce type de système est de retrouver de l information spécifique aux besoins formulés par l utilisateur parmi une masse d information très importante. Nous avons ainsi présenté les approches courantes de ces domaines, aussi bien dans le monde des bases de données que de la recherche documentaire. En particulier, nous avons abordé l utilisation de techniques issues de la logique floue, dont le but est de modéliser l imprécision de l information disponible et de permettre à l utilisateur de formuler des requêtes plus flexibles en terme de préférence. La problématique dégagée de ces observations nous a donc amené à aborder le thème de la recherche d information sous l angle de la théorie des possibilités, dans le but de mieux représenter les préférences et les connaissances a priori de l utilisateur lors de la formulation de sa requête. Notre approche s est donc détaillée en deux grandes parties. Tout d abord, nous avons défini le cadre théorique du filtrage qualitatif, qui permet d exploiter les propriétés de flexibilité et d imprécision du filtrage flou à des termes purement linguistique. Ceci permet de définir des relations entre les termes d un vocabulaire usuel au moyen de degrés de nécessité et de possibilité, représentant l inclusion et l intersection de leurs significations. Il est ainsi possible de représenter des relations sémantiques telles que la spécialisation, la généralisation et la synonymie dans un cadre théorique défini et compatible avec le filtrage flou classique. Ainsi, il est possible de traiter l information purement textuelle et l information définie sur un domaine numérique de manière homogène. Dans ce cadre, nous avons développé une représentation des relations possibilistes entre les termes sous la forme d ontologies possibilistes, et exploité celles-ci dans un processus d appariement de requêtes flexibles avec de l information imprécise et hétérogène. Les bases 153

154 154 CONCLUSION ET PERSPECTIVES de la théorie des possibilités autorisent ainsi de définir les requêtes et les données au moyen d ensembles flous, capturant ainsi les subtilités des préférences et des imprécisions qui leur sont inhérentes. Ainsi, l utilisateur est à même de formuler une requête correspondant au mieux à ses besoins, et la représentation des données peut correspondre de manière plus fidèle à l information qu elle doit traduire. De plus, l exploitation de cette ontologie permet d étendre le résultat d une requête sans passer par une phase de reformulation ou d expansion. En effet, les relations entre termes similaires sont prises en compte dans le processus d appariement lui-même. Ce cadre théorique a ensuite été appliqué à deux domaines plus concrets : les bases de données et les collections documentaires. En particulier, des expérimentations ont été menées pour mettre en évidence la faisabilité pratique de notre théorie, ainsi que les avantages qu elle apporte par rapport à des approches plus classiques. Nous avons enfin été amenés à aborder l évaluation de la pertinence d un document visà-vis d une requête sous l angle des méthodes multicritères. En effet, le type d agrégation des degrés de pertinence élémentaires des termes afin d obtenir un degré de pertinence général pour la requête, tel qu il est traditionnellement utilisé en recherche d information, ne permet pas, dans certains cas, de discriminer les résultats de manière suffisamment efficace. En revanche, une approche multicritère utilise des techniques d agrégation et d ordonnancement plus fines, et permet donc une meilleure évaluation de la pertinence globale d un document. Les résultats présentés ici, obtenus lors de tests à grande échelle sur une collection d évaluation classique du domaine de la recherche d information, vont dans ce sens. En effet, l utilisation de ces méthodes d ordonnancement alternatives a permis d améliorer les performances de notre système expérimental par rapport à l utilisation de l agrégation et du tri traditionnels. Ce travail ouvre de nombreuses perspectives. La plus évidente est l utilisation d une ontologie dans l évaluation du système de recherche documentaire, et l évaluation sur une collection de test. Ce travail se heurte cependant au problème de la disponibilité des ressources. En effet, le type d ontologie nécessaire à ce type d évaluation, en particulier à grande échelle, est inexistant à notre connaissance. Une méthode pour adapter une ontologie classique existante à notre système a cependant été présentée. Pourtant, cette adaptation induit une ontologie stricte, où les degrés obtenus sont binaires. D autres types de relations sont souvent présentes dans les ontologies, comme par exemple la composition, qu il pourrait être intéressant d exploiter dans ce cadre pour calculer des degrés plus flous. Une autre solution envisageable pour obtenir une ontologie aux degrés moins stricts serait

155 CONCLUSION ET PERSPECTIVES 155 de soumettre celle-ci à une phase d apprentissage, similaire à celle utilisée dans les méthodes connexionnistes de recherche d information. Les degrés représentants les relations entre les termes pourraient ainsi être adaptés pour mieux correspondre aux résultats attendus. Un autre point à propos de l exploitation des ontologies concerne la portée des requêtes. En effet, tout au long de ce travail, nous avons supposé que si un terme est plus général ou plus spécifique que le terme recherché, il convient également (dans une certaine mesure). Cependant, l utilisateur peut désirer restreindre sa recherche à des documents plus généraux, ou plus spécifiques. En outre, un document retrouvé à l aide d un terme trop généralisé pourra être considéré par l utilisateur comme ne répondant pas à sa recherche, le document n étant pas assez spécifique. Il convient donc d étudier plus en profondeur un mécanisme permettant à l utilisateur de limiter la portée de sa recherche. Plus généralement, une meilleure intégration de l ontologie dans le processus de formulation des requêtes doit être étudiée, comme moyen d aide à la création de requête par exemple. Par ailleurs, les expérimentations utilisant les méthodes multicritères se sont révélées encourageante. Elles n ont cependant pas exploité pleinement toutes les ressources de ces approches. En effet, les approches multicritères sont une branche importante dans le domaine de la prise de décision, et de ce fait sont plus étendues que l utilisation qui en a été faite ici. Il serait donc intéressant de pousser plus loin l utilisation de ces techniques dans le domaine de la recherche d information, notamment en expérimentant d autres méthodes d agrégations et de classement.

156 156 CONCLUSION ET PERSPECTIVES

157 Bibliographie [Allan et al., 2001] Allan, J., Connell, M., Croft, W., Feng, F., Fisher, D. et Li, X. (2001). INQUERY and TREC-9. In Proc. of TREC-9, pages NIST special. [Andreasen et al., 1997] Andreasen, T., Christiansen, H. et Larsen, H. L., éditeurs (1997). Flexible Query Answering Systems. Kluwer. [Ballesteros et Croft, 1996] Ballesteros, L. et Croft, W. (1996). Dictionary methods for cross-lingual information retrieval. In Proc. of the 7th Conference on Database and Expert Systems Applications, pages DEXA 96, Springer-Verlag. [Ballesteros et Croft, 1998] Ballesteros, L. et Croft, W. (1998). Resolving ambiguity for cross-language retrieval. In Proc. of the 21st ACM-SIGIR 98, pages ACM Press. [Barbara et al., 1992] Barbara, D., Garcia-Molina, H. et Porter, D. (1992). Management of probabilistic data. IEEE Transactions on Knowledge and Data Engineering, 4: [Belew, 1989] Belew, R. (1989). Adaptative information retrieval : using a connectionist representation to retrieve and learn about document. In Proc. of the 12th annual Intern. ACM-SIGIR conference on research and development in IR, pages Boston, USA. [Benferhat et al., 2002] Benferhat, S., Boughanem, M., Chrisment, C., Nassr, N. et Prade, H. (2002). Disambiguation translation in multilingual queries. In Proc.of the 9th International Conference, Information Processing and Management of Uncertainty in Knowledge-based Systems, pages IPMU 2002, Annecy, France. [Berger et Lafferty, 1999] Berger, A. et Lafferty, J. (1999). Information retrieval as statistical translation. In Proc. of ACM-SIGIR 99, pages [Berners-Lee et al., 2001] Berners-Lee, T., Hendler, J. et Lassila, O. (2001). The semantic web : A new form of web content that is meaningful to computers will unleash a revolution of new possibilities. Scientific American. 157

158 158 BIBLIOGRAPHIE [Berry et al., 1999] Berry, M. W., Drmac, Z. et Jessup, E. R. (1999). Matrices, vector spaces and information retrieval. SIAM Review, 41(2): [Bidault et al., 2002] Bidault, A., Froidevaux, C. et Safar, B. (2002). Proximité entre requêtes dans un contexte médiateur. In Actes RFIA 2002, Angers, volume 2, pages [Bollmann-Sdora et Raghavan, 1993] Bollmann-Sdora, P. et Raghavan, V. (1993). On the delusiveness of adopting a common space for modeling IR object : are queries documents? Journal of the American Society for Information Science, 44(10): [Bookstein, 1980] Bookstein, A. (1980). Fuzzy requests : an approach to weighted boolean searches. Journal of the American Society for Information Science, 31(4): [Bordogna et al., 1991] Bordogna, G., Carrara, P. et Pasi, G. (1991). Query term weights as constraints in fuzzy information retrieval. Information Processing and Management, 27(1): [Bordogna et Pasi, 1993] Bordogna, G. et Pasi, G. (1993). A fuzzy linguistic approach generalizing boolean information retrieval : a model and its evaluation. Journal of the American Society for Information Science, 44(2): [Bordogna et Pasi, 1995a] Bordogna, G. et Pasi, G. (1995a). Controling information retieval through a user adaptive representation of documents. International Journal of Approximate Reasoning, 12: [Bordogna et Pasi, 1995b] Bordogna, G. et Pasi, G. (1995b). Linguistic aggregation operators in fuzzy information retrieval. International Journal of Intelligent systems, 10(2): [Bordogna et Pasi, 1996] Bordogna, G. et Pasi, G. (1996). A user adaptative neural network supporting a rule-based relevance feedback. Fuzzy Sets and Systems, 82: [Bosc et al., 1999] Bosc, P., Buckles, B., Petry, F. et Pivert, O. (1999). Fuzzy databases. In Bezdek, J., Dubois, D. et Prade, H., éditeurs : Fuzzy Sets in Approximate Reasoning and Information Systems, chapitre 7, pages Kluwer Academic Publishers. [Bosc et al., 1997] Bosc, P., Dubois, D., Pivert, O. et Prade, H. (1997). Flexible queries in relational databases the example of division operator. Theorical Computer Science, 171:

159 BIBLIOGRAPHIE 159 [Bosc et Liétard, 1993] Bosc, P. et Liétard, L. (1993). On the extension of the use of the OWA operator to evaluate some quantifications. In European Congress on Fuzzy and Intelligent Techniques, pages EUFIT 93, Aachen, Germany. [Bosc et Pivert, 1992] Bosc, P. et Pivert, O. (1992). Some approaches for relational databases flexible querying. Journal of Intelligent Information Systems, 1: [Bosc et Pivert, 1995] Bosc, P. et Pivert, O. (1995). Sqlf : A relational database language for fuzzy quering. IEEE Trans. on Fuzzy Systems, 3(1):1 17. [Bosc et Pivert, 2002] Bosc, P. et Pivert, O. (2002). Mixing selections and foreign key joins in queries against possibilistic databases. In Proc. of the 13th International Symposium on Foundations of Intelligent Systems, pages Springer-Verlag. [Bouchon-Meunier et Yao, 1992] Bouchon-Meunier, B. et Yao, J. (1992). Linguistic modifiers and imprecise categories. Journal of Intelligent Systems, 7: [Boughanem, 1992] Boughanem, M. (1992). Système de recherche d information d un modèle classique à un modèle connexioniste. Thèse de doctorat, Université Paul Sabatier, Toulouse. [Boughanem et al., 2001] Boughanem, M., Chrisment, C. et Nassr, N. (2001). Investigation on disambiguation in CLIR : aligned corpus and bi-directional translation based strategies. In Lecture Notes in Computer Science : Cross-Language Information Retrieval and Evaluation, pages Workshop of Cross-Language Evaluation Forum, CLEF 2001, Germany, Springer-Verlag. [Boughanem et al., 1998] Boughanem, M., Dkaki, T., Mothe, J. et Soule-Dupuy, C. (1998). Mercure at TREC-7. In Proceedings of TREC-7, pages [Boughanem et al., 2002] Boughanem, M., Loiseau, Y. et Prade, H. (2002). Graded pattern matching in a multilingual context. In Baets, B. D., Fodor, J. et Pasi, G., éditeurs : Proc. 7th Meeting Euro Working Group on Fuzzy Sets, pages Eurofuse, Varena. [Boughanem et al., 2003] Boughanem, M., Loiseau, Y. et Prade, H. (2003). Filtrage qualitatif d information linguistiques. In Rencontres Francophones sur la Logique Floue et ses Applications, pages LFA 03, Tours, Cépaduès Éditions. [Boughanem et Nassr, 2000] Boughanem, M. et Nassr, N. (2000). Mercure at CLEF-1. In Peters, C., éditeur : Lecture Notes in Computer Science : Cross-Language Information Retrieval and Evaluation, volume 2069, pages Workshop of Cross-Language Evaluation Forum, CLEF 2000, Lisbon, Springer-Verlag.

160 160 BIBLIOGRAPHIE [Boughanem et al., 2004] Boughanem, M., Pasi, G. et Prade, H. (2004). Fuzzy set approach to concept-based information retrieval. In 10th International Conference IPMU, pages IPMU 04, Perugia (Italy). [Buckles et Petry, 1982] Buckles, B. et Petry, F. (1982). A fuzzy model for relational databases. Fuzzy Sets and Systems, 7: [Buckles et Petry, 1983] Buckles, B. et Petry, F. (1983). Information theoretic characterization of fuzzy relational databases. IEEE Transactions on Systems, Man and Cybernetics, 12: [Buckles et Petry, 1985] Buckles, B. et Petry, F. (1985). Query languages for fuzzy databases. In Kacprzyk, J. et Yager, R., éditeurs : Management Decision Support Systems Using Fuzzy Sets and Possibility Theory, pages Verlag TUV Rheinland Köln Germany. [Buell, 1982] Buell, D. (1982). An analysis of some fuzzy subset applications to information retrieval systems. Fuzzy Sets and Systems, 7(1): [Buell, 1985] Buell, D. (1985). A problem in information retrieval with fuzzy sets. Journal of the American Society for Information Science, 36(6): [Buell et Kraft, 1981] Buell, D. et Kraft, D. (1981). Threshold values and boolean retrieval systems. Information Processing and Management, 17(3): [Bulskov et al., 2002] Bulskov, H., Knappe, R. et Andreasen, T. (2002). On measuring similarity for conceptual querying. In Flexible Query Answering Systems, LNAI 2522, pages Springer. [Cater et Kraft, 1989] Cater, S. et Kraft, D. (1989). A generalization and classification of the waller-kraft wish-list. Information Processing and Management, 25: [Cayrol et al., 1982] Cayrol, M., Farreny, H. et Prade, H. (1982). matching. Kybernetes, 11: Fuzzy pattern [Chang et Chen, 1987] Chang, S. et Chen, W. (1987). and-less retrieval : toward perfect ranking. In Proc. of the 50th Annual Meeting of the American Society for Information Science. Information : The Transformation of Society, pages Boston, Medford, MA, NJ. [Cleverdon, 1967] Cleverdon, C. (1967). The cranfield tests on index language devices. In Aslib Proceedings, volume 19, pages [Codd, 1970] Codd, E. (1970). A relational model for large shared data banks. Communications of the ACM, 13:

161 BIBLIOGRAPHIE 161 [Codd, 1979] Codd, E. (1979). Extending the database relational model to capture more meaning. ACM Transactions on Database Systems, 4: [Cooper, 1968] Cooper, W. (1968). Expected search length : a single measure of retrieval effectiveness based on the weak ordering action of retrieval systems. American Documentation, 19: [Crestani et van Rijsbergen, 1994] Crestani, F. et van Rijsbergen, C. (1994). Probability kinematics in information retrieval. In Proc. of the 18th annual Int. ACM-SIGIR conference on research and development in IR, pages Seatle, Washington. [Crouch, 1990] Crouch, C. (1990). An approach to the automatic construction of global thesauri. Information Processing and Management, 26(5): [Cubero et al., 1994] Cubero, J., Medina, J., Pons, O. et Vila, M. (1994). The generalized selection : an alternative way for the quotient operations in fuzzy relational databases. In Conference on Information Processing and Management of Uncertainty, pages IPMU 94, Paris, France. [Davis, 1998] Davis, M. (1998). On the effective use of large parallel corpora in crosslanguage text retrieval. In Grefenstette, G., éditeur : Cross-Language Information Retrieval, pages Kluwer Academic, Boston. [de Tré et al., 2004] de Tré, G., de Caluwe, R. et Prade, H. (2004). Null values in prospect of data integration. In Bouzeghoub, M., Goble, C., Kashyap, V. et Spaccapietra, S., éditeurs : Semantics of a Networked World, semantics for grid databases, volume LNCS IC5NW 2004, Springer. [Diekema et al., 1998] Diekema, A., Oroumchian, F., Sheridan, P. et Liddy, E. (1998). TREC-7 evaluation of conceptual interlangua document retrieval (CINDOR) in English and French. In Proc. of TREC-7, pages NIST special publiscation. [Dillon et Desper, 1980] Dillon, M. et Desper, J. (1980). The use of automatic relevance feedback in boolean retrieval systems. Journal of Documentation, 36(3): [Dubois et al., 1997] Dubois, D., Nakata, M. et Prade, H. (1997). Find the items which certainly have (most of) the important characteristics to a sufficient degree. In International Fuzzy Systems Assoc. World Congress, pages IFSA 97, Prague. [Dubois et Prade, 1985] Dubois, D. et Prade, H. (1985). A review of fuzzy sets aggregation connectives. Information Sciences, 3: [Dubois et Prade, 1986] Dubois, D. et Prade, H. (1986). Weighted minimum and maximum operations in fuzzy set theory. Information Sciences, 39:

162 162 BIBLIOGRAPHIE [Dubois et Prade, 1990a] Dubois, D. et Prade, H. (1990a). Measuring properties of fuzzy sets : a general technique and its use in fuzzy query evaluation. Fuzzy Sets and Systems, 38: [Dubois et Prade, 1990b] Dubois, D. et Prade, H. (1990b). Resolution principles in possibilistic logic. Int. Jour. of Approximate Reasoning, 4(1):1 21. [Dubois et Prade, 1995] Dubois, D. et Prade, H. (1995). Tolerant fuzzy pattern matching : an introduction. In Bosc, P. et Kacprzyk, J., éditeurs : Fuzziness in Database Management Systems, pages Physica-Verlag. [Dubois et Prade, 1996] Dubois, D. et Prade, H. (1996). Semantic of quotient operators in fuzzy relational databases. Fuzzy Sets and Systems, 78: [Dubois et al., 1988] Dubois, D., Prade, H. et Testemale, C. (1988). Weighted fuzzy pattern matching. Fuzzy Sets and Systems, 28: [Dumais, 1995] Dumais, S. (1995). Latent semantic indexing (LSI), TREC-3 report. In Proc. of TREC-3, pages [Eastman et Nakkouzi, 1987] Eastman, C. et Nakkouzi, Z. (1987). Negation in queries : global and local contexts. In Chen, C., éditeur : Proc. of the 50th ASIS Annual Meeting, pages ASIS 87, Boston, Medford. [Farreny et Prade, 1986] Farreny, H. et Prade, H. (1986). Dealing with vagueness of natural languages in man-machine communication. In Karwowski, W. et Mital, A., éditeurs : Applications of Fuzzy Set Theory in Human Factors, pages Elsevier. [Fodor et al., 1997] Fodor, J., Yager, R. et Rybalov, A. (1997). Structure of uninorms. International Journal of Uncertainty, Fuzzyness and Knowledge Based Systems, 5: [Foltz, 1990] Foltz, P. W. (1990). Using latent sementic indexing for information filtering. CACM, pages [Gessert, 1991] Gessert, G. (1991). Handling missing data by using stored truth values. ACM SIGMOD Record, 20: [Gollins et Sanderson, 2000] Gollins, T. et Sanderson, M. (2000). Sheffield university CLEF2000 submission bilingual track : German to english. In Peters, C., éditeur : Lecture Notes in Computer Science : Cross-Language Information Retrieval and Evaluation, volume 2069, pages Workshop of Cross-Language Evaluation Forum, CLEF 2000, Lisbon, Springer-Verlag. [Grant, 1980] Grant, J. (1980). Incomplete information in a relational database. Fundamenta Informatica, 3:

163 BIBLIOGRAPHIE 163 [Guarino et al., 1999] Guarino, N., Masolo, C. et Vetere, G. (1999). Ontoseek : content-based access to the web. IEEE Intelligent Systems, 14(3): [Harashi et al., 1992] Harashi, I., Naito, E., Wakami, N., Terano, T., Sugeno, M., Mukaidono, M. et Shigemasu, K. (1992). A proposal of fuzzy connective with learning function and its application to fuzzy information retrieval. In Fuzzy Engineering Toward Human Friendly Systems, pages Yokohama, Japan, Amsterdam, The Netherlands, IOS Press. [Harman, 1992] Harman, D., éditeur (1992). The First Text REtrieval Conference. NIST Special Publication. [Ichikawa et Hirakawa, 1986] Ichikawa, T. et Hirakawa, M. (1986). ARES : a relational database with capability of performing flexible interpretation of queries. IEEE Transactions on Software Engeneering, 12: [Kacprzyk et Ziolkowski, 1986] Kacprzyk, J. et Ziolkowski, A. (1986). Database query with fuzzy linguistic quantifiers. IEEE Transactions on Systems, Man and Cybernetics, 16: [Kamel et al., 1990] Kamel, M., Hadfield, B. et Ismail, M. (1990). Fuzzy query processing using clustering techniques. Information Processing and Management, 26(2): [Kohonen, 1989] Kohonen, T. (1989). Self-organization and associative memory. Springer Verlag, Berlin, 3 édition. [Kohout et al., 1983] Kohout, L., Keravanou, E. et Bandler, W. (1983). Information retrieval system using fuzzy relational products for thesaurus construction. In Proc. IFAC Fuzzy Information, pages Marseille, France. [Kraft et Bookstein, 1978] Kraft, D. et Bookstein, A. (1978). Evaluation of information retrieval systems : a decision theory approach. Journal of the American Society for Information Science, 29: [Kraft et al., 1995] Kraft, D., Bordogna, G. et Pasi, G. (1995). An extended fuzzy linguistic approach to generalize boolean information retrieval. Journal of Information Sciences, Applications, 2(3): [Kraft et al., 1999] Kraft, D., Bordogna, G. et Pasi, G. (1999). Fuzzy set techniques in information retrieval. In Bezdek, J., Dubois, D. et Prade, H., éditeurs : Fuzzy Sets in Approximate Reasoning and Information Systems, chapitre 8, pages Kluwer Academic Publishers.

164 164 BIBLIOGRAPHIE [Kraft et Buell, 1983] Kraft, D. et Buell, D. (1983). Fussy sets and generalized boolean retrieval systems. International Journal of Man-Machine Studies, 19(1): [Kwok, 1989] Kwok, K. (1989). A neural network for probabilistic information retrieval. In Proc. of ACM-SIGIR, pages SIGIR 89. [Kwok, 1995] Kwok, K. (1995). A network approach to probabilistic information retrieval. ACM Transactions on Information Systems, 12: [Kwok et al., 1999] Kwok, K., Grunfeld, L. et Chan, M. (1999). TREC-8 adhoc query and filtering track experiments using PIRCS. In Proc. of TREC-8, pages [Lacroix et Lavency, 1987] Lacroix, M. et Lavency, P. (1987). Preferences : putting more knowledge into queries. In Conference on Very Large Data Bases, pages [Landauer et Littman, 1998] Landauer, T. et Littman, M. (1998). Fully automatic cross-language document retrieval using latent semantic indexing. In Proc. of the 6th annual conference of UW center for the new OED and text research, pages [Lipski, 1979] Lipski, W. (1979). On semantic issues connected with incomplete information databases. ACM Transactions on Database Systems, 4: [Littman et al., 1998] Littman, M., Dumais, S. et Landauer, K. (1998). Automatic cross-language information retrieval using latent semantic indexing. In Grefenstette, G., éditeur : Cross-Language Information Retrieval, pages Kluwer Academic, Boston. [Loiseau et Prade, 2002] Loiseau, Y. et Prade, H. (2002). Qualitative pattern matching with linguistic terms. In Vidal, T. et Liberatore, P., éditeurs : STarting AI Researchers Symp., pages STAIRS 2002, Lyon, IOS Press. [Loiseau et al., 2004] Loiseau, Y., Prade, H. et Boughanem, M. (2004). Qualitative pattern matching with linguistic terms. Ai Communications, The european journal on artificial intelligence, 17(1): [Maron et Kuhns, 1960] Maron, M. et Kuhns, J. (1960). On relevance probabilistic indexing and information retrieval. Journal of the ACM, 7: [Miller et al., 1990] Miller, G., Beckwith, R., C.Fellbaum, Gross, D. et Miller, K. (1990). Introduction to wordnet : An on-line lexical database. Journal of Lexicography, 3(4): [Miyamoto, 1990a] Miyamoto, S. (1990a). Fuzzy sets in Information Retrieval and Cluster Analysis. Kluwer Academic Publisher. [Miyamoto, 1990b] Miyamoto, S. (1990b). Information retrieval based on fuzzy associations. Fuzzy Sets and Systems, 38(2):

165 BIBLIOGRAPHIE 165 [Miyamoto et Nakayama, 1986] Miyamoto, S. et Nakayama, K. (1986). Fuzzy information retrieval based on a fuzzy pseudothesorus. IEEE Transactions on Systems, Man and Cybernetics, 16(2): [Molinari et Pasi, 1996] Molinari, A. et Pasi, G. (1996). A fuzzy representation of html documents for information retrieval systems. In Proc. of the IEEE International Conference on Fuzzy Systems, volume 1, pages New Orleans, U.S.A. [Motro, 1988] Motro, A. (1988). VAGUE : a user interface to relational queries that permits vague queries. ACM Transactions on Office Information Systems, 6: [Mouaddib, 1994] Mouaddib, N. (1994). Fuzzy identification in fuzzy databases-the nuanced relational division. Journal of Intelligent Systems, 9: [Mouaddib et Subtil, ] Mouaddib, N. et Subtil, P. Management of uncertainty and vagueness in databases : the FIRMS point of view. Int. Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 5(4): [Myoung et al., 1993] Myoung, H., Joon, H. et Yoon, J. (1993). Analysis of fuzzy opérators for hight quality information retrieval. Information Processing Letters, 46(5): [Neuwirth et Reisinger, 1982] Neuwirth, E. et Reisinger, L. (1982). Dissimilarity and distance coefficients in automation-supported thesauri. Information Systems, 7(1): [Oard et al., 1998] Oard, D., Wang, J., Llin, D. et Soboroff, I. (1998). TREC-8 experiment at Maryland : CLIR, QA, and routing. In Proc. of TREC-8, pages NIST special publication. [Ogawa et al., 1991] Ogawa, Y., Morita, T. et Kobayashi, K. (1991). A fuzzy document retrieval system using the keyword connection matrix and a learning method. Fuzzy Sets and Systems, 39(2): [Pak et al., 1993] Pak, S., Kim, C. et Kim, D. (1993). Fuzzy querying in relationnal databases. In IFSA 93, pages International Fuzzy Systems Association Congress, Seoul, Korea. [Pevzner, 1972] Pevzner, B. (1972). Comparative evaluation of the operation of the english variants of the pusto-nepusto system. Automatic Documentation and Mathematical Linguistics, 6(2): [Pirkola, 1998] Pirkola, A. (1998). The effect of query structure and dictionary setups in dictionary-based cross-language information retrieval. In Proc. of the 21st Int. ACM SIGIR, Conference on research and development in information retrieval, pages

166 166 BIBLIOGRAPHIE [Ponte et Croft, 1998] Ponte, J. et Croft, W. (1998). A language modelling approach to information retrieval. In Proc. of the 21st Int. ACM SIGIR, Conference on research and development in information retrieval, pages ACM Press. [Porter, 1980] Porter, M. (1980). An algorithm for suffix stripping. Program, 14: [Prade, 1984] Prade, H. (1984). Lipski s approach to incomplete information databases restated and generalized in the setting of zadeh s possibility theory. Information Systems, 9: [Prade et Testemale, 1984] Prade, H. et Testemale, C. (1984). Generalizing database relational algebra for the treatment of incomplete/uncertain information and vague queries. Information Sciences, 34: [Prade et Testemale, 1987] Prade, H. et Testemale, C. (1987). Application of possibility and necessity measures to documentary information retrieval. Lecture Notes on Computer Science, 286: [Rabbiti, 1990] Rabbiti, F. (1990). Retrieval of multimedia documents by imprecise query specification. Lecture Notes on Computer Science, 416: [Radecki, 1979] Radecki, T. (1979). Fuzzy set theorical approach to document retrieval. Information Processing and Management, 15(5): [Resnik, 1999] Resnik, P. (1999). Semantic similarity in a taxonomy : an information - based measure and its application to problem of ambiguity in natural language. J. Artif. Intellig. Res., 11: [Robertson, 1977] Robertson, S. E. (1977). Journal of Documentation, 33(4): The probability ranking principle in IR. [Robertson et Walker, 1999] Robertson, S. E. et Walker, S. (1999). Okapi-keenbow at TREC-8. In Proc. of the 8th Text Retrieval Conference, pages TREC-8. [Rocchio, 1971] Rocchio, J. (1971). Relevance feedback in information retrieval. In Salton, G., éditeur : The SMART Retrieval System : Experiments in Automatic Document Processing, pages Prentice Hall, Englewood Cliffs, N.J. [Rossazza et al., 1997] Rossazza, J., Dubois, D. et Prade, H. (1997). A hierarchical model of fuzzy classes. In Caluwe, R. D., éditeur : Fuzzy and Uncertain Object-Oriented Databases, pages World Pub. Co. [Salton, 1970] Salton, G. (1970). Automatic processing of foreign language documents. Journal of the American Society for Information Science, 21(3): [Salton, 1971] Salton, G. (1971). A comparison between manual and automatic indexing methods. Journal of American Documentation, 20(1):61 71.

167 BIBLIOGRAPHIE 167 [Salton, 1989] Salton, G. (1989). Automatic text processing : The transformation, analysis and retrieval of information by computer. Addison Wesley. [Salton et al., 1994] Salton, G., Allan, J., Buckley, C. et Singhal, A. (1994). Automatic analysis, theme generation and summarization of machine-readable texts. Science, 264(3): [Salton et McGill, 1983] Salton, G. et McGill, M. (1983). Introduction to modern information retrieval. McGraw-Hill, New York. [Sanchez, 1989] Sanchez, E. (1989). Importance in knowledge systems. Information Systems, 14: [Savoy, 2001] Savoy, J. (2001). Bilingual information retrieval : CLEF-2001 experiments. In Proc. of ESCQARU 2001 Workshop, pages Toulouse, France. [Shauble et Brashler, 2000] Shauble, P. et Brashler, M. (2000). Experiments with the eurospider retrieval system for CLEF2000. In Peters, C., éditeur : Lecture Notes in Computer Science : Cross-Language Information Retrieval and Evaluation, volume 2069, pages Workshop of Cross-Language Evaluation Forum, CLEF 2000, Lisbon, Springer-Verlag. [Shenoi et Melton, 1989] Shenoi, S. et Melton, A. (1989). Proximity relations in fuzzy relational databases. Fuzzy Sets and Systems, 31: [Shenoi et Melton, 1990] Shenoi, S. et Melton, A. (1990). An extended version of fuzzy relationnal database model. Information Sciences, 51: [Sheridan et Ballerini, 1996] Sheridan, P. et Ballerini, J. (1996). Experiments in multilingual information retrieval using SPIDER system. In Proc. of ACM SIGIR 96, pages [Signore et al., 1992] Signore, O., Garibaldi, A. M. et Greco, M. (1992). PROTEUS : A concept browsing interface towards conventional information retrieval systems. In Tjoa, A. M. et Ramos, I., éditeurs : Database and Expert Systems Applications, pages DEXA 92, Valencia, Spain, Springer-Verlag. [Soergel, 1997] Soergel, D. (1997). Multilingual thesauri in cross-language text and speech retrieval. In Working notes of AAAI symp. on cross language and speech retrieval, pages [Sparck Jones, 1971] Sparck Jones, K. (1971). Automatic keyword classification for information retrieval. Butterworths, London.

168 168 BIBLIOGRAPHIE [Tahani, 1977] Tahani, V. (1977). A conceptual framework for fuzzy query processing a step toward very intelligent database systems. Information Processing and Management, 13: [Turtle et Croft, 1990] Turtle, H. et Croft, W. B. (1990). Inference networks for document retrieval. In Proc. of ACM SIGIR 90, pages [van Rijsbergen, 1977] van Rijsbergen, C. (1977). A theorical basis for use of cooccurrence data information retrieval. Journal of Documentation, 33(2): [van Rijsbergen, 1979] van Rijsbergen, C. (1979). Information Retrieval. Butterworths & Co., Ltd, London. [Wong et al., 1985] Wong, S., Ziarko, W. et Wong, P. (1985). Generalized vector spaces model in information retrieval. In Proc. of the 8th ACM-SIGIR conference, pages Montreal, Quebec. [Yager, 1983] Yager, R. (1983). Quantified propositions of a linguistic logic. Journal of Man-Machine Studies, 19: [Yager, 1987] Yager, R. (1987). A note on weighted queries in information retrieval systems. Journal of the American Society for Information Science, 38(1): [Yager, 1988] Yager, R. (1988). On ordered weighted averaging aggregation operators in multicriteria decision making. IEEE Transactions on Systems, Man and Cybernetics, 18(1): [Yager, 1991] Yager, R. (1991). Fuzzy quotient operators for fuzzy relational databases. In IFES 91, pages International Fuzzy Engineering Symposium, Yokohama, Japan. [Yager, 1993] Yager, R. (1993). Families of OWA operators. Fuzzy Sets and Systems, 59: [Yager et Filev, 1994] Yager, R. et Filev, D. (1994). Essential of Fuzzy Modeling and Control. John Wiley and Sons, Inc. New York. [Yamabana et al., 1998] Yamabana, K., Muraki, S., Doi, S. et Kamei, S. (1998). A language conversion front-end for cross-linguistic information retrieval. In Grefenstette, G., éditeur : Cross-Language Information Retrieval, pages Kluwer Academic, Boston. [Zadeh, 1971] Zadeh, L. (1971). Similarity relation and fuzzy orderings. Information Sciences, 3: [Zadeh, 1975] Zadeh, L. (1975). The concept of a linguistic variable and its application to approximate reasoning. Information Sciences, 8: ,

169 BIBLIOGRAPHIE 169 [Zadeh, 1983] Zadeh, L. (1983). A computational approach to fuzzy quantifiers in natural languages. Computer Mathematics with Applications, 9:

170 170 BIBLIOGRAPHIE

171 Annexe A Théorie des ensembles flous A.1 Ensembles flous La théorie des ensembles flous a été introduite en 1965 par Zadeh afin de représenter plus fidèlement les classes d objets réelles, qui ne possède généralement pas de critères d appartenance bien définis. Un exemple classique est la classe représentant «un homme jeune», pour lequel la définition du seuil de jeunesse est difficile. L idée de Zadeh consiste à ne pas définir un seul seuil, mais deux, entre lesquels l appartenance à l ensemble est représentée par un degré réel entre 0 et 1. Ainsi, un ensemble flou F est définis sur un domaine U par une fonction d appartenance µ F : u U [0, 1]. Les cas 1 et 0 correspondent respectivement à l appartenance et à la non-appartenance. Les prédicats du langage représentables par des ensembles flous, comme «jeune» sont dits graduels. Pour faciliter la généralisation des opérations ensemblistes classiques, on définit des coupes de niveaux de la fonction d appartenance, qui représentent de manière classique l ensemble flou en se fixant un seuil pour celle-ci. Ainsi, une coupe de niveau α de l ensemble F, F α, est l ensemble des termes appartenant à F au moins au niveau α. Les cas particuliers où α = 0 et α = 1 définissent respectivement le noyau, dont les éléments sont les prototypes de F, et le support dont les éléments appartiennent tant soit peu à F. En rejetant certaines propriétés de l algèbre de Boole, le tiers-exclus et la noncontradiction, on obtient la théorie des ensembles flous «max-min», pour lesquels les opérateurs classiques sont définis par : l inclusion : F G µ F µ G ou F G support(f ) noyau(g) 171

172 172 ANNEXE A. THÉORIE DES ENSEMBLES FLOUS la complémentation : µ F (u) = 1 µ F (u) l union : µ F G (u) = max(µ F (u), µ G (u)), ou plus généralement toute co-norme triangulaire. l intersection : µ F G (u) = min(µ F (u), µ G (u)), ou plus généralement toute norme triangulaire. Une norme triangulaire est une fonction (a, b) [O, 1] 2 a b [0, 1], telle que soit associative, symétrique et croissante. De plus, elle doit satisfaire les conditions limites a [0, 1], a 1 = a (1 élément neutre) et 0 0 = 0. Des normes triangulaires représentatives sont le produit, le minimum et a b = max(0, a + b 1). Une co-norme triangulaire est également associative, symétrique et croissante, mais possède 0 comme élément neutre. On a par exemple, la somme ou le maximum. En plus de généraliser les opérateurs de la logique classique, l introduction d ensembles flous permet de définir de nouveaux connecteurs logiques. On peut ainsi définir une relation entre deux ensembles flous comme la moyenne arithmétique de leurs fonctions d appartenance par exemple. Cette moyenne définit un «et» avec compensation, qui permet d obtenir un compromis lorsque les deux composantes d une conjonction sont contradictoires. Un autre type de relation introduite sont celles reliées à l inclusion d ensembles flous, qui sont représentées par des implications multivaluées. Trois grandes familles d implications peuvent être construites. Les premières, les S-implications, sont basées sur l implication matérielle, c est à dire la formulation de A B par A B. L implication floue est ainsi construite à partir de la disjonction et de la complémentation floues, et prend la forme : a b = (a b) où est un opérateur de négation et est une conjonction modélisée par une norme triangulaire. Une de ces implications est l implication de Dienes, utilisant le minimum pour la norme triangulaire : a b = max(1 a, b) Dans ce modèle d implication, a joue le rôle d un niveau d importance de l inclusion de A dans B, puisqu une faible valeur pour b est compensée par 1 a, qui est d autant plus grand que l importance de a est faible. Il exprime donc dans quelle mesure un élément est important ou est prioritaire dans A. La deuxième famille d implication, les R-implications, est basée sur le théorème de déduction (de p et q on déduit r ssi de p on déduit que q implique r). Plus précisément, a b = sup{c [0, 1], a c b}. Ceci correspond à l inclusion d ensembles flous basée sur

173 A.2. IMPRÉCISION ET INCERTITUDE 173 l inégalité des degrés d appartenance. L implication de Gödel en est un exemple : { 1 si a b a b = b sinon Ici, a est vue comme un seuil devant être atteint pour que A soit considéré comme inclus totalement dans B. En d autre terme, le poids a représente dans quelle mesure la propriété graduelle A est remplie par B. Un seuil non-flou, où a b {0, 1} correspond à l implication de Rescher-Gaines. On remarque qu alors que a b = b a est valide pour les S-implications, tout comme en logique classique, ce n est généralement pas le cas pour les R-implications. La réciproque b a définie une troisième classe d implications. Dans le cas de Gödel, on a ainsi : { 1 si a b b a = 1 a sinon D autres normes triangulaires, comme le produit, peuvent être utiliser pour obtenir des variantes de ces formes. Ainsi, en utilisant a b = max(0, a+b 1), on obtient l implication de Lukasiewicz qui permet de cumuler les effets précédents, puisque les trois formes se réduisent à la même expression. Elle est définie par : a b = min(1, 1 a + b) Ainsi, si a b, l implication vaut 1 (valeur seuil), et elle vaut 1 a si b = 0 (compensation par la faible importance). A.2 Imprécision et incertitude Les ensembles flous sont particulièrement efficaces pour modéliser l imprécision et l incertitude. Une donnée est imprécise si elle est considérée incomplète ou insuffisante pour donner l information demandée. Ainsi, si on sait que «le prix est entre 60 et 80 euros», cette information est imprécise, puisqu on ne peut pas donner le prix exact. Cependant, on sait avec certitude que le prix est dans cet intervalle. La notion d imprécision est dépendante du contexte d utilisation. Ainsi, si le prix est décrit à l aide de deux termes {bon marché,cher}, cher est précis. En revanche, si le référentiel des prix est l euro, cher devient imprécis, car on ne peut l associer à un prix de ce référentiel. L imprécision représentant un choix entre des valeurs exclusives, elle est représentée par une disjonction des valeurs

174 174 ANNEXE A. THÉORIE DES ENSEMBLES FLOUS possibles, ou peut être ramenée à cette forme, ces valeurs étant mutuellement exclusives. Cet ensemble disjonctif est caractérisé par une fonction représentant la distribution de possibilité de ces valeurs. Dans le cas d un intervalle de prix par exemple, cette valeur de possibilité π prix vaut 1 pour tous les éléments de l intervalle, puisqu il représente les valeurs possibles, et vaut 0 pour les autres (valeurs impossibles). Une information imprécise graduelle peut également être représentée, en définissant des valeurs plus ou moins possibles. Pour un prix cher par exemple, plus la valeur est élevée et plus elle est une valeur possible. Ainsi, de manière générale, une information imprécise est un ensemble disjonctif servant de support à une relation de préférence entre ses valeurs représentée par une distribution de possibilité π. L incertitude représente quant à elle l incapacité de savoir si une information ou un énoncé est vrai ou faux. L imprécision d une donnée peut être source d incertitude, mais ce n est pas la seule. En effet, l incohérence des données, c est à dire la présence d informations contradictoires, mène également à de l incertitude. Ainsi, l incertitude d un énoncé se traduit par l impossibilité de calculer précisément son degré de vérité. On peut représenter dans quelle mesure deux ensemble flous A et B décrits par des distributions de possibilités π A et π B définies sur U, représentent la même chose en calculant respectivement leurs degrés de possibilité Π et de nécessité N par : Π(A, B) = sup min(π A (u), π B (u)) U N(A, B) = 1 Π(A, B) = inf U max(π A(u), 1 π B (u)) (A.1) On remarque que l on a Π(A, B) N(A, B). De plus, si les unions et intersections d ensembles flous sont définis le max et le min respectivement, alors : Π(A A, B) = max(π(a, B), Π(A, B)) N(A A, B) = min(n(a, B), N(A, B)) (A.2) mais en général, on a seulement : Π(A A, B) min(π(a, B), Π(A, B)) N(A A, B) max(n(a, B), N(A, B)) (A.3)

175 A.2. IMPRÉCISION ET INCERTITUDE 175 Ces mesures sont particulièrement bien adaptées pour représenter les données imprécises et incomplètes. En effet, contrairement aux probabilités où pour un énoncé A on a P (A) = 0 P ( A) = 1, si la certitude que l événement est vrai implique l absence de certitude quant à l événement contraire N( A) = 1 N(A) = 0, on a N(A) = 0 N( A) = 1, ce qui correspond mieux à l intuition courante, puisque l absence de certitude n informe pas sur la possibilité de l événement.

176 176 ANNEXE A. THÉORIE DES ENSEMBLES FLOUS

177 Annexe B Projet e-court Dans le cadre de cette thèse, nous avons participé au projet européen e-court : electronic Court judicial IT-based management (projet IST ). Son but est la spécification et la réalisation d un système de recherche d information multimédia et multilingues à contenu juridique. Ces informations, produites au niveau européen, pourront être stockées et partagées. Les autres partenaires sur ce projet étaient : CNR Italie, PA Italie, SEMA Espagne, Cryptomatic Danemark, Intrasoft Luxembourg, Université d Amsterdam et les Ministères de la justice italien et polonais. Le projet e-court s est concentré sur le développement d un nouveau modèle d infrastructure impliquant de nombreuses activités de recherches dans le domaine des technologies de l information. Ceci fournit d un coté un cadre commun pour l échange d information entre les systèmes judiciaires européens et améliorer les processus d archivage et de recherche des documents multimédia concernant des procès, et d un autre coté un service pour les citoyens européens pour accéder aux informations judiciaires publiques. Le contenu de la base est constitué de compte rendu de procès sous forme textuelle. Dans certain cas, une version vidéo du procès est disponible, et la version textuelle est alors synchronisée sur la vidéo. En outre, différentes métadonnées, telles que les personnes impliquées, les dates, etc. sont stockées dans le système et peuvent être prises en compte dans les recherches. Les requêtes peuvent porter sur les méta-données ou sur les documents eux-mêmes, considéré comme des documents semi-structurés. Ainsi, il est possible de formuler des requêtes ne portant que sur certaines sections de documents. De plus ces requêtes peuvent être formulées dans une langue différente des documents originaux, la traduction des requêtes étant effectuée par le système. Enfin, un mode avancé de formulation des requêtes est disponible, permettant de gérer des requêtes flexibles. Il est basé sur 177

178 178 ANNEXE B. PROJET E-COURT la définition de priorités entre les termes de la requête par des modificateurs linguistiques, et l agrégation de ces termes par des opérateurs linguistiques tels que «la plus part». Une ontologie de termes juridiques est également intégrée au système afin d assister l utilisateur dans la création de requêtes en lui fournissant un vocabulaire contrôlé. Cette ontologie peut également être utilisée dans une phase d expansion des termes de la requête. Ainsi, les domaines couverts par ce projet sont nombreux. Ils couvrent le multimédia, au niveau de l enregistrement et de la synchronisation de la vidéo, la recherche d information avancée et multilingue, la gestion des systèmes sécurisés, basée sur des technologies de certificats, et de la gestion de bases de données multimédia. Notre contribution à ce projet se situe dans les phases de spécifications, modélisation et de test du système de recherche d information, l implémentation ayant été réalisé par SEMA. Ainsi, la modélisation du système a été élaborée avec le laboratoire du CNR italien selon les spécifications UML. Le système implémenté à été validé selon deux approches. La première évaluation est orientée utilisateur, et son but est de mesurer la satisfaction de l utilisateur vis-à-vis du système, autant du point de vue des performances techniques que de l ergonomie. Cette évaluation a été menée par l intermédiaire de questionnaires remplis par des utilisateurs ayant utilisés le système pour des recherches réelles. La deuxième évaluation que nous avons menée a eu pour but de mesurer les performances techniques du système du point de vue recherche d information.

179 Annexe C Resources utilisées pour l exemple de la base de titres C.1 Liste des titres 100 An introductory survey of possibility theory and its recent developments 101 Fuzzy set modelling in case-based reasoning 102 Nonmonotonic reasoning : from complexity to algorithms 103 Fuzzy functional dependencies and redundancy elimination 104 Towards qualitative approaches to multi-stage decision making 105 Qualitative Possibility Theory and Its Applications to Constraint Satisfaction and Decision under Uncertainty 106 A Typology and Discourse Semantics for Motion Verbs and Spatial PPs in French 107 A Compositional Semantics for the Spatiotemporal Properties of Motion Verbs and Spatial PPs in French 108 Elicitation, assessment and pooling of expert judgements using possibility theory 109 Fuzzy constraints in job-shop scheduling 110 Fuzzy relation equations and causal reasoning 111 What does fuzzy logic bring to AI? 112 An introduction to issues in higher order uncertainty 113 Refinements of the maximin approach to decision-making in fuzzy environment 114 Semantics of quotient operators in fuzzy relational databases 115 Representing partial ignorance 116 A New Incompleteness Result in Kripke Semantics 179

180 180 ANNEXE C. RESSOURCES DE L EXEMPLE DES TITRES 117 Completeness Results in Neighbourhood Semantics for Muti-Modal Monotonic and Regular Logics 118 Razionamiento no monotono : un breve panorama 119 Conditionales y non monotonia 120 Handling uncertainty with possibility theory and fuzzy sets in a satellite fault diagnosis application 121 Possibility theory in constraint satisfaction problems : Handling priority, preference and uncertainty 122 What are fuzzy rules and how to use them 123 An introduction to fuzzy systems 124 New trends and open problems in fuzzy logic and approximate reasoning 125 Aggregation of decomposable measures with application to utility theory 126 Combining hypothetical reasoning and plausible inference in possibilistic logic 127 A semantics for possibility theory based on likelihoods 128 Some syntactic approaches to the handling of inconsistent knowledge bases : A comparative study Part 1 : The flat case 129 Flexible queries in relational databases - The example of the division operator 130 A logical approach to interpolation based on similarity relations 131 Nonmonotonic reasoning, conditional objects and possibility theory 132 A synthetic view of belief revision with uncertain inputs in the framework of possibility theory 133 A modal logic of incidence space 134 Predicate multi-modal logics do not mix very well 135 Nutri-Expert, an Educational Software in Nutrition 136 Possibility theory is not fully compositional! 137 Checking the coherence and redundancy of fuzzy knowledge bases 138 Bayesian conditioning in possibility theory 139 Qualitative possibility theory and its applications to reasoning and decision under uncertainty 140 Deductive completeness 141 DRT et Compositionnalité 142 Modal Tableaux with Propagation Rules and Structural Rules 143 Tractable constraints on ordered domains 144 Fundamental properties of neighbourhood substitution in constraint satisfaction problems 145 Interpreting line drawings of curved objects with tangential edges and surfaces 146 The three semantics of fuzzy sets 147 Leximin optimality and fuzzy set-theoretic operations 148 A fuzzy constraint satisfaction problem in the wine industry 149 Decision-theoretic foundations of qualitative possibility theory 150 Using possibilistic logic for modeling qualitative decision : ATMS-based algorithms

181 C.1. LISTE DES TITRES Belief functions and default reasoning 152 Completeness and admissibility for general Heuristic search algorithms - a theoretical study :basic concepts and proofs 153 Semiring-Based CSPs and Valued CSPs : Frameworks, Properties, and Comparison 154 Belief dynamics in cooperative dialogues 155 A possibilistic framework for single-fault causal diagnosis under uncertainty 156 Fuzzy logic techniques in Multimedia database queryring : a preliminary investigation of the potentials 157 Towards a possibilistic logic handling of preferences 158 Handling soft constraints in hoist scheduling problems : the fuzzy approach 159 Least commitment in Graphplan 160 A Mixed Decision Method for Duration Calculus 161 What is a (non-constructive) non-monotone logical system? 162 A logic-based theory of deductive arguments 163 Minimal Structures for Modal Tableaux : Some Examples 164 Possibility theory, probability theory and multiple-valued logics : A clarification 165 Fusion : general concepts and characteristics 166 Conference paper assignment 167 The use of the discrete Sugeno integral in decision-making : a survey 168 Using the transferable belief model and a qualitative possibility theory approach on an illustrative example : the assessment of the value of a candidate 169 The correlation procblem in sensor fusion in a possibilistic framework 170 A relational model of movement 171 Modal logics for incidence geometries 172 The modal multilogic of geometry 173 Complete axiomatization of a relative modal logic with composition and intersection 174 A hierarchy of modal logics with relative accessibility relations 175 Inequality without irreflexivity 176 Iteration-free PDL with intersection : a complete axiomatization 177 Spatial Semantics : The Processing of Internal Localization Nouns 178 Random walks and brownian motion 179 Embedding Logics in the Local Computation Framework 180 Linear-time algorithms for testing the realisability of line drawings of curved objects 181 Linear constraints for the interpretation of line drawings of curved objects 182 Handling contingency in temporal constraint networks : from consistency to controllabities 183 Interpretation of the line drawings of complex objects 184 The tractability of segmentation and scene analysis

182 182 ANNEXE C. RESSOURCES DE L EXEMPLE DES TITRES 185 Constraints, consistency and closure 186 The interpretation of line drawings with contrast failure and shadows 187 Semantic distance measures 188 Complete axiomatization of a relative modal logic with composition and intersection 189 A General Framework for Pattern-Driven Modal Tableaux 190 Computing improved optimal solutions to max-min flexible constraint satisfaction problems 191 On the transformation between possibilistic logic bases and possibilistic causal networks 192 Consistency restoration and explanations in dynamic CSPs-Application to configuration 193 Possibilistic merging and distance-based fusion of propositional information 194 A practical approach to revising prioritized knowledge bases 195 Handling locally stratified inconsistent knowledge bases 196 A reasoning model based on the production of acceptable arguments 197 Inferring from inconsistency in preference-based argumentation frameworks. 198 A dialogue game protocol for agent purchase negotiations. 199 A theoretical framework for possibilistic independence in a weakly ordered setting 200 Posibilistic Petri Nets 201 Fuzzy set-based methods in instance-based reasoning 202 Model adaptation in possibilistic instance-based reasoning 203 The possibilistic handling of irrelevance in exception-tolerant reasoning 204 On the sure criticality of tasks in activity networks with imprecise durations 205 Qualitative Geometry for Shape Recognition 206 A probabilistic approach to ordering formulas in a possibilistic knowledge base 207 On Fuzzy Interpolation 208 Formalizing action and change in modal logic I : the frame problem 209 Propositional belief base update and minimal change 210 Hybrid Approach for Addressing Uncertainty in Risk Assessments 211 Signed systems for paraconsistent reasoning 212 Interpretation of the line drawings of complex objects 213 Book review : Causation in Decision, Belief Change and Statistics edited by W.L. Harper and B. Skyrms 214 Book review : Fuzzy Sets and their Applications by V. Novak, Adam Hilger, Editorial, Special Issue on Industrial Engineering Methods 216 Book review : Uncertainty and Vagueness in Knowledge-Based Systems by R. Kruse, E. Schwecke and J. Heinsohn 217 OntoSeek : Content-Based Access to the Web

183 C.1. LISTE DES TITRES Nutri-Expert et Nutri-Advice, deux logiciels d aide à la construction de repas équilibrés pour l éducation nutritionnelle. 219 Inconsistent requirements : an argumentation view 220 Knowledge Extraction from the WEB : an Experiment and an Analysis of its Portability 221 Flexibility and fuzzy case-based evaluation in querying : An illustration in an experimental setting 222 Qualitative Decision Theory : From Savage s Axioms to Nonmonotic Reasoning 223 Book review : Fuzzy sets and fuzzy information-granulation theory : key selected papers by Lotfi A. Zadeh 224 Qualitative reasoning based on fuzzy relative orders of magnitude 225 Dynamic analysis of repetitive decision-free discrete event processes : the algebra of timed marked graphs and algorithmic issues 226 Dynamic analysis of repetitive decision-free discrete event processes : algorithmic issues and applications to production systems 227 Fuzzy set connectives as combinations of belief structures 228 Social choice axioms for fuzzy set aggregation 229 A decision engine based on rational aggregation of heuristic knowledge 230 Automated reasoning using possibilistic logic : semantics, belief revision and variable certainty weights 231 A possibilistic assumption-based truth maintenance system with uncertain justifications, and its application to belief revision 232 Fuzzy sets in approximate reasoning? Part 2 : Logical approaches 233 Timed possibilistic logic 234 Balancing Meals Using Fuzzy Arithmetics and Heuristic Search Algorithms 235 On latest times and floats in activity networks with ill-known durations 236 Fuzzy scheduling : Modelling flexible constraints vs. coping with incomplete knowledge 237 Multicenter randomized evaluation of a nutritional education software in obese patients. 238 Expert system DIABETO and nutrition in diabetes 239 Evaluation of microcomputer nutritional teaching games in 1876 children at school 240 On the representation of fuzzy rules in terms of crisp rules 241 A Decision Method for Duration Calculus 242 Tableaux Based Decision Procedures for Modal Logics of Confluence and Density 243 Topological Spatio-Temporal Reasoning and Representation 244 On Decision Problems Related to the Preferred Semantics for Argumentation Frameworks 245 A characterization of generalized concordance rules in multicriteria decision making 246 La prospettiva dell ontologia applicata 247 Fusion of possibilistic knowledge bases from a postulate point of view 248 Qualitative decision theory with preference relations and comparative uncertainty : An axiomatic approach

184 184 ANNEXE C. RESSOURCES DE L EXEMPLE DES TITRES 249 A new perspective on reasoning with fuzzy rules 250 Editorial : Fuzzy set and possibility theory-based methods in artificial intellingence 251 Logical representation and fusion of prioritized information based on guaranteed possibility measures : Application to the distance-based merging of classical bases 252 Properties and complexity of some formal inter-agent dialogues. 253 Regression in Modal Logic 254 Abstract Representation of Object and Structural Symmetries Detection 255 Book review : Evaluation and décision models : a critical perspective,d. Bouyssou &al. 256 Fuzziness and uncertainty in temporal reasoning 257 a big-stepped probability approach for discovering default rules 258 Making revision reversible : an approach based on polynominals 259 Quasi-possibilistic logic and its measures of information and conflit 260 On the use of aggregation operations in information fusion processes 261 Imprecise specification of ill-known functions using gradual rules 262 Book review : Evaluation and decision models : a critical perspective 263 Upper and lower images of a fuzzy set induced by a fuzzy relation - Applications to fuzzy inference and diagnosis 264 Practical Handling of Exception-tainted rules and independence information in possibilistic logic 265 Reduction operations in fuzzy or valued constraint satisfaction 266 Cyclic consistency : A local reduction operation for binary valued constraints 267 Arc consistency for soft constraints 268 Forms of meaning, meaning of forms 269 A rhythm recognition computer program to advocate interactivist perception. 270 Possibilistic logic : a retrospective and prospective view 271 Probability-possibility transformations, triangular fuzzy sets, and probabilistic inequalities 272 Utilitarian desires 273 Construction de réponses coopératives : du corpus à la modélisation informatique 274 Possibilistic and standard probabilistic semantics of conditional knowledge bases 275 Knowledge-Driven versus data-driven logics 276 On the possibilistic decision model : from decision under uncertainty to case-based decision 277 Relating decision under uncertainty and multicriteria decision making models 278 Audio Indexing : Primary Components Retrieval - Robust Classification in Audio Documents. 279 Qualitative pattern matching with linguistic terms 280 Mobile Agent Based Self-Adaptive Join for Wide-Area Distributed Query Processing 281 A CONTRIBUTION TO MULTIMEDIA DOCUMENT MODELING AND QUERYING 282 Flexibility and fuzzy case-based evaluation in querying : An illustration in an experimental setting

185 C.2. RELATIONS DE L ONTOLOGIE DÉFINIES MANUELLEMENT Multiple query evaluation based on an enchanced genetic algorithm 284 On using genetic algorithms for multimodal relevance optimisation in information retrieval 285 CPU and incremental memory allocation in dynamic parallelization of SQL queries 286 NIFF Transcription and Generation of Braille Musical Scores 287 Fuzzy logic techniques in multimedia database querying 288 Information discovery from semi-structured sources Application to astronomical literature 289 Genetic Algorithm to Query Space Exploration 290 Query Modification based on relevance back-propagation in adhoc environnement 291 TétraFusion : Information Discovery on the Internet 292 Internet-based information discovery : Application to monitoring science and technology 293 Content-Based Representation and Retrieval of Visual Media : A State-of-the-Art Review 294 Efficient Automatic Text Location Method and Content-based Indexing and Structuring of Video Database C.2 Relations de l ontologie définies manuellement Terme général Terme spécifique Π N uncertain uncertainti 1 1 uncertainti uncertain 1 1 artificial intellingence ai 1 1 belief function reasoning 1 1 case-based reasoning ai 1 1 constraint satisfaction problem csp 1 1 decision making decision-making 1 1 decision-making decision making 1 1 fuzzy logic fuzzy set 1 1 fuzzy logic possibilistic logic 1 1 fuzzy logic fuzzy 1 1 fuzzy logic logic 1 1 fuzzy set fuzzy logic 1 1 genetic algorithm algorithm 1 1 ill-known fuzzy 1 1 ill-known imprecise 1 1 ill-known uncertain 1 1 modal logic logic 1 1

186 186 ANNEXE C. RESSOURCES DE L EXEMPLE DES TITRES Terme général Terme spécifique Π N (suite) (suite) (suite) (suite) pattern matching possibility theory 1 1 pattern matching query processing 1 1 possibilistic logic fuzzy logic 1 1 possibilistic logic possibility theory 1 1 possibility theory pattern matching 1 1 possibility theory possibilistic logic 1 1 possibility theory possibl 1 1 query evaluation querying 1 1 query processing pattern matching 1 1 query processing evaluation 1 1 query processing querying 1 1 relational model database 1 0 spatio-temporal spatiotemporal 1 1 ai artificial intellingence 1 1 ai case-based reasoning 1 1 aide help 1 1 algorithm genetic algorithm 1 1 aliment alimentation 1 1 alimentation aliment 1 1 alimentation nutrition 1 1 answer respons 1 1 answer répons 1 1 approach model 1 1 approach theory 1 1 assessment deduction 1 1 balanc équilibré 1 1 build construction 1 1 comput informatique 1 1 constraint depend 1 1 construction build 1 1 cooper coopér 1 1 coopér cooper 1 1 csp constraint satisfaction problem 1 1

187 C.2. RELATIONS DE L ONTOLOGIE DÉFINIES MANUELLEMENT 187 Terme général Terme spécifique Π N (suite) (suite) (suite) (suite) data database 1 1 data information database relational model 1 0 database data 1 1 database query 1 0 decision décision 1 1 deduction assessment 1 1 deduction inference 1 1 deduction reasoning 1 1 depend constraint 1 1 depend relat discovery retrieval distance spacial 1 0 duration time 1 1 décision decision 1 1 educ éducation 1 1 equilibr équilibré 1 1 equilibre équilibré 1 1 evalu process evalu retiev evalu retriev evaluation query processing 1 1 flexible fuzzy flexible tolerant 1 1 flexible weighted 1 1 fuzzy fuzzy logic 1 1 fuzzy ill-known 1 1 fuzzy flexible fuzzy vagueness help aide 1 1 ignorance uncertain 1 1 ignorance vagueness 1 0 imprecise ill-known 1 1

188 188 ANNEXE C. RESSOURCES DE L EXEMPLE DES TITRES Terme général Terme spécifique Π N (suite) (suite) (suite) (suite) inconsistent uncertain 1 1 inference deduction 1 1 information data information knowledge informatique comput 1 1 knowledge information linguistic semantic 1 1 localization spatial 1 1 logic fuzzy logic 1 1 logic modal logic 1 1 logic multilogic 1 1 logic relation 1 0 logiciel softwar 1 1 lunch repas 1 1 meal repas 1 1 mobile motion 1 1 mobile movement 1 1 model approach 1 1 model modélisation 1 1 modélisation model 1 1 motion mobile 1 1 movement mobile 1 1 movement spatial 1 1 movement temporal 1 1 multilogic logic 1 1 nutrit nutritionnelle 1 1 nutrition alimentation 1 1 nutrition obese 1 0 nutrition repas 1 1 nutritionnelle nutrit 1 1 obese nutrition 1 0 possibl possibility theory 1 1 prefer prioriti 1 1

189 C.2. RELATIONS DE L ONTOLOGIE DÉFINIES MANUELLEMENT 189 Terme général Terme spécifique Π N (suite) (suite) (suite) (suite) prioriti prefer 1 1 process evalu query database 1 0 query request 1 1 querying query evaluation 1 1 querying query processing 1 1 reasoning belief function 1 1 reasoning deduction 1 1 relat depend relat rule 1 1 relation logic 1 0 repas lunch 1 1 repas meal 1 1 repas nutrition 1 1 repons répons 1 1 request query 1 1 request requirement 1 1 requirement request 1 1 respons answer 1 1 retiev evalu retriev evalu retrieval discovery rule relat 1 1 répons answer 1 1 répons repons 1 1 semantic linguistic 1 1 softwar logiciel 1 1 spacial distance 1 0 spatial localization 1 1 spatial movement 1 1 spatial spatiotemporal 1 1 spatiotemporal spatio-temporal 1 1 spatiotemporal spatial 1 1

190 190 ANNEXE C. RESSOURCES DE L EXEMPLE DES TITRES Terme général Terme spécifique Π N (suite) (suite) (suite) (suite) spatiotemporal temporal 1 1 temporal movement 1 1 temporal spatiotemporal 1 1 temporal time 1 1 theory approach 1 1 time duration 1 1 time temporal 1 1 tolerant flexible 1 1 uncertain uncertainti 1 1 uncertain ill-known 1 1 uncertain ignorance 1 1 uncertain inconsistent 1 1 uncertainti uncertain 1 1 vagueness fuzzy vagueness ignorance 1 0 weighted flexible 1 1 éducation educ 1 1 équilibr équilibré 1 1 équilibré balanc 1 1 équilibré equilibr 1 1 équilibré equilibre 1 1 équilibré équilibr 1 1

191

192 Abstract : With the raise of electronic data, efficient information retrieval systems become necessary. To represent these information and the user needs, a better agreement between human and computer is needed. Our approach uses the fuzzy pattern matching to define a linguistic data representation, based on linked vague terms classes to model relations and ambiguity in language, defining a possibilistic concepts ontology. By representing user needs likewise, we match them with the information, and exploit links to evaluate vague searches with more relevant results. Lastly, all needs are kept in the final evaluation to discriminate documents using methods from multicriteria techniques. We first present several database and information retrieval aspects, and their integration with fuzzy techniques. The theoretic model of this approach is exposed, and applied to these two fields. Lastly, we illustrate the system and evaluate its real performances and advantages. Keywords : Information retrieval, fuzzy pattern matching, possibilistic ontologies, relevance estimation, multicriteria methods. Résumé : Avec le flot des données informatique, des systèmes de recherche efficaces sont précieux et requièrent une représentation des information et des besoins homogène entre humain et machine. Notre approche, basée sur le filtrage flou, représente les données linguistiques comme des classes imprécises de termes, reliées pour représenter les relations et l ambiguïté du langage, définissant une ontologie possibiliste de concepts. Représentés de même, les besoins s apparient aux informations, exploitant ces liens dans des recherches vagues pour obtenir des résultats plus pertinents. Tous ces besoins sont utilisé pour discriminer les documents à l aide de méthodes issues des techniques multicritères. Nous présentons différents aspect des bases de données et de la recherche documentaire et leur union à la logique floue, puis la modélisation théorique de notre approche et son application à ces deux domaines. Nous illustrerons le système et en évaluerons les performances réelles et les apports. Mots-Clés : Recherche d information, filtrage flou, Ontologies possibilistes, évaluation de pertinence, méthodes multicritères.

Montrer encore