Mémoire DEA Système d'information Management and Technology of Information Systems

Transcription

1 Mémoire DEA Système d'information Management and Technology of Information Systems Titre : Expérience sur l'utilisation de conjonctions de termes et la prise en compte des dépendances entre termes d'indexation dans le cadre du filtrage adaptatif. Etudiant : BISIAUX Cédric Le 27 juin 2003 Encadré par : Brouard Christophe

2

3 RESUME L'objet de ce mémoire est la présentation d'une évolution du système RELIEFS (RELevance Information Fuzzy System). RELIEFS est un système de filtrage adaptatif de documents textuels. Il se base sur la présence ou l'absence de termes pour sélectionner ou rejeter les documents qui lui sont présentés, et il utilise le retour de pertinence de l'utilisateur (oui ce document est pertinent, non ce document ne l'est pas) pour s'adapter à la demande de l'utilisateur. Dans sa version actuelle, le système considère la présence des termes indépendamment les uns des autres. Il ne tient, par exemple, pas compte du contexte dans lequel le mot est employé (autres mots présents dans son voisinage) et des relations de synonymie ou d'hyperonymie qui peuvent exister avec d'autres mots (cette fois-ci hors du document présenté). Bien que la première version du système donne des résultats satisfaisants, une évolution consiste à prendre en compte ces aspects (écartées dans la majeure partie des modèles de recherche d'information). Sur la base de travaux antérieurs et d'une analyse de la notion de dépendance, nous avons proposé une solution intégrant la notion de contexte. Nous avons implémenté cette solution et nous l'avons expérimenté sur un corpus de communiqués de presse utilisé dans le cadre de la conférence TREC11. Mots-clefs : Filtrage adaptatif, pertinence, dépendances, conjonctions de mots, système de recherche d'information. ABSTRACT The report deals with a the presentation of an evolution of the system RELIEFS (RELevance Information Fuzzy System). RELIEFS is a system of adaptive filtering of textual documents. It is based on the presence or the absence of terms to select or reject the documents which are presented to him and it uses the return of relevance of the user (yes this document is relevant, not this document is not it) to adapt at the request of the user. In its current version, the system considers the presence of the terms independently to each other. It does not hold for example not account of the context in which the word is employed (other words present in its vicinity) and of the relations of synonymy or hyperonymy which can exist with other words (this time out of the document presented). Although the first version of the system gives satisfactory results, an evolution consists in taking into account these aspects (isolated in the major part of the models of search for information). On the basis of former work and an analysis of the concept of dependence, we proposed a solution integrating the concept of context. We implemented this solution and tried out we it on a corpus of press releases used within the framework of conference TREC11. Keywords: Adaptive filtering, relevance, dependences, words conjunctions, retrieval information system.

4

5 REMERCIEMENTS Je tiens à remercier mon responsable de stage, Christophe Brouard, pour tous ses conseils, commentaires et explications. Je le remercie pour l'écoute qu'il m'a apporté et qui m'a permit de bien amorcer et de faire évoluer cette recherche. je remercie aussi l'équipe MRIM qui a constituée un agréable cadre de travail. Les réunions de l'équipe ont apporté beaucoup d'échanges et de discussions. Les présentations qui y ont été faites, ont permis de partager des points de vue, mais aussi de lever des interrogations sur les recherches exposées et ainsi les faire évoluer. Enfin, je remercie Céline et Raymond pour leur soutien et pour la correction du document, ainsi que leurs commentaires.

6

7 TABLE DES MATIERES TABLE DES MATIERES 1 INTRODUCTION EXPOSE DE LA PROBLEMATIQUE Présentation de la tâche de filtrage La tâche de filtrage en général Les sous-tâches de TREC Les systèmes de filtrages Formule de Rocchio Formule OKAPI Présentation de RELIEFS Représentation des documents et requêtes a Construction du réseau associatif b Règle d'apprentissage Fonction de correspondance Réglage des seuils du système Ce que l'on veut faire Les conjonctions Les dépendances INDEXATION PAR CONJONCTION DE TERMES ET PRISE EN COMPTE DES DEPENDANCES DANS LES MODELES DE RI Modèles de RI Prise en compte des dépendances L'extension de requête Illustration du problème de dépendance Utilisation de conjonctions de termes Modèle vectoriel Représentation des documents et requêtes a Les schémas de pondération b Combinaison des pondérations Fonction de correspondance Prise en compte des dépendances dans le modèle vectoriel a Modèle Latent Semantic Indexing b Modèle DSIR [Besançon 2002] Conjonctions de termes dans le modèle vectoriel Modèle logique Représentation des documents et requêtes Fonction de correspondance Evolution du modèle logique de base Prise en compte des dépendances dans le modèle logique Conjonctions dans le modèle logique Modèle probabiliste Représentation des documents et de la requête Fonction de correspondance Prise en compte des dépendances dans le modèle probabiliste Conjonctions dans le modèle probabiliste

8 TABLE DES MATIERES 3.7 Modèle de réseaux de neurones Représentation des documents et Requêtes Les fonctions de correspondances a Approche par mesure du cosinus [Wilkinson et Hingston 1991] b Approche probabiliste d'un réseau de neurone [Kwok 1995] La prise en compte des dépendances dans le modèle des réseaux de neurones Conjonctions dans le modèle des réseaux de neurones MODIFICATION DE RELIEFS EN VUE DE LA PRISE EN COMPTE DES CONJONCTIONS DE TERMES ET DE LA DEPENDANCE ENTRE LES TERMES D'INDEXATION Le modèle Construction des conjonctions Analyse du problème de dépendances Validation Expériences a Première expérience b Seconde expérience c Troisième expérience Discussion a Expérience b Expérience c Expérience d Evolution du système Conclusion...57 BIBLIOGRAPHIE

9 INTRODUCTION 1 INTRODUCTION Ce sujet de DEA traite de la prise en compte des dépendances entre termes pour l'indexation de documents textuels. Cet aspect est rarement traité dans les modèles de recherche d'information du fait des difficultés de traitement introduites, et de la relative absence d'amélioration généralement constatée. Ainsi, le calcul de la contribution d'un mot dans l'évaluation de la pertinence du document dans lequel il survient n'intègre généralement pas les autres mots présents dans le document. On sommera par exemple les contributions de deux mots synonymes comme on somme les contributions de deux mots qui n'ont pas de rapport l'un avec l'autre. En se plaçant dans l'espace des sens et non dans celui des termes, on peut pourtant légitimement se demander si finalement, dans le cas des synonymes, on ne commet pas l'erreur de compter deux fois une contribution qui devrait n'être comptée qu'une fois. Par ailleurs, la présence d'un mot particulier dans un texte est précisée par les autres mots présents dans le même texte (contexte). Un mot peut décrire plusieurs sens (polysémie), et cette richesse du langage est compréhensible pour un lecteur, car il se sert du contexte pour lever l'ambiguïté. Mais cette richesse devient problématique pour les systèmes de recherche d'information puisqu'il faut alors modéliser ces dépendances. Il semble ainsi important de tenir compte de la présence des autres mots du document pour évaluer la contribution d'un mot particulier, car ces derniers peuvent en modifier ou en préciser le sens. Dans le cadre de ce mémoire de DEA, nos recherches ont pour but la prise en compte de ces dépendances en les incluant dans la fonction qui évalue la correspondance entre requêtes et documents (appelée communément fonction de correspondance). Dans notre étude, le système qui est utilisé est le système RELIEFS [Brouard 2002a], qui est un système pour le filtrage adaptatif de documents textuels. Nous essayons de faire évoluer ce système afin d'y inclure une solution de traitement de ces dépendances au travers de sa fonction de correspondance. L'articulation de ce document est la suivante : dans le chapitre deux, nous exposerons la problématique qui est liée au sujet. Dans le chapitre trois, nous verrons comment cette dépendance est traitée dans les modèles majeurs de la recherche d'information. Le quatrième chapitre présentera la solution que l'on propose, ainsi que les expériences qui nous permettent de l'évaluer. Le dernier chapitre conclut sur ce stage et présente les réflexions que nous suggérons dans cette recherche et les perspectives de ces travaux. 9

10 EXPOSE DE LA PROBLEMATIQUE 2 EXPOSE DE LA PROBLEMATIQUE 2.1 Présentation de la tâche de filtrage La tâche de filtrage en général Dans la plupart des systèmes de recherches d'informations, les documents demeurent relativement statiques tandis que de nouvelles requêtes sont soumises au système. Ce mode opérationnel se nomme la recherche "ad hoc", qui est la plus commune des tâches utilisateur. Dans le cadre du filtrage, au contraire la requête reste relativement statique tandis que de nouveaux documents sont injectés dans la base (ou la quittent). On retrouve ce type de situations dans le cadre des systèmes de bourses en lignes 1 ou les sites d'informations en lignes 2. Dans la tâche de filtrage [Belkin et Croft 1992], un profil utilisateur doit décrire les préférences de l'utilisateur. Un tel profil est alors comparé aux documents entrants afin d'essayer de déterminer ceux qui pourraient être intéressants pour cet utilisateur particulier. Actuellement, cette approche est utilisée pour sélectionner un article parmi une collection d'articles entrant chaque jour pour les systèmes de dépêches. D'autres scénarii potentiels pour l'application du filtrage sont inclus dans le choix des décisions juridiques ou des articles du journal quotidien. Concrètement, la tâche de filtrage permet simplement d'indiquer à l'utilisateur les documents qui sont susceptibles de l'intéresser. Le système de filtrage détermine les documents qui sont vraiment pertinents et qui méritent d'être présentés à l'utilisateur. Si aucun ordre n'est présenté à l'utilisateur, la tâche de filtrage met en place dans son processus un ordonnancement interne pour déterminer les documents pertinents. Par exemple, tous les documents supérieurs à un seuil donné sont sélectionnés. Les autres sont alors écartés. Dans la tâche de filtrage, l'étape importante consiste en la construction d'un profil utilisateur qui reflète correctement les préférences de cet utilisateur. De nombreuses approches pour construire les profils utilisateurs ont été proposées. En voici quelques-unes : Une approche simpliste pour la construction d'un profil utilisateur est de construire ce profil en utilisant, pour le décrire, des mots-clés qui seront fournis par l'utilisateur lui-même. Cette approche est simpliste car elle fait appel à l'utilisateur à tous les niveaux. En fait, si l'utilisateur n'est pas familier du processus donnant les documents, il pourrait trouver assez difficile de fournir les mots-clés qui décrivent convenablement ses préférences dans ce contexte. En outre, une tentative par l'utilisateur de se familiariser avec le vocabulaire des documents pourrait se transformer en exercice pénible et long. Ainsi, bien que ceci soit une possibilité, nous ne pouvons demander à l'utilisateur de décrire précisément son profil, car ceci serait laborieux. Une alternative est de collecter des informations sur les préférences de l'utilisateur pour construire un profil utilisateur de manière dynamique. Au début, l'utilisateur fournit un ensemble de mots-clés décrivant ses préférences afin de permettre au système de construire un profil initial. A l'arrivée de nouveaux documents, le système utilise le profil utilisateur pour choisir les documents pouvant potentiellement l'intéresser. Par un processus de retour de pertinence ("Relevance feedback" en anglais), l'utilisateur n'indique pas seulement les 1 Exemple le site de boursorama.com, 2 exemple le site de l'afp ou les services dépêches de moteur de recherche comme voilà.fr ou encore les journaux comme lemonde.fr 10

11 EXPOSE DE LA PROBLEMATIQUE documents pertinents mais aussi les documents non-pertinents (figure 2.1). Le système utilise ces informations pour ajuster la description du profil utilisateur qui reflètera les nouvelles préférences. Cette procédure provoque une évolution constante du profil utilisateur. Ce profil se stabilise après plusieurs recherches, une fois que le profil est défini au plus proche des préférences utilisateur. retour de pertinence (oui,pertinent ou non, pas pertinent) sélection flux de documents document courant rejet utilisateur Figure 2.1 : Représentation d'un système de filtrage Figure 0 La difficulté majeure du filtrage est de décrire le mieux possible les préférences utilisateur au sein de son profil. L'approche la plus commune est de collecter les informations sur l'utilisateur pour constituer ce profil, extraire ses préférences de ces informations, et modifier le profil en concordance Les sous-tâches de TREC La conférence annuelle Text REtrieval Conference 3 est organisée chaque année sous l'égide du National Institute of Standards and Technology (NIST) sous le patronage de la DARPA. Elle offre un forum d évaluation et de discussions pour la communauté scientifique qui se consacre au traitement automatique des textes en général, et au filtrage en particulier. Un ensemble de tâches différentes est proposé aux différents participants qui soumettent des résultats à autant de tâches qu'ils le souhaitent. Certaines tâches font uniquement appel à des approches issues du traitement automatique du langage naturel. D'autres, comme la tâche de filtrage, nécessitent l'utilisation de méthodes à base de statistiques. Une description générale de la onzième édition de cette conférence (TREC-2002) peut-être trouvée dans [Voorhees et Buckland, 2002]. La tâche de filtrage proposée à TREC se décompose en trois sous-tâches : 3 Toutes les informations et publications relatives à cette conférence sont disponibles sur : 11

12 EXPOSE DE LA PROBLEMATIQUE 1. Le filtrage adaptatif (adaptive filtering) consiste à construire un premier modèle grâce à une requête formulée en langage naturel, puis à simuler un flux de documents. Le système peut tirer parti de la pertinence ou de la non-pertinence des documents sélectionnés pour s améliorer au fil du temps. 2. Le filtrage par lots (batch filtering) consiste à utiliser une base de documents préalablement étiquetés pour construire un modèle. Pour chaque document d un flux, le système doit prendre une décision binaire et peut utiliser, comme précédemment, la classe des documents sélectionnés pour s améliorer. 3. Pour le routage (routing), le système dispose également d une base de documents étiquetés pour l apprentissage. Les documents de la base de test doivent être ensuite ordonnés, du plus pertinent au moins pertinent. Le système ne doit donc pas effectuer une décision binaire, mais il doit être capable de calculer un score de pertinence. Il est toujours possible de passer du routage au filtrage par lots en considérant que les documents dont le score est au-dessus d un certain seuil sont pertinents. Il est nécessaire de choisir un "bon" seuil, ce qui n'est pas trivial : un système performant pour le routage peut être médiocre pour le filtrage par lots si le seuil n'est pas correctement choisi. 2.2 Les systèmes de filtrages Les systèmes de filtrages représentent les profils utilisateurs par une liste de termes pondérés. Ces systèmes sont conçus à partir de deux ingrédients principaux. Le premier concerne la mise à jour des poids associés aux termes. Le second concerne le calcul de la correspondance entre les documents et les profils Formule de Rocchio La formule de Rocchio [Rocchio 1971] propose un mode de calcul des poids. Elle transforme automatiquement une requête initiale (représentée par un vecteur de termes noté Q 0 ) en une nouvelle requête (représentée par un vecteur noté Q 1 ). Un ensemble de documents répondant à la requête initiale est proposé à un utilisateur qui les jugent (retour de pertinence). La nouvelle requête Q 1 est construite grâce à la formule de Rocchio, dont l idée est d ajouter à la requête initiale les termes des documents pertinents et de lui retrancher les termes des documents non pertinents : b g Q1 = a Q0 + Âd- - Âd (2.1) R N R dœr dœ( N -R) Dans cette formule, les documents sont représentés par un vecteur d, R est l ensemble des documents pertinents, R son cardinal et N le nombre total de documents de la collection; le triplet (a, b, g) est choisi en fonction de l importance que l on souhaite donner à chaque terme. La principale motivation est qu en pratique, la requête originale (Q 0 ) peut contenir d'importantes informations. Par ailleurs, les informations contenues dans les documents 12

13 EXPOSE DE LA PROBLEMATIQUE pertinents sont souvent plus importantes que les informations contenues dans les documents non-pertinents. C'est ce que suggère la constante g qui est inférieure à la constante b. Une approche alternative est de prendre g=0, ce qui nous ramène à une stratégie positive de "feedback". Cette formule de mise à jour des poids peut être associée à différents modèles classiques de RI pour le calcul de la correspondance entre documents et requêtes (modèle vectoriel ou modèle probabiliste) Formule OKAPI Le modèle probabiliste Okapi, dont les idées sont développées par Robertson, prend en compte la fréquence des termes dans les documents. Il a été testé plusieurs fois avec succès pour les campagnes TREC [Robertson et al 1994]. Ce modèle inclut un mode particulier de mise à jour des poids que nous détaillons ici. Ce modèle utilise l'idée d'expansion de requête en fonction du retour d'informations obtenu des documents pertinents. Le retour d'informations est l'apport de nouveaux termes qui permettent de désigner la composition possible d'un document que l'on juge pertinent. Le calcul des poids des termes dans le système OKAPI évolue en fonction des documents pertinents déjà trouvés par le système. Il repose sur la formule de Robertson et Sparck Jones [Robertson et Sparck Jones 1976] : w (1) ( r+ 0.5)/( R-r+ 0.5) = log ( n-r+ 0.5)/( N-n-R+ r+ 0.5) où N est le nombre de document de la collection n est le nombre de document contenant le terme R est le nombre de document pertinents connus pour une requête donné r est le nombre de document pertinents contenant le terme La fonction permettant de décrire le score d'un document est la suivante : (1) ( k1+ 1) tf ( k3+ 1) qtf w + k Q. Œ dl Q K tf k qtf avdl avdl 2 3 dl Â T où Q représente la requête contenant les termes T K est égale à k 1 ((1-b)+b.dl/avdl) k 1, k 2, k 3 sont des paramètres qui dépendent de la nature de la requête tf est la fréquence d'occurrence d'un terme pour un document donné qtf est la fréquence du terme dans la requête dl et avdl sont respectivement la longueur du document et la longueur moyenne des documents L'évolution du système repose sur l'évolution de la requête. Cette évolution tient du fait que lors de retours d'informations du système, sur les documents pertinents, le système ordonne les termes présents dans ce document pertinent en fonction du poids de ces termes. Ce classement des termes, qui évolue à chaque retour de pertinence, permet de faire évoluer la 13

14 EXPOSE DE LA PROBLEMATIQUE requête. En effet, le système sélectionne les x premiers termes de cette ordre afin de les inclure dans la requête de base. Ces termes sélectionnés dépendent ainsi de leur position dans l'ordonnancement qui est fait après chaque arrivée de documents jugés pertinents pour la requête. Le formule de mise à jour peut être combinée à d'autres formules pour le calcul de la correspondance (exemples : modèle vectoriel ou probabiliste). 2.3 Présentation de RELIEFS Le système RELIEFS [Brouard 2000a] (RElevance Information Extraction Fuzzy System) est un système pour le filtrage adaptatif de documents textuels. Son fonctionnement s'inspire des mécanismes cognitifs pour les processus de sélection d'informations. Ce système repose sur un ensemble de mécanismes de base renvoyant à la notion d'activation et de propagation d'activation pour la sélection d'informations "pertinentes". Ce système a été implémenté et testé pour la tâche de filtrage adaptatif de TREC-9 [Brouard et Nie 2000] et TREC-2002 [Brouard 2002a]. La formalisation de la pertinence se définit comme une résonance dans un réseau de concept associé Représentation des documents et requêtes a Construction du réseau associatif Dans le cadre de la sélection de documents textuels, les stimulis sont représentés par les différents termes (ou mots) des documents. La requête est symbolisée par le nœud requête qui représente la pertinence d'un document. Le nœud requête est unique et distinct pour chaque requête présentée au système. Un réseau, liant les nœuds représentant les différents mots présents dans les documents et le nœud requête, est mis à jour continuellement (figure 2.2). (représentation de la requête) pertinence Connexions associatives mot i (représentation du document) Figure 2.2 : Réseau construit et mis à jour par RELIEFS [Brouard 2002b] 14

15 EXPOSE DE LA PROBLEMATIQUE Lorsqu'un document se présente, les termes présents dans ce document vont activer les nœuds correspondants dans le réseau et agir comme des indices de la pertinence du document. Un bon indice est un terme dont la résonance avec le nœud requête est importante (les deux implications sont fortes t i ÆQ et QÆt i ). La pertinence globale du document est calculée sur la base de l'ensemble des mots vis-à-vis du nœud requête. Pour adapter le système au besoin de l'utilisateur, le système doit apprendre à partir des retours de pertinence (relevance feedback) provenant de l'utilisateur pour les documents qui lui ont été proposé par le système précédemment. Cet apprentissage consiste à modifier la valeur des connexions entre les mots et le nœud requête b Règle d'apprentissage Etant donné un document et un jugement de pertinence, il faut mettre à jour les connexions présentes dans la structure. Soient W AB(k-1) et W ABk les évaluations de la connexion orientée du nœud A vers le nœud B, avant et après la prise en compte de la k ième observation (un couple document jugement de pertinence, que l'on note). Soit m A (o k ) une valeur indiquant la présence ou l'absence de l'objet A dans O k (1 si présent et 0 si absent). La règle d'apprentissage proposée est : w ABk aw = AB( k -1) + m ( O A a + m ( O A k k ). m ( O ) B k ) k 1 avec Â - a = m A ( O k ) (2.2) i= 1 Dans notre cas, A et B correspondent respectivement à un mot (représenté par un nœud du document) et à la "pertinence" (représentée par un nœud requête) ou inversement. La règle fonctionne de la façon suivante : - Si A et B sont présents dans l'observation, la connexion de A vers B et la connexion inverse sont renforcées. On prend ainsi en compte le jugement de l'utilisateur en augmentant le poids des mots apparaissant dans le document jugé pertinent. - Si A est présent et B ne l'est pas, la connexion de A vers B est affaiblie et la connexion inverse reste inchangée. Si A est un mot et B le nœud requête, ceci revient à affaiblir le poids attribué à un mot qui apparaît dans un document jugé comme non pertinent par l'utilisateur. Si A est le nœud requête et B est un mot, ceci revient à affaiblir le poids attribué à un mot qui n'apparaît pas dans un document jugé comme pertinent par l'utilisateur. Le numérateur de la règle (2.2) correspond précisément à la forme générale de la règle de Hebb dont le principe est associatif (si deux nœuds sont activités simultanément, leurs connexions sont renforcées). Le dénominateur permet de normaliser le poids. La règle associative présentée permet donc simplement de calculer de façon incrémentale la fréquence relative de documents pertinents sachant la présence d'un mot ainsi que la fréquence d'un mot dans les documents pertinents Fonction de correspondance La fonction de pertinence pour un document est évaluée par une résonance. Afin d'évaluer la pertinence entre un document et une requête, [Brouard 2002b] décompose ces 15

16 EXPOSE DE LA PROBLEMATIQUE évaluations en calculant la résonance de chacun des mots présents dans les documents. La qualité de résonance d'un mot indique sa capacité à propager l'activation vers le nœud requête et à recevoir une activation de ce même nœud. Le poids de la connexion orientée du mot i vers le nœud requête est appelé W ir et le poids de la connexion inverse est appelé W Ri. Ainsi, la résonance entre le mot i et la requête est représentée par le produit de ces deux poids W ir. W Ri. L'absence d'un mot est donc d'autant plus pénalisante que ce mot est résonant avec la requête, c'est-à-dire que W ir.w Ri est grand. Elle correspond à l'idée que l'absence d'un relais de l'activation entraînerait une dissipation de l'activation et ne favoriserait pas l'émergence d'un état de résonance. Le profil est donc représenté comme dans les autres systèmes de filtrage adaptatif par une liste de termes i pondérés par W ir. W Ri. La fonction de correspondance se traduit par la somme des produits pour chacun des mots présents. Afin de normaliser cette somme, elle est rapportée à la même somme pour l'ensemble des mots (tous les mots appartenant au document). L'évaluation de la pertinence d'un document D pour une requête Q s'écrit alors : Â i Â WRiWiR * R ( D, Q) = (2.3) WRiWiR où i* sont les indices des termes présents dans le document. Le produit W ir.w Ri a une interprétention en termes de propagation d'activation. [Brouard 2002b] prend aussi en compte qu'il s'agit de fréquences relatives, et par conséquent il adopte une interprétation plus empirique. Ainsi, un mot important (un mot dont la présence influe de manière significative sur la décision de prendre ou non le document qui le contient) est un mot qui est assez fréquemment présent lorsqu'un document est pertinent. La prise en compte de W ir permet de sélectionner de bons "prédicteurs". La prise en compte de W Ri permet de sélectionner parmi ces "prédicteurs" ceux qui surviennent le plus fréquemment, c'est-à-dire ceux pour lesquels la qualité de prédiction a le moins de chance d'être liée à la présence fortuite du mot dans quelques documents pertinents et ceux qui seront plus susceptibles d'être présents dans les prochains documents pertinents, et donc le plus susceptible d'être utiles aux futures prises de décision concernant la pertinence des documents. On notera que la prise en compte de W Ri permet aussi d'éviter les mots qui sont simplement très présents comme les mots vides qui sont donc plus présents que les autres mots dans les documents pertinents sans pour autant être "réellement" liés au thème sur lequel porte la requête. Il s'agit des mots qui sont écartés dans le modèle vectoriel sur la base idf. Ces mots correspondent aussi, dans le cadre des méthodes de propagation d'activation, aux nœuds à forte connectivité, nœuds à éviter si l'on ne souhaite pas activer tout le réseau. i Réglage des seuils du système Afin que RELIEFS puisse s'adapter à la tâche de filtrage [Brouard 2002b], il faut pouvoir définir le score à partir duquel le système peut sélectionner le document. Le seuil optimal dépend de la requête et de l'apprentissage réalisé sur les précédents documents sélectionnés. Dans RELIEFS, cette mise à jour de ces seuils dépend des règles suivantes : - Si un document sélectionné n'est pas pertinent, le seuil est augmenté (on considère que le système est trop tolérant). 16

17 EXPOSE DE LA PROBLEMATIQUE - Si un document (qu'il soit pertinent ou pas) n'est pas sélectionné, le seuil est abaissé (on considère que le système est trop sélectif). Ces seuils permettent de régler le Bruit ou le Silence du système. L'amplitude d'augmentation ou de diminution des seuils dépend de différents critères : - Le nombre de documents non pertinents consécutifs sélectionnés. Plus ce nombre est important, plus l'augmentation est forte et la diminution est faible. - Le nombre de documents pertinents consécutifs (uniquement pour la diminution). Plus ce nombre est important, plus la diminution est forte. - Le nombre de documents traités (on prend plus de risque au début qu'à la fin). Plus ce nombre est important moins l'amplitude de la variation est forte. - La densité de documents pertinents estimée, c'est-à-dire le nombre de documents pertinents trouvés sur le nombre de documents traités. 2.4 Ce que l'on veut faire Les conjonctions Actuellement, les nœuds ne représentent que des termes simples. Ainsi, pour représenter un document contenant les mots a, b, et c on active les 3 nœuds représentant respectivement a, b et c. Notre souhait est de construire des nœuds représentant a&b; a&c, b&c, a&b&c de façon à tenir compte du contexte dans lesquels les mots surviennent. Par exemple, il est possible que seulement 10% des documents soient pertinents lorsque a ou b sont présents, et que 95% des documents soient pertinents lorsque a ET b sont présents simultanément. Il est impossible de tenir compte de ce type de situation si l'on ne dispose pas d'une représentation indépendante des conjonctions. Les conjonctions permettent en outre d'interpréter un mot dans son contexte (les mots intégrés dans la même conjonction) L'évolution que nous proposons consiste donc à construire des conjonctions et à les inclure dans l'évaluation de la pertinence des documents Les dépendances Dans le cadre des conjonctions, il existe une dépendance entre la conjonction ellemême et les termes qui la composent. Il faut pouvoir quantifier cette dépendance afin que leur rôle soit équilibré dans les fonctions de correspondance. Le problème vient du poids que l'on attribut à ces termes. Le but de ce travail est de leur attribuer un poids qui tient compte de la présence et de l'utilisation des termes composants. 17

18 ETAT DE L'ART 3 INDEXATION PAR CONJONCTION DE TERMES ET PRISE EN COMPTE DES DEPENDANCES DANS LES MODELES DE RI 3.1 Modèles de RI Le but d'un système est de stocker des informations (textuels, images, son, vidéo ) et de retrouver dans sa base les éléments qui correspondent aux critères qui sont exposés dans la requête. Un système de recherche d'informations permet à un utilisateur d'exprimer un besoin au travers d'une requête, souvent écrite en langage naturel, qui est traitée par le système. Ce système renvoie à un ensemble de documents, tiré d'une collection de documents, qui sont censés être liés à la recherche de l'utilisateur. Il s'agit donc d'un système de sélection d'informations qui évalue la correspondance entre les différents documents d'une collection et la requête de l'utilisateur. Selon [Baeza-Yates et Ribeiro-Neto 1999], un modèle de recherche d'informations se défini par un quadruplet {D, Q,, R(q i, d j )} (figure 3.1). où : - D est un ensemble de représentations pour les documents de la collection. - Q est un ensemble de représentations de la demande d'informations de l'utilisateur, cette représentation est appelée requête. - est le système qui modélise les documents, la requête et les relations qui existent. - R(q i, d j ) est la fonction de correspondance qui associe un nombre réel à une requête q i Œ Q et la représentation d'un document d j Œ D. Cette fonction peut fournir un ordonnancement des documents par rapport à la requête q i. Requête (exprimant un besoin d'information) Documents Représentation de la requête Fonction de correspondance Représentation des documents Documents ordonnés Figure 3.1 : Représentation de l architecture d un système de recherche d informations (encadré) et de ses entrées et sorties. 18

19 ETAT DE L'ART La construction d'un modèle de recherche d'informations se symbolise en premier par une représentation des documents et des informations utiles exprimées par l'utilisateur, et d'une fonction de correspondance qui évalue la pertinence d'un document par rapport à une requête. Cette fonction de correspondance correspond le plus souvent à l'évaluation du degré de satisfaction des critères de recherche exprimés dans la requête en effectuant une comparaison de la représentation du document et de la requête (identification, par exemple, des mots de la requête avec les mots-clefs représentants le document). Mais il existe d'autres types de relations qui peuvent symboliser cette pertinence. 3.2 Prise en compte des dépendances On peut remarquer que dans la plupart des modèles de base en RI, l'hypothèse d'indépendance des termes est automatiquement faite afin de faciliter la complexité des calculs. Le principal problème des systèmes d'informations est que souvent les mots utilisés pour définir la requête ne sont pas identiques aux mots servant à indexer le document qui est malgré tout pertinent pour cette requête. Ce problème tient du langage, car les mots utilisés peuvent être polysémiques ou synonymes d'un terme d'indexation. L'utilisation de synonyme fait référence au fait qu'il peut y avoir plusieurs façons d'exprimer un même concept. L'utilisation des ces différents termes dépend souvent du contexte, du domaine, des habitudes linguistiques ou encore de l'auditoire dans lequel il est utilisé. La prise en compte des synonymes tend à faire baisser la mesure de "Rappel" du système. Par polysémie, nous faisons référence au fait qu'un mot peut avoir plusieurs sens distincts. Dans différents contacts, où l'utilisation par différentes personnes peut faire varier le sens du mot, l'utilisation de ces mots dans une requête peut apporter en réponse des documents non pertinents pour la requête, car n'ayant pas le même contexte. La polysémie est un facteur qui fait baisser la "Précision" d'un système. Ce problème d'indexation, selon [Deerwester et al. 1990], peut être imputé à trois facteurs. Le premier facteur est que la manière d'identifier les termes d'indexations est incomplète. Les termes qui sont utilisés pour décrire ou indexer un document sont seulement une fraction des termes possibles utilisables par les utilisateurs pour rechercher ces documents. Ceci parce que le document lui-même ne contient pas la totalité des termes pouvant le décrire et ainsi ces documents ne seront pas retrouvés. Le second facteur est le manque de méthode pour traiter la polysémie. Des pistes sont données par Deerwester et bien d'autres peuvent être données, mais le but premier est de traiter correctement le sens du mot, d'où une importance de tenir compte du contexte dans lequel évoluent ces mots, comme dans le cadre de l'hypothèse de sémantique distributionnelle [Besançon 2002]. Le troisième et dernier facteur est plus technique. On remarque (comme il vous sera présenté par la suite) dans les systèmes de recherche d'informations que l'indépendance des termes est faite pour faciliter les traitements de ces systèmes, ce qui implique que la prise en compte des dépendances entre termes oblige de modifier ces modèles. Cette dépendance des termes (synonymie et polysémie) doit être prise en compte car elle tient un rôle important, comme on peut le constater dans l'illustration suivante L'extension de requête L'extension de requête est une modification de la requête de base qui est soumise au système. Cette modification consiste à augmenter la quantité d'informations de la requête 19

20 ETAT DE L'ART (ajout de nouveaux termes). Pour l'extension de requête, il est souvent utilisé des thésaurus (dictionnaire de termes ayant une relation conceptuelle entre eux), de termes co-occurrent. L'augmentation de la requête permet d'étendre les correspondances avec les documents Illustration du problème de dépendance Nous allons illustrer ce problème de termes au sein des systèmes de recherche d'informations en utilisant une matrice terme-document (table 3.1). Doc 1 Doc 2 Doc 3 accès document recherche information théorie base de données indexation informatique Pert Ret x x x x x R x* x x* M x x* x* R M Requête : "IDF en informatique pour la collecte d'information" Table 3.1 : Exemple d'une matrice terme-document En dessous de cette table, on donne la requête qui est soumise à cette base de données. Un "R" dans la colonne Pert (pertinent) indique que l'utilisateur a jugé le document pertinent pour cette requête (ici les documents 1 et 3 sont pertinents). Les termes ressortant de la requête et des documents (informatique et information) sont indiqués par un astérisque dans la case correspondante; "M" dans la colonne Ret (retrouvé) indique que le document a été retrouvé et que le système l a retourné à l'utilisateur. Les documents 1 et 2 illustrent le problème exprimé précédemment. Le document 1 est un document pertinent, mais ne contient aucun mot de la requête, ce qui implique que ce document ne soit pas retrouvé par le système. Le document 2 n'est pas pertinent mais il contient les termes de la requête, ce qui implique que lui soit retrouvé par le système, malgré que le contexte de ce document ne corresponde pas au contexte exprimé par la requête. Notez que dans cet exemple, aucune information de signification de la requête n'est trouvée. De ce fait, il n'y a aucune possibilité d'empêcher que le document 2 ne soit pas retrouvé. 3.3 Utilisation de conjonctions de termes L'utilisation de termes simples sert souvent pour indexer les documents et les requêtes. Mais dans le langage naturel, il existe des conjonctions de termes qui représentent des mots composés ou des expressions complexes. La difficulté pour un système est de pouvoir identifier ces conjonctions, ce qui signifie savoir s'il faut prendre en compte la conjonction ou chaque terme qui le compose de manière dissociée. Dans le cas des multi-termes, certains systèmes utilisent des patrons morpho-syntaxiques pour pouvoir identifier les multi-termes dans un document ou une requête [Jacquemin et al. 1997], mais ces multi-termes peuvent être présentés dans un document selon différentes variations : - Les variations morphologiques ; les expressions peuvent varier en raison de variations flexionnelles ou dérivationnelles : pluriel, conjugaison ou remplacement 20

21 ETAT DE L'ART d'un mot par un mot de même racine mais de nature syntaxique différente (peupler, peuple, peuplement) - Les variations syntaxiques ; les modifications d'expressions peuvent provenir de variations syntaxiques de différentes natures : Coordination : combinaison de deux termes avec un mot de tête commun ou un argument commun par exemple "élection présidentielle et législative" Substitution/modification : la substitution est le remplacement d'un mot par un multi-terme, la modification est l'insertion d'un modificateur à un autre terme : par exemple "République fédérale tchèque" est une substitution de "République tchèque" si "République fédérale" est un multi-terme (sinon c'est une modification). La synapse est une modification ou seuls les mots de liaisons changent (par exemple "consommation de l'oxygène" est une variation synaptique de "consommation d'oxygène"). - Les variations sémantiques ; un multi-terme peut être remplacé par un synonyme. Les conjonctions de termes ne sont pas constituées que de multi-termes, elles peuvent être composées de termes simples non directement proches (qui ne se suivent pas directement). Une conjonction de termes peut apporter un autre sens que les termes qui la composent. Ce sens, dans certain cas, peut être totalement différent du sens qui est apporté par chaque terme qui le compose. Il est évident que la conjonction de termes à une relation de dépendance (pour le sens) avec chacun de ces termes composant. 3.4 Modèle vectoriel Le modèle vectoriel standard (ou VS : Vector Space) est un modèle de recherche d'information très connu. Il intègre dans un espace vectoriel une représentation qui symbolise les documents ou les requêtes en fonction des termes d'indexation qui les composent. La forme d'implémentation la plus connue du modèle vectoriel est le système de recherche documentaire SMART [Salton 1971], [Salton and McGill 1983] Représentation des documents et requêtes Ce modèle représente les requêtes et les documents sous forme de vecteurs qui sont placés dans un espace vectoriel spécifique. Nous présentons ici une représentation graphique (Figure 3.2) qui montre deux vecteurs documents et un vecteur requête présents dans le même espace vectoriel. 21

22 ETAT DE L'ART Figure 3.2 : Représentation des vecteurs document et requête Dans le cas de la recherche documentaire, ces vecteurs sont composés de caractéristiques. Une caractéristique _ i correspond généralement à un terme appelé aussi terme d'indexation (ceci peut être un mots clef du document) et le vecteur représente le poids de chacun des termes. Si on considère m caractéristiques pour un document et n termes présents dans une requête, on peut par exemple définir les vecteurs ainsi : où d j= ( w1, j,.., wi, j,.., wm, j) q= ( w1, q,.., wi, q,.., wn, q) d j est le vecteur représentant le document j, w i,j représente le poids qui la caractérise _ i pour le document d j, q quant à lui, représente le vecteur de la requête, w i,q représente le poids de la caractéristique _ i dans le vecteur q. Ainsi, dans le cadre de la recherche d'informations, le poids équivaut à 0 si le terme d'indexation qui y correspond n'apparaît pas dans la requête, et 1 s'il est présent dans la requête. Il en est de même pour la présence d'un terme dans le document a Les schémas de pondération La pondération qui est accordée à un document d contenant un certain terme d'indexation t j a fait l'objet de nombreuses études [Salton and Buckley 1988] qui prennent en général en compte des facteurs de pondération locale, de pondération globale et de normalisation en fonction de la taille du document. La pondération locale : Ce type de pondération prend en compte les informations locales du terme qui ne dépendent que du document. Cette pondération correspond à une fonction de la fréquence 22

23 ETAT DE L'ART d'occurrence du terme dans le document, elle est notée tf (term fréquency). C'est le nombre de fois où le terme est présent dans le document. Les fonctions les plus utilisées sont les suivantes : - Facteur tf : il indique le nombre d'occurrences d'un terme donné dans le document. - Facteur binaire : il prend pour valeur 1 si le terme est présent dans le document, et a pour valeur 0 si le terme n'est pas présent. Ce facteur est utilisé pour les représentations de type ensembliste. Il permet aussi de donner une base de comparaison par rapport aux autres pondérations locales. - Facteur logarithmique : Ce facteur est une fonction logarithmique de la fréquence du terme dans le document, valant : W l (d,t i )= 1+ log( tf) Cette fonction est proposée par [Buckley et al 1992], elle montre qu'un terme d'une requête, qui est présent un grand nombre de fois dans un document, n'est pas plus pertinent qu'un document contenant un petit nombre de fois plusieurs termes de la requête. D'où l'importance qu'un plus grand nombre d'occurrences d'un terme dans un document ne soit pas prédominant par rapport à un plus petit nombre d'occurrences de plusieurs termes. - Facteur augmenté [Salton et Buckley 1998] : il permet de réduire les différences entre valeurs pour les poids accordés aux termes du document. Il accorde pour tous termes présents dans le document une valeur minimale, et un poids ne dépassant pas une valeur maximale pour les termes présents plusieurs fois : tf Wl (d,ti) = * maxtf Pondération globale : La pondération globale contrairement à la pondération locale s'intéresse aux informations concernant les termes et dépendant de la collection de documents. Ainsi, une pondération qui prend en compte l'importance d'un terme dans toute la collection améliore les performances dans le cadre de la recherche d'informations [Salton et al.1975]. Un poids plus important doit être donné aux termes qui apparaissent le moins fréquemment dans la collection, car les termes d'indexations qui sont utilisés dans de nombreux documents ont un pouvoir discriminant moins important que ceux présents dans peu de documents. Le facteur de pondération globale dépend de l'inverse de la fréquence en documents, comme par exemple le facteur idf (inverted document frequency) [Salton et al.1975], valant pour une collection de document D. D idf ( ti) = log( ) tf( ti) Où D représente le nombre de documents de la collection et tf(t i ) la fréquence du terme t i (le terme considéré) dans l'ensemble des documents de la collection. 23

24 ETAT DE L'ART Normalisation : La normalisation est la prise en compte de la taille du document par rapport à la pondération locale ou globale qui sont des pondérations qui ne la prennent pas en compte. En effet, la taille d'un document joue un rôle dans le style et le vocabulaire qui est utilisé dans ce document. Les documents qui sont très longs auront tendance à utiliser les même termes de façon répétée, ce qui a une importance dans le calcul des facteurs. Un document long peut comporter aussi pour des raisons stylistiques un grand nombre de synonymes d'un terme pour éviter les répétitions b Combinaison des pondérations La donnée de ces trois fonctions de pondération locale, globale et de normalisation forme un schéma de pondération qui est repéré dans le système SMART de la manière suivante : Le poids du terme t dans le document d= (la pondération locale de t dans d) *(la pondération globale de t)*(la normalisation de d) que l'on peut noter aussi: w ( t, d) wl ( d, t) wg( t) wn( d) 1 = où w 1 (t,d) représente le poids du terme t qui apparaît dans un document d, w l (d,t) est la pondération locale du terme t dans le document d, w g (t) la pondération globale du terme t et w n (d) facteur de normalisation du document d. On utilise souvent la pondération suivante pour un terme t i W(t,d)= tf.idf Fonction de correspondance Pour le calcul d'une similarité dans un document par rapport à une requête, la mesure du cosinus est le plus souvent utilisée dans le cadre du modèle vectoriel. Elle représente le cosinus de l'angle entre le vecteur représentant la requête et celui représentant le document : d j. q ( q, d j) d j q rcos = en reprenant les définitions de q et d j citées au début de ce chapitre : d j= ( w1, j,.., wi, j,.., wm, j) q= ( w1, q,.., wi, q,.., wn, q) 24

25 ETAT DE L'ART on obtient: ( q d j) m Â w i, j i, q i= 1 r cos, = m (3.1) n Âw2 i jâw2, i, q i= 1 i= 1 w Cette mesure est indépendante de la norme des vecteurs représentant les documents, ce qui permet d'éviter d'augmenter les valeurs des similarités entre les documents plus longs. Le cosinus est une forme de normalisation. Cette mesure est une généralisation des mesures ensemblistes, c'est à dire une intersection (représentée par le produit scalaire) qui est normalisée par la norme des vecteurs Prise en compte des dépendances dans le modèle vectoriel Dans le cadre des modèles vectoriels simples, il est souvent fait l'hypothèse simpliste de l'orthogonalité des axes, ce qui signifie l'indépendance des termes, puisque dans l'espace vectoriel de représentation, les axes représentent les termes. Cette représentation pose problème lorsqu'on essaye de prendre en compte des termes synonymes, car un même sens peut être décrit par différents termes qui ne seront jamais considérés comme identiques avec cette représentation. Certaines solutions pour remédier à ce problème ont été proposées pour tenir compte des dépendances sémantiques dans le cadre du modèle vectoriel. Elles consistent à construire un espace dans lequel les axes ne sont plus orthogonaux en se basant sur les dépendances calculées pour les différents termes. Nous allons voir dans la suite de ce chapitre deux modèles qui, en se basant sur le modèle vectoriel simple, essaient de palier ce problème de dépendance en prenant en compte l'aspect sens et concept des documents et des requêtes. Le premier modèle vu et le modèle LSI qui se base sur la décomposition des termes d'indexations, puis nous continuerons sur le modèle DSIR [Besançon 2002] qui, lui, repose sur l'hypothèse de sémantique distributionnelle et se focalise sur les co-occurrences des termes a Modèle Latent Semantic Indexing Latent Semantic Indexing (LSI) est un modèle algébrique de recherche de documents basé sur la décomposition des termes d'indexations au travers l'espace vectoriel. C'est une variante du modèle vectoriel qui tente de prendre en compte, pour la représentation des documents, la structure sémantique des unités linguistiques, qui sont implicites (ici latent), représentées par leurs dépendances cachées [Deerwester et al. 1990] et [Furnas et al. 1988]. Ainsi, le but de LSI est de transformer une représentation standard par des mots clés en une autre représentation qui permet de "meilleurs" résultats. Ce qui signifie que les documents et les requêtes sémantiquement similaires seront plus proches avec la représentation transformée qu'avec les mots-clés. L'idée est de se placer dans un nouvel espace (généralement plus petit), espace associé au concept. Ceci peut être accomplit en plaçant les vecteurs des termes d'indexations dans l'espace dimensionnel où les dimensions sont indépendantes et réduites. Cette nouvelle dimension est une combinaison linéaire des anciennes dimensions. Le problème est que la 25

26 ETAT DE L'ART recherche dans un espace réduit doit être supérieure à la recherche dans l'espace des termes d'indexations. Documents Terme s Valeur de décomposition singulière de la matrice terme document, X où T 0 est orthogonal, (T' 0 T 0 =1) D 0 est orthogonal, (D' 0 D 0 =1) S 0 est une matrice diagonale de valeur singulière T est le nombre de lignes de X D est le nombre de colonnes de X M est de l'ordre de X ( min(t,d)) Figure 3.3 : Représentation de la décomposition de valeur singulière d'une matrice termes-documents de taille t d LSI utilise une matrice X (terme documents) qui est composée des vecteurs motsclés des requêtes et de documents comme pour le modèle vectoriel standard. Ensuite, une décomposition de la matrice X est effectuée. Cette décomposition en valeur singulière (appelée aussi SVD : Singular Value Decomposition) de cette matrice X (le symbolisme est représenté sur la figure 3.3) permet de créer un nouvel espace vectoriel : X=T 0 S 0 D' 0 Où X est la matrice de document-terme original (de taille t d), T 0 est une matrice de taille t m, D' 0 est une matrice de taille m d et S 0 est une matrice diagonale de taille m m qui est trié dans l'ordre croissant. Il existe juste une seule décomposition de cette façon. La représentation par mots-clés contient beaucoup de bruits, ces bruits se retrouvent dans les dimensions de S 0 qui ont des valeurs faibles. Le modèle LSI supprime ces dimensions de valeurs faibles (en les remplaçant par la valeur 0), ce qui diminue la dimension de S 0 à k, cette matrice modifiée est appelée maintenant S. En conséquence, les matrices T 0 et D' 0 qui ont été nettoyées deviennent T et D' (figure 3.4). On peut remarquer dans cette figure que k ( m) est le nombre de dimensions choisies pour le modèle réduit. 26

27 ETAT DE L'ART Document s termes Figure 3.4 : Réduction de la SVD de la matrice terme document X On obtient ainsi un nouvel espace vectoriel : = T S0 D' ªX ˆ =T S X 0 0 D Ce modèle permet donc de représenter les documents dans un espace de dimension k. Il permet, de façon symétrique, de représenter les termes des vecteurs qui sont une indication du profil de co-occurrence du terme dans les documents. Cette propriété peut être utilisée pour établir une notion de similarité entre termes, ou représenter des documents comme moyenne des vecteurs représentant les termes qu'ils contiennent [Besançon 2002]. L'utilisation du modèle LSI pour la recherche d'information se traduit ainsi: lorsque l'on soumet une requête, elle est aussi traduite dans ce nouvel espace. On peut remarquer que dans l'article de [Deerwester et al. 1990], une requête est transformée en pseudo document, et écrit de la manière suivante : ' ˆ q -1 Dq = X' TS Où X q est le vecteur de mots clés de la requête (dans l'espace des mots-clés). Ensuite, ce pseudo-document est ajouté dans la matrice D comme un nouveau "document". Le calcul de similarité entre chaque paire de documents peut se faire par : X ˆ ' Xˆ = ( TSD' ) ' TSD' =DST'TSD' =DS 2 D' Ainsi, après ce calcul, on peut connaître la similarité de ce pseudo document, ou la requête avec tous les autres documents. [Deerwester et al. 1990] montrent l'existence de trois sortes de comparaisons : - Comparaison de deux termes ("le terme i est similaire au terme j?") X ˆ' Xˆ = TS? T' 27

28 ETAT DE L'ART - Comparaison de deux documents ("le document i est similaire au document j? ") X ˆ' Xˆ = DS 2 D' - Comparaison entre un terme et un document (" le terme i se trouve dans le document j?") X ˆ = TSD' Ce modèle a montré des performances très intéressantes. Pour des corpus de petit et de moyenne taille, la performance est très supérieure au modèle vectoriel classique. D'après les conclusions des systèmes qui ont expérimenté le modèle LSI [Deerwester et al. 1990] et [Furnas et al. 1988], quand la taille du corpus augmente, la différence avec les autres modèles semble diminuer b Modèle DSIR [Besançon 2002] Le modèle DSIR (Distributional Semantics based Information Retrieval) ou Recherche documentaire à base de sémantique distributionnelle, est un modèle qui intègre la représentation vectorielle des documents et de leurs connaissances sémantiques. Le modèle DSIR intègre des données de fréquences de co-occurrence 4 et d'occurrence entre les termes, extraites automatiquement à partir des corpus de textes. L'utilisation de co-occurrence de mots pour représenter les liens sémantiques entre ces mots repose sur la notion de sémantique distributionnelle. Représentation du modèle : L'hypothèse est faite que dans le cadre de la "sémantique distributionnelle"[besançon 2002], on suppose l'existence d'une forte corrélation entre les caractéristiques distributionnelles observables des mots et leurs sens : la sémantique d'un mot est reliée à l'ensemble des contextes dans lesquels il apparaît. Par exemple, en considérant les trois exemples suivants pour un mot X : (1) "Certains X, par exemple, attaquent naturellement les rats." (Darwin, l'origine des espèces) (2) "Quelque X sur les toits, marchant lentement, bombait son dos aux rayons pâles du soleil." (Flaubert, Madame Bovary) (3) "il entendait au loin dans la forêt les miaulements des X." (Anatole France, L'étui de nacre) L'hypothèse principale pour la sémantique distributionnelle est de considérer que ces contextes apportent suffisamment d'informations pour identifier X. Et ainsi montrer dans le cas présent que X est un chat. La démarche permettant d'aboutir à ce résultat est décomposée en trois étapes: - Définition du contexte d'un mot dans un corpus, qui permet d'identifier les mots qui sont considérés comme co-occurrents à un lot donné et qui, selon l'hypothèse de la SD, contribuent à son sens. - La représentation des mots selon la définition prise en compte pour les contextes. - La définition d'une mesure de similarité entre les représentations des mots qui est alors identifiée avec la mesure de la similarité entre les contextes. 4 La co-occurrence est la relation entre des termes qui peuvent partager partiellement un concept. 28

29 ETAT DE L'ART Afin d'identifier les types de relations sémantiques, plusieurs sortes de contextes peuvent être définis : - Les contextes positionnels : fenêtres de n mots, si n est petit alors ça favorise les relations de composition. - Les contextes syntaxiques : les contextes dépendent de la structure syntaxique de l'unité textuelle (grammaire et analyse). - Les contextes documentaires : les contextes sont définis selon les unités textuelles à l'intérieur d'un document (paragraphe, section, chapitre). La représentation de ces unités linguistiques se fait à l'aide d'une matrice appelée matrice de co-occurrence (i.e. C). Chaque ligne de cette matrice représente le profil de co-occurrence de l'unité linguistique : Ê ˆ Ê c c c Á = Ác c L 1 2 = c21c22 C Lc Á M Á Ëc Ëc M U c M U L O 2 c M T T U T ˆ Fonction de représentation : L'hypothèse de la SD peut être reformulée ainsi : deux unités linguistiques sont sémantiquement similaires si leurs contextes textuels sont similaires. Ce qui permet d'écrire la fonction de représentation du modèle DSIR ainsi : rep DS ( d) = U Â i= 1 w( d, ui) rep DS ([ ui] ) où la représentation d'une unité linguistique particulière (terme d'indexation) est son profil de co-occurrence, pondérée par un facteur associé à l'importance de cette unité : rep DS ([u i ])= p i c i. Les pondérations w(d,u i ) et p i données à chaque unité linguistique u i sont définies comme dans le modèle vectoriel standard, mais ces pondérations sont calculées pour toutes les unités linguistiques de U, et non seulement sur T. On a donc : rep avec w 1 (d,u i ) = w(d,u i ) p i = w l (d,u i ) w n (d) w g (u i ) DS U Â ( d) = w ( d, ui c (3.2) i= 1 1 ) i La collection de documents est alors représentée par le produit matriciel : D = FC Où F est une matrice d'occurrence de dimension D U comme dans le modèle vectoriel, et C la matrice de co-occurrence de dimension U T. 29

30 ETAT DE L'ART Intégrations des co-occurrences : Le modèle DSIR n'est pas un modèle d'expansion de requêtes, mais un modèle de représentation. C'est à dire que dans le modèle DSIR, les requêtes et les documents sont représentés de la même manière; l'intégration des co-occurrences change donc la fonction de représentation (rep). Pour prendre un exemple, un modèle d'expansion de requête à base de co-occurrence cherche pour la requête "chat" des documents qui contiennent également "lait", "gouttière" ou "miauler", alors que le modèle DSIR cherche, pour la même requête, les documents qui contiennent des mots qui ont aussi pour contexte les mots "lait", "gouttière" ou "miauler" (Figure 3.5). D chat matou Q lait gouttière miauler lait gouttière miauler Figure 3.5 recherche contextuelle pour le modèle DSIR Pour [Besançon 2002] et [Besançon 2001], la façon de calculer les fréquences de cooccurrence dépend des relations de co-occurrence qui sont prises en compte. L'approche la plus simpliste est de calculer toutes les co-occurrences entre toutes les unités linguistiques sur un corpus de référence. Mais cette position n'est pas suffisante. En effet, les co-occurrences non linguistiquement pertinentes peuvent être prises en compte. Cette approche repose sur un filtrage négatif des co-occurrences, qui permet d'éliminer certaines co-occurrences non souhaitées. Une autre approche peut être de sélectionner les bonnes co-occurrences à conserver. Ceci en utilisant les résultats d'une analyse syntaxique pour extraire les relations entre les différents mots de la phrase. Par exemple, les relations qui pourraient être données par un analyseur syntaxique : SUBJ (serpent avaler) OBJ (avaler proie) ADJ (proie entier) NN (serpent boa) Toutes ces informations sont synthétisées dans un graphe de co-occurrence figure 3.6, après un pré traitement ne gardant que les lemmes des noms, des verbes et des adjectifs. 30

31 ETAT DE L'ART serpent boa avaler proie entier mâcher (a) serpent boa serpent boa avaler proie entier avaler proie entier mâcher (b) mâcher (c) Figure 3.6 : Exemples de graphes de co-occurrences, (a) sans filtrage syntaxique, (b) avec filtrage syntaxique sur les groupes syntaxiques, (c) avec filtrage syntaxique sur les relations syntaxiques. [Besançon 2002] Cet exemple permet de montrer que les filtrages syntaxiques des co-occurrences réduisent le nombre de co-occurrences prises en compte, et ainsi éliminent les co-occurrences entre termes non liés syntaxiquement. Néanmoins, on remarque par exemple que le terme "mâcher" n'est relié avec aucun autre terme de la phrase (alors qu'une co-occurrence du type (avaler mâcher) est suggérée par la phrase). La pratique permet de remarquer que les résultats de l'intégration de connaissances syntaxiques, pour le calcul des co-occurrences pour une tâche de recherche documentaire, montre qu un filtrage syntaxique sur les groupes syntaxiques par rapport aux co-occurrences permet de réduire le bruit et d avoir de meilleures performances. Pour l'évaluation de la pertinence, le modèle DSIR utilise le cosinus comme pour le modèle vectoriel. Dans ce modèle, on tient compte des dépendances entre les termes grâce à l'utilisation des co-occurrences de ces termes Conjonctions de termes dans le modèle vectoriel Dans le cadre du modèle vectoriel, où la représentation des termes se fait sur les axes de l'espace vectoriel, il n'est pas impossible de représenter ces conjonctions de termes de la même manière en utilisant les mêmes axes de représentation de l'espace vectoriel. Le problème qui survient est la différenciation, de par cette représentation, de la conjonction et des termes composants. Il n'est pas possible de comptabiliser dans les fréquences la conjonction d'un côté et les termes composants 5 de l'autre, car ils ne sont pas dépendant en sens. De plus ceci modifierait leur véritable poids dans le document. 5 Les termes composant sont les termes qui composent la conjonction ou le multi-terme (ex : les termes "République" et "Fédérale" pour le multi-terme "République fédérale"). 31

32 ETAT DE L'ART Une solution qui est utilisée par certains systèmes, comme dans le cadre du modèle DSIR [Besançon 2002], est d'hybrider deux systèmes vectoriels séparant le traitement des termes simples et les conjonctions de termes. Dans le cadre du modèle DSIR, un modèle de représentation vectorielle simple ne prend en compte que les multi-termes, et les résultats obtenus pour ce modèle sont combinés avec les résultats du modèle DSIR sur les autres termes d'indexations. L'intégration des multi-termes se fait a posteriori, comme une combinaison des résultats de deux systèmes de recherches documentaires. Besançon a choisi une combinaison linéaire des similarités des deux systèmes agrémentés d'un paramètre réglable permettant de gérer les priorités sur les systèmes : S( q, d) = bsds( q, d) + (1- b) SC( q, d) où S DS mesure de similarité du modèle DSIR sans prise en compte des multi-termes, S C est la similarité entre les représentations vectorielles des documents et de la requête sur l'ensemble des multi-termes et b est un paramètre du système. Les résultats montrent que même avec une stratégie de fusion simple, l'intégration des multi-termes permet d'améliorer légèrement les performances [Besançon 2002]. 3.5 Modèle logique On considère qu'un document est jugé pertinent à une requête de l'utilisateur si son contenu sémantique implique logiquement celle-ci. La notion de pertinence, intrinsèque à tout système de recherche d'informations, est alors vue comme une inférence logique. Ce modèle permet de formaliser les paramètres intervenant dans un processus de recherche d'informations et de définir correctement la correspondance entre un document et une requête de l'utilisateur. Il permet aussi de définir la formulation automatique d'une requête, ainsi que la mesure de pertinence associée aux réponses données par le système Représentation des documents et requêtes Le modèle booléen est un exemple simple qui met en œuvre l'implication logique. Un document est modélisé par une proposition logique formée de la conjonction de ses mots clés. On considère ces mots clés comme des propositions atomiques dans les modèles de la logique des propositions. La requête est une expression logique quelconque. L'idée de base de ce modèle est la suivante: étant donné un document D et une requête Q, D est pertinent vis à vis de Q si D implique Q, ce qui se note mathématiquement DÆQ. Prenons l'exemple de documents et d'une requête contenant des termes d'indexations : D 1 ={AŸB} D 2 ={BŸC} D 3 ={AŸBŸC} Q={AŸBŸÿC} A, B, C sont des termes d'indexations D 1 est retrouvé par le système parce que D 1 est vrai et implique Q qui est vrai (tab3.2) D 2 et D 3 ne sont pas retrouvés. 32

33 ETAT DE L'ART D Q DÆQ Faux Faux Vrai Faux Vrai Vrai Vrai Faux Faux Vrai Vrai Vrai Tab 3.2 : Tableau logique de l'implication L'implication logique DÆQ peut être réécrite ainsi (règle de logique ) ÿd Q Le terme d'indexation est une partie du texte dans une forme sémantique. Le terme d'indexation est vrai s'il apparaît dans le document. Dans l'exemple ci-dessus, ceci signifie que le document D 1 parle de A et B, et que l'utilisateur recherche un document qui parle de A et B mais pas de C. Le principe du calcul de la correspondance consiste à établir l'implication logique entre D et Q, c'est à dire que le document répond à la requête si D Q est évaluée à Vrai, il faut établir que D Q est une tautologie, et donc que l'on a =D Q Fonction de correspondance Une condition nécessaire exprimée dans la plupart des modèles existants est que le document doit satisfaire "exactement" la requête. En logique, ceci signifie : étant donné un document D, la requête Q doit être totalement satisfaite, et l'implication "document Ærequête" doit être évaluée à vrai, i.e. P(DÆQ)=1. Exemple: dans le cas du modèle booléen, une requête comportant une conjonction de deux termes Q="information"Ÿ"donnée", la requête ne peut être satisfaite par un document D que si les deux termes sont contenus dans le document :"information"œd et "donnée"œd. La requête est ainsi totalement satisfaite. Ceci reste une mesure de correspondance attachée au modèle booléen, de nombreux travaux ont été menés afin d'utiliser une logique utilisant les principes d'incertitude [Nie 1988] [Van Rijsbergen 1986] Evolution du modèle logique de base En conclusion, les travaux de [Van Rijsbergen 1986] donne une interprétation de l'implication par des probabilités conditionnelles et non plus par une implication matérielle afin de mesurer la certitude de l'implication qui est représentée par la formule suivante : P ( ) ( ) ( D«Q ÆQ = P DQ = ) P D Quant à [Nie 1988], il évoque l'implication inverse de DÆQ (ici QÆD est appelée spécification) qui lui permet de présenter une nouvelle fonction de correspondance en fonction de la proposition suivante: ( ) P D 33

34 ETAT DE L'ART Proposition : Etant donnés un document D et une requête Q, la correspondance R entre D et Q est déterminée à la fois par l'exhaustivité du document pour la requête et par la spécificité du document pour la requête : R(D,Q)=F[P(DÆQ),P ' (QÆD)] Où P et P ' sont des fonctions mesurant la force de l'implication, et F dénote une fonction combinant ces deux implications Prise en compte des dépendances dans le modèle logique Dans le cadre du modèle logique, l'implication DÆQ signifiant que le document D répond à la requête Q et où les documents et la requête sont symbolisés par un ensemble de termes qui ne prend pas en compte le sens des termes d'indexations. La principale solution de [Nie 1988] pour prendre en compte ces dépendances est l'ajout d'informations nécessaires à la satisfaction de l'implication. Ces informations sont choisies dans l'ensemble des informations étendues. Ceci pousse à la transformation à la fois du document et de la requête comme on peut le constater sur la figure 2.7. Connaissances Requête Document Evaluation de l'implication Réponse Figure 2.7 Evaluation d'une requête [Nie 1988] Ce qui revient à un système de prise en compte des dépendances par le biais de l'extension de requête, principe connus depuis longtemps et utilisable sur tous les modèles. L'inconvénient est que l'élargissement de la requête augmente le rappel des documents mais altère sa précision car les nouveaux termes utilisés provoquent l'ajout de nouveau sens Conjonctions dans le modèle logique Dans le cadre du modèle logique, l'implication DÆQ signifie qu'un document D répond à une requête Q, et la représentation de D et Q est une représentation booléenne d'un 34

35 ETAT DE L'ART ensemble de termes. Dans le modèle booléen, il existe l'opérateur "ADJ" qui indique que les termes sur lesquels il évolue, sont juxtaposés dans le document. Ainsi, en utilisant l'opérateur, on indique dans notre représentation que certains termes (qui ont un sens particulier lorsqu'ils sont ensemble) doivent être proches. Cette représentation des conjonctions de terme permet leur prise en compte. Ainsi, dans le modèle logique de base, la prise en compte des conjonctions de termes n'est pas prise en compte afin de faciliter les calculs de la fonction de correspondance et le traitement de ces conjonctions par prétraitement dans la représentation des documents et de la requête. 3.6 Modèle probabiliste A la différence du modèle logique où on intègre déjà la probabilité de l'implication comme dans le modèle de [Van Rijsbergen 1986], le modèle probabiliste représente la probabilité de la pertinence d'un document D par rapport à une requête Q. Le but de cette fonction de similarité dans ce modèle est d'essayer de séparer les documents pertinents des non pertinents au sein d'une collection. L'idée de base, dans ce modèle probabiliste, est de tenter de déterminer les probabilités P(R/D) et P(NR/D) pour une requête donnée. Cette probabilité signifie : si on retrouve le document D, quelle est la probabilité qu'on obtienne l'information pertinente et non pertinente (figure 3.8). Document Pertinent (R) Document Non Pertinent (NR) Corpus Figure 3.8 Corpus pour une requête Q [Robertson 1977] énonce le principe d'ordre des probabilités : si la réponse d'un système de recherche pour chaque requête est un ordonnancement des documents de la collection par ordre de probabilité décroissante d'importance pour l'utilisateur qui a soumis la demande, sur la base où les probabilités sont estimées aussi exactement que possible sur la base des données rendues disponibles au système, l'efficacité globale du système pour l'utilisateur sera la meilleure possible sur la base de ces données Représentation des documents et de la requête On ne prend en compte que l'absence ou la présence de termes dans les documents et dans les requêtes comme des caractéristiques observables. Ainsi, les termes considérés ne sont pas pondérés, mais prennent seulement les valeurs 0 (absent) ou 1 (présent). 35

36 ETAT DE L'ART Puisque nous supposons que chaque document est décrit par la présence ou l'absence de termes, n'importe quel document peut être représenté par un vecteur binaire : x=(x 1,x 2,,x n ) x i = 0 ou 1 indique l'absence ou la présence des termes considérés. Nous supposons également qu'il y a deux événements mutuellement exclusifs : w 1 = document pertinent w 2 = document non pertinent Ce que nous désirons calculer pour chaque document est P(w 1 /x) et peut-être P(w 2 /x) de sorte que nous puissions décider ce qui est pertinent et ce qui est non-pertinent. Compte tenu de ces probabilités, différentes utilisations en sont faites. Par exemple, la règle de décision qui est employée par [Van Rijsbergen 1979] est connue en tant que règle de la décision de Bayes. [P(w 1 /x) > P(w 2 /x) Æ x pertinent, x est non pertinent] 6 (3.3) Fonction de correspondance On suppose que l'on a une requête fixe, et on tente de déterminer les caractéristiques de R et NR pour cette requête donnée. Donc, de manière implicite, P(R/D) et P(NR/D) correspondent plutôt à P(R/Q,D) et P(NR/Q,D). Ainsi, on établit la probabilité qu'un document D soit jugé pertinent par rapport à une requête spécifique Q. Il existe de nombreux modèles probabilistes [Fuhr 1992]. Dans le modèle BIR (Binary Independence Retrieval Model).S'il est possible de calculer les deux probabilités P(R/Q,D) et P(NR/Q,D), il sera possible de classer les documents selon ces deux probabilités et la fonction suivante (appelée odd) qui compare les deux probabilités est utilisée : O ( D) = ( R / Q, D) ( NR / Q, D) P P Prise en compte des dépendances dans le modèle probabiliste Comme dans la plupart des modèles de recherche d'information, l'hypothèse d'indépendance qui est faite pour le modèle probabiliste est présente pour permettre de faciliter et de réduire la complexité des calculs de correspondance de ce modèle. En fait, l'hypothèse de dépendance des événements pour la théorie de probabilité implique que les événements sont liés entre eux. Il en est de même pour les termes servant à l'indexer. En effet, on peut penser que la présence d'un terme comme "ordinateur" dans un document, implique la présence du terme "informatique" avec une très grande probabilité. Ce qui devrait nous obliger d'écrire que la probabilité qu'un document D appartenant à l'ensemble des documents R pour une requête Q de la manière suivante : 6 La signification de [EÆp,q] est si E est vrai alors on prend p, ou sinon on prend q 36

37 ETAT DE L'ART P ( D/ R, Q) = P( t1= x1, t2= x2, t3= x3,.../ R, Q) = P ( t1= x1 / R, Q)* P( t2= x2/ t1= x1, R, Q)* P( t3= x3/ t1= x1, t2= x2, R, Q) Ce calcul complexe est souvent ramené par le biais de l'hypothèse d'indépendance qui est faite à : P ( D/ R, P) = P( t1= x1 / R, Q)* P( t2= x2/ R, Q)* P( t3= x3/ R, Q) Conjonctions dans le modèle probabiliste Comme dans le modèle logique, les conjonctions de termes ne sont pas prises en compte. De part l'hypothèse de l'indépendance des termes, afin de faciliter les calculs, les conjonctions de termes ne peuvent être incluses dans le calcul. Une conjonction de terme est composée de plusieurs termes ayant une dépendance spéciale entre eux. 3.7 Modèle de réseaux de neurones Les scientifiques en neurologie ont étudié le cerveau humain depuis de nombreuses années, ils ont pu constater qu'il était constitué d'un grand nombre (billions) de cellules de différents types appelés neurones. Chaque neurone est connecté à plusieurs autres neurones par des liaisons que l'on nomme liaisons synaptiques. Un neurone est stimulé par la réception d'un signal. Par le biais d'une réaction automatique, il émet un signal de sortie destiné aux autres neurones avec lesquels il a une liaison Représentation des documents et Requêtes Ce symbolisme est un graphe simplifié représentant les connexions entre les neurones d'un cerveau humain. Les nœuds de ce graphe sont des unités processus et les liens entre ces unités jouent le rôle des connections synaptiques. Pour simuler le fait que la force (l'intensité du signal) d'une connexion synaptique dans le cerveau humain change continuellement, un poids est affecté à chaque connexion de notre réseau de neurone. A chaque instant, l'état des nœuds est définit par un niveau d'activation (par l'utilisation d'une fonction ayant pour paramètre l'état initial et le signal reçu par le neurone). Dépendant du niveau d'activation, un nœud A peut envoyer un signal à un nœud voisin B. L'intensité du signal reçu par le nœud B dépend du poids qui est affecté au lien synaptique entre les nœuds A et B. 37

38 ETAT DE L'ART Termes requête Termes document Documents k 1 d 1 k a k a d j k b k b d j+1 k c k c k t d N Figure 3.9 Modèle de réseau de neurones pour la RI [Baeza-Yates et Ribeiro-Neto 1999] Un réseau de neurones pour la recherche d'information peut être illustré comme dans la figure 3.9 [Baeza-Yates et Ribeiro-Neto 1999]. On utilise le modèle de réseau de neurones pour symboliser la relation entre un document de la collection et les termes qu'il contient, ainsi que les termes de la requête. On remarque que le réseau est composé de trois couches qui sont elles même composées de nœuds : une couche contenant les nœuds qui représentent les termes de la requête, une couche qui contient les nœuds représentant les termes des documents et la troisième couche qui contient les nœuds qui représentent les documents eux-même. Selon [Baeza-Yates et Ribeiro-Neto 1999] il est possible d'observer une similarité entre les topologies du réseau de neurones, le réseau d'inférence et le réseau "de croyance". Les nœuds documents sont activés par l'ensemble de nœuds terme-document, qui eux aussi sont activés par les nœuds correspondant au terme de la requête Les fonctions de correspondances Le réseau de neurones est implémenté sous forme de propagation d'activation de modèle plus classique. En effet, nous pouvons constater deux approches : la première est l'utilisation de la mesure du cosinus dans le réseau de neurones [Wilkinson et Hingston 1991], la seconde utilise plutôt une approche probabiliste sur les réseaux de neurones [Kwok 1995] et [Kwok 1989]. Les réseaux de neurones sont une représentation de la relation existante entre les différents nœuds documents ou requêtes. Le calcul de similarité, pour le modèle des réseaux de neurones, est effectué par les fonctions de similarité de modèle plus commune (modèle vectorielle et modèle probabiliste). Pour Wilkinson et Hingston, il n'est pas possible de comparer une requête donnée avec un million de ligne de documents dans un temps acceptable. D'où l'utilisation de l'indexation des documents avant la requête, cette requête est transformée et ensuite comparée aux termes 38

39 ETAT DE L'ART d'indexations. Ainsi, un réseau de neurones consiste en une collection de nœuds et de connexions entre ces nœuds. Le réseau de neurones est donc une symbolisation de ces nœuds et des relations qui existent entre eux. Prenons l'exemple d'une collection contenant 5 documents constitués des phrases suivantes, "le chien et le chat mangent", "le chien a une souris", "les souris mangent n'importe quoi", "les chats jouent avec les souris et les rats" et "les chats jouent avec les rats". Placé respectivement dans les documents D 1 à D 5, nous avons la requête suivante " est-ce que les chats jouent avec les souris? ". Nous obtenons ainsi le réseau suivant (figure 3.10) : manger D 1 chat chien D 2 chat souris souris D 3 jouer rat D 4 jouer D 5 Figure 3.10 exemple du réseau de documents Le réseau a un nœud pour chaque terme du document et un nœud pour chaque terme de la requête. Les connexions sont bidirectionnelles entre les termes de la requête et les termes correspondants dans les documents s'ils existent. Le poids de connexion pour un terme j est appelé w qj. Ce poids est valable pour la connexion quel que soit le sens utilisé, de la requête vers les termes du document ou inversement. Le poids de la connexion entre le nœud du j ième terme est le nœud du i ième document est noté w ij. Il n'existe pas de connexion entre les nœuds "termes documents" eux même, ainsi que pour les documents eux-même. Ici, les nœuds sont divisés entre trois couches distinctes a Approche par mesure du cosinus [Wilkinson et Hingston 1991] Lorsque les nœuds des documents activés sont calculés pour la première fois, seuls les nœuds "termes documents" connectés aux nœuds "termes requête" seront activés, et ainsi leur activation est la somme des nœuds requête activés correspondant aux nœuds "termes documents" et les poids de connexion des nœuds documents. La somme est alors : t Â Â j= 1 t t ( w2 qj)( w2 ij) j= 1 w qj w Â ij j= 1 39

40 ETAT DE L'ART où w qj est le poids de la connexion entre le nœud terme j de la requête et le nœud terme document j, w ij est le poids de la connexion entre le nœud terme document j et le document i. On remarque que cette formule est équivalente à la mesure standard de cosinus qui vous a été présentée dans le modèle vectoriel (cf. équation 3.1 ). Le processus ne s'arrête pas pour autant. En effet, l'activation des nœuds "termes document" représente seulement l'activation initiale. Ceci a généré l'activation des documents, cette activation peut être utilisée pour calculer une nouvelle activation des nœuds "termes documents", en complément des nœuds requêtes. En conséquence, un terme peut apparaître dans plusieurs documents activés, sans qu'il apparaisse dans la requête originale (transformation de la requête), mais peut devenir actif et peut activer d'autres documents (relevance feedback) b Approche probabiliste d'un réseau de neurone [Kwok 1995] QTD DTQ t k W ka W ki W ik d i q a W ak Q T D Figure 3.11 Les trois couches d'un réseau de neurones probabiliste [kwok 1995] Kwok met en place le concept de réseaux de neurones artificiels (ANN : Artificial Neural Network) L'approche utilisée ici pour la recherche d'informations, est que les requêtes et les documents sont considérés de manière identique. Le réseau de neurones est constitué en trois couches, comme représenté dans la figure 3.11 ; une couche requête, un terme de documents et la troisième une couche document. Le mécanisme du réseaux utilise les 40

41 ETAT DE L'ART opérations de "feedforward ", opération indiquant le sens d'activation allant de la requête vers le document (QTD Query To Document) et l'opération de "feedbackward" indiquant le sens de document vers les requêtes (DTQ Document To Query) [Kwok 1995] et [Kwok 1989]. Ces couches ont des connexions bidirectionnelles avec des poids directionnelles, des poids direction QTD et les poids w ik, w ka pour la direction DTQ. Les poids de connexions de ce modèle ANN reposent sur les composants de la théorie de la probabilité, où il y est ajouté le principe de "relevance feedback". Kwok considère trois façons de mise en place des poids de connexions : 1. Aucun apprentissage des connexions 2. Auto apprentissage des connexions 3. "Relevance feedback" sans apprentissage 4. "Relevance feedback" avec modification de la structure du réseau La fonction de similarité est ainsi calculée de la même manière que dans le modèle probabiliste, le calcul des poids dépend ici de la façon utilisée La prise en compte des dépendances dans le modèle des réseaux de neurones Comme dans la plupart des modèles présentés précédemment, la prise en compte des dépendances sont inexistantes sauf dans les travaux de [Wilkinson et Hingston 1991] où il utilise la "Relevance feedback" qui permet d'augmenter le nombre de nœuds document-terme qui sont activés (retro-propagation). Ceci apporte une modification de la structure du réseau, où cette méthode utilise l'activation des documents afin d'activer d'autres nœuds (à différent niveau) de la couche terme-document qui mettront en évidence de nouveaux documents. Cette activation est identique de par l'augmentation des nœuds termes activés à une extension des requêtes. Cette méthode vous a été présentée dans le modèle logique Conjonctions dans le modèle des réseaux de neurones De même que pour les autres modèles, les conjonctions de termes ne sont pas prises en compte dans ce modèle pour des raisons de fréquence de présence de ces multi-termes dans les documents qui sont très inférieurs aux termes simples. Les conjonctions de termes peuvent être intégrées en tant que nœuds de la couche requête ou termes document. Une fois que ces conjonctions de termes sont identifiées et leurs nœuds créés, les activations entre elles sont identiques aux activations pour les termes simples et leurs prises en compte sont complètes. Le problème est de pouvoir différencier un multi-terme ou les termes simples qui le composent selon le contexte du document ou de la requête. Stricker [Stricker et al 2000] met en place un système permettant d'extraire d'une fenêtre un contexte par rapport à un mot cible. Le but de cette sélection de contexte est de définir, pour chaque sujet, un vecteur des dispositifs qui ne sont ni trop fréquents ni trop rares, typique des documents appropriés. Il montre dans son modèle que l'architecture de réseaux neurologiques sous l'influence d'un mot de cible doit diminuer ou augmenter selon son contexte local. Par conséquent, au lieu d'avoir une entrée simple par mot de cible, le contexte local est inclus comme indiqué dans le côté gauche du schéma 3.12; le bon côté montre le réseau neuronal entier. 41

42 ETAT DE L'ART Figure 3.12 Architecture de réseaux de neurones [Stricker et al 2000] Stricker annonce, de part ces expériences, qu'il était souhaitable d'exclure de la phase d'entraînement les documents non pertinents pour tous les mots cible qui sont absents. Cette méthode est entièrement automatique et se fonde seulement sur le calcul de la fréquence de corpus pour chaque dispositif. Il n'y a aucun besoin, par exemple, de définir une liste de mots d'arrêt qui dépendront de la langue. 42

43 EXPOSE DE LA SOLUTION 4 MODIFICATION DE RELIEFS EN VUE DE LA PRISE EN COMPTE DES CONJONCTIONS DE TERMES ET DE LA DEPENDANCE ENTRE LES TERMES D'INDEXATION Nous allons vous présenter ici une solution permettant de prendre en compte les conjonctions au sein du système RELIEFS. L'analyse de la solution, qui vous a été proposée dans la problématique de ce rapport, est une réflexion sur le fait qu'une conjonction de termes qui est construite dans le système doit être prise en compte avec un poids raisonnable. Un poids raisonnable signifie qu'il ne doit pas prendre en son calcul le poids de chacun des termes qui le composent. Le poids doit être réduit pour que la conjonction ne prenne pas une influence démesurée pour le système. 4.1 Le modèle Le model RELIEFS vous a été présenté dans la section (2.3). En partant sur la base de ce modèle, nous allons dans un premier temps utiliser le système sans les prises en compte des conjonctions afin d'avoir une référence sur les résultats du système dans sa configuration initiale. Dans un second temps, nous allons mettre en place la prise en compte des conjonctions termes au sein du modèle. Ces conjonctions seront construites suivant le schéma présenté ci-dessous. Dans un troisième temps nous intégrerons la gestion de ces dépendances entre les conjonctions et les termes qui les composent. Cette gestion se fera en incluant dans la fonction de correspondance l'interprétation que l'on fait pour le calcul de ces dépendances. Nous mettrons ainsi en place une solution qui inclue ces dépendances selon des critères, afin que l'apport fait au système soit optimisé Construction des conjonctions Dans le système RELIEFS [Brouard 2000b], les relations entre les nœuds contenant les termes et le nœud pertinence sont mesurés. Cette mesure permet de déterminer à quel point ces nœuds impliquent le nœud pertinence. Comme il vous a été présenté précédemment (section 2.3.1), toutes les relations entre les nœuds du document et le nœud requête sont construites pour le réseau. En essayant de construire toutes les conjonctions possibles dans le réseau, ceci nous a mène à une explosion combinatoire liée à la construction de ces conjonctions. Afin de pallier ce problème, on met en place un principe d'économie. Ce principe se traduit de la façon suivante : "Si toutes les implications qui portent le nœud P, portent le nœud Q, alors les connexions ayant pour origine ou pour extrémité P, valent pour la conjonction P&Q. Il est donc inutile de construire un nœud représentant cette conjonction pour tenir à jour la valeur des connexions dont l'origine ou l'extrémité est P&Q". Ce qui signifie, comme on peut le constater ci-dessous (figure 4.1), que la conjonction "chien & canin" peut être construite si l'implication qui existe entre chien et canin disparaît. Cette disparition est causée par la présence (par exemple) dans un document pertinent du terme chien, mais pas du terme canin, provoquant ainsi la suppression de la valeur de l'implication (valant 1). Ainsi, ceci permet de garder ces informations nécessaire pour le réseau. 43

44 EXPOSE DE LA SOLUTION niche Recopie des connexions niche chien canin texte (présence de chien, pas cannin) 0.7 Chien & canin 0.2 os 0.1 maître 0.2 os 0.1 maître Figure 4.1: création des connexions Seules les conjonctions apportant une information non redondante pour le système sont construites. Mais la structure du réseau et ces conjonctions qui le composent évoluent par le biais de mises à jours à chaque nouveau document. Ainsi, par de nouvelles informations, il est possible qu'une conjonction ne soit plus utile. De cette façon, ces conjonctions sont symbolisées dans le réseau du système RELIEFS par la figure 4.2. (représentation de la requête) pertinence Connexions associatives mot j mot i mot j & mot i (représentation du document) Figure 4.2 : Réseau construit et mis à jour par RELIEFS avec des conjonctions 44

45 EXPOSE DE LA SOLUTION Analyse du problème de dépendances La prise en compte des dépendances dans les modèles de recherche d'information date des années 80. Malgré une importance pour la compréhension et l'amélioration des systèmes, la difficulté d'inclusion de ces dépendances entraîne pour ces modèles l'ajout de l'hypothèse d'indépendance des termes. Nous savons pourtant que cette hypothèse n'est pas vérifiée puisque certains termes entretiennent des relations sémantiques. Nous nous plaçons ici dans un cadre plus général en englobant les modèles proposés en RI dans lesquels la pertinence d'un document est évaluée comme la somme de poids liés aux termes présents dans le document (ce que considèrent la plupart des modèles). Nous considérons d'une part qu'un terme t peut être représenté par un ensemble T "d'atomes de sens". Nous considérons d'autre part que la contribution de cet ensemble est mesurée par m(t) où m est une mesure, c'est-à-dire une fonction définie sur l'ensemble des ensembles "d'atomes de sens" à valeur dans qui a la propriété d'être additive (si deux ensembles X et Y sont disjoints alors m(x»y)=m(x)+m(y)). Nous partons du constat que lorsque deux termes X et Y sont présents et que leurs contributions respectives (que nous noterons m(x) et m(y)) sont sommés par l'hypothèse faite implicitement que X et Y sont indépendants. Cette contribution montre à l évidence que le document est pertinent. En effet, s'il existe une dépendance entre X et Y, alors X«Y. De ce fait, si la contribution globale m(x»y) est calculée comme la somme (figure 4.3) m(x)+m(y), m(x«y) est prise en compte deux fois. En exploitant la propriété d'additivité d'une mesure, on obtient : m(x»y)=m(x-y)+m(y-x)+m(x«y) m(x»y)=m(x)- m(x«y)+m(y)-m(x«y)+m(x«y) m(x»y)=m(x)+m(y)-m(x«y) m(x-y) m(x«y) ))) m(y-x) X X«Y Y Figure 4.3 : Poids des dépendances entre les termes 45

46 EXPOSE DE LA SOLUTION Ainsi dans le cas d'une synonymie parfaite, X«Y=X=Y et donc m(x»y)=m(x)=m(y), et à l'opposé dans le cas d'une indépendance totale X«Y= et donc m(x»y)=m(x)+m(y). Mais entre les deux, dans le cas de polysémie, il existe une dépendance d'inclusion (figure 4.4) : Y X Figure 4.4 : dépendance d'inclusion Où XÃ Y et donc m(x»y)=m(y). Ce qui nous permet ainsi de généraliser en voyant ces différents cas de dépendances entre termes : Pour n termes : m MAX ( m( X), m( Y)) m( X» Y) m( X) + m( Y) (4.1) Â Â (» X i) = m( X i) - m( X i«x j) + m( X i«x j«x k) -... m( X1«X 2 i i< j i< j< k Â «...«X n) Dans tous les cas de dépendances, la question se pose sur la quantité de m(x«y) que nous devrons retirer à nos fonctions de correspondance pour la prise en compte des dépendances. En reprenant l'équation (4.1) on peut délimiter la mesure de m(x»y) : MAX ( m( X), m( Y)) m( X) + m( Y) -m( X «Y) m( X) + m( Y) MAX( -m( X), -m( Y)) -m( X «Y) 0 0 m ( X «Y) MIN( m( X), m( Y)) Mais on s'aperçoit que nous ne nous trouvons pas dans une mesure d'additivité. L'hypothèse d'additivité n'est malheureusement pas satisfaisant (le double produit n'est pas additif). L'idée de retrait d'une valeur qui dépendrait de degrés de dépendance nous apparaît néanmoins intuitivement bonne. 4.2 Validation La prise en compte des dépendances pour les conjonctions qui apparaissent dans le système (pour le traitement des documents) peut se faire de différentes manières. Lors de notre recherche, nous avons suivi deux pistes nous permettant de traduire cette dépendance 46

47 EXPOSE DE LA SOLUTION dans notre calcul de pertinence. En effet, nous avons pu vous montrer précédemment que la conjonction ne peut apparaître trop fortement dans le calcul, afin que celle-ci ne soit pas déterminante et ne fasse disparaître des informations importantes sur les termes simples. Première solution : Nous souhaitons intégrer dans notre solution la prise en compte du contexte (utilisation des conjonctions comme pour les travaux de Stricker [Stricker et al 2000]). La prise en compte des dépendances comme pour le modèle LSI ou DSIR, ne peut être implémentée dans notre système. La première méthode, qui vous sera présentée dans ce rapport, repose sur le fait que nous ne voulons prendre en compte que les conjonctions qui ont une grande importance au sein du réseau (les conjonctions ayant un fort poids). Ainsi, on ne prend en compte que les conjonctions dont le poids est supérieur au maximum des poids des termes qui la composent. Nous partons du principe que pour la dépendance entre deux mots, il faut pouvoir bien gérer l'apport des poids de ces mots pour le système. Nous savons que dans le système, les poids des nœuds sont sommés. Ce qui donne dans le cas de conjonctions (ceci est l'expérience n 2) pour la présence des mots A et B : m(a)+m(b)+m(a&b) Comme il vous a été présenté dans la prise en compte des dépendances entre les termes, nous avons constaté qu'il est utile de retirer une proportion au poids d'une conjonction afin que son influence sur le réseau soit proportionnée. Nous avons décidé de retirer le plus grand des poids des termes composant la conjonction. Intuitivement, l'idée est de ne compter que ce qui n'est pas expliqué par les composants. Comme nous ne nous trouvons pas dans une mesure d'additivité, les bornes que nous avons démontrées pour les ensembles (section 4.1.2) ne sont pas valables ici. Nous préférons alors ne prendre en compte que les conjonctions qui sont notablement différentes de l'apport de ses composants. Ainsi, nous prenons en compte les conjonctions dans notre réseau de la manière suivante : si m(a&b) > max(m(a),m(b)) alors on notera pour la présence des mots A et B : m(a)+m(b)+m(a&b)-h max(m(a),m(b)) (4.2) où h est un paramètre qui est égal à 1 dans les premières expériences. Il serait intéressant de le faire varier pour pouvoir étudier l'importance de ce que l'on retire dans la fonction de correspondances du système. En se rapportant à la figure 4.2 et l'équation 4.2, on peut ainsi réécrire la formule de correspondance ainsi : si m(a&b) Max(m(A),m(B)) alors m(a)+m(b)+m(a&b)-hmax(m(a),m(b)) sinon m(a)+m(b) (4.3) 47

48 EXPOSE DE LA SOLUTION Dans le cadre des expériences nous n'utiliserons que des conjonctions composées de termes doubles. Il sera intéressant par la suite d'étendre le système à l'utilisation de conjonctions de termes plus grandes. Deuxième solution : La deuxième méthode, que nous avons écartée pour le moment, est d'inclure dans notre calcul un paramètre sur la prise en compte de chaque conjonction. Ces prises en compte reposent sur l'observation des ensembles. Cette solution nous fait traiter les conjonctions de manières générales. Cette méthode se base sur les ensembles, ainsi le poids de cette conjonction est paramétré par une variable a qui dépend de la cardinalité de cette conjonction. Ainsi le a équivaut à : a= 1 k* CARD( Conjonction) où k est un paramètre à définir (k est un nombre réel), il permet de faire varier l'importance que l'on souhaite donner à a. Ainsi on obtient cette formule : m ( A) + m( B) + 1 * m( A& B) k* CARD( A& B) Cette solution n'a pas été retenue parce qu'elle traite de manière générale et identique toutes les conjonctions. Mais il est évident que deux conjonctions différentes n'ont pas le même rapport de dépendance avec les termes qui les composent. Par exemple, si la présence du terme A dans un document D indique que le document D est pertinent, alors la conjonction composée des termes A&B indique de la même manière la pertinence de D (grâce au terme A qui compose la conjonction). Ici, une autre conjonction composée des termes B&C n'aura pas la même implication sur le document (même si B est présent). L'importance de la conjonction dans le réseau dépend alors de ses composants Expériences Afin de tester les différentes améliorations du système RELIEFS qui ont été apportées, dans le cadre de ce mémoire de DEA, on utilise le corpus qui a été utilisé dans le cadre de TREC11. Ce corpus est le RCV1 fourni par Reuters pour les recherches 7. C'est une collection d'environ dépêches d'informations, couvrant une période d'une année de 1996 à Les articles de la collection ont un identificateur unique et sont datés. Nous utilisons lors de nos expériences les 50 premières requêtes fournies par le NIST pour l'épreuve de TREC11 sur le corpus RCV1 [Robertson et Soboroff 2002]. Ainsi, les expériences seront menées dans l'optique de TREC. Chaque "run" soumettra les documents à 50 requêtes. Selon les différentes expériences qui seront soumises, elles nous permettrons de voir les évolutions du système RELIEFS : 7 Reuters corpus volume 1. Visité le 26 Septembre

49 EXPOSE DE LA SOLUTION - La première expérience utilisera le système sans prise en compte des conjonctions existantes dans la collection. - La seconde expérience utilisera les conjonctions sans traitement particulier, ce qui signifie que les nœuds représentant les conjonctions sont considérées de la même manière que les nœuds représentant les termes simples. - La troisième expérience utilisera les conjonctions et un traitement dans le calcul de prise en compte de ces conjonctions sera utilisé. Ce traitement permet de prendre en compte les dépendances entre les conjonctions et les termes simples qui la composent. Les trois expériences qui vont être présentées ici seront comparées suivant des mesures de rappel, de précisions, le nombre de documents pris, trouvés et ratés dans l'ensemble des documents pertinents que l'on désire retrouver pour une requête précise. Nous nous permettons de vous faire un rappel sur ces mesures qui vont être utilisées pour nos expériences : - La précision est la capacité du système à ne retrouver que des documents pertinents. La précision est égale au nombre des documents pertinents et retrouvés sur le nombre de documents retrouvés. - Le rappel est la capacité du système à retrouver tous les documents pertinents. Le rappel est égal au nombre de documents pertinents et retrouvés sur le nombre de documents pertinents. - Pris signifie le nombre de documents qui ont été ramenés par le système. - Trouves est la mesure du nombre de documents pertinents qui ont été trouvés par le système - Rate est le nombre de documents pertinents de la collection pour la requête qui n'ont pas été trouvés par le système. Nous utiliserons aussi des opérations de moyenne afin d'avoir un résultat d'ensemble de l'expérience. La moyenne représente pour la précision la moyenne des précisions de chaque requête de l'expérience, de même que pour le rappel. La moyenne représente la moyenne corrigée, Elle est constituée pour la précision du nombre total de document "trouvés" sur l'ensemble de l'expérience, divisé au nombre total de document "pris" par le système tout au long de l'expérience. Pour la moyenne corrigé du rappel, c'est l'ensemble des documents trouvés sur l'ensemble des documents trouvés et les documents ratés. Cette moyenne corrigée donne une mesure plus générale du système a Première expérience Dans cette expérience, le système RELIEFS ne prend pas en compte les conjonctions. Chaque nœud représente un terme simple et est traité par le phénomène d'activation et de résonance. Cette première expérience nous permet de donner un point de départ ainsi qu'un point de comparaison, afin de pouvoir constater les évolutions possibles qui vont être apportées sur le système. Le nombre de nœuds retenus dans le cadre des "meilleurs prédicteurs" est placé sur 20 mots distincts qui sont pris en compte. Ceci permet, pour la comparaison des systèmes, de se faire sur le même nombre de mots utilisés. 49

50 EXPOSE DE LA SOLUTION num num precision rappel pris trouves rate req req precision rappel pris trouves rate 101 0, , , , , , , , ,5 0, , , , , , , , , , , , , , , , , ,5 0, , , ,48 0, , , , , , , , , , , , , ,3125 0, , , ,5 0, , , , , , , , , , , , , , , , , , , , , , , , , ,1875 0, , , , , , , ,4 0, precision rappel pris trouves rate moyenne 0, , moyenne 50,52 26,32 43,36 moyennec 0, , total Tab 4.1 Résultat de l'expérience 1 sans conjonction, ni traitement Ces premiers résultats Tab 4.1 vont servir de base de comparaison pour les expériences suivantes. Nous avons fait la moyenne de la précision et du rappel afin de pouvoir avoir une référence générale des performances du système dans cette configuration initiale. Ainsi, cette moyenne nous permet d'avoir une appréciation générale du système sur l'ensemble des 50 requêtes qui lui sont soumises b Seconde expérience Cette seconde expérience est une modification du type de nœud qui se trouve dans le réseau construit par le système RELIEFS. En effet, le but de ce travail de recherche et de prendre en compte les dépendances qui peuvent exister entre les termes dans un document. Ici, le système construit donc des conjonctions, ces conjonctions sont placées dans des nœuds et évoluent au sein du système de la même manière qu'un nœud représentant un terme simple. 50

51 EXPOSE DE LA SOLUTION num precision rappel pris trouves rate num req req precision rappel pris trouves rate 101 0, , ,2 0, , , , , , , , , , , , , , , , , , , , , , , , , ,4 0, , , ,5 0, , , , , , , , , ,12 0, , , , , , , , , , , ,5 0, , , ,1 0, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , precision rappel pris trouves rate moyenne 0, , moyenne 50,34 23,94 45,74 moyennec 0, , total Tab 4.2 Résultat de l'expérience 2 avec conjonction, sans traitement Dans le tableau 4.2, on peut voir les résultats du système RELIEFS lorsqu on met en place la création et l'utilisation de conjonctions. En effet, afin de mieux traiter les documents, le système construit toutes les conjonctions intéressantes pour le réseau. Ces résultats permettront de voir le comportement du système et l'apport des ces conjonctions c Troisième expérience Dans le cadre de cette troisième expérience, nous désirons ne pas donner à la conjonction de termes une trop grande importance dans le calcul de la fonction de correspondance. C'est pour cela que nous ne prenons en considération que les conjonctions qui ont une grande influence sur le système. A cette conjonction, nous retirons, par soucis d'équilibre pour le système et ses performances, le poids du terme le plus grand qui compose la conjonction. Ici, la fonction de correspondance dépend aussi de l'importance que l'on veut leur donner. 51

52 EXPOSE DE LA SOLUTION num precision rappel pris trouves rate num req req precision rappel pris trouves rate 101 0, , , , , , , , , , , , , , ,32 0, , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,15 0, , , ,45 0, ,5 0, , , ,5 0, , , , , , , ,12 0, , , , , , , , , , , , , , , , , ,1 0, , , , , precision Rappel Pris trouves rate moyenne 0, , moyenne 49,3 25,58 44,1 moyennec 0, , total Tab 4.3 Résultat de l'expérience 3 avec conjonction, avec traitement et paramètre h=1 Les résultats, que nous exposons ici tab 4.3, sont l'utilisation des conjonctions avec le traitement décrit dans la première solution (cf: 4.2) avec h=1. Ce qui nous donne une première opinion sur les avantages d'une telle solution. Afin de voir l'évolution lorsque l'on fait varier h sur l'ensemble [0.0;1.0], nous exposerons le tableau suivant (tableau 4.4) qui nous montre cette évolution. Moyenne\h Précision 0, , , , , , Rappel 0, , , , , , Moyenne\h Précision 0, , , , , Rappel 0, , , , , Tab 4.4 Résultat de l'expérience 3 avec conjonction et traitement pour h variant de [0.0;1.0] 52

53 EXPOSE DE LA SOLUTION Nous obtenons ainsi du tableau 4.4 les courbes suivantes. Ces courbes permettent une interprétation plus rapide des résultats figure 4.5. évolution du paramètre de prise en compte des conjonctions 0,35 0,3 mesures moyennes 0,25 0,2 0,15 0,1 précision rappel 0, paramètre des conjonctions figure 4.5 Courbe d'évolution du paramètre pour le traitement des conjonctions Discussion Nous allons commenter ici les différents résultats obtenus des expériences faites successivement et qui vous ont été présentées précédemment. Ces commentaires reposerons sur les observations des chiffres appartenant aux tableaux de résultats a Expérience 1 Pour la première expérience, le système ne s'intéresse qu'aux termes simples. Le réseau n est composé que de nœuds représentant les termes simples des documents de la collection. Les résultats pour les 50 requêtes qui ont interrogé la collection de documents, donnent une précision moyenne de 0, et un rappel moyen de 0, On peut remarquer dans le tableau 4.1, que 16% des requêtes (soit 8 requêtes) qui sont soumises n'ont trouvé aucun des documents pertinents. Cette expérience nous sert d'expérience de référence sur le système, nous permettant ainsi d'avoir des points de comparaison. 53

54 EXPOSE DE LA SOLUTION b Expérience 2 Pour la seconde expérience, le système introduit dans la construction du réseau des conjonctions de termes. Mais nous restons sur un seuil de 20 mots sélectionnés. Ce qui signifie que les conjonctions, dont les mots composants sont présents dans cette liste ne sont pas comptabilisées; ce qui nous donne par rapport à la première expérience le même nombre de mots différents. Les conjonctions de termes sont considérées comme des informations supplémentaires (ces nouveaux nœuds apportent des possibilités plus étendues d'activation de nœuds) pour le système. Les résultats exposés dans le tableau 4.2 nous donnent une précision moyenne de 0, et un rappel moyen de 0, On remarque de même dans ces résultats qu'il y a 10% des requêtes soumises à la collection, qui n'ont trouvé aucun des documents pertinents. Cette observation peut s'interpréter par le fait que certaines requêtes répondent plus facilement aux conjonctions termes, car elles leurs sont plus favorables. Il est déjà possible de voir que l'utilisation de conjonctions de termes dans le système RELIEFS, permet de faire baisser le pourcentage de requêtes qui n'obtiennent pas en réponse de documents pertinents. Le système avec conjonctions prend environ le même nombre de documents, mais dans ce document pris par le système, il y a moins de documents pertinents, environ 8%, pour le système utilisant les conjonctions. Ce qui signifie dans un premier temps que l'utilisation des conjonctions n'apportent pas d'amélioration dans la configuration actuelle, les résultats sont moins favorables. Ceci pourrait s'expliquer par le fait que l'utilisation de conjonctions de termes rende le système plus sélectif. En effet, La présence de nœuds qui représentent des conjonctions de termes, oblige que ces nœuds soient activés dans le document afin que ce document ait un poids plus fort (dénominateur). La présence d'un nœud complexe est moins probable que celle d'un nœud simple c Expérience 3 Dans la troisième expérience, le système construit toujours au sein de son réseau les conjonctions de termes. La différence ici, est qu'un traitement est fait sur ces conjonctions, en accord avec la formule de la solution 1 (équation 4.3). Le système ne s'intéresse qu'aux conjonctions supérieures au poids maximal de ses composants, un impact important sur la fonction de correspondance. Le nombre de conjonctions qui sont utilisées dans le calcul est plus faible que pour l'expérience 2. L'expérience est toujours menée dans les mêmes conditions que précédemment. Les premiers résultats exposés sur le tableau 4.3, nous donnent une précision moyenne de et un rappel moyen de pour une valeur de h valant 1. La comparaison de cette expérience avec l'expérience 2, nous montre qu'il y a une amélioration du système grâce au traitement fait. Cette amélioration est due au choix des conjonctions fait par le système. En comparant l'expérience 1 et 3 on ne remarque pas d'amélioration entre les systèmes. Ceci est peut-être dû au bon résultat du système dans sa configuration de base. Une autre possibilité est que la présence des conjonctions traitées n'apporte pas assez d'information (la présence de ces conjonctions doivent permettre au réseau de par leur activation de retrouver plus de documents pertinents) afin de permettre de meilleurs résultats. On remarque de même dans ces résultats qu'il y a 14% des requêtes soumises à la collection, qui n'ont trouvé aucun des documents pertinents. De plus peu de conjonctions comptent pour h=1, puisque l'on compte que celle supérieure au poids maximal de ses composants. Ce système est très sélectif, car pour les 54

55 EXPOSE DE LA SOLUTION mêmes raisons que dans l'expérience 2, on augmente le nombre de termes en commun qui doivent être présent. L'amélioration ici est que cette sélection est restreinte (nous utilisons moins de conjonctions), entraînant ainsi la possibilité de prendre plus de document que dans l'expérience 2. Ce qui montre que le traitement apporte un certain équilibre sur ces conjonctions de termes par rapport à l'utilisation de ces conjonctions sans différenciation. Traitement avec paramètre variant : Lorsque sur cette expérience, nous avons décidé de voir l'évolution du système, en fonction de l'évolution du paramètre h. Nous ne pensions pas que les résultats se dégraderaient aussi rapidement pour h petit. Pour le cas où h=0 les résultats sont largement inférieurs à ceux de l'expérience 2 ou l'on utilise aucun traitement des conjonctions. La différence entre ces deux expériences réside, non pas dans le traitement de la conjonction (puisqu'il n'y a pas de retrait au poids de la conjonction), mais plutôt par la sélection de ces conjonctions. En effet, ici le système choisit toujours les conjonctions étant supérieur au maximum des poids qui les composent. De plus, en additionnant le poids de la conjonction au poids des termes simples, on ne tient pas compte de la relation de dépendance existante entre les termes simples et la conjonction qu'ils peuvent composer. Cette réflexion est confirmée par les résultats de l'expérience 2. Ces résultats ne contredisent en rien l'analyse faite sur les dépendances qui vous a été exposée dans ce rapport (section 4.1.2). Avec cette évolution du paramètre h (figure 4.5), nous remarquons une augmentation de la précision moyenne et le rappel moyen qui suit l'augmentation de la valeur de h vers 1.0. Ainsi, en retirant au poids de la conjonction une partie du poids d'un des termes composants (terme ayant le plus grand poids), on améliore les résultats pour le système utilisant les conjonctions de termes. Ce qui confirme de manière générale l'analyse et l'interprétation que nous avons faite sur le problème de dépendances. Dans cette configuration du système, la valeur du paramètre h, pour lequel les résultats sont les meilleurs, est h=1. Dans le cas ou l'on désirerait utiliser une valeur supérieur à 1 pour h, le risque serait de perdre l'ajout du poids de la conjonction de termes. Ce qui aurait pour effet de faire baisser énormément le score du document, et ainsi de l'exclure du système. Ceci donnerait les mêmes résultats que pour le système de base (utilisant que les termes simples) d Evolution du système Nous pensons que le problème de cette solution, qui ne donne pas de résultats concluants sur l'utilisation des conjonctions de termes et le traitement des dépendances existantes entre ces conjonctions et les termes qui les composent, est un problème d'émergence des ces conjonctions au sein du système. En effet, les bonnes conjonctions ont du mal à émerger, car à chaque fois qu'un document pertinent permet que m(a) et m(b) augmentent leur poids par le biais de la fonction de mise à jour des poids, ceci entraîne une augmentation de max (m(a),m(b)). Cette augmentation engendre une prise en compte des conjonctions de plus en plus sélective. Ainsi, nous tendons vers un système approchant du système de base (qui utilise que des termes simples). Une solution permettant de remédier à ce problème, sur la prise en compte des conjonctions de termes, serait d'utiliser le "pseudo relevance feedback". Le "pseudo relevance feedback" consiste à utiliser les informations que l'on peut obtenir des documents non 55

56 EXPOSE DE LA SOLUTION pertinent. Ces documents non pertinents sont des documents dont les score sont très faible, il sont ainsi classé par le système, car le score est inférieur au seuil fixé (dans notre système le seuil est 1). L utilisation des documents non pertinents peut nous permettre de faire baisser le poids des termes A et B. Ce qui entraîne automatiquement une baisse de max (m(a),m(b)), et ainsi augmente le nombre de conjonctions qui seront sélectionnées par le système. Une autre perspective d'amélioration de ce système, est l'optimisation du code du système RELIEFS. Cette optimisation de ce code nous permettra d'exécuter un "run" dans un temps d'exécution plus faible. 56

57 CONCLUSION 5 Conclusion Ce rapport de DEA traite de la recherche effectuée sur la prise en compte du contexte et des dépendances. Il a permis de faire un état de l'art sur les différents modèles, ainsi qu'une étude des modèles de recherches d'information. Cette étude a permis de déterminer comment les modèles de bases traitent le problème des dépendances et des conjonctions de termes. Cette analyse des modèles a apporté les premières fondations de notre recherche. Des travaux sur ces sujets ont été menés [Besançon 2002] et [Stricker et al 2000]. Ils ont exploré des voies de recherche qui traitent différemment le sujet, mais qui montre une très grande importance et un besoin de s'intéresser au contexte (au sens des termes) pour la recherche d'information. Une nouvelle réflexion, que nous avons menée autour de l'intégration des ces dépendances et du contexte, s'est inspirée de ces travaux. Notre but était alors de prendre en considération ces dépendances par le biais de conjonctions. Ces conjonctions devaient être intégrées dans notre system RELIEFS, et bénéficier d'un traitement intervenant dans la fonction de correspondance. Afin de traiter ce problème, nous avons proposé une solution reposant sur le besoin de traiter les conjonctions qui sont crées par le système, et qui sont intégrées dans le réseau. Cette solution émerge de la réflexion et de l'observation que l'on a pu faire en observant les ensembles. On s'aperçoit ainsi du besoin de ne pas ajouter la conjonction sans retirer une partie du poids de cette conjonction. Cette partie de poids peut correspondre à la mesure de la dépendance entre la conjonction et les termes qui la composent. Nous avons implémenté sur le système RELIEFS la construction des conjonctions en suivant l'algorithme proposé par [Brouard 2000b]. L'implémentation du traitement de ces conjonctions de termes s'est faite en intégrant notre solution, qui prend en compte le poids de la conjonction et le traite suivant les règles que nous avons établis pour notre solution. L'implémentation de cette solution devait être ainsi testée, afin de pouvoir vérifier son fonctionnement au travers du système en suivant des protocoles d'expériences que nous avons mis en place. Les tests de la solution intégrée dans le système RELIEFS se sont révélés avoir une exécution dans le temps très importante. En effet, l'utilisation d'une grande collection et l'utilisation des conjonctions de termes demandaient beaucoup de temps au système afin d'apporter des résultats. L'expérience 2 a demandé 40 heures pour exécuter le "run". Dans le cadre de l'expérience 3, pour chaque variance du paramètre de traitement des conjonctions, le "run" avait besoin de 28 heures pour s'exécuter. Ainsi, ces tests ont demandé une grande période pour se dérouler. Les résultats que nous avons obtenus de ces différents tests effectués sur le système RELIEFS non pas été concluants pour l'utilisation des conjonctions avec le type de traitement que nous avons mis en place. Par contre, les expériences menées (expériences 3) ne contredisent en aucun cas l'analyse que nous vous avons proposée. Le besoin de retirer une mesure, correspondant à la relation de dépendance, au poids de conjonction du terme est toujours valable dans le raisonnement, mais aussi par l'expérimentation. Ces résultats non concluants nous ont obligé à nous interroger sur les raisons qui les ont entraînés. Les perspectives d'amélioration de cette solution seraient d'utiliser le "pseudo feedback" qui nous permettrait ainsi de privilégier plus les conjonctions en pénalisant les termes simples lorsque les documents ne sont pas pertinents. L'utilisation de cette amélioration de notre solution devrait entraîner de meilleurs résultats. 57

58 BIBLIOGRAPHIE BIBLIOGRAPHIE [Baeza-Yates et Ribeiro-Neto 1999] Baeza-Yates R. et Ribeiro-Neto B., Modern information retrieval, edition ACM press, 1999 [Belkin et Croft 1992] Nicholas J. Belkin et W. Bruce Croft. Information filtering an infromation retrieval : two sides of the same coin? Communication of the ACM. Vol 35, n 12 pages 29-38, [Besançon 2001] R. Besançon, J.-C. Chappelier, M. Rajman, A. Rozenknop, Improving Text representations through Probabilistic Integration of Synonymy Relations, Proceedings of the Xth International Symposium on Applied Stochastic Models and Data Analysis (ASMDA'2001), 1, 2001, pp [Besançon 2002] Romaric Besançon, Intégration de connaissances syntaxiques et sémantiques dans les représentations vectorielles de textes. Application au calcul de similarités sémantiques dans le cadre du modèle DSIR. Thèse de doctorat [Brouard 2000] C. Brouard, Construction et exploitation de réseaux sémantiques flous pour l'extraction d'information Pertinente: Le système RELIEFS, Thèse de doctorat, 2000 [Brouard 2000b] C. Brouard, Une méthode associative et incrémentale pour l'extraction de règles floues, RIA, CAP'99, pages , [Brouard 2002a] C. Brouard, CLIPS at TREC 11: Experiments in Filtering, The Eleventh Text Retrieval Conference (TREC 2002), [Brouard 2002b] C. Brouard. RELIEFS : un système d'inspiration cognitive pour le filtrage adaptatif de documents textuels. Recherche et filtrage d'information In génierie des systèmes d'information Vol 7, [Brouard et Nie 2000] C. Brouard and J-Y Nie, The System RELIEFS: A New Approach for Information Filtering, The Ninth Text REtrieval Conference (TREC 9), 2000 [Buckley et al 1992] C. Buckley, G. Salton, J. Allan (Cornell University), Automatic retrieval with locality information using SMART, The first Text Retrieval Conference, page [Deerwester et al. 1990] Deerwester S, Dumais S.T., Furnas G.W., Landauer T.K., Hrashman R., Indexing by latent semantic analysis, Journal of th american society for information science, 41(6), pages , [Fuhr 1992] Fuhr N, Probabilistic models in information retrieval,

59 BIBLIOGRAPHIE [Furnas et al. 1988] Furnas G.W., Deerwester S, Dumais S.T., Landauer T.K., Hrashman R., Streeter L.A. Lochbaum K.E., Information retrieval using singular decomposition model of matent semantic structure. In Proc. Of the 11 th Annual ACM SIGIR Conference on research and development in information retrieval, pages , [Jacquemin et al. 1997] Christian Jacquemin, Judith L. Klavans Evelyne Tzoukermann. Expansion of Multi-Word for Indexing and Retrieval Using Morphology and Syntax. In Proceedings of the Thirty-fifth Annual Meeting of the Association for computationel Linguistics ((E)ACL'97), Barcelona July [Kwok 1989] Kwok K.L., A neural network for probabilistic information retrieval, ACM SIGIR, pages 21-30, 1989 [Kwok 1995] Kwok K.L., A network approach to probabilistic information retrieval, ACM Tansaction on information systems, Vol 13, N 3, pages , 1995 [Nie 1988] Nie J. Y., An outline of a general model for information retrieval. Proceedings of the 11th Annual ACM Conference on Research and Development in Information Retrieval, Grenoble [Robertson et al 1994] S.E. Robertson, S. Walker, S.jones, M. M. Hancok-Beaulieu and M. Gatford. Okapi at TREC-3. In proceedings of the third Text Retrieval Conférence, pages , [Robertson et Soboroff 2002] S.E. Robertson, I. Soboroff. The TREC 2002 Filtering track report. The eleventh Text REtrieval Conference (TREC 11), 2002 [Robertson 1977] S.E. Robertson, 'The probability ranking principle in IR', Journal of Documentation, 33, pages , [Robertson et Sparck Jones 1976] S.E. Robertson, K. Sparck Jones, Relevance weighting of search terms. Journal of the American Society for Information Science, pages 129 à 146, maijuin1976. [Rocchio, 1971] J. J. Rocchio. Relevance Feedback in Information Retrieval. The SMART Information Retrieval System. G. Salton, Ed. Prentice Hall, Englewood Cliffs, NJ, , [Salton 1971] Salton, G,The SMART retrieval system : experiments in automatic document processing, Prentice-Hall, 1971 [Salton and Buckley 1988] Gerard Salton and Christopher Buckley, Term-weighting approaches in automatic text retrieval. Information Processing & Management, Volume 24, Issue 5, Pages (1988). [Salton and McGill 1983] Salton, G., and M. J. McGill. Introduction to Modern Information Retrieval. New York: McGraw-Hill,

60 BIBLIOGRAPHIE [Salton et al. 1975] Salton, G., Yang, C. S., and Yu, C. T. A theory of term importance in automatic text analysis. Journal of the American Society for Information Science and Technology, Volume 26(1) pages 33-44, [Stricker et al 2000] M. Stricker, F. Vichot, G. Dreyfus et F. Wolinski, Training Context- Sensitive Neural Networks With Few Relevant Examples for the TREC-9 Routing, The Ninth Text REtrieval Conference (TREC 9), 2000 [Van Rijsbergen 1979] Van Rijsbergen C. J., INFORMATION RETRIEVAL [Van Rijsbergen 1986] Van Rijsbergen C. J., A non-classical logic for information retrieval, The computer Journal, Vol. 29, No [Voorhees et Buckland 2002] Voorhees E. M. et Buckland L. P.. NIST Special Publication: SP The Eleventh Text Retrieval Conference (TREC 2002) [Wilkinson et Hingston 1991] Wilkinson R. et Hingston P., Using the cosine measure in a neural network for document retrieval, ACM SIGIR, pages ,

Montrer encore