En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

Transcription

1 THÈSE En vue de l'obtenton du DOCTORAT DE L UNIVERSITÉ DE TOULOUSE Délvré par Insttut Natonal Polytechnque de Toulouse (INPT) Dscplne ou spécalté : Informatque Présentée et soutenue par Elayeb Blel Le 26 jun 2009 Ttre : SARIPOD: Système mult-agent de Recherche Intellgente POssblste de Documents Web JURY M. Jean-Paul Haton: Présdent de jury M.Fabrce Evrard: Examnateur M. Montaceur Zaghdoud: Examnateur Ecole doctorale : Mathématques, Informatque, Télécommuncatons de Toulouse (MITT) Unté de recherche : Insttut de Recherche en Informatque de Toulouse (IRIT) Drecteur(s) de Thèse : M. Mohamed Ben Ahmed et M. Andréas Herzg Rapporteurs : M. Salem Benferhat et Mme. Henda Hajjam Ben Ghezala

2 A ma femme Myram et ma pette flle Issrâ, En témognage de leurs respects et de mon amour A ma grande mère, A ma mère, mon père et ma tante Acha En témognage de leurs sacrfces et de mon amour A Mes frères et soeurs, En témognage de mon amour

3 Remercements Je sus très reconnassant à mon drecteur de thèse, le Professeur Mohamed BEN AHMED pour ses préceuses drectves, ses dées scentfques, sa dsponblté et son soutent perpétuel. Qu l trouve c le frut de mes efforts comme témognage de mon très grand respect. Je tens à exprmer ma profonde grattude à Monseur Fabrce EVRARD pour l ntérêt et la dsponblté qu l a manfesté à l égard de mes recherches ans que pour son souten et sa patence au cours de mes nombreux séjours à Toulouse. Qu l sot c assuré de mon très grand respect et du plasr que j a à travaller avec lu. Je souhate également exprmer toute ma reconnassance à Monseur Montaceur ZAGHDOUD pour l ntérêt et la dsponblté qu l a manfesté à l égard de mes recherches ans que pour ses encouragements contnus durant ces tros années de thèse. Qu l sot c assuré de mon très grand respect et du plasr que j a à travaller avec lu depus mon PFE à l ENSI. Je sus auss très reconnassant à Monseur Andréas HERZIG de m avor accuelle au sen de l équpe LILAC de l Insttut de Recherche en Informatque de Toulouse (IRIT). Mes remercements s adressent également à tous les membres du jury qu m ont honoré d avor accepté d évaluer ce traval. En partculer, je remerce: Professeur Jean-Paul HATON d avor accepté de présder le jury de cette thèse. Professeure Henda HAJJAMI BEN GHEZALA, la Présdente de L Unversté de la Manouba en Tunse, pour l honneur qu elle m a fat en acceptant d être le rapporteur de cette thèse. Professeur Salem BENFERHAT pour l honneur qu l m a fat en acceptant d être le rapporteur de cette thèse. J adresse auss mes remercements au Professeur Mchel DAYDE de m avor ben accuelle au sen du Laboratore IRIT ste ENSEEIHT, ans qu au Professeur Lous FERAUD, le Drecteur de l Ecole Doctorale MITT pour ses encouragements contnus. Mes remercements s adressent également au Professeur Khaled GHEDIRA, l ex-drecteur de l ENSI pour ses encouragements. Je tens à remercer auss tous les ensegnants de l ENSI, partculèrement Monseur Yassne JAMOUSSI et Madame Narjès BELLAMINE-BENSAOUD pour leur souten et encouragements. Remercer tous ceux qu m ont adé à fnalser ce traval est pour mo un plasr, je pense partculèrement à Madame Myram BOUNHAS et à Monseur Ibrahm BOUNHAS. Qu ls trouvent c ma reconnassance pour leurs dsponbltés et encouragements. Je tens à remercer auss tous les membres du laboratore RIADI-GDL, en partculer Messeurs Tarek BEN MENA, Youssef BEN HALIMA, Radh HADJ M TIR et Ahmed HADAD et Mesdames Olfa DRIDI et Sama Sona SELLMI pour leur collaboraton, souten et encouragements contnus. Je remerce auss tous les personnels de l IRIT ste ENSEEIHT ans que de l INPT, je pense partculèrement à Madame Sylve EICHEN et à Monseur Jean-Claude DARCOS de l IRIT ste ENSEEIHT, Mesdames Catherne GARCIA, Sylve CARCASSES et Martne LACOSTE de

4 l INPT ans que Madame Martne LABRUYERE, la secrétare de l EDMITT et Madame Chrstane JOURDAA, chargée des relatons nternatonales à l ENSEEIHT pour leurs ades et encouragements. Je remerce auss tous les personnels de l ENSI, je pense partculèrement à Madame Héda OMRANI, la secrétare du laboratore RIADI-GDL, et Monseur Rachd MZOUGHI, chargé de fnance à l ENSI, pour leurs ades et encouragements contnus durant toutes mes mssons scentfques à l étranger. Mes remercements vont également vers mes ams de toujours, Héd SMIDA, Houcne SGHAIER, Abdelrahman ETTIH, Taeb ETTIH, Ramz LAMLOUM, Mohamed KHELFA, Soufen ELMOKHTAR, Mohamed MOUTIA, Salah HADJ SALEM, Khaled BEN SMIDA, Malek BEN SMIDA, Moncef BEN SMIDA, Hchem OMRANI et Imed BALTI qu ont toujours été là pour partager les soucs, les joes et les moments de détente. Un grand merc à la famlle BOUNHAS, je pense partculèrement à Madame Acha ELGATTOUFI et Messeurs Sad, Salem, Mohamed, Ahmed et le pett Khall (Ll!) et Mesdames Yemna, Marem, Jaza et Khédja pour leurs ades et encouragements durant toutes les pérodes de mes absences à l étranger. Je tens à accorder une pensée partculère à ma pette flle Issrâ (Cha!), ma femme, mes parents, mes frères Sam et Ndhal et mes sœurs Samha, Imen et les deux Merems Elayeb et Handoura. Que vous soyez c récompensés pour toutes vos écoutes et vos encouragements durant toutes mes études.

5 Résumé Résumé La présente thèse de doctorat en nformatque propose un modèle pour une recherche d nformaton ntellgente possblste des documents Web et son mplémentaton. Ce modèle est à base de deux Réseaux Petts Mondes Hérarchques (RPMH) et d un Réseau Possblste (RP) : Le premer RPMH consste à structurer les documents retrouvés en zones denses de pages Web thématquement lées les unes aux autres. Nous fasons ans apparaître des nuages denses de pages qu tratent d un sujet et des sujets connexes (assez smlares sémantquement) et qu répondent toutes fortement à une requête. Le second RPMH est celu qu consste à ne pas prendre les mots-clés tels quels mas à consdérer une requête comme multple en ce sens qu on ne cherche pas seulement le mot-clé dans les pages Web mas auss les substantfs qu lu sont sémantquement proches. Les Réseaux Possblstes combnent les deux RPMH afn d organser les documents recherchés selon les préférences de l utlsateur. En effet, l orgnalté du modèle proposé se déclne selon les tros volets suvants qu synthétsent nos contrbutons : Le premer volet s ntéresse au processus tératf de la reformulaton sémantque de requêtes. Cette technque est à base de relatons de dépendance entre les termes de la requête. Nous évaluons notamment les proxmtés des mots du dctonnare franças «Le Grand Robert» par rapport aux termes de la requête. Ces proxmtés sont calculées par le bas de notre approche de recherche des composantes de sens dans un RPMH de dctonnare de mots par applcaton d une méthode basée sur le dénombrement des crcuts dans le réseau. En fat, l utlsateur du système proposé chost le nombre de mots sémantquement proches qu l désre ajouter à chaque terme de sa requête orgnelle pour construre sa requête reformulée sémantquement. Cette dernère représente la premère parte de son profl qu l propose au système. La seconde parte de son profl est consttuée des chox des coeffcents de pertnence possblstes affectés aux enttés logques des documents de la collecton. Ans, notre système tent compte des profls dynamques des utlsateurs au fur et à mesure que ces derners utlsent le système. Ce derner est caractérsé par son ntellgence, son adaptatvté, sa flexblté et sa dynamcté. Le second volet consste à proposer des relatons de dépendance entre les documents recherchés dans un cadre ordnal. Ces relatons de dépendance entre ces documents tradusent les lens sémantques ou statstques évaluant les dstrbutons des termes communs à des pares ou ensembles de documents. Afn de quantfer ces relatons, nous nous sommes basés sur les calculs des proxmtés entres ces documents par applcaton d une méthode de dénombrement de crcuts dans le RPMH de pages Web. En effet, les documents peuvent ans être regroupés dans des classes communes (groupes de documents thématquement proches). Le trosème volet concerne la défnton des relatons de dépendance, entre les termes de la requête et les documents recherchés, dans un cadre qualtatf. Les valeurs affectées à ces relatons tradusent des ordres partels de préférence. En fat, la théore des possbltés offre deux cadres de traval : le cadre qualtatf ou ordnal et le cadre quanttatf. Nous avons proposé notre modèle dans un cadre ordnal. Ans, des préférences entre les termes de la requête se sont ajoutées à notre modèle de base. Ces préférences permettent de resttuer des documents classés par préférence de pertnence. Nous avons mesuré auss l apport de ces facteurs de préférence dans l augmentaton des scores de pertnence des documents contenant

6 Résumé ces termes dans le but de pénalser les scores de pertnence des documents ne les contenant pas. Pour la mse en place de ce modèle nous avons chos les systèmes mult-agents. L avantage de l archtecture que nous proposons est qu elle offre un cadre pour une collaboraton entre les dfférents acteurs et la mse en œuvre de toutes les fonctonnaltés du système de recherche d nformaton (SRI). L archtecture s accorde parfatement avec le caractère ntellgent possblste et permet de bénéfcer des capactés de synerge nhérente entre les dfférentes composantes du modèle proposé. Dans le présent traval, nous avons donc pu mettre en exergue à travers les expérmentatons effectuées l ntérêt de fare combner les deux RPMH va un réseau possblste dans un SRI, ce qu permet d enrchr le nveau d exploraton d une collecton. Ce derner n est pas lmté aux documents mas l étend en consdérant les requêtes. En effet, la phase de reformulaton sémantque de requête permet à l utlsateur de profter des autres documents correspondants aux termes sémantquement proches des termes de la requête orgnelle. Ces documents peuvent exster dans d autres classes des thèmes. En conséquence, une reclassfcaton proposée par le système s avère pertnente afn d adapter les résultats d une requête aux nouveaux besons des utlsateurs. Mots-clés : Recherche Intellgente d Informatons, Réseaux Petts Mondes Hérarchques, Réseaux Possblstes, Pertnence Possblste, Préférences Utlsateur, Document Pertnent, Système Mult-Agent.

7 Abstract Abstract Ths Ph.D. thess proposes a new model for a multagent possblstc Web nformaton retreval and ts mplementaton. Ths model s based on two Herarchcal Small-Worlds (HSW) Networks and a Possblstc Networks (PN): The frst HSW conssts n structurng the founded documents n dense zones of Web pages whch strongly depend on each other. We thus reveal dense clouds of pages whch "speak" more or less about the same subject and related subjects (semantcally smlar) and whch all strongly answer user s query. The second HSW conssts n consderng the query as multple n the sense that we don t seek only the keyword n the Web pages but also ts semantcally close substantves. The PN generates the mxng of these two HSW n order to organze the searched documents accordng to user s preferences. Indeed, the orgnalty of the suggested model s declned accordng to three followng shutters' whch synthesze our contrbutons: The frst shutter s nterested n the teratve process of query semantc reformulaton. Ths technque s based on relatonshp dependence between query s terms. We evaluate n partcular the semantcs proxmtes between the words of the French dctonary "Le Grand Robert" and query s terms. These proxmtes are calculated va our approach of research of the semantcs components n the HSW of dctonary of words by applcaton of our method of enumeraton of crcuts n the HSW of dctonary. In fact, the user of the suggested system chooses the number of close words that he desre to add to each word of hs ntal query to buld hs semantcally reformulated query. Ths one represents the frst part of user s profle whch he proposes to the system. The second part of ts profle makes up of ts choces of the coeffcents of relevance possblstc of the logcal enttes of the documents of the collecton. Thus, our system takes account of the dynamc profles of ts users progressvely they use the system, whch proves ts ntellgence, ts adaptablty, ts flexblty and ts dynamcty. The second shutter conssts n proposng relatonshp dependence between documents of the collecton wthn an ordnal framework. These relatonshps dependence between these documents represent the semantc or statstcal lnks evaluatng the dstrbutons of the general terms to pars or sets of documents. In order to quantfy these relatonshps, we are based on the calculatons of the proxmtes between these documents by applcaton of a method enumeratng of crcuts n the HSW of Web pages. Indeed, the documents can thus be clustered n common classes (groups of close documents). The thrd shutter s related to the defnton of the relatonshps dependence between query s terms and documents of the collecton, wthn a qualtatve framework. The assgned values to these relatons translate preferably partal orders. In fact, possblstc theory offers two workng frameworks: the qualtatve or ordnal framework and the numercal framework. We proposed our model wthn an ordnal framework. Thus, we add to our basc model preferences between query s terms. These preferences make t possble to restore documents classfed by relevance s preference. We also measured the contrbuton of these preferably factors n the ncrease of the relevance s scores of documents contanng these terms wth an am of penalzng the relevance s scores of the documents not contanng them. For the nstallaton of ths model we chose multagent systems. The advantage of the proposed archtecture s that t offers a framework for collaboraton between the varous actors and the mplementaton of all the functonaltes of the nformaton retreval system.

8 Abstract Archtecture agrees perfectly wth the possblstc ntellgent character and makes t possble to proft from the capactes of nherent synergy n the suggested model. We thus could put forward, through the carred out experments, the goal of combnng the two HSW va a possblstc network n an nformaton retreval system, whch makes t possble to enrch the exploraton level of a collecton. Ths exploraton s not only lmted to the documents but t extends by consderng also the query. Indeed, the semantc query reformulaton phase makes t possble to beneft user from other documents whch contan some close terms of the ntal query. These documents can exst n other topcs classes. Consequently, a reclassfcaton suggested by the system proves ts relevance n order to adapt query s results to new user s needs. Keywords: Intellgent Informaton Retreval, Herarchcal Small-Worlds, Possblstc Networks, Possblstc Relevance, User s Preferences, Relevant Document, Multagent System.

9 Table des matères Table des matères Introducton générale Problématque de la thèse Organsaton de la thèse...11 Premère Parte : Etat de l art sur la Recherche d Informaton...13 Chaptre 1 : Les Systèmes de Recherche d Informaton Les composants d un SRI Utlsateur, beson d nformaton, profl et requête Requête en RI Représentaton des résulats de requêtes Analyse et ndexaton des documents et des requêtes Approche basée sur la fréquence d'occurrences Approche basée sur la valeur de dscrmnaton Approche basée sur tf x df La pondératon de termes Fltrage des mots fonctonnels Lemmatsaton L'approche basée sur une ndexaton Noton de pertnence Evaluaton d'un système de RI Corpus de test (références) Rappel et Précson Reformulaton de la requête Rétroacton de pertnence (Relevance Feedback) Expanson de requêtes Les problèmes posés par la reformulaton de la requête Concluson...34 Chaptre 2 : Les modèles de la Recherche d Informaton Modèle "Matchng score" Modèle booléen Modèle Booléen basé sur des ensembles flous

10 Table des matères 2.2 Modèle booléen étendu ou P-Norme Modèle vectorel Modèle vectorel généralsé Modèle vectorel et domanes sémantques Modèle probablste Reformulaton de requête dans ces modèles Reformulaton de la requête dans le modèle booléen Reformulaton de la requête dans le modèle vectorel Reformulaton de la requête dans le modèle probablste Autres approches de reformulaton de requêtes Concluson...54 Chaptre 3 : Modèle Bayésen versus Modèle Possbste de Recherche d Informaton Les Réseaux Bayésens Défnton Prncpe du Réseau Bayésen Constructon de la structure du RB par apprentssage Inférence dans les Réseaux Bayésens Synthèse Modèle Bayésen de RI Archtecture générale du modèle Bayésen Les modèles de RI basés sur les réseaux Bayésens Reformulaton de requêtes dans le modèle Bayésen Repondératon de termes de la requête ntale Q Expanson de la requête Les Réseaux Possblstes La théore des possbltés Réseaux Possblstes (RP) Les nterprétatons de la théore des possbltés Modèle possblste quanttatf de RI Archtecture du modèle Evaluaton des pods du réseau Un smple schéma de propagaton Reformulaton de requêtes dans le modèle possblste Formules basées sur la nécessté de termes

11 Table des matères 6.2 Formules basées sur la possblté de termes Formules basées sur la possblté et la nécessté Modèle Bayésen versus Modèle Possblste Concluson...86 Deuxème Parte : Concepton et archtecture d un Système mult-agent de Recherche Intellgente POssblste de Documents Web, SARIPOD...88 Chaptre 4 : Modèle d un SRI à base de Réseaux Petts Mondes Hérarchques et de Réseaux Possblstes Modèle conceptuel du système SARIPOD Les RPMH du système SARIPOD Défnton du RPMH Approche générque de génératon de composantes de sens dans un réseau d nformatons Concluson Le Réseau Possblste du système SARIPOD Apport de l approche qualtatve du système SARIPOD Pondératon des termes de la requête dans le système SARIPOD Travaux smlares à notre approche Concluson Chaptre 5 : Spécfcaton et concepton du système SARIPOD Spécfcaton du système SARIPOD Module de constructon du RPMH de dctonnare Module de reformulaton de la requête utlsateur Module de Crawlage stratégque Module de constructon du RPMH de pages Web Module d analyse de documents Web Module de tr de documents par leurs pertnences possblstes Module d optmsaton du système SARIPOD Concepton du système SARIPOD Concepton et mse en œuvre du RPMH de dctonnare Concepton et mse en œuvre du crawlage stratégque Concepton et mse en œuvre de l analyse de document Web Concepton et mse en œuvre du tr de documents par pertnence possblste Concepton et mse en œuvre du module d optmsaton

12 Table des matères 3. Concluson Chaptre 6 : Réalsaton et expérmentaton du système SARIPOD Cadre du traval Envronnement Logcel La plate-forme mult-agent Jade Les agents du système SARIPOD Les couches d agents du SARIPOD Rôle des dfférents agents Implémentaton du système SARIPOD Interfaces prncpales du SARIPOD Interfaces du RPMH de pages Web Interfaces du RPMH de Dctonnare Expérmentatons et résultats Reformulaton sémantque de requêtes Comparason avec les travaux de [Gaume et al., 2004] Classfcaton des documents Comparason avec le SRI SARCI Concluson Concluson générale et Perspectves Chox prncpaux Contrbuton prncpale Perspectves Bblographe Annexe 1 : Format XML du dctonnare franças Le Grand Robert Annexe 2 : Les systèmes mult-agents et la Recherche d Informaton Annexe 3 : Données et résultats du RPMH de dctonnare Annexe 4 : Données et résultats du RPMH de pages Web Annexe 5 : Résultats des expérmentatons

13 Table des fgures Table des fgures Fgure 1.1 : Les composants d un Système de Recherche d Informaton...15 Fgure 1.2 : La correspondance entre l'nformatvté et la fréquence...19 Fgure 1.3 : Opératons et envronnement de la RI...24 Fgure 1.4 : Ordre partel de pertnence...27 Fgure 1.5 : Rapprochement de pertnences système et utlsateur...29 Fgure 2.1 : Evaluaton de la conjoncton et de la dsjoncton...39 Fgure 2.2 : Comportement du modèle p-norme...41 Fgure 3.1 : Exemple de Réseau Bayésen...57 Fgure 3.2 : Graphe acyclque orenté...61 Fgure 3.3 : Graphe moral...62 Fgure 3.4 : Trangularsaton du graphe moral...62 Fgure 3.5 : (a)- arbre de regroupement (b)- n est pas un arbre de regroupement...63 Fgure 3.6 : Arbre de joncton...65 Fgure 3.7 : Archtecture générale du modèle Bayésen...68 Fgure 3.8 : Duplcaton tros fos du terme T...72 Fgure 3.9 : Exemple de réseau causal possblste...77 Fgure 3.10 : Les lmtes des théores de tratement de l ncerttude...79 Fgure 3.11 : Archtecture générale du modèle possblste quanttatf...80 Fgure 4.1 : Modèle conceptuel du système SARIPOD...91 Fgure 4.2 : Smlarté sémantque entre les verbes...93 Fgure 4.3 : Structure du graphe petts mondes hérarchques...94 Fgure 4.4 : Exemple du chox de seul d'acceptaton...98 Fgure 4.5 : Couples des enttés ssus d une matrce des crcuts communs Fgure 4.6 : Algorthme de regroupement par allongement de crcuts Fgure 4.7 : Algorthme de regroupement par assocatons séparées Fgure 4.8 : Algorthme de regroupement par contrante mnmale Fgure 4.9 : Algorthme de fuson des groupes potentels en composantes de sens Fgure 4.10 : Répartton des zones denses dans une zone urbane Fgure 4.11 : Applcaton du nouvel algorthme à un graphe RPMH Fgure 4.12 : Résultat du groupement dans le RPMH de l exemple Fgure 5.1 : Archtecture générale du système SARIPOD Fgure 5.2 : Archtecture nterne de module de constructon du RPMH de dctonnare Fgure 5.3 : Descrpton fonctonnelle de la recherche des composantes de sens Fgure 5.4 : La DTD ntale du dctonnare Fgure 5.5 : La source de données ntale de dctonnare Fgure 5.6 : la source de données fnale de dctonnare sous format XML Fgure 5.7 : La DTD fnale du dctonnare sous format XML Fgure 5.8 : Exemple du chox du seul de proxmté sémantque Fgure 5.9 : Exemple de l algorthme Strat Fgure 5.10 : Archtecture nterne du module d analyse de page Web Fgure 5.11 : Exemple de document où la noton de régularté peut être applquée Fgure 5.12: Dagramme de classes de la constructon du RPMH de dctonnare Fgure 5.13 : Dagramme de séquences de la recherche des mots proches d un mot Fgure 5.14 : Dagramme de séquences du groupement des mots proches d un mot Fgure 5.15 : Dagramme de classes générale de deux modules de crawlage et de tr

14 Table des fgures Fgure 5.16 : Dagramme de classes du module de crawlage stratégque Fgure 5.17 : Dagramme de séquences du module de crawlage stratégque Fgure 5.18 : Dagramme de classes général du module d analyse de document Web Fgure 5.19 : Dgramme de classes du processus de segmentaton Fgure 5.20 : Dagramme de classes du calcul des nveaux des styles Fgure 5.21 : Dagramme de classes de l étquetage sémantque des blocs Fgure 5.22 : Dagramme de séquences du module d analyse d un document Web Fgure 5.23 : Dagramme de classes du module de tr par pertnence possblste Fgure 5.24 : Dagramme de séquences du module de tr par pertnence possblste Fgure 5.25 : Dagramme de classes du module d optmsaton Fgure 6.1 : Les couches abstrates du système SARIPOD Fgure 6.2 : La coopératon entre les agents de SARIPOD Fgure 6.3 : Communcatons par messages échangés entre les agents de SARIPOD Fgure 6.5 : Interface générale du système SARIPOD Fgure 6.6 : Interface de paramétrage des coeffcents de pertnence possblste Fgure 6.7 : Interface du fcher résultat du système SARIPOD Fgure 6.8 : Interface des URLs collectées par le crawler Fgure 6.9 : Interface de proxmté entre les pages Web Fgure 6.10 : Interface de calcul du nombre de crcuts sélectonnés entre les pages Web Fgure 6.11 : Interface des branches de RPMH de pages Web Fgure 6.12 : Interface de groupement des pages dans le RPMH de pages Web Fgure 6.13 : Interface de fuson des groupes de pages dans le RPMH de pages Web Fgure 6.14 : Interface 3D du RPMH de pages Web Fgure 6.15 : Interface du RPMH de dctonnare Fgure 6.16 : Interface de calcul du nombre de crcuts sélectonnés entre les mots de dctonnare Fgure 6.16 : Interface des branches de RPMH de mots de dctonnare Fgure 6.18 : Interface de groupement des mots proches dans le RPMH de dctonnare Fgure 6.19 : Interface de Fuson des mots proches dans le RPMH de dctonnare Fgure 6.20 : Les varatons de L et C en foncton du nombre de mots sémantquement proches Fgure 6.21 : Les varatons de L et C en foncton du nombre de pages Web retrouvées Fgure A1.1 : La DTD du fcher dco.xml Fgure A1.2 : Les étapes de créaton d un fcher XML à partr du dctonnare Fgure A2.1 : Archtecture réflexve de l assstance de recherche Web Fgure A2.2 : L archtecture mult-agent du système ProFuson Fgure A2.3 : Archtecture du système nteractf basé mult-agent pour la recherche Web Fgure A3.1 : Courbes de varaton de la longeur de crcut en foncton du nombre maxmale de crcuts collectés entre les verbes Fgure A4.1 : Courbes de varaton de la longeur de crcut en foncton du nombre maxmale de crcuts collectés entre les pages Web

15 Table des tableaux Table des tableaux Tableau 1.1 : Exemple de calcul de la fréquence d'occurrences...19 Tableau 1.2 : Quelques collectons de documents de test en RI...28 Tableau 2.1 : Table de vérté pour l évaluaton booléenne standard...39 Tableau 2.2 : Table de dstrbuton pour chaque terme t...47 Tableau 2.3 : Table de valeurs du terme t...47 Tableau 3.1 : Table de contngence des termes...71 Tableau 3.2 : Dstrbuton de possblté ntales (1)...78 Tableau 3.3 : Dstrbuton de possblté ntales (2)...78 Tableau 3.4 : Dstrbuton de possblté jonte...78 Tableau 3.5 : Dstrbuton de possblté...82 Tableau 4.1 : Comparason de tros graphes en foncton des paramètres L, C et I...95 Tableau 4.2 : Les sources de données de deux RPMH...97 Tableau 4.3 : Récaptulaton de méthodes de regroupement des enttés Tableau 4.4 : Récaptulaton des résultats du nouvel algorthme Tableau 4.5 : Coeffcent de pertnence possblste de chaque entté logque Tableau 4.6 : Répartton des termes dans les enttés logques des tros documents Tableau 4.7 : Les tros préférences de l utlsateur du système SARIPOD Tableau 4.8 : Résultats de l approche qualtatve du système SARIPOD Tableau 4.9 : Répartton des termes dans les enttés logques des tros documents Tableau 4.10 : Les tros préférences de l utlsateur du système SARIPOD Tableau 4.11 : Résultats de l effet de l ajout de préférences entre termes de la requête Tableau 6.1 : Comparason entre les moteurs de recherche et les agents logcels Tableau 6.2 : Récaptulaton des résultats des cnq expérences sur le RPMH de dctonnare Tableau 6.3 : Quelques caractérstques des graphes G1 et G Tableau 6.4 : Répartton des documents Web de la base du test Tableau 6.5 : Données et résultats de la premère expérence Tableau 6.6 : Données et résultats de la deuxème expérence Tableau 6.7 : Données et résultats de la trosème expérence Tableau 6.8 : Données et résultats de la quatrème expérence Tableau 6.9 : Données et résultats de la cnquème expérence Tableau 6.10 : Synthèse des résultats des expérences Tableau 6.11 : Résultats des expérmentatons Tableau 6.12 : Les paramètres L et C des RPMH des documents Tableau A1.1 : Récupératon de la structure du dctonnare Le Grand Robert Tableau A2.1 : Comparason des SMA de Recherche d'informaton Tableau A3.1 : Résultats de la recherche de composantes de sens du verbe «vérfer» Tableau A3.2 : Résultats de la recherche de composantes de sens du verbe «Nettoyer» Tableau A3.3 : Résultats de la recherche de composantes de sens du verbe «Analyser» Tableau A3.4 : Résultats de la recherche de composantes de sens du verbe «jouer» Tableau A3.5 : Résultats de la recherche de composantes de sens du verbe «Préserver» Tableau A4.1 : Résultats de la recherche de composantes thématques du thème «système d explotaton»

16 Table des tableaux Tableau A4.2 : Résultats de la recherche de composantes thématques du thème «Réseaux et protocoles» Tableau A4.3 : Résultats de la recherche de composantes thématques du thème «Base de Données» Tableau A5.1 : Récaptulatons des résultats des cnq expérences de classfcaton de documents Tableau A5.2 : Les scores des pertnences possblstes des documents retrouvés

17 Introducton générale Introducton générale La Recherche d Informaton (RI) est une branche de l nformatque qu s ntéresse à l acquston, l organsaton, le stockage et la recherche des nformatons. Elle propose des outls, appelés Systèmes de Recherche d Informaton (SRI), dont l objectf est de captalser un volume mportant d nformaton et d offrr des moyens permettant de localser les nformatons pertnentes relatves au beson d un utlsateur exprmé à travers une requête. En fat, un SRI est un système qu gère une collecton d nformatons organsées sous forme d une représentaton ntermédare reflétant auss fdèlement que possble le contenu des documents grâce à un processus préalable d ndexaton, manuelle ou automatque. La recherche d nformaton désgne alors le processus qu permet, à partr d une expresson des besons d nformaton d un utlsateur, de retrouver l ensemble des documents contenant l nformaton recherchée [Abbaden et al., 1998] et ce par la mse en oeuvre d un mécansme d apparement entre la requête de l utlsateur et les documents ou plus exactement entre la représentaton de la requête et la représentaton des documents. La noton de document est prse c au sens large et peut représenter une combnason multméda (documents hétérogènes ntégrant du texte, du son, des graphques et de la vdéo). Afn d effectuer une recherche pertnente, le SRI ne dot plus se contenter d une analyse smple de la collecton de documents et d une mse en correspondance drecte entre les requêtes et les documents prs de manère solée. Dans le but d amélorer la qualté de la recherche, des technques plus élaborées ncluant celles de reformulaton et d nteracton, et trbutares du processus de recherche lu-même, sont ntrodutes. D une part, ces technques sont en rapport avec la manère d ntégrer de la façon la plus effcace possble l utlsateur dans le processus de recherche. D autre part, ces technques sont lées à la manère d analyser et de représenter le contenu d une collecton en explotant au meux les relatons qu entretennent les documents entre eux, les concepts du domane entre eux ou même les descrpteurs des documents entre eux L nteracton entre l utlsateur et le SRI permet à l utlsateur de transmettre ses jugements en terme de pertnence, ce qu peut résoudre en parte le problème de la complexté de la requête. Grâce à ce mécansme, l est possble au système d acquérr des connassances lées aux utlsateurs et de construre des profls permettant de représenter leurs centres d ntérêt, et d effectuer un fltrage et un routage d nformaton. Les SRI classques consdéraent cette composante comme fgée et défne a pror. L utlsateur peut présenter pour sa part des besons de nature dverse (précse, exploratore, thématque ou connotatve). Le SRI dot donc présenter l nformaton sous pluseurs formes notamment en proposant des vues thématques à l ade d un support de navgaton [Kammoun-Bouzaïene, 2006] ou va des graphes de type Réseaux Petts Mondes Hérarchques (RPMH) [Elayeb et al., 2006]. Pour mener à ben cette recherche, pluseurs connassances ntervennent et se complètent, et des opératons nteragssent dans un contexte qu évolue et qu dot s adapter à des exgences lées aux utlsateurs ans qu à la connassance elle même. Le cadre du Web consttue le champ d applcaton des SRI le plus répandu et le plus mportant en terme de documents dsponbles vue qu l représente aujourd hu une source 9

18 Introducton générale mportante d nformaton. Par alleurs, contrarement aux moteurs de recherches conventonnels qu utlsent généralement des technques d ndexaton de l nformaton dsponble sur Internet, le système proposé dans le cadre de cette thèse utlse des technques de modélsaton de la requête et des profls des utlsateurs, d une part et de modélsaton de documents de la collecton d autre part, tout en permettant à des agents logcels d nteragr selon des stratéges coopératves pour trouver l nformaton qu répond aux besons des utlsateurs. 1. Problématque de la thèse La problématque majeure de la Recherche d Informaton consste à extrare à partr d une collecton de documents, ceux qu répondent à un beson utlsateur en se basant souvent sur des nformatons pauvres provenant des requêtes des utlsateurs. Les dfférents modèles connus de la RI (booléen, vectorel, probablste, bayésen) représentent les documents et les requêtes sous forme de lstes de termes pondérés pus mesurent une valeur de pertnence (smlarté vectorelle, probablté de pertnence) en se basant sur ces termes et leurs pods. La pondératon des termes est à notre sens l élément fondamental de tous les modèles de RI actuels [Sparck-Jones, 1988] [Rbero-Neto et al., 1996]. Lorsqu elle est calculée automatquement, cette pondératon est obtenue à partr de la combnason des fréquences d occurrences des termes dans les documents (tf), des fréquences d apparton des termes dans la collecton (df) et de la longueur des documents (dl) [Salton et al., 1994] [Snghal et al., 1996ab]. Quel que sot le modèle, la réponse à une requête est une lste de documents ordonnés selon cette valeur de pertnence. Certanes approches consdèrent les pods des termes comme des degrés de pertnence. Dans ces modèles, l ncomplétude de l nformaton, ntrnsèque à la représentaton vectorelle d un document, n est pas consdérée lors de son évaluaton pour une requête donnée. En réalté, on ne dstngue pas entre les notons de possblté ou de certtude lors des calculs de la pertnence. Les méthodes actuelles, relatvement pauvres, utlsées pour représenter les documents (ensemble de termes et de leurs pods) ans que pour représenter le beson utlsateur ne sont pas totalement compatbles avec une défnton précse de la pertnence. La présente thèse propose le développement d un système mult-agent de recherche d nformaton sur Internet, baptsée SARIPOD, combnant deux Réseaux Petts Mondes Hérarchques (RPMH) va des Réseaux Possblstes (RP) : Le premer RPMH consste à structurer les documents retrouvés en zones denses de pages Web lées les unes aux autres. Nous fasons ans apparaître des nuages denses de pages qu tratent du même sujet et qu répondent à une requête. Ans chaque page Web serat un noeud d'un ggantesque graphe dont les arcs seraent les lens hypertextuels d'une page vers une autre. Certans calculs sur ce graphe sont à même de fare apparaître des regroupements thématques (pages Web qu font parte du même thème). Ans chercher une nformaton sur le Web ne se ferat plus au hasard. Meux encore : une requête sous forme d'une descrpton même approxmatve de ce que l'on cherche ferat aboutr dans un groupe (cluster) thématque et même sur la plus pertnente page Web de ce "cluster". Le second RPMH est celu qu consste à ne pas prendre les mots-clés proposé par l utlsateur tels quels mas à consdérer une requête comme multple en ce sens qu on ne cherche pas seulement le mot-clé dans les pages Web mas auss les mots sémantquement proches. En effet, l exste un arc entre deux sommets s l un apparaît dans la défnton dctonnarque de l autre. Nous proposerons une organsaton de ces termes en pluseurs "clusters" selon leurs proxmtés sémantques détermnées grâce à l étude des crcuts entre les mots du dctonnare franças «Le Grand Robert». Nous proposons grâce à ce RPMH une nouvelle réformulaton 10

19 Introducton générale sémantque de la requête utlsateur. Les Réseaux Possblstes combnent ces deux RPMH afn d organser les documents recherchés selon le profl de l utlsateur. En effet, ce système présente une nouvelle approche possblste pour un système de Recherche d Informaton. Ce système, qu vot la Recherche d Informaton comme un problème de dagnostc, tradut à l ade de réseaux possblstes naïfs des relatons de dépendance entre les documents et les termes de la requête. Ces relatons sont quantfables par deux mesures : la possblté et la nécessté de pertnence. La mesure de possblté est utle pour fltrer les documents et la mesure de nécessté pour renforcer la pertnence des documents restants. Le processus de recherche resttue les documents plausblement ou nécessarement pertnents à un utlsateur. De plus, s l approche de base tent compte c de l aspect quanttatf et ne tent pas compte de la dépendance entre les termes de la requête, notre système permet de l étendre au cadre qualtatf possblste, en ntrodusant des préférences entre les termes de la requête. En fat, un tel modèle possblste devrat être capable de répondre à des propostons du type : Est-l plausble à un certan degré que le document d consttue une bonne réponse à la requête R j? Est-l nécessare, certan (dans le sens possblste), que le document d réponde à la requête R j? Le document d est-l préférable au document d j ou l ensemble {d, d j } est-l préférable à l ensemble {d k, d l }? Le premer type de proposton vse à élmner les documents fablement plausbles de la réponse. La seconde réponse se focalse sur les documents qu seraent réellement pertnents. Le derner type de proposton suggère que la lste ordonnée des documents en réponse à un beson utlsateur peut être tratée d une manère qualtatve, et que des approches ordnales pourraent être utlsées dans la représentaton des documents et des requêtes. La défnton de la pertnence d un document vs-à-vs d une requête, en foncton des données dont nous dsposons, est dffclement exprmable (ou tradusble) par une unque mesure de probablté. En effet, celle-c ne tent pas compte des caractères mprécs et vagues qu sont ntrnsèques à la pertnence [Brn et Boughanem, 2003]. En réalté, une mesure de probablté portant sur un événement et son contrare est quelque peu restrctve. Dans le modèle proposé par ces auteurs, un document contenant tous les termes de la requête consttue une réponse possblement pertnente à la requête. Cette plausblté dot être renforcée par une certtude provenant de la mesure de nécessté. La mesure de possblté est utle pour élmner les documents non pertnents et la mesure de nécessté pour renforcer la pertnence des documents non élmnés par la possblté. L usage de la théore des possbltés en RI avat déjà été suggéré par [Prade et Testemale, 1987] qu proposaent un nouveau modèle d ndexaton sous forme de groupes de mots-clés, pondérés par des degrés de possblté et de nécessté. Afn de combler la complexté du problème de RI, fasant ntervenr des processus qu nteragssent va un ensemble de connassances, nous proposons un modèle qu se base sur une archtecture mult-agent contrbuant à la résoluton du problématque posé. En fat, le modèle mult-agent que nous proposons permet d nclure un certan nombre de connassances nécessares, fédérées par un ensemble d agents (dont chacun est chargé d une tâche spécfque) qu coopèrent pour satsfare l utlsateur. 2. Organsaton de la thèse La présente thèse est organsée en sx chaptres : 11

20 Introducton générale Le premer chaptre présente les systèmes de Recherche d Informaton. Ans, nous commençons par défnr les notons de base de la RI. Pus, nous ntéressons à la représentaton des documents et de la requête et à la mse en correspondance entre la requête et les documents afn de sélectonner les documents pertnents. D autre part, une phase de reformulaton de la requête est assocée au processus de la recherche dont le but est de combler le fossé exstant entre la pertnence lée à l évaluaton de l utlsateur et la pertnence jugée par le système. Nous présentons à la fn de ce chaptre les technques utlsées pour l évaluaton des SRI. Le second chaptre s ntéresse aux modèles de Recherche d Informaton (RI). Nous étudons les modèles les plus connus de la RI. Nous nous ntéressons partculèrement au sens de la pertnence donné par ces modèles. Nous nous sommes focalsés sur les approches proposées par ces modèles pour modélser la requête utlsateur et les documents. Ces modèles sont dscutés tout en dentfant leurs avantages et nconvénents dans la perspectves d ntrodure des modèles capables de paller ces lmtes. Dans ce cadre, nous présentons dans le trosème chaptre une étude comparatve entre les modèles de la RI à base de Réseaux Bayésens (RBs) et ceux à base de Réseaux Possblstes. Nous commençons par rappeler les défntons des Réseaux Bayésens et leur utlté. Nous décrvons ensute l utlsaton des RBs dans la RI. Nous présentons les Réseaux Possblstes ans que leur applcaton dans un cadre quanttatf de RI. Nous clôturons ce chaptre par un blan comparatf de ces deux approches dont nous nous sommes nsprés de modèle. Sute aux lmtes des systèmes exstants dentfés dans les chaptres précédents, nous proposons dans un quatrème chaptre un modèle d un SRI à base de Réseaux Petts Mondes Hérarchques (RPMH) et de Réseaux Possblstes (RP). Un premer RPMH pour les mots du dctonnare franças «Le Grand Robert» est utlsé pour dégager les proxmtés entre les mots de la langue françase. Le second RPMH est consacré aux pages Web recherchées et tradut de même les proxmtés entre ces pages. En fat, le modèle proposé détent son orgnalté du fat qu l propose une nouvelle modélsaton de la requête à base d une reformulaton sémantque ans qu une nouvelle modélsaton des documents permettant une classfcaton à base des «petts mondes». Les RP combnent les deux RPMH afn de proposer une nouvelle approche possblste qualtatve pour la RI. Cette approche défne d une nouvelle manère les deux notons de base dans un SRI : la pertnence et le profl. Dans le cnquème chaptre nous proposons de mettre en place les dfférentes composantes du modèle proposé dans une archtecture, baptsée : Système mult-agent de Recherche Intellgente POssblste de Documents Web (SARIPOD). Dans cette archtecture, nous chosssons de mettre en place des modules qu sont dédés à des tâches dfférentes qu sont complémentares pour certanes et concurrentes pour d autres. Par alleurs, certanes tâches sont coordonnées en parallèle et d autres sont séquentelles. Une spécfcaton complète du système SARIPOD qu décrt les dfférents composants de son archtecture est présentée. Enfn, une concepton orentée-objet UML de ce système est exposée. Fnalement, le sxème chaptre concerne l mplantaton nformatque du système SARIPOD. Nous proposons un ensemble d agents coopératfs assurant le parallèlsme de tratement exgé par le système. Ensute, les outls de sa réalsaton sont présentés avec des extrats de résultats d expérmentatons. En guse de concluson, nous dressons un blan de nos travaux, en mettant en exergue nos propostons, nous fnssons par la proposton de nombreuses perspectves possbles à ces travaux. 12

21 Premère Parte : Etat de l art sur la Recherche d Informaton Premère Parte : Etat de l art sur la Recherche d Informaton 13

22 Chaptre 1 : Les Systèmes de Recherche d Informaton Chaptre 1 Les Systèmes de Recherche d Informaton Un Système de Recherche d'informaton (SRI) est un système qu permet de retrouver les documents pertnents à une requête d'utlsateur, à partr d'une base de documents volumneuse. Le processus de recherche d nformaton pertnente que le SRI est sensé resttuer à un utlsateur, consste en la mse en correspondance des représentatons des nformatons contenues dans un fond documentare et des besons de cet utlsateur exprmés par une requête. En fat, l objectf de l utlsateur est de compléter son état de connassance par l acquston d nformatons contenues dans des documents pertnents. Dans la défnton d un SRI, l y a tros notons clés: documents, requête et pertnence. En effet, un document peut être un texte, un morceau de texte, une page Web, une mage, une bande vdéo, etc. On appelle document toute unté qu peut consttuer une réponse à une requête d'utlsateur. Une requête exprme une nterprétaton du beson d'nformaton d'un utlsateur. Le but de la RI est de trouver seulement les documents pertnents. La noton de pertnence est très complexe. De façon générale, dans un document pertnent, l'utlsateur dot pouvor trouver les nformatons dont l a beson. C'est sur cette noton de pertnence que le système dot juger s un document dot être donné à l'utlsateur comme réponse. Cette noton de pertnence peut être appréhendée à deux nveaux : Au nveau utlsateur, ce derner a un beson d'nformaton dans sa tête, et l espère obtenr les documents pertnents pour répondre à ce beson. La relaton entre le beson d'nformaton et les documents attendus est la relaton de pertnence (déale, absolue, ). Au nveau système, ce derner répond à la requête formulée par l'utlsateur par un ensemble de documents trouvés dans la base de documents qu'l possède [Cleverdon, 1960] [Cleverdon, 1970] [Cleverdon, 1977]. Nous nous ntéressons partculèrement dans cette thèse à la pertnence utlsateur que nous désgnerons par pertnence. Les modèles de RI défns dans la lttérature (détallés dans la sute de cette thèse) mesurent cette pertnence comme un score, cherchant à évaluer la pertnence des documents vs-à-vs d une requête. Cette pertnence est mesurée par une smlarté de représentaton document requête (modèle vectorel), une probablté de pertnence des documents étant donnée une requête (modèle probablste). D autre part, la requête formulée par l'utlsateur n'est qu'une descrpton partelle de son beson d'nformaton. Beaucoup d'études ont montré qu'l est très dffcle, vore mpossble, de formuler une requête qu décrt complètement et précsément un beson d'nformaton. Du côté de document, l y a auss un changement entre les deux nveaux: les documents que l'on peut retrouver sont seulement les documents nclus dans la collecton de documents. On ne peut souvent pas trouver des documents parfatement pertnents à un beson. Il arrve souvent qu'aucun document pertnent n'exste dans la collecton. Nous détallons dans la premère secton de ce chaptre les composants d un système de recherche d nformaton. Nous présentons dans la deuxème secton l utlsateur, son beson en nformaton, son profl et sa requête. Dans la trosème secton, nous nous ntéressons à la phase d analyse et d ndexaton des documents et des requêtes. La noton de pertnence est présentée dans la quatrème secton. La phase d une évaluaton d un SRI fera l objet de la cnquème secton. Dans la dernère secton, nous mettons l accent sur la phase de reformulaton de la requête. 14

23 Chaptre 1 : Les Systèmes de Recherche d Informaton 1. Les composants d un SRI Un système de Recherche d Informaton est composé de dfférents acteurs tels que : la requête ou beson d nformaton d un utlsateur, le corpus documentare, ans que les dfférents étapes qu permettent d aboutr à résultat répondant au beson de l utlsateur. Ces étapes sont : l analyse et l ndexaton, les modélsatons de la requête et des documents, la mse en correspondance entre ces deux modèles (de requête et des documents) et l évaluaton et la rétroacton (vor fgure 1.1). Besons en nformaton Préférences Utlsateur Requête Corpus Documentares Analyse et ndexaton Modèle de Requête Modèle de Documents Apparement Rétroacton Documents pertnents Evaluaton Fgure 1.1 : Les composants d un Système de Recherche d Informaton Nous détallons dans la sute ces dfférents acteurs et étapes d un SRI. 2. Utlsateur, beson d nformaton, profl et requête Dans les années 1980, le paradgme de la recherche d nformaton a commencé à s élargr pour nclure les utlsateurs et leur ntéracton avec le système. Il s agt de paradgme cogntf orenté-utlsateur ntrodut par [Ingwersen, 1992]. Les systèmes d nformaton sont alors consdérés comme des systèmes de communcaton entre un producteur d nformaton (l auteur) et un utlsateur, le système nformatque ayant pour objectf de faclter cette communcaton. Pour satsfare au meux l utlsateur, l est essentel de comprendre ses mécansmes cogntfs. Il est donc essentel de le modélser. Dans la majorté des travaux qu se sont ntéressés à l utlsateur et sa modélsaton dans un processus de recherche d nformaton on ntrodut le terme usager pour dre utlsateur. En fat, les travaux lés à la RI modélsent le comportement de l usager, mas ne permettent pas une compréhenson de son système cogntf (domane de la psychologe cogntve). Selon [Danels, 1986], deux classes de modèles d usagers ont été proposées : 15

24 Chaptre 1 : Les Systèmes de Recherche d Informaton Les modèles analytques qu modélsent le comportement nterne de l usager : connassances, processus cogntf, etc. Les modèles quanttatfs et emprques qu modélsent le comportement externe de l usager. Ces modèles ont été classés suvant tros dmensons : Le modèle canonque opposé à une collecton de modèles d utlsateurs ndvduels. Le modèle explcte construt par l utlsateur ou le concepteur du système qu on oppose au modèle mplcte construt par l ordnateur sur la base du comportement de l utlsateur. Le modèle basé sur des caractérstques persstantes (à long terme) à l opposé du modèle basé sur des caractérstques ponctuelles (à court terme). [Danels, 1986] propose de modélser l utlsateur avec les paramètres suvants : USER : correspond au statut de l usager. UGOAL : correspond aux buts de l usager (ses préférences ou stratéges de recherche). KNOW : défnt le nveau d expertse ou le degré de connasssance de l utlsateur dans le domane. IRS : défnt la famlarté de l usager avec les systèmes documentares. BACK : correspond à l expérence de l usager vs-à-vs du système concerné. Ces dfférents éléments peuvent être regroupés dans un profl utlsateur. Ils appartennent au système cogntf de l utlsateur et permettent d effectuer un fltrage ntal sur les documents et de chosr des présentatons personnalsées, adaptées au profl. Selon [Cluzeau-Cry, 1988], quatre catégores de demande ou stratéges de recherche ont été proposées : Une demande précse exprmée lorsque l utlsateur sat exactement ce qu l cherche. Une demande thématque utlsée lorsque l utlsateur cherche à explorer le corpus sur un thème partculer. Une demande connotatve exprmée dans le contexte de la recherche d mage par l expresson d un vsage par exemple, par métaphore dans le contexte de la recherche textuelle. Une demande exploratore défnt quand l utlsateur veut se fare une dée du contenu du corpus ; et c est après une consultaton préalable que seront défns plus précsément ses besons. 2.1 Requête en RI Une requête désgne une nterrogaton d'une base d nformatons, portant sur les éléments qu'elle content. Une requête peut être exprmée de dfférentes manères : - En langage naturel en utlsant des mots non-contrôlés ; - En utlsant des phrases courtes en langage naturel ; - Sous forme de textes ou de documents en langage naturel. On qualfe cec par la requête par l exemple ou par smlarté (QBE : Query By Example) ; 16

25 Chaptre 1 : Les Systèmes de Recherche d Informaton - Sous forme de grlle ou formulare sur les champs de catalogag 1 ou plus généralement sur des champs ssus d une structure logque. En recherche d nformaton, deux types de requêtes ont été utlsés : une requête vectorelle exprmée à travers des termes pondérés et une requête booléenne exprmée va des termes connectés par des opérateurs booléens. Ces deux types des requêtes seront détallés dans le chaptre suvant. D autre part, vue que les requêtes sont parfos complexes, l est consellé de les sauvegarder pour des réutlsatons ultéreures. [Kammoun-Bouzaïene, 2006] a ntrodut donc en plus du profl utlsateur le profl de requêtes. Cette dernère perspectve est applquée dans le domane de la dffuson sélectve de l nformaton ou la dffuson cblée. En fat, les profls de requêtes seront utlsés pour scruter systématquement et en temps réel les nouvelles nformatons entrées dans la base pour les dffuser aux utlsateurs concernés. De notre part, nous proposons un SRI qu tent compte des requêtes déjà joué par le système. En effet, l enregstrement de ces requêtes ans que leurs réponses retournées par le système dans une base d hstorque servra d avantage pour des réutlsatons ultéreures. Nous détallons le processus de geston de l hstorque dans le système SARIPOD dans le chaptre Représentaton des résulats de requêtes La majorté des SRI permettent de resttuer les documents en les classant par ordre de pertnence décrossante par rapport à la requête. Cec permet aux utlsateurs de ne s ntéresser qu à ceux qu ont un score de pertnence supéreur à un certan seul. La noton de pertnence d un document vs-à-vs une requête sera détallée dans la secton 4 de ce chaptre. Cette resttuton des documents par rapport à une requête peut se fare sous pluseurs formes : - Sot en proposant des résumés automatques du document resttué, dont la talle est varable. Ces résumés sont construts en attrbuant une mportance aux phrases qu contennent les termes de la requête afn qu ls soent adaptés aux sujets de recherche de chaque utlsateur [Tombros et Sanderson, 1998]. - Sot sous forme d une lste de ttres ou de passages qu contennent les termes de la requête mas qu l n est pas envsageable de présenter le document dans son ntégralté sauf s l est suffsamment court. Dans d autres systèmes, plutôt que d nterroger le SRI par le bas d une requête exprmée de l une des manères décrtes c-dessus, l ntérrogaton est basée sur la vsualsaton globale de l ensemble des documents du corpus et sur des outls qu permettent d exploter cet ensemble en utlsant notamment une approche classfcatore, ou encore la navgaton à travers une carte explctant ces classes et les dfférentes relatons qu peuvent les lers. D autre modalté de resttuton se fat sous forme graphque : - Sot par une représentaton graphque globale, ssue généralement des méthodes de classfcaton et partculèrement des cartes auto-organsatrces de Kohonen. Parm ces systèmes ctons : NEURODOC [Lelu et Franços, 1992], WEBSOM [Kohonen et al., 1996], MULTISOM [Lamrel, 1995] [Franços et al., 2003]. 1 Le catalogage correspond à l dentfcaton des références de chaque document (nom d auteurs, ttre, édteur, nom de revue, date, etc.) et à la sase dans une notce documentare ou FID (Fche d Identfcaton du Document). Pour un lvre on parle de fche ou de notce bblographque. La structuraton se fat habtuellement en utlsant les normes MARC (Machne Readable Catalogng) et UNIMARC (UNIversal MARC). 17

26 Chaptre 1 : Les Systèmes de Recherche d Informaton - Sot par une représentaton graphque ndvduelle permettant de représenter les documents et éventuellement les lens qu exstent entre eux. Cette méthode est peu ntéressante quand la talle du corpus augmente. Parm ces systèmes ctons : AIR [Belew, 1989], WWWD [Snowdon et al., 1996], TETRALOGIE [Mothe et Dkak, 1998]. Cette dversté dans la manère de présenter les résultats des requêtes permet aux utlsateurs : - de donner une aperçu sur le contenu de documents afn d évter un accès drect ; - de repérer les documents pertnents en montrant dans quel contexte sont utlsés les termes présents dans la requête. 3. Analyse et ndexaton des documents et des requêtes L'objectf de l'analyse et de l'ndexaton est de d'abord trouver des concepts les plus mportants dans le document, et de créer une représentaton nterne en utlsant ces concepts (ntensons). Pour trouver des concepts, l est nécessare de procéder une analyse sémantque pour détermner ce qu est un concept dans un texte. Cette analyse n'est pas dsponble pour la RI. Les technques exstantes sont souvent restrentes à un domane très spécalsé, et l'analyse est très complexe. Ans, en pratque, on cherche plutôt des représentants (nstances ou extensons) des concepts. Ces représentants peuvent être de forme dfférentes: des mots smples, des termes (éventuellement composés), ou des doublets de mots (groupes de deux mots). En fat, le chox de représentants dépend de deux crtères essentellement: la faclté de tratement; la précson de représentaton de sens. Étant donné le grand nombre de documents à trater, l est nécessare que le tratement pour la reconnassance des représentants sot plus fasable. Cependant, les représentants trouvés dovent permettre à décrre le contenu (la sémantque) du document et de la requête de façon assez précse. L'dée d'utlser des mots comme des représentants de concepts est assez naturelle. En effet, les mots sont des untés lngustques qu sont les plus facles à reconnaître, et qu'elles sont assez porteuses de sens. Ce sont ces untés qu'on utlse le plus souvent dans les systèmes actuels. Cependant, les mots ne donnent pas une descrpton toujours très précse. Par exemple, le concept de "recherche d'nformaton", une fos représenté par les mots "recherche" et "nformaton", perd beaucoup de sens, car les mots "recherche" et "nformaton" sont très courants en franças, et ls sont des sens très mprécs. Ans, les chercheurs ont auss proposé des approches vsant à regrouper des mots pour former des termes composés. Ces approches utlsent sot une analyse syntaxque et/ou statstque, sot un dctonnare de termes composés, sot une termnologe (vocabulare contrôlé, taxonomes, thésaurus), sot une ontologe (modèle de représentaton des connassances). Nous allons consdérer des mots comme des représentants de concept. Ces représentants sont auss appelés des ndex, en rapport avec leur rôle qu'ls joueront dans la recherche. 3.1 Approche basée sur la fréquence d'occurrences L'objectf c est de trouver les mots qu représentent le meux le contenu d'un document. On admet généralement qu'un mot qu apparaît souvent dans un texte représente un concept mportant. Ans, la premère approche consste à chosr les mots représentants selon leur 18

27 Chaptre 1 : Les Systèmes de Recherche d Informaton fréquence d'occurrence. La façon la plus smple consste à défnr un seul sur la fréquence : s la fréquence d'occurrence d'un mot dépasse ce seul, alors l est consdéré mportant pour le document. Cependant, les statstques des occurrences montrent que les mots les plus fréquents sont des mots fonctonnels (ou mots outls, mots vdes). En franças, les mots "de", "un", "les", etc. sont les plus fréquents. En anglas, ce sont "of", "the", etc. Ce phénomène n'est pas étrange s on connaît la lo de Zpf [Zpf, 1949] qu stpule que : «S on classe les mots dans l'ordre décrossant de leur fréquence, et on leur donne un numéro de rang (1, 2, ), alors : Rang * fréquence constante». Voyons un exemple en anglas : Rang Mot Fréquence Rang* Fréquence 1 the of and to a n that Tableau 1.1 : Exemple de calcul de la fréquence d'occurrences Il devent évdent que nous ne pouvons pas garder tous les mots les plus fréquents comme des ndex d un document. En restant dans la même lgnée, un autre seul maxmal a été défn. En effet, s la fréquence d'un mot dans le document dépasse ce seul, alors l n'est pas consdéré comme ndex de ce document. L'utlsaton de ces deux seuls correspond à ce qu'on crot sur l'nformatvté de mot. L'nformatvté mesure la quantté de sens qu'un mot porte. Cette noton n'est pas défne très précsément dans la RI. Elle est utlsée seulement de façon ntutve. Cependant, on peut trouver son équvalent dans la théore de l'nformaton (par exemple, la théore de Shannon, ou l'entrope) La correspondance entre l'nformatvté et la fréquence est llustrée dans la fgure 1.2: Fgure 1.2 : La correspondance entre l'nformatvté et la fréquence 19

28 Chaptre 1 : Les Systèmes de Recherche d Informaton Ans, en chosssant les mots qu ont des fréquences entre les deux seuls, on espère obtenr les mots dont l'nformatvté est la plus élevée. 3.2 Approche basée sur la valeur de dscrmnaton Par "dscrmnaton", on se réfère au fat qu'un terme dstngue ben un document des autres documents. C'est-à-dre, un terme qu a une valeur de dscrmnaton élevée dot être apparaître seulement dans un pett nombre de documents. Un terme qu apparaît dans tous les documents n'est pas dscrmnant. Le pouvor de dscrmnaton d'un terme est mportant dans le chox de termes ndex qu'on veut garder. L'dée est de garder seulement les termes dscrmnants, et élmner ceux qu ne le sont pas. Le calcul de la valeur de dscrmnaton a été développé dans le modèle vectorel. Ans, nous nous stuons dans ce modèle. Une descrpton plus détallée du modèle sera donnée dans le prochan chaptre. Dans le modèle vectorel, chaque document est représenté par un vecteur de pods comme sut: t 1 t 2 t 3... t n d <p 1 p 2 p 3... p n >, Où p j est le pods du terme t j dans le document d. Étant donné un corpus (un ensemble de documents), on a donc une matrce. Pour calculer la valeur de dscrmnaton d'un terme, on dot comparer une sorte d'unformté au sen du corpus avec celle du corpus transformé dans lequel le terme en queston a été unformsé (ms au même pods). L'dée est que, s on unformsant le pods d'un terme dans tous les documents, on obtent une grande améloraton dans l'unformté du corpus, ce terme état donc très dfférent (non unformément dstrbué) dans dfférents documents. Il a donc une grande valeur de dscrmnaton. En revanche, s en unformsant le pods du terme, on n'obtent pas beaucoup d'améloraton sur l'unformté, ce terme état donc déjà dstrbué de façon unforme, donc peu dscrmnant. Le calcul de la valeur de dscrmnaton d'un terme se fat comme sut: 1. On calcule d'abord le vecteur centroïde (ou le vecteur moyen) du corpus comme sut: Pour chaque terme, son pods dans le vecteur centroïde V est le pods moyen de ses pods dans les documents. C'est-à-dre: p j = p j / N (1.1) où N est le nombre de documents dans le corpus. 2. On calcule l'unformté du corpus comme la smlarté moyenne des documents avec le centroïde: U 1 = C * j Sm(d, V) (1.2) où C est une constante de normalsaton (par exemple 1/N), et Sm(d, V) est la smlarté entre le document d et le vecteur centroïde V. Ic, Sm dot être une formule normalsée qu donne une valeur dans [0,1] (vor la descrpton sur le modèle vectorel dans le chaptre suvant). 3. On unformse le pods du terme en queston à 0, et on répète les deux étapes c-dessus pour obtenr une nouvelle valeur d'unformté U La valeur de dscrmnaton du terme est : 20

29 Chaptre 1 : Les Systèmes de Recherche d Informaton V = U 2 - U 1. (1.3) Dans ce calcul de la dscrmnaton, on ne préoccupe pas beaucoup de la fréquence d'un terme dans un document partculer, mas beaucoup plus à sa dstrbuton dans le corpus. En utlsant la valeur de dscrmnaton, on peut élmner les mots fonctonnels comme "de", "à", etc. qu apparassent dans tous les documents en langue françase. 3.3 Approche basée sur tf x df Le nom tf x df est très connu dans le mleu de la RI. Cela désgne un ensemble de schémas de pondératon (et de sélecton) de termes. tf sgnfe "term frequency" et df "nverted document frequency". Par tf, on désgne une mesure qu a rapport à l'mportance d'un terme pour un document. En général, cette valeur est détermnée par la fréquence du terme dans le document. Par df, on mesure s le terme est dscrmnant (ou non-unformément dstrbué). Ic, on donne quelques formules de tf et d'df souvent utlsées. 1. tf = fréquence d'occurrence du terme dans un document f(t, d); tf = f(t,d) / Max[f(t, d)] où Max[f(t,d)] est la fréquence maxmale des termes dans d; tf = log(f(t, d)) ; tf = log(f(t, d) + 1) ; 2. df = log(n/n) où N est le nombre de documents dans le corpus, et n ceux qu content le terme. 3. Fnalement, on peut auss mposer certane normalsaton sur les valeurs calculées. Une formule de tf x df est donc la multplcaton d'une tf par une df. Par exemple: tf x df = [f(t, d) / Max[f(t, d)]] * log(n/n) Une formule tf x df combne les deux crtères c-dessus : 1. L'mportance du terme pour un document (par tf), 2. Le pouvor de dscrmnaton de ce terme (par df). Ans, un terme qu a une valeur de tf x df élevée dot être à la fos mportant dans ce document, et auss l dot apparaître peu dans les autres documents. C'est le cas où un terme correspond à une caractérstque mportante et unque d'un document. Avec une telle formule, on peut donc chosr à garder seulement les termes dont la valeur de tf x df dépasse certan seul. 3.4 La pondératon de termes La pondératon qu'un terme possède peut auss être de dverses natures. Elle peut être smplement la fréquence d'occurrence, ou ben une mesure dérvant de cette fréquence (par exemple, normalsée). Elle peut être également une formule de tf x df. Des comparasons ont montré qu'en utlsant seulement la fréquence d'occurrence ne donne pas une performance satsfasante (même s on élmne les mots fonctonnels d'une certane façon). En général, les formules de tf x df donnent de melleures performances. En réalté, s on utlse la valeur de tf x df pour fltrer les termes ndex, on peut utlser la même valeur de tf x df comme la pondératon de terme. C'est de cette manère qu'on procède généralement. Donc, le fltrage et la pondératon ne sont pas deux processus nécessarement séparés. 21

30 Chaptre 1 : Les Systèmes de Recherche d Informaton 3.5 Fltrage des mots fonctonnels Certans mots fonctonnels, comme le mot "auparavant", "ès", etc. n'apparassent pas très souvent dans des textes. Par le calcul de valeur de dscrmnaton ou par l'utlsaton de df, on n'arrve pas nécessarement à les élmner. Or, on ne veut pas les garder comme ndex parce qu'ls sont vdes de sens. Afn d'élmner ces mots de force, on utlse une lste, appelée stoplst (ou parfos antdctonnare) qu content tous les mots qu'on ne veut pas garder. Ces mots sont souvent des prépostons (e.g. "de", "à"), prénom ("aucun", "tout", "on"), certans adverbes ("alleurs", "mantenant"), adjectfs ("certan", "possble"), etc. Certans mots nclus dans cette lste ne sont pas nécessarement vdes de sens (ça dépend du domane. Ils ne sont pas vdes de sens en lngustques). Mas leur sens mporte très peu pour des besons de RI. La lste utlsée dans un système peut auss varer. Cela dépend su domane d'applcaton. Par exemple, le mot "artcle" est nclus dans certans systèmes comme mot vde parce qu'on reçot beaucoup de requête d'utlsateur qu content le mot "paper", comme "des paper sur l'nformatques". Cependant, ce mot peut être très sgnfcatf dans certanes applcatons (par exemple, pour une base de documents en papetere). Le tratement lé à une stoplst est très smple. Quand on rencontre un mot dans un texte, on dot d'abord examner s'l apparaît dans cette lste. S ou, on ne le consdère pas comme un ndex. 3.6 Lemmatsaton Nous remarquons que pluseurs mots ont des formes légèrement dfférentes, mas leur sens restent le même ou très smlare. C'est notamment le cas des mots conjugués. Par exemple, les mots transformer, transforme, transforment, transformaton, transformateur, ont des sens très smlares. La dfférence de forme entre ces mots n'est pas utle à consdérer pour la RI. Au contrare, on voudrat trouver des documents sur "transformaton" à partr d'une requête sur "transformer". Ans, l faut élmner ces dfférences non-sgnfcatces, c'est-à-dre de ramener ces mots à une forme dentque. Ces mots ont la même racne (lemme). Ans, on arrve à élmner les termnasons de mots, et garder seulement la racne, on a donc une forme dentque pour eux. C'est l'dée qu condut à utlser la lemmatsaton. Il exste pluseurs façons de lemmatser des mots. 1. Une premère façon consste à examner seulement la forme de mot, et selon la forme, on essae de dédure ce qu est la racne. C'est cette approche que Porter utlse dans [Porter, 1980]. En effet, cet algorthme élmne les termnasons de mot en anglas en 5 grandes étapes: la premère étape essae de transformer le plurel en snguler. Les étapes subséquentes essaent d'élmner au fur et à mesure les dérvatons (e.g. -ness qu'on ajoute derrère certans adjectfs (happness), -able ajouté derrère un verbe (adjustable)). Cet algorthme transforme parfos deux mots dfférents en une même forme. Par exemple en anglas, dervate/derve, actvate/actve. Cependant, pour la plupart, la transformaton semble rasonnable. 22

31 Chaptre 1 : Les Systèmes de Recherche d Informaton Porter a comparé son algorthme avec un autre dsponble à l'époque qu utlsat un algorthme beaucoup plus complqué. Il s'est avéré que cet algorthme smple fonctonne meux pour la RI. Mantenant, cet algorthme est consdéré comme un algorthme classque. La plupart de procédures de lemmatsaton l'utlse, ou utlse une varante. 2. On peut auss utlser un dctonnare dans la lemmatsaton. Pour savor s une séquence de lettres à la fn correspond à une termnason d un mot, l sufft de fare une élmnaton ou une transformaton tentatve, et de vor s la forme obtenue exste dans le dctonnare. Snon, ce n'est pas une termnason correcte, et d'autres possbltés sont ensute envsagées. Par exemple, on peut accepter la règle qu remplace -aton par -er. Par exemple, transform-aton, élmn-aton, etc. Cependant, pour "vocaton", s on applque cette règle, on obtendra "vocer". Ce n'est pas une transformaton correcte. Pour évter cela, on peut vérfer dans le dctonnare s le mot "vocer" exste. Snon, on ne le transforme pas. Cette approche a été utlsée pour le franças dans [Savoy, 1993]. L'utlsaton d'un dctonnare ajoute certans avantages, mas elle est au prx de dsposer d'un dctonnare. La plupart de systèmes de RI n en dsposent pas, et un tel dctonnare électronque n état pas encore peu accessble. 3. Une lemmatsaton correcte requèrt souvent une reconnassance correcte de catégore grammatcale. Ans, on peut penser à utlser un taggeur (ou un analyseur de catégore) automatque dans un processus de lemmatsaton. Pluseurs méthodes de taggages ont été proposées. Une des approches possbles est de détermner la catégore d'un mot de façon probablste. Pour cela, l faut d'abord qu'on entraîne un modèle probablste en utlsant un ensemble de textes catégorsés manuellement (le corpus d'entraînement). Ce modèle détermne la probablté d'un mot d'être dans une catégore selon sa forme, et selon les mots qu l'entourent. Avec ce mécansme de reconnassance de catégore, on peut se permettre de transformer une forme de mot en une forme standard - la forme de ctaton (par exemple, nom snguler, adjectf masculn snguler), au leu de couper smplement la termnason. 3.7 L'approche basée sur une ndexaton Durant l'ndexaton, on dot transformer les mots (lemmatsaton), sélectonner un ensemble d'ndex et les quantfer. Le résultat d'une ndexaton est donc un ensemble de termes qu peut être consttué sot d un mot, sot d une racne de mot, sot d un terme composé s on possède un mécansme pour reconnaître des termes composés. d { (t, p ), }, où t est un terme, et p est son pods. Cet ensemble de termes pondérés sera utlsé pour consttuer une représentaton du contenu du document. En fat, l organsaton de ces termes en une représentaton dépend du modèle de RI utlsé. Ans, dans dfférents modèles, le même ensemble de termes aura une sgnfcaton dfférente. Une requête peut être mantenant une expresson plus complexe, ncluant des opérateurs logques (ET, OU, ) ou d'autres types d'opérateurs. L'évaluaton est compostonnelle, c'està-dre, on commence par évaluer les éléments de base (par exemple, des mots) dans la requête, obtenant ans des lstes de documents; ensute, on combne ces lstes selon l'opérateur qu rele ces éléments pour obtenr fnalement une seule lste de documents. 23

32 Chaptre 1 : Les Systèmes de Recherche d Informaton En fat, cette approche possède les avantages suvants : Elle est plus rapde. En effet, on n'a plus beson de parcours séquentel. Avec la structure d'ndex, on peut drectement savor quels documents contennent tel ou tel mot. L'expresson des requêtes peut être très complexe, exprmant des besons d'nformaton complexes. Le prx à payer pour ces avantages est le beson de l'espace de stockage supplémentare pour la structure d'ndex. En général, cet espace correspond à 40% à 200% de la talle de collecton de documents, selon la complexté de l'ndexaton. Mas ce beson d'espace pose de mons en mons de problème mantenant. Utlsant cette approche, on peut vor les opératons et l'envronnement de la RI comme l ndque la fgure 1.3 : Utlsateur Beson d nformaton Documents pertnents Pertnence de l utlsateur Requête Pertnence du Système Base de documents Représentaton Apparement / Matchng Représentaton Fgure 1.3 : Opératons et envronnement de la RI Nous dstnguons tros nveaux dfférents : () Le nveau utlsateur: A ce nveau, l'utlsateur a un beson d'nformaton dans sa tête, et l espère obtenr les documents pertnents pour répondre à ce beson. La relaton entre le beson d'nformaton et les documents attendus est la relaton de pertnence (déale, absolue, ). () Le nveau système: A ce nveau, le système répond à la requête formulée par l'utlsateur par un ensemble de documents trouvés dans la base de documents qu'l possède. En fat, la requête formulée par l'utlsateur n'est qu'une descrpton partelle de son beson d'nformaton. Beaucoup d'études ont montré qu'l est très dffcle, vore mpossble, de formuler une requête qu décrt complètement et précsément un beson d'nformaton. Du côté de document, l y a auss un changement entre les deux nveau: les documents qu'on peut retrouver sont seulement les documents nclus dans la base de documents. On ne peut souvent pas trouver des documents parfatement pertnents à un beson. Il arrve souvent qu'aucun document pertnent n'exste dans la base. () Le nveau nterne du système: La requête formulée par l'utlsateur (souvent en langue naturelle) ne peut pas se comparer drectement avec des documents en langue naturelle eux auss. Il faut donc créer des représentatons nternes pour la requête et pour les documents. Ces représentatons dovent être manpulables par l'ordnateur. Le processus de créaton de ces représentatons est appelé l'ndexaton. Il est auss à noter que les représentatons créées ne reflètent qu'une parte des contenus de la requête et des documents. La technologe de nos jours ne permet pas encore de créer une représentaton complète. 24

33 Chaptre 1 : Les Systèmes de Recherche d Informaton Pour détermner s la représentaton d'un document correspond à celle de la requête, on dot développer un processus d'évaluaton. Dfférentes méthodes d'évaluaton ont été développées, en relaton avec la représentaton de documents et de requête. C'est cet ensemble de représentaton et la méthode d'évaluaton qu'on appelle un modèle de RI. Par alleurs, nous remarquons qu'l y a des dfférences entre deux nveaux dfférents. En ce qu concerne le beson d'nformaton, l est transformé en une requête, pus en une représentaton de cette dernère aux nveaux nféreurs. Du côté document, l y a des changements smlares. Les relatons que nous pouvons détermner à chaque nveau ne sont pas parelles non plus. En fat, l objectf ultme espèré est qu'un bon système de RI pusse aboutr à une bonne correspondance (Apparement / Matchng) qu reflète ben la pertnence du système, laquelle, correspond ben au jugement de pertnence de l'utlsateur. Cependant, étant donné la dfférence entre les nveaux, l y a nécessarement une dégradaton. Ans, une autre tâche de la RI est d'évaluer un système de RI une fos construt. Cette évaluaton du système tente de mesurer l'écart entre les nveaux (surtout entre le nveau système et le nveau nterne du système). 4. Noton de pertnence Pertnence est la noton centrale dans la RI car toutes les évaluatons s'artculent autour de cette noton. Mas c'est auss la noton la plus mal connue, malgré de nombreuses études portant sur cette noton. Voyons quelques défntons de la pertnence pour avor une dée de la dvergence. En effet, la pertnence est: la correspondance entre un document et une requête, une mesure d'nformatvté du document à la requête; un degré de relaton (chevauchement, relatvté, ) entre le document et la requête; un degré de surprse qu'apporte un document, qu a un rapport avec le beson de l'utlsateur; une mesure d'utlté du document pour l'utlsateur. Même dans ces défntons, les notons utlsées (nformatvté, relatvté, surprse, ) restent très vaques parce que les utlsateurs d'un système de RI ont des besons très varés. Ils ont auss des crtères très dfférents pour juger s un document est pertnent. Donc, la noton de pertnence est utlsée pour recouvrr un très vaste évental des crtères et des relatons. Par exemple, un utlsateur qu a formulé la requête sur "système expert" peut être satsfat par un document décrvant toutes les technques utlsées dans "MYCIN" qu est un exemple typque de système expert. Cependant, un deuxème utlsateur peut juger ce même document non pertnent car l cherche plutôt une descrpton non technque. Dans les deux stuatons, la relaton entre le document et la requête est appelée "pertnence". De nombreux travaux ont été menés sur cette noton. En effet, la pertnence n'est pas une relaton solée entre un document et une requête. Elle fat appel auss au contexte de jugement. Ans, Tefko Saracevc [Saracevc, 1970] propose la défnton suvante pour tenr compte de cette nfluence multple du contexte sur la pertnence : «La pertnence est la A d'un B exstant entre un C et un D jugé par un E, où : A = ntervalle de la mesure ; B = aspect de la pertnence (la pertnence absolue) ; C = un document ; D = contexte dans lequel la pertnence est mesurée (y comprs le beson d'nformaton) ; E = le juge (l'utlsateur)». 25

34 Chaptre 1 : Les Systèmes de Recherche d Informaton Il reconnaît déjà l'mportance du contexte sur la pertnence, ans que l'utlsateur lu-même. S on vare ces facteurs, la noton de pertnence change auss. Selon [Schamber et al., 1990] la pertnence est foncton de la qualté d nformaton, elle est toujours lée à un utlsateur alors que la quantté d nformaton ne l est pas. Ces auteurs ont défn la pertnence de la manère suvante : «La pertnence est un concept dynamque qu dépend du jugement de l utlsateur sur la proxmté de l nformaton lue et celle qu est nécessare. La pertnence est un concept mesurable». Pour tenr compte de cette nfluence multple, ces auteurs ont décomposé la problématque de pertnence selon les tros axes suvants : Le comportement regroupe la descrpton et l analyse du comportement de l utlsateur : le contenu, la descrpton du document, le savor de l utlsateur, la manère de formuler sa requête et la possblté d nteractvté en partculer la possblté de reformuler sa requête ; La mesure concerne l étape de constructon de mesure et partculèrement le jugement de valeur par l utlsateur : la dchotome (ou/non), la grlle de collecte selon une échelle de valeurs prédéfnes ou la note lbre ; La termnologe concerne la défnton du concept de pertnence. Par alleurs, Mzzaro [Mzzaro, 1997] propose un modèle élaboré à partr de son étude récaptulatve des dfférents aspects de la pertnence, l recense et classfe un ensemble de lens. Il défnt la pertnence comme une relaton entre deux enttés de deux groupes. D un coté, on trouve le document, la descrpton et l nformaton, et d un autre, on trouve le problème, le beson d nformaton, la queston et la requête. Les enttés mentonnées peuvent être décomposées selon tros composantes : Le sujet qu correspond au sujet qu ntéresse l utlsateur, La tâche qu correspond à l actvté pour laquelle l utlsateur effectue sa recherche, Le contexte qu correspond à n mporte quelle autre composante affectant la manère d effectuer la recherche et l évaluaton. La pertnence selon le même auteur peut être perçue comme un pont dans un espace à quatre dmensons : 1. La premère dmenson est relatve au document, sa descrpton et à l nformaton ; 2. La deuxème comporte le problème, le beson d nformaton, la queston et la requête ; 3. La trosème comporte le sujet, la tâche, le contexte et toute combnason possble entre eux ; 4. La quatrème correspond au temps qu s écoule entre l apparton du problème et l obtenton de la soluton. Les dfférents types de pertnences sont représentés dans la Fgure

35 Chaptre 1 : Les Systèmes de Recherche d Informaton Fgure 1.4 : Ordre partel de pertnence Chaque lgne jognant les objets correspond à une pertnence. La trosème dmenson est représentée par les nveaux de grs utlsés. La dmenson temps n est pas représentée pour smplfer le schéma. Les flèches représentent dans quelle mesure une pertnence est proche de la pertnence de l nformaton reçue au problème de l utlsateur et dans quelle mesure l est dffcle de la mesurer. Par alleurs, la queston qu'on peut se poser est : à quo sert d'étuder la noton de pertnence s on sat qu'elle est très varable? Une des rasons est de tenter de trouver certans comportements communs entre les utlsateurs, et essayer de les formalser. S on arrve à cerner une parte de pertnence commune, on pourra l'mplanter dans les systèmes pour répondre au mons à une parte commune des besons. On connaît mantenant certans facteurs communs. Par exemple, le sujet (ou en anglas topc) est le facteur le plus mportant dans la pertnence. Ans, on peut construre des systèmes en utlsant unquement le crtère de sujet, ce qu condut à l'approche basée sur la topcalté. Une autre rason des études de la pertnence est d'essayer de comprendre exactement comment le contexte nfluence sur elle. S on arrve à comprendre cela, par exemple, à trouver des contextes typques dans lesquels un facteur devent très mportant, on pourra mplanter des systèmes spécalsés en conséquence. Derrère ces études, l y a auss des motvatons phlosophques comme celle de comprendre comment l'human rasonne. 5. Evaluaton d'un système de RI Le but de la RI est de trouver des documents pertnents à une requête, et donc utles pour l'utlsateur. La qualté d'un système dot être mesurée en comparant les réponses du système avec les réponses déales que l'utlsateur espère recevor. Plus les réponses du système correspondent à celles que l'utlsateur espère, meux est le système. 27

36 Chaptre 1 : Les Systèmes de Recherche d Informaton 5.1 Corpus de test (références) Pour arrver à une telle évaluaton, on dot connaître d'abord les réponses déales de l'utlsateur. Ans, l'évaluaton d'un système s'est fate souvent avec certans corpus de test. Dans un corpus de test, l y a: un ensemble de documents; un ensemble de requêtes; la lste de documents pertnents pour chaque requête. Pour qu'un corpus de test sot sgnfcatf, l faut qu'l possède un nombre de documents assez élevé. Les premers corpus de test développés dans les années 1970 renferment quelques mllers de documents. Les corpus de test plus récents (par exemple, ceux de TREC 2 ) contennent en général plus documents (consdérés mantenant comme un corpus de talle moyenne), vor des mllons de documents (corpus de grande talle). Parm les collectons de documents de test les plus utlsées en RI ctons : La collecton CACM regroupant les ttres et les résumés trés du journal CACM ; La collecton Cranfeld tratant des résumés du domane «Aeronautcal Engneerng» ; La collecton Medlne tratant les artcles trés du journal «Medcal Journal» ; La collecton Tme consttuant les artcles trés du journal Tme. Le tableau 1.2 récaptule ces collectons. Nombre de documents Nombre de requêtes CACM CISI CRAN MED TIME Tableau 1.2 : Quelques collectons de documents de test en RI L'évaluaton d'un système ne dot pas se reposer seulement sur une requête. Pour avor une évaluaton assez objectve, un ensemble de quelques dzanes de requêtes, tratant des sujets varés, est nécessare. L'évaluaton du système dot tenr compte des réponses du système pour toutes ces requêtes. Fnalement, l faut avor les réponses déales pour l'utlsateur pour chaque requête. Le derner élément d'un corpus de test fournt cette nformaton. Pour établr ces lstes de documents pour toutes les requêtes, les utlsateurs (ou des testeurs smulant des utlsateurs) dovent examner chaque document de la base de document, et juger s'l est pertnent. Après cet exercce, on connaît exactement quels documents sont pertnents pour chaque requête. Pour la constructon d'un corpus de test, les jugements de pertnence consttuent la tâche la plus dffcle

37 Chaptre 1 : Les Systèmes de Recherche d Informaton 5.2 Rappel et Précson La comparason des réponses d'un système pour une requête avec les réponses déales nous permet d'évaluer les métrques suvantes : Le Rappel Le rappel mesure la proporton de documents pertnents retrouvés parm tous les documents pertnents dans la base. La proporton complémentare est le Slence qu correspond à la proporton de documents pertnents non retrouvés. P R Rappel = [0, 1] et Slence = 1 Rappel (1.4) P Avec : P représente le nombre de documents pertnents dans tout le corpus. R représente le nombre de documents retrouvés La Précson La précson mesure la proporton de document pertnent retrouvé parm tous les documents retrouvés par le système. La proporton complémentare est le Brut qu correspond à la proporton de documents retrouvés qu ne sont pas pertnents. P R précson = [0, 1] et Brut = 1 précson (1.5) R La F-mesure Pluseurs ndcateurs de synthèse ont été créés à partr de deux mesures de Rappel et de la Précson, mas le plus célèbre est la F-mesure. Cette mesure correspond à une moyenne harmonque de la précson et du rappel. Cette moyenne dmnue lorsque l un de ses paramètres est pett et augmente lorsque les deux paramètres sont proches tout en étant élevés [Rjsbergen, 1979]. 2 (1 + β ) précson rappel F mesure = 2 ( β précson) + rappel Le paramètre β permet de pondérer la précson ou le rappel, l est égal généralement à la valeur 1. Pour effectuer ces mesures, l faut dsposer des réponses déales aux requêtes en queston. La Fgure 1.5 llustre ces formules. (1.6) Ensemble de documents retrouvés Ensemble de documents du corpus Ensemble de documents pertnents dans tout le corpus Brut Slence Fgure 1.5 : Rapprochement de pertnences système et utlsateur 29

38 Chaptre 1 : Les Systèmes de Recherche d Informaton Par alleurs, un système déal est un système donne de bons taux de précson et de rappel en même temps. Un système qu aurat 100% pour la précson et pour le rappel sgnfe qu'l trouve tous les documents pertnents, et ren que les documents pertnents. Cela veut dre que les réponses du système à chaque requête sont consttuées de tous et seulement les documents déaux que l'utlsateur a dentfés. En pratque, cette stuaton n'arrve pas. Plus souvent, nous pouvons obtenr un taux de précson et de rappel aux alentours de 30%. En fat, les deux métrques ne sont pas ndépendantes. Il y a une forte relaton entre elles : quand l'une augmente, l'autre dmnue. Il ne sgnfe ren de parler de la qualté d'un système en utlsant seulement une des métrque. En effet, l est facle d'avor 100% de rappel: l suffrat de donner toute la base comme la réponse à chaque requête. Cependant, la précson dans ce cas-c serat très basse. De même, on peut augmenter la précson en donnant très peu de documents en réponse, mas le rappel souffrra. Il faut donc utlser les deux métrques ensemble. Les mesures de précson-rappel ne sont pas statques non plus (c'est-à-dre qu'un système n'a pas qu'une mesure de précson et de rappel). Le comportement d'un système peut varer en faveur de précson ou en faveur de rappel (en détrment de l'autre métrque). Pour comparer deux systèmes de RI, l faut les tester avec le même corpus de test (ou pluseurs corpus de test). Un système dont la courbe dépasse (c'est-à-dre qu'elle se stue en haut à drote de) celle d'un autre est consdéré comme un melleur système. Il arrve parfos que les deux courbes se crosent. Dans ce cas, l est dffcle de dre quel système est melleur. Pour résoudre ce problème, nous pouvons utlser auss la précson moyenne comme une mesure de performance. En effet, la précson moyenne est une moyenne de précson sur un ensemble de ponts de rappel. Cette précson moyenne pouura être utlsée sot sur 10 ponts de rappel (0.1,, 1.0), sot sur 11 ponts de rappel (0.0, 0.1,, 1.0). Cette dernère est possble seulement avec la polarsaton. La précson moyenne décrt ben la performance d'un système. C'est la mesure souvent utlsée en RI. 6. Reformulaton de la requête La recherche d nformaton est un processus qu se base essentellement sur la requête exprmée par l utlsateur pour répondre à ses besons. Quel que sot le système de recherche utlsé, le résultat d une recherche ne peut être ntéressant s la requête ne décrt pas explctement et clarement les besons de l utlsateur. En général, l utlsateur se contente de donner quelques mots-clés. Ces derners sont ssus d une connassance générale sur un domane donné. Par conséquent, les documents renvoyés par le système de recherche peuvent appartenr à des domanes et dscplnes dfférents par lesquels l utlsateur n est pas concerné. La reformulaton de requêtes est une phase mportante du processus de recherche d nformaton. Elle consste de manère générale à enrchr la requête de l utlsateur en ajoutant des termes permettant de meux exprmer son beson [Efthmads, 2000]. En effet, les technques de reformulaton consstent à modfer les requêtes pour ressembler davantage aux documents jugés pertnents et s élogner des documents non pertnents. Plus la dstance entre la requête ntale et la requête reformulée est grande, plus l y a de nouveau documents qu vont apparaître comme résultat de la nouvelle recherche. Ces technques peuvent être assstées par l utlsateur (nteractves), comme elles peuvent être menées d une manère automatque. 30

39 Chaptre 1 : Les Systèmes de Recherche d Informaton La premère technque est la plus répandue en RI. Il s agt de la reformulaton par rénjecton (rétroacton) de la pertnence, appelée auss Relevance Feedback (RF). Elle consste à extrare à partr des documents jugés pertnents par l utlsateur les mots-clés les plus expressfs, et à les ajouter à la requête [Roccho, 1971] [Robertson et Sparck-Jones, 1976]. Dans la deuxème technque, l s agt de l expanson de requête. 6.1 Rétroacton de pertnence (Relevance Feedback) Le RF (Relevance Feedback) ou technque de modfcaton des requêtes par analyse et ncorporaton des retours, est un processus de reformulaton automatque de requêtes dont le but est de générer des requêtes optmales proches des besons des utlsateurs. Cette reformulaton qu se fat par nteracton entre l'utlsateur et le système consste en générale à modfer la pondératon des termes de la requête ntale ou à leur substtuer d'autres termes choss pour leur caractère, notamment assocatf, générque ou spécfque. Ces opératons de reformulaton s'effectuent sur la base des ndces fourns par l'utlsateur à travers, d'une part, la requête ntale et, d'autre part, les documents pertnents et non pertnents sélectonnés. Ce processus de recherche, de sélecton de documents pertnents et non pertnents pus de génératon automatque de requête se fat de façon tératve jusqu'à l'attente des objectfs à la satsfacton de l'utlsateur. En fat, cette technque a pour but de smplfer la tâche de l utlsateur qu n a pas à détermner dans les documents pertnents les termes mportants, avant d effectuer une nouvelle requête. [Yuwono et al., 1997] dstnguent deux technques prncpales du RF : la technque semautomatque basée sur le modèle de Roccho et la technque automatque La technque du RF sem-automatque Cette technque nécesste l'nterventon de l'utlsateur qu dot dentfer et sélectonner les documents pertnents et les documents non pertnents. Les travaux sur cette technque ont été menés par Roccho à la fn des années Ces travaux ont été publés en 1971 [Roccho, 1971] et ont été suvs de ceux de Ide [Ide, 1971]. Plus tard, les travaux sur le RF semautomatque ont été enrchs par l'apport de la méthode probablste. Cette approche a été mplémentée par Harper, Haman, Croft, Spark Jones et Van Rjsbergen [Yuwono et al., 1997]. Notons que la foncton de Roccho dérve de l hypothèse qu une requête déale Q new dot maxmser la dfférence de sa dstance Cosnus moyenne de ses documents pertnents et de sa dstance Cosnus moyenne de ses documents non pertnents (la dstance cosnus sera présentée dans le modèle vectorel du chaptre suvant). Le système effectue la reformulaton selon l équaton suvante : Q new old 1 1 = α Q + β wt γ wt (1.7) reldocs nonreldocs reldocs nonreldocs α permet de moduler l mportance de la requête précédente Q old. β permet de moduler le vecteur profl moyen des documents choss. γ permet de moduler le vecteur profl des documents rejetés. α, β et γ représentent des paramètres postfs. Leurs valeurs sont à fxer dans l ntervalle [0, 1]. reldocs représente le cardnal de l ensemble des documents pertnents. nonreldocs représente le cardnal de l ensemble des documents non pertnents. 31

40 Chaptre 1 : Les Systèmes de Recherche d Informaton Le paramètre α n état pas ntalement prs en compte dans la formule de Roccho. Salton, l a ntrodut ultéreurement et c est la forme générale défne qu est souvent consdérée La technque de RF automatque Selon [Alane et al., 2004], lorsque le feedback de pertnence s accompagne d une adjoncton (et/ou) suppresson de termes, l s agt de la reformulaton automatque. La requête de l utlsateur est remanée automatquement, pour ntégrer les descrpteurs des documents jugés pertnents ou rejetés. En fat, l exste dfférentes varantes de cette technque : celles qu sont utlsées automatquement pour reformuler la requête en augmentant le pods des termes présents dans les documents jugés pertnents et nversement pour dmnuer les pods des termes jugés non pertnents. Le problème avec la reformulaton automatque est l estmaton des «bons» termes qu peuvent condure effectvement à une améloraton du processus de recherche car l ntroducton des termes napproprés peut entraîner un slence ou au contrare augmenter un brut. Selon [Yuwono et al., 1997], dans les envronnements où la technque du RF automatque est mplémentée, un nombre prédéfn de documents extrats par la requête ntale sont réputés pertnents. Les procédures et formules utlsées dans l'approche du RF automatque sont des varantes des formules Roccho et Ide qu permettent de fare abstracton des documents non pertnents. En effet, le modèle de Ide [Ide, 1971] est une varante du modèle de Roccho. Du modèle de Roccho elle dédut la formule suvante qu lu sert de base dans ses travaux : mn( na, n' p ) + 1 = Q + ωq0 + α p + = 1 mn( n, n' s ) b Q π µ NP (1.8) = 1 Où (n' p + n' s ) = N le nombre de document extrats et servant au processus du "feedback". Les varables expérmentales étant : a, ω, µ, π, n a, n b et N. Le paramètre α est postf et permet de pondérer tous les documents jugés pertnents par rapport à tous les éléments contrbuant à la formaton de ta requête (requête précédente Q, requête ntale Q 0 et documents non pertnents). Le paramètre π permet d'augmenter la pondératon de la requête précédente en foncton des documents du feedback. Q 0 est la requête ntale, Q est la requête de la précédente tératon, ω permet d'utlser la requête ntale comme parte ntégrante de la nouvelle requête, µ dot être théorquement négatf pour tenr compte des documents non pertnents extrats. Les paramètres n a, n b permettent d'utlser un nombre spécfque de documents pertnents et non pertnents dans la requête même quand les valeurs des paramètres n a, n b sont plus grands (utlsaton de la foncton mn()). La flexblté de cette formule a perms à Ide non seulement de confrmer les résultats postfs obtenus par Roccho, mas auss d'étuder tros varantes de ce modèle [Ide, 1971]: Modèle basé sur l'utlsaton exclusve de documents pertnents ; Modèle basé sur le nombre de documents N à extrare et à réntégrer dans le système à chaque tératon du RF. Modèle basé sur l'ntégraton d'un ou de deux documents non pertnents aux documents pertnents et à la requête ntale. 32

41 Chaptre 1 : Les Systèmes de Recherche d Informaton 6.2 Expanson de requêtes Une expanson de requête peut être vue comme un tratement pour "élargr" le champ de recherche pour cette requête. Une requête étendue va contenr plus de termes relés. En utlsant le modèle vectorel, par exemple, plus de documents seront repérés. Ans, ce tratement est souvent vu comme un moyen d'augmenter le taux de rappel. Cependant, nous savons qu l n a pas de sens de parler du rappel sans consdérer en même temps la précson. Ans, cette affrmaton que l'expanson de requête va condure à un melleur rappel n'est pas tout à fat juste. Il faut plutôt dre que, en sélectonnant les documents selon un seul de smlarté entre un document et une requête, nous avons la chance de sélectonner plus de documents pertnents avec une requête étendue. L'utlté de l'expanson de requête dépend fortement de deux facteurs: 1. Quels mots dot-on utlser pour étendre la requête? 2. Comment les nouveaux mots dovent-ls être ajoutés dans la requête? Les mots utlsés pour fare l'expanson de requête dovent être fortement relés à la requête. Typquement, on utlse un dctonnare de synonyme, ou un thésaurus. Les mots relés avec des mots de la requête par certans types de relaton (e.g. IS_A) sont choss pour étendre la requête. Il y a auss des études qu essaent de trouver automatquement les mots fortement relés. La plupart de ces approches explotent les co-occurrences: Plus deux mots co-occurent dans des textes, plus on suppose qu'ls sont fortement relés. Une fos ces relatons statstques choses, on peut les utlser dans un processus d'expanson de requête. Il est auss suggéré que le processus d'expanson sot nteractf : L'usager peut fltrer les mots proposés par le système. Cette approche est utlsée dans certans systèmes, par exemple, Medlne qu ntègre un thésaurus du domane médcal [Joubert et al., 1991]. 6.3 Les problèmes posés par la reformulaton de la requête La rétroacton de pertnence est d un emplo souvent lourd pour l utlsateur qu dot nteragr avec la système, tands que les termes ajoutés lors d une expanson automatque ne sont pas toujours approprés et peuvent par conséquent engendrer du brut pusqu l est possble d ntrodure dans la requête des termes qu n ont pas de rapport avec le beson de l utlsateur. D autre part les termes de la requête sont généralement consdérés de manère solée dans l expanson de la requête. En cas de courtes requêtes, l expanson de requêtes peut ne pas être effcace car l ambguïté eventuelle de la requête rsque d être prolongée dans l expanson. Ce problème est résolu par la combnason d un fltrage et d une expanson nommée le «Query By Example». La plupart d'approches d'expanson consdèrent chaque mot de la requête solé. [Qu et Fre, 1993] pensent qu'l vaut meux chosr des mots qu sont relés à la requête qu'aux mots ndvduels de la requête. Autrement dt, ls calculent la relaton entre un mot et la requête dans son ensemble, et chosssent d utlser les mots les plus fortement relés. Ils montrent que cette approche est melleure que celle de l expanson de mots. D autre part, l est possble qu un document ne concernant qu un seul terme de la requête sot meux classé qu un autre document concernant tous les termes de la requête : le premer content pluseurs représentaton du même terme. Dans ce cadre [Salton et McGll, 1983] ont ntrodut les deux notons d exhaustvté (exh) et de spécfcté (spec). L exhaustvté détermne s tous les aspects de la requête ont été abordés dans le document. Quant à la 33

42 Chaptre 1 : Les Systèmes de Recherche d Informaton spécfcté, elle détermne s tout le contenu du document D trate du thème de la requête Q. En fat, ces deux mesures peuvent être calculées de pluseurs façons, parm les quelles ctons : j d jq j exh ( D, Q) = et q ou encore : j j d jq j exh ( D, Q) = et q j j j j d jq j spec ( D, Q) = (1.9) d j j j d jq j spec ( D, Q) = (1.10) d Avec : D = (d 1, d 2,, d n ) vecteur des pods assocés aux termes descrpteurs dans le document D. Q = (q 1, q 2,, q n ) vecteur des pods assocés aux termes descrpteurs dans la requête Q. Notons que la reformulaton de la requête ne permet d amélorer la recherche que relatvement aux résultats obtenus à partr de la requête ntale. Ces améloratons de requêtes sont varables d une base documentare à une autre et peuvent dépendre, d une part du nombre de termes ajoutés et de leur sélecton et d autre part de la manère avec laquelle ls sont ajoutés. 7. Concluson Nous avons détallé dans ce chaptre les dfférents acteurs qu ntervennent dans un Système de Recherche d Informaton. Nous avons montré que le beson de l utlsateur ne dot pas se lmter unquement à sa requête. Son ntéracton avec le système est auss une composante essentelle pour amélorer la qualté de la recherche. En fat, pour satsfare davantage le beson d nformaton d un utlsateur et pour l ntégrer dans le processus de recherche, d autres technques ont été ntrodutes telles que la reformulaton de requêtes et les technques de classfcaton. Il s est avéré auss que la phase d analyse et d ndexaton est très utle pour construre une représentaton rche, cohérente et proche du contenu du document. Cette phase permet auss une accélératon du processus de recherche. En effet, la réusste d un tel processus est étrotement lée à la qualté du système d ndexaton. Nous allons présenter dans le chaptre suvant les modèles les plus connus de la RI. Nous nous ntéressons partculèrement à la reformulmaton de la requête ans qu au sens de la pertnence donné par ces modèles. j j 34

43 Chaptre 2 : Les modèles de la Recherche d Informaton Chaptre 2 Les modèles de la Recherche d Informaton La RI est un ensemble de technques et d'outls nformatques dont la fnalté ntale état bblographque : l s agssat d ader les usagers à trouver, dans des fonds documentares, les références concernant un sujet partculer. L'améloraton des capactés de stockage des ordnateurs a changé la nature du problème, qu n'est désormas plus d'exploter des notces bblographques mas de conserver et d'accéder drectement aux nformatons textuelles contenues dans les documents qu consttuent les fonds. Le champ de la recherche d'nformaton moderne couvre ans plus largement la catégorsaton des documents textuels, leur ndexaton, leur classfcaton, leur catalogage et l'accès à leur contenu. Longtemps réservée à une pette communauté de spécalstes, la RI est aujourd'hu connue et utlsée par un publc plus large à travers les moteurs de recherche sur Internet. Le problème général de la RI est de retrouver dans un ensemble de documents ceux qu contennent des nformatons qu consttuent des réponses à la requête d un utlsateur. Les systèmes de RI dsposent ans d'une représentaton des nformatons contenues dans les fonds documentares et d'une procédure permettant de détermner leur pertnence comme réponses à une requête partculère. Idéalement, ces systèmes devraent «comprendre» les nformatons textuelles contenues dans les documents et les requêtes (ces dernères, généralement formulées en langue naturelle, peuvent être consdérées comme des documents supplémentares). Une telle compréhenson est malheureusement hors de la portée des systèmes de Tratement Automatque en Langage Naturel (TALN) ; étant donné les volumes des documents, une analyse sémantque de leur contenu par des opérateurs humans n'est pas non plus envsageable. Les systèmes de RI peuvent donc au meux calculer une approxmaton du sens de ces nformatons, et évaluer leur proxmté avec celu de la requête, de façon à classer les documents en foncton de leur pertnence comme réponses à la requête. S c'est l'ndexaton qu chost les termes pour représenter le contenu d'un document ou d'une requête, c'est au modèle de leur donner une nterprétaton. Étant donné un ensemble de termes pondérés ssus de l'ndexaton, le modèle de RI remplt les deux rôles suvants : Créer une représentaton nterne d un document ou d une requête basée sur ces termes ; Défnr une méthode d apparement (ou matchng) entre une représentaton de document et une représentaton de requête afn de détermner leur degré de correspondance (ou smlarté). Le modèle joue un rôle central dans la Recherche d Informaton ; c'est celu qu détermne le comportement clé d'un système de RI. En fat, l exste deux technques d apparement de sens qu utlse la lngustque : l nférence et paraphrasage. L apparement à base d nférence est une technque statstque, utlsée pour la manpulaton des connassances en Intellgence Artfcelle (IA). Cette approche utlse les réseaux sémantques afn d ntrodure un nveau sémantque dans les tratements. Alors que le paraphrasage s appu sur des connassances purement lngustques, ndépendantes du domane d applcaton ; les transformatons sont par conséquent générales et n nvoquent pas un nveau de représentaton des connassances d ordre conceptuel. 35

44 Chaptre 2 : Les modèles de la Recherche d Informaton Les technques lngustques sont lourdes à mettre en œuvre dans un cadre qu se veut pratque et effcace. De l autre côté, les technques statstques sont plus performantes en percevant la valeur de pertnence qu on assoce aux termes comme une dmenson du sens. Dans ces perspectves, nous nous ntéressons dans ce chaptre qu aux technques statstques. Nous décrvons dans la premère secton le modèle de Matchng score, premer modèle utlsé dans la RI. Dans la deuxème secton, nous détallons le modèle booléen ans que ses deux extensons : le modèle booléen basé sur des ensembles flous et le modèle booléen étendu ou p-norme. Le modèle vectorel et ses deux extensons (le modèle vectorel généralsé et modèle vectorel et domane sémantque) feront l objet de la trosème secton. Dans la quatrème secton, nous présentons le modèle probablste. Dans la dernère secton, nous mettons l accent sur la reformulaton de requêtes dans ces modèles. 1. Modèle "Matchng score" C'est peut-être le premer "modèle" utlsé dans la RI. L'dée est assez prmtve et ntutve : Un document est représenté par un ensemble de termes pondérés par leur fréquence. Une requête est auss un ensemble de termes, pondérés à 1. Le degré de correspondance est la somme des fréquences des termes de la requête dans le document : R d, q) = f Où f est la fréquence d'un terme de q dans le document d. ( La valeur R ans calculée est appelée la "matchng score". En réalté, cela est équvalent à parcourr le document et à vor comben de fos les termes de la requête apparassent dans ce document. Plus ce "matchng score" est élevé, plus on consdère que le document correspond à la requête, et donc plus l sera classé haut dans la réponse. Ce modèle est prmtf car l utlse drectement le résultat de l'ndexaton sans aucune réorgansaton ou modélsaton [Salton et al., 1983a]. 2. Modèle booléen Dans ce modèle, un document est représenté comme une conjoncton logque de termes (non pondérés), par exemple : d = t 1 t 2 t n Une requête peut être vue comme une formule logque contenant un certan nombre de termes relés par des opérateurs logques tels que : ET (noté ), OU (noté ) et NON (noté ). Par exemple : q = (t 1 t 2 ) (t 3 t 4 ) Pour qu'un document corresponde à une requête, l faut que l'mplcaton suvante sot valde : d q. Cette évaluaton peut être auss défne de la façon suvante : Un document peut être représenté comme un ensemble de termes, et une requête comme une expresson logque de termes. La correspondance ou pertnence système R(d, q) entre une requête q et un document d est détermnée de la façon suvante, s q et q j sont des termes de la requête : R(d, q ) = 1 s q d ; 0 snon. R(d, q q j ) = 1 s R(d, q ) = 1 et R(d, q j ) = 1 ; 0 snon. R(d, q q j ) = 1 s R(d, q ) = 1 ou R(d, q j ) = 1 ; 0 snon. R(d, q ) = 1 s R(d, q ) = 0 ; 0 snon. (2.1) 36

45 Chaptre 2 : Les modèles de la Recherche d Informaton Dans sa verson smple, le modèle présente les tros problèmes suvants [Waller et Kraft, 1979]: 1. La correspondance entre un document et une requête est sot 1, sot 0. En conséquence, le système détermne un ensemble de documents non ordonnés comme réponse à une requête. Il n'est pas possble de dre quel document est melleur qu'un autre. Cela crée beaucoup de problèmes aux usagers, car ls dovent encore fouller dans cet ensemble de documents non ordonnés pour trouver des documents qu les ntéressent. C'est dffcle dans le cas ou beaucoup de documents répondent aux crtères de la requête. 2. Tous les termes dans un document ou dans une requête étant pondérés de la même façon smple (0 ou 1), l est dffcle d'exprmer qu'un terme est plus mportant qu'un autre dans leur représentaton. Ans, un document qu décrt en détal "nformatque", mas mentonne un peu "commerce" se trouve être représenté par {nformatque, commerce} dans laquelle les deux termes devennent auss mportant l'un que l'autre. Cela ne correspond pas à ce qu'on souhate avor. 3. Le langage d'nterrogaton est une expresson quelconque de la logque de propostons (un terme étant une proposton). Cela offre une très grande flexblté aux usagers d'exprmer leurs besons. Cependant, un problème en pratque est que les usagers manpulent très mal les opérateurs logques, surtout dans beaucoup de cas, les mots "et" et "ou" ne correspondent pas tout à fat aux opérateurs logque et. En parte à cause de cela, les expressons logques données par un usager correspondent souvent mal à son beson. La qualté de la recherche souffre donc en conséquence. Nous récaptulons dans la sute les avantages et les nconvénents de ce modèle : Les avantages du modèle booléen : - Le modèle est plus facle à mplanter et nécesste relatvement peu de ressources ; - Le langage de requête booléen est plus expressf que celu des autres modèles ; - Ce modèle convent aux utlsateurs connassant exactement leurs besons et en mesure de les formuler précsément avec le vocabulare qu'ls maîtrsent. Les nconvénents du modèle booléen : - Il est dffcle aux novces de formuler une requête combnant pluseurs opérateurs logques, notamment pour les requêtes complexes. L'mportance relatve des mots-clés ne peut pas être exprmée ; - Le classement des documents extrats par ordre de pertnence est dffcle ; - La reformulaton automatque des requêtes par la technque du Relevance Feedback est plus ardue. Notons que le modèle booléen standard n'est utlsé que dans très peu de systèmes de nos jours. Parm les SRI classques basés sur le modèle booléen, nous ctons MEDLARS 8 (1970) devenu MEDLINE 9 et TEXTO 10 (1982). En fat, s nous utlsons un modèle booléen, c'est plutôt une extenson de ce modèle. Les extensons de ce modèle, présentées dans la sute, essaent justement de corrger ces lacunes. 8 MEDLARS : MEDcal Lterature Analyss and Retreval System. C est la verson Medlne de la Natonal Lbrary of Medecne. 9 MEDLINE : MEDLARS on LINE : C est une base qu ndexe des artcles de pérodques qu se rapportent au domane médcal. 10 TEXTO : C est un logcel de manpulaton de fonds documentare. 37

46 Chaptre 2 : Les modèles de la Recherche d Informaton Pour rédure les lmtes posées par ce modèle proposé pour la RI et dans le but d augmenter leurs performances, deux extensons ont été proposées. Celles-c sont décrtes c-après. 2.1 Modèle Booléen basé sur des ensembles flous Cette extenson au modèle booléen standard consste à affecter des pondératons (a ) aux termes dans la représentaton des documents. Du côté requête, elle reste toujours une expresson booléenne. Avec cette extenson, un document est représenté comme un ensemble de termes (t ) pondérés (a ) comme sut [Kraft et al., 1983] : d = {, (t, a ), } La correspondance entre un document d et une requête exprmée par les deux termes q et q j, peut prendre pluseurs formes. Une d'elles est la suvante : R(d, q ) = a R(d, q q j ) = mn (R(d, q ), R(d, q j )) R(d, q q j ) = max (R(d, q ), R(d, q j )) R(d, q ) = 1 - R(d, q ) (2.2) Dans cette évaluaton, les opérateurs logques et sont évalués par mn et max respectvement. C'est une des évaluatons classques proposées par L. Zadeh [Zadeh, 1965] dans le cadre des ensembles flous. Dans cette évaluaton on s ntéresse sot à la parte la plus facle quand l s agt d une dsjoncton, sot à la pqrte la plus dffclle quand l s agt d une conjoncton. Par conséquent, les opérateurs mn et max se rapprochent respectvement des opérateurs ET et OU, pusque le rang d un document retrouvé dépend du terme de plus fable pods pour une requête ET et de plus fort pods pour une requête OU. D après [Salton, 1983], cette méthode manque de pouvor de descrmnaton. Ans, pluseurs autres formes d évaluaton ont été proposées. Une des formes est celle de Lukaswcz qu fat ntervenr dans l évaluaton les deux partes R(d, q ) et R(d, q j ) : R(d, q ) = a R(d, q q j ) = R(d, q ) * R(d, q j ) R(d, q q j ) = R(d, q ) + R(d, q j ) - R(d, q ) * R(d, q j ) R(d, q ) = 1 - R(d, q ) (2.3) Dans cette évaluaton, les deux partes d'une conjoncton ou d'une dsjoncton contrbuent en même temps, contrarement à celle de Zadeh [Zadeh, 1965]. Cependant, elle a le même problème qu est R(d, q q) 0 et R(d, q q) 1. En plus, R(d, q q) R(d, q) R(d, q q). En comparant ces extensons avec le modèle standard, l est assez facle de vor les avantages. Le plus mportant est la possblté de mesurer le degré de correspondance entre un document et une requête dans [0, 1]. Ans, les documents pussent être ordonné dans l'ordre décrossant de leur correspondance avec la requête. L'usager peut parcourr cette lste ordonnée et décder où s'arrêter. En outre, cette représentaton plus raffnée, car on peut exprmer dans quelle mesure un terme est mportant (représentatf) dans un document. 38

47 Chaptre 2 : Les modèles de la Recherche d Informaton 2.2 Modèle booléen étendu ou P-Norme Le modèle p-norme [Salton et al., 1983a] est proposé pour résoudre certans problèmes observés dans le modèle booléen standard : La talle des réponses est non contrôlable ; Les réponses sont non-ordonnées ; Tous les termes ont la même mportance ; Pour une requête qu est une longue conjoncton, un document qu satsfat la majorté des termes est auss mauvas qu'un document qu ne satsfat aucun terme ; pour une requête qu est une longue dsjoncton, un document qu satsfat un terme est auss bon qu'un document qu satsfat tous les termes ; L'approche proposée tente d'étendre le modèle booléen standard sur pluseurs aspects. D'abord, observons la table de vérté utlsée pour l'évaluaton booléenne standard donnée par le tableau 2.1: A B A B A B Tableau 2.1 : Table de vérté pour l évaluaton booléenne standard Dans la colonne de A B, l'objectf est d'attendre le cas de la dernère lgne. Dans la colonne de A B, c'est plutôt la premère lgne qu'l faut évter. Ans, une façon de rendre flou l'évaluaton strcte consste à calculer une sorte de dstance entre les ponts à évter ou à attendre. Selon cette dstance, on va détermner l'évaluaton de la conjoncton ou de la dsjoncton. L'dée de base correspond à la fgure 2.1 : Fgure 2.1 : Evaluaton de la conjoncton et de la dsjoncton Dans la fgure 2.1, étant donné une évaluaton de A et de B, on détermne un pont dans l'espace A-B. Dans le cas de la conjoncton, on cherche à évaluer dans quelle mesure ce pont est proche de (1, 1) - le pont à attendre. Ce rapprochement peut être mesurée par le complément de la dstance entre le pont et le pont (1, 1) : plus cette dstance est grande, mons A B est satsfate à ce pont. Pour les ponts qu se stuent sur une même courbe, ls ont la même dstance avec (1, 1). Dans le cas de A B, on cherche plutôt à évter le pont (0, 0). Plus on est lon de (0, 0), plus A B est satsfate. Basée sur cette ntuton, l'évaluaton suvante est proposée par Salton et al. [Salton et al., 1983a]. On admet la pondératon de termes dans les documents : a est le pods de q dans d. 39

48 Chaptre 2 : Les modèles de la Recherche d Informaton R(d, q ) = a R(d, q q j ) = 1 - ([(1- R(d, q )) 2 + (1- R(d, q j )) 2 ] / 2) 1/2 R(d, q q j ) = [(R(d, q ) 2 + R(d, q j ) 2 ) / 2] 1/2 R(d, q ) = 1 - R(d, q ) (2.4) Dans cette évaluaton, la dstance est normalsée (dvsée par 2 1/2 ). Premère généralsaton Une premère généralsaton de l'évaluaton précédente a conssté à permettre auss à assocer une pondératon aux termes de la requête. Dans cette approche, la sgnfcaton de cette pondératon est ben défne : elle mesure l'mportance du terme pour le beson de l'usager. Plus un terme a une pondératon forte, plus l est mportant. Ans, une requête (q, q j, q k ) pondérés respectvement par (b, b j, b k ) prend la forme suvante : b bj q = q (q j q bk k ) (2.5) L'évaluaton devent la suvante (supposons que a sot le pods de q dans d) : R(d, q b ) = a * b b R(d, q q bj j ) = 1 - [[b 2 * (1-R(d, q )) 2 + b 2 j * (1-R(d, q j )) 2 ] / (b 2 + b 2 j )] 1/2 b R(d, q q bj j ) = [b 2 * (R(d, q ) 2 + b 2 j * R(d, q j ) 2 ) / (b 2 + b 2 j )] 1/2 R(d, q ) = 1 - R(d, q ) (2.6) Deuxème généralsaton Pour généralser ce derner modèle on peut attrbuer une pondératon aux opérateurs logques pour détermner dans quelle mesure un opérateur dot être évalué de façon strcte. C'est le rôle du facteur p qu'on ajoute sur un opérateur. Les opérateurs p et p sont évalués comme sut : R(d, q b R(d, q b p q j bj ) = 1 - [[b p * (1-R(d, q )) p + b j p * (1-R(d, q j )) p ] / (b p + b j p )] 1/p p q j bj ) = [b p * (R(d, q ) p + b j p * R(d, q j ) p ) / (b p + b j p )] 1/p (2.7) Cela correspond à remplacer une dstance eucldenne par une dstance "p-norme". La valeur de p peut varer dans [1, [. Plus p est grand, plus l'évaluaton est strcte. Cela peut se comprendre par l'examen de deux cas extrêmes : quand p = 1, on retrouve une évaluaton équvalente à celle du modèle vectorel (qu sera détallé dans la secton suvante) ; quand p, l'évaluaton est équvalente à celle du modèle booléen standard ou basée sur des ensembles flous. Nous ne donnons pas de preuve c, mas l est assez facle de prouver les suvants [Salton et al., 1983a] : R(d, q b R(d, q b 1 q j bj ) = [b * R(d, q ) + b j * R(d, q j )] / (b + b j ) 1 q j bj ) = [b * R(d, q ) + b j * R(d, q j )] / (b + b j ) (2.8) La conjoncton et la dsjoncton devennent dentques. Cette évaluaton correspond à sm0 du modèle vectorel. b R(d, q q bj j ) = mn (R(d, q ), R(d, q j )) b R(d, q q bj j ) = max (R(d, q ), R(d, q j )) (2.9) 40

49 Chaptre 2 : Les modèles de la Recherche d Informaton Cette évaluaton est la même que celle du modèle basée sur des ensembles flous. Basé sur cette comparason, le comportement du modèle p-norme vare entre le modèle booléen et le modèle vectorel comme llustré dans la fgure 2.2 : Fgure 2.2 : Comportement du modèle p-norme Le modèle p-norme est ntéressant non pas pour sa performance en pratque (ben que les expérmentatons montrent qu'l est melleur que le modèle vectorel et le modèle booléen flou), mas pour son cadre unfcateur. Cela nous ade à comprendre la dfférence entre le modèle vectorel et le modèle booléen : un modèle vectorel peut être consdéré comme un modèle booléen dans lequel la dfférence entre la conjoncton et la dsjoncton est annulée. 3. Modèle vectorel Le modèle vectorel consttue une alternatve au modèle booléen. Dans ce modèle, les documents et les requêtes sont représentés par des vecteurs de pods des termes descrpteurs. Chaque pods dans le vecteur désgne l'mportance du terme correspondant dans le document ou dans la requête. Les vecteurs sont exprmés dans un espace vectorel défn par l'ensemble des termes construts lors de la phase d'ndexaton. Nous défnssons : T : l unvers des termes descrpteurs des documents d un corpus d ; V(T) : l espace vectorel de dmenson T = n sur IR. le modèle a été proposé par Salton [Salton, 1971] dans le cadre du système SMART. En fat, ce modèle répose sur : - l hypothèse que les documents les plus pertnents sont ceux qu sont les plus proches des requêtes (c est-à-dre qu contennent les mêmes termes) ; - une représentaton smlare des documents et des requêtes par des vecteurs de même type ; - le degré de correspondance entre les deux vecteurs, détermné par leur mesure de smlarté. Pluseurs manères de calculer la smlarté (Sm) entre deux vecteurs (d et q) ont été proposées, parm lesquelles nous ctons : () Produt scalare Le produt scalare brut, donné par l équaton (2.10), avantage les documents contenant de nombreux termes descrpteurs. C est pourquo la plupart des mesures qu l utlse comprennent un facteur de normalsaton. r r Sm( d, q) = d. q = n = 1 d q (2.10) 41

50 Chaptre 2 : Les modèles de la Recherche d Informaton () Mesure du Cosnus La mesure de cosnus, donnée par l équaton (2.11) et ntalement proposée par Salton [Salton, 1989], mesure l angle que forme le vecteur document et le vecteur requête. Cette mesure permet de trouver les documents stués dans un cône dont le sommet est stué à l orgne, la requête représente l axe central, et le rayon, le seul de mse en correspondance. En fat, l avantage de cette mesure est son ndépendance vs-à-vs de la norme des vecteurs à comparer. Ce qu évte de procéder à une normalsaton préalable. Le cosnus vaut 1 s les vecteurs sont parallèles et 0 s ls sont orthogonaux. La mesure de cosnus peut être également nterprétée comme une valeur de corrélaton. Sm Cos r r d. q ( d, q) = r r d q = n n = 1 d q n 2 d = 1 = 1 () Mesure de Tanmoto ou S-mesure q 2 (2.11) La mesure de Tanmoto [Tanmoto, 1958], donnée par l équaton (2.12), dérve de l ndce de Jaccard (équaton (2.13)) utlsé pour effectuer des classfcatons. Cet ndce permet d évaluer la ressemblance entre deux ensembles en évaluant le quotent entre leur nombre d éléments communs et leur nombre d éléments dstncts. Sm Tan ( d, q) r r d. q = 1 = r = 2 r 2 r r n n n 2 2 d + q d. q d + q = 1 = 1 = 1 n d q d q (2.12) d q Indce Jac ( d, q) = (2.13) d q d q (v) Mesure de Dce La mesure de Dce, donnée par l équaton (2.14), dérve de l ndce de Dce (équaton (2.15)). Cet ndce permet de quantfer l écart entre deux ensembles en comptablsant le nombre de termes qu ls ont en commun. Sm Dce ( d, q) r r 2d. q = 1 = r = 2 r 2 n n 2 d + q d + = 1 = 1 2 n d q q 2 (2.14) d q Indce Dce ( d, q) = 2 (2.15) d + q Avec : d = (d 1, d 2,, d n ) vecteur des pods assocés aux termes descrpteurs dans le document d V(T). q = (q 1, q 2,, q n ) vecteur des pods assocés aux termes descrpteurs dans la requête q V(T). r d q r r r. représente le produt scalare entre les deux vecteurs d et q. d r et q r représente les normes Eucldennes des vecteurs d r et q r 2, avec d r = d r. d r 42

51 Chaptre 2 : Les modèles de la Recherche d Informaton d représente le cardnal de l ensemble d. S les termes possèdent des pods négatfs 11 ls vont partcper à dmnuer le score des documents ndexés par ces termes. La mesure de smlarté vare dans ce cas dans l ntervalle [-1, 1]. Malgré qu l exste des corrélatons entre ces dfférentes mesures, ces dernères ne donnent pas le même résultat pour le classement des documents. En effet, [Hamers et al., 1989] a démontré que Sm Jac (d, q) 2Sm Cos (d, q), ce qu veut dre qu en consdérant un seul endeças duquel les documents sont consdérés pertnents, la méthode du cosnus tranche plus brutalement que les autres. Il est également possble d utlser une mesure de dstance, la plus élémentare correspond à la dstance eucldenne : n 2 Dst( d, q) = ( d q ) (2.16) = 1 Les mesures de smlarté décrtes précédemment exprment le degré de correspondance entre deux vecteurs. La pertnence système qu on note R peut ans être assmlée à une smlarté : R(d, q) = Sm (d, q). Dans le cas de l utlsaton d une dstance, cette dernère est nversement proportonnelle à la pertnence système, la formule précédente devent donc : R(d, q) = 1/ Dst (d, q). En utlsant ces mesures de smlarté, l est possble d obtenr un classement des documents par degré de pertnence. Le nombre de documents à présenter peut être fxé d une manère approxmatve et/ou peut être défn par une valeur de smlarté arbtrare (valeur de coupure ou seul) auquel cas, seuls les documents dont la mesure de smlarté est supéreure à la valeur de coupure sont prs en compte. D autre part, les mesures de smlarté peuvent être utlsées pour comparer des documents entre eux ou des requêtes entre elles. Dans sa verson ntale, le modèle vectorel se base sur l hypothèse que les termes sont ndépendants, contrarement au modèle booléen, qu permet dans la représentaton de la requête d utlser des opérateurs logques qu prennent en consdératon les connexons sémantques entre les termes, ce qu pose le problème de manque d expressvté de la requête vectorelle. Pour reméder à ce problème, l utlsaton conjonte d un thesaurus pour amélorer consdérablement les performances de ce modèle. Afn de paller les lmtes posées par le modèle vectorel, des extensons ont été proposées. Parm lesquelles nous ctons : 3.1 Modèle vectorel généralsé Dans sa verson ntale le modèle vectorel ne permet pas d exprmer des lens sémantques entre les termes descrpteurs. C est-à-dre que les vecteurs de base assocés aux descrpteurs sont deux à deux orthogonaux. Afn de résoudre ce problème [Wong et Raghavan, 1984] ont proposé de transformer l espace vectorel ntal B pour ntrodure d éventuelles corrélatons. La descrpton vectorelle d un document d s exprme dans une base B, consttuée par un 11 Un pods négatf exprme l mportance de l absence du crtère de recherche dans les documents recherchés. 43

52 Chaptre 2 : Les modèles de la Recherche d Informaton ensemble de vecteurs représentant des dscrpteurs vrtuels 12 et se substtue à la pseudo-base B, de la manère suvante : d = a x (2.17) Avec : ' x B - B représente la nouvelle base représentant des vecteurs qu vont se substtuer aux vecteurs de la base ntale B défne par l espace de descrpton du corpus. - a est le degré de pertnence dans le document d du descrpteur vrtuel assocé au vecteur x. D autre part, [Lamrel, 1995] a proposé une nouvelle métrque spécfque qu peut être assocée à l espace vectorel des descrpteurs afn d ntrodure l effet de corrélaton dans la mesure de smlarté entre un document d et une requête q. Cette contrbuton se base sur l expresson générale du produt scalare entre deux vecteurs u r et v r r s r t r qu s écrt : u, v = u Mv. M M est la matce assocée au produt scalare, elle défnt une métrque non eucldenne dans l espace qu tent compte d une manère approfonde, à la fos des lens de synonyme et des lens d hérarche entre les descrpteurs. Elle peut être assmlée à la matrce de passage de la base B à la base B. Elle a la forme suvante : C 11 C 12 C 21 C 22 Où chaque coeffcent C j peut être nterprété comme le degré de certtude assocé à l nférence floue 13 j. Le produt scalare n étant plus systématquement commutatf, l fallat alors défnr une mesure orentée. La mesure de smlarté Cosnus devent en conséquence [Lamrel, 1995] : t d Mq Sm( d, q) = (2.18) t t q Mq d Md t t d et q peuvent être assmlés à des vecteurs déduts respectvement de d et de q en utlsant les nférences floues entre les termes descrpteurs. La mesure de smlarté devent : t d q Sm( d, q) = (2.19) t t q Mq d d Pusqu l s agt d une mesure de smlarté orentée, Lamrel, à l mage de [Ne, 1988] propose de la prendre globalement en compte de la manère suvante : Sm Ne Avec : ( d, q) = α Sm( q, d ) + βsm( d, q) (2.20) - Sm(q, d) peut être assmlée au degré de certtude de l nférence floue q d. - Sm(d, q) peut être assmlée au degré de certtude de l nférence floue d q. 12 Deux descrpteurs fortement synonymes apparassant dans B pourraent être réduts à un seul descrpteur dans B. 13 S P(d q) = 1, alors le document d content tous les termes de la requête q. S P(q d) = 1, alors le document d ne concerne que la requête q. 44

53 Chaptre 2 : Les modèles de la Recherche d Informaton - α et β peuvent être ntalsés à ½. 3.2 Modèle vectorel et domanes sémantques [Lamrel, 1995] a ntrodut la dmenson sémantque dans le modèle vectorel de RI. En effet, son approche consste à prendre en compte un nveau supplémentare dans la recherche d nformaton en consdérant des ponts de vue sur les documents par l ntermédare de leurs domanes sémantques. Dans la méthode proposée, le beson de l utlsateur s exprme généralement par un nombre rédut de descrpteurs dans un domane cblé afn d évter le brut apparassant systématquement lors d une mse en correspondance globale. L dée consste à parttonner l espace vectorel de descrpton des documents en sous-espaces vectorels assocés à ces domanes sémantques, ans : s P( T ), V ( s ) V ( T ) où U n V ( s ) = V ( T ) (2.21) Avec : = 1 - V(S ) correspond au sous-espace vectorel de dmenson S sur IR assocé au domane sémantque S. - L unon des sous-espaces vectorels assocés aux domanes forme l espace vectorel de descrpton. En cas où l utlsateur s ntéresse à un domane sémantque caractérsé par un sous-espace, alors la mesure de smlarté entre une requête q et un document d est rapportée au sousespace (mesure partelle) et s exprme de la façon suvante : Sm d, q) = Sm( q V, d ) (2.22) ( ( S ) V ( S ) Pour procéder à un classement global de pertnence à partr des classements partels l faut vérfer s les valeurs de pertnence sont compatbles. Dans ce cas l est possble de consdérer la somme pondérée des valeurs de pertnences partelles entre la requête et le document, données par chacune des mses en correspondance. Les pods utlsés peuvent être consdérés comme une mesure d mportance donnée au domane lors de l nterrogaton. Dans le cas général, le calcul de pertnence global se base sur le calcul d un rang moyen pondéré ; ce qu correspond à la somme pondérée des rangs d un document d pour une requête q, s exprmant comme sut : α S S r S ( d, q) Rang( d, q) = (2.23) α Avec : - - S S αs correspond aux pods de pertnence du domane S lors de la mse en correspondance. rs correspond au rang du document d pour la requête q selon la mse en correspondance partelle assocée au domane S. 4. Modèle probablste Cette approche s ntéresse à la probablté de pertnence des documents. Il n est plus queston de chercher s un document est plus ou mons pertnent mas de chercher une probablté de pertnence qu est plus ou mons mportante. Il s agt de détermner pour un document d 45

54 Chaptre 2 : Les modèles de la Recherche d Informaton trouvé la probablté qu on obtenne l nformaton pertnente avec celle qu on obtenne l nformaton non pertnente. Soent R et NR représentant respectvement la pertnence (Relevance) et la non-pertnence (Non Relevance). L dée de base dans un modèle probablste est de tenter de détermner les probabltés P(R d) et P(NR d) pour une requête donnée. Ces deux probabltés sgnfent respectvement que : s on retrouve le document d, elles ndquent la probablté de pertnence et non-pertnence de l nformaton obtenue [Fuhr, 1992] [Jones et al., 2000]. Une premère hypothèse consste à ne consdérer que la présence et l absence des termes dans le document et la requête dont les termes ne sont pas pondérés. Il s agt de détermner les caractérstques de R et NR pour une requête donnée. Donc, mplctement, P(R d) et P(NR d) correspondent plutôt à P(R q d) et P(NR q d) pour la requête q, mas cet ndex peut être gnoré pour l nstant. Il est donc possble de classer les documents selon les deux mesures P(R d) et P(NR d) en utlsant la formule suvante : P(R d) / P(NR d) (2.24) Ces deux probabltés ne sont pas drectement calculables. Ans, l utlsaton du théorème de Bayes donne : P(R d) = P(d R) P(R) / P(d) (2.25) P(NR d) = P(d NR) P(NR) / P(d) (2.26) Ce qu donne : P(R d) / P(NR d) = [P(d R) P(R)] / [P(d NR) P(NR)] (2.27) Or, pour une même requête P(R) et P(NR) sont des constantes, la formule devent : P(R d) / P(NR d) = P(d R)/ P(d NR) (2.28) Avec : - P(R d) que la probablté que d fasse parte de l ensemble des documents pertnents. - P(R) est la probablté de pertnence, c est-à-dre, s on chost un document au hasard dans le corpus, la probablté qu l sot pertnent. - P(d R) est la probablté que le document sot chos (s on prend au hasard un document dans un corpus correspondant alors à la chance qu l sot d). Hypothèse d ndépendance et le modèle de recherche ndépendant Pour estmer P(d R) et P(d NR), le document sera décomposé en un ensemble d "événements". Un événement dénote sot la présence ou l'absence d'un terme dans ce document, c est-à-dre une sére d éléments (t = x ) où x représente l absence ou la présence du terme t dans le document d. Ans [Fuhr, 1992]: P(d R) = P(t 1 = x 1, t 2 = x 2, t 3 = x 3, R) (2.29) P(d NR) = P(t 1 = x 1, t 2 = x 2, t 3 = x 3, NR) (2.30) Dans la théore des probabltés, la probablté de la combnason de pluseurs événements est détermnée comme sut : P(a, b, c, d R) = P(a R) * P(b a,r) * P(c a,b,r) * P(d a,b,c,r) * (2.31) 46

55 Chaptre 2 : Les modèles de la Recherche d Informaton C est-à-dre qu l faut tenr compte des dépendances entre les événements, représentées dans cette formule par des probabltés condtonnelles. Il est vra que dans le contexte de la RI, les présences et les absences de termes sont dépendantes. Par exemple, s le terme «nformatque» apparaît dans un document, l y a plus de chance que le terme «ordnateur» apparaîsse auss. Ans, nous avons : P(ordnateur = 1 nformatque = 1) > P(ordnateur = 1). Le calcul de P(d R) et de P(d NR) est complexe, car l faut tenr compte des dépendances suvantes : P(t 2 = x 2 t 1 = x 1, R), P(t 3 = x 3 t 1 = x 1, t 2 = x 2, R), etc. En conséquence le nombre de documents pertnents d apprentssage dot être très élevé. Ans, l hypothèse d ndépendance est supposée pour smplfer le calcul de de P(d R) et de P(d NR): Hypothèse d'ndépendance : les événements lés aux dfférents termes sont ndépendants. Ans [Fuhr, 1992]: P(d R) = Π (t=x) d P(t = x R) (2.32) P(d NR) = Π (t=x) d P(t = x NR) (2.33) Le problème est rédut donc à l estmaton de P(t = x R) et P(t = x NR), ce qu est beaucoup plus fasable. [Roberston et Sparck-Jones, 1976] consdèrent que les termes descrpteurs sont attrbués sans pods. Seules les termes de la requête sont pondérés à partr du bouclage de pertnence, ce qu permet de calculer une probablté de pertnence pour chaque terme en foncton de sa dstrbuton parm les documents pertnents et les documents non pertnent. Ils partent de l hypothèse que les termes non lés sémantquement sont dstrbués également parm les documents. En fat, la probablté pour un terme de se retrouver un certan nombre de fos dans un élément d nformaton sut une lo de Posson. L ensemble des documents pertnents et non pertnents jugés par l utlsateur donnent deux dstrbutons de Posson. Il est également possble de partr d une étude prlmnare qu utlse un échantllon de documents. En effet, avec ces échantllons, l est possble d'estmer P(t = x R) et P(t = x NR) où R et NR correspondent mantenant respectvement à l ensemble des documents pertnents et non pertnents parm les échantllons. Il sufft de construre la table de dstrbuton suvante pour chaque terme t : #doc. pert. contenant t #doc. pert. ne contenant pas t #doc. pert. #doc. non-pert. contenant t #doc. non-pert. ne contenant pas t #doc. non-pert. #doc. contenant t #doc. ne contenant pas t #échantllons Tableau 2.2 : Table de dstrbuton pour chaque terme t Supposons qu on at les valeurs suvantes pour t : r n - r n R - r N - R n + r N - n R N - R N Tableau 2.3 : Table de valeurs du terme t 47

56 Chaptre 2 : Les modèles de la Recherche d Informaton 48 Ans : p = P(t = 1 R) = r /n et (1 - p ) = P(t = 0 R) = (n - r )/n (2.34) q = P(t = 1 NR) = (R - r )/(N n) et (1-q ) = P(t = 0 NR) = (N R- n + r )/(N n) (2.35) Ic, pour smplfer les formules (2.34) et (2.35), on dénote P(t = 1 R) par p, P(t = 0 R) par (1-p ), et P(t =1 NR) par q, P(t = 0 NR) par (1-q ). La formule (2.28) précédente s écrt donc : P(d R) / P(d NR) = ) (1 ) (1 ) 0 ( ) 1 ( ) 0 ( ) 1 ( x x t x x t NR t P NR t P R t P R t P = = Π = = Π = ) (1 ) (1 ) (1 ) (1 x x t x x t q q p p Π Π (2.36) Sot g(d) = log[p(d R) / P(d NR)], alors : ) 1 1 log( )] 1 log( ) 1 [log( )] ) log(1 (1 log ) ) log(1 (1 log [ ) ( + = + + = t t t q p q q p p x q x q x p x p x d g (2.37) Remarquons que la parte ) 1 1 log( t q p ne dépend pas du document (.e. x ). C est une constante (notée C) pour n mporte quel document. La formule (2.37) s écrt : C p q q p x D g t + = ) (1 ) (1 log ) ( (2.38) Le pods du terme t, noté w s écrt: ) ( ) ( ) ( log log ) (1 ) (1 log t r n R N r R r n r n N r R n r n n N r n R N n r p q q p w + = + = = (2.39) Ans, le pods pour un document est détermné par p(d) g(d) : t x w d p = ) ( (2.40) Une généralsaton de la foncton a été proposée par [Croft, 1981] en ntrodusant une pondératon non bnare des termes. Une espérance mathématque est alors exprmée par l équaton (2.41) : = = n p q q p P d E 1 ) (1 ) (1 ) log ( ) ( δ (2.41) ) ( P δ est la probablté d ndexaton du document d par le terme.

57 Chaptre 2 : Les modèles de la Recherche d Informaton Dans [Chen, 1995], le modèle probablste est défn prncpalement par deux types de stratéges de recherche pour l apprentssage : document orented strategy et query orented strategy. En effet, la document orented strategy correspond à la recherche des requêtes pertnentes pour un document donné (probablté que d q), ce qu revent donc à estmer la pertnence des autres requêtes pour le même document. La query orented strategy permet de determner les documents pertnents pour une requête donnée (probablté que q d), ce qu revent à estmer la pertnence pour le reste de la collecton mas toujours pour la même requête. Dans les deux stratéges, l nformaton fourne est explotée par le Relevance Feedback effectué sur une collecton. Cette nformaton permet d estmer la probablté de pertnence sot pour le reste de la collecton sot pour l ensemble des requêtes, mas elle ne peut pas être généralsée à tous les deux. C est la rason pour laquelle [Fuhr et Buckley, 1991] ont proposé la feature orented strategy, une trosème stratége de recherche pour l apprentssage basée sur le modèle probablste. En effet, cette stratége consste à adopter des caractérstques (longueur des documents, nombre de termes, etc.) au leu des termes qu correspondent aux documents ou aux requêtes. En conséquence, cette stratége donne une forme plus générale pour l apprentssage probablste pour l ensemble des documents et des requêtes. Pour ce fare, Chrstan Fuhr utlse des méthodes de régresson et l algorthme ID3 pour la constructon de l arbre de décson pour l ndexaton et la recherche d nformaton. Cependant, l hypothèse d ndépendance de termes n est pas toujours vérfée. Par exemple, un document pertnent qu possède le terme «artfcelle» en réponse à une requête ncluant le terme «ntellgence artfcelle», a plus de chance d nclure le terme ntellgence que n mporte quel autre terme chos au hasard. Pluseurs extensons au modèle probablste orgnel ont donné des melleurs résultats dans la sélecton des documents pertnents que ce derner. Parm ces modèles ctons : les modèles à base de réseaux d nférence et des règles de Bayes et le modèle de Posson (CONSTRUCTOR [Crawford et al., 1991], INQUERY [Turtle et Croft, 1991], OKAPI [Walker et al., 1997]). 5. Reformulaton de requête dans ces modèles Il est souvent dffcle, pour l'utlsateur, de formuler exactement son beson en nformaton. Par conséquent, les résultats que lu fournt le SRI ne lu convennent parfos pas. Retrouver des nformatons pertnentes en utlsant la seule requête ntale de l'utlsateur est toujours dffcle, et ce à cause de l'mprécson de la requête. Afn de fare correspondre au meux la pertnence utlsateur et la pertnence du système, une étape de reformulaton de la requête est souvent utlsée. La requête ntale est tratée comme un essa pour retrouver de l'nformaton désrée ou cblée. Les documents ntalement présentés sont examnés et une formulaton amélorée de la requête est construte, dans l'espor de retrouver des documents plus pertnents. La reformulaton de la requête se fat en deux étapes prncpales : trouver des termes d'extenson à la requête ntale, et pondérer les termes dans la nouvelle requête. [Dunlop, 1997] dstngue deux types de rétroacton : - La rétroacton négatve, s un document pertnent est jugé non pertnent ; dans ce cas un grand changement va se produre. Inversement, s un document non pertnent est jugé non pertnent, la requête ntale ne changera pas vrament. - La rétroacton postve, s un document pertnent est jugé pertnent ; dans ce cas la transformaton de la requête ntale est mnme. Inversement, s un document non pertnent est jugé pertnent, alors un grand changement va se produre dans la requête 49

58 Chaptre 2 : Les modèles de la Recherche d Informaton ntale. Autrement dt, l effet du feedback est sensé être nversement proportonnel à l mportance du document retrouvé par rapport à la requête. 5.1 Reformulaton de la requête dans le modèle booléen Selon [Ne, 2004], l a été observé qu'une requête qu est formulée comme une longue conjoncton est très dffcle à satsfare. En effet, la réponse est généralement vde exprmant un slence. Par contre, une longue dsjoncton est très facle à satsfare : nombreux sont les documents qu vont être récupérés dans la réponse. C'est surtout pour résoudre le premer problème que la reformulaton de requête est ntrodute. Dans le cas d'une longue requête en conjoncton, s un document satsfat la plupart des termes de la requête, on peut penser qu'l satsfat en parte le beson de l'utlsateur. Il est dans ce cas préférable de proposer un ensemble de documents partellement satsfasants que de ne pas donner de réponse. Ans, le processus de reformulaton consste à examner le nombre de documents en réponse. S le nombre est très peu élevé, alors on peut assouplr la requête ntale en supprmant un terme selon le schéma suvant : - Sot la requête ntale q = (t 1 t 2 t 3 t n ). S aucun document n'a été trouvé, une premère methode consste à relaxer la requête de la manère suvante : q = (t 2 t 3 t 4 t n ) (t 1 t 3 t 4 t n ) (t 1 t 2 t 3 t n-1 ) - S aucun résultat satsfasant n est obtenu, l est possble de poursuvre cette démarche en relaxant chaque sous-requête par ablaton supplémentare de termes. Une seconde methode envsageable consste à supprmer le terme le plus dffcle à satsfare (celu qu correspond au mnmum de documents récupérés). En fat, ces deux types de méthodes ne sont cependant justfés que par des besons pratques. Une autre méthode reposant sur de melleurs fondements théorques consste à consdérer la relaton que peuvent entretenr les termes comme une relaton d mplcaton (nous avons sot a b sot b a). Dans ce cas, le calcul de correspondance est basé sur le calcul d une mplcaton entre le document et la requête. Pour l extenson de la requête le schéma suvant est proposé : - S b apparaît dans une requête q et s nous avons a b, alors la requête peut être étendue en remplaçant b par (b a) ; - S a apparaît dans une requête q et s nous avons a b, alors la requête peut être étendue en remplaçant a par (a b) ; Ce processus est en accord avec la logque et l dée ntutve lée à la noton d mplcaton. En effet : - S q = b c et s on est en présence de l mplcaton a b alors la requête étendue devent q = (b a) c ; Par alleurs, pusque (b a) b, nous avons ben q q. - S q = a c, alors la requête étendue devent q = (a b) c = ( a b) c. De la même manère, nous avons ben q q pusque s a b alors a b. D autre part, certans auteurs suggèrent d'assocer une mportance à chaque terme de la requête pour que l'utlsateur pusse dfférencer des termes très mportants de ceux qu le sont mons. On peut vor certanes propostons dans les travaux des [Waller et Kraft, 1979], [Radeck, 1979] et [Kraft et al., 1983]. 50

59 Chaptre 2 : Les modèles de la Recherche d Informaton 5.2 Reformulaton de la requête dans le modèle vectorel Les technques du Relevance feedback applquées au modèle de recherche vectorel ont été domnées par les travaux de Roccho [Roccho, 1971] pus de Ide [Ide, 1971]. Comme son nom l'ndque, le feedback dans le cadre de ce modèle part du prncpe que la requête ntale formulée par l'utlsateur sert au système à dentfer une zone ou régon de l'espace d'ndex de termes qu content des documents pertnents. N'ayant pas d'autres nformatons sur les caractérstques des documents enregstrés, la requête ntale consttue l'unque ndce de départ. En ntrodusant dans le cycle la requête ntale et les documents pertnents et non pertnents courants sélectonnés, l'utlsateur, ce fasant, fournt des nformatons au système qu lu permettent de reformuler automatquement le profl de la requête de sorte que les documents générés au fur et à mesure des tératons tendent de plus en plus à se rapprocher des besons de l'utlsateur. En effet, dans le modèle vectorel, le feedback négatf se comporte sensblement de manère opposée au feedback postf et ce, quand l s agt d ntrodure des pods négatfs pour les termes que l utlsateur ne désre pas retrouver dans les documents pertnents recherchés. Il agt comme un fltre pour ne garder que les documents qu répondent à certans termes. Par contre le feedback postf agt conformément à l dée proposée par [Dunlop, 1997] dans les deux cas où l s agt d ntrodure des pods postfs ou des pods négatfs. Pour réalser la reformulaton de requête deux méthodes sont possbles : - Créer un vecteur addtonnel pour la requête ; - Ajouter des termes dans le même vecteur correspondant à la requête ntale. Dans la premère méthode, tous les termes ajoutés forment un nouveau vecteur. Le calcul de correspondance va se fare en deux temps : d abord le vecteur de smlarté avec le vecteur ntal pus le calcul avec le vecteur d extenson. Le résultat fnal est alors une combnason pondérée des deux vecteurs. Dans la seconde méthode, les termes nuls peuvent être transformés en valeurs non nulles. Les documents contenant ces termes verront alors leur mesure de smlarté augmenter. Le modèle vectorel est basé sur une hypothèse d ndépendance entre les termes du vecteur. L extenson de requête par ajout d un terme dans le même vecteur peut, dans certans cas, contredre cette hypothèse car le terme ajouté peut être éventuellement relé à un terme de la requête. Le resultat de cette nterdépendance condut à consdérer le terme avec un pods deux fos plus élevés car l apparaît en quelque sorte deux fos dans le vecteur. L extenson va donc fortement altérer le sens de la requête ntale. Le calcul séparé de l extenson de la requête par rapport à celle effectuée dans le vecteur ntal tend à mnmser ce problème de dépendance. Cependant, l reste à détermner la combnason pondérée des deux résultats de calcul avec les deux vecteurs. Cette dernère ne peut être détermnée que d une manère emprque. 5.3 Reformulaton de la requête dans le modèle probablste Robertson et Sparck-Jones [Robertson et Sparck-Jones, 1976] ont développé une formule de pondératon des termes (donnée par l équaton (2.39)) basée sur la dstrbuton des termes de la requête dans les documents jugés pertnents et les documents jugés non pertnents par l utlsateur. Une varaton de cette formule de base a été défne dans le but de calculer les nouveaux pods pour les termes de la nouvelle requête lors du processus de rénjecton de pertnence : 51

60 Chaptre 2 : Les modèles de la Recherche d Informaton ( r + 0.5) p (1 q ) ( n r + 0.5) w = log = log (2.42) q (1 ) ( + 0.5) p R r ( N R n + r + 0.5) Avec : r p = et q R + 1 n r = N R + 1 r correspond au nombre de documents pertnents qu sont ndexés par le terme t ; n correspond au nombre de documents qu sont ndexés par le terme t ; R correspond au nombre de documents pertnents ; N correspond au nombre de tous les documents dans la collecton ; 0.5 est un facteur d ajustement. Harman [Harman, 1992] a montré que l utlsaton du coeffcent 0,5 dans la formule (2.42) comme facteur d ajustement permet d augmenter la précson. Cette augmentaton a été de l ordre de 25% sur la base Cranfeld. Hanes et Croft [Hanes et Croft, 1993] ont défn une méthodologe de repondératon en utlsant une verson révsée de la formule de pondératon de Sparck-Jones : Recherche ntale : Feedback : Avec : jk k w = ( C + df ). f (2.43) p (1 q ) w. j j jk = C + log fk (2.44) qj (1 pj ) w jk : le pods du terme t dans la requête j et le document k ; df : fréquence absolue du terme t dans la collecton ; p j : probablté que le terme t sot assgné à un ensemble de documents pertnents pour une requête j. p j = (r + 0.5)/(r + 1) s r > 0, p j = 0.01 s r = 0 ; q j : probablté que le terme t sot apparasse dans un ensemble de documents non pertnents pour une requête j. q j = (n - r + 0.5)/(N - R + 1); f k freqk = K + (1 K). max( freq k freq k : la fréquence du terme t dans le document k ; freq k : la fréquence maxmale d un terme dans le document k ; C, K : constantes. ) Dans le modèle probablste, le feedback postf agt conformément à l dée ntutve proposée par [Dunlop, 1997] s appuyant sur le prncpe d extrapolaton à partr des documents jugés a pror pertnents pour détermner la pertnence du reste des documents. D autre part, dans [Salton et Buckly, 1988] les méthodes d actvaton/propagaton ont été recommandées pour l expanson du vocabulare de la recherche et pour compléter les documents trouvés. Il s agt d exploter les assocatons de pares de termes, les ctatons et les 52

61 Chaptre 2 : Les modèles de la Recherche d Informaton ndcateurs bblographques dans une représentaton en réseaux de nœuds lés. L effcacté de la méthode proposée dépend de la qualté effectve de la représentaton (nœuds et lens) ans que des règles d actvaton. Le modèle proposé dans INQUERY [Turtle et Croft, 1991] est basé sur des réseaux d nférence utlsant des règles de Bayes pour la RI (document network et query network) et consttue un exemple appropré de ces méthodes. Ce modèle sera détallé dans le chaptre suvant. 5.4 Autres approches de reformulaton de requêtes Pluseurs méthodes de relevance feedback (RF) ont été ncorporées dans SMART par [Salton et al., 1983b] [Salton et Buckley, 1990], à savor la verson de la formule de Roccho et des extensons de celle-c en ce qu concerne le fragment qu fat ntervenr le feedback négatf. Par alleurs, pluseurs travaux de recherche ont prouvé que le RF amélorat les résultats de la recherche selon les deux crtères d évaluaton souvent utlsés dans les SRI à savor les taux de rappel et de précson ; quo que le feedback négatf, c est-à-dre la menton des documents non pertnents, ne donne pas de résultats auss satsfasants que le feedback postf. D après [Harman, 1988], les technques de reformulaton de requêtes sont mons coûteuses quand l s agt de guder l utlsateur que quand l s agt de procéder automatquement. Dans ces perspectves, l auteur propose de guder l utlsateur désrant amélorer sa requête, dans le cadre d une recherche en lgne, en lu fournssant une lste de mots qu correspondent aux vosns proches et aux dfférentes varantes des termes de la requête ntale. Le nombre de termes à ajouter et le nombre d tératons à effectuer sont des paramètres à fxer automatquement. Les expérmentatons ont été menées en utlsant la collecton Cranfeld. Le même auteur [Harman et al., 1992] propose d ajouter des descrpteurs pertnents à la requête à partr des documents pertnents et de rédure le pods des termes non pertnents à partr des documents non pertnents. En fat, l auteur affrme que s la pertnence (utlsateur) est affectée aux documents non pertnents (système), alors la requête transformée tend vers la généralsaton. Par contre, s la pertnence (utlsateur) est affectée aux documents jugés pertnents (système), alors la requête transformée permet d augmenter la recherche dans une drecton. De leur part, [Buckley et Salton, 1995] ont proposé une démarche qu se base sur la formule de Roccho et sur l améloraton dynamque des pods en testant leur changement possble sur le resultat de la recherche. Le processus est répété pour chaque terme dont le pods a été modfé et ce pour tester s l y a effectvement une améloraton du résultat après changement. Selon Salton, les requêtes optmsées permettent d obtenr un résultat melleur (10-15%) par rapport aux requêtes ntales. Le problème posé est celu de l ncohérence de comportement du feedback négatf vs-à-vs du feedback postf, ans que celu des mauvas résultats généraux. Dans ces perspectves, [Lamrel, 1995] a proposé une soluton utlsant la transformée orthogonale afn de résoudre le problème de feedback négatf. En fat, cette soluton consste à redéfnr globalement les équatons vectorelles du RF. L auteur propose de consdérer des nformatons nouvelles par rapport aux documents rejetés (jugés non pertnents). Ces nformatons correspondent à la parte complémentare par rapport à celle contenue dans les documents rejetés. La reformulaton négatve vectorelle d une requête consste alors à approcher celle-c d une drecton complémentare à la drecton des rejets plutôt que de l élogner de la drecton des rejets elle-même, qu est le cas du feedback négatf usuel. Pour sa part, [Lee, 1998] propose de combner pluseurs méthodes pour le RF. En effet, l auteur a proposé de fusonner les dfférents résultats, provenant de pluseurs requêtes reformulées, pour amélorer le degré de pertnence [Porter, 1982][Smeaton, 1983][Belkn et 53

62 Chaptre 2 : Les modèles de la Recherche d Informaton al., 1993] [Fox et Shaw, 1994]. Les méthodes dont Lee a proposé de fusonner se basent sur des formules dérvées du modèle probablste en plus de celle de Roccho, comme sut : - La formule de [Ide, 1971] qu est dérvée de celle de Roccho mas en élmnant les facteurs normalsaton exprmés respectvement par les nombres de documents pertnents et non pertnents tout en lmtant le nombre de documents non pertnents : new old Q = α. Q + β. wt γt nonreldocs (2.45) reldocs T nonreldocs correspond au vecteur des documents qu sont classés les plus mons pertnents. - La formule Pr_cl [Croft, 1979] lée au modèle probablste est déjà donnée par l équaton (2.42). - La formule Pr_adj [Roberston, 1986] qu correspond à une verson modfée de la formule Pr_cl : p (1 q ) r + n / N n r + n / N w = log, avec p = et q = (2.46) q (1 p ) R + 1 N R La formule S_rp [Fuhr et Buckley, 1991] qu correspond auss à une verson modfée de la formule Pr_cl : p (1 q ) wt w t w = log, avec p = et q = (2.47) q (1 p ) reldocs nonreldocs reldocs nonreldocs Sur un extrat de la collecton TREC, [Lee, 1998] a montré que la requête reformulée à partr de la formule ntale de Roccho est la plus proche de la requête orgnelle que toutes les autres. Il a montré également que les dfférentes requêtes étendues donnent des résultats dfférents et qu une améloraton peut être apportée au résultat de la recherche, s les résultats respectfs sont combnés. 6. Concluson Les modèles présentés dans ce chaptre ont consdéré le corpus de documents comme une composante statque, ce qu est lon d être le cas. De sa part, l utlsateur a été consdéré auss comme un acteur passf ou partellement actf, en explotant son évoluton pour opérer une reformulaton de la requête, dans le processus de recherche. Afn d amélorer leurs performances, ces modèles ont été explorés en les combnant avec d autres moèles, qu prennent en consdératon le caractère nteractf entre le système et l utlsateur et la nature évolutve de la collecton. En fat, l dée consste à combner pluseurs méthodes de représentaton à la fos des requêtes et des documents pour la Recherche d Informaton. Cette combnason permet d amélorer le degré de pertnence des documents retrouvés. Il s agt également de combner les dfférentes stratéges de recherche et d explorer pluseurs méthodes de relevance feedback. D autre part, pour tenr compte des lens sémantques entre les termes, une extenson du modèle probablste a été proposée en utlsant les réseaux Bayésens, d autres modèles utlsent les réseaux possblstes. Ces deux modèles de RI seront détallés et comparés dans le chaptre suvant. 54

63 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton Chaptre 3 Modèle Bayésen versus Modèle Possbste de Recherche d Informaton Avec la crossance de la talle des bases de données de nos jours est née la nécessté d'automatser le tratement de cette grande masse de données, automatser le rasonnement et la prse de décson. Il serat donc ntéressant d'avor un ou pluseurs systèmes permettant de fare le len entre les observatons et la réalté pour un objectf précs (ade à la prse de décson), et cela, même lorsque les observatons sont ncomplètes et/ou mprécses. Les réseaux bayésens (RB) apportent des solutons effcaces à ces nsuffsances par leurs représentatons graphques compactes des problèmes réels complexes et leur rapdté en temps de calcul. En effet, l'utlsaton des réseaux bayésens (RB) en RI est apparue dans les années 1980 [Frsse, 1988][Frsse et Cousns, 1989] mas elle s est largement développée par les travaux de Turtle [Turtle et Croft, 1990][Turtle et Croft, 1991] suvs d autres [Rbero-Neto et al., 1996][Slva et al., 2000][De Campos et al., 2002][Calado et al., 2003]. Néanmons, ce formalsme a ses lmtes. En effet, l modélse l unvers de manère causale et ne permet pas la modélsaton de relatons d nterdépendances, alors que le beson de telles relatons s en fat souvent ressentr. De plus la complexté de la modélsaton et des calculs augmente de manère exponentelle par rapport à la talle de l unvers. Le modèle possblste quanttatf de RI, proposé par [Brn et al., 2004abc], tente de répondre en parte à ces lmtes. Tout d abord, la pertnence est nterprétée dans un cadre possblste. Ce cadre est plus à même de prendre en compte l gnorance partelle qu peut affecter les nformatons utlsées dans les dfférents calculs. En fat, le modèle sépare les rasons de sélectonner un document pertnent de celles de le rejeter, en utlsant deux mesures : la nécessté et la possblté. Les documents nécessarement pertnents sont ceux qu dovent fgurer en haut de la lste des documents resttués et dovent permettre une certane effcacté du système. Les documents possblement pertnents sont ceux qu répondraent éventuellement à la requête utlsateur. Ils fgurent dans la lste des documents resttués classés à la sute des documents nécessarement pertnents ou à défaut (s le système n en trouve pas) ls sont consdérés comme une réponse plausble. Afn de permettre cette nterprétaton de la pertnence, la pondératon des termes dans les documents dot être également rénterprétée. Il a été montré dans [Booksten et Swanson, 1974] [Harter, 1975] que tous les termes d ndexaton ne se comportent pas de la même manère dans une collecton de documents. Harter fat une dstncton entre les mots nformatfs appelés auss mots «spécalsés», qu se focalsent sur un type de documents et les mots non nformatfs, non spécalsés qu sont dstrbués de manère normale sur l ensemble des documents de la collecton. Cec va dans le sens de l nterprétaton de la pertnence ; en effet les termes des documents jouent des rôles dfférents. Dans un document, l exste des termes fréquents mportants (nformatfs), nécessares dans la représentaton du document, donc nécessares, pour décder de la pertnence de ce document vs-à-vs de la requête, et d autres termes mons nformatfs, qu ne sont que possblement ntéressants pour représenter le contenu du document. 55

64 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton La logque possblste offre un bon cadre pour représenter ces deux notons. En effet, le modèle possblste affecte à chaque terme d ndexaton deux valeurs qu tradusent respectvement la certtude et la possblté qu un terme d ndexaton sot bon. Le derner avantage (spécfcté) de ce modèle résde dans sa prse en compte explcte de l absence des termes de la requête dans le document lors de l évaluaton de la pertnence de ce document vs-à-vs de la requête. Notre apport consste à proposer une extenson de ce modèle pour permettre une transton de l approche quanttatve (numérque) à une nouvelle approche qualtatve (ordnale) pour un modèle possblste de Recherche d Informaton. Cette extenson sera détallée dans le chaptre 4 de cette thèse. Nous commençons, dans la premère secton, par ntrodure la noton des réseaux bayésens (RB) ans que leur prncpe de rasonnement. Dans la deuxème secton nous mettrons l'accent en partculer sur le modèle de RI basé sur les réseaux Bayésens. La reformulaton de requêtes dans les modèles de RI basé sur les RB fera l objet d une quatrème secton. Nous decrvons ensute, dans une cnquème secton, le cadre théorque sur lequel repose l approche possblste, à savor les Réseaux Possblstes (RP). La sxème secton présente le modèle possblste quanttatf de RI. La reformulaton de requêtes dans les modèles de RI basé sur les RP fera l objet d une septème secton. La dernère secton expose un blan comparatf résumant les dfférences entre ces deux modèles de RI. 1. Les Réseaux Bayésens L'un des enjeux prncpaux dans le domane de la recherche en Intellgence Artfcelle est d'être capable de concevor et de développer des systèmes dynamques et évolutfs. De ce fat, ces derners dovent être équpés de comportements ntellgents qu peuvent apprendre et rasonner. Mas dans la plupart des cas, la connassance acquse n'est pas toujours adéquate pour permettre au système de prendre la décson la plus approprée. Pour répondre à ce genre de questons, pluseurs méthodologes ont été proposées, mas seules les approches probablstes s'adaptent meux non seulement au rasonnement avec la connassance et la croyance ncertane, mas auss à la structure de la représentaton de la connassance. Ces approches probablstes sont appelées "Réseaux Bayésens" [Howard et Matheson, 1981][Pearl, 1988], mas sont auss connues sous le nom de "Belef Networks", "Causal Networks". Les Réseaux Bayésens (RB) sont la combnason des approches probablstes et de la théore de graphes. Autrement dt, ce sont des modèles qu permettent de représenter des stuatons de rasonnement probablste à partr de connassances ncertanes. Ils sont une représentaton effcace pour les calculs d'une dstrbuton de probabltés [Cornuéjols et Mclet, 2002]. Par alleurs, les Réseaux Bayésens dovent leurs noms aux travaux de Thomas Bayes (1702, 1761) au dx-hutème sècle sur «la probablté des causes», travaux reprs plus tard par LAPLACE et CONDORCET. Ils vsent à faclter la descrpton d une collecton de croyance en rendant explcte les relatons de causalté et de l ndépendance condtonnelle parm ces croyances et à fournr un moyen plus effcace pour mettre à jour les forces de croyances (dstrbuton conjonte de probablté) lorsque des nouvelles évdences sont observées [Km et Pearl, 1987]. 1.1 Défnton Un Réseau Bayésen est défn par [Pearl, 1988] : 56

65 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton Un graphe acyclque orenté G, G = (V, E), où V est l ensemble des nœuds de G, et E l ensemble des arcs de G, Un espace probablste fn (Ω, Z, p), Un ensemble de varables aléatores défnes sur (Ω, Z, p), tel que : n P( V1, V2, K, V ) = P( V Parents( V )) (3.1) n = 1 Où Parents(V ) est l ensemble des parents (causes) de V dans le graphe. Un Réseau Bayésen est alors consttué de deux composantes : Un graphe causal orenté acyclque : l est la représentaton qualtatve de la connassance. S l y a un arc du nœud X vers le nœud Y, c est que la varable X a une nfluence drecte sur la varable Y (X cause Y). Un ensemble de dstrbutons locales de probabltés : l est la représentaton quanttatve de la connassance (paramètres du réseau). A chaque nœud est assocé une Table de Probabltés Condtonnelles (TPC) qu quantfe les effets de des parents. Exemple : [Pearl, 1988] Ce matn-là le temps est clar et sec, M.X sort de sa mason. Il s aperçot que la pelouse de son jardn est humde. Il se demande s l a plu la nut, ou s l a smplement oublé de débrancher son arroseur automatque. Il jette un coup d œl à la pelouse de son vosn, et s aperçot qu elle est également humde. Il en dédut alors qu l a plu, et l décde de partr au traval sans vérfer son arroseur automatque. La représentaton graphque du modèle causal utlsé est dans la fgure 3.1. Cette fgure représente un Réseau Bayésen smple contenant quatre varables bnares, on peut écrre auss : P(A, B, C, D) = P(A).P(B).P(C A, B). P(D B) (3.2) Où : - A : Arroseur en marche ; - B : Il a plu pendant la nut ; - C : Herbe du jardn humde ; - D : Herbe du jardn vosn humde ; A C B D P(A = V) = 0,4 P(A = F) = 0,6 P(B = V) = 0,7 P(B = F) = 0,3 A B P(C = F) P(C = V) V V 0,3 0,7 V F 0,05 0,95 F V 0,4 0,6 F F 0,78 0,22 B P(D = V) P(D = F) F 0,5 0,5 V 0,58 0,42 Fgure 3.1 : Exemple de Réseau Bayésen 57

66 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton 1.2 Prncpe du Réseau Bayésen Les Réseaux Bayésens (RB) sont des modèles probablstes qu s appuent sur des graphes tradusant par des nœuds les varables du système et par des arcs l exstence de lasons drectes entre ces varables. L étude d un modèle de Réseau Bayésen nécesste une base de données et cherche à fournr à cette base une modélsaton sous forme de graphe caractérsant les dépendances condtonnelles des dfférentes varables. Elle se déroule en deux phases [Halloul, 2004] : Apprentssage ou consttuton du réseau : Il s agt c de trouver la structure et les probabltés assocées du réseau, à partr des données de la base et de tratements prncpalement statstques. Inférence Bayésen : A partr des résultats de la premère phase, le réseau permet la propagaton d nformaton à l ntéreur de la structure, permettant toute nterrogaton sur la base et peut fournr pour chaque état partel ou complet de la base (nstancaton partelle ou complète des varables de celle-c) des probabltés d occurrence de toutes les valeurs possbles de toutes les varables. 1.3 Constructon de la structure du RB par apprentssage La structure d un RB est l ensemble des arcs du graphe orenté sous-jacent au réseau. Dans certanes stuatons, la structure est fourne par un expert. S ce n est pas le cas, on fat l apprentssage à partr des données complètes ou ncomplètes. La recherche de la structure est un problème dffcle prncpalement à cause du fat que l espace de recherche est de talle super-exponentelle en foncton du nombre de varables. Le problème confronté est : comment chosr la melleure structure d un Réseau Bayésen? Il y a deux approches générales de constructon de la structure d un Réseau Bayésen par apprentssage [Franços et Leray, 2004]. L une est basée sur la recherche et des méthodes de marquage (search and scorng), l autre est basée sur des méthodes d analyses de dépendances. La premère approche est de nature heurstque, elle consste à chercher la melleure structure qu s adapte aux données. Elle commence avec un graphe déconnecté, utlse des méthodes de recherche pour ajouter des arcs et teste par l usage d un score s la nouvelle structure est melleure que l ancenne. Dans la deuxème approche, le problème est vu dfféremment. Les algorthmes de cette approche essayent de découvrr les dépendances des données et pus emploent ces dépendances pour mplquer la structure. Chacun des deux approches admet des avantages et des nconvénents. Généralement l approche basée sur l analyse des dépendances est plus effcace pour un réseau dont la structure n est pas trop complquée, mas la majorté de ces algorthmes nécesstent un nombre exponentel de tests sur l ndépendance condtonnelle 14. Franços et Leray [Franços et Leray, 2003] ont développé une étude comparatve des algorthmes de constructon de la structure d un Réseau Bayésen par apprentssage [Meganck, 2006]. Cette étude porte sur les algorthmes MWST (arbre de recouvrement maxmale), PC, K2 et GS (recherche gloutonne). Les auteurs ont déclaré que, l algorthme MWST donne un graphe proche du graphe d orgne, malgré le fat que cette méthode ne 14 Sot deux varables aléatores X et Y. On dt que X et Y sont ndépendantes condtonnellement à Z et on note (X Y Z) s l une des proprétés suvantes sont vérfées : P(X Y, Z) = P(X Z) P(X, Y Z) = P(X Z). P(Y Z) 58

67 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton parcourt que l espace (plus pauvre) des arbres. L heurstque PC donne également de bons résultats. Cette méthode construt des structures avec peu d arcs, mas qu sont presque tous pertnents. La méthode K2 est très rapde et est souvent utlsée dans la lttérature. Elle reste cependant trop sensble à l ntalsaton. Deux ordonnancements dfférents donnent deux Réseaux Bayésens dfférents. Pour un ordre fxé, K2 trouve toujours le même graphe. Par contre en changeant d ordonnancement, le graphe fnal change radcalement. K2 est employé avec l algorthme MWST afn de donner de bons résultats. L algorthme GS est également robuste face à la varaton de la talle de l a base d exemples surtout s l est ntalsé avec l arbre obtenu par MWST. 1.4 Inférence dans les Réseaux Bayésens Le Réseau Bayésen permet de représenter un ensemble de varables aléatores pour lesquelles on connaît un certan nombre de relatons de dépendances. Appelons U l ensemble des varables et P(U) la dstrbuton de probabltés sur cet ensemble. S nous dsposons d une nouvelle nformaton sur une ou pluseurs varables, alors on souhaterat remettre à jour la connassance que représente le RB à travers P(U) à la lumère de cette nouvelle nformaton. Cette remse à jour, qu se fera ben sûr en utlsant la règle de Bayes, est appelée l nférence. Mathématquement parlant, l nférence dans un RB est le calcul de P(U ε), c est-à-dre le calcul de la probablté a posteror du réseau sachant ε. Les premers algorthmes d nférence exacte (par opposton à approchée ) pour les Réseaux Bayésens ont été proposés dans [Pearl, 1982] et dans [Km et Pearl, 1983] : l s agssat d une archtecture à passage de messages et ls étaent lmtés aux arbres. Dans cette technque, à chaque nœud est assocé un processeur qu peut envoyer des messages de façon asynchrone à ses vosns jusqu à ce qu un équlbre sot attent, en un nombre fn d étapes. Cette méthode a été depus étendue aux réseaux quelconques pour donner l algorthme JLO. Cette méthode est auss appelée algorthme de l arbre de joncton et a été développée dans [Laurtzen, 1988] et [Jensen et al., 1990]. Une autre méthode, développée dans [Pearl, 1988] et dans [Jensen, 1996], s appelle le «catset-condtonng» : elle consste à nstancer un certan nombre de varables de manère à ce que le graphe restant forme un arbre. On procède à une propagaton par messages sur cet arbre. Pus une nouvelle nstancaton est chose. On rétère ce processus jusqu à ce que toutes les nstancatons possbles aent été utlsées. Un autre algorthme est apparu pour la premère fos par Zhang et Poole dans [Zhang et Poole, 1994]. C est essentellement l algorthme «d élmnaton de varables» de Dechter [Dechter, 1996] ans appelée parce qu l élmne par margnalsaton (c est-à-dre ntégraton) les varables les une après les autres. Un ordre dans lequel les varables dovent être margnalsées est exgé comme entrée de cet algorthme ; on l appelle l ordre d élmnaton. Le calcul dépend de cet ordre. La complexté de l algorthme d élmnaton de varables peut être mesurée par le nombre d opératons d addtons et de multplcatons numérques qu l exécute. Trouver un ordre d élmnaton optmal est un problème NP-dffcle. L nférence dans des réseaux quelconques est NP-dffcle [Cooper, 1990], la complexté de l nférence peut condure à des temps de calculs prohbtfs pour des réseaux complexes. Il est mpossble de calculer drectement la lo de probablté d un nœud ou d effectuer une nférence plus complexe, d où l utlté d ntrodure un nouveau type d nférence nommé nférence approxmatve. Les méthodes d approxmaton cherchent à estmer la dstrbuton de probablté complète représentée par le réseau, en effectuant des trages aléatores avec des los smples [Jordan et al., 1999][Mackay, 1999][Jaakkola et Jordan, 1999]. Les deux grandes 59

68 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton classes d algorthme d nférence approxmatve sont l algorthme de Monte Carlo [Mackay, 1999] et l algorthme varatonnel [Jordan et Wess, 2001]. Nous proposons de détaller dans cette parte, deux algorthmes d nférence exacte : l algorthme «message passng» de Pearl, dans le cas de Réseau Bayésen à structure d arbre, et l algorthme «arbre de joncton», pour des réseaux à structures quelconques Algorthme Message Passng de Pearl Cette technque est utlsée dans les réseaux acyclques orentés. Elle consste, comme le porte son nom, à l envoe et la récepton de messages portant des valeurs ou encore des coeffcents pour la mse à jour des tables de probabltés de chaque nœud. Le prncpe de cet algorthme consste dans le fat que chaque nœud envoe des messages vers tous ses fls et tous ses parents afn de les nformer du changement de sa table de probablté. Les nœuds fls et parents révsent à ce fat, leurs propres tables de probabltés. Le nœud A peut envoyer un message à son fls B, π B (A), pour que ce derner pusse calculer sa valeur : P(a) A P(b a) B π ( b) = p( b, a) = p p( b a). p( a) a a P(a) Le nœud B peut envoyer un message à son père A. λ B (A), pour qu l pusse calculer sa valeur : P(a) P(b a) A B = b 0 λ p a b ) = p( b a). p( ) ( 0 0 a P(b 0 a) Applcaton du «message passng» dans le cas d un arbre : Soent un nœud X, Y le ème enfant de X, A le seul parent de X (pusqu l s agt d un arbre) et sachant E l évdence, alors nous avons les assertons suvantes : P(X E) = λ(x)п(x) λ(x) = П λ Y (X) П(X) = a p(x a)п X (a) X envoe les nformatons suvantes : à son père : λ X (A) = X λ(x) p(x a) à ses enfants : П Y (X) = П(X)П j λ Yj (X) Etant donnés les cas partculers suvants : X racne : П(X) = P(X) X feulle non nstancée : λ(x) = [1 1] X nœud nstancé : λ(x) = [001 0] (la poston du 1 correspond à la valeur donnée à X). 60

69 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton Algorthme Arbre de Joncton L algorthme de l arbre de joncton dt JLO, des noms de ses auteurs : Jensen F. V., Laurtzen S. L. et Olesen K. G. s applque à deux réseaux ne comprenant que des varables à valeurs dscrètes [Laurtzen, 1988] [Jensen et al., 1990]. L algorthme se comporte de la façon suvante : - La phase de constructon : elle consste à applquer des transformatons graphques sur un Graphe Acyclque Orenté (GAO) afn d obtenr la structure fnale : Arbre de Joncton. Ces transformatons mplquent un certan nombre de structures ntermédares et peuvent être récaptulées par : 1. Moralsaton : constructon d un graphe non drgé, appelé graphe moral ; 2. Trangulaton : ajout sélectf des arcs au graphe moral pour former un graphe trangulé ; 3. A partr du graphe trangulé, on construt des ensembles de nœuds appelés clques. Chaque nœud content une ou pluseurs varables du Réseau Bayésen orgnal. 4. Pour construre l arbre de joncton, on connecte les clques pour former un arbre non drgé. - La phase de propagaton : elle consste à la propagaton des nouvelles nformatons concernant une ou pluseurs varables à l ensemble du réseau, de manère à mettre à jour l ensemble des dstrbuton de probabltés du réseau. a. Moralsaton L étape de la moralsaton consste à marer les parents de chaque noeud deux à deux, pus à élmner les drectons dans le graphe obtenu. Sot la défnton suvante d un graphe moral : Défnton 3.1 : Sot G = (V, A) un graphe orenté. On dt que le graphe M = (V, E M ) est le graphe moral de G s et seulement : - M n est pas orenté. - A E M. - (u, v) V V, F(u) F(v) (u, v) E M, où F(u) est l ensemble des enfants de u. Sot G un graphe acyclque orenté d un Réseau Bayésen. Le graphe moral G M qu correspond à G est construt de la façon suvante : 1. Créaton d un graphe non orenté G u en copant G sans les drectons des arcs. 2. Créaton de G M à partr de G u : pour chaque nœud V et ses parents Pa(V) dans G nous connectons chaque pare de nœuds dans Pa(V) en ajoutant un arc non oranté à G u. La fgure 3.3 montre la moralsaton du graphe acyclque orenté de la fgure 3.2. B A C G D F I H Fgure 3.2 : Graphe acyclque orenté 61

70 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton B A C G D I H F b. Trangulaton Fgure 3.3 : Graphe moral Un graphe non orenté est trangulé s chaque cycle de longueur quatre ou plus, content un arc qu rele deux nœuds non adjacents dans le cycle. Sot le défnton suvante d un graphe trangulé : Défnton 3.2 : Sot G(V, E) un graphe non orenté. Un graphe T = (V, E T ) est un graphe trangulé de G s et seulement s : - T n est pas orenté ; - E E T ; - Pour tout cycle [v 0, v 1,, v n, v 0 ] de longueur supéreure ou égale à 4, l exste > j+1 tel que (v, v j ) E T est un arc. La procédure de trangulaton (algorthme d élmnaton) élaborée par [Kjaerulf, 1990] et décrte par : 1. Fare une cope du graphe morale G M qu on appelle G M. 2. Tant qu l reste des nœuds dans G M on fat les étapes suvantes : a. Sélectonner un nœud V de G M. b. Ce nœud V et ses vosns dans G M forment une clque. Connecter tous les nœuds de cette clque. Pour chaque arc ajouté dans G M, ajouter le même arc dans G M. c. Enlever V de G M. 3. G M, modfé par les arcs ajoutés dans les étapes précédentes, est trangulé. La fgure 3.4 montre les étapes de la trangularsaton par l algorthme précédent du graphe moral de la fgure 3.3. B D A F C I G H Varable Clque Arc ajouté élmnée H IGH Aucun G CIG Aucun F DIF Aucun C ACI (A, I) B ADB (A, D) D ADI Aucun I AI Aucun A A Aucun Graphe trangulé Algorthme d élmnaton Fgure 3.4 : Trangularsaton du graphe moral 62

71 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton c. Clques Une clque est un sous-graphe dont les nœuds sont complètement connectés. Nous proposons la défnton suvante : Défnton 3.3 : Sot G(V, E) un graphe et W V. W est une clque s et seulement s : (u, v) W W, (u, v) E Défnton 3.4 : Sot G(V, E) un graphe et W une clque. W est une clque maxmale s et seulement s l n exste aucun sur-ensemble U W, tel que U sot une clque. Ans on peut dre qu un clque dans un graphe non orenté G et complète et maxmale s elle est un sous-graphe complet et maxmal tel que : - Complet sgnfe que chaque pare de nœuds (varable) dstncts est connectée par un arc. - Maxmal sgnfe que la clque n est pas complètement contenue dans un sous-graphe complet. Dans la fgure 3.4, les clques du graphe trangulé sont (IGH), (CIG), (DIF), (ACI), (ADB) et (ADI). d. Arbre de joncton A présent nous avons un graphe non orenté, nous cherchons à construre un graphe optmal de joncton en connectant les clques obtenues dans le paragraphe précédent. Nous proposons les deux défntons suvantes : Défnton 3.5 : Sot G un ensemble de clques à partr d un graphe non orenté et que ces clques de G sont rangées dans un arbre T. T est un arbre de regroupement s pour chaque pare de nœuds (u, v) de T, tous les nœuds dans le chemn entre v et u contennent l ntersecton v u. La fgure 3.5 montre un exemple de l arbre de regroupement. Nous remarquons que (a) est un arbre de regroupement par contre (b) n est le pas car l ntersecton de deux clques (BCDE) et (CHGJ) est C qu n appartent pas à la clque (DEFI). BCDE BCDG CHGJ (a) DEFI BCDE DEFI BCDG CHGJ (b) Fgure 3.5 : (a)- arbre de regroupement (b)- n est pas un arbre de regroupement Défnton 3.6 : Sot G = (V, E) un graphe orenté acyclque. Sot M = (V, E M ) le graphe moral assocé à G, T = (V, E T ) le graphe trangulé assocé à M. On dt que J = (V, A ) est un arbre de joncton assocé à G s et seulement s : 63

72 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton - J est un arbre de regroupement sur V. - Toute clque maxmale dans T est un nœud de J. Etant donné un ensemble de n clques, on peut construre un arbre de clques en connectant tératvement chaque pare de clques par un arc jusqu à ce que les clques soent toutes connectées par n-1 arcs. Nous rappelons que les séparateurs contennent les varables communes à deux clques connectées dans l arbre de joncton. 1. Constructon de l arbre des clques a. On commence avec un ensemble de n arbres, chaque arbre se compose d une smple clque et d un ensemble de séparateurs vde S. b. Pour chaque pare dstncte de clques X et Y : - Nous créons un séparateur S XY = X Y, - On nsère S XY = X Y dans S. c. On répète l nstructon (b) jusqu à obtenr n-1 séparateurs tels que : - On sélectonne un séparateur S XY de S suvant le crtère ndqué c-dessous. Pus on élmne S XY de S. - On nsère S XY entre X et Y unquement s X et Y sont dans des arbres dfférents. 2. Chox des séparateurs approprés : on décrt comment chosr le future séparateur en se basant sur les deux notons de masse et de coût. La masse d un séparateur S XY est le nombre des varables de X Y. Le coût d un séparateur S XY est la somme des pods de X et Y où le pods est défn par : - Le pods d une varable V est le nombre de ses valeurs d états possbles. - Le pods d un ensemble de varables X est le produt des pods des varables de l ensemble X. Nous pouvons mantenant sélectonner le futur séparateur de l ensemble S, quand nous exécutons l étape (c) : - L arbre de clque résultant dot satsfare à la proprété (Jon tree property) présentée cdessous et auss on dot chosr le séparateur ayant la plus grande masse. - Quand deux séparateurs ou plus ont la même masse, on chost le futur séparateur ayant le plus pett coût. Proprété 3.1 (Jon tree property) : Etant donné un Réseau Bayésen (V, A) avec V = (V 1,, V n ), un arbre non drgé T et deux clques X et Y dans T. Toutes les clques sur le chemn X et Y contennent X Y, et auss pour chaque varable V V, la famlle de V notée F V (V et ses parents Pa(V )) est au mons ncluse dans un groupement. Cec termne la constructon de l arbre de joncton. Il est à noter que la complexté dans le pre des cas de l heurstque de la trangulaton est de l ordre de O(N 3 ) et que la créaton de l arbre est de l ordre de O(N 2 logn) [Bellot, 2002]. La fgure 3.6 montre l arbre de joncton obtenue à partr des graphes des fgures 3.3, 3.4 et

73 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton ABD ADI ACI CIG AD AI CI Séparateur DI IG Clque ABD DIF IGH Fgure 3.6 : Arbre de joncton e. Structure secondare d un Réseau Bayésen Nous proposons, de défnr une foncton de potentel comme sut : Défnton 3.7 : Sot un ensemble de varables U, on défnt la foncton potentel par : Φ U : U IR + u Φ U (u) U est appelé domane de la foncton Φ U. Il est auss noté dom(φ). Nous défnssons deux opératons sur le potentel : la margnalsaton et la multplcaton. Soent deux ensembles de varables X et Y tels que X Y et son potentel Φ Y. La margnalsaton de Φ Y dans X est un potentel noté Φ X tel que : Φ X = ΦY (3.3) Y X La multplcaton de deux potentels Φ 1 et Φ 2 est un potentel qu a les proprétés suvantes : 1. dom(φ 1 Φ 2 ) = dom(φ 1 ) dom(φ 2 ). 2. Φ 1 Φ 2 = Φ 2 Φ (Φ 1 Φ 2 )Φ 3 = Φ 1 (Φ 2 Φ 3 ). 4. Φ = 1 et 1. Φ= Φ. Etant donné un Réseau Bayésen (V, A) et son arbre de joncton est construte, on défnt sa structure secondare par deux composante graphque et numérque : 1. La composante graphque nommée Arbre de joncton se compose de: - Un arbre non drgé T tel que chaque clque (nœud dans T) dot satsfare à la proprété «Jont tree property». - Des séparateurs : c est un ensemble consttué de l ntersecton de deux clques adjacentes. 2. La composante numérque est décrte en utlsant les fonctons de potentels assocées aux clques et aux séparateurs de l arbre de joncton de la manère suvante : - Pour chaque clque X et son séparateur vosn S on a : Φ S = Φ S (3.4) X S 65

74 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton - Les potentels codent la dstrbuton jonte P(V) du réseau par : Φ X ( = (3.5) Φ P V ) j S j Avec Φ et Φ Sj sont les potentels respectfs de clque et de séparateur. X Cette nouvelle structure a une mportante proprété que pour chaque clque ou séparateur X, on a : Φ X = P(X). Dès lors, on peut calculer les probabltés margnales pour chaque varable V du réseau : P ( V ) = Φ X (3.6) X V f. Phase de propagaton Dans ce paragraphe nous allons décrre l nférence avec observaton ; c est-à-dre comment calculer P(V e) dans le contexte de l observaton e (évdence). Pour ce fat, nous proposons les défntons suvantes des notons de vrasemblance et de passage de message. Défnton 3.8 : Sot une varable V, la vrasemblance potentelle (Fndng) de V, notée Λ V est un potentel sur {V}. Λ V : {V} 0,1 v Λ V (v) On peut coder un ensemble arbtrare d observatons (consttuant l évdence) E en utlsant Λ V pour chaque varable V de la façon suvante : 1. S V E, et s V est observable on a : Λ V (v) = 1 s v est une valeur observée de V. 0 autres. 2. S V E, et s V n est pas observée alors : Λ V (v) = 1 v. Défnton 3.9 : Soent V une clque, Φ V son potentel assocé et S un séparateur vosn. Chaque séparateur S d un arbre de regroupement fat passer deux messages dans les deux drectons (convergente ou dvergente) notés Ψ S et Ψ S. Soent S 1,, S k les autres séparateurs vosns de V. On suppose que chaque S reçot un message Ψ de V. Ans V peut passer le message : V S Φ V Ψ 1 Ψ k à S et on dt que la drecton V-S est actvée. La méthode de propagaton consste à répéter l opératon de passage de message à travers les drectons actvées. On ne dot pas arrêter le processus avant que les messages passent dans toutes les drectons pour chaque arc. Dans ce cas on dt que l arbre de joncton est complet. Après avor termné la parte de passage de message on peut calculer la probablté jonte de chaque clque dans le contexte de l observaton e en utlsant les formules suvantes : Soent T un arbre de joncton représentant un Réseau Bayésen sur l unvers U et e l observaton. On suppose que T est complet. Soent V une clque, Φ V son potentel assocé, S 1,, S k ses séparateurs vosns et Ψ 1 Ψ k les messages drgés sur V, alors : ΦV Ψ Ψ P ( V, e) 1... (3.7) = k Sot S un séparateur avec les Ψ S, Ψ S les messages de passage pour S. On a : 66

75 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton S P ( S, e) = ΨS Ψ (3.8) L nférence avec observaton se base sur les étapes suvantes : 1. Intalsaton : se compose des étapes suvantes : Pour chaque clque et séparateur X, on met Φ X à 1 : Φ X 1 ; Pour chaque varable V : on affecte V à une clque X qu content F V ; on multple Φ X par P(V Pa(V)) : Φ X Φ X.P(V Pa(V)) ; On met chaque vrasemblance Λ V (v) à 1 : Λ V (v) 1 2. Entrée de l observaton : on fat rentrer les observatons dans l arbre de joncton de la façon suvante : Coder chaque observaton V = v comme une vrasemblance Λ. Identfer la clque contenant V (F V ). new Mse à jour des Φ X et Λ : Φ X Φ X Λ et Λ V Λ new new V 3. Margnalsaton et normalsaton : après avor propagé les nformatons dans l arbre de joncton, on passé à la dernère étape. Pour chaque clque (ou séparateur) X, on a Φ X = P(X, e) où e est l observaton. Quand on margnalse le potentel de clque Φ X d une varable V, on obtent : P(V, e) = X V Φ X. Notre objectf est de calculer P(V e) probablté de V étant donnée e. On obtent P(V e) à partr de P(V, e) en normalsant P(V, e) : P( V, e) P( V, e) P( V e) = = (3.9) P( e) P( V, e) V La probablté de l observaton P(e) est la constante de normalsaton. 1.5 Synthèse Les Réseaux Bayésens représentent un outl de chox dans la représentaton de connassances et dans l explotaton de celles-c. Par alleurs, pluseurs domanes sont ntéressés par ce type de représentaton. En fat, l nférence sur les réseaux bayésens est un problème NP-dffcle 15 [Cooper, 1990], c est pourquo l état convenable de le vor de façon complète pour des nstances réalsables et ncomplète dans les autres cas. Après cette approche statque, pour aller plus lon, l pourrat être ntéressant de se pencher sur les réseaux bayésens dynamques. Ceux c sont une répétton du réseau classque dans lesquels on rajoute un len causal d un pas de temps à l autre. Ils contennent chacun un certan nombre de varables aléatores représentant les observatons et les états cachés du processus. Le temps c est dscret et chaque unté de temps représente une nouvelle observaton, l unté de temps n a donc pas toujours la même valeur en temps réel, la complexté nférencelle des réseaux bayésens dynamques est évdement ben plus élevée que celle vu précédemment. Enfn, on retrouve les réseaux bayésens dans beaucoup d applcatons, sans même le savor. Mcrosoft par exemple est un fervent utlsateur de cette structure (Answer Wzard, assstant Offce par exemple), mas auss Google et Mozlla va leurs fltres ant-spam. De nombreux travaux dans le domane sont réalsés, preuve de l ntérêt porté par la communauté scentfque, et de la pussance de ces réseaux. Par alleurs, nous nous ntéressons V V new V 15 Cec parce que dans les réseaux généraux, l peut exster pluseurs chemns entre les pares de nœuds du graphe. 67

76 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton prtculèrement à l applcaton des réseaux bayésens au domane de la recherche d nformaton. 2. Modèle Bayésen de RI Des travaux récents ont perms d exploter l apport des Réseaux Bayésens (RBs) pour défnr des modèles de RI. L avantage apporté par l utlsaton de ces réseaux a été prncpalement de pouvor combner des nformatons provenant de dfférentes sources pour resttuer les documents qu seraent les plus pertnents étant donnée une requête. 2.1 Archtecture générale du modèle Bayésen La fgure 3.7 présente l archtecture générale du modèle de RI basé sur les réseaux Bayésens. Les noeuds du réseau dans un modèle BNR (modèle RI basé sur les réseaux Bayésens) [De Campos et al., 2002] [De Campos et al., 2003] ont été décomposés en deux ensembles de varables T et D : - L'ensemble des termes T = (TB1B, TB2B,, TBMB), où M est le nombre de termes dans la collecton ; - L'ensemble des documents de la collecton D = (DB1B, DB2B,, DBNB), où N est le nombre de documents dans la collecton. Les domanes des noeuds sont bnares {vra, faux} sgnfant que le noeud est nstancé ou non. T est l ensemble des noeuds termes; une varable T assocée à un terme prend ses valeurs dans le domane dom(t ) = {t, t }, t désgne le fat que le terme T est non pertnent et t désgne le fat qu l est pertnent. Un terme est consdéré comme pertnent s tous les documents qu le contennent sont jugés pertnents par l utlsateur et non pertnent snon. D est l ensemble des noeuds documents, une varable D j prend ses valeurs dans le domane dom(d j ) = {dj, d j }, d j sgnfe «le document D j n est pas pertnent» et d j sgnfe «le document D j est pertnent». Un document est pertnent s l répond au beson utlsateur. Sous réseau termes T5 T9 T1 T3 T7 T11 T2 T4 T9 T8 T10 T12 D1 D2 D3 D4 Sous réseau documents Fgure 3.7 : Archtecture générale du modèle Bayésen 68

77 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton 2.2 Les modèles de RI basés sur les réseaux Bayésens Les Réseaux Bayésens (RB) ont été utlsés en RI depus les années 1990 avec [Pearl, 1988], [Buntne, 1994], [Jensen, 2000]. Ils fournssent un formalsme pour fusonner des nformatons provenant de dfférentes sources (requêtes passées, rénjecton de pertnence), afn de resttuer les documents, et ont perms de combner dfférentes approches de RI [Rbero-Neto et al., 1996]. Les modèles les plus connus en RI utlsant les RBs sont les Réseaux d Inférence [Turtle et Croft, 1990] et les Réseaux de Croyance Modèle à base de Réseaux Bayésens d Inférence Un réseau d nférence en RI est matéralsé par un graphe orenté sans cycle. Les nœuds du graphe correspondent à des concepts, à des groupes de mots ou à des documents (des varables propostonnelles). Un nœud partculer va représenter la requête. Les arcs du graphe représentent des relatons sémantques entre les nœuds ou les propostons. A ces nœuds sont assocés des probabltés de croyance. Ce modèle repose sur le théorème de Bayes pour l expresson de la probablté condtonnelle et sur la stratége d actvaton propagaton (spreadng actvaton). La recherche peut être donc consdérée comme un processus de rasonnement ncertan pour estmer la probablté qu un document satsfasse la requête. La stratége utlsée dans I3R (Intellgent Interface for Informaton Retreval) est representatve de ce modèle de recherche d nformaton. Elle se fat en suvant les étapes suvantes [Croft et Thompson, 1987] : - Tout d abord, on part d un ensemble de nœuds qu représentent les termes de la requête ; - Pus, on actve tous les nœuds qu sont connectés à ces ponts d entrée par un len ; - Ensute, le processus de propagaton contnue, en respectant certanes contrantes, jusqu à la vérfcaton d une certane condton (un seul pour l actvaton). Le nveau d actvaton décroît avec la longueur du chemn parcouru ; - Fnalément, les nœuds sont extrats et classés par ordre de leur nveau d actvaton. Des varantes de ce modèle ont été proposées pour tenr compte de la nature des lens entre les nœuds et de leur force, ce qu permet de gérer meux les nveaux d actvaton. Dans le système GRANT [Cohen et Kjeldsen, 1987], les contrantes sont de tros types : - Contrante de dstance : l actvaton cesse au cnquème nveau ; - Contrante de branchement : l actvaton est nterrompue lorsque les nœuds attents sont accessbles par un grand nombre d arcs ; - Contrante de chemn : l actvaton prvlège des nœuds sensbles à certanes connassances ou méta-connassances par rapport à un domane représenté. Ces paramètres ne sont pas toujours facles à détermner. C est le plus souvent en expérmentant qu on les détermne parce qu ls sont lés notamment au domane traté. Par alleurs, les Réseaux d Inférence sont utlsés auss dans le système INQUERY [Turtle et Croft, 1990] [Turtle, 1991] [Turtle et Croft, 1991] et ses performances sont lées à sa capacté à représenter dfférentes approches de la RI et à les combner dans un seul modèle. Le réseau d nférence est composé de deux réseaux : le réseau document et le réseau requête. Le réseau document représente les documents de la collecton et content dfférents schémas de représentaton (résumés, textes, etc.). Les noeuds du réseau requête représentent les concepts 69

78 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton de la requête et le beson utlsateur. Les réseaux document et requête sont lés par l ntermédare des noeuds termes d ndexaton. Les valeurs des noeuds sont bnares {vra, faux} et les valeurs des arcs relant les nœuds termes au noeud requête sont obtenues par l utlsaton d un des schémas des modèles connus de la RI (booléen, vectorel, etc.). Ce système évalue la pertnence du document étant donnée une requête, et le résultat est une lste de documents pondérés. Ces pods sont consdérés comme des coeffcents de smlarté proportonnels à la fréquence des termes dans le document et nversement proportonnels à celle dans la collecton. D autres travaux basés sur ces réseaux ont été proposés pour les systèmes hypertextes [Savoy et al., 1991] Modèle à base de Réseaux Bayésens de croyance Les Réseaux de Croyance (RC) [Rbero-Neto et al., 1996] [Slva et al., 2000] ont été utlsés pour extrare des connassances des requêtes du passé et les combner avec le modèle vectorel [Salton et al., 1994]. La sélecton d un document s appue sur la smlarté entre le document d j et la requête Q, calculant la probablté P(d j = 1 Q = 1). En effet, Q = 1 et d j = 1 sgnfent respectvement Q actvé et d j actvé. Crestan et al. [Crestan et al., 2003], ont proposé un modèle pour la RI basé sur les réseaux Bayésens pour les documents structurés. Un réseau à deux structures (BNR- 2) [De Campos et al., 2003 ] a été conçu et étendu à un réseau mult-structures. L ensemble des varables dans le modèle BNR-2 est composé de deux ensembles dstncts, l ensemble des varables aléatores bnares défnssant les termes du dctonnare et l ensemble des varables aléatores bnares représentant les documents de la collecton. Chaque document est composé d une structure hérarchque comportant dfférents nveaux d abstracton (ttre, auteur, secton, paragraphe, etc.). Le processus d nférence calculé, étant donné une requête, les probabltés a posteror de la pertnence de toutes les untés de structure. Les documents de score élevé sont resttués. Certanes recherches récentes [De Campos et al., 2003 ] [Fernandez et al., 2003] ont proposé des modèles de Réseaux Bayésens avec une topologe flexble qu peut tenr compte des relatons de dépendance exstant entre les termes ou les documents. Le sens des représentatons des documents et du beson utlsateur pour tous ces modèles est dentque. 3. Reformulaton de requêtes dans le modèle Bayésen Nous nous ntéressons dans cette secton aux technques de Relevance Feedback (RF) dans le modèle BNR. Sot b le nombre de documents jugés par l'utlsateur. L ensemble { D = d,..., D = d k k k h k } 1 1 h content les documents pertnents et l'ensemble { D = k d h k,..., D h k = d + + b k } content les 1 1 b documents non pertnents, alors la nouvelle requête sera: k k k h k, D = 1 1 h k d h k,..., D h k = d b kb Q1 = Q { D = d,..., D = d 1 } (3.10) Chaque noeud X non-nstancé reçot de tous ses noeuds parents un message sous forme de vecteur Π X (Z), l reçot encore de tous ses noeuds fls Y un message sous forme vecteur λ Y (X ). Chaque noeud nstancé X reçot un message λ 0 (X) d'un noeud fls magnare avec : λ 0 (X) = (1, 0) s X = x λ 0 (X) = (0, 1) s X = x (3.11) 70

79 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton S l'évdence de X est partelle par rapport à une observaton (Obs) alors : λ 0 (X) = (P(Obs x ), P(Obs x)) (3.12) Dans ce cas le plus mportant est le rapport P(Obs x )/P(Obs x) et on peut conclure que les deux expressons λ 0 (X ) = (P(Obs x ), P(Obs x)) et λ 0 (X ) = (P(Obs x )/P(Obs x), 1) sont équvalentes. Pour que tous les noeuds reçovent λ 0, on utlse le vecteur λ 0 (X ) = (1, 1) pour les nœuds non nstancé. Le tableau 3.1 représente la table de contngence des termes. Nous défnssons quelques notons de base qu seront utlsées dans la sute de cette secton. T = t t T = Total Non pertnent n rt n rt n r pertnent n rt n rt n r n t n R t Q Avec : Tableau 3.1 : Table de contngence des termes R Q : l ensemble des documents resttués et évalués pour une requête Q ; R Q : cardnale de RBQB ; n r : Nombre de documents pertnents ; n r : Nombre de documents non pertnents ; n t : Nombre de documents resttués qu contennent le terme t ; n t : Nombre de documents resttués qu ne contennent pas le terme t ; n rt : Nombre de documents pertnent qu contennent le terme t ; n rt : Nombre de documents non pertnent qu contennent le terme t ; n rt : Nombre de documents pertnent qu ne contennent pas le terme t ; n rt : Nombre de documents non pertnent ne contennent pas le terme t. Par alleurs, les termes ndexant les documents resttués sont classés en tros catégores : + - Terme qu se trouve dans des documents pertnents seulement (termes postfs I ). - Terme qu se trouve dans des documents non pertnents seulement (termes négatfs I ). ± - Terme qu se trouve dans des documents pertnents et non pertnents (termes neutres I ). Il faut dstnguer entre les termes ndexant les documents trouvés et la requête et entre les autres qu ndexent les documents trouvés et absents de la requête. Soent encore: 71

80 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton q I : L ensemble de termes ndexant les documents trouvés et la requête et qu sera utle pour répondérer les termes de la requête ntale ; e I : L ensemble des termes ndexant les documents trouvés et absents de la requête et ce derner ensemble est utlsé pour représenter les termes à ajouter (Expanson de la requête). 3.1 Repondératon de termes de la requête ntale Q Les termes de l'ensemble I q qu étaent nstancés comme pertnents, reçovent un message λ 0 (T) = (0,1). Les termes de la requête ntale qu occurrent seulement dans des documents non pertnents ne sont pas consdérés. Par conséquence, ls devraent être pénalsés en dmnuant leur pertnence. Les autres termes (λ 0 (T) = (1,1)) sont consdérés comme des termes n'appartenant pas à la requête (nonquery term) et l est plus valable d'utlser le vecteur λ 0 (T ) = ( γ t,1) à la place de λ 0 (T ) = (1,1) avec 0πγ t π1. La méthode proposée par [De Campos et al., 2003] consdère que γ t est très sensble au nombre de documents non pertnents contenants T ( n défne c-dessus) et a montré que la melleur valeur de γ est celle qu tend vers le vecteur λ 0 (T) = (1,1) et a proposé une foncton t qu satsfat cette condton avec 0.5πγ t π1. 1 λ 0( T ) = (1,1) (3.13) n + 1 rt q D'autre part, les termes appartenants à I I + q et ceux qu appartennent à I I ± sont les plus mportant mas en prncpe on ne peut pas augmenter la pertnence de termes postfs ou neutres qu occurrent dans la requête ntale car ls sont déjà complètement pertnents. Ans, la premère approche smple qu s'appelle tr-ns et qu trate ce genre de termes propose que chacun de ces termes reçove le message λ0 (T) = (0,1). Une autre approche est proposée pour augmenter la pertnence de ce genre des termes qu s'appelle tr-rep. Cette approche est basée sur la duplcaton de ces noeuds termes dans le réseau. Le nombre de duplcaton de chacun de ces noeuds est égal au nombre de document pertnents contenant ce terme ( n ) et après l faut nstancer les noeuds duplqués comme pertnents. rt Pour changer la structure du réseau, l sufft de connecter les noeuds termes duplqués comme fls de T et connecter les noeuds documents fls de T comme fls des noeuds duplqués. La fgure 3.8 montre une duplcaton de tros fos le terme T : rt T h T T k T h T T k T T D u D j D u D j Fgure 3.8 : Duplcaton tros fos du terme T 72

81 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton Par alleurs, l est nutle de changer la structure du réseau. En effet, le changement se fat vrtuellement et l sufft de multpler par n le facteur qu calcule le pods du terme dans la rt q + formule de probablté générale et cec pour chaque terme appartenant à I ( I I ± ). En conséquence, la pertnence de ces termes va augmenter n fos automatquement. 3.2 Expanson de la requête L expanson de la requête consste à ajouter des nouveaux termes à la requête ntale Q. Comme nous l avons ndqué dans la secton 3.1, l exste tros classes de termes + ± e ( I, I, I ). Pusque I est l ensemble de termes duquel nous pouvons chosr les termes à ajouter à la requête ntale, les nouveaux ensembles des termes seront donc : - Les termes négatfs qu appertennent à - Les termes postfs qu appertennent à rt e I I ; e I I + ; - Les termes neutres qu appertennent à I e I ±. Tous les termes négatfs sont nstancés comme non pertnents et ont reçu le vecteur λ0(t ) = (1,0). Les termes neutres ont reçu le vecteur λ0(t ) = (1,1). En générale la probablté qu'un terme sot pertnent ou non est désgnée par P r t ) (respectvement P r t ) ). Ces deux probabltés sont utlsées pour calculer le vecteur ( λ0(t ) et dans ce cas : ( λ0(t ) = ( P r t ), P r t ) ) (3.14) ( ( P( r t ) Où λ 0( T ) = (,1) (3.15) P( r t ) Pluseurs méthodes ont été utlsées pour calculer ces probabltés, parm lesquelles nous ctons la méthode «qe-gmle» [De Campos et al., 2003] : nrt P ( r t ) = et n t nrt P ( r t ) = (3.16) n t En concluson, la reformulaton de requête va l'applcaton de la technque de RF permet d'augmenter substantellement le nveau de précson par rapport à la requête ntale. Il s agt donc d un moyen effcace d'améloraton des performances du système de repérage d'nformaton. S pluseurs paramètres dovent être consdérés pour une utlsaton optmale des méthodes, l n'en demeure pas mons que les dfférentes varantes de la technque ont donné des résultats largement postfs. Le RF ncrémental de par son nterface utlsateur convvale et sa formule unfée et smplfée devrat permettre de la vulgarser. Aujourd'hu, l'avantage procuré par cette technque est tel que pluseurs moteurs de recherche Web l'ntègrent à leur mécansme de recherche. L'mpact drect est l'augmentaton des requêtes soumses aux moteurs. Cette charge accrue sera d'autant plus lmtée qu'l y aura convergence des résultats obtenus vers une satsfacton plus complète des usagers. Cependant, le modèle proposé par Brn et al. [Brn et al., 2004abc], tente de fournr un autre sens possblste à ces représentatons ans qu à l évaluaton (comparason de ces deux représentatons). Une réponse à la problématque peut être apportée par l utlsaton des Réseaux Possblstes (RP). 73

82 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton 4. Les Réseaux Possblstes 4.1 La théore des possbltés La théore des possbltés ntrodute par Zadeh [Zadeh, 1978] et développée par Dubos et Prade [Dubos et Prade, 1988] [Dubos et Prade, 1998] trate l ncerttude sur l ntervalle [0,1], appelé échelle possblste, d une manère qualtatve ou quanttatve. En fat, Lotf Zadeh a formalsé la théore des possbltés pour trater l ncerttude permettant ans de trater l gnorance et de prendre en compte la pertnence d une nformaton ncertane. Dans cette théore, l nformaton fourne par une source sur la valeur réelle d une varable x est codée sous forme d une dstrbuton de possbltés dont les valeurs sont supposées être mutuellement exclusves, pusque x prend en défntve une seule valeur (sa vrae valeur), qu appartent à un ensemble Ω donné [Sandr, 1991]. La théore des possbltés se base sur deux mesures de confance : la mesure de possblté et la mesure de nécessté [Faban, 1996] Dstrbuton de possblté La théore des possbltés est basée sur les dstrbutons de possblté. Une dstrbuton de possblté, notée par π, est une applcaton de Ω (l unvers de dscours) vers l échelle [0,1] tradusant une connassance partelle sur le monde, noté ω. L échelle possblste est défne de deux manères. Dans le cadre numérque les valeurs des possbltés tradusent souvent les bornes supéreures des probabltés. Dans le cadre qualtatf, les valeurs de possblté peuvent être consdérées comme un ordre de classement des états possbles. La combnason des dstrbutons de possblté, exprmée à l ade des normes trangulares (t-normes) dépend du cadre. Les opérateurs «produt» et «mnmum» peuvent être utlsés pour combner des dstrbutons de possblté ndépendantes dans les cadres quanttatf et qualtatf respectvement. Normalsaton : Une dstrbuton de possblté est dte α-normalsée, s son degré de normalsaton, noté α(π), est égal à α. Ans : α = α( π ) = max π ( ω) (3.17) ω Lorsque α = 1, π est dte normalsée. Margnalsaton : Sot une dstrbuton de possblté jonte, π sur Ω, une dstrbuton margnale relatve aux sous ensembles de varables peut être dérvée en utlsant l opérateur maxmum. Ans, X V x dom(x) : [ X ] } π ( x ) maxω { π ( ω) : ω = x (3.18) = Ω Où V : ensemble de varables {A 1, A 2,..., A N } ; X : sous ensemble de V ; dom(x) : domane de X, produt cartésen des domanes des varables de X ; x : une nstance de X, s X = {A 1, A 2,, A j }, alors x = (α 1, α 2,..., α j ) ; ω[x] = x : confguraton de X dans ω. Une dstrbuton de possblté π sur permet de qualfer les évènements en terme de mesure de plausblté et de certtude respectvement. 74

83 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton Mesures de possblté et de nécessté Dre qu un évènement est non possble n mplque pas seulement que son événement contrare est possble mas qu l est certan. Deux mesures duales sont utlsées : la mesure de possblté Π(φ), et la mesure de nécessté N(φ). - La possblté d un évènement A, notée Π(A) est obtenue par Π(A) = max x A π(x) et décrt la stuaton la plus normale dans laquelle A est vrae ; - La nécessté N(A) = mn x A 1 - π(x) = 1 - Π( A ) d un événement A reflète la stuaton la plus normale dans laquelle A est faux. La dstance entre N(A) et Π(A) évalue le nveau d gnorance sur A. Rappelons que N(A) > 0 mplque Π(A) = 1. Lorsque A est un ensemble flou, cette proprété n est plus vérfée et dans ce cas l négalté N(A) Π(A) est vérfée Condtonnement possblste En logque possblste, le condtonnement consste à modfer la dstrbuton de possblté ntale π à l arrvée d une nouvelle nformaton. Sot φ, une sous classe de ω, φ = [] l ensemble des modèles de. La dstrbuton ntale π est remplacée par π = π( φ). Dans un cadre quanttatf, les éléments de φ sont proportonnellement modfés : π ω π ω φ = ( ) ( ω φ Π φ s p ) ; 0 Snon (3.19) ( ) avec : p : condtonnement basé sur le produt dans un cadre qualtatf, le degré de possblté maxmal est affecté aux melleurs éléments de φ : 1 s π ( ω) = Π( ω) etω φ π ( ω m φ) = π ( ω) s π ( ω) p Π( ω) etω φ (3.20) 0 snon m : condtonnement basé sur le mnmum L ndépendance possblste La théore des possbltés offre pluseurs défntons de l ndépendance [Ben Amor et al., 2002] [De Campos et al., 1999a] [De Campos et al., 1999b]. En partculer, deux défntons ont été utlsées pour le développement des réseaux possblstes : - Relaton de non-ntéractvté [Zadeh, 1978], cette relaton est basée sur le condtonnement ordnal et elle est défne comme sut : Π ( x y z) = mn( Π( x z), Π( y z)), x, y, z. (3.21) - Relaton d ndépendance basée sur le produt, cette relaton est basée sur le condtonnement basé sur le produt et elle est défne comme sut : Cette forme d ndépendance est défne par : Π ( x y z) = Π( x z). Π( y z), x, y, z. (3.22) Ou d une façon équvalente par : Π ( x y z) = Π( x z), x, y, z. (3.23) 75

84 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton Logque possblste La logque possblste est une extenson de la logque classque qu permet un rasonnement dans le cas d évdence ncomplète (ncerttude) et de connassances partellement ncohérentes. De pont de vue syntaxque, un pods détermnant le nveau de prorté par rapport aux autres formules est assocé à chaque formule. C est un outl de rasonnement en présence d nformatons ncertanes, basé sur la relaton de préférence entre les formules et non sur les valeurs numérques contrarement à la logque probablste. L ensemble de formules est appelé une base de connassances possblstes [Dubos et al., 1994]. De pont de vue sémantque, la logque possblste permet d ordonner les nterprétatons. Les modèles ont un degré 1 car ls sont complètement cohérents avec la base de connassances. Les contre modèles dont les degrés de prorté sont fables (pods) sont préférés aux contre modèles de degré de prorté plus mportant. Dans la logque possblste, les règles sont modélsées par des clauses logques : p q = p q (3.24) Des valeurs sont attachées aux bornes nféreures des degrés de nécessté et de possblté de p et q qu sont consdérées comme des propostons booléennes. Les axomes de la théore des possbltés permettent de modélser p mplque q avec un pods α > 0 par l négalté N(p q) α (3.25) ou d une manère équvalente par : Π (p q) 1 - α (3.26) pour sgnfer que p q est quelque peu mpossble. La dstrbuton de possblté exprmant cette nformaton (connassance) est π telle que : π(x) = 1 - α s p q vrae à l état x = 1 snon (3.27) La dstrbuton de possblté ndute par pluseurs propostons, mesurée par des nécesstés, est obtenue par une ntersecton floue (utlsant le mnmum) des dstrbutons de possblté ndutes par chaque proposton. 4.2 Réseaux Possblstes (RP) Les travaux exstant sur les réseaux possblstes sont sot des adaptatons drectes de l approche probablste [Benferhat et al., 1999], ou des méthodes d apprentssage à partr de données mprécses [Borgelt et al., 2000]. La théore des possbltés offre deux défntons du condtonnement, ce qu condut à deux défntons des réseaux causaux possblstes. Les réseaux possblstes basés sur le produt sont très smlares aux réseaux probablstes Défntons Un graphe possblste orenté sur un ensemble de varables V ={A 1, A 2,, A N } est caractérsé par une composante qualtatve et une composante numérque. La premère est un graphe acyclque orenté. La structure du graphe représente l ensemble des varables ans que l ensemble des relatons d ndépendance. La seconde composante quantfe les lens du graphe en utlsant des dstrbutons de possblté condtonnelles de chaque noeud dans le contexte de ses parents. Ces dstrbutons de possblté dovent vérfer la contrante de normalsaton. Pour chaque varable A : 76

85 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton - S A est un noeud racne et dom A le domane de A, la possblté a pror de A dot satsfare : max Π ( a ) = 1, a dom (3.28) a A - S A n est pas un noeud racne, la dstrbuton condtonnelle de A dans le contexte de ses parents dot satsfare : max Π ( a θ ) = 1, a dom (3.29) a A Avec : dom : Le domane de A A θ A : L ensemble des confguratons possbles des parents de A Réseaux possblstes basés sur le mnmum A Un graphe possblste basé sur le mnmum, noté par GP M, est un graphe possblste où les possbltés condtonnelles sont obtenues par le condtonnement mnmum (formule 3.30). La dstrbuton de possblté des réseaux possblstes basée sur le mnmum, notée par π M, est obtenue par la règle de chaînage : π M ( A1, A2,..., AN ) = MIN = 1.. N Π( A θ A ) (3.30) Avec : MIN est l opérateur mnmum Réseaux possblstes basés sur le produt Un graphe possblste basé sur le produt, noté par GP P, est un graphe possblste où les possbltés condtonnelles sont obtenues par le condtonnement produt (formule 3.31). La dstrbuton de possblté des réseaux possblstes basés sur le produt, notée par π P, est obtenue par la règle de chaînage : π A, A,..., A ) = PROD = Π( A θ ) (3.31) P ( 1 2 N 1.. N A Avec : PROD est l opérateur produt Exemple des Réseaux Possblstes La fgure 3.9 représente un exemple des réseaux possblstes. Les tableaux 3.2 et 3.3 fournssent les dstrbutons de possblté condtonnelles et a pror assocées aux varables bnares A, B, C et D. En utlsant la règle de chaînage (3.30) basée sur l opérateur mnmum, la dstrbuton jonte lée au réseau possblste est donnée par le tableau 3.4. En partculer [Ben Amor et al., 2006]: π(a) A π(b A) B C π(c A) D π(d BC) Fgure 3.9 : Exemple de réseau causal possblste 77

86 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton a Π(a) b a Π(b a) c a Π(c a) a 1 1 b 1 a 1 1 c 1 a 1 0,3 a 2 0,9 b 1 a 2 0 c 1 a 2 1 b 2 a 1 0,4 c 2 a 1 1 b 2 a 2 1 c 2 a 2 0,2 Tableau 3.2 : Dstrbuton de possblté ntales (1) π(a 1 b 2 c 1 d 2 ) = mn (π(a 1 ), π(b 2 a 1 ), π(c 1 a 1 ), π(d 2 b 2 c 1 )) = mn (1 ; 0,4 ; 0,3 ; 0,8) = 0,3. d b c Π(d b c) d b c Π(d b c) d 1 b 1 c 1 1 d 2 b 1 c 1 1 d 1 b 1 c 2 1 d 2 b 1 c 2 0 d 1 b 2 c 1 1 d 2 b 2 c 1 0,8 d 1 b 2 c 2 1 d 2 b 2 c 2 1 Tableau 3.3 : Dstrbuton de possblté ntales (2) ω π(ω) ω π(ω) ω π(ω) ω π(ω) a 1 b 1 c 1 d 1 0,3 a 1 b 2 c 1 d 1 0,3 a 2 b 1 c 1 d 1 0 a 2 b 2 c 1 d 1 0,9 a 1 b 1 c 1 d 2 0,3 a 1 b 2 c 1 d 2 0,3 a 2 b 1 c 1 d 2 0 a 2 b 2 c 1 d 2 0,8 a 1 b 1 c 2 d 1 1 a 1 b 2 c 2 d 1 0,4 a 2 b 1 c 2 d 1 0 a 2 b 2 c 2 d 1 0,2 a 1 b 1 c 2 d 2 0 a 1 b 2 c 2 d 2 0,4 a 2 b 1 c 2 d 2 0 a 2 b 2 c 2 d 2 0,2 Tableau 3.4 : Dstrbuton de possblté jonte Propagaton dans les Réseaux Possblstes Un des tratements les plus ntéressants que l on peut applquer sur les réseaux possblstes est d évaluer l mpact de la réalsaton d un certan événement sur le reste des varables. Ce tratement peut être réalsé à travers les algorthmes de propagaton qu consstent à calculer les dstrbutons de possblté a posteror pour chaque varable A sachant l évdence E sur le reste des varables. Dans les réseaux bayésens probablstes, ce problème est classé comme NP-dffcle, sauf pour les polyarbres (graphes smplement connectés) où la propagaton peut être réalsée en un temps polynomal [Cooper, 1990]. Pluseurs algorthmes de propagaton dans les réseaux Bayésens ont été développés. Ces algorthmes peuvent être classés en deux catégores : - méthodes exactes tels que l algorthme de Km et Pearl [Pearl, 1988] (valable pour les graphes orentés acyclques sans boucles) et l algorthme de propagaton dans les arbres de joncton [Jensen, 1996] [Laurtzen et al., 1988] où les graphes ntaux avec boucles sont transformés en arbres de joncton sans boucles. - méthodes approxmatves qu fournssent une estmaton des los margnales et s avèrent utles avec certanes applcatons de grandes talles. On peut cter à ttre d exemple la méthode Monte-Carlo [Chavez et Cooper, 1990]. Les algorthmes de propagaton possblstes qu ont été proposés dans la lttérature sont, prncpalement, une adaptaton drecte des méthodes exactes [Fonck, 1994] [Borgelt et al., 1998], avec la même complexté algorthmque. Par alleurs, les algorthmes proposés pour les réseaux possblstes basés sur l opérateur produt sont très semblables aux algorthmes probablstes pusqu ls utlsent le même opérateur. Cec n est pas le cas s on utlse l opérateur mnmum. En effet, cet opérateur 78

87 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton possède des proprétés partculères, telles que l dempotence, qu peuvent être explotées afn d évter les adaptatons drectes. Ces proprétés ont motvés [Ben Amor et al., 2003] pour meux étuder ces réseaux et proposer un nouveau algorthme de propagaton pour les réseaux possblstes basés sur le condtonnement ordnal. 4.3 Les nterprétatons de la théore des possbltés La théore des possbltés permet de représenter tous les cas où l exste un ensemble convexe de mesure de probabltés admssbles sur Ω de cardnal fn ; cet ensemble étant défn comme l ensemble des mesures de probabltés P vérfant les contrantes [Faban, 1996] : A P (Ω), N(A) P(A) Π(A) (3.32) Dans ce cadre Dubos et Prade suggèrent que [Faban, 1996] : a. la théore des possbltés est adaptée pour évaluer des degrés de vrasemblance sur des hypothèses d état rvales et précses (les sngletons par exemple). b. la théore des possbltés est plutôt adaptée pour représenter des degrés de confance sur des propostons mprécses, c'est-à-dre pouvant chacune être parttonnée en sous hypothèses d état mutuellement exclusves entre lesquelles on ne peut pas décder. Probablté Plausblté Possblté Croyance Nécessté Fgure 3.10 : Les lmtes des théores de tratement de l ncerttude [Gacôgne, 1997] Par alleurs, l usage de la théore des possbltés en RI avat déjà été suggéré par Prade et Testemale [Prade et Testemale, 1987] qu proposaent un nouveau modèle d ndexaton sous forme de groupes de mot-clés, pondérés par des degrés de possblté et de nécessté. De leur part, [Brn et Boughanem, 2003] ont proposé un modèle de reformulaton de requête basé sur la technque de Relevance Feedback. Ensute, ces mêmes auteurs ont proposé avec Dder Dubos un modèle possblste quanttatf de recherche d nformaton [Brn, 2005]. Nous mettons l accent partculèrement, dans cet état de l art, sur ce modèle en vue de proposer dans la sute une extenson vers un cadre qualtatf possblste. 5. Modèle possblste quanttatf de RI Le modèle proposé par Brn et al. [Brn et al., 2004abc] utlse d une nouvelle manère les connassances dsponbles. Ces connassances concernent les documents de la collecton ans que la lste des termes d ndexaton et de leur fréquence. Les documents de la collecton ans que leurs termes d ndexaton sont représentés par des réseaux naïfs possblstes. Consdérant un terme relatf à un document, une relaton de dépendance quantfable exste entre un terme et un document. La requête déclenche un processus de propagaton entraînant le changement de croyance sur les nœuds documents. 79

88 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton Ce processus de recherche peut être analogue à une étape de dagnostc dans le domane médcal. La collecton de documents est comme un ensemble de malades possbles, les symptômes sont les termes. La requête est vue comme une observaton. Le but étant de trouver la malade (document) plausblement développée par le patent (requête), étant donnés les symptômes qu l présente. Dans le modèle proposé la pertnence est représentée dans le cadre quanttatf. 5.1 Archtecture du modèle Le modèle est représenté par un réseau possblste d archtecture défne sur la fgure Pour cette approche les relatons de dépendance exstant entre termes (terme-terme) et entre les documents (document-document) ne sont pas tratées [Brn et al., 2004abc]. D 1 D D N T 1 T 2 T 3 T 4 T T Avec : Fgure 3.11 : Archtecture générale du modèle possblste quanttatf Nœud D j = nœud d un document de la collecton. Les varables D j sont bnares. Le domane de D j est {d j, d j }. L nstancaton D j = d j sgnfe que le document D j est pertnent pour la requête. D j = d j, sgnfe que le document D j est non pertnent. Nœud T = nœud terme. C est un terme d ndexaton du document. Les varables T sont bnares. Le domane d un terme est dom(t ) = {t, t }. T = t sgnfera que le terme est représentatf du document recherché, T = t sgnfe que le terme est non représentatf de ce document. Ce domane est lé au contexte du parent. Arc : un arc orenté d un noeud document D j vers les noeuds termes d ndexaton exprme une relaton de dépendance entre le document et les termes qu l content. Un arc entre un nœud D et un noeud T j tradut la possblté et la nécessté que T sot représentatf (ou non) du document D j et cec en foncton de sa fréquence dans le document et de celle dans la collecton. 5.2 Evaluaton des pods du réseau Pour évaluer la possblté et la nécessté de pertnence, Brn et al. ont beson de défnr explctement la pertnence représentée par des arcs dans le réseau. Une nouvelle nterprétaton de la pondératon des termes est suggérée. L approche proposée tente de dstnguer entre les termes possblement représentatfs des documents (ceux qu sont absents sont écartés) et ceux nécessarement représentatfs, c est-à-dre les termes qu suffsent à caractérser les documents. Hypothèse 1 : Un terme est d autant mons représentatf d un document qu l apparaît peu fréquemment dans ce document ; 80

89 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton Hypothèse 2 : Un terme est d autant plus nécessarement représentatf du document qu l apparaît fréquemment dans ce document et peu fréquemment dans les autres documents de la collecton. Hypothèse 3 : A pror, un document possède une égale possblté d être pertnent ou non pour un utlsateur potentel, sot Π(d j ) = Π( d j ) = 1, j (3.33) D après l hypothèse 1, Π(t d j ) peut être estmée avec la fréquence tf j de t dans d j : Π(t d j ) = nft j = tf j /max (tf kj ) (3.34) Où nft j est la fréquence normalsée. Notons qu avec l hypothèse 3, on peut en dédure que : Π(t ^ d j ) = Π(t d j ) (3.35) Un terme de pods 0 sgnfe que le terme n est pas compatble avec le document. S l est égal à 1, alors le terme est possblement représentatf ou pertnent pour décrre (donc représenter) le document. Ic, le terme représentatf ne dot pas être consdéré au sens large, mas comme pertnent pour resttuer le document. S un terme est représentatf du document, dans le sens général, l n aderat pas forcément à resttuer le document. Typquement, pour un document tratant de la logque floue, le terme floue est très représentatf, mas unquement potentellement, pusqu l ne le caractérse pas sur une collecton de documents tratant du même domane. Notons que le degré de possblté est normalsé (son maxmum vaut 1). Ce degré évalue à quel pont un terme est typque du document et donc à quel pont l est possble qu l contrbue à sa resttuton. S l apparaît avec une fréquence maxmale, alors l est consdéré comme le melleur canddat potentel pour sa représentaton. En logque possblste, la mesure de possblté possède une mesure duale : la nécessté. Celle-c, dans ce contexte, exprme l dée que s l est certan qu un terme ne représente pas un document, alors l est certan que la présence de ce terme rejette le document. Cette certtude est exprmée par : N (t d j ) 1 - nft j, (3.36) où l mplcaton matérelle. Un terme dscrmnant dans une collecton, est un terme qu apparaît fréquemment dans peu de documents de la collecton. Un terme dscrmnant est un terme nécessarement représentatf du document, l contrbue à sa sélecton et donc à sa resttuton en réponse à une requête. Brn et al. Défnssent un degré de nécessare pertnence φ j, du terme t pour représenter le document d j, par : N (t d j ) φ j (3.37) Et φ j = µ 1 (nc/nd )*µ 2 (nft j ) (3.38) Où - nc = nombre de documents de la collecton, - nd = nombre de documents de la collecton contenant le terme t, - µ 1 et µ 2 = fonctons de normalsaton. Typquement µ 1 : foncton crossante de type logarthmque, µ 2 : la foncton dentté. Ce degré de nécessare pertnence va donc permettre de lmter la possblté que le terme sot compatble avec le rejet du document par : 81

90 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton Π(t ^ d j ) 1- φ j (3.39) Le tableau 3.5 donne la dstrbuton de possblté la mons spécfque obéssant aux contrantes (3.36) et (3.37) défne sur {d j, d j } {t, t }. d j d j 5.3 Un smple schéma de propagaton t nft j 1- φ j t 1 1 Tableau 3.5 : Dstrbuton de possblté Dans le cadre numérque, les valeurs de possblté et de nécessté, a pror et condtonnelles, ont un sens. L dée est de répondre à des propostons du type : d est pertnent pour Q est possble ou non, quantfée par Π(d Q), d est pertnent pour Q est certan ou non, quantfée par N(d Q). Pour le modèle de base de Brn et al. présenté c, la requête est composée d une smple lste de mots-clés. Lorsque la requête est connue, un processus de propagaton est déclenché à travers le réseau, modfant les valeurs des possbltés a pror des documents (c possblté 1 partout) en vertu de leurs lens avec les termes d ndexaton. Dans ce modèle, la formule de propagaton est dentque à celle des réseaux Bayésens naïfs [Ben Farhat et al., 2002]. Cependant, deux évaluatons ndépendantes sont réalsées : Π(d j Q) et Π( d j Q) (car leur somme ne vaut pas 1). Sot une requête Q = (t,, t T ) (nterprétée conjonctvement), alors Π(d j Q) = (Π( Q d j )* Π(d j )) / Π(Q) (3.40) La possblté de pertnence évalue à quel pont D j = d j est possblement pertnent étant donnée une requête Q. Lorsque cette valeur vaut 0 le document est écarté. Le modèle suppose de plus l ndépendance condtonnelle des termes. Hypothèse 4 : les termes de chaque document de la collecton sont condtonnellement ndépendants de ce document. S le document D j est composé des termes T, l hypothèse c-dessus, jonte à l hypothèse 3 d absence de connassance a pror sur la pertnence des documents, smplfe la formule (3.40) lorsque le document est nstancé postvement (D j = d j ) : Π(d j Q) est alors proportonnel à : Π (d j Q) = Π(t 1 d j )* * Π(t T d j ) (3.41) = nft 1j * * nft Tj Pour comparer les possbltés de pertnence des documents de la collecton, unquement ce numérateur est utle. Le numérateur (3.36) de la formule (3.35) mesure la pertnence potentelle relatve d un document pour une requête. La certtude de resttuer un document pertnent d j pour une requête, notée N(d j Q), est donnée par : N(d j Q) = 1- Π ( dj Q) (3.42) Avec Π( d j Q) = (Π( Q d j )* Π( d j )) / Π(Q) (3.43) 82

91 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton Lorsque le document est nstancé et d après les hypothèses 3 et 4, Π( d j Q) est alors proportonnel à : Π ( d j Q) = Π(t 1 d j )* *Π(t T d j ) (3.44) Ce numérateur peut être exprmé par : Π ( d j Q) = (1- φ 1j )* * (1- φ Tj ) (3.45) Les documents préférés sont ceux qu ont une valeur N(d j Q) élevée parm ceux qu ont une valeur Π(d j Q) élevée auss. S N(d j Q) vaut zéro, les documents resttués sont (sans garante d adéquaton totale), ceux qu ont une valeur Π(d j Q) élevée. Notons que s la requête content des mots-clés non souhatés t k, on remplace Π( t k d j ) par Π( t k d j ) (=1), et de même pour Π( t k d j ), dans les formules (3.41) et (3.44). En concluson, l approche possblste quanttatve présentée c-dessus fournt un nouveau cadre pour l évaluaton de la pertnence auss ben pour la représentaton des documents et de la requête que pour la sélecton des documents en réponse à un beson utlsateur, et cec en modélsant l mprécson dans la défnton de la pertnence. Les mesures de possblté et de nécessté sont utlsées pour quantfer les relatons de dépendance (ou ndépendance) entre les termes et les documents qu ls ndexent et permettent de resttuer les documents nécessarement ou possblement pertnents étant donné une requête. 6. Reformulaton de requêtes dans le modèle possblste La problématque à laquelle s ntéresse [Chouab, 2006] concerne la reformulaton de requêtes par rénjecton de pertnence possblste. Partculèrement, l auteur a profté des nformatons concernant les termes, qu sont fournes par le modèle possblste de pont de vue pertnence (Possble et nécessare), pour trouver les melleurs termes d ndexes dans les documents jugés pertnents par l utlsateur pour pouvor reconstrure une nouvelle requête. En fat, le modèle proposé se base sur la formule de Roccho, donnée par l équaton suvante : n1 n2 1 1 Q 1 = Q0 + P NP (3.46) n n 1 = 1 2 = 1 Où n 1 est le nombre de documents pertnents et n 2 est le nombre de documents non pertnents. En se basant sur cette formule, [Chouab, 2006] a proposé d y ntégrer la possblté et la nécessté de termes. Cec nécesste un changement dans la formule (3.46). Ans, la formule proposée est de la forme suvant : Q1 = αq0 + βf( P) γf( NP) (3.47) Avec : Q : est le vecteur de la nouvelle requête ; Q 0 : Est le vecteur de la requête ntale ; P : Lste de documents pertnents resttués et évalués ; NP : Lste de documents non pertnents resttués et évalués ; F : Foncton qu combne les pondératons de chaque terme dans la lste des documents pertnents (respectvement Non pertnents) pour trouver un pods fnal où à partr de ce pods seront choss les melleurs termes. 83

92 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton α : Paramètre postf permet de pondérer les termes de la requête ntale ; β : Paramètre postf permet de pondérer les termes des documents jugés pertnents par rapport aux documents non pertnents ; γ : Paramètre postf permet de pondérer les termes des documents jugés non pertnent. Par alleurs, dans la lste de documents resttués (pertnent ou non pertnent), un terme peut exster dans pluseurs documents, mas son pods possblste et nécessare change d un document à un autre. Alors, l faut trouver le moyen pour agréger tous les pods d un même terme dans la lste des documents. [Chouab, 2006] a proposé cnq formules, deux formules basées sur la nécessté, deux autres basées sur la possblté et le cnquème est une combnason des deux. Ces formules ont été défnes dans le but de calculer les nouveaux pods pour les termes de la nouvelle requête lors du processus de rénjecton de pertnence (Relevance Feedback). La foncton F est alors une foncton qu applque l une des cnq formules proposées sur l une de deux lstes de documents et qu tre le résultat fnal des pods des termes par ordre décrossant et renvoe les n premers termes. 6.1 Formules basées sur la nécessté de termes [Chouab, 2006] a proposé deux formules qu sont basées sur la nécessté de termes (N(t D j )), à savor la nécessté moyenne et la Nécessté*(r/R). Nous détallons dans la sute ces deux types de nécessté. Le pods fnal de chaque terme est donné par l équaton (3.48), dans le cas de la Nécessté moyenne, et par l équaton (3.49) dans le cas de la Nécessté * (r/r) : 1 podsfnal ( t ) = N ( t D j ) (3.48) R r podsfnal ( t ) = N( t D j ) (3.49) R Avec : N(t D j ) : la nécessté de t étant donné D j ; D j = R = r = d j s l s agt de la lste de documents pertnents ; d j s l s agt de la lste de documents non pertnents. R 1 s D j = d j ; avec R 1 le nombre de documents pertnents ; R 2 s D j = d ; avec R 2 le nombre de documents non pertnents. j r 1 s D j = d j ; avec r 1 le nombre de documents pertnents contenant le terme t ; r 2 s D j = d ; avec r 2 le nombre de documents non pertnents contenant le terme t. j 6.2 Formules basées sur la possblté de termes Le même auteur [Chouab, 2006] a proposé deux autres formules basées sur la possblté de termes (Π(t D j )), à savor la possblté moyenne et la possblté*(r/r) : 84

93 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton Le pods fnal de chaque terme est donné par l équaton (3.50), dans le cas de la Possblté moyenne, et par l équaton (3.51) dans le cas de la Possblté * (r/r) : 1 podsfnal ( t ) = ( t D j ) (3.50) R r podsfnal ( t ) = ( t D j ) (3.51) R Où Π (t D j ) : la possblté de t étant donné D j ; 6.3 Formules basées sur la possblté et la nécessté Cette dernère formule est une combnason de la possblté et de la nécessté. La formule proposée est donnée par l équaton (3.52) : 1 podsfnal( t ) = ( t D j ) * N ( t D j ) (3.52) R Où Π (t D j ) : la possblté de t étant donné D j ; N(t D j ) : la nécessté de t étant donné D j. Ans, [Chouab, 2006] a proposé une nouvelle méthode possblste de reformulaton de requête par rénjecton de pertnence basé sur le jugement de l utlsateur sur les documents resttués en ntégrant la possblté et la nécessté d un terme. L ntégraton de ces deux degrés de pertnence a adé à précser les termes à ajouter dans la nouvelle requête. Suvant les formules proposées, l auteur a suggéré de chosr les n premer termes par ordre décrossant de leur pertnence fnale (possble et nécessare). Les résultats de ce processus ont effectvement améloré les performances du moteur possblste de base dans la resttuton de documents en réponse aux besons d utlsateurs. La précson moyenne a augmentée de plus de 53% pour les cnq formules proposées et elle attent 121% pour la formule de nécessté normalsée et pour n = 10. Ces résultats montrent que l ntroducton de la possblté et de la nécessté est ntéressante et fable pour la reformulaton par rénjecton de pertnence. 7. Modèle Bayésen versus Modèle Possblste Sute à cet état de l art, nous dstnguons deux prncpaux modèles basés sur les réseaux Bayésens pour répondre aux besons de la RI : le modèle de croyance nstancant la requête et le modèle nférentel nstancant le document à la récepton d une requête. Une dfférence majeure dans la topologe de ces deux réseaux concerne le sens de la dépendance des termes d ndexaton avec les documents. Dans le modèle de croyance la relaton de dépendance est orentée des termes, qu consttuent l unvers de dscours, vers les documents et est quantfable par P(d j t ). Pour le modèle nférentel cette dépendance, quantfée par P(t d j ), va des documents vers ses termes d ndexaton. Dans le modèle Bayésen, la noton de pertnence permet la généralsaton des modèles de base, mas est dffclement raffnable. Par alleurs, l évaluaton des documents par rapport à une requête ne prend en compte que les termes d ndexaton présents à la fos dans les documents et la requête. En effet, l absence des termes de la requête n est pas tratée explctement dans ces deux modèles, ben que dans le modèle de croyance les termes d ndexaton de la requête consttuent le pont d entrée du système (le processus de recherche est nstancé par la récepton de la requête). 85

94 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton Dans le modèle nférentel, l exste une défnton ambguë de la probablté a pror d un document. Les documents de la collecton sont représentés par des nœuds dans le réseau. Chaque nœud est de domane bnare et la probablté a pror d un document devrat alors être égale à 1/2 et non pas à 1/N comme défn dans [Turtle, 1991]. Cette dernère défnton (P(d j ) = 1/N) sgnferat que tous les documents sont représentés dans un seul nœud représentant tous les documents de la collecton et donc que dom(d j ) = {d 1,, d N }. Quant au modèle possblste de la RI, l trate l ncerttude d une manère novatrce basée sur la théore des possbltés et partculèrement les Réseaux possblstes. Les nœuds dans ce réseau représentent les documents, les termes d ndexaton ans que le beson utlsateur. Les arcs relant chaque couple de nœuds décrvent une relaton de dépendance et sont quantfés par deux mesures : la possblté et la nécessté. Quel que sot le type de la relaton décrte par un arc entre deux nœuds, sa quantfcaton est engendrée par deux mesures. Alors que la premère est utle pour écarter certanes nformatons, la seconde mesure renforce les nformatons restantes. D autre part, ce modèle consdère que la resttuton d un document en réponse à une requête utlsateur peut être consdérée dans un cadre d nférence. En effet, la resttuton d un document est «causée» par la soumsson d une requête au système. Les données sur lesquelles se basent les modèles de la lttérature pour resttuer une lste de documents en réponse à un beson utlsateur sont pauvres, ncertans et mprécs. La logque possblste se prête naturellement à ce genre d applcaton. En fat, le modèle possblste a pu détermner deux types de pertnence : la nécessare et la plausble. Le premère permet de renforcer «nos croyances» vs-à-vs des résultats de la recherche et la seconde permet d évter de resttuer une lste de documents vdes à une requête utlsateur et d en écarter ceux qu ne sont pas ntéressants. La combnason de la représentaton par réseaux et de l utlsaton de la théore des possbltés, a perms de répondre à un tel type de pertnence. La requête ntrodut de l nformaton qu change nos croyances sur les nœuds termes d ndexaton ans que leurs nœuds parents. La lste des documents resttués content les documents nécessarement pertnents en haut de la lste, pus les documents plausblement pertnents. A notre sens, un cadre théorque ntéressant, permettant à la fos d exprmer l gnorance et de tenr compte de l mprécs et de l ncertan, est possble grâce à la théore des possbltés. En fat, notre apport consste à étendre l approche possblste d un cadre quanttatf à un cadre qualtatf. Cette extenson consste à rechercher les termes de la requête non pas dans la totalté d un document, mas dans ses structures logques. En effet, l utlsateur devent capable de savor les emplacements des nformatons recherchées dans les fragments des documents retrouvés par le SRI proposé. Autrement dt, l pourra demander au système des documents contenant des textes, des tableaux ou des fgures à propos des mots-clés proposés. Il pourra auss changer son profl d une requête à une autre. En conséquence, la qualté des documents retournés change en terme de pertnence, en passant d un profl à un autre. Cette nouvelle technque d affnement de la recherche des documents permet entre autres d engendrer de nouvelles défntons de la pertnence dans un SRI. 8. Concluson L état de l art que nous avons réalsé sur les SRI a montré que les modèles dts de premère génératon présentaent un ntérêt par rapport à un contexte de recherche statque. D une part, ces modèles étaent centrés sur la représentaton de la requête de l utlsateur et du document, et d autre part, sur la mse en correspondance drecte entre ces deux représentatons pour détermner les documents pertnents selon la vson du système. Nous ctons dans ce cadre : le modèle booléen, le modèle vectorel et le modèle probablste. Afn d enrechr ces deux 86

95 Chaptre 3 : Modèle Bayésen versus Modèle Possblste de Recherche d Informaton représentatons auxquelles sont assocées deux types de connassances : connassances relatves aux documents et connassances relatves à la requête, des extentons ont été proposées. Par alleurs, ces extensons ont perms d enrchr le nveau d analyse des documents, notamment en ntrodusant l ndexaton sémantque latente, les domanes sémantques, les réseaux d nférence bayésens et les réseaux possblstes. D autre part, ces extensons ont concerné le nveau d analyse de la requête, notamment le modèle booléen étendu, en ntrodusant des pods aux termes et des lens entre eux. Ces derners modèles, avec les extensons proposeés, avaent également tenté de prendre en consdératon d autres types de connassances. Ces connassances sont lées aux domanes tratés dans le corpus documentare et au beson d nformaton de l utlsateur qu est en rapport avec l utlsateur lu-même. Pour ce fare des technques de reformulaton de requêtes et de clusterng ont été ntrodutes dans le processus de recherche. Toutes ces technques vsaent à amélorer la recherche en ramenant des documents qu sont potentellement pertnents mas qu ne sont pas retrouvés par une recherche drecte. Cependant elles sont restées lmtées à un cadre où les connassances ctées sont statques. Ben que ces modèles présentent des avantages lés aux ponts ctés précédemment, ls présentent encore des lmtes. En fat, d autres exgences non tratés ou partelllement tratés par tous ces modèles sont mportants à prendre en consdératon dans un SRI : - La proposton de dfférentes alternatves à l utlsateur pour nterroger et nteragr avec le corpus et notamment par classfcaton et par des vues thématques. - La geston et la prse en compte, de manère plus effcace, de l utlsateur dans le processus de recherche et notamment l opératon de mse en correspondance. En effet, le profl de l utlsateur est une composante qu s apprend par le système et qu évolue à travers les dfférentes sessons effectuées par ce derner. Notre objectf dans cette thèse est de proposer un modèle pour un SRI qu prend en compte ces nouvelles exgences et qu permet de les ntégrer en se basant sur une forte composante classfcatore à base de Réseaux Petts Mondes Hérarchques (RPMH). D une part, nous proposons également d ntrodure dans le processus de reformulaton sémantque de requêtes une phase de classfcaton de termes de la requête qu permet d explorer ces termes en foncton de leurs proxmtés sémantques (proxéme de surface). En effet, l utlsateur pourra dentfer les classes des termes sémantquement proches des termes de sa requête ntale pour construre sa requête reformulée. D autre part, les documents retrouvés par le système seront auss classfés selon leurs proxmtés thématques (proxéme en profondeur) afn de montrer leurs corrélatons et faclter leurs consultatons. Nous présentons dans le chaptre suvant le modèle que nous proposons en mettant en avant les nouvelles fonctonnaltés qu l offre. 87

96 2 ème Parte : Concepton et archtecture d un SMA de Recherche Intellgente POssblste de Documents Web Deuxème Parte : Concepton et archtecture d un Système mult-agent de Recherche Intellgente POssblste de Documents Web, SARIPOD 88

97 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP Chaptre 4 Modèle d un SRI à base de Réseaux Petts Mondes Hérarchques et de Réseaux Possblstes Au terme de cette étude de l état de l art, nous avons remarqué que les exgences attendues d un SRI dépassent celles qu étaent prévues au départ. C est la rason pour laquelle de nombreuses approches ont été rajoutées aux approches de base. Les études en cours se sont donc orentées vers une recherche ntellgente qu vse à satsfare au meux le beson de l utlsateur en le consdérant comme membre actf dans le processus de recherche et en lu fournssant dfférentes manères d accéder et d explorer le corpus. Ces derners sont en évoluton contenue. Notre problématque est donc de proposer un Système de Recherche d Informaton (SRI) : - qu ntègre l utlsateur dans le processus de recherche et s adapte à ses besons. Ce qu permet de construre des préférences (centres d ntérêts) consttuant les profls utlsateurs. Ces préférences s amélorent au fur et à mesure et permettent de guder le système et l utlsateur dans le processus de recherche. En effet, un utlsateur peut être asssté, grâce à ses préférences, pour dentfer ses besons de manère plus précse et cerner ses préférences à partr des profls smlares d autres utlsateurs. Le système peut se servr de ces préférences pour effectuer une recherche plus fne en reconnassant un utlsateur à travers ses centres d ntérêt ; - qu construt un premer modèle assocé aux requêtes (profls requêtes) ans qu un deuxème modèle assocé aux résultats de recherche correspondants (profls documents). En effet, ces deux modèles sont à base de Réseaux Petts Mondes Hérarchques (RPMH) et sont utles pour dégager les smlartés sémantques entre les termes de la requête, d une part et entre les documents résultats de recherche, d autre part. Ans, les profls requêtes sont explotables pour la formulaton et la reformulaton de requêtes, alors que les profls documents sont utles pour la classfcaton des documents. - qu trate l apparement entre le modèle de requête et le modèle de document par un Réseau Possblste (RP) permettant de dégager les documents pertnents, au sens possblste, vs-à-vs une requête. En fat, cette phase de mse en correspondance est utle pour le raffnement, le fltrage et la purfcaton des réponses aux requêtes. L orgnalté de notre démarche est qu elle prend tout à la fos les tros dmensons susmentonnées pour aboutr à un SRI : - Coopératf à travers le modèle assocé aux documents et le modèle assocé aux requêtes construtes à partr de réseaux petts mondes hérarchques ; - Adaptatf aux besons des utlsateurs ; - Intellgent car le système tent compte des profls dynamques des ses utlsateurs ; Ans, notre but est également d offrr à l utlsateur une nterface nteractve pour l nterrogaton, l affchage et l évaluaton des réponses proposées par le système en réponse à un beson d nformaton. 89

98 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP Dans la premère secton nous défnssons et nous détallons les dfférents aspect ntroduts dans le modèle que nous proposons : modélsaton de requêtes, modélsaton de documents et mses en correspondance entre les deux. Nous mettons en exergue les chox prs pour les méthodes de classfcatons ntrodutes pour la constructon des dfférentes connassances en les justfant et en présentant les avantages. Il est à noter que les méthodes de classfcaton choses s adaptent ben avec les systèmes à caractères coopératfs, adaptatfs et ntellgents. Dans la deuxème secton nous stuons le modèle proposé ans que son orgnalté par rapport à d autre travaux et partculèrement le modèle possblste quanttatf de RI proposé par [Brn et al., 2004abc] et le RPMH de dctonnare proposé par [Gaume et al., 2004]. 1. Modèle conceptuel du système SARIPOD D après l étude effectuée dans le premer chaptre de l état de l art, nous avons pu dstnguer les acteurs d un SRI qu sont prncpalement l utlsateur et le document. Autour de ces deux acteurs, dfférents types de connassances peuvent être construtes pour munr un SRI d une base de connassances lu permettant de ben agr pour arrver à satsfare au meux le beson d nformaton de l utlsateur. Ces connassances peuvent être classées suvant qu elles soent lées à l utlsateur ou aux documents selon ces quatre classes : - Des connassances relatves à l utlsateur ; - Des connassances relatves au beson d nformaton de l utlsateur ; - Des connassances relatves aux documents ; - Des connassances relatves aux concepts du domane. Les connassances relatves à l utlsateur peuvent être lées à une étape d une sesson de recherche, à une ou pluseurs sessons. Il est donc possble de les défnr selon tros classes : - Les connassances à court terme sont relatves à une étape d une sesson de recherche ou à l ensemble de la sesson de recherche. Elles sont détermnées en synthétsant le beson de l utlsateur ans qu en le corrgeant d une manère ncrémentale ; - Les connassances à moyen terme sont basées sur la prse en compte du comportement de l utlsateur lé à l analyse de ses requêtes et de ses décsons vs-à-vs des documents fourns par le système. Cette forme de connassance n est pas couramment utlsée dans les SRI étant donné que le profl de l utlsateur est souvent prédéfn avant la recherche ; - Les connassances à long terme sont sot relatves aux préférences des utlsateurs, sot ssues d une manère générale des classfcatons des documents ans que la correcton ncrémentale de l ndexaton des documents qu permettent de produre des connassances stables du contenu d un fonds documentare. Par alleurs, ces tros types de connassances sont lés. En effet, les connassances à court terme ntervennent dans l élaboraton des connassances à moyen et à longs termes. Nous avons pu également étuder les dfférentes opératons concernées par un SRI qu sont prncpalement : - La phase de représentaton ou modélsaton de l utlsateur et de la requête ; - La phase d analyse qu permet d aboutr à une représentaton ou modélsaton des documents ; - La phase de mse en correspondance ou d apparement ; - La phase d évaluaton. 90

99 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP Outre ces opératons élémentares et nécessares, l dée motrce du modèle est d ntégrer dans la stratége de recherche d un SRI des composantes classfcatores pour les documents et d autres composantes classfcatores pour les requêtes. En effet, dans le système que nous proposons, une phase de reformulaton sémantque de la requête est ntrodute et qu permet à l utlsateur d ajouter des termes sémantquement proches à ses termes proposés au départ. D autre part, les documents réponses à cette requête reformulée peuvent subr une classfcaton thématque permettant de réajuster le résultat d une requête en foncton du contenu du fonds documentare. L objectf de dvser le processus de recherche en deux modèles (de requêtes et de documents) est d offrr à l utlsateur pluseurs alternatves de recherche qu ne peuvent que l assster et enrchr son nveau par rapport à l ensemble de connassances gérées dans un SRI tout en cernant ses propres besons. La mse en correspondance entre le modèle de requête et le modèle de document est assurée par un réseau possblste. En effet, ce modèle présente une nouvelle approche possblste pour un système de Recherche d Informaton. Ce système, qu vot la Recherche d Informaton comme un problème de dagnostc, tradut à l ade de réseaux possblstes naïfs des relatons de dépendance entre les documents et les termes de la requête. Ces relatons sont quantfables par deux mesures : la possblté et la nécessté de pertnence. La mesure de possblté est utle pour fltrer les documents et la mesure de nécessté pour renforcer la pertnence des documents restants. Le processus de recherche resttue les documents plausblement ou nécessarement pertnents à un utlsateur. De plus, s l approche de base tent compte c de l aspect quanttatf et ne tent pas compte de la dépendance entre les termes de la requête, notre système permet de l étendre au cadre qualtatf possblste, en ntrodusant des préférences (pondératons) entre les termes de la requête. Ans, l archtecture globale du système SARIPOD est llustrée par la fgure 4.1. Besons en nformaton Préfs. P Ressources Graphe du Web Requête R D = {D 1, D 2, D n} utlsateur R = {T 1, T 2,, T n} Petts Mondes 1 de termes Reformulaton de la Requête Documents retournés Petts Mondes 1 de documents... Petts Mondes m de termes... Petts Mondes n de documents RPMH de dctonnare Réseau Possblste RPMH de pages Web Fgure 4.1 : Modèle conceptuel du système SARIPOD 91

100 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP En fat, nous dstnguons deux usages très mportants de ces deux RPMH (de dctonnare et de pages Web) ans que leur combnason dans le système SARIPOD [Elayeb et al., 2007a] : Le premer RPMH est celu qu consste à structurer les pages Web réponses à une requête en zones denses de pages Web thématquement lées les unes aux autres. On fat ans apparaître des nuages denses de pages qu tratent d un sujet et des sujets connexes (assez smlares sémantquement) et qu répondent toutes fortement à une requête. Pour un autre nuage de pages Web fortement lées les unes aux autres l en va de même, elles répondent toutes à cette même requête. La dfférence essentelle est que chaque nuage de pages Web répond fortement d'une manère partculère à la requête. Par exemple, la requête "vérfer", dans le RPMH des synonymes des mots du franças, donne quatre nuages de verbes proches de vérfer : le premer nuage concerne A = {examner, vor, éprouver, reconnaître,...}, le deuxème B = {essayer, contrôler, expérmenter, s assurer,...} etc. pour les deux autres. Pour le Web l en va de même une requête (exprmée avec quelques mots-clés) renvoe un ensemble de pages Web (réponses à la Google, par exemple) qu'l faut organser en RPMH de sorte à fare apparaître quelques grands nuages de pages Web parm toutes ces réponses. Chaque nuage regroupe ans un lot de pages qu répondent toutes de façon pertnente et d'une certane façon à la requête. Autrement dt, le premer nuage A répond pertnemment à la requête "vérfer" d'une certane façon (celle qu s'ntéresse à l "examen"), alors que le second nuage B répond auss pertnemment à la même requête "vérfer" mas cette fos d une façon dfférente (celle qu s'ntéresse au "contôle"), etc. Pour le Web chaque nuage de pages Web sera pertnent et, grâce à des mots-clés supplémentares, l sera possble de sélectonner un nuage partculer ou une parte de ce nuage. La qualté résde dans le fat que quand on regarde les pages Web d'un même nuage, toutes les pages sont pertnentes, mas s ce degré n'est pas encore suffsant, on peut fare des requêtes dans ce seul nuage (contrarement à Google, par exemple, qu n'organse jamas ses réponses en nuages) pour obtenr un sous-ensemble de pages Web que l'on peut de nouveau (donc récursvement) organser en sous-rpmhs et ans de sute. Au plus profond de cette entreprse de structuraton on trouve des pages Web seules. L'ensemble des réponses a donc été organsé en RPMH et sous-rpmh de sorte à consttuer une structure de classfcaton des pages Web en foncton des mots-clés utlsés. Ce que ne fat pas Google qu sat seulement fare des recherches dans l'ensemble des réponses précédentes. En fat, Google est capable de renvoyer, sute à une sous-requête, des pages que notre système a ms dans des nuages dfférents (classes des thèmes) lors de la premère requête. Le deuxème usage très mportant des RPMH est celu qu consste à ne pas prendre les motsclés tels qu ls sont mas à consdérer une requête comme multple en ce sens qu'on ne recherche pas seulement les mots-clés dans les pages Web mas auss les substantfs qu lu sont sémantquement "proches". Proche au sens du calcul de la proxéme défne par notre approche basée sur l étude des crcuts dans un RPMH de dctonnare (détallée dans la secton 1.2). Les mots consdérés comme proches ncluent donc les synonymes de ce mot mas ne s'y restregnent pas (vor fgure 4.2). On aura potentellement (en pratque cela sera lmté par une borne) tous les mots plus ou mons proches du mot de la requête. Ce nombre de mots est paramétrable (1, 5, 100,...). Une requête est donc mantenant très flexble pusqu'elle tolère qu'une page Web sot une bonne réponse même s elle ne content pas (à strctement parler) le mot-clé en queston. 92

101 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP Sous-nuage A1 Verbe «Synonyme» B 0,75 Verbe ou substantf Vosn smlare 0,8 Verbe «Synonyme» C Sous-nuage A2 Nuage A Mesure de smlarté 0,7 Verbe «Synonyme» D Sous-nuage A3 Fgure 4.2 : Smlarté sémantque entre les verbes Or pour pouvor dsposer de cette flexblté nous avons évdemment beson d'un dctonnare et surtout d'avor structuré ce dctonnare (l'ensemble des entrées de celu-c) en RPMH justement pour savor quel mot est proche de quel autre. Or l y a de nombreuses façons de fare émerger une structure de RPMH à partr d'un dctonnare, celle de [Gaume et al., 2004] 16 par exemple consste à se servr des défntons : le mot M 1 est relé au mot M 2 s et seulement s M 2 appartent à la défnton de M 1, à l'ade de cette défnton de la relaton entre deux mots l en dédut par proxéme la "proxmté sémantque" de tout mot à tout autre. Le système SARIPOD reprend cette défnton et s'appue sur cette proxéme entre les mots pour rendre les requêtes plus flexbles. On peut à partr de là quantfer les pages Web obtenues sute à une requête utlsant certans mots-clés. Chaque page réponse sera caractérsée par un degré d'adéquaton ou de pertnence qu résultera de la combnason des degrés de proxéme aux mots-clés de la requête des mots effectvement présents dans cette page [Elayeb et al., 2007d]. Nous détallons dans la sute les dfférentes étapes que nous proposons pour la modélsaton de requêtes et de documents ans que les chox des méthodes de classfcaton ntrodutes. En fat, nous présentons une approche générque de recherche de composantes de sens dans un réseau d nformaton. Cette approche est valable dans le cas de mots d un dctonnare (RPMH de dctonnare) ans que dans le cas de pages Web (RPMH de pages Web). 2. Les RPMH du système SARIPOD 2.1 Défnton du RPMH Des recherches récentes en théore des graphes ont ms au jour un ensemble de caractérstques statstques que partagent la plupart des grands graphes de terran ; ces caractérstques défnssent la classe des graphes appelée «Réseaux Petts Mondes Hérarchques» (RPMH) ntalement proposés par [Watts et Strogatz, 1998] et dénommés «Small-World Networks» avant d être reprs par dvers auteurs comme [Barabas et al., 2000] [Ravasz et Barabàs, 2003] [Newman, 2003] [Portrat, 2003] [Scharffe, 2004] [Gaume, 2004] [Gaume et al., 2004] [Gaume, 2006] [Gaume et al., 2006] [Gaume et al., 2007] [Gaume et Matheu, 2007] (vor fgure 4.3). 16 Les auteurs se lmtent unquement aux mots de même catégore gramatcale (les noms). 93

102 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP Fgure 4.3 : Structure des graphes petts mondes hérarchques Les RPMH sont caractersés par quatre proprétés fondamentales : D : ls sont peu denses, c est-à-dre qu ls ont relatvement peu d arêtes au regard du nombre de leurs sommets ; L : la moyenne des plus courts chemns entre les sommets est pette ; C : le taux de clusterng ou d agrégaton, est défn de la manère suvante : C est la valeur moyenne du rapport, pour chaque sommet, entre le nombre d arcs entre ses vosns et le nombre total d arcs possbles entre eux 17. Le C d un graphe est la moyenne des C s sur ses sommets. Le C d un graphe est donc toujours comprs entre 0 et 1. Plus le C d un graphe est proche de 1, plus l forme des agrégats ou clusters (des zones denses en arêtes). Dans un RPMH, le C est fort, les deux vosns d un même sommet ont tendance à être connectés par une arête («mes ams sont ams entre eux»). Par exemple, sur Internet 18, deux pages qu sont lées à une même page ont une probablté relatvement élevée d nclure des lens l une vers l autre ; I : la dstrbuton des degrés d ncdence des sommets sut une lo de pussance (power law) : certans nœuds très peu nombreux ont beaucoup plus de vosns que d autres plus nombreux, eux-mêmes ayant plus de vosns que d autres qu eux-mêmes... La probablté P(k) qu un sommet du graphe consdéré at k vosns décroît comme une lo de pussance P(k) = k λ (où λ < 0). Le tableau 4.1 [Gaume et al., 2004] présente une comparason des RPMH avec d autres types de graphes pour ces dfférentes caractérstques : des graphes aléatores (construts en partant d un ensemble de sommets solés, pus en ajoutant aléatorement un nombre détermné d arêtes entre ses sommets), et des graphes régulers (des graphes classquement étudés en théore des graphes, dont tous les sommets ont le même degré d ncdence) [Douglas et Houseman, 2002] [Serg et Rcard, 2007]. 17 Supposons qu un sommet S at K s vosns, alors l y a K s (K s -1)/2 arêtes au maxmum qu peuvent exster entre ces K s vosns (ce qu arrve quand chacun des vosns de S est connecté à tous les autres vosns de S). Sot A s le nombre d arêtes qu l y a entre les vosns de S (ce nombre est donc nécessarement plus pett ou égal à K s (K s - 1)/2). Posons C s = A s /(K s (K s -1)/2) qu est donc pour tout sommet S nféreur ou égal à un. 18 Les sommets sont les 6 mllards de pages dsponbles sur Internet, et une arête est tracée entre A et B s un len hypertexte vers la page B apparaît dans la page A ou s un len hypertexte vers la page A apparaît dans la page B. 94

103 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP à densté égale L : Moyenne des plus courts chemns C : Taux de clusterng I : dstrbuton des degrés d ncdences Graphes aléatores Graphes de terran (RPMH) Graphes régulers L pett (chemns courts) L pett (chemns courts) L grand (chemns longs) C pett (pas d agrégats) C grand (des agrégats) C grand (des agrégats) lo de Posson lo de pussance constante Tableau 4.1 : Comparason de tros graphes en foncton des paramètres L, C et I La forte cractérstque classfcatore des RPMH par rapport aux autres types des graphes justfe davantage nos propostons de modélser les termes de la requête par un premer RPMH de dctonnare qu sera utle d une part dans la classfcaton de ces termes en pluseurs composantes sémantques et d autre part dans la reformulaton sémantque de requête. Nous modélsons auss les documents résultats de la recherche par un second RPMH de pages Web qu sera utle dans leurs classfcatons thématques. Ans, nous proposons dans la sute une nouvelle approche générque de génératon de composantes de sens dans un réseau d nformatons. Cette approche est applcable dans le cas d un réseau de mots d un dctonnare ans que dans le cas d un réseau de pages Web. Notons que l approche de base a été ntée par [Awada, 2005] dans le cas de verbes d un dctonnare et développée encore plus par nous même dans le cadre de cette thèse afn de pouvor l utlsée dans la reformulaton sémantque de la requête dans notre SRI SARIPOD. En fat, notre contrbuton consste à commenter et amélorer les algorthmes exstants afn de proposer des nouveaux algorthmes de classfcaton en réponses à quelques lmtes et nsuffsances non résolues par [Awada, 2005]. 2.2 Approche générque de génératon de composantes de sens dans un réseau d nformatons Cette secton porte sur l'étude de la ressemblance de sens dans un réseau d nformatons tout en tratant le problème de la polyséme de ces nformatons. Plus précsément, l s agt de repartr des enttés nformatves smlares en groupes appelés composantes de sens correspondant chacune à un «sens» de cette entté. Ce modèle sera applqué à deux types d enttés : les pages Web et les mots d un dctonnare. Le Web, comme le dctonnare, est un objet représenté par un graphe de type RPMH et le regroupement en famlles de ressemblance des enttés consttutves de cet objet se fat en étudant les crcuts dans ce graphe. En fat, nous nous sommes appuyé sur l dée suvante : les enttés se trouvant sur un crcut devraent appartenr à la même composante de sens. L étude a donné leu à l mplantaton d une nterface graphque d'explotaton automatque du réseau (vor chaptre 6 de réalsaton). Nous proposons d'utlser une structure susceptble de conserver suffsamment de sens pour notre propos : les graphes. Il semble évdent qu l exste dfférents types d nformaton, et par conséquent d arcs, dans ces graphes tels que les rapports de synonyme 19 ou d'antonyme La synonyme est un rapport de proxmté sémantque entre des mots ou des expressons d'une même langue. La proxmté sémantque ndque qu'ls ont des sgnfcatons très semblables. Des termes lés par synonyme sont des synonymes. 20 Deux tems lexcaux sont en relaton d'antonyme s on peut exhber une symétre de leurs trats sémantques par rapport à un axe. La symétre peut se déclner de dfférentes manères, selon la nature de son support. 95

104 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP entre sommets, d'hyperonyme 21, de co-domanes d'actvtés. Par conséquent, l étude des relatons qu entretennent les entrées d un dctonnare entre elles se ramène à une étude sur les graphes cherchant à exploter les réseaux ans établs entre les mots. D autre part, tous les dctonnares peuvent être représentés par des graphes dont les sommets et les arcs peuvent être défns de multples façons. La manère la plus smple est de prendre pour sommets du graphe les entrées du dctonnare et d'admettre l'exstence d'un arc d'un sommet A vers un sommet B s et seulement s l'entrée B apparaît dans la défnton de l'entrée A. Les dctonnares sont des sources de données pertnentes dans tout tratement automatque du langage naturel. En effet, ce sont des objets consttués, formels, comparables, exstant dans presque toute langue, et surtout porteurs de sens. L dée est la suvante : s les défntons d'un dctonnare sont effectvement porteuses de sens, c'est nécessarement au mons par le réseau qu'elles établssent entre les mots qu en sont des entrées [Abdallah et al., 2003] [Awada, 2005]. D autre part, la plupart des travaux sur les dctonnares portent sur le rapport de synonyme. Il s'agt, très souvent, de détecter des composantes possédant des proprétés spécfques en termes de graphe telles que les clques [Ploux et Vctorr, 1998] et les gangs [Venant, 2003] condusant ans au regroupement de synonymes, l ensemble des éléments appartenant à une même composante correspondant à un «sens élémentare». Dans une étude antéreure, [Awada, 2005] ntrodut la noton de «synonymétre» pour quantfer la force de la synonyme entre deux mots. Cette étude avat pour but de détecter les composantes de sens dans un dctonnare de verbes en se basant sur la N-connexté comme crtère de regroupement et de classfcaton de synonymes [Awada et Chebaro, 2004]. Toutefos, les dfférentes approches proposées souffrent de l ambguïté lée aux langues naturelles. En effet, cette ambguïté se manfeste dans les dctonnares par la présence d entrées polysémques confondues dans le graphe en un seul noeud. Ce problème provent en général d utlsatons de synonymes métaphorques, la métaphoryme étant une noton proposée par [Duvgnau et al., 2000] et [Gaume et al., 2002]. Nous présentons dans cette secton une étude de composantes de sens à travers l'examen d'un réseau d nformatons en essayant de trater précsément le problème de la polyséme et d'y présenter quelques éléments concrets de soluton. Nous défnssons auss un crtère de regroupement basé sur la noton de crcut. Toutefos, cec n est cependant pas l objectf prncpal de la thèse, mas c est une étape préalable à nos travaux. En fat, cec va s avérer ensute extrêmement utle vue que les travaux de [Gaume et al., 2004] n ont pas apporter une soluton optmale aux requêtes sur le Web qu sot flexble et peu ambguë. Par alleurs, le problème de la classfcaton des documents (clusterng) est l'un des axes de recherche scentfque les plus mportants dans le domane de l nformatque documentare. Pluseurs approches ont été proposées par la communauté scentfque qu a suggéré dfférentes methodes s'appuyant très souvent sur les technques de Data Mnng [Berry et Lnof, 1997]. Notre approche de la classfcaton d enttés documentares consste généralement à représenter ces enttés (les pages Web ou les artcles assocés aux entrées d un dctonnare) par un graphe RPMH dont les sommets sont les enttés et les arcs tradusent un len (hypertextuel dans le cas de pages Web ou défntonnel dans le cas de mots d un dctonnare) drect entre deux sommets : l exste un arc d'un sommet A vers un sommet B s et seulement s l'entté B possède un len avec l entté A. Par conséquent, le problème de 21 L hyperonyme est la relaton sémantque hérarchque d'un lexème à un autre selon laquelle l'extenson du premer terme, plus général, englobe l'extenson du second, plus spécfque. Le premer terme est dt hyperonyme de l'autre, ou superordonné par rapport à l'autre. C'est le contrare de l'hyponyme. 96

105 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP classfcaton (des pages Web ou des mots du dctonnare) se ramène à une étude sur les graphes cherchant à exploter les réseaux ans établs entre les enttés. Il s'agt, très souvent, de détecter des composantes possédant des proprétés spécfques des graphes telles que : présence de clques ou de composantes N-connexes [Awada et Chebaro, 2004] condusant ans au regroupement des enttés Présentaton de l approche Les deux sources de données almentant les deux RPMH proposés dans notre modèle conceptuel sont deux fchers au format XML dans lesquels les enttés sont décrtes par un ensemble de balses permettant chacune d assocer un len (hypertextuel ou défntonnel) aux dfférents consttuants (vor tableau 4.2). La base de données des lens hypertextuels entre les pages Web <?xml verson="1.0" encodng="utf-8"?> <!DOCTYPE ste SYSTEM "F1.dtd"> <Ste> <Page url = "URL(page 1 )"> <lnk>url(page 11 )</lnk> <lnk>url(page 12 )</lnk> <lnk>url(page 13 )</lnk> <lnk>url(page 1n )</lnk> </Page> <Page url = "URL(page 11 )"> <lnk>url(page 111 )</lnk> <lnk>url(page 112 )</lnk> <lnk>url(page 1 )</lnk> <lnk>url(page 11p )</lnk> </Page> </Ste> La base de données des lens défntonnels entre les mots du dctonnare <?xml verson="1.0" encodng="utf-8"?> <!DOCTYPE ste SYSTEM "F1.dtd"> <Dctonnare> <mot m = "mot 1 "> <def>mot 11 </def> <def>mot 12 </def> <def>mot 13 </def> <def>mot 1n </def> </mot> <mot m = " mot 11 "> <def>mot 111 </def> <def>mot 112 </def> <def>mot 1 </def> <def>mot 11p </def> </mot> </Dctonnare> Tableau 4.2 : Les sources de données de deux RPMH Ces bases de données n étant pas utlsables sous leur forme XML, nous avons entreprs une transformaton de ces deux fchers en deux graphes (RPMH) afn de pouvor représenter graphquement les enttés et leurs lens. Les nœuds sont alors consdérés comme des enttés lées par des arcs représentant la relaton de len entre elles. La structure du réseau en tant que graphe se caractérse par une concentraton de relatons (arcs) entre toutes les enttés (sommets) ayant le même «sens». Ces enttés entretennent des relatons qu en font parfos des crcuts. En fat, deux famlles d enttés ayant chacune un sens propre dfférent de celu de l autre famlle vont se tradure sur le graphe par deux ensembles de crcuts dsjonts. Nous en conclurons qu'l devrat y avor équvalence entre la noton de sens et d ensemble de crcuts dans le graphe. Cette hypothèse devrat être vrae même en présence d enttés polysémques 22 dans le réseau. En effet, en partant d'une entté 22 Monoséme : une entté est dte monosémque s toutes les enttés auxquelles elle est lée sont lées entre elles (l entté appartent à une seule clque). Homonyme : une entté est dte homonymque s l'ensemble des enttés auxquelles elle est lée (autres qu'ellemême) est séparable en au mons deux sous-ensembles dsjonts pour ce len, c'est-à-dre que chacun des éléments de l'un des sous-ensembles n'est lé à aucun des éléments des autres sous-ensembles. Polyséme : une entté est dte polysémque s elle n'est n monosémque n homonymque, c'est-à-dre s elle admet : () des enttés auxquelles elle est lée qu ne sont pas toutes lées entre elles ; () des enttés non séparables: relées entre elles par une chaîne d enttés, lées à l'entté consdérée et dfférentes de cette entté. 97

106 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP "E" donnée à la recherche d un crcut, l exstence d une entté polysémque fat en sorte qu l y a peu de chance que l on revenne à l entté de départ "E", et par sute l entté polysémque est évdement élmnée. L dée consste à regrouper deux enttés E 2 et E 3 d une entté donnée E 1 en un élément de sens S 1 de cette entté s l exste au mons un certan nombre de crcuts partant de E 1 et y aboutssant, passant par E 2 et E 3 en même temps. Nous défnssons la proxmté sémantque entre deux enttés E 1 et E 2 en terme du nombre de crcuts passant par E 1 et E 2 de la manère suvante [Elayeb et al., 2008] : Proxmté_Sémantque (E 1, E 2 ) = Nombre de crcuts (E 1, E 2 )/Nombre maxmum de crcuts détectés Il est nécessare de détermner le nombre de crcuts passant par chaque entté pour pouvor évaluer les proxmtés entre les dfférentes enttés formant les sommets du réseau d nformatons. Ce nombre de crcuts est utle pour la défnton du paramètre appelé «le seul d acceptaton» Chox du seul d acceptaton Le seul d acceptaton joue le rôle du fltre qu empêchera de regrouper certanes enttés sémantquement proches d une entté donnée dans une même composante de «sens», et permettra donc, par opposton, d en regrouper d autres. Une valeur fable de ce seul ferat entrer dans la même composante de «sens» des enttés qu ont peu ou pas assez de relatons entre elles en tant qu enttés smlares à celle de départ car peu de crcuts les réunssent. Alors qu une valeur mportante de ce seul aurat pour effet d empêcher le regroupement d enttés pouvant correspondre à une même sgnfcaton, vore d élmner carrément certanes enttés, qu seraent ans à tord consdérées comme des enttés smlares non acceptables de celle de départ. Nous étudons dans la sute les effets de la varaton du seul d acceptaton et son nfluence sur la formulaton de composantes de «sens». Consdérons l exemple d un réseau d enttés de la fgure 4.4. E 2 E 1 E 4 X E 3 X Y Fgure 4.4 : Exemple du chox de seul d'acceptaton Nous supposons que l entté de départ est E 1 et que le nombre de crcuts contenant à la fos E 1, E 2 et E 3 est N 1. Nous avons symbolsé les enttés relant E 2 à E 3 par l entté X. Le nombre de crcuts N 1 est obtenu en addtonnant le nombre de crcuts N 2 passant par l entté E 4 d un côté, et le nombre de crcuts N 3 passant par Y (chacun des deux symboles X et Y représente pluseurs autres enttés lées). Supposons que N 1 sot supéreur au seul d acceptaton. Cec mplque que E 2 et E 3 font parte du même «sens». Concernant E 4, deux cas sont à prendre en consdératon : 98

107 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP N 2 est supéreur au seul d acceptaton, alors E 4 fat parte du même «sens» que E 2 et E 3. N 2 est nféreur au seul d acceptaton, alors E 4 ne fat pas parte du «sens» précédemment évoqué. Deux cas peuvent alors encore se présenter : - E 4 fgurera dans une autre composante (qu ne fgure pas sur le schéma). - E 4 ne fgurera dans aucune autre composante et donc ne sera plus consdérée comme sémantquement proche de E 1. Il s est avéré qu l n est pas du tout évdent de chosr le seul optmal d acceptaton. C est pour cette rason que nous avons mnmsé son rôle en le combnant à un autre facteur qu est la longueur du crcut. Par alleurs, le seul d acceptaton est calculé automatquement à partr de la moyenne du nombre des crcuts dans la matrce des crcuts communs (cf. secton ). Cette soluton ne nécesste aucune expertse du côté de l utlsateur et peut donc être explotée automatquement Importance de la longueur du crcut La rchesse d un réseau d nformatons se tradut par la complexté des lens entre enttés qu le composent. En effet, la dstance (en nombre d arêtes) qu sépare ces enttés, et donc la longueur du crcut les relant est l un des facteurs mportants qu assure l'exstence d une proxmté sgnfcatve entre deux enttés du réseau. De plus, l exste une nter-connectvté accrue entre les nœuds du graphe assocé à une entté possédant un très grand nombre de lens. Par exemple dans le domane lexcal, plus l y a de sens assocés à un mot, plus on trouve d arcs connectés aux sommets le représentant dans le graphe. D autre part, l se peut qu un crcut partant et aboutssant à une entté E 1 sot consttué de deux chemns : l un partant de E 1 à E 2 et désgnant un sens S 1, et l autre partant de E 2 vers E 1 et désgnant un autre sens S 2. Il s agt en fat du problème de la «polyséme» des enttés. Il s est avéré que pluseurs anomales peuvent être détectées lors du regroupement des enttés dans les composantes de sens. Ces erreurs sont causées prncpalement par l exstence d enttés polysémques dans un ou pluseurs crcuts. Vu la dffculté de résoudre défntvement le problème de la polyséme lée aux enttés à caractère documentare, nous proposons une contrbuton qu consste à mnmser les effets néfastes à la compréhenson en dmnuant la longueur des crcuts à trater, et donc en restregnant le nombre d enttés y fgurant. En effet, la prse en compte de crcuts trop courts unquement aurat pour effet de scnder une même composante de sens en pluseurs. Cependant, plus le crcut est long, plus l y a de chance d y trouver des enttés polysémques et par conséquent de mélanger dfférentes composantes de sens. Ans, le prncpe de regroupement que nous proposons est le suvant : On regroupe deux enttés E 2 et E 3 lées à une entté donnée E 1 en une composante de sens S 1 de cette entté s l exste au mons un certan nombre de crcuts de longueur nféreure ou égale à une longueur donnée partant de E 1 et y revenant, passant par E 2 et E 3 en même temps. Nous appellerons la longueur maxmale précédemment évoquée «la longueur lmte». Nous précsons que la longueur des crcuts que nous avons prs en compte est de l ordre de 4 arcs (dans les deux cas : mots du dctonnare ou pages Web). Nous avons attent ce chffre après ben des tests sur la valdté des résultats obtenus en foncton de la longueur des crcuts étudés (vor annexes 3 et 4). En effet, dans le cas du dctonnare, l ordre de mots sémantquement proches récupérés pour un mot donné se stablse à partr d une longueur de crcut égale à 4. A partr d une longueur de crcuts égale à 5, le nombre de crcuts récupérés 99

108 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP pour chaque sémantquement mot proche devent très mportant. En conséquence, dans ce cas pluseurs mots ne font pas parte de la composante de sens du mot de départ Constructon des classes de sens Nous avons étudé tros méthodes permettant de grouper les enttés en classes de sens (enttés lées entre elles et partageant un même sens). Ces approches utlsent une matrce, dte des crcuts communs, construte à partr de statstques sur les crcuts dans le graphe. Par alleurs, cette matrce consttue le matérel de base sur lequel s effectuent les tratements permettant de regrouper les enttés correspondant à une même composante de sens d une entté donnée. Nous nous n ntéressons qu aux crcuts ayant une longueur nféreure ou égale à la longueur lmte décrte dans la secton précédente. Un comproms sur la longueur lmte des crcuts à prendre en compte s avère donc nécessare car cette longueur lmte nflue grandement sur les résultats. En effet, une valeur élevée de cette longueur présenterat l avantage de dmnuer le nombre de composantes mas y nclurat des enttés ndrectes ayant des sens élognés de l entté ntale. Par contre, une valeur basse de cette longueur permettrat d élmner les enttés ndrectes mas donnerat un grand nombre de composantes de sens vue qu un sens sera assocé à des petts groupes d enttés. La matrce des crcuts communs permet de générer les dfférentes relatons exstant entre les enttés du réseau deux à deux. En effet, la constructon de cette matrce carrée se fat de la manère suvante : Pour une entté donnée au départ, nous partons du graphe d enttés et nous parcourons la structure correspondante à la recherche de tous les crcuts partant de l entté de départ. Après avor construt la lste des crcuts, nous construsons la matrce des crcuts communs dont les entrées sont les enttés proches de l entté de départ et où le contenu d une cellule de coordonnées (E, E j ) correspond au nombre de crcuts partant de l entté de départ et contenant à la fos E et E j. Cette matrce est utle dans l extracton des couples d enttés ayant une relaton sgnfcatve en comparant le contenu de chaque cellule avec le seul d acceptaton représentant le nombre moyen de crcuts fgurant dans la matrce. La génératon des groupes d acceptatons potentels se fat entté par entté. En effet, nous commencons par construre des groupes contenant chacun deux éléments, pus on rétère comme sut: Une relaton R exste entre deux enttés E et E j s la valeur correspondant à la lgne et la colonne j dans la matrce est supéreure au seul d acceptaton. Ces deux enttés forment alors un couple comme le montre la fgure 4.5. E 1 E 2 E 3 E m E E E E m Seul d acceptaton = ( )/6 8 Pares retenues : F = {{E 1, E 2 }, {E 1, E m }, {E 2, E 3 }} Fgure 4.5 : Couples des enttés ssus d une matrce des crcuts communs Une fos élaboré l ensemble F de ces couples, nous transformons F en un ensemble de trplets en essayant d y nclure une entté sgnfcatve (correspondant au même sens que les deux enttés du couple), pus en un ensemble de quadruplets, etc. Fnalement, lorsque l ensemble F 100

109 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP se stablse, nous obtenons dans F les composantes potentelles de sens représentant les classes de sens fnales. Nous présentons c-après tros méthodes de regroupement permettant d étendre l ensemble F. Ces méthodes ont été ntées par [Awada, 2005] dans le cas des verbes d un dctonnare. Nous commentons d avantage ces tros méthodes tout en proposant un nouveau cadre générque de leur applcaton et nous proposons des extensons vers d autres algorthmes générques de regroupement des composantes de sens (cf. secton 2.2.2). Ces tros méthodes utlsent les conventons suvantes : F : l'ensemble de couples d enttés obtenus à partr de la matrce des crcuts communs. G j : le j ème groupe de F. n : le nombre des groupes de F (cardnalté de F), donc F = {G 1, G 2,, G n }. E k : le k ème entté obtenue à partr de celle du départ. m : le nombre d enttés dans la matrce des crcuts communs. () Premère méthode : Regroupement par allongement de crcuts Consdérons le groupe d enttés {E, E +1,, E j }, où j >, on nclut l entté E k, k [, j], dans ce groupe s et seulement s E k entretent une relaton sgnfcatve avec tous les éléments de ce groupe smultanément. Cec se tradut par le fat que le nombre de crcuts qu contennent E k et tous les éléments de ce groupe sont supéreurs au seul d acceptaton 23. Cet algorthme est présenté par la fgure 4.6. Répéter stablté = Vra; /*C est une varable booléenne ndquant que la constructon de F est non encore achevée*/ Pour j allant de 1 à n Fare Pour k allant de 1 à m Fare S (E k G j ) Alors S le nombre de crcuts contenant E k & tous les éléments de G j sont > seul d acceptaton Alors {G j G j {E k }; stablté = Faux ;} FnS FnS FnPour /*fn pour k*/ FnPour /*fn pour j*/ Jusqu à (stablté == Faux); Fgure 4.6 : Algorthme de regroupement par allongement de crcuts Le but étant d obtenr des composantes de sens grâce à la condton de regroupement consstant à nclure une entté dans une composante unquement s le nombre de crcuts réunssant cette entté à toutes celles de la composante est supéreur au seul d acceptaton. En effet, cette méthode est trop contragnante car s reler E à G = {E 1,, E m } se tradusat graphquement par une arête entre E et chaque E de G (pour = 1,,m) dans un graphe qu on appellera H(G), mas comme la dernère entté entrée dans G (supposons que ce sot E m ) y est entrée pour la même rason et est donc relée à chaque E j de G (pour j = 1, m-1), et ans de sute pour tous les précédents alors la représentaton graphque de H(G) est une clque sur G (tout E est relé par une arête à tout E j ). La condton est donc forte pusque n entre dans H (de cardnal n) qu une entté E à condton que H {E} reste une clque et que le nombre de crcuts, utlsant tous les éléments de 23 S R(x, Y) sgnfe que x entretent une relaton sgnfcatve avec tous les éléments de Y, alors R(S k, {S, S +1,, S j }) Nbre_crcuts(S k, {S, S +1,, S j }) > seul. 101

110 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP H n {E} où H n est un sous-ensemble à n éléments de H, sot supéreur à un seul. S Nbre(H n {E}) représente ce nombre de crcuts et s représente le seul, la condton est Nbre(H n {E}) s. () Deuxème méthode : Regroupement par assocatons séparées Consdérons le groupe d enttés {E, E +1,, E j } augmenté d une entté E k s et seulement s E k entretent une relaton sgnfcatve 24 avec chaque élément de ce groupe séparément. Cec se tradut dans la matrce par des valeurs de (E, E k ), (E +1, E k ),, (E j, E k ) toutes supéreures au seul d acceptaton. Cet algorthme est présenté par la fgure 4.7. Ben que cette deuxème méthode sot plus souple que la premère, elle est encore contragnante car elle consste encore à préserver la nature de clque de H(G) mas cette fos avec la condton que le nombre de crcuts, utlsant tous les éléments de H 1 {E} où H n est un sous-ensemble à n éléments de H(G), sot supéreur à un seul. Sot : H 1 H(G), Nbre(H 1 {E}) s. Répéter stablté = Vra; Pour j allant de 1 à n Fare Pour k allant de 1 à m Fare S (E k G j ) Alors S l exste une relaton R entre E k & chaque élément de G j Alors {G j G j {E k }; stablté = Faux ;} FnS FnS FnPour /*fn pour k*/ FnPour /*fn pour j*/ Jusqu à (stablté == Faux); Fgure 4.7 : Algorthme de regroupement par assocatons séparées Il est à sgnalé que nous avons proposé des méthodes ntermédares entre la premère et la deuxème méthode. Il suffsat encore une fos de préserver la nature de clque de H(G) avec la condton (paramétrable sur k) suvante : le nombre de crcuts, utlsant tous les éléments de H k {E} où 1 k n pour tous les H k, est supéreur à un seul. Sot : H k H(G), Nbre(H k {E}) s. () Trosème méthode : Regroupement par contrante mnmale Consdérons le groupe de n enttés {E, E +1,, E j }, on augmente ce groupe d enttés E k s et seulement s l exste un crcut de longueur n+1 (où n = Card(G)) contenant les éléments du groupe et E k. Cet algorthme est présenté par la fgure 4.8. Chaque élément de F dot correspondre à un groupe d enttés ayant un «sens» spécfque. Toutefos, cette soluton présente un certan nombre de lacunes. En effet, le sens de parcours des enttés nflue sur le résultat obtenu. Prenons l exemple d un groupe G = {E 1, E 2,, E p } et deux canddats E k et E l tels qu l exste un crcut de longueur p+1 contenant E 1, E 2,, E p et E k et un autre crcut de longueur p+1 (où p = Card(G)) contenant E 1, E 2,, E p et E l mas l n exste pas de crcut de longueur p+2 contenant E 1, E 2,, E p, E k et E l. L entté à nclure dans le groupe G est le premer examné, l autre n y entrera jamas. Cec fat que le nombre de 24 S R(x, y) sgnfe que x entretent une relaton sgnfcatve avec y, alors p [, j] R(S k, S p ) ; c-à-d : R(S k, S p ) Nbre_crcuts(S k, S p ) > seul. 102

111 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP groupes obtenus reste supéreur au nombre d acceptons possbles. Nous avons ans prévu une étape de fuson consstant à réunr les groupes correspondant au même «sens» à l ntéreur de la même composante de «sens». Nous tenons quand même à sgnaler que nous avons adopté cette dernère méthode qu nous semble melleure que les deux premères du pont de vue des résultats obtenus. Répéter stablté = Vra; Pour j allant de 1 à n Fare Pour k allant de 1 à m Fare S (E k G j ) Alors S l exste un crcut qu content seulement E k & tous les éléments de G j Alors {G j G j {E k }; stablté = Faux ;} FnS FnS FnPour /*fn pour k*/ FnPour /*fn pour j*/ Jusqu à (stablté == Faux); Fgure 4.8 : Algorthme de regroupement par contrante mnmale En fat, cette méthode est beaucoup mons contragnante que les deux autres car elle consste encore à préserver la nature de clque de H(G) avec la condton (plus fable) suvante : Le nombre de crcuts, utlsant tous les éléments de H n {E} est supéreur à 1. Sot Nbre(H n {E}) 1. S l on résume cela par le tableau 4.3 : H(G) = clque x = Nbre d éléments prs dans G x =1 x = k, 1 < k < n x = n Seul y y = 1? Méthodes ntermédares? y = 2 Méthode 2? Méthode 1 H(G) clque? Tableau 4.3 : Récaptulaton de méthodes de regroupement des enttés Le symbole (?) dans le tableau 4.3 montre qu l y a encore d autres méthodes à tester. En fat, nous avons complètement occulté le cas H(G) non clque. En effet s l on reprend la toute premère défnton en la modfant comme sut : Etant donné un groupe d enttés {E, E +1,, E j } de cardnalté (j-+1). Nous augmentons cet ensemble d une entté E k s et seulement s E k entretent une relaton suffsamment sgnfcatve avec chaque élément de ce groupe. Cec se tradut par le fat que le nombre de crcuts, qu contennent E k et suffsamment d éléments de ce groupe, est supéreur au seul d acceptaton. Le mot «suffsamment» pourrat sgnfer par exemple qu l passe un nombre de crcuts (supéreur au seul y) avec un nombre suffsamment grand d éléments de G ( 90%*card(G), par exemple), mas pas tous les éléments de G que ce sot séparément (.e. : pour n mporte quel groupe d un élément) ou smultanément (.e. : pour n mporte quel groupe de n éléments) ou partellement (.e. : pour n mporte quel groupe de k éléments). Il se pourrat alors qu une entté (ou peut-être pluseurs) ne fasse jamas parte d aucun crcut contenant E k, auquel cas l ne serat pas relé dans H(G) à E k et H(G) ne serat plus une clque. 103

112 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP Ensute nous pouvons fare de nouveau varer x et y dans le cas H(G) non clque. Quant à l nfluence de l ordre d entrée des enttés dans G, elle état déjà présente pour la méthode 1 comme pour la méthode 2. Dans l exemple cté, s E k entre dans G l faudrat que E l entre auss (ben que l entté E k ne sot pas relée à E l pusque aucun crcut ne les content). Cela mlte pour une méthode qu s applque quand H(G) est non clque Fuson des groupes potentels en composantes de sens L étape de regroupement produt un ensemble F de groupes G contenant chacun des enttés ayant le même sens. Cependant, l se peut que deux groupes pussent correspondre à un même sens. Cec découle, entre autres choses, du problème évoqué dans le paragraphe précédent. Une fuson de ces deux groupes est nécessare pour obtenr une unque composante de sens. Le prncpe de fuson des groupes potentels en composantes de sens est le suvant : Deux groupes G et G j (card(g ) = n ; card(g j ) = n j avec n j n ) dovent être fusonnés s : 1. G content (n j -1) mots de G j. 2. Il exste un arc entre les enttés E 1 et E 2 tels que E 1 G j - G et E 2 G - G j. En effet, G content (n - n j ) enttés qu ne sont pas dans G j. Sot Q l'ensemble de ces enttés et q = card(q). Nous avons envsagé l étude de dfférentes possbltés de relaton entre E 1 (E 1 G j et E 1 G ) et un certan nombre d éléments de Q. Nous avons constaté qu mposer à E 1 d avor une relaton (arc) avec chaque élément de Q ne permet pas de rédure les sens ntermédares de façon sgnfcatve et lasserat des groupes non fusonnés ayant des sens proches. Après une étude approfonde du problème, [Awada, 2005] a about à la concluson suvante : pour nclure E 1 dans G, l sufft qu l y at un arc entre E 1 et un des éléments de Q. La fgure 4.9 présente cet algorthme. Répéter arrêt = Vra; Pour allant de 1 à n Fare Pour j allant de 1 à n Fare S (G G j ) Alors n = card(g ); n j = card(g j ); S (n j > n ) Alors échanger G et G j ; /* G plus pett que G j */ S (card (G G j ) >= n j 1) Alors E 1 = G \ (G G j ); G = G \ (G G j ); S l exste une relaton R entre E 1 & un élément de G Alors G G G j ; arrêt = Faux ; Supprmer G j ; /*Fusonner G et G j */ FnS FnS FnS FnS FnPour /*fn Pour j*/ FnPour /*fn Pour */ Jusqu à (arrêt == Faux) ; Fgure 4.9 : Algorthme de fuson des groupes potentels en composantes de sens Nous remarquons c que la fuson de groupes ressemble à l agrégaton des enttés en une non-clque. Dans l exemple cté précédemment on aurat pu obtenr : G 1 = {E 1,, E m, E k } et 104

113 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP G 2 = {E 1,, E m, E l }. A l évdence G = G 1 G 2 = {E 1,, E m, E k, E l } pourrat très ben vérfer Nbre(H(G)) s s l on n mpose pas Nbre(H n ) s pour H n H(G) et pour n [1, m+2]. S on relaxe ces deux quantfcateurs, la méthode pourrat ne pas nécesster la fuson de groupes Extenson à d autres algorthmes de classfcaton Nous présentons dans cette secton d autres algorthmes de classfcaton qu semblent suceptbles de résoudre notre problématque de recherche des composantes de sens dans un RPMH d enttés. En fat, ces algorthmes tratent le cas où H est un graphe non clque (.e. H(G) clque dans le tableau 4.3). Algorthme 1 : L entté E ntègre le groupe G s et seulement s l exste un nombre Nbre(E) de crcuts, notés C 1,, C Nbre(E), tel que Nbre(E) s, (s foncton de Card(G)), de longueurs L(C ) tels que, L(C ) l, (l foncton de Card(G)) passant par E et utlsant tous les enttés de G. Algorthme 2 : L entté E ntègre le groupe G s et seulement s l exste un nombre Nbre(E) de crcuts, notés C 1,, C Nbre(E), tel que Nbre(E) s, (s foncton de Card(G)), de longueurs L(C ) tels que, L(C ) l, (l foncton de Card(G)) passant par E et utlsant suffsamment d enttés de G. L algorthme 2 assouplt un peu l algorthme 1 trop contragnant. Par contre E peut être relé à G par un arc ou par un chemn court (empruntant des sommets non encore dans G). Algorthme 3 : L entté E ntègre le groupe G s et seulement s l exste un nombre Nbre(E) de crcuts, notés C 1,, C Nbre(E), tel que Nbre(E) s, (s foncton de Card(G)), de longueurs L(C ) tels que, L(C ) l, (l foncton de Card(G)) passant par E et utlsant un ensemble d enttés F = =1,Nbre(E) C tel que Card(F G) n et Card(F G) = λ*card(g) (où n foncton de Card(G) et λ 1). Pourquo faut-l garder F dans l'algorthme et ne pas restrendre à G? Tout smplement parce qu'au moment d'ntégrer E m+1 à G = {E 1,..., E m }, l faut se rappeler que G n'exste que grâce à F (et en partculer aux quelques éléments de F - G qu ont perms de dénombrer suffsamment de crcuts de longueurs acceptables pour autorser tous les éléments de G à se regrouper). S E m est le derner noeud à être entré dans G et cela grâce à un noeud E k appartenant à F - G, E k a donc perms l'exstence de crcuts justfant G. S l'on supprme E k et que l'on cherche mantenant à ntégrer E m+1 dans G = {E 1,..., E m }, l est déjà probable que le nombre de crcuts a dmnué et que E m ne devrat peut-être déjà plus être dans G. Il n'est pas non plus certan que l'ntroducton de E m avec la dsparton de E k permette d'ntégrer E m+1. E m pourrat par exemple s'avérer nutle à l'ntégraton de E m+1 (l pourrat ne fare apparaître aucun crcut contenant E m+1 ) tands que E k aurat par contre été utle. Ce serat le cas par exemple s E m+1 état lé à E k (donc à E m ) sans pour autant être drectement lé à E m. F est-l donc condamné à croître sans cesse? F ou! Mas F - G non, et pour deux rasons: - l faut que Card(F G) reste pett ; - l faut préférentellement tenter d'ntégrer à G les éléments de F G (ce qu fat dmnuer Card(F G) en cas de succès). Sot G un ensemble non vde d enttés proches entre eux. Sot E un nouveau entté que l on cherche à ntégrer à G. Sot F l ensemble d enttés qu appartennent aux crcuts qu ont perms de regrouper les enttés de G de telle sorte que F - G sot pett. 105

114 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP D autre part, s les enttés étaent des masons, la structure de RPMH donnerat une répartton des masons formant de grandes métropoles (denses, zones en marron) (vor fgure 4.10) et des banleues de vlles proches mas un peu mons denses (zones orangées) et pus rapdement la campagne avec quelques vllages clarsemés avec peu d'habtatons (zones jaunes) et encore plus rare ensute quelques leux dts de quelques masons (zones crèmes) et pus presque ren sous forme de masons solées (zone grse). Fgure 4.10 : Répartton des zones denses dans une zone urbane Il en va un peu de même pour les enttés. En effet, les éléments de la zone marron entretennent de nombreux crcuts courts entre eux, mas certans (ceux à la pérphére de la zone marron) grâce à des éléments de la zone orangée. Ans de sute. Quand on est sur un élément de la zone crème, on profte des éléments de la zone jaune mas pas des éléments de la zone grse car ces derners sont trop peu nombreux et/ou nécesstent des crcuts trop longs. En fat l'algorthme devrat encore pouvor s'amélorer. Ic nous avons proposé Card(F- G) n. Nous pourrons cependant penser qu'l ne serat pas forcement très gênant que Card(F G) >> n. Ce qu mporte est que les éléments de F - G ne soent pas "trop lon" de G. Un autre crtère de restrcton alternatf pourrat donc être dst(e k, G) < d où E k, appartenant à F - G, est une entté permettant l'exstence de suffsamment de crcuts courts autorsant l'ntégraton de l entté E m+1 à G. Pluseurs défntons de dst(e, G) sont envsageables, mas l faut encore approfondr cette noton et ben chosr d (noté plus lon d G ). Peut-être même que l'élognement de E à G n'est pas le melleur crtère possble. Sur la fgure c-dessus on peut magner un cercle vde (dsons de la talle du cercle de la zone en marron) que l'on promènerat sur cette fgure. L'dée serat alors de compter le nombre de crcuts courts dans cette zone crculare. On la déplacerat pour permettre ans l'agrégaton des éléments à ceux dont ls sont les plus proches (cela pourrat consttuer les zones de dfférentes couleurs de la fgure c-dessus). G résulterat ans de cette agrégaton "en pelure d'ognon" (ncluant les éléments de la zone marron jusqu'à la zone crème, mas pas au delà). En résumé: on agrège E à G s'l exste suffsamment de crcuts courts passant par E et par certans éléments de G pour autant que E et ces éléments soent à une dstance courte les uns des autres (correspondant à la talle maxmale de la zone crculare). Pour détermner au meux cette dstance dst(e, G), l sufft de s'magner le résultat fnal qu est une lste de groupes d enttés consttuant chacun une «accepton». Dans une «accepton» l y a un certan nombre d enttés sémantquement proches qu entretennent entre elles des lens. Il s'ensut que, dans une «accepton», la dstance qu autorse les éléments à être ensemble (en plus du nombre suffsant de crcuts courts entre eux) est la dstance maxmale qu'l y a entre deux de ces éléments. Donc à chaque étape de l'agrégaton d'un nouvel élément dans G, nous calculons cette dstance maxmale (elle sera donc 106

115 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP dynamque). Nous chosssons donc de défnr dst(e, G) et la contrante sur celle-c de la façon suvante: dst(e, G) = Inf E' G {d(e, E')} et dst(e, G) d G où d G = dam(g) = Sup E1 G,E2 G {d(e 1, E 2 )} avec pluseurs varantes pour le calcul de d(e 1, E 2 ) entre deux enttés. - d 1 (E 1, E 2 ) = longueur en nombre d'arcs du plus court chemn entre E 1 et E 2 ; - d 2 (E 1, E 2 ) = Prox 25 (D, t, E 1, E 2 ) la probablté en partant de E 1 d'arrver sur E 2 au terme d'un parcours de t arcs dans D. Prox(D, t, E 1, E 2 ) = [ Dˆ t] E1,E2 ; - d 3 (E 1, E 2 ) = longueur du plus court chemn entre E 1 et E 2 où chaque arc <E, E j > est valué par Prox(D, t, E 1, E 2 ) ; - d 4 (E 1, E 2 ) = dstance eucldenne des enttés E dsposes dans IR 3 sute à une Analyse en Composante Prncpale (ACP) applquée aux vecteurs Ê = ([ Dˆ t] E,E ) =1, Card(D) Il nous reste à fxer les tros paramètres qu ont été ntrodut précédemment "s", "l" et "λ". Autrement dt, nous répondons aux questons de type : Quel nombre mnmal de crcuts? Quelle longueur maxmale pour un crcut? Quelle proporton d éléments de G? Nous svons que s Card(G) = m, l ne peut y avor plus de 2 m - m - 1 crcuts entre les éléments de G (les arcs sont assmlés à des arêtes). Il serat donc très étonnant que E (entté à ntégrer dans G) partcpe à autant de crcuts. Il dot néanmons y avor au mons un crcut (se rappeler que G ne contendra au début qu'un seul élément). Il faudrat donc prendre un nombre s tel que 1 s 2 m - m -1 (pour tout m > 1). Pourquo pas une sorte de moyenne entre ces deux cas extrêmes: par exemple s 2 m-1. Nous svons que dans G, les éléments forment des crcuts. Le plus long d'entre eux content au plus tous les éléments de G donc est de longueur Card(G) = m. S E dot former de nombreux crcuts avec les éléments de G (ou avec des éléments extéreurs à G, néanmons proches de G) alors l ne devra pas être lon du plus élogné d'entre eux (qu se trouve au maxmum à dam(g) + 1). Cec nous a perms de proposer l algorthme suvant : Nouvel Algorthme proposé : L entté E ntègre les m éléments du groupe G s et seulement s l exste Nbre(E) crcuts C passant par E tels que Nbre(E) 2 m-1, I=[1, Nbre(E)], L(C ) m, M F= =1,Nbre(E) C, dst(m,g) 1+dam(G). Applquons ce nouvel algorthme à un pett graphe d enttés de la fgure Les résultats sont récaptulés dans le tableau La méthode Prox est une méthode stochastque pour l étude de la structure des RPMH. En fat, nous nous sommes nsprés de cette méthode, proposée par [Gaume et al., 2004] dans le cas d un RPMH de mots d un dctonnare. Cette méthode consste à transformer un graphe RPMH de enttés en une chaîne de Markov dont les états sont les sommets du graphe en queston et ses arêtes les transtons possbles : une partcule en partant à l nstant t = 0 d une entté e 0, se déplace en un pas sur une autre entté e 1 l un des vosns de e 0 sélectonné aléatorement ; la partcule se déplace alors à nouveau en un pas sur e 2, l un des vosns de e 1 sélectonné aléatorement etc. S au t-ème pas la partcule est sur l entté e t elle se déplace alors en un pas sur l entté e t+1 qu est sélectonné aléatorement parm les vosns de e t avec des probabltés varables. Une trajectore e 1, e 2,..., e t,... ans sélectonnée est une «balade» aléatore sur le graphe, et ce sont les dynamques de ces trajectores qu donnent des proprétés structurelles aux graphes étudés [Gaume et Ferré, 2004] [Gaume et Matheu, 2007]. Par défnton Prox(G,, e r, e s ) est la probablté qu en partant à l nstant t = 0 d une entté e r la partcule sot à l nstant t = sur l entté e s. 107

116 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP G 0 = {E 1 } m = 1 1+dam(G 0 ) = 1 E=E 2 car <E 1,E 2 > exste 2 m-1 1 Nb(E) 1 car C 1 ={E 2,E 1 } L(C 1 ) = 2 m = 1 F = {E 1, E 2 } s M F alors dst(m, G 0 ) 1 G 3 = {E 1, E 2, E 3, E 4 } m = 4 1+dam(G 3 ) = 2 E=E' 5 car <E 1,E' 5 > exste 2 m-1 = 4 Nb(E) 4 car C 1 = {E' 5, E 1 }, C 2 = {E' 5, E 4, E 1 }, C 3 = {E' 5, E 5, E 1 }, C 4 = {E' 5, E'' 5, E 1 } L(C 1 ) = 2 m = 4, L(C 2 ) = 3 4, L(C 3 ) = 3 4, L(C 4 ) = 3 4. F ={E 1,E 2,E 3,E 4,E' 5,E'' 5 } s M F alors dst(m, G 3 ) 1 1+dam(E 3 ) = 2 G 1 = {E 1, E 2 } m = 2 1+dam(G 1 ) = 2 E=E5 car <E 1,E 5 > exste 2 m-1 = 2 Nb(E) 2 car C 1 = {E 5, E 1 }, C 2 = {E 5, E 1, E' 5 } L(C 1 ) = 2 m = 2 mas L(C 2 ) = 3 E 5 n'ntegre par G 1 G 4 ={E 1, E 2, E 3, E 4, E' 5 } ETC... G 1 = {E 1, E 2 } m = 2 1+dam(G 1 ) = 2 E=E 3 car <E 1,E 3 > exste 2 m-1 = 2 Nb(E) 2 car C 1 = {E 3, E 1 }, C 2 = {E 3, E 2 } L(C 1 ) = 2 m = 2, L(C 2 ) = 2 2, F = {E 1, E 2, E 3 } s M F alors dst(m, G 1 ) 1 1+dam(G 1 ) = 2 Tableau 4.4 : Récaptulaton des résultats du nouvel algorthme G 2 = {E 1, E 2, E 3 } m = 3 1+dam(G 2 ) = 2 E=E 4 car <E 1,E 4 > exste 2 m-1 3 Nb(E) 3 car C 1 = {E 4, E 1 }, C 2 = {E 4, E 2 }, C 3 = {E 4, E 3 } L(C 1 ) = 2 m = 3, L(C 2 ) = 2 3, L(C 3 ) = 2 3, F = {E 1, E 2, E 3, E 4 } s M F alors dst(m, G 2 ) 1 1+dam(G 2 ) = 2 E 5 E 5 E 4 E 5 E 5 E 3 E 2 E 1 E 6 E 6 E 6 E 6 E 6 Fgure 4.11 : Applcaton du nouvel algorthme à un graphe RPMH L'algorthme suggère qu'l n'y a pas 2 composantes pour E 1 mas une seule car {E 1, E 2, E 3, E 4, E 5, E' 5, E'' 5,...} vont se regrouper. Le dessn de la fgure 4.12 aurat donc dû être celu de la fgure

117 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP E 5 E 5 E 4 E 5 E 3 E 5 E 1 E 2 E 6 E 6 E 6 E 6 E 6 Fgure 4.12 : Résultat du groupement dans le RPMH de l exemple Par contre, l est clar que la composante "E 1 " ne sera jamas regroupée avec la composante "E 6 " car l n'y a pas de cycle possble entre elles. Sot D la matrce d'adjacence de ce graphe de 13 enttés et sot DD la matrce markovenne de D, explctées comme sut : Nous calculons DD 7 (car en 7 arcs/arêtes nous avons le temps de parcourr tous les noeuds de la composante "E 1 " au mons une fos, et un peu plus d'une fos pour ceux de la composante "E 6 "). DD 7 =! !! !! !! !! !! !! !! !! !! !! !! !! ! Nous remarquons très ben les deux composantes (grs pour "E 1 " et jaune pour "E 6 "). Autrement dt l n'est pas vrament nécessare d utlser les algorthmes basés sur la recherche de crcuts car la matrce DD k permet d effectuer les regroupements recherchés. 109

118 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP DD 35 =! !! !! !! !! !! !! !! !! !! !! !! !! ! DD 100 =! !! !! !! !! !! !! !! !! !! !! !! !! ! A B B C C D C C D C B C B Soent les groupes d enttés suvants déduts de la matrce DD 100 : A = {E 1 } B = {E 2, E 3, E 6, E 6} C = {E 4, E 5, E 5, E 5, E 6, E 6} D = {E 5, E 6 } En étant part de n'mporte quel noeud et en navguant assez longtemps dans le graphe on obtent une probablté de l'ordre de pour arrver à E 1. Nous pourrons dre que E 1 ne peut pas être "llumné"/"actvé" davantage que 14,8% (un seul exemplare du groupe d enttés A : 1 x 14,8% = 14,8%). Pour les éléments de B cela vaut 5,5% (4 exemplares du groupe d enttés B : 4 x 5,55% = 22,2%). Pour ceux du groupe d enttés C, cela vaut 7,4% (6 x 7,4% = 44,4%). Pour le groupe D cela vaut 9,25% (2 x 9,25% = 18,5%). Le total fat 99,9%. Pour une pussance de DD mondre, ces valeurs peuvent être sot plus élevées sot quasment nulles. Les classes les plus mportantes (en pourcentage ndvduel) sont A (14,8%), pus D (9,25%), pus C (7,4%) et enfn B (5,55%). On peut nterpréter cela en dsant que E 1 est un noeud d'artculaton mportant (qu concentre les chemns: un "hub"), vennent ensute plus modestement E' 5 et E 6. Ces classes de valeurs caractérsent la nature de "hub" d'un noeud et absolument pas son appartenance à une même composante que ceux de sa classe. Notons que dans un 1-graphe complet d'arêtes sur m sommets, l y a C m 0 = 1 seul cycle à 0 arête c'est le cycle vde {}. L'ensemble des cycles à une arête, c'est l'ensemble de toutes les boucles de chaque sommet sur lu même, l y en a C m 1 = m {E 1 },...,{E m }. Il y a C m 2 = m(m- 1)/2 cycles à 2 arêtes est {E 1, E 2 }, {E 1, E 3 },..., {E 1, E m }, {E 2, E 3 },..., {E m-1, E m }, etc. et l y a C m m = 1 seul cycle à m arêtes. S l'on enlève les cycles à 0 arête et ceux à 1 arête, l y a au plus 2 m - m - 1 cycles dans un graphe à m sommets. Un cycle se caractérse par son nombre d'arêtes, c'est-à-dre de sommets dfférents le consttuant. Par exemple, dans un cycle 1 seul sommet apparaît 2 fos, les autres n'apparassent qu'une seule fos. E 1 -E 2 -E 3 -E 1 noté {E 1, E 2, 110

119 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP E 3 } est de longueur 3 mas E 3 -E 1 -E 3 -E 4 -E 5 -E 3 ne sera pas consdéré comme un cycle de longueur Concluson Nous avons présenté une approche générque permettant une explotaton automatque d un réseau d nformatons afn d'extrare les composantes de sens assocées à une entté donnée en se basant sur l'étude des crcuts dans le graphe assocé à une large collecton d entté de même espèce (mot d un dctonnare ou page Web). Dans le cas d un dctonnare, ce graphe est structuré sous la forme d un RPMH, où les groupements de sens ans que leurs fusons représentent respectvement les sous petts mondes et les petts mondes de sens assocés à un mot donnée. Cette étude a donné nassance à une nterface utlsateur permettant à ce derner d entrer un mot (ntale) pus d effectuer toutes les étapes décrtes précédemment pour renvoyer les dfférentes composantes de sens assocées à ce mot. En fat, cette étape nous a été très utle dans le processus de la reformulaton sémantque de la requête dans le système SARIPOD qu sera détallée dans le chaptre suvant. Les résultats obtenus lors de la phase de test (vor annexe 3 pour le cas de dctonnare) nous permettent d affrmer qu une même composante de sens content rarement des mots ayant des sens dfférents [Elayeb et al., 2007c]. Cependant, un même sens peut couramment se retrouver dans deux composantes dfférentes. Chaque composante correspond ans à une nuance de l accepton du mot ntal. C est le cas du verbe garder par exemple auquel correspondent les quatre composantes suvantes : {<préserver, épargner, évter, sauver, garantr, protéger, conserver>, <conserver, mantenr, préserver>, <conserver, mantenr, retenr>, <retenr, évter, empêcher>}. Nous remarquons que la composante la plus fourne est celle correspondant à l accepton la plus courante du mot ntal. Par alleurs, un même mot peut se retrouver dans deux composantes dfférentes désgnant chacune une nuance. L exemple du verbe peser llustre nos dres de façon plus clare pusque l essa lu assoce les composantes suvantes : {<examner, juger, consdérer, apprécer, étuder, calculer, approfondr, estmer>, <conserver, mantenr, préserver>, <mportuner, presser, harceler>, <mportuner, fatguer, ennuyer>, <évaluer, valor, examner>}. D autre part, cette approche offre à l utlsateur la possblté de paramétrer sa recherche de composantes. Ans, peut-l chosr lu-même la valeur du seul d acceptaton et la longueur lmte des crcuts à prendre en compte. Ben évdemment, cec requert de l utlsateur une expertse auss ben en nformatque qu en lngustque. Cec nous a poussés à envsager une soluton dans laquelle le seul d acceptaton est calculé automatquement à partr de la matrce des crcuts communs. Cette soluton ne nécesste aucune expertse du côté de l utlsateur et peut donc être explotée par n mporte qu. Toutefos, la valeur calculée ne produt pas toujours les melleurs résultats à cause de la varaton de la répartton de la densté d arcs dans le graphe. Les résultats obtenus dans [Elayeb et al., 2007bc] semblent encourageants et correspondent souvent aux dfférentes acceptons du mot à étuder. Cependant, la noton de "sens" est assez complexe et ambguë en lngustque et certanes nuances de sens semblent très dffcles à cerner. Par alleurs, la constructon du dctonnare que nous avons utlsé pose quelques problèmes pour certans mots. Il est clar qu'un verbe comme fare (ou prendre, etc.) ne porte pas lumême le sens mas c est plutôt le rôle du groupe nomnal qu le sut (fare le maln, fare mal, fare semblant, etc.). Or, les dfférentes acceptons sont assocées à fare sans tenr compte du groupe nomnal qu sut. Par conséquent, fare devent un verbe polysémque par excellence et se retrouve auss ben comme synonyme de volenter (fare mal) que de procréer (fare un 111

120 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP enfant). Nous avons adopté la soluton radcale consstant à élmner ce type de verbes de notre étude afn de mnmser les erreurs résultant de leur usage. D autre part, le même type de problème a été évoqué avec les noms. Par exemple, le mot prse est un mot polysémque désgnant les tros sens dfférents : «prse de bec», «prse de judo» et «prse électrque», etc. Dans le domane des pages Web, nous obtenons auss des résultats encourageants (vor les tests en annexe 4). En fat, cette approche générque nous a perm de créer des groupements des pages Web sous la forme de sous petts modes et de petts mondes des thèmes ou «sens commun». L utlsateur peut navguer à partr de n mporte quelle page de ce réseau tout en vstant les autres pages hypertextuellement lées et thématquement proches de sa page Web de départ. Enfn, nous estmons que le chox du seul d acceptaton est crucal et qu une attenton partculère dot lu être prêtée. En effet, les résultats sont étrotement lés à la valeur de ce seul et en dépendent donc grandement. Il semble prmordal de trouver une méthode robuste permettant de détermner une valeur optmale du seul d acceptaton en foncton du mot étudé et de ses connexons. Une étude statstque de la varaton du seul et ses effets sur les résultats sont envsageables. 3. Le Réseau Possblste du système SARIPOD La mse en correspondance entre les deux RPMH du système SARIPOD est effectuée par le bas d un réseau possblste dont les nœuds sont, d une part les termes du RPMH de dctonnare et d autre part les documents du RPMH de pages Web. Notre objectf consste à gérer une approche basée sur les mesures de nécessté et de possblté dans un modèle de Recherche d Informaton (RI). En effet, l apparement de ces deux RPMH va un réseau possblste permet de calculer les degrés de pertnence possblstes des documents suvant deux crtères, l un quanttatf et l autre qualtatf. En fat, nous avons applqué l'approche quanttatve de [Brn et al., 2004abc] [Brn et al., 2005ab] présentée dans le chaptre 3, non pas à la totalté d'un document, mas à ses enttés logques, obtenues sute au processus d analyse de document permettant de générer les fragments logques de chaque page Web retrouvée (vor détal dans le chaptre suvant). Les fragments logques retenus dans le tableau 4.5 sont obtenus sute à une phase d apprentssage réalsée sur la base de test contenant 974 documents HTML (vor détal dans le derner chaptre de la réalsaton). En fat, nous avons remarqué que la majorté de ces documents possèdent une ou pluseurs de ces fragements logques retenus. La qualté d un document résde dans le pods de chaque fragment logque par rapport aux désres de l utlsateur. Pour cela, nous attrbuons un coeffcent de pertnence possblste à chaque entté (ou fragment) logque selon son mportance dans le document Web. Ces coeffcents représentent la premère parte des préférences de l utlsateur et sont calculés de la manère suvante : α NM = NM + Max(α Légendes, α Paragraphe ) (4.1) α N = NM N + Max(α Légendes, α Paragraphe ) (4.2) Où NM est le nveau maxmal détecté dans le document et N est le nveau de la ème entté logque. Par alleurs, les préférences de l utlsateur du système SARIPOD sont défnes comme étant la qualté du document qu l recherche; c est-à-dre ses préférences pour certans fragments 112

121 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP logques dans les documents recherchés : des nformatons stuées sot dans le ttre prncpal du document, sot dans les sous-ttres, sot dans les paragraphes, etc. ans que ses préférences pour certans types d nformatons : nformatons dans des fgures, dans des tableaux ou sous forme de séquences multméda (vor tableau 4.5). Entté logque du document Web coeffcent de pertnence possblste (α j ) NveauMax (NM=5) 5 +5 = 10 NM = 9 NM = 8 NM = 7 NM = 6 Légende Fgure (LF) 5 Légende Tableau (LT) 4 Légende Séquence Multméda (LSM) 3 Paragraphe (P) 2 Tableau 4.5 : Coeffcent de pertnence possblste de chaque entté logque La pertnence quanttatve de chaque entté logque d'un document (ELd j ) de la collecton, sachant que la requête est Q = (t 1, t 2,, t T ), est calculée de la manère suvante: D'après la formule (3.36) du chaptre 3, Π(ELd j Q) est alors proportonnel à : Π (ELd j Q) = Π(t 1 ELd j )* * Π(t T ELd j ) = nft 1j * * nft Tj (4.3) Avec nft j = tf j /max(tf kj ): fréquence normalsée des termes de la requête dans l entté logque. La certtude de resttuer une entté logque d'un document pertnent d j (ELd j ) pour une requête, notée N(ELd j Q), est donnée par : N(ELd j Q) = 1- Π ( ELd j Q) (4.4) Avec : Π( ELd j Q) = (Π(Q ELd j )* Π( ELd j ))/Π(Q) (4.5) De même Π( ELd j Q) est alors proportonnel à : Π ( ELd j Q) = Π(t 1 ELd j )* *Π(t T ELd j ) (4.6) Ce numérateur peut être exprmé par : Π ( ELd j Q) = (1- φel 1j )* * (1- φel Tj ) (4.7) Avec : φel j = Log 10 (ncel/neld )*(nft j ) (4.8) Où : ncel = nombre d enttés logques des documents de la collecton, neld = nombre d enttés logques des documents de la collecton contenant le terme t, Nous défnssons le degré de pertnence possblste mxte de chaque entté logque d'un document d (ELd ) par : DPMEL(d ) = Π(ELd Q) + N(ELd Q) (4.9) 113

122 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP Enfn, nous défnssons le degré de pertnence possblste mxte du document d par: DPM(d ) = j (α j * DPMEL j (d )) (4.10) Les documents préférés sont ceux qu ont une valeur DPM(d ) élevée. En fat, les coeffcents α j de pertnence possblste sont paramétrés dans SARIPOD et peuvent être modfés selon les préférences de l utlsateur. Par exemple, s nous cherchons des documents ayant des fgures contenant le mot «M», l sufft de donner la plus grande mportance au coeffcent de pertnence possblste correspondant à l entté logque légende fgure (α LF ). En conséquence les DPM(d ) de ces documents seront les plus mportants et seront affchés en tête de la lste trée des documents recherchés [Elayeb et al., 2006]. 3.1 Apport de l approche qualtatve du système SARIPOD Consdérons une mn-collecton de 3 documents contenant des termes t 1, t 2, t 3 et t 4 : d 1 = {t 1, t 1, t 1, t 2, t 2, t 3 }, d 2 = {t 1, t 1, t 2, t 2, t 2, t 2 }, d 3 = {t 1, t 3, t 3, t 3, t 3, t 4, t 4 } Ces termes sont réparts sur les enttés logques de ces tros documents comme l ndque le tableau 4.6. Notons le degré de pertnence possblste mxte (quanttatve et qualtatve) de chaque document d par DPM(d ). Par alleurs, l approche quanttatve ne tent pas compte des emplacements des termes de la requête Q dans les enttés logques des documents de la collecton. Sot DPP(d ), le degré de pertnence possblste de chaque document d calculé par cette approche [Elayeb et al., 2009]. L évaluaton des documents d 1, d 2 et d 3 pour la requête Q = (t 1, t 2, t 3, t 4 ) donne (nous ne donnons que le calcul non trval de notre approche pour les préférences 1) : EL j {NM, (NM-1), (NM-2), (NM-3), (NM-4), LF, LT, LSM, P}, =1, 2, 3 Π(EL j d Q) = 0, N(NMd 1 Q) = N(Pd 1 Q) = 0.18, N((NM-1)d 1 Q) = N((NM-4)d 1 Q) = N(LTd 1 Q) = N((NM-3)d 2 Q) = N(LSMd 2 Q) = N((NM-2)d 3 Q) = N(LFd 3 Q) = N(NMd 3 Q) = 0.48, N(NMd 2 Q) = N(Pd 2 Q) = 0.58, N((NM-1)d 3 Q) = N(Pd 3 Q) = Entté logque du document d 1 d 2 d 3 Nveau maxmal (NM) t 1 t 1, t 2 t 4 NM-1 t 2 t 1, t 3 NM-2 t 3 NM-3 t 2 NM-4 t 3 Légende Fgure (LF) t 3 Légende Tableau (LT) t 2 Légende Séquence Multméda (LSM) t 2 paragraphe (P) t 1, t 1 t 1, t 2 t 3, t 4 Tableau 4.6 : Répartton des termes dans les enttés logques des tros documents 114

123 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP Préférences de l utlsateur Coeffcents α j Préférences 1 (P1) Coeffcents α j Préférences 2 (P2) Coeffcents α j Préférences 3 (P3) Entté logque du document Nveau maxmal (NM) NM NM NM NM Légende Fgure (LF) Légende Tableau (LT) Légende Séquence Multméda (LSM) paragraphe (P) Tableau 4.7 : Les tros préférences de l utlsateur du système SARIPOD Préférences 1 (P1) Préférences 2 (P2) Préférences 3 (P3) d 1 d 2 d 3 d 1 d 2 d 3 d 1 d 2 d 3 [Brn et al., 2005a] : DPP(d ) 0,16 0,18 0,24 0,16 0,18 0,24 0,16 0,18 0,24 Ordre de pertnence de documents SARIPOD : DPM(d ) 11,28 11,76 19,07 9,48 14,92 14,77 13,86 7,22 15,23 Ordre de pertnence de documents Tableau 4.8 : Résultats de l approche qualtatve du système SARIPOD La requête Q, nterprétée comme une conjoncton de termes serat trop restrctve, pusque aucun document de la collecton ne content les quatre termes à la fos. La nécessté et la possblté d'avor un des documents de cette collecton comme résultat sont nulles. Pour évter d'obtenr une lste vde de documents résultats, nous cherchons les documents qu contennent au mons deux termes de la requête pus au mons un terme (s aucun document de la collecton ne content deux termes); c, avec un seul terme, la possblté de tous les documents vaut 1 et leur nécessté vaudra 0. Nous cherchons alors les documents qu tratent des ensembles {t 1, t 2 } ou {t 1, t 4 }, ou {t 2, t 4 }. Nous voyons à travers cet exemple, la nécessté de permettre à l'utlsateur d'exprmer des préférences entre les termes de la requête (cf. secton 3.2). D autre part, nous remarquons que notre approche est plus fne que l approche quanttatve dans le calcul des pertnences possblstes des documents de la collecton car nous avons contrbué à augmenter les scores des pertnences des documents contenant ces termes dans le but de pénalser les scores de pertnence des documents ne les contenant pas. Notons auss que les scores des pertnences possblstes des tros documents, calculés par l approche quanttatve sont très fables par rapport à ceux calculés par notre approche et cec grâce aux coeffcents de pertnence α j, facteurs prmordaux dans notre approche qualtatve. En effet, et pour les préférences 1 de l utlsateur, les dfférences de scores sont fables dans la premère approche (0,02 ; 0,08 et 0,06) à cause d une fable dfférence dans le nombre de termes de chaque document (6 ; 6 ; et 7) alors que dans le cas de notre approche, ls sont 115

124 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP beaucoup plus remarquables (0,48 ; 7,79 et 7,31), ce qu montre ben la dfférence entre un document pertnent par rapport à ceux qu sont mons pertnents dans la collecton. Pour l'exemple de cette requête Q et pour certanes préférences, l ordre de pertnence de documents change en changeant les préférences de l utlsateur. En effet, dans le cas de préférences 1 (P1), le document d 3 est préféré aux documents d 2 et d 1 dans les deux approches. Cec est dû au nombre de termes fgurant dans d 3 d une part (pour les deux approches), et au terme t 4 fgurant dans une entté logque de pods mportant (pour notre approche). Alors que pour les deux autres préférences (P2 et P3), l ordre de pertnence de documents change par rapport aux premères préférences (P1). En fat, et selon notre approche, le document le plus pertnent est celu dont les termes de la requête exstent dans ses enttés logques possédant des coeffcents de pertnence α j mportants tels que le nveau maxmal (NM) et (NM-1) pour les préférences 1, LSM et (NM-3) pour les préférences 2, LT et (NM-4) pour les préférences 3, etc (vor tableau 4.7). Sute à notre nouvelle approche, nous avons remarqué que même s les termes choss tendent à sélectonner ce document, ces termes ne sont pas les plus fréquents dans le document (le terme t 4 n est pas le plus fréquent dans d 3 alors qu l a fortement contrbué dans l augmentaton du score de d 3 ), ce qu montre l atout de l approche qualtatve du système SARIPOD dans la sélecton des documents pertnents [Elayeb et al., 2008, 2009]. 3.2 Pondératon des termes de la requête dans le système SARIPOD Lors de la reformulaton de sa requête, l utlsateur chos, pour chaque terme de sa requête ntale, un nombre de termes sémantquement proches à ajouter pour la contructon de sa requête reformulée. Ces termes sont extrats des classes de «sens» construtes dans le RPMH de dctonnare. En fat, ces préférences entre les termes de la requête représentent la seconde parte des préférences proposées par l utlsateur au système. Consdérons une requête Q(t 1, t 2, t 3 ) composée de tros termes. Elle devendra, après reformulaton, la requête Q (t 1, t 11, t 12, t 13, t 2, t 3, t 31, t 32 ), où t 11, t 12, t 13 sont les tros termes les plus proches de t 1 et t 31, t 32 sont les deux termes les plus proches de t 3. En fat, ces termes proches sont nsérés dans Q chaque fos que l utlsateur sast un nombre de termes proches pour un terme donné de la requête Q. Nous défnssons le degré de préférence (pondératon) de l utlsateur d un terme t par rapport aux autres termes de la requête par : Préf(t ) = [Nbre termes proches choss pour t dans Q / Nbre termes de Q] + 1 (4.11) Ic nous ajoutons le facteur 1 pour évter que les préférences des termes pour lesquels nous n avons pas chos de termes proches soent nulles. Pour l exemple du paragraphe précédent nous avons : Préf(t 1 ) = 3/3 +1 = 2 ; Préf(t 11 ) = 0 +1 = 1 ; Préf(t 12 ) = 0 +1 = 1 Préf(t 13 ) = 0 +1 = 1 ; Préf(t 2 ) = 0 +1 = 1 ; Préf(t 3 ) = 2/3 +1 = 5/3 Préf(t 31 ) = 0 +1 =1 ; Préf(t 32 ) = 0 +1 =1 Il est clar c que le terme t 1 est plus préférable que t 3 et t 2 ; parce que l utlsateur a chos un nombre plus mportant de mots sémantquement proches de t 1, ce qu prouve ben qu l s agt d un terme d appu à sa requête. Le terme t 3 est auss préférable au terme t 2 car l utlsateur n a pas demandé de mots proches de t 2 pour en précser le sens. Ans, les préférences calculées c sont ben conformes avec le profl de l utlsateur, parce que pour ce derner le terme le plus mportant est celu dont l cherche le maxmum de termes 116

125 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP proches. De cette manère, nous ntrodusons ces préférences entre les termes de la requête dans notre modèle possblste de la manère suvante [Elayeb et al., 2008] : La pertnence quanttatve de chaque entté logque d'un document (ELd j ) de la collecton, sachant que la requête est Q = (t 1, t 2,, t T ), est calculée de la manère suvante: La formule (4.3) de la secton précédente devent [Elayeb et al., 2009]: Π (ELd j Q ) = Π(t 1 ELd j )*Préf(t 1 )* * Π(t T ELd j )* Préf(t T ) = nft 1j * Préf(t 1 )* * nft Tj * Préf(t T ) (4.12) Avec nft j = tf j /max (tf kj ): fréquence normalsée des termes de la requête dans l entté logque. La certtude de resttuer une entté logque d'un document pertnent d j (ELd j ) pour une requête, notée N(ELd j Q ), est donnée de façon analogue à celle présentée dans la secton précédente, sauf que la formule (4.7) devent : Π ( ELd j Q ) = [(1- φel 1j )/Préf(t 1 )]* * [(1- φel Tj )/Préf(t T )] (4.13) En fat, nous avons ben ntrodut le facteur Préf(t ) dans le calcul de la possblté ans que de la nécessté, parce que ce facteur est ben lé aux fréquences normalsées des termes (nft j ) dans le document recherché. Exemple. Consdérons une mn-collecton de 3 documents d 1, d 2 et d 3 : d 1 = {t 1, t 1, t 1, t 11, t 11, t 12, t 12, t 12, t 13, t 2, t 2, t 3, t 31 }, d 2 = {t 1, t 1, t 1, t 11, t 11, t 12, t 12, t 12, t 13, t 2, t 2, t 3, t 32 }, d 3 = {t 1, t 11, t 11, t 12, t 12, t 2, t 2, t 3, t 31, t 32, t 32 } Ces termes sont réparts sur les enttés logques de ces tros documents comme l ndque le tableau 4.9. L évaluaton des documents d 1, d 2 et d 3 pour la requête Q (t 1, t 11, t 12, t 13, t 2, t 3, t 31, t 32 ) donne (nous ne donnons que le calcul non trval pour les préférences 1) : EL j {NM, (NM-1), (NM-2), (NM-3), (NM-4), LF, LT, LSM, P}, =1, 2, 3 Π(EL j d Q ) = Π Préf (EL j d Q ) = 0, N(NMd 1 Q ) = 0.48, N Préf (NMd 1 Q ) = 0.73, N(Pd 1 Q ) = 0.94, N Préf (Pd 1 Q ) = 0.96, N(Pd 2 Q ) = 0.82, N Préf (Pd 2 Q ) = 0.94, N(LSMd 3 Q ) = 0.73, N Préf (LSMd 3 Q ) = 0.84, N(Pd 3 Q ) = 0.18, N Préf (Pd 3 Q ) = 0.5, Entté logque du document d 1 d 2 d 3 Nveau Maxmal (NM) t 1, t 2 t 1, t 3 t 1, t 32 NM-1 t 2 NM-2 t 12 NM-3 t 12 NM-4 t 31 Légende Fgure (LF) t 11 Légende Tableau (LT) t 11 Légende Séquence Multméda t 1, t 12 t 13, t 12 t 3, t 32 (LSM) paragraphe (P) t 1, t 2, t 13, t 31, t 12, t 3, t 11 t 1, t 1, t 2, t 2, t 32, t 11, t 12 t 11, t 11, t 12, t 12, t 2 Tableau 4.9 : Répartton des termes dans les enttés logques des tros documents 117

126 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP Préférences de l utlsateur Coeffcents α j Préférences 1 (P1) Coeffcents α j Préférences 2 (P2) Coeffcents α j Préférences 3 (P3) Entté logque du document Nveau maxmal (NM) NM NM NM NM Légende Fgure (LF) Légende Tableau (LT) Légende Séquence Multméda (LSM) paragraphe (P) Tableau 4.10 : Les tros préférences de l utlsateur du système SARIPOD Préférences 1 (P1) Préférences 2 (P2) Préférences 3 (P3) d 1 d 2 d 3 d 1 d 2 d 3 d 1 d 2 d 3 Sans préférences entre termes de la requête Ordre de pertnence de documents Avec préférences entre termes de la requête Ordre de pertnence de documents 14,66 13,46 14,55 16,38 20,7 12,31 14,74 16,66 15, ,8 17,3 18,02 18,44 26,38 16,14 16,4 22,34 18, Tableau 4.11 : Résultats de l effet de l ajout de préférences entre termes de la requête Le système SARIPOD enregstre les préférences (pondératons) entre les termes de la requête lors de l nteracton de l utlsateur avec le système. En fat, ces préférences entrent ben dans le cadre de la défnton de son profl au système. Les résultats collectés dans le tableau 4.11 montrent ben l mportance de la défnton des préférences entre les termes de la requête utlsateur pour le cas de préférences 1 (P1). En effet, ce facteur a été ntrodut comme un facteur multplcatf dans le calcul de la possblté et comme un quotent dans le calcul de la nécessté ; ce qu permet en conséquence d augmenter les deux scores de la possblté et de la nécessté à la fos. En cas du non prse en compte de pondératons des termes et pour les tros préférences du tableau 4.10, l ordre de pertnence de documents change en passant de préférences à des autres. Alors qu en cas de la prse en compte de ces pondératons, unquement les préférences 1 s avèrent sgnfcatves et contrbuent au changement de l ordre de pertnence de documents. Cec grâce au terme t 1 (de préférence 2 et exstant dans une entté logque de pods 10) et au terme t 2 (exstant dans une entté logque de pods 9) qu ont contrbué à l augmentaton du score de d 3 par rapport aux autres. Pour les deux autres préférences P2 et P3, le terme le plus préférable (t 1 ) exste dans une entté logque de pods 2 ; c est pour cette rason le facteur Préf(t 1 ) n a pas fat les dfférences dans les scores des documents. Il s agt, 118

127 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP en fat, d un facteur qu dépend de coeffcents de pertnence possblste pour défnr le profl de l utlsateur du système. Globalement, l nserton des facteurs Préf(t ) dans les calculs des possbltés et des nécesstés, consste à augmenter les scores de pertnences possblstes des documents contenant ces termes dans le but de pénalser les scores de pertnences des documents ne les contenant pas. La pénalsaton et l augmentaton des scores sont proportonnelles au pouvor des termes à dscrmner entre les documents de la collecton. D autre part, ces pondératons permettent de resttuer des documents classés par préférence de pertnence. Il est possble dans ce cas d évaluer à quel pont un document d 1 est préféré au document d 2 ou de mesurer la préférence du document d 1 par rapport à un ensemble de documents {d 3, d 4 }. En fat, ces facteurs Préf sont plus effcaces que le facteur df, pusque la dstrbuton des termes dans la collecton de documents ne dépend pas seulement de la présence ou de l absence des termes dans les documents de la collecton (comme df), mas de la dstrbuton de leur densté dans les documents de la collecton. Ans, comparé à df, ces mesures sont plus performantes pour la dscrmnaton négatve. 4. Travaux smlares à notre approche L dée de base de la méthode de [Gaume et al., 2004] est de consdérer qu un dctonnare est un graphe non orenté dont les mots sont les sommets et tel qu l exste un arc entre deux sommets s l un apparaît dans la défnton de l autre. Plus précsément, le graphe du dctonnare encode deux types d nformatons lexcographques : les défntons qu décrvent les dfférentes acceptons de chaque vedette au moyen de séquences langagères ; la structure des artcles qu organse ces sous sens. Selon [Gaume et al., 2004], la nature hérarchque des dctonnares (dstrbuton des degrés d ncdence des sommets en lo de pussance) est une conséquence du rôle de l hyperonyme assocée à la polyséme de certans sommets, alors que le fort C (exstence de zones denses en arêtes) reflète le rôle de la cohyponyme [Duvgnau, 2002], [Duvgnau, 2003], [Gaume et al., 2002]. Par exemple, le mot corps se trouve dans de nombreux défnssants (tête, chme, peau, dvson). De ce fat, le sommet corps a une forte ncdence. D autre part, les auteurs constatent qu l exste de nombreux trangles par exemple : {écorce, enveloppe}, {écorce, peau}, {peau, enveloppe}, ce qu favorse les zones denses en arêtes et plus précsément un fort taux de clusterng C. Par alleurs, les auteurs ont présenté une méthode pour désambguïser une entrée de dctonnare en utlsant la noton de dstance sémantque ntrodute par [Verons et Ide, 1990] [Ide et Vérons, 1998] [Resnk et Yarowsky, 2000]. Ils ont défn la tâche comme sut : sot un lemme α qu apparaît dans la défnton de l un des sens d un mot, β consdéré comme un nœud du graphe. Le but étant donc d assocer α avec le sens le plus probable qu l a dans ce contexte. Chaque entrée du dctonnare est codée par un arbre de sous-sens dans le graphe du dctonnare, avec une lste de nombres correspondants à chaque nveau de sous-sens caractérstque. Sot un graphe non orenté G = (V, E) défnt par la donnée d un ensemble non vde fn V de sommets, et d un ensemble E de pares de sommets formant des arêtes. S l arête {r, s} E on dt que les sommets r et s sont vosns, le nombre de vosns d un sommet r est d(r) son degré d ncdence. 119

128 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP Sot [Ĝ ] la matrce n n de transton de la chaîne de Markov homogène dont les états sont les sommets du graphe en queston telle que la probablté de passer d un sommet r V à l nstant vers un sommet s V à l nstant +1 est égale à : [Ĝ ] r,s = 0 s {r, s} E (s n est pas un vosn de r) ; [Ĝ ] r,s = 1/d(r) s {r, s} E (s est un des d(r) vosns de r qu sont tous équprobables). Gaume et al. ont applqué l algorthme suvant : 1. On supprme les vosns de β dans G de sorte que x V, [G] β,x = [G] x,β = 0 ; 2. On calcule [Ĝ ] ; pour un ben défn (par exemple = 6) ; 3. Sot L, le vecteur lgne de β alors k, L[k] = [Ĝ ] β,k ; 4. Sot F = {x 1, x 2,, x n } les nœuds correspondant à tous les sous-sens de la défnton de α.on prend alors x k = argmax x F (L[x]) x k est alors le sous-sens le plus «proche» du nœud β, par rapport à la mesure Prox. Deux étapes demandent un peu plus d explcaton : 1. Les vosns sont supprmés pour ne pas lasser un bas favorable aux sous-sens de β, qu formeraent alors une sorte de cluster artfcel par rapport à la tâche donnée. Ans la «marche aléatore» dans le graphe peut vrament avor leu dans le graphe plus général des autres sens. 2. Chosr une bonne valeur pour la longueur de la marche aléatore n est pas smple, et est le facteur essentel de la réusste de la procédure. S elle est trop pette, seules les relatons locales vont apparaître (synonymes proches, etc.) et ls peuvent ne pas apparaître dans les contextes à désambguïser (c est notamment le problème de la méthode de [Lesk, 1986]) ; s la valeur de est trop grande par contre, les «dstances» entre tous les mots tendent à converger vers une constante, fasant dsparaître les dfférences. Cette valeur dot donc être relée d une façon ou d une autre à la dstance moyenne entre deux sens quelconques du graphe. Une hypothèse rasonnable est donc de rester proche de cette valeur, et les auteurs ont prs le nombre 6, la moyenne calculée étant de 5,21 (sur le graphe contenant tous les sous-sens, pas sur celu ne contenant que les entrées, pour lequel L = 3,3). Ans, l approche présente une méthode de désambguïsaton dans laquelle le sens est détermné en utlsant un dctonnare. La méthode est basée sur un algorthme qu calcule une dstance «sémantque» entre les mots du dctonnare en prenant en compte la topologe complète du dctonnare, vu comme un graphe sur ses entrées. La méthode, ne nécesstant pas de corpus annoté, est testée sur la désambguïsaton des défntons du dctonnare ellesmêmes. A notre connassance, les travaux qu concernent la prse en compte des proxmtés sémamtques entre les mots nœuds d un graphe de dctonnare pour la reformulaton sémantque de requêtes sont lmtés. Cet aspect est mportant à consdérer pusqu l peut apporter un gan dans la fnalsaton de la requête reformulée dans un SRI. Le modèle de SRI à base de deux RPMH que nous proposons est ben adapté pour représenter les requêtes et les documents, pour construre l ensemble des connassances et pour défnr une stratége de recherche plus fne et plus pertnente. La stratége proposée se base sur une mse en correspondance par le bas de Réseaux Possblstes. En effet, nous chosssons de mxer prncpalement deux approches possblstes l une quanttatve proposée par [Brn et al., 2004abc] et l autre qualtatve. 120

129 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP L approche qualtatve que nous proposons est basée sur la fragmentaton logque des documents. En fat, le système ne se lmte pas unquement à l exstence ou non des termes de la requête dans les documents, mas l s ntéresse auss à ses emplacements dans les fragments logques des documents. Cette approche ntrodut l utlsateur dans le processus du chox de la qualté de ses documents recherchés. Dans ce cas le résultat de la recherche change de préférences utlsateurs à des autres. L approche quanttatve est plus adaptée pour la représentaton des documents dont les pods des leurs fragments logques sont dentques et partculèrement quand l s agt des utlsateurs ne possédant pas des préférences dans la qualté des leurs documents recherchés. Autrement dt, le système se lmte dans ce cas à la vérfcaton de l exstence ou non des termes de la requête dans les documents recherchés. En conséquence, le résultat de la recherche ne change pas lors du passage de préférences à des autres. L dée que nous voulons développer dans le système proposé est de fare combner le modèle de requête et le modèle de document par le bas d un réseau possblste mxant les deux approches possblstes quanttatve et qualtatve pour trer proft des avantages et des ponts forts de chacun par rapport au contexte utlsé : Reformulaton sémantque de requêtes, Recherche dans les fragments logques des documents, Recherche ntellgente possblste, Recherche précse, Recherche exploratore. Nous développons davantage ces dées dans le chaptre suvant (Chaptre 5). 5. Concluson Nous avons présenté dans ce chaptre les chox, en les argumentants, que nous avons effectués pour satsfare les objectfs fxés. Ces derners se résument dans la proposton d un SRI ntellgent, adaptatve, flexblte et dynamque. En effet, l orgnalté du modèle proposé se déclne selon les tros volets suvants qu synthétsent nos contrbutons : Le premer volet s ntéresse au processus tératf de la reformulaton sémantque de requêtes. Cette technque est à base de relatons de dépendance entre les termes de la requête. Nous évaluons notamment les proxmtés des mots du dctonnare franças «Le Grand Robert» par rapport aux termes de la requête. Ces proxmtés sont calculées par le bas de notre approche de recherche des composantes de sens dans un RPMH de dctonnare de mots par applcaton d une méthode basée sur le dénombrement des crcuts dans le réseau. En fat, l utlsateur du système proposé chost le nombre de mots sémantquement proches qu l désre ajouter à chaque terme de sa requête orgnelle pour construre sa requête reformulée sémantquement. Cette dernère représente la premère parte de son profl qu l propose au système. La seconde parte de son profl est consttuée des chox des coeffcents de pertnence possblstes affectés aux enttés logques des documents de la collecton. Ans, notre système tent compte des profls dynamques des utlsateurs au fur et à mesure que ces derners utlsent le système. Ce derner est caractérsé par son ntellgence, son adaptatvté, sa flexblté et sa dynamcté. Le second volet consste à proposer des relatons de dépendance entre les documents recherchés dans un cadre ordnal. Ces relatons de dépendance entre ces documents tradusent les lens sémantques ou statstques évaluant les dstrbutons des termes communs à des pares ou ensembles de documents. Afn de quantfer ces relatons, nous nous sommes basés 121

130 Chaptre 4 : Modèle d un SRI à base de RPMH et de RP sur les calculs des proxmtés entres ces documents par applcaton d une méthode de dénombrement de crcuts dans le RPMH de pages Web. En effet, les documents peuvent ans être regroupés dans des classes communes (groupes de documents thématquement proches). Le trosème volet concerne la défnton des relatons de dépendance, entre les termes de la requête et les documents recherchés, dans un cadre qualtatf. Les valeurs affectées à ces relatons tradusent des ordres partels de préférence. En fat, la théore des possbltés offre deux cadres de traval : le cadre qualtatf ou ordnal et le cadre quanttatf. Nous avons proposé notre modèle dans un cadre ordnal. Ans, des préférences entre les termes de la requête se sont ajoutées à notre modèle de base. Ces préférences permettent de resttuer des documents classés par préférence de pertnence. Nous avons mesuré auss l apport de ces facteurs de préférence dans l augmentaton des scores de pertnence des documents contenant ces termes dans le but de pénalser les scores de pertnence des documents ne les contenant pas. Nous présentons dans le chaptre suvant la spécfcaton et la concepton du système proposé. Nous explquerons davantage le rôle de chaque composante du système et son apport par rapport à la recherche. 122

131 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD Chaptre 5 Spécfcaton et concepton du système SARIPOD La satsfacton d une demande d nformaton est devenue à la fos plus facle et plus complquée. Elle est devenue plus facle dans la mesure où grâce à l émergence de nouvelles sources de données, comme le réseau nternatonal appelé Internet, chacun, en prncpe, peut avor accès à une source d nformatons népusable. Cependant, la masse énorme d nformatons dsponbles sur Internet, même sur un ntranet ou un Data Warehouse, qu semble à premère vue être sa force majeure, est en même temps l une de ses fablesses. La quantté d nformatons à la dsposton de l utlsateur, généralement un décdeur, est trop grande : l nformaton recherchée est probablement dsponble quelque part, mas l arrve souvent qu une seule parte sot retrouvée, et parfos même ren du tout. Les méthodes conventonnelles de recherche d nformaton se sont avérées ncapables de résoudre ces problèmes. Ces méthodes supposent que nous connassons d avance quelle nformaton est valable et où exactement elle peut être trouvée. De telles méthodes sont utlsées de la manère suvante : les systèmes d nformatons, comme les bases de données, sont approvsonnés avec des ndces qu fournssent ces nformatons aux usagers. Grâce à ces ndces, l utlsateur peut, à tout moment, vérfer s certanes nformatons sont offertes par la base de données, s elles sont dsponbles, et où l peut les trouver. Avec les nouvelles technologes notamment Internet, mas auss Intranet/Extranet et Data Warehouse, ces stratéges ne sont plus applcables. Les rasons à cela sont les suvantes : La nature dynamque d Internet : aucune supervson centrale ne s applque quant au développement d Internet. Toute personne qu désre l utlser et/ou offrr des nformatons ou des servces est lbre de le fare. Cec a crée une stuaton où l est devenu très dffcle d avor une dée clare sur la talle réelle d Internet ; La nature dynamque des nformatons : les nformatons qu ne sont pas dsponbles aujourd hu peuvent être dsponbles deman et le contrare s applque auss ; L nformaton est hétérogène : l nformaton est offerte sous pluseurs formats et de pluseurs façons. Cec complque la recherche automatque d'une nformaton donnée, pusque chaque format et chaque servce nécesstent une approche partculère. Pluseurs solutons exstent pour résoudre les problèmes dentfés précédemment. La plupart sont des solutons ad hoc. C'est ans qu'en utlsant des programmes qu crculent sur Internet, nous pourrons gérer des méta-nformatons concernant tous les documents dsponbles. L nformaton collectée, caractérsée par un ensemble de mots-clés, est sauvegardée dans des bases de données de grande talle. Toute personne qu désre chercher des nformatons peut les localser en donnant un ou pluseurs mots-clés à ce moteur de recherche. Ben que les moteurs de recherche fournssent des servces plus ou mons bons, ls possèdent pluseurs nconvénents. Nous présentons dans ce chaptre les chox utlsés pour la mse en œuvre du modèle proposé pour une Recherche d Informaton coopératve, adaptatve et ntellgente. Pour ce fare nous chosssons une archtecture dôtée d une capacté d adaptaton à un envronnement 123

132 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD dynamque, tel est notre cas. Le chox d une telle archtecture est motvé par la faclté de la décomposton de problèmes, et par la rchesse de combner et fare coopérer pluseurs méthodes ; dans ce cadre l s agra prncpalement de méthodes de classfcaton de documents dans le RPMH de pages Web et de classfcaton de mots dans le RPMH de dctonnare ans que l approche combnasant ces deux RPMH va un Réseau Possblste. Dans la premère secton de ce chaptre, nous proposons une spécfcaton du système SARIPOD. Dans la deuxème secton une concepton détallée du système proposé est présentée. 1. Spécfcaton du système SARIPOD Comme d autres technologes, l évoluton d Internet est contnue. Le volume des données sera trop grand et trop varé de sorte qu l sera mpossble pour l être human de suvre ce qu se passe. Le pre, c est que prochanement les logcels conventonnels ne seront plus capables de maîtrser la stuaton, par conséquent une nouvelle structure pour la recherche d nformatons s'avère dès aujourd'hu nécessare. Une telle structure facltera la tâche et fera abstracton des dfférentes technques. Ce type d abstracton est comparable à celu avec lequel les langages de programmaton de haut-nveau ont débarrassé les programmeurs de tous les problèmes de bas-nveau. Requête R Requête R - URL de départ - Mots-clés Reformulaton de la Requête R - URL de départ - Mots-clés - Mots proches des motsclés Constructeur du RPMH des Mots du dctonnare Franças «Le Grand Robert» RPMH des mots de dctonnare Crawler Stratégque Dctonnare Franças «Le Grand Robert» sous format XML Préférences de user Lste trée des URL RPMH de pages Web Base d hstorque <R, Lste des URL> Tr par pertnence possblste Analyseur de documents Web Lste des URL réponse de la requête R Fgure 5.1 : Archtecture générale du système SARIPOD 124

133 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD Pour favorser la réutlsaton, nous avons opté pour la modularté pour notre système. Ce derner sera composé de pluseurs modules dont chacun est responsable de l une des tâches du processus de recherche des documents sur Internet. La nécessté de coopératon des dfférents modules permet de concevor l archtecture générale du système SARIPOD composée des sept modules suvants (vor fgure 5.1) [Elayeb et al., 2006] : 1. Module de constructon du RPMH de dctonnare ; 2. Module de reformulaton de la requête utlsateur ; 3. Module de crawlage stratégque ; 4. Module de constructon du RPMH de pages Web ; 5. Module d analyse de documents Web ; 6. Module de tr des documents par leurs pertnences possblstes ; 7. Module d optmsaton du système. Nous détallons dans la sute la fonctonnalté de chacun de ses modules et nous présentons dans le chaptre suvant quelques nterfaces extrates de la réalsaton de ce système. 1.1 Module de constructon du RPMH de dctonnare Dans le cadre de la reformulaton de la requête utlsateur, le système nterroge le RPMH du dctonnare de mots en vue de détermner les mots sémantquement proches des mots-clés proposés par l utlsateur du système. Ce module accepte en entrée le dctonnare franças «Le Grand Robert» sous format XML et engendre l ensemble des crcuts dans ce RPMH des mots de ce dctonnare. En effet, l objectf ultme de ce module résde dans la génératon des mots sémantquement les plus proches d un mot donné dans la requête utlsateur. Cette proxmté entre deux mots quelconques M 1 et M 2 du dctonnare est calculée par la formule suvante : Proxmté_Dctonnare (M 1, M 2 ) = Nbre de crcuts (M 1, M 2 )/Nbre maxmum de crcuts détectés L archtecture logcelle de ce module est présentée par la fgure 5.2. En fat, dans notre prototype, ce module nteragt avec le module d analyse de documents Web pour permettre au module de tr de trer les pages Web sélectonnées selon leurs degrés de pertnences possblstes (les tâches des ces modules seront détallées dans la sute). Dctonnare «Le Grand Robert» sous format XML JBulder BorlandXML Java Language Bndng Document Arborescent (XML Object) Transformaton Lste des acceptons Recherche des composantes de sens Graphe de dctonnare (RPMH) Fgure 5.2 : Archtecture nterne de module de constructon du RPMH de dctonnare En utlsant le graphe de dctonnare comme source de données au format XML, ce module génère la lste des acceptons d un mot donné. Il commence, en fat, par étuder certanes 125

134 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD proprétés des crcuts collectés à partr du graphe afn de dédure les composantes de sens cherchées. La constructon du RPMH de dctonnare est fate une fos pour toutes par ce module dès le démarrage du système SARIPOD. De plus elle est purement lée à la source de données XML dctonnare franças «Le Grand Robert». En effet, pour chaque requête utlsateur, ce module accède aux partes de ce RPMH, correspondantes aux mots-clés de la requête, et ce en vue de fare les groupes de sens ntermédares ans que leur fuson afn d obtenr les composantes de sens. La fgure 5.3 présente une descrpton fonctonnelle de la recherche des composantes de sens. Graphe Lste des crcuts Matrce des crcuts communs Regroupement des mots Groupe de sens ntermédares Fgure 5.3 : Descrpton fonctonnelle de la recherche des composantes de sens Par alleurs, le tratement fat par le module de constructon du RPMH de dctonnare passe par les 8 étapes suvantes afn d arrver à la fn à la lste fnale des composantes de sens : () Phase prélmnare Fuson Lste fnale des sens Cette phase prélmnare consste à nettoyer la source de données utlsée au format XML. Dans ce fcher, chaque entrée étant décrte par un ensemble de balses tradusant des nformatons de natures syntaxques (vor fgures 5.4 et 5.5).  <!ELEMENT DICO (DEF+)>  <!ELEMENT DEF (ENTRANT?,(STANDARD ITALIQUE META MOTSLIES NIVEAU AUTREFORME PRONOMINAL)*,(CONTRAIRE DERI VATIF COMPARATIF HOMONYME)*)> <!ATTLIST DEF mot CDATA #REQUIRED phonetque CDATA #REQUIRED cat CDATA #REQUIRED> <!ELEMENT CONTRAIRE (#PCDATA)*> <!ELEMENT DERIVATIF (#PCDATA)*> <!ELEMENT COMPARATIF (#PCDATA)*> <!ELEMENT HOMONYME (#PCDATA)*> <!ELEMENT AUTREFORME (STANDARD ITALIQUE META MOTSLIES NIVEAU)*> <!ELEMENT PRONOMINAL (STANDARD ITALIQUE META MOTSLIES NIVEAU)*> <!ELEMENT NIVEAU (STANDARD ITALIQUE META MOTSLIES NIVEAU)*> <!ATTLIST NIVEAU type ( ) #REQUIRED>  <!ELEMENT META (STANDARD ITALIQUE)*> <!ELEMENT MOTSLIES (STANDARD ITALIQUE)*> <!ELEMENT STANDARD (#PCDATA)*> <!ELEMENT ITALIQUE (#PCDATA)*> Fgure 5.4 : La DTD ntale du dctonnare 126

135 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD <DEF mot="a" phonetque="[a, à]" cat="n. m. "> <STANDARD> <MOT>premer</MOT><TAG>ADJ:num:ord</TAG> <MOT>lettre</MOT><TAG>NOM</TAG> <MOT>et</MOT><TAG>CON:coo</TAG> <MOT>premer</MOT><TAG>ADJ:num:ord</TAG> <MOT>voyelle</MOT><TAG>NOM</TAG> <MOT>de</MOT><TAG>PRE</TAG> <MOT>le</MOT><TAG>DET:def</TAG> <MOT>alphabet</MOT><TAG>NOM</TAG> <MOT>A</MOT><TAG>PRE</TAG> </STANDARD> <ITALIQUE> <MOT>majuscule</MOT><TAG>ADJ</TAG> </ITALIQUE> <STANDARD> <MOT>avor</MOT><TAG>VER:pres</TAG> </STANDARD> <ITALIQUE> <MOT>mnuscule</MOT><TAG>ADJ</TAG> </ITALIQUE> Fgure 5.5 : La source de données ntale de dctonnare En effet, nous avons commencé par un nettoyage automatque en élmnant les redondances à l ntéreur de chaque défnton de mot du dctonnare. Pus, nous avons procédé à un nettoyage manuel tout en lassant dans la défnton d un mot unquement les balses des mots sémantquement proches de ce derner (vor fgures 5.6 et 5.7). Cette phase de nettoyage permet de préparer le terran aux phases suvantes dans le tratement afn d amélorer les performances de ce module. <?xml verson="1.0" encodng="iso8859_1"?> <!DOCTYPE dctonnare SYSTEM "F1.dtd"> <dctonnare> <mot texte="abaca"> <traducton>bananer</traducton><tag>nom</tag> <traducton>phlppn</traducton><tag>adj</tag> <traducton>pétole</traducton><tag>nom</tag> <traducton>fournr</traducton><tag>ver:pres</tag> <traducton>matère</traducton><tag>nom</tag> <traducton>textle</traducton><tag>adj</tag> <traducton>matère</traducton><tag>nom</tag> <traducton>appeler</traducton><tag>ver:pper</tag> <traducton>chanvre</traducton><tag>nom</tag> <traducton>manlle</traducton><tag>nom</tag> <traducton>tagal</traducton><tag>nom</tag> <traducton>trer</traducton><tag>ver:pper</tag> <traducton>bananer</traducton><tag>nom</tag> <traducton>cordage</traducton><tag>nom</tag> <traducton>natte</traducton><tag>nom</tag> <traducton>pallasson</traducton><tag>nom</tag> </mot> <mot texte="abacule"> <traducton>cube</traducton><tag>adj</tag> <traducton>élément</traducton><tag>nom</tag> <traducton>mosaïque</traducton><tag>nom</tag> </mot> </dctonnare> Fgure 5.6 : la source de données fnale de dctonnare sous format XML La DTD fnale du dctonnare sous forme de fcher XML est donnée par la fgure

136 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD  <!ELEMENT DICO (COMMENTAIRES,INFO_DICO,DEF+)>  <!ELEMENT COMMENTAIRES (#PCDATA)> <!ELEMENT INFO_DICO (nbr_sommets?,nbr_verbes?,nbr_noms?,nbr_adjectfs?,nbr_adverbes?,nbr_prepostons?,nbr_conjonctons?,nbr_artcles?,nbr_p ronoms?)> <!ELEMENT DEF (ENTRANT?,(STANDARD ITALIQUE META MOTSLIES NIVEAU AUTREFORME PRONOMINAL)*,(CONTRAIRE DE RIVATIF COMPARATIF HOMONYME)*)> <!ATTLIST DEF mot CDATA #REQUIRED phonetque CDATA #REQUIRED cat CDATA #REQUIRED shomo CDATA #IMPLIED>  <!ELEMENT nbr_sommets EMPTY> <!ELEMENT nbr_verbes EMPTY> <!ELEMENT nbr_noms EMPTY> <!ELEMENT nbr_adjectfs EMPTY> <!ELEMENT nbr_adverbes EMPTY> <!ELEMENT nbr_prepostons EMPTY> <!ELEMENT nbr_conjonctons EMPTY> <!ELEMENT nbr_artcles EMPTY> <!ELEMENT nbr_pronoms EMPTY> <!ATTLIST nbr_sommets n CDATA #REQUIRED> <!ATTLIST nbr_verbes n CDATA #REQUIRED> <!ATTLIST nbr_noms n CDATA #REQUIRED> <!ATTLIST nbr_adjectfs n CDATA #REQUIRED> <!ATTLIST nbr_adverbes n CDATA #REQUIRED> <!ATTLIST nbr_prepostons n CDATA #REQUIRED> <!ATTLIST nbr_conjonctons n CDATA #REQUIRED> <!ATTLIST nbr_artcles n CDATA #REQUIRED> <!ATTLIST nbr_pronoms n CDATA #REQUIRED> <!ELEMENT ENTRANT (#PCDATA)> <!ELEMENT CONTRAIRE (MOT,TAG?)*> <!ELEMENT DERIVATIF (MOT,TAG?)*> <!ELEMENT COMPARATIF (MOT,TAG?)*> <!ELEMENT HOMONYME (MOT,TAG?)*> <!ELEMENT AUTREFORME (STANDARD ITALIQUE META MOTSLIES NIVEAU)*> <!ELEMENT PRONOMINAL (STANDARD ITALIQUE META MOTSLIES NIVEAU)*> <!ELEMENT NIVEAU (STANDARD ITALIQUE META MOTSLIES NIVEAU)*> <!ATTLIST NIVEAU type ( ) #REQUIRED>  <!ELEMENT META (STANDARD ITALIQUE)*> <!ELEMENT MOTSLIES (STANDARD ITALIQUE)*> <!ELEMENT STANDARD (MOT,TAG?)*> <!ELEMENT ITALIQUE (MOT,TAG?)*> <!ELEMENT MOT (#PCDATA)> <!ELEMENT TAG (#PCDATA)> Fgure 5.7 : La DTD fnale du dctonnare sous format XML () La premère phase : transformaton XML DOM Dans cette premère phase, la source de données sous format XML sera transformée en un arbre DOM. En fat, le DOM (Document Object Model) est une nterface de programmaton (API) qu consste à décomposer le contenu d'un document HTML ou XML en une arborescence de noeuds (chaque élément du document est un noeud). D autre part, DOM est une recommandaton du W3C 26 (consortum qu gère les standards lés à Internet). Son prncpe consste à représenter en mémore le contenu d'un document HTML ou XML sous la forme d'une arborescence d'objets. Les développeurs d'applcatons qu désrent manpuler le contenu d'un document HTML ou XML utlsent un parseur logcel compatble DOM 27. Ils ont alors un ensemble d'api leur

137 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD permettant de parcourr l'arborescence des objets afn d'affecter des opératons de lecture, ajout, modfcaton, suppresson de données. () La deuxème phase : transformaton DOM Graphe Les servces de JAVA XML Bndng nous permettent de transformer l arbre DOM, obtenu sute à la premère phase du tratement, en un graphe. En effet, la manpulaton de ce derner est plus facle pour générer l ensemble de crcuts exstants entre les nœuds de ce graphe dans la phase suvante. (v) La trosème phase : recherche de crcuts Cette phase est consacrée au dénombrement des crcuts à partr du graphe RPMH de dctonnare résultant de la phase précédente. Rappelons qu un crcut correspondant à un mot donné est un enchaînement de pluseurs mots en partant de ce mot donné et en y revenant à ce derner. De plus l nterface utlsateur permet un contrôle du paramétrage des crcuts (longueur, nombre, etc.) afn que le paramétrage de ce module sot optmsé. (v) La quatrème phase : recherche de mots sémantquement proches Le module de constructon du RPMH de dctonnare s ntéresse dans cette phase à la recherche des mots sémantquement proches d un mot donné à partr du nombre de crcuts collectés pour ce derner tout en précsant les proxmtés sémantques entre ces mots. Le pods d un mot sémantquement proche est proportonnel au nombre de crcuts le relant au mot de départ (vor exemples en annexe 3). (v) La cnquème phase : constructon de la matrce des crcuts communs La constructon de cette matrce permet de récaptuler les relatons exstantes entre les mots, sémantquement proches du mot de départ, collectés dans la phase précédente. Ces relatons sont comptablsées par les nombres des crcuts contenant à la fos les deux mots, entrées de chaque cellule de la matrce. (v) La sxème phase : constructon de groupes de sens ntermédares En utlsant la matrce des crcuts de la cnquème phase ans que la lste de mots proches pondérés, le module de constructon du RPMH de dctonnare construt, durant cette phase, les groupes de sens ntermédares (possédant chacun un sens) correspondant au mot de départ. Nous obtenons en conséquence pluseurs groupes sémantquement proches, une dernère phase de fuson de ces groupes s avère utle afn d obtenr les composantes (ou classes) de sens fnales. (v) La dernère phase : fuson de groupes de sens ntermédares composantes de sens C est la dernère phase dans laquelle le module de constructon du RPMH de dctonnare fusonne les groupes de sens sémantquement proches pour obtenr les composantes de sens correspondantes au mot de départ qu pourrat être l un de termes de la requête utlsateur. 1.2 Module de reformulaton de la requête utlsateur Dans les approches présentées dans le premer chaptre de l état de l art (secton 6), l expanson de requête consste à ajouter des termes relés à ceux de la requête ntale à partr 27 L'API DOM est composé d'un ensemble d'nterface. Un parser logcel compatble DOM mplémente ces nterfaces dans le langage de la plate-forme de développement (C++, Java, JavaScrpt,.NET). Notons auss que cette transformaton se fat en pluseurs étapes en utlsant la bblothèque BorlandXML facltant la manpulaton drecte de l arbre d éléments. 129

138 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD d un thesaurus, d un document jugé pertnent par l utlsateur ou par le système, ou à l ssue d une phase préalable de classfcaton. Au sen de notre système, nous proposons une reformulaton sémantque de la requête en foncton des proxmtés sémantques exstants entre les termes dans le RPMH de dctonnare. Ce module accepte en entrée la requête ntale de l utlsateur. Ce derner chost un nombre de termes sémantquement proches dont le système l ajoute à la requête ntale à partr du RPMH de dctonnare : Q old = (t 1, t 2,, t n ) Q new = (β 1 t 1, β 2 t 2,, β n t n, β n+1 t n+1, β n+2 t n+2,, β m t m ) Avec : β j = Préf(t j ) : La pondératon (préférence) du terme t j dans la requête reformulée ; t 1, t 2,, t n : Les termes ntales chos par l utlsateur ; t n+1, t n+2,, t m : Les termes sémantquement proches (au sens du RPMH) de termes ntales. En fat, l utlsateur pourra chosr un seul de proxmté sémantque pour construre sa requête reformulée. La fgure 5.8 présente un exemple de répartton des mots sémantquement proches du verbe «vérfer» dans le RPMH de dctonnare selon leur seul de proxmté. S assurer Verbe de la requête ntale Reconnaître Examner Constater 0,7 Seul de proxmté <1 0,35 Seul de proxmté < 0,7 Vérfer Vor 0 < Seul de proxmté < 0,35 Essayer Eprouver Contrôler Expérmenter Prouver Fgure 5.8 : Exemple du chox du seul de proxmté sémantque 1.3 Module de Crawlage stratégque Selon [Mller et Bharat, 1998], un Web crawler est un mot anglas (en franças : founeur Internet) désgnant un programme qu traverse automatquement le Web en téléchargeant, de page en page, les URLs des documents (parfos les documents). Son pont de départ est l URL d une page Web racne et sa profondeur de propagaton est généralement paramétrable. Après avor obtenu une nouvelle requête reformulée Q new, le module de crawlage explore le Web en partant de l URL de départ chose par l utlsateur. Il obtent, en conséquence, pluseurs autres lens dont certanes pages peuvent contenr les mots-clés recherchés et 130

139 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD d autres non. Dans ce cas, ce module ne s ntéresse qu aux lens dont les pages, contennent l un de ces mots ou ben, s elles ne le contennent pas, aux pages des lens nclus à celles-c qu le contennent. Les pages sémantquement les plus proches, en terme de contenu, d une page quelconque de ce réseau sont localsées dans les zones les plus denses du RPMH de pages Web. Nous proposons dans ce cadre une exploraton (crawlage) systématque dont le prncpe est donné par les algorthmes suvants : Algorthme 1 : 1. Tant qu une page sur N pages successves (parcourues grâce aux lens hypertextes) content le mot M recherché, le crawler contnue à vster les pages sortantes de cette page ; quelle que sot la profondeur (car ces pages peuvent contenr le mot M) ; 2. Quand N pages de sute ne contennent pas le mot M recherché (quelle que sot la profondeur), on stoppe la recherche dans cette branche. En effet, on abandonne toute exploraton d'une page ne contenant pas le mot recherché s aucune de ses pages flles ne le content pas non plus. Tands que dans tous les autres cas on contnue. Nous appelons par la sute cet algorthme : Strat N (R, M) = l ensemble des pages ans récupérées pour le mot M en partant de R(M) = l ensemble des lens des pages affchées réellement par un moteur de recherche (par exemple Google). (1) Page contenant M (2) Page ne contenant pas M (3) Page contenant M (4) Page ne contenant pas M (5) Page contenant M (6) Page ne contenant pas M Page Web Racne (7) Page ne contenant pas M (8) Page contenant M (9) Page ne contenant pas M (11) Peu mporte on ne vste pas cette page (12) Peu mporte on ne vste pas cette page (10) Page ne contenant pas M Fgure 5.9 : Exemple de l algorthme Strat 2 Nous remarquons, à partr de l exemple de la fgure 5.9, que Strat 2 (1, M) content les pages à au plus 2 arcs d'une page contenant le mot M à partr de la page 1, sot {1, 2, 3, 4, 8, 9, 10, 5, 6, 7} alors que les pages à au plus 2 arcs de la page 1 sont {1, 2, 3, 5, 6}. Par alleurs, pour des valeurs fables du pas de crawlage N, l algorthme s arrête très vte et ne charge qu un nombre lmté de pages, alors que pour des valeurs élévées de N, l algorthme charge un nombre très mportant de pages dont pluseurs rsquent d être non pertnentes. Afn 131

140 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD de résoudre certanes lmtes de ce premer algorthme, nous proposons une extenson comme sut. Algorthme 2 : Ce deuxème algorthme tent compte de la rencontre ou non du mot-clé M recherché dans les pages lées mas auss d un mot sémantquement proche de M. Quand une page ne contendra plus le mot M, n un de ses mots proches sémantquement, le saut se fera s l on trouve dans cette page un mot V pas trop élogné de M (ben que ne fasant pas parte de ce que nous avons appelé les mots proches de M). Ans Strat δ,ν (R, M) serat défne par : 1. Tant qu une page, parcourue grâce aux lens hypertextes, content le mot M recherché ou un de ses proches, au sens de Proxmté du Dctonnare détallée dans la secton 1.1, l faut garder l URL de cette page et contnuer à vster les pages sortantes de cette page. 2. S une page ne content pas le mot M n l un de ses proches, l serat quand même dommage de ne pas la garder s elle content néanmons des mots V pas trop élognés de M (d une proxmté δ au sens de Proxmté du Dctonnare), l faut garder l URL de cette page et contnuer à vster ses pages sortantes (qu ont une très forte probablté de contenr de nouveau le mot M ou un de ses proches). 3. S N pages de sute ne contennent pas le mot M, n un de ses proches et ne contennent que des mots V d une proxmté < δ, on stoppe la recherche dans cette branche et on ne garde aucune de ces pages. Cet algorthme est plus performant que le premer algorthme Strat Ν (R, M) car l n a pas le caractère ad-hoc pour la valeur de N qu ne pouvat être n N = 1, n N > 2. Par alleurs, cet algorthme semble plus conforme à ce que nous fasons dans la réalté. En effet, l utlsateur contnu à explorer la page et les lens sortants d une page Web donnée s elles contennent des nformatons sémantquement proches de ce qu l cherche. Par contre, s les nformatons exstantes sur ces pages Web sont lons de ce qu l désr, l abandonne plus ou mons rapdement la navgaton dans ce branche : c est exactement le rôle du paramètre δ. D autre part, nous pouvons même fare de N une foncton de l écart avec ce que l on recherche. En effet, s les pages P ne vérfent pas V Mots tel que V P et Proxmté_Dctonnare (M, V) δ, autrement dt s les mots V de P ne réalsent qu une valeur de Proxmté_Dctonnare (M, V) = δ - ε alors s ε est pett on peut contnuer encore plus mas s ε est grand on s arrêtera assez rapdement. Ans, N est une foncton décrossante de ε. Nous avons encore améloré et smplfé cet algorthme 2 en proposant un trosème algorthme. Algorthme 3 : Nous défnssons Strat δ (R, M) par : 1. On garde toute page P qu content un mot V suffsamment proche de M, au sens où π = Proxmté_Dctonnare (M, V) δ. 2. On explore les pages sortantes de P jusqu à une profondeur lmte N (foncton crossante de Proxmté_Dctonnare (M, V) pour les V de cette page, mas foncton néanmons majorée). 3. La lmte d exploraton est mse à jour par celle de la page la plus profonde de la branche explorée. 132

141 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD La premère étape (1) permet de garder les pages qu contennent M ou un synonyme de M s π δ. La seconde (2) assure que s l on est en deçà de δ, c est-à-dre π < δ, on contnue l exploraton d autant mons lon que π est pett et on ne contnue de toute façon pas ndéfnment. La trosème (3) permet de repartr de plus belle s au terme de pages pas très ntéressantes on retombe un jour sur une page concernée fortement par M (ou ses proches). 1.4 Module de constructon du RPMH de pages Web Ce module accepte en entrée l ensemble de pages Web chargé par le Crawler et génère en sorte le RPMH correspondant. Nous calculons une proxmté sémantque entre ces pages afn de préparer le terran à leur classfcaton par la sute. Nous défnssons la proxmté entre deux pages P et P j en terme du nombre de crcuts passant par P et P j et revenant à P de la manère suvante : Proxmté (P, P j ) = Nombre de crcuts (P, P j )/Nombre maxmum de crcuts détectés Par alleurs, le RPMH des pages Web est construt selon les tros phases suvantes: () Phase de transformaton HTML DOM Chaque document Web est transformé, grâce à l'api SAX de Java, en un graphe de noeuds caractérsé chacun par son type et son contenu. Il s agt de la phase de transformaton HTML- DOM au terme de laquelle un document DOM sera engendré pour chaque page HTML. Ce document DOM content les mêmes nformatons contenues dans la page Web mas sous forme d'un arbre d'éléments. La manpulaton du document HTML ntal sera la manpulaton d'une structure de données sous forme d'un arbre d'éléments, et cette technque, offerte par l'api SAX de Java, va nous faclter la tâche de lecture des documents Web ; pusqu on procèdera par la sute à un parcours drect de l'arbre DOM et à une lecture des champs de données de chaque élément de cet arbre. () Phase de recherche des chaînes de caractères Chaque élément de l'arbre DOM présente une structure de données dont les deux attrbuts les plus mportants sont le type du noeud et sa valeur. Le premer attrbut ndque que le noeud représente l une des structures logques contenues dans la page HTML du document, ou ben qu'l content un len hypertexte vers une autre page. Dans le premer cas, l'attrbut valeur content le champ d'nformaton porté par le noeud qu est affché quelque part dans la page Web. Dans le second cas l content le chemn vers la page cble du len hypertexte. La recherche des mots sera alors une recherche dans les champs valeurs des noeuds de l'arbre DOM du document. En effet, s un champ valeur content un len hypertexte, la recherche se fera d'une manère récursve dans la page cble de ce len après constructon de son arbre DOM et ans de sute. La condton d'arrêt est contrôlée par le paramètre «pas de crawlage» ntrodut par l'utlsateur. () Phase de contrôle du pas de crawlage Le pas de crawlage est un paramètre enter ntrodut au système par l'utlsateur. Il ndque le nombre de pages successves, ne contenant pas les mots recherchés, qu l ne faut pas dépasser dans l'ensemble des pages lées entre elles par des lens hypertextes. S ce pas est dépassé, la 133

142 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD recherche dans le sens des lens hypertextuels sera stoppée et réntalsée au nveau de la dernère page contenant les mots recherchés. 1.5 Module d analyse de documents Web Ce module utlse des connassances sur la structure logque de chacun des documents retrouvés par le crawler. En effet, l tent compte de la lste des termes de la requête et leurs fréquences respectves dans chacune des enttés logques du document. De plus, ce module permet d extrare la structure logque d un document Web en termes de ttres, de paragraphes et de légendes suvant l'archtecture de la fgure Nous proposons une décomposton de ce module en tros étapes successves : 1. la génératon de l arbre DOM ; 2. la segmentaton de document ; 3. l dentfcaton des fragments logques du document. Nous détallons dans la sute chacun de ces tros étapes. page Web Générateur d arbre DOM Arbre DOM Module de Segmentaton Fragments logques de la page Web Module Fragmentaton logque Lste des blocs et des styles Fgure 5.10 : Archtecture nterne du module d analyse de page Web Segmentaton du document La segmentaton du document HTML 28 en une lste de blocs se base sur le changement de style et sur les séparateurs vsuels. En effet, nous avons opté pour l'utlsaton de l arbre DOM. Ce derner fournt pluseurs nformatons sur les nœuds du document et faclte son parcours. Une fos le document transformé en un arbre DOM, l s'agt de parcourr cet arbre pour engendrer la lste des blocs physques et détermner le style de chaque bloc sachant que le style est représenté par les dfférents attrbuts de style. La segmentaton tent compte auss des blocs non textuels. En effet, la lste des blocs engendrée par cette étape content auss ben des blocs textuels que des mages, des tableaux, des séquences multméda, des lstes et des lens. Pour chacun de ces types de blocs, l faut calculer un certan nombre d'attrbuts. Par exemple, pour les mages nous dentfons l'attrbut «src» qu ndque le chemn au fcher source de l'mage. Pour dstnguer les dfférents types de blocs et leurs attrbuts, nous utlsons l'étquetage basé sur les balses et les attrbuts HTML. En effet, nous tratons tous les types 28 Dans cette verson du système SARIPOD, nous tratons les documents HTML, mas un document XML facltera encore plus les choses car on n'aura plus beson d'nterpréter les composants de la structure physque (aspects vsuels, styles, ) et l suffra d'examner la feulle de style attachée au document ou encore meux le nom ou le rôle (la sgnfcaton) même des balses (ex: ttre, note, légende, énumératon, ). 134

143 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD d'nformatons en même temps. Dans cette étape nous engendrons auss la lste des styles rencontrés dans le document Web comme dans les travaux de [Bounhas, 2006] Identfcaton des ttres et des légendes Il s'agt d'utlser la méthode d'étquetage pour retrouver le plan du document. A ce stade, nous utlsons deux types d'étquetage à savor : L'étquetage basé sur le style. Après avor calculé le nveau de chaque style de la lste des styles construte dans l'étape précédente, nous attrbuons à chaque bloc une étquette qu tradut son nveau dans la hérarche du document. L'étquetage sémantque. Il s'agt d'dentfer les ttres des légendes telles que les légendes des fgures, des tableaux et des séquences multméda. Nous attrbuons à chaque bloc, dont le texte correspond à un ttre de légende, une étquette qu ndque le type de la légende. Identfcaton des ttres potentels. L'objectf de ce tratement est d'dentfer les blocs qu «peuvent être des ttres». Ans, nous calculons, pour chaque bloc, un attrbut ndquant s'l «peut être un ttre». Pour ce fare, nous nous basons sur les attrbuts précédemment calculés. Nous consdérons qu'un bloc peut être un ttre s'l satsfat aux condtons suvantes : Le séparateur avant est non nul ; Le nombre de mots est nféreur à un seul donné ; Le bloc n'est pas un len ; Le bloc n'est n un tableau, n une mage, n une lste ; Le nombre de caractères alphanumérques est supéreur à zéro ; Le séparateur arrère est non nul ou l est nul mas le nombre de caractères du bloc est supéreur à un seul donné. En effet, pour tout bloc qu «peut être un ttre», nous calculons un attrbut «nveau» qu tradut son nveau dans la hérarche des ttres du document. En fat, chaque bloc qu «peut être un ttre» hérte le nveau de son style calculé en combnant tros crtères à savor le pods du style, sa régularté ans que sa fréquence dans le document. Le calcul des pods des styles. Nous calculons, pour chaque style, un pods en foncton de ses attrbuts en utlsant la formule suvante : 6 j j Pods ( S ) = p a (5.1) j= 1 En effet, le pods d un style est la somme des valeurs de ses attrbuts pondérés par des pods. j Dans cette formule a ndque la valeur de l attrbut de style numéro j pour le style S. Le calcul de cette valeur dépend de la nature de l attrbut. En effet: 1 a : prend la valeur de l attrbut talle. 2 a, 3 a, 4 a : prennent la valeur 1 s le style est gras, talque ou soulgné, 0 snon. 5 a : fréquence de la polce du style en nombre de mots dans le document. 6 a : prend la valeur 2 s le style est centré, 1 s le style est algné à drote, 0 snon. p j ndque le pods que nous attrbuons à l attrbut de style numéro j. Ces pods ont été fxés par apprentssage. En effet, d après notre étude des documents HTML, la talle de la polce pus l algnement sont les attrbuts les plus utlsés pour dstnguer les ttres. Le gras, l talque 135

144 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD et le soulgnement vennent dans un deuxème nveau. En effet, nous consdérons que le pods d un style peut être calculé en se lmtant à ces attrbuts. Nous attrbuons, ensute, des nveaux prélmnares aux blocs. Le style ayant le pods le plus élevé se verra attrbué du nveau 1. Il est à noter que deux styles dfférents peuvent avor le même nveau prélmnare pusque nous attrbuons le même pods au soulgnement, au gras et à l talque. Pour résoudre ce problème, nous procédons au calcul de la régularté des ttres. Le calcul de la régularté des ttres. Ce calcul vse à dfférencer les styles qu ont le même nveau prélmnare. Il s agt de parcourr les blocs qu ont l étquette "PeutEtreTtre" pour attrbuer des scores de régularté aux dfférents styles. Le score d un style est foncton des styles qu le précèdent. En effet, l algorthme de régularté, que nous avons défn, utlse une ple P pour stocker les styles déjà rencontrés. Le score d un style S est ncrémenté s l est précédé d un style ayant un pods plus mportant. Il est décrémenté s l est précédé d un style de même nveau prélmnare. Pour llustrer le fonctonnement de l algorthme, nous présentons un exemple de document où la noton de régularté permet de rectfer les nveaux prélmnares attrbués aux blocs. 1 Les algorthmes de tr 1.1 Tr par sélecton... Algorthme En Pascal... En C Tr par nserton. 2 Les heurstques... Fgure 5.11 : Exemple de document où la noton de régularté peut être applquée Lors de la segmentaton du document présenté par la fgure 5.11, quatre styles sont dentfés. Cependant, tros d entre eux auront le même nveau dans le calcul prélmnare car ls ont la même talle de la polce (Il s agt des styles des ttres du deuxème, du trosème et du quatrème nveau) et le même algnement (pour les styles des ttres de même nveau). Lorsqu on calcule la régularté, le score de S 2 est ncrémenté lors de la rencontre du ttre "1.1Tr par sélecton" car le style qu le précède (S 1 ) a un nveau nféreur. Le score de S 3 est décrémenté lors de la rencontre du ttre "Algorthme" car le style qu le précède (S 2 ) a le même nveau. Le score de S 4 est décrémenté de deux untés lors de la rencontre du ttre "En pascal" car l est précédé par deux styles de même nveau à savor S 2 et S 3. Les scores de régularté ans calculés permettent de dstnguer les nveaux des styles. Etant donnés deux styles ayant le même nveau prélmnare, celu qu a le score de régularté le plus élevé aura le nveau le plus bas. En fat, le calcul de régularté permet de rectfer les nveaux des ttres dans les documents ayant une hérarche de sectons à pluseurs nveaux. Sans ce calcul, pluseurs ttres ayant des nveaux dfférents se verront attrbués le même nveau. Tr des styles par fréquence. Le trosème crtère de tr des styles est la fréquence en nombre de mots dans le document. En effet, nous consdérons que le style le mons fréquent est le style le plus mportant. Ans, une fos les scores de régularté calculés, les styles sont trés en 136

145 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD utlsant le pods, le score de régularté pus la fréquence en nombre de mots. Ensute nous attrbuons un nveau défntf à chaque style. Une fos le calcul des nveaux des styles achevé, l s agt de calculer l attrbut "nveau" des blocs de la manère suvante: Tout bloc qu «peut être un ttre» hérte le nveau de son style. Ans l est marqué comme ttre. Les autres blocs auront un nveau fctf égal à Module de tr de documents par leurs pertnences possblstes Ce module calcule la pertnence possblste de chaque page Web en foncton de ses structures logques générées par le module précédent. Le modèle possblste proposé pour le calcul des scores possblstes est déjà présenté dans la secton 3.1 du chaptre 4. Rappelons que le degré de pertnence possblste mxte du document d est donné par : DPM(d ) = j (α j * DPMEL j (d )) (5.2) Où DPMEL(d ) est le degré de pertnence possblste mxte de chaque entté logque d'un document d (ELd ). Il est calculer par la formule suvante : DPMEL(d ) = Π(ELd Q) + N(ELd Q) (5.3) Enfn, ce module assure le tr décrossant des ces scores (DPM(d )) correspondants aux préférences proposées par l utlsateur au système. 1.7 Module d optmsaton du système SARIPOD Le module d optmsaton permet aux utlsateurs du système un gan mportant en terme de temps de réponse. En effet, ce module permet de construre une base d hstorque des requêtes, tratées par le système, ans que leurs réponses. A la récepton d une nouvelle requête, le module d optmsaton consulte cette base d hstorque, cherche la plus proche requête dans cette dernère et enfn l l actualse tout en élmnant les URLs désormas non dsponbles sur le Web et en ajoutant des nouvelles URLs nexstantes dans l ancenne recherche. Cette dernère étape nécesste le renvo de la nouvelle requête au crawler. Cette nouvelle réponse obtenue servra de même comme hstorque pour des requêtes ultéreures. Le processus de recherche de la plus proche requête dans la base d hstorque repose sur une technque de Data Mnng nttulée le Rasonnement à Base de Cas ou de Mémore (RBC ou RBM) [Berry et Lnof, 1997]. En effet, cette technque utlse une foncton de dstance entre la nouvelle requête et celles de l hstorque et sélectonne la plus pette dstance qu correspond à la requête la plus proche. Cette dstance est détermnée en foncton du nombre de termes en commun entre la nouvelle requête et celle de l hstorque, elle est calculée de la façon suvante : 1. S les termes de la nouvelle requête sont dentques à ceux de la requête de l hstorque, l utlsateur pourra utlser drectement le résultat de l hstorque ou changer ses préférences tout en lançant un nouveau processus de tr des documents selon de nouveaux paramètres ; 2. S les termes de la nouvelle requête sont supéreurs à ceux de la requête de l hstorque, l utlsateur proftera de la parte de sa recherche exstante dans l hstorque et le système lu ajoute des nouvelles pages correspondantes au reste de 137

146 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD termes de sa requête. L utlsateur pourra auss changer ses préférences par rapport au profl exstant dans l hstorque. 3. S les termes de la nouvelle requête sont nféreurs à ceux de la requête de l hstorque, l utlsateur proftera unquement de la parte de l hstorque qu correspond aux termes de sa requête. Il pourra auss proposer d autres préférences dfférentes de celles de l hstorque. En fat, la tâche prncpale de ce module consste à ajouter au système une apttude à l apprentssage lu permettant ans de profter des requêtes déjà jouées, pour des classes d utlsateurs donnés. Autrement dt, le système pourra affner le profl de son utlsateur au fur et à mesure que ce derner utlse le système. 2. Concepton du système SARIPOD UML est un langage de modélsaton fondé sur les concepts orentés objet qu sont nés depus plus de trente ans ; UML n est donc pas à l orgne des objets ; néanmons, l consttue une étape majeure, dans le sens où l unfe les dfférentes approches (BOOCH, OMT, OOSE et ROO d IBM) et en donne une défnton plus formelle [Kettan, 1998]. Dans l approche orentée objet, un système est vu comme étant une socété d objets qu coopèrent pour réalser un certan objet global. Cette approche se base sur la représentaton des éléments d un système sous la forme des objets et dans laquelle un objet est défn par : Une dentté qu consttue le moyen de l dentfer par rapport aux autres objets, Un comportement qu défnt la manère dont l objet agt et réagt aux dvers messages qu lu parvennent de son envronnement, Un ensemble d états qu défnt en fat les dfférentes possbltés dans lesquelles un objet peut se trouver à un nstant donné de sa ve. En outre, dans un problème réel, l est dffcle de décrre tous les objets d un domane et l est plus réalste de les classer dans des groupes d objets appelés classes. Une classe sert donc d abstracton qu décrt pluseurs objets partageant un ensemble de proprétés et/ou d assocatons avec d autres classes d objets. Les objets forment les nstances (occurrences réelles) d une classe. Des assocatons entre les dfférentes classes d une modélsaton orentée objet d un système peuvent exster et elles représentent en fat les lens exstants entre les éléments du système réel. Le langage UML propose pluseurs moyens de descrpton et modélsaton d un système utlsant des dagrammes ou des graphes. De la modélsaton UML nous adoptons dans ce rapport unquement deux genres de dagramme : le dagramme des classes et le dagramme des séquences.. Modèle statque Le dagramme de classes est une collecton d éléments du modèle statque, l montre unquement les aspects statques du système. Les dfférents modules du système SARIPOD sont représentés par ce dagramme de classes, des groupes et des rôles que peuvent jouer ces modules dans les dfférents groupes.. Modèle dynamque Le modèle dynamque est une vson mcroscopque du fonctonnement du système. Il sert à mettre en évdence les relatons temporelles nter-objets et la représentaton sous forme d'un 138

147 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD automate du comportement de chaque objet. Il ntervent aprés la défnton du modèle statque. Un scénaro est une séquence spécfque d actons llustrant des comportements (effets observables d une opératon ou d un évènement). Un scénaro peut être utlsé pour llustrer une ntéracton (spécfcaton comportementale comprenant un ensemble de messages échangés entre des objets, dans un contexte partculer pour attendre un but spécfque). En effet, une ntéracton peut être llustrée par un ou pluseurs scénaros. D'une manère générale, un scénaro utlse deux types de concepts [Roques, 2001]: Des objets : ces sont les concepts fasant parte du système la plupart du temps, ans que des objets externes au système et en nteracton avec celu-c. En fat, les objets ntervenant dans les scénaros sont des nstances et l est donc nécessare de spécfer leur nom et leur classe. Ils sont représentés par des barres vertcales ; Des événements : ces sont les concepts éms et reçus par les objets mplqués dans le scénaro. En fat, les nteractons entre ces objets sont des événements précs et spécfques. Un événement est représenté par une flèche horzontale relant l'objet émetteur à l'objet récepteur. Les scénar sont des sutes d'événements séquencés dans le temps, la lecture séquentelle s'effectue de haut en bas [Lopez et al., 1998]. Nous présentons dans la sute une concepton détallée des prncpaux modules du système SARIPOD. Nous nous lmtons aux présentatons des dagrammes les plus mportants dans le processus de recherche. 2.1 Concepton et mse en œuvre du RPMH de dctonnare La fgure 5.12 montre le détal du dagramme de classes pour le module de constructon du RPMH de dctonnare. Nous ne présentons c que les classes prncpales et nous gnorons les autres classes d mportance mondre telles que les classes utltares engendrées par Java et la classe frame utlsée comme nterface utlsateur. D autre part, le modèle de ce dagramme de classes représente une superposton de deux modèles : un premer modèle de dctonnare contenant des nformatons syntaxques et sémantques, et un second modèle d un graphe où l on y trouve des notons attachées à la théore des graphes telles que sommet, crcut, arc, etc. Dans cette superposton la relaton correspond à entre crcut et sens représente le fat qu un sens est obtenu à partr d un groupe de crcuts, et cette assocaton permet d obtenr un ensemble de mots proches (synonymes) qu sont des sommets-mots. Graphe Graphe() Sommet-Mot text : Strng GetMot() AddMot() Sens seulacceptaton : Integer * Correspond à Arc source : Mot destnaton : Mot GetSource() GetDestnaton() Synonyme * Crcut motdepart : Mot longueur : Integer Fgure 5.12: Dagramme de classes de la constructon du RPMH de dctonnare 139

148 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD Nous dstnguons deux scénar dans lesquels l objet frame joue le rôle de l nterface utlsateur. Le premer scénaro consste en la récupératon des mots proches d un mot donné, alors que le second modélse le regroupement de ces mots proches en composantes de sens. ChercherSynonymes(mot, lgcrcut) : Frame : Collecton-crcuts : Graphe : Mot GetPostonSansArcs(Mot) Poston_de_Mot VérferOrthographe ChargerLesCrcuts(Poston_de_Mot, lgcrcut) LsteDesCrcuts ChargerLesSynonymes(LsteDesCrcuts) LsteDesSynonymes OrdonnerLsteParPods(LsteDesSynonymes) LsteDesSynonymesOrd affcherdansframe1(lstedessynonymesord) Fgure 5.13 : Dagramme de séquences de la recherche des mots proches d un mot L objet frame récupère la poston du mot à étuder dans le dctonnare pus cherche les crcuts qu lu sont assocés. Il s agt ensute de structurer ces crcuts pour en dédure les mots proches du mot de départ. GrouperLesSynonymes (Seul) : Frame : Matrce : Collecton-mots ConstrureMatrce(LsteDesSynonymesOrd, LsteDesCrcuts) ConstrureLesCouples(LsteDesSynonymesOrd, Matrce, Seul) CouplesDesSynonymes ConstrureLesTuples(CouplesDesSynonymes, LsteDesSynonymesOrd, LsteDesCrcuts) GroupesDesSynonymes SmplferLesGroupes(GroupesDesSynonymes) GroupesDesSynonymesS FusonnerLesGroupes(GroupesDesSynonymesS, LsteDesCrcuts) GroupesDesSynonymesF AffcherDansFrame(GroupesDesSynonymesF) Fgure 5.14 : Dagramme de séquences du groupement des mots proches d un mot 140

149 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD Eventuellement, les groupes de mots obtenus contennent des mots ayant des sens proches. Ces mots peuvent encore être regroupés en une même composante de sens. Il s agt de la dernère phase de fuson de ces composantes de sens. En fat, les éléments de chacune des groupes fusonnés possèdent un sens spécfque par rapport aux autres. 2.2 Concepton et mse en œuvre du crawlage stratégque La fgure 5.15 montre le détal du dagramme de classes d ordre général pour les deux modules de crawlage stratégque et de tr des documents Web par leurs pertnences possblstes. Notons c que le paquetage SDA correspond à l analyse d un document Web et le paquetage RPMH dctonnare correspond au module de détermnaton des synonymes des mots-clés. En fat, nous avons développé les paquetages suvants : Le paquetage «Crawlage» renferme tous les objets contrbuant à la réalsaton de la tâche de crawlage des documents Web contenant une nformaton représentée par des mots-clés de l utlsateur qu sont enrchs par des synonymes grâce au module «RPMH Dctonnare». Le paquetage «Possblste» renferme toutes les classes assurant le tr des documents Web analysés par le paquetage «SDA». En effet, ces documents sont collectés par le module de crawlage stratégque. Le paquetage «Hstorque» renferme toutes les classes contrbuant à la réalsaton de la tâche de geston de la base d hstorque du système en tant que leu de conservaton et de réutlsaton des résultats déjà trouvés. RPMH Dctonnare Crawlage + Adjacence + DocumentParser + Fltre + Resultat + Tratement Index Possblste + occurence + opton + struct_doc SDA Hstorque + connecton Fgure 5.15 : Dagramme de classes générale de deux modules de crawlage et de tr Dagramme de classes du module de crawlage stratégque Le dagramme de classes du module de crawlage stratégque est présenté par la fgure Ce dagramme renferme les dfférentes classes nécessares pour concevor et pour mettre en œuvre toutes les opératons nécessares pour lre des documents Web, suvre les lens hypertextes entre eux et créer le RPMH de pages Web. 141

150 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD F l tre p ro fo n d e u r : n t to u t : Ve c to r = n e w V e c to r ( ) re d o n d a n c e ( ) g e tl n k s ( ) (f r o m C r a w la g e ) D o c u m e n tp a r s e r ( f ro m C ra w la g e ) u rl : S tr n g R e s : R e s u l ta t m e s u r e M a tch () g e tr e s u l ta t() p a r s e ( ) H s to r q u e (fro m te s t) In d e x (f r o m C r a w la g e ) U R L _ d e p a rt : S tr n g m o t_ r e c h : S tr n g C h a n e _ l e n s : S tr n g P r o fo n d e u r : n t n d e xe r () In d e x( ) R e s u l ta t ( f ro m C ra w la g e ) L n k s : V e c to r E x s te : b o o le a n = fa l s e R e s u l ta t() Ad ja c e n c e (f r o m C r a w la g e ) E s tl e ( ) g e tm a tr x () Ad ja c e n c e () Fgure 5.16 : Dagramme de classes du module de crawlage stratégque La classe "Index" joue le rôle d un chef d orchestre dans ce module, elle fournt les paramètres ntaux pour les autres classes et médatse la communcaton entre elles pour retourner enfn la collecton des documents résultats de la recherche ans que la matrce d Adjacence qu représente les proxmtés entre les pages. Dans le cas où le résultat du crawlage fgure dans la base d hstorque du système, la classe "Index" retourne le résultat stocké, sans recours à une nouvelle opératon de crawlage. La recherche des mots-clés ans que des lens hypertextes dans les pages Web sont fates par les méthodes de la classe "DocumentParser". En effet, la méthode "parse" sert à construre l arbre DOM d un document à partr de son URL. En conséquence, le document Web sera représenté par un ensemble de nœuds de l ardre DOM. En partant de la racne de cet arbre, la méthode "getresultat" examne le contenu de chaque nœud. En effet, la méthode s ntéresse aux nœuds contenant des mots-clés ou des lens hypertextes. Dans le premer cas c est la méthode "mesurematch" qu teste l exstence des ces mots recherchés. Dans le second cas, comme premère tératon, une nouvelle URL lée au document en queston est ajoutée pour être tratée d une manère récursve. Ces paramètres retournés par la lecture d un document sont conservés dans une structure de données propre pour chaque document. La classe "Resultat" renferme les deux attrbuts "Exste" et "Lnks" : le premer ndque s les mots recherchés exstent dans le document, le deuxème renferme la lste des URLs construte à partr des lens hypertextuels trouvés dans le document. Après avor traté le document Web par la classe "DocumentParser", ce derner est alors représenté par une structure "Resultat". La classe "Fltre" renferme les méthodes servant à construre la lste des documents pertnents après avor fltré les structures "Resultats" des documents lus. La méthode "getlnks" ajoute les URLs des documents contenant les mots recherchés à la lste fnale et relance le processus de recherche dans les documents lés. Elle exclut les lens nternes qu renvoent vers le même document grâce à la méthode "redondance". 142

151 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD La relance du processus de recherche dans les URLs du vecteur "Lnks" est contrôlée par la méthode "getlnks" grâce à l attrbut "profondeur" servant à compter le nombre de pages successves ne contenant pas les mots à rechercher Dagramme de séquences du module de crawlage stratégque La fgure 5.17 décrt les dfférentes nteractons entre les classes partcpant au module de crawlage stratégque. : Index : F ltre : D ocu m entp ars er : Res ultat : A djac enc e U R L, M o t s c lé s g e t L n k s (U R L ) P a r s e ( U R L ) getres ultat ( ) L s t e le n s d a n s U R L P a rs e (L IE N ) g e t L n k s (U R L ) M e s u re M a t c h (m o t s c lé s, U R L ) doc um ent valde L s t e d o c u m e n t s G e t M a t rx (ls t e d o c ) M a t rc e A d ja c e n c e Fgure 5.17 : Dagramme de séquences du module de crawlage stratégque 2.3 Concepton et mse en œuvre de l analyse de document Web La concepton UML du module d analyse de document Web est fate va un package Java composé de pluseurs sous-packages dont les classes coopèrent tout au long du processus d analyse. Pour llustrer l archtecture de ce module, nous présentons le dagramme de classes général (vor fgure 5.18). Le fonctonnement de ce module est llustré par le dagramme des séquences de la fgure Utltes + ContentAnalyser + Label + TagsAnalyser + TtleLabeller Structures + Bloc + Document + LstBlocs + LstStyles + Style Modules + DocumentAnalyser + Segmenter + TtlesIdentfer + TreeCreator Fgure 5.18 : Dagramme de classes général du module d analyse de document Web 143

152 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD Dagramme de classes du processus de segmentaton Dans une premère tératon, nous avons examné la structure de l arbre DOM. En se basant sur ce résultat, nous avons développé la classe "Segmenter" qu correspond au processus de segmentaton. La méthode "getsegments" de cette classe permet d engendrer la lste des blocs et la lste des styles du document dans un seul parcours de l arbre DOM. Nous avons auss créé les classes du sous-package "Structures" et la classe "TagsAnalyser" du sous-package "Utltes" qu permettent d analyser les balses et les attrbuts HTML. Structures (from SDA) Document balsettlecontent : Strng lstmeta : Vector lstblocs : Vector lststyles : Vector Modules (from SDA) Segmenter (from Modules) Segmenter() getsegments() parse() LstBlocs blocs : Vector attrbnveaux() Bloc text : Strng = "" label : Strng = "" nveau : nt LstStyles styles : Vector sort() Style talle : float bold : boolean talque : boolean algn : nt underlned : boolean font : Strng nveau : nt Color : Strng weght() Utltes (from SDA) TagsAnalyser (from Utltes) getpodselement() getnodestyle() Fgure 5.19 : Dgramme de classes du processus de segmentaton Lors de la segmentaton, les méta-données et le contenu de la balse "ttle" sont extrats. Nous avons analysé les résultats obtenus en effectuant des statstques sur le contenu des balses "meta" et "ttle". La fgure 4.19 schématse le dagramme de classes de ce processus. La méthode "parse" parcourt récursvement l arbre DOM en dentfant le type de chaque bloc et son style (l s agt de l étape d étquetage présentée dans la spécfcaton de ce processus). Pour ce fare, elle fat appel aux méthodes "getnodestyle" et "getpodselement" de la classe "TagsAalyser". La premère permet de calculer le style d un noeud et la deuxème dentfe le pods du séparateur vertcal engendré par une balse. La classe "Document" est une structure de données qu content la lste des blocs, la lste des styles, les méta-données et le contenu de la balse "ttle" du document. Toutes ces nformatons sont récupérées dans un seul parcours de l arbre DOM Dagramme de classes du calcul des nveaux des styles Nous nous sommes focalsés, dans la deuxème tératon, sur le calcul des nveaux des styles pusqu l s agt d un tratement essentel pour l dentfcaton des ttres. L dée de départ consstat à attrbuer à chacun des attrbuts de style un pods et de calculer pour chaque style la somme pondérée des valeurs de ses attrbuts. Ayant testé pluseurs combnasons de pods, nous avons découvert qu l faut tenr compte de la régularté des ttres et la fréquence des styles. Enfn, nous avons about à la soluton présentée dans la spécfcaton c-dessus. 144

153 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD Dans cette tératon, la méthode "sort" de la classe "LstStyles" permet d attrbuer des nveaux aux styles. Nous avons auss créé la classe "ContentsAnalyser" dont la méthode "canbettle" permet d attrbuer l étquette "PeutEtreTtre" aux blocs en analysant leurs contenus. La fgure 5.20 llustre le dagramme partel de classes de cette tératon. ContentAnalyser (from Utltes) canbettle() computenbmotsbloc() LstStyles (from Structures) styles : Vector sort() Fgure 5.20 : Dagramme de classes du calcul des nveaux des styles Dagramme de classes de l étquetage sémantque des blocs L objectf de cette tératon est d dentfer les ttres des sectons "non corps" et les légendes. En effet, des étquettes sont attrbuées à ces blocs en se basant sur des expressons régulères. Pour chaque étquette, nous avons défn une expresson régulère apprse à partr des exemples de documents. Ayant un bloc B et la lste des expressons régulères, nous calculons le taux de correspondance entre B et chaque étquette. L étquette ayant le taux de correspondance le plus élevé sera sélectonnée. Nous attrbuons cette étquette à B s le taux de correspondance est supéreur à un seul donné. Le taux de correspondance est calculé en dentfant la souschaîne du texte du bloc qu correspond à l expresson régulère. Le taux est égal au rapport entre la longueur de cette sous-chaîne et la longueur du texte du bloc. L étquetage sémantque relève de la classe "TtleLabeller" du package "Utltes" qu défnt les dfférents labels et expressons régulères. Il mplémente la méthode "mesure-match" permettant de comparer une chaîne de caractères à une expresson régulère en se basant sur la classe "RegularExpresson" appartenant à l envronnement de développement. Tel que présenté par la fgure 5.21, la classe "TtleLabeller" défnt pluseurs nstances de la classe "Label" qu ont chacune un nom et une expresson régulère assocée. TtlesIdentfer (from Modules) TtlesIdentfer() dentfyttles() TtleLabeller CAPTION_FIGURE : Strng = "(IMAGE FIGURE)...[0-99](\\.[0-99])?( -. :)?" CAPTION_TABLE : Strng = "(TABLE TABLEAU TAB\\.)... [0-99](\\.[0-99])?( -. :)?" CAPTION_SEQUENCE : Strng = "(SEQUENCE ANIMATION)... [0-99](\\.[0-99])?( -. :)?" mesurematch() dentfylabel() 1..* Label name : Strng RegExpresson : Strng Fgure 5.21 : Dagramme de classes de l étquetage sémantque des blocs 145

154 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD Dagramme de séquences du module d analyse d un document Web Le dagramme de séquences que nous présentons dans la fgure 5.22 llustre les grandes étapes du processus d analyse d un document Web. Il s agt de mettre l accent sur l enchaînement des tratements et son partage entre les prncpaux modules sans présenter tous les messages échangés entre les classes. : DocumentAnalyser : TreeCreator : Segmenter : TtlesIdentfer : TtleLabeller : LstStyles : LstBlocs 1: arbre = GetTree(url) 2: doc = Segmenter(arbre) 3: parse(arbre) 4: dentfyttles(doc) 5: constructparagraphs(doc) 6: * dentfylabel(bloctexte) 7: sort() 8: attrbnveaux(lststyles) Fgure 5.22 : Dagramme de séquences du module d analyse d un document Web 2.4 Concepton et mse en œuvre du tr de documents par pertnence possblste Dagramme de classes du module de tr par pertnence possblste La fgure 5.23 présente le dagramme de classes du module de tr de documents par pertnence possblste qu renferme les classes nécessares pour le calcul des pertnences, en termes de possblté et de nécessté, des documents déjà retournés par le module de crawlage. A chaque document de la lste retournée par le module de crawlage, nous fasons correspondre une structure de donnée représentée par la classe "struct_doc" qu renferme toutes les structures logques de ce document (paragraphe, ttre prncpal, sous-ttre, légende, fgure, etc.) obtenues sute à un processus d analyse, ans que les attrbuts stockant les calculs nécessares pour les pertnences des documents en queston. La classe "CalculPossblste" renferme les méthodes contrbuant à la constructon de la nouvelle lste trée partant d une collecton de documents retournés dans un ordre quelconque. En effet, la méthode "Construre_Tab_doc" a pour tâche de lre chaque document de la collecton et remplr le tableau "Tab_doc" dont chaque entrée est une structure "struct_doc". La méthode "Calcul_Occurrences" permet de calculer pour chaque mot-clé ses occurrences dans chacune des structures du document, en utlsant la classe "occurrence". Les calculs des 146

155 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD degrés de pertnences possblstes de chaque document ans que les trs selon ces degrés sont réalsés par la méthode "Trer_Tab_doc". Les chox des coeffcents de pertnences possblstes feront l objet de la classe "opton". Communquant avec le module d optmsaton, la classe "CalculPossblste" retourne le résultat du tr drectement s l fgure dans la base d hstorque du système sans lancer de nouveau un processus de crawlage, mas l pourra fare un nouveau tr selon d autres préférences. s truct_doc num _doc : nt url_doc : Strng tp : Strng t1 : Strng t2 : Strng t3 : Strng t4 : Strng txt : Strng lf : Strng lt : S trng lm : Strng poss blte_tp : float = 0 poss blte_t1 : float = 0 poss blte_t2 : float = 0 poss blte_t3 : float = 0 poss blte_t4 : float = 0 poss blte_txt : float = 0 poss blte_lm : float = 0 poss blte_lt : float = 0 poss blte_f : float = 0 tabtp[] : nt tabt1[] : nt tabt2[] : nt tabt3[] : nt tabt4[] : nt tabtxt[] : nt tablf[] : nt tablt[] : nt tablm [] : nt struct_doc() opton coef_tp : nt coef_t1 : nt coef_txt : nt opton() CalculPossblste Tab_doc[](struct_doc ) Mot_rech Construre_Tab_doc() Calcul_Occurences() Trer-Tab_doc() oc curence nb_occ : nt = 0 com pter() SDA (from Logcal Vew) Hstorque (from test) Fgure 5.23 : Dagramme de classes du module de tr par pertnence possblste Dagramme de séquences du module de tr par pertnence possblste La fgure 5.24 représente le dagramme de séquences du module de tr, des documents collectés, selon leurs degrés de pertnences possblstes. : CalculPossblste : struct_doc : occurence : opton Construre_Tab_doc() Tableau de structures documents Calcul_Occurences(Mots clés) Occurences calculées Demande lste des pods Lste des pods d'utlsateur Trer_Tab_doc() Lste documents trés Fgure 5.24 : Dagramme de séquences du module de tr par pertnence possblste 147

156 Chaptre 5 : Spécfcaton et Concepton du système SARIPOD 2.5 Concepton et mse en œuvre du module d optmsaton Comme le montre la fgure 5.25, le module d optmsaton du système content la classe "Connecton" renfermant toutes les méthodes nécessares à la geston de la base de données et les opératons de mse à jour et de manpulaton de la table Hstorque. Les deux méthodes "Inserton" et "Suppresson" sont responsables de la mse à jour des entrées de la table Hstorque. La méthode "fnd" cherche une entrée de la table et la méthode "fnd_path" a pour tâche l extracton des nformatons stockées dans le fcher dont le chemn fgure dans une entrée trouvée dans la table. L authentfcaton de l utlsateur se connectant à la base, pour l opératon de suppresson des enregstrements de la table, est contrôlée par la méthode "svalduser". C raw la ge (fro m t e s t) P o s s b ls t e (from te s t) c o n n e c t o n c o rre c t : bo o le a n s V a ld U s er() ge t U s e rty p e () c o n n ec t o n () S u p p re s s o n () Ins erton() fn d () fn d _ pa t h () 3. Concluson Fgure 5.25 : Dagramme de classes du module d optmsaton La spécfcaton et la concepton de notre système de recherche d nformaton que nous présentons dans ce chaptre répondent ben à notre problématque de départ présentée au début de cette thèse. En effet, le fat qu on a affare à des sources d nformatons collectées à partr du réseau Internet, nous a fat opter pour le développement d un crawler capable d accéder à l Internet grâce au nouvel algorthme de crawlage stratégque proposé. Il nous a paru également ntutf d nterfacer l utlsateur au moyen d nterface permettant l entrée et la sortr des nformatons au système. Enfn, le fat qu on a affare à des envronnements ouverts et dynamques nous a fat opter pour le développement de modules ntermédares assurant les tratements sur les documents recherchés, à savor l analyse des documents Web, le calcul de leurs pertnences possblstes et enfn leur tr selon les préférences de l utlsateur du système. Afn de réalser l archtecture proposée pour le système SARIPOD, nous chosssons les Systèmes Mult-Agents (SMA) qu s adaptent ben à des systèmes complexes et ouverts où l est dffcle de tout prévor à l avance. Par alleurs, notre étude des SRI a ben montré la complexté d un tel système fasant ntervenr des acteurs, des connassances et des nteractons multples. Pour mettre ces connassances en synerge dans un SRI, les SMA sont également adaptés pour la modélsaton du comportement d un SRI, ce derner étant complexe. Nous présentons dans le chaptre suvant la réalsaton, l expérmentaton ans que l évaluaton du système SARIPOD tout en proposant des extrats de sa réalsaton. 148

157 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD Chaptre 6 Réalsaton et expérmentaton du système SARIPOD L approche méthodologque suve lors du développement du système SARIPOD est le prototypage. Il s agt, en fat, d un développement qu a pour objectf de démontrer la fasablté de ce projet et de mettre en exergue l mportance et la convvalté de l nterface graphque et de la technque de crawlage stratégque dans la recherche d nformatons sur Internet. De plus, ce développement dot permettre une certane flexblté pour consttuer la perre angulare d un grand projet de système mult-agent de recherche de documents qu serat hebergé par un serveur. Pour toutes ces dfférentes consdératons et compte tenu des nformatons manpulées par ce genre de système et de l aspect parallèle du tratement, le développement du système SARIPOD dot permettre une certane rapdté de tratement, une flexblté et une portablté. Par conséquent, le chox du langage Java s est mposé étant donnée sa grande portablté. Une soluton effcace pour satsfare tous ces objectfs est l utlsaton des agents logcels. Maes Pate [Maes, 1994] défnt un agent logcel comme étant un programme nformatque autonome qu assste l utlsateur dans l exécuton de ses tâches et qu communque avec d autres agents. S en plus de ces caractérstques l agent peut manpuler des symboles ou des abstractons, s l peut agr en temps réel, peut apprendre et peut s adapter aux préférences de l usager, nous parlons alors dans ce cas d agents logcels ntellgents. L utlsaton des agents logcels pour la recherche d nformatons offre certans avantages par rapport aux méthodes courantes telles que les moteurs de recherche. Le Tableau 6.1 récaptule ces avantages [Hermans, 1997]. Les expérmentatons que nous avons réalsées concernent la phase de reformulaton sémantque de requêtes et la phase de classfcaton thématque des documents résultat d une requête de recherche. Pour la premère phase nous avons utlsé un dctonnare de verbes extrat du dctonnare franças «Le Grand Robert». Nous avons prouvé l utlté de l usage du RPMH de dctonnare dans la reformulaton de requête. Pour la deuxème phase de classfcaton des documents nous avons utlsé comme base de test l encyclopéde nformatque lbre nommée «CommentCaMarche» qu répond ben à nos besons de test. Nous proposons également un cadre comparatf entre la classfcaton proposée par le système et celle proposée par l expert réalsateur de l encyclopéde. Nous commençons dans la premère secton par présenter le cadre de notre traval en terme d envronnement logcel et la plate-forme mult-agent chose. La deuxème secton est consacrée à la défnton des rôles et des ntéractons des agents du système SARIPOD. La trosème secton permet d exposer l mplémentaton du système proposé en présentant quelques extrats de sa réalsaton. La quatrème secton propose les résultats des expérmentatons en ce qu concerne les deux phases de reformulaton de requêtes et de classfcaton des documents résultat de recherche. 149

158 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD Crtères de recherche Indexaton Interface usager Accessblté Adaptablté Les moteurs de recherche La recherche d nformatons est fate en se basant sur un ou pluseurs mots-clés. Cec suppose que l usager est capable de formuler exactement ses mots-clés. Dans le cas contrare, pluseurs nformatons non pertnentes seront retournées et des nformatons pertnentes ne seront jamas retrouvées. L ndexaton d nformaton est fate par collecton de méta-nformatons sur les nformatons et sur les documents dsponbles sur le Web. C est une méthode coûteuse (en temps et en ressources), neffcace et qu ne correspond pas ben à la nature dynamque de l Internet. La recherche d nformaton est souvent lmtée à quelques servces (WWW). Trouver l nformaton offerte par d autres servces (des bases de données) oblge souvent l usager à se débrouller seul. Les moteurs de recherche ne sont pas toujours accessbles, faute de connexon ou de congeston. L usager sera alors oblgé d utlser un ou pluseurs autres moteurs de recherche ce qu nécesstera probablement une autre façon de procéder. L nformaton sur le réseau est très dynamque, souvent les moteurs de recherche font références à des nformatons dont la localté a changé. Les moteurs de recherche n apprennent pas et ne s adaptent pas aux usagers. En plus, l utlsateur ne peut pas recevor les mses à jour des nformatons. Fare de la recherche d nformatons d une telle façon est très coûteux. Les agents Les agents sont capables de chercher l nformaton d une façon plus ntellgente, par exemple en cherchant des concepts plutôt que des mots-clés. Les agents sont également capables de corrger les requêtes de l usager, en se basant sur le modèle de ce derner ou sur d autres nformatons. Les agents peuvent créer leurs propres bases de connassances qu sont mses à jour après chaque recherche. S l nformaton change de ste, les agents sont capables de la trouver et, par la sute, s adapter à ce changement. En plus, les agents sont capables de communquer et coopérer entre eux (et c est là leur vrae force), ce qu accélère et faclte la recherche. Les agents peuvent débarrasser l utlsateur de certans détals, comme la façon avec laquelle un servce dot être manpulé. L usager se concentre seulement sur ce qu l cherche, l agent s occupe du reste. Etant donné que l agent résde sur la machne de l utlsateur, l est toujours à la dsposton de ce derner. Un agent peut exécuter pluseurs tâches jour et nut, et parfos même l pourra les exécuter en parallèle. L avantage d un tel agent résde auss dans le fat qu l est ntellgent et qu l peut par conséquent essayer d évter les heures de ponte. Les agents s adaptent aux préférences et aux souhats de chaque usager. Ils peuvent ans apprendre de leurs recherches précédentes et par la sute comprendre meux les besons des utlsateurs. Tableau 6.1 : Comparason entre les moteurs de recherche et les agents logcels 1. Cadre du traval 1.1 Envronnement Logcel La faclté d ntégraton et la réutlsaton sont les prncpales caractérstques de notre système. Le développement d un paquetage Java ntégrable dans toute plate-forme ou applcaton (Wndows, Lnux, Web) état l objectf prncpal de la tâche d mplémentaton. Pour ce fare, nous avons chos l envronnement Borland JBulder Entreprse Outre les avantages de la technologe orentée objet, ce derner possède pluseurs qualtés relatvement à nos besons. En effet, l ntégraton de composants logcels dans les applcatons développées dans cet envronnement est smplfée. D une part, JBulder nous a perms d ntégrer deux composants logcels fondamentaux pour notre archtecture. Il s agt des cnq paquetages : un pour le RPMH de dctonnare, un pour le RPMH de pages Web, un pour le tratement possblste, un pour l analyse des documents Web collectés et un pour 150

159 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD l applet graphque 3D. Une fos ntégrés, nous avons pu structurer et adapter ces paquetages proprement aux besons de notre système. D autre part, cet envronnement permet le développement d un paquetage JAR ntégrable que ce sot dans des applcatons monoposte ou des applcatons Web. Nous rappelons que l un des objectfs du présent traval est de contrbuer à l améloraton des performances des systèmes de recherche d nformaton sur Internet. La concepton des dagrammes de classes et de séquences a été réalsée avec le langage de modélsaton UML va le software Ratonal Rose Enterprse Edton La plate-forme mult-agent Jade Afn de profter des travaux d autres chercheurs dans le domane et pour la rapdté de prototypage nous avons eu recours aux plates-formes exstantes de développement de systèmes mult-agents. L étude réalsée au sen du laboratore RIADI par [Ben Mena et al., 2005], nous a serv dans le chox d une plate-forme mult-agent convenable pour le développement du système SARIPOD. En effet, le chox de la plate-forme JADE s avère rasonnable. De plus, JADE sera auss adaptée pour un déploement sur serveur. Ce chox est le résultat d une comparason entre la plate-forme JADE et d autres platesformes, essentellement : DECAF, AGENTBUILDER, ZEUS, JAFMAS/JIVE, JACK, AGENTTOOL, MADKIT, SWARM et STARLOGO. Les crtères de comparason retenus sont : 1. Méthodologe assocée à l outl : La plate-forme dot assocer une méthodologe couvrant les dfférentes étapes du cycle de ve du développement d un SMA. 2. Faclté d mplémentaton et de déploement : Pour réalser un système de recherche d nformaton sur Internet, l faut utlser un langage de programmaton de haut-nveau supportant la programmaton Orentée-Objet. Dans ce cas la programmaton des «threads» et leur synchronsaton où l échange de message est auss ndspensable. D autre part l mplémentaton des communcatons dot être transparente. 3. Interface graphque pratque et multfoncton : La plate-forme dot posséder une nterface utlsateur qu faclte le développement. La plate-forme dot permettre la vsualsaton des agents ans que leur geston et celle des nteractons avec le système. 4. Réutlsaton smple : Parm les objectfs fxés, nous avons mentonné l extenson du système pour d autres domanes proches ce qu nécesste de prendre en compte ce crtère. 5. Possblté de suv et de déboguage : Nous avons réalsé un système mult-agent de recherche d nformaton sur Internet avec une forte coopératon entre les acteurs de ce système. De plus, le nombre de composants est très mportant. Des outls de suv et de déboguage sont ans nécessares. 6. Connexon à d autres composants : Notre système est connecté à une base de données enregstrant les requêtes déjà jouées par ce système afn de faclter la geston de l hstorque et d amélorer le temps de réponse de notre système. 7. Possblté de dstrbuton : Parm les besons dentfés pour l extenson de notre système on s ntéresse à la dstrbuton de la recherche d nformaton sur des machnes dstantes afn de rendre la recherche plus effcace et permettre la coopératon entre les hommes et les machnes. 151

160 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD 8. Dsponblté de documentaton : La documentaton est dsponble dans JADE non seulement pour l étape de développement mas auss pour l étape de déploement, pour pouvor reméder au problème de mantenance et d exécuton. 9. Standard : La plate-forme JADE est conforme à un standard pour une nteropérablté avec des agents hétérogènes et nteractfs et des systèmes mult-agents. 10. Accès au code source : La plate-forme JADE est accessble ans que son code source. Ce qu lu permet une flexblté d extenson. 11. Portablté : L outl JADE est portable sur dfférents envronnements et permet auss une exécuton smple du système ndépendamment de l envronnement. En effet, à partr du résultat de la comparason, la plate-forme JADE a montré une nette supérorté pour l ensemble de ces crtères. Par alleurs, Jade est un outl qu répond aux normes FIPA 97. Il fourn des classes qu mplémentent «JESS 29» pour la défnton du comportement des agents. L outl possède tros modules prncpaux (nécessare à la norme FIPA 30 ). Le DF (Drector Facltator) fourn un servce de pages jaunes à la plate-forme. Le ACC (Agent Communcaton Chanel) gère la communcaton entre les agents. Le AMS (Agent Management System) supervse l enregstrement de chaque agent, son authentfcaton, son accès au système et son utlsaton. Les agents communquent par le langage FIPA ACL. Un édteur est dsponble pour l enregstrement et la geston des agents. Aucune autre nterface n est dsponble pour le développement ou l mplémentaton ce qu nécesste une bonne connassance des classes et des dfférents servces offerts [Bellfemne et al., 2003]. 2. Les agents du système SARIPOD L dée de départ pour les SRI est de dstrbuer les connassances pour parer aux problèmes de capacté de stockage, de cohérence de la masse d nformaton tratée et de complexté de résoluton due à cette masse d nformaton. Les systèmes mult-agents (SMA) sont les plus représentatfs de cette catégore. Par alleurs, et devant la dversté des connassances et la complexté du processus de recherche, l est fort ntéressant d adopter la représentaton sous forme d agents qu vont être sot représentatfs des opératons de mses en œuvre, sot détentr les connassances approprées. Nous avons donc chos un certan nombre d agents qu partcpent tous, chacun selon sa compétence propre, à la concrétsaton de l objectf global qu est de satsfare le beson d nformaton de l utlsateur. Ce but peut être consdéré suvant pluseurs angles pour consttuer des sous-buts, et ce, selon la nature de beson. Pour chaque sous-but, une stratége de recherche approprée, qu dot s adapter à la nature de beson, peut être suve. La défnton d une stratége de recherche consste à chosr quels sont les agents qu seront actvés au cours de la résoluton du problème. Pour ntrodure les dfférentes connassances, nous avons chos d utlser tros couches d agents, dont chacune est réservée à certans agents sot pour récupérer ou pour y stocker des connassances. Les agents que nous proposons nteragsssent et coopèrent selon le rôle qu leur est confé pour attendre l objectf commun

161 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD L organsaton du système proposé (affectaton des rôles des agents, nteractons et coopératons) ans que les dfférentes connassances sont détallées et llustrées par des schémas dans les sectons suvantes. 2.1 Les couches d agents du SARIPOD Le fat qu on a affare à des sources d nformatons collectées à partr du réseau Internet, nous a fat opter pour le développement d agent crawler capable d accéder à l Internet. Il nous a paru également ntutf d nterfacer l utlsateur au moyen d agents d nterface. Fnalement, et comme nous l avons soulgné plus haut, le fat qu on a affare à des envronnements ouverts et dynamques nous a fat opter pour le développement d une couche d agents ntermédares. On vot donc apparaître tros nveaux d abstracton au nveau de l archtecture mult-agent abstrate du système SARIPOD : La couche de communcaton avec l utlsateur ; La couche de tratement d nformatons ; La couche d extracton d nformatons. Dans le système SARIPOD, les tros couches font référence à la technologe agent et à la médaton entre ces mêmes agents (vor fgure 6.1). Couche de communcaton avec l utlsateur Couche de tratement d nformatons Couche d extracton d nformatons Utlsateurs Fgure 6.1 : Les couches abstrates du système SARIPOD Au nveau du contenu précsément, les tros couches se défnssent comme sut : Couche de communcaton avec l utlsateur Cette couche est chargée des communcatons entre SARIPOD et l usager. Elle comprend des agents d nterface nteragssant avec l utlsateur pour l ader à réalser une tâche ben précse. Cette nteracton se tradut par une transformaton des requêtes de l usager afn de faclter la communcaton avec les agents de la couche de tratement. Cette couche vérfe également la consstance des données fournes par l utlsateur Couche de tratement d nformatons Cette couche de tratement d nformatons reçot de la couche de communcaton les requêtes à reformuler ans que les préférences de l'utlsateur. Elle détermne, à partr du RPMH de dctonnare, les mots les plus proches des mots-clés de l'utlsateur et permet, en conséquence, de reformuler ses requêtes va un agent lexcographque nteragssant avec le RPMH du dctonnare. Cette couche fournt également la défnton d un agent page Web donnant la structure logque de chacune de pages Web recherchées, celle d'un agent d'hstorque enregstrant toutes les requêtes et leurs réponses dans une base d'hstorque, celle d un agent de mesures possblstes (mesure de possblté, mesure de nécessté, mesure de pertnence possblste) ans que celle d un agent sélectonneur permettant l'organsaton des pages Web, retournés par la couche d extracton d nformatons, selon les préférences de l'utlsateur. En fat, l assstance globale dans cette couche est assurée par des agents supervseurs (décdeur, médateur et contrôleur d erreur). 153

162 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD Couche d extracton d nformatons Cette couche est composée unquement d un agent crawler assurant l exploraton (crawlage) du Web pour sélectonner les pages Web contenants les mots-clés recherchées. En effet, cet agent forme une nterface entre la source d nformatons (le réseau Internet) et la couche de tratement d nformatons. Nous pouvons travaller avec pluseurs agents crawler. En effet, comme pour les fourms, s'l y a des zones du Web peu ntéressantes, un seul agent peut suffre, par contre s on tombe sur un ensemble rche en pages potentellement pertnentes, pluseurs agents pourraent travaller en parallèle. En fat, les pages Web pertnentes sont comme la nourrture, elles devraent attrer beaucoup d'agents. S on vse des mllons de pages Web, l n'est pas crédble qu'un seul agent sot dévolu à cette tâche. Mas l nconvénent majeur de ce type de système est de consttuer un goulot d étranglement qu peut dmnuer consdérablement les performances du système dès que le nombre des agents et des demandes augmente [Ferber, 1995]. 2.2 Rôle des dfférents agents La coopératon entre les dfférents agents du système SARIPOD est représentée par la fgure 6.2. Ces agents sont réparts sur les tros couches c-dessus dans des concentratons varables. Ces dfférents agents sont : agent utlsateur ; agents d nterface ; agent lexcographque ; agent de mesures possblstes ; agent sélectonneur ; agent page Web ; agent crawler ; agent d'hstorque; agents supervseurs [Elayeb et al., 2007b]. Agents utlsateurs L agent utlsateur est la porte d entrée des requêtes externes au système. Il faclte à l utlsateur la formulaton de sa requête proposée au système. L agent utlsateur est capable de garder les préférences de l utlsateur au fur et à mesure que celu-c utlse le système. En effet, l enregstre dans une base d hstorque les requêtes déjà jouées par un utlsateur ans que les préférences correspondantes dans le but de pouvor les utlsées ultéreurement. Il est capable auss de stocker de l nformaton pour l utlsateur et d agr comme un agent ressource. Évdemment l y a autant d agents utlsateurs qu l y a d utlsateurs. Chaque agent s occupe de l utlsateur auquel l est rattaché. Agents d nterface Ils ont pour rôle d assurer la communcaton entre le système et ses utlsateurs. Ils sont de deux types : a. Agent d entrée L agent d entrée analyse la requête utlsateur et transmet par la sute les mots-clés recherchés à l'agent lexcographque qu détermne leurs mots proches à partr du RPMH de dctonnare de mots. b. Agent de sorte L agent de sorte est chargé de présenter les résultats de la recherche à l utlsateur. En effet, l est capable de confronter les résultats de sorte aux préférences de l utlsateur. Cette confrontaton nécesste la présentaton des pages Web recherchées selon les préférences proposées, dans le cas où le résultat fourn par l agent sélectonneur est dfférent de celu préféré par l utlsateur. 154

163 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD Agent Utlsateur RPMH de dctonnare «Le Grand Robert» Agent Page Web Agents d nterface Agent d entrée Agent de sorte Agent Lexcographque Agent Mesures Possblstes Agents Supervseurs Agent Décdeur Agent Médateur Agent Contrôleur d erreur Agent Crawler Agent Sélectonneur Agent Hstorque Base d hstorque <R, Lste d URL> Couche de communcaton avec l utlsateur Couche de tratement d nformatons Couche d extracton d nformatons Agents supervseurs Fgure 6.2 : La coopératon entre les agents de SARIPOD Ils vellent au bon fonctonnement du système, tous les autres agents dovent être à leur servce et sous leur responsablté. Ils sont chargés d affecter les tâches aux dfférents agents ntervenant dans le processus de recherche d nformatons (agent médateur), de décder en cas d une multtude de chox (agent décdeur) et de contrôler les erreurs possbles lors d une 155

164 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD sesson de sélecton des documents Web les plus pertnents (agent contrôleur d erreur). Nous détallons dans la sute la tâche de chacun de ces tros agents. a. Agent médateur Il a pour rôle d affecter les dfférentes tâches de recherche aux agents approprés. Un problème de recherche d nformaton peut être décomposé en pluseurs tâches à savor : 1. L entrée et l analyse de la requête utlsateur de recherche d nformaton ; 2. L nterrogaton du RPMH du dctonnare va l agent lexcographque qu détermne les mots les plus proches (synonymes) des mots-clés de l utlsateur du système par l applcaton de l approche à base de crcuts exstants entre les nœuds termes ; 3. La transformaton des URLs crawlées en des pages Web et la détermnaton de leurs structures logques par l agent page Web; 4. La détermnaton de la pertnence de chaque document va l agent de mesures possblstes ; 5. L organsaton de ces documents dans un ordre décrossant de pertnence va un agent sélectonneur; 6. La sorte du résultat fnal de la recherche dans une représentaton conforme aux préférences de l utlsateur ; 7. Le stockage d une cope du résultat fnal dans une base d hstorque va un agent d hstorque. Toutes ses tâches sont réalsées par les dfférents agents du système. En effet, l agent crawler explore le Web pour extrare les URLs des pages Web recherchées. L analyse des pages Web correspondantes à ses URLs est fate par l agent page Web. L agent médateur permet de planfer ces dfférentes tâches et les affecter aux dfférents agents du système, c est un rôle moteur qu peut faclement être lmté dans le cas où le système devent complètement dstrbué ; c'est-à-dre le nombre d agents médateurs est nversement proportonnel au degré de cognton des autres agents du système. Dans cette verson du système SARIPOD, l agent médateur-facltateur joue le rôle d un facltateur. L agent médateur (ou facltateur) permet l allocaton des tâches, l dspose de l nformaton à propos des compétences d autres agents. En fat, l ntérêt prncpal de cette archtecture est de favorser la cohérence du système. De plus le beson d optmsaton est plus faclement satsfat. Connassant l ensemble des agents dsponbles, l est plus facle à l'agent médateur de chosr le melleur des agents par rapport à une demande de tâche donnée. Mas l nconvénent majeur de ce type de système est de consttuer un goulot d étranglement [Zaghdoud, 2003] qu peut dmnuer consdérablement les performances du système dès que le nombre des agents et des demandes augmente [Ferber, 1995]. En effet, pour le cas de la présente applcaton, l est préférable d utlser un agent supervseur (ou médateur), d alleurs le nombre d agents est lmté et le rsque d avor un goulot d étranglement est mnme. Par contre, pour un développement réel du système SARIPOD l aspect totalement dstrbué devent nécessare. b. Agent décdeur Cet agent décdeur a un rôle fondamental dans le système SARIPOD. Dans un premer temps, l est chargé de fare une sélecton post-tratement après avor mené à terme les dfférentes pages Web sélectonnées par les agents sélectonneurs pour que les agents de sorte sachent organser ce résultat dans l ordre préféré par l utlsateur. D autre part, cet agent décdeur sera doté d une ntellgence pour fare un prétratement des documents Web pertnents, lu permettant ans de fare gagner au système un temps consdérable. 156

165 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD b. Agent contrôleur d erreur Il est chargé de contrôler le bon fonctonnement du système en exécutant les drectves de contrôle des erreurs communquées par chaque agent du système. Il nforme le décdeur de ce qu se passe dans le système qu à son tour décde d arrêter ou non un agent. Souvent, l analyse la cause d erreur de chaque agent en dffculté, s l s agt par exemple d un manque d nformaton, l essaye de résoudre ce problème en demandant plus d nformaton auprès de l agent source d erreur. Dans le pre des cas, l décde d arrêter le fonctonnement d un agent. Agent lexcographque Dans le cadre de la reformulaton de la requête utlsateur, l agent lexcographque velle sur la constructon et l nterrogaton du RPMH du dctonnare de mots en vue de détermner les mots sémantquement proches des mots-clés proposés par l utlsateur du système. Cet agent nteragt avec les agents d nterface pour décder la requête fnale à proposer au crawler à travers les agents supervseurs. Agent crawler L objectf de cet agent est de pouvor crawler le Web selon la stratége décrte dans le chaptre précédent. Il obtent un ensemble des URLs des pages Web, dont chacune content un ou pluseurs mots-clés de la requête reformulée. Par alleurs, cet agent se charge auss de la créaton du RPMH de pages Web ans que leur classfcaton sous forme de petts mondes. En fat, dans notre prototype, l agent crawler nteragt avec l agent page Web va l agent de mesures possblstes pour permettre à l agent sélectonneur de trer les pages Web sélectonnées selon leurs degrés de pertnences possblstes (les tâches des ces agents seront détallées dans la sute). Agent page Web L agent page Web est chargé de l analyse de pages Web collectées par l agent crawler. La structure logque de chaque page Web est envoyée par cet agent vers l agent de mesures possblstes. Agent de mesures possblstes Cet agent s occupe du réseau possblste du système SARIPOD. Il calcul le scores de pertnence possblste de chaque page Web sélectonnée par l agent crawler, en se basant sur la structure logque de chacune de ses pages. Ces scores seront achemnés vers l agent sélectonneur qu décde leur organsaton selon les préférences de l utlsateur. Agent sélectonneur L agent sélectonneur est capable de répondre à des propostons du type : le document d 1 est préférable au document d 2 ou l ensemble {d 1, d 2 } est préférable à l ensemble {d 3, d 4 }. En effet, cette proposton montre ben que la lste ordonnée des documents en réponse à un beson utlsateur est tratée d une manère qualtatve, et que notre approche qualtatve ordnale est utlsée dans la représentaton des documents et des requêtes. Par alleurs, cet agent tre les documents Web dans un ordre décrossant de leurs degrés de pertnences possblstes ; le document répondant le plus aux préférences de l utlsateur sera affché en tête de la lste trée des documents, retourné à l agent de sorte qu vérfe sa conformté aux préférences de l utlsateur. 157

166 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD Agent d hstorque Cet agent stocke une cope de chaque requête jouée par le système ans que sa réponse dans une base d hstorque. En cas où l utlsateur réjoue une requête, cet agent lu propose celle de l hstorque et lu donne auss la possblté de changer ses préférences et relancer des nouveaux calculs des scores des pertnences possblstes des documents Web. Ans, le système SARIPOD bénéfce des avantages apportés par la rchesse de la modélsaton mult-agent, fasant coopérer les dfférentes tâches, et par les méthodes utlsées par les agents et partculèrement les agents de créaton des deux RPMH et du Réseau Possblste. D autre part, nous avons proposé un système de communcaton entre les dfférents agents permettant de synchronser leurs comportements et leurs actons sur l ensemble des connassances. Ces communcatons sont assurées va des messages qu rendent les agents plus ndépendants. La fgure 6.3 montre quelques communcatons par messages échangés entre les dfférents agents de la plate-forme SARIPOD. Agent Crawler Agent Lexcographque Lste des URLs crawlées Confrmaton de la recepton de la lste des URLs crawlées Agent Page Web Les structures logques des Pages Web analysées Terme exstant Ou terme nexstant Requête reformulée ou non? Le terme de la requête est exstant dans le RPMH de dctonnare ou non? Agent d Entrée Agent de Sorte Résultat conforme Ou Résultat non conforme Requête reformulée ou Rêquete non reformulée Confrmaton de la recepton des structures logques Agent Médateur Requête déjà jouée par SARIPOD ou non? Résultat conforme avec le profl de l utlsateur ou non? Agent Sélectonneur Tr déjà joué Ou Nouveau tr Tr déjà joué par SARIPOD ou non? Requête déjà jouée Ou Nouvelle requête Agent Hstorque Fgure 6.3 : Communcatons par messages échangés entre les agents de SARIPOD 158

167 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD 3. Implémentaton du système SARIPOD Comme toute autre applcaton le système SARIPOD est ntégré sous la forme d un package Java dans la plate-forme Jade. Les classes agents hértent leurs proprétés et leurs méthodes des classes de base. Nous présentons dans la sute l mplémentaton de chacun des modules du système et nous présentons quelques extrats de la réalsaton. La fgure 6.4 présente l nterface Jade du système SARIPOD. Fgure 6.4 : Interface Jade du système SARIPOD 3.1 Interfaces prncpales du SARIPOD Nous avons regroupé toutes les fonctonnaltés utles de notre système SARIPOD dans une seule nterface graphque convvale et nteractve. Ans, l nterface générale comprend les cnq onglets suvants (vor fgure 6.5). 1- Onglet «RPMH de pages Web» : cet onglet sert à affcher les URLs contenant les mots-clés recherchés suvant la technque de crawlage déjà spécfée. En effet, l utlsateur nsère son URL de départ ans qu un ensemble de mots-clés. Il demande la reformulaton de sa requête va le bouton «Ajouter Synonyme». Le système demande à chaque tératon le nombre de synonymes désrés par l utlsateur pour chaque mot-clé. Cette technque est utle et permet au système de détecter les préférences entre les mots-clés de l utlsateur. Le processus de recherche est lancé par le bouton «Rechercher». Le bouton «Vder la Base» permet de vder la base d hstorque. Le bouton «Arrêter» permet de suspendre le système. Le bouton «ntalser» permet d ntalser le système. Le bouton «RPMH des pages Web» permet la constructon du RPMH des pages Web par l approche des crcuts. Une vsualsaton 3D de cet RPMH est assurée par le bouton «RPMH 3D». Le bouton 159

168 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD «Qutter» permet de fermer le système. Fnalement le système permet l affchage des nformatons à propos du temps de réponse ans que du nombre total des documents retrouvés. 2- Onglet «Pertnence Possblste» : cet onglet permet de trer les documents collectés selon leurs pertnences possblstes. En effet, l utlsateur valdera son profl par le bouton «Préférences» de l nterface de la fgure 6.6. Il pourra enfn, enregstrer le résultat fnal (vor fgure 6.7) sous n mporte quel format (.txt ;.doc ;.pdf ;.html ; etc.) en appuyant sur le bouton «Enregstrer». 3- Onglet «Matrce Index» : cet onglet sert à affcher la matrce Index du RPMH de pages Web. En effet, l utlsateur peut affcher la matrce ndex nécessare à la constructon du RPMH de pages Web va l nterface de la fgure 6.8. Il pourra, en outre, enregstrer cette matrce sous n mporte qu elle format (.txt ;.doc ;.pdf ;.html ; etc.). Une cope de ce fcher sera automatquement stockée dans le dosser d hstorque du système. 4- Onglet «Matrce Adjacence» : cet onglet sert à affcher les proxmtés entre les pages Web selon la méthode présentée dans le chaptre 4. En effet, cette matrce ne pourra être engendrée qu à partr de la matrce d ndex. De la même façon que la matrce Index, l utlsateur pourra l enregstrer sous n mporte quel format et une cope de ce fcher sera automatquement stockée dans le dosser d hstorque du système (vor fgure 6.9). 5- Onglet «RPMH de dctonnare» : cet onglet permet de détermner les synonymes d'un mot donné en paramètre va le graphe du RPMH de dctonnare. Fgure 6.5 : Interface générale du système SARIPOD 160

169 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD Fgure 6.6 : Interface de paramétrage des coeffcents de pertnence possblste Fgure 6.7 : Interface du fcher résultat du système SARIPOD 161

170 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD Fgure 6.8 : Interface des URLs collectées par le crawler Fgure 6.9 : Interface de proxmté entre les pages Web 162

171 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD 3.2 Interfaces du RPMH de pages Web Nous avons réalsé une nterface du RPMH de pages Web servant pour la détermnaton des pages contextuellement proches de la page racne. En fat, l nterface du RPMH de pages Web, présenté par de la fgure 6.10, est formée d un cadre prncpal (Frame) contenant un champ texte servant à sasr l URL de la page Web racne, tros boutons «chercher» «Graphe» et «Groupes» et une lste (JcomboBox) «Lg Crcut» désgnant la longueur de crcut entre la page racne et les pages contextuellement proches. Le bouton «chercher» dans cette nterface déclenche la recherche des URLs des pages Web recherchées et affche tros colonnes : la premère content tous les URLs des pages proches trés par ordre de prorté, la deuxème ndque la proxmté de chaque page par rapport à la page racne et la trosème ndque le nombre de crcuts qu passent par chaque page. Fgure 6.10 : Interface de calcul du nombre de crcuts sélectonnés entre les pages Web L'appu sur le bouton «Graphe» de la fgure 6.10 nous affche une nouvelle fenêtre contenant les crcuts passant par la page Web racne et présentant les branches du RPMH de pages Web (vor fgure 6.11). 163

172 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD Fgure 6.11 : Interface des branches de RPMH de pages Web L'appu sur le bouton «Groupes» de la fgure 6.10 nous affche un nouveau cadre (Frame) contenant un bouton «Grouper les pages» et une lste (JcomboBox) «seul». Le chox du seul et l appu sur le bouton «Grouper les pages» déclenche la recherche des groupes de pages (vor fgure 6.12) avec leur fuson et l'affchage de ces groupes dans des panneaux (vor fgure 6.13). En fat, ces groupes fusonnés représentent les petts mondes de sens dans le RPMH de pages Web. Fgure 6.12 : Interface de groupement des pages dans le RPMH de pages Web 164

173 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD Premer classe de documents contenant les URL des deux pages Web (P1 et P22). Deuxème classe de documents contenant les URL des deux pages Web (P1 et P35). Trosème classe de documents contenant d autres URL des pages Web retrouvés. Fgure 6.13 : Interface de fuson des groupes de pages dans le RPMH de pages Web La vsualsaton graphque 3D du RPMH des pages Web est présentée par la fgure En effet, l utlsateur de SARIPOD pourra navguer dans le graphe RPMH des pages Web résultat de la recherche tout en fasant des zoom + ou ans que des rotatons et des déplacements du graphe dans les quatre drectons (drote, gauche, haut et bas). En fat, ce graphque correspond à un échantllon des résultats présentés dans les tableaux donnés en annexe 4. Le premer pett monde de pages Web s ntéresse au thème «réseaux et protocoles». Ces pages sont caractérsées par un ensemble de mots ou expressons fasant parte de ce thème tels que : Protocoles, Transmsson de données, équpements réseaux, Internet, Technologes, réseaux sans fl, WF (802.11), BleuTooth (802.15), Courants porteurs (CPL), etc. Alors que le second pett monde de ces pages Web s ntéresse au thème «systèmes d explotaton». Ces pages sont caractérsées par un ensemble de mots ou expressons fasant parte de ce thème tels que : Unx, Lnux, Mac/MacOS, Wndows 95/98/Me, Wndows NT/2000/XP, MS-DOS, AS/400 OS/400, etc. Ans, toutes ces pages Web répondent fortement à cette descrpton alors que toutes les autres pages crawlées y répondent ben mons telle que la page Web vsualsée unque dans ce graphe. Dans ce graphe 3D, les pages Web de chacun de ces deux petts mondes sont thématquement proches. En effet, ces pages sont obtenues sute à un processus de crawlage stratégque (on ne garde des pages que s elles contennent un même mot-clé ou, plus généralement, des mots proches de ces mots clés de départ) où les arêtes entre les nœuds pages représentent les proxmtés thématques entre ces pages obtenues grâce à la matrce d adjacence élevée à une certane pussance (vor chaptre 4). En outre, nous avons ben démontré dans la fgure 6.21 et le tableau 6.11 que toutes les pages, obtenues sute à cette démarche, sont des RPMH (L pett, C grand, lo de pussance). 165

174 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD D autre part, l ntérêt de la vsualsaton 3D du RPMH de pages Web, dans le système SARIPOD, est de montrer à l utlsateur du système une justfcaton clare de ce qu l a obtenu dans sa matrce de proxmtés entres les pages Web. Car s cette matrce est de très grande talle, l est dffcle de détecter quelles sont les pages qu font parte du même pett monde, alors qu à l ade de cette vsualsaton 3D l affchage est plus clar et l pourra consulter les pages drectement à partr du graphe par le smple clc sur le nœud pages Web. Page Web unque Pett Monde 1 de pages Web Pett Monde 2 de pages Web Fgure 6.14 : Interface 3D du RPMH de pages Web Nous pouvons travaller autrement en utlsant une Analyse en Composantes Prncpales (ACP) pour la vsualsaton 3D de ce RPMH de pages Web (comme le cas du logcel Prox 31 ). En effet, grâce à une certane pussance de la matrce d adjacence on obtent une matrce de vecteurs lgnes où chaque page est plus ou mons proche des autres. Chaque page est représentée par un vecteur sur l'ensemble de toutes les pages. On est donc dans un espace de dmenson D (D = le nombre total de pages Web "crawlées") équvalent à IR D. Chaque page est un pont de IR D et on peut calculer la dstance eucldenne de chaque page avec chaque autre. On postule que s deux pages se comportent à peu près de la même façon (c'est-à-dre s ces deux vecteurs V 1 et V 2 pontent à peu de chose près dans la même drecton et sont à peu près de même longueur : Cosnus(V 1, V 2 ) et V 1 / V 2 sont vosns de 1) alors ces deux pages parlent à peu près de la même chose et elles seront dans un même pett monde (mas en termes du seul len hypertextuel, elles ne sont peut-être pas s proches l'une de l'autre que cela)

175 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD L'ntérêt de l'espace de dmenson 3 est qu'l est vsualsable et dans ce cas ramener l'espace IR D à IR 3 est ce qu est habtuellement fat par une Analyse en Composantes Prncpales (ACP). Dans ce cas on peut avor des clars graphques où l'mpresson de proxmté géométrque tradut la proxmté thématque des pages Web. Notons que cette ACP n'est pas nécessare s l'on ne veut pas vsualser. La dstance eucldenne dans IR D sufft à comparer deux pages. 3.3 Interfaces du RPMH de Dctonnare Nous avons réalsé une nterface de connexon avec l nterface du RPMH de dctonnare. Cette nterface a été ntée par [Shbly et al., 2004] et amélorée par nous même dans le cadre de la réalsaton du système SARIPOD. En fat, l appu sur le bouton «Ajouter Synonyme» de la fgure 6.5, déclenche une manpulaton automatque de cette nterface pour la détermnaton de l ensemble de mots sémantquement proches des mots-clés de la requête. L nterface de manpulaton du RPMH de dctonnare de mots, présenté par l nterface de la fgure 6.15, est formé d un cadre prncpal (Frame) contenant un champ texte servant à sasr le mot à étuder, tros boutons «chercher», «Graphe» et «Groupes» et une lste (JcomboBox) «Lg Crcut» désgnant la longueur de crcut. D autre part, cette nterface peut être manpulée à part d une manère ndépendante du système SARIPOD. En effet, s l on veut chercher les mots proches d un mot quelconque, ce derner dot être nsérée dans le champ de texte «Mot». Le bouton «chercher» déclenche la recherche des mots proches du mot en queston et affche tros colonnes : la premère content la lste de mots proches trés par ordre de prorté, la deuxème ndque le pods de chacun de ces mots proches et la trosème ndque le nombre de crcuts qu passent par chaque mot proche (vor fgure 6.16). En fat, cette nterface est très semblable à celle du RPMH de pages Web de la fgure Fgure 6.15 : Interface du RPMH de dctonnare 167

176 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD Fgure 6.16 : Interface de calcul du nombre de crcuts sélectonnés entre les mots de dctonnare L'appu sur le bouton «Graphe» de la fgure 6.15 nous affche une nouvelle fenêtre contenant les crcuts passant par le mot de départ et présentant les branches du RPMH de mots de dctonnare (vor fgure 6.16). Fgure 6.16 : Interface des branches de RPMH de mots de dctonnare L'appu sur le bouton «Groupes» de la fgure 6.15 affche un nouveau cadre (Frame) contenant un bouton «Grouper les Synonymes» et une lste (JcomboBox) «seul». En effet, le chox du seul et l appu sur le bouton «Grouper les synonymes» déclenche la recherche 168

177 Chaptre 6 : Réalsaton et Expérmentaton du système SARIPOD des groupes de mots proches (vor fgure 6.18) avec leur fuson et l'affchage de ces groupes dans des panneaux (vor fgure 6.19). Ces groupes de mots fusonnés représentent les petts mondes de sens correspondant au mot de départ. Fgure 6.18 : Interface de groupement des mots proches dans le RPMH de dctonnare Fgure 6.19 : Interface de Fuson des mots proches dans le RPMH de dctonnare 169

Montrer encore