Contribution à la définition de modèles de recherche d information flexibles basés sur les CP-Nets

Transcription

1 Contrbuton à la défnton de modèles de recherche d nformaton flexbles basés sur les CP-Nets Fatha Boubekeur To cte ths verson: Fatha Boubekeur. Contrbuton à la défnton de modèles de recherche d nformaton flexbles basés sur les CP-Nets. Computer Scence [cs]. Unversté Paul Sabater - Toulouse III, French. <tel > HAL Id: tel Submtted on 25 Jan 2009 HAL s a mult-dscplnary open access archve for the depost and dssemnaton of scentfc research documents, whether they are publshed or not. The documents may come from teachng and research nsttutons n France or abroad, or from publc or prvate research centers. L archve ouverte plurdscplnare HAL, est destnée au dépôt et à la dffuson de documents scentfques de nveau recherche, publés ou non, émanant des établssements d ensegnement et de recherche franças ou étrangers, des laboratores publcs ou prvés.

2 THÈSE En vue de l'obtenton du DOCTORAT DE L UNIVERSITÉ DE TOULOUSE Délvré par l'unversté Toulouse III - Paul Sabater Dscplne ou spécalté : Informatque Présentée et soutenue par Fatha BOUBEKEUR-AMIROUCHE Le 01/ 07/ 2008 Ttre : Contrbuton à la défnton de modèles de recherche d'nformaton flexbles basés sur les CP-Nets JURY Florence SEDES : Professeur à l'unversté Paul Sabater (Présdente) Erc GAUSSIER : Professeur à l Unversté Joseph Fourer Grenoble I, France (Rapporteur) Mohand-Saïd HACID : Professeur à l Unversté Claude Bernard Lyon 1, France (Rapporteur) Gabrella PASI : Professeur à l'unversté de Mlan Bcocca, Itale (Examnatrce) Mohand BOUGHANEM : Professeur à l'unversté Paul Sabater (Drecteur de recherche) Lynda TAMINE-LECHANI : Maître de Conférences à l'unversté Paul Sabater (Co-encadrante) Ecole doctorale : MITT Unté de recherche : CNRS, 5505 Drecteur(s) de Thèse : Mohand BOUGHANEM : Professeur à l'unversté Paul Sabater (Drecteur de recherche) Lynda TAMINE-LECHANI : Maître de Conférences à l'unversté Paul Sabater (Co-encadrante) Rapporteurs :

3

4 A mes enfants Amne et Nassm A Boualem

5

6 Remercements Je tens à remercer en tout premer leu M. Mohand Boughanem qu a drgé cette thèse d une man de maître. Tout au long de ces quatre années, l a su orenter mes recherches aux bons moments, toujours dans les bonnes drectons. Malgré l élognement, l a toujours été dsponble pour prodguer des consels et des orentatons ô comben pertnentes. Pour tout cela, pour m avor offert la chance d en être là aujourd hu, pour sa confance et pour sa préceuse ade technque je le remerce du fond du coeur. Mes plus vfs remercements vont également à Mme Lynda Tamne-Lechan qu a codrgé cette thèse avec toute la grandeur et la générosté qu sont les sennes. Tout au long de ces années de thèse, malgré l élognement, avec une régularté horlogque elle a toujours été là par ses consels, par son suv mnuteux de toutes mes propostons dans le cadre de cette thèse, par ses correctons, par ses orentatons et suggestons, par de rches et longues dscussons. Et même au-delà de cet aspect scentfque, dans les plus pénbles moments de doute et de lasstude, elle a toujours été l ame qu m a adée à me relever, qu m a encouragée à persévérer. Pour tout cela, pour son ade ô comben préceuse, pour sa générosté, pour son amté qu elle trouve c l expresson de ma plus profonde reconnassance et de ma sncère amté. Je remerce les rapporteurs de cette thèse M. Mohand-Saïd Hacd et M. Erc Gausser pour la lecture et la correcton de mon manuscrt et pour l ntérêt qu ls ont porté à mon traval. Je remerce également les autres membres du jury, Mme Florence Sedes et Mme Gabrella Pas qu ont accepté de juger ce traval. Je n oublera pas de remercer le premer Responsable de l équpe SIG, M. Claude Chrsment, qu sans même me connaître, a fat confance à ceux qu m ont fat confance, à mon Drecteur de thèse en l occurrence que je remerce encore une fos, et qu m a admse au sen de son équpe, et m a offert la chance de poursuvre des études doctorales. Je remerce également M. Mustapha Bazz pour sa coopératon scentfque, pour son ade préceuse et pour sa gentllesse. Mes remercements auss à Maram Daoud, doctorante au sen de l équpe SIG, pour son ade, sa dsponblté et pour sa gentllesse exemplare.

7 Je n oublera pas les ades reçues du personnel admnstratf et du servce nformatque de l IRIT, n les sourres accuellants et la convvalté des membres de l équpe SIG. J a sûrement oublé de remercer beaucoup d autres personnes mértantes, des personnes qu m ont offert leur amté, qu m ont ouvert leur cœur, qu m ont ouvert leur porte, qu elles trouvent c l expresson de ma profonde grattude et de mon amté la plus sncère. Je tens à remercer également mes collègues et ams de l unversté de Tz-Ouzou (Algére) en les personnes de M. Samr Redaou, M. Yassne Djouad et Mme Sama Fellag grâce à qu j a pu effectuer un ultme séjour à l IRIT durant lequel j a boosté ce traval de thèse. Merc également à mes ames Malka et Soraya pour leur ade et leur souten. Merc à vous d avor été là pour mo à un moment crucal de cette thèse. Mes remercements fnaux et non les mondres vont à mon mar qu a supporté mes humeurs au gré de cette thèse, qu m a adée sur les nombreux fronts de la ve quotdenne, qu m a encouragée jusqu au bout, qu m a remplacée auprès de mes enfants les fos où j a du m absenter, qu a été mon appu tout smplement. Merc auss à vous mes enfants pour avor comprs, malgré votre jeune âge, les mpératfs de cette thèse pour mo et pour m avor adée à y arrver.

8 Résumé Ce traval de thèse adresse deux prncpaux problèmes en recherche d nformaton : (1) la formalsaton automatque des préférences utlsateur, (ou la pondératon automatque de requêtes) et (2) l ndexaton sémantque. Dans notre premère contrbuton, nous proposons une approche de recherche d nformaton (RI) flexble fondée sur l utlsaton des CP-Nets (Condtonal Preferences Networks). Le formalsme CP-Net est utlsé d une part, pour la représentaton graphque de requêtes flexbles exprmant des préférences qualtatves et d autre part pour l évaluaton flexble de la pertnence des documents. Pour l utlsateur, l'expresson de préférences qualtatves est plus smple et plus ntutve que la formulaton de pods numérques les quantfant. Cependant, un système automatsé rasonnerat plus smplement sur des pods ordnaux. Nous proposons alors une approche de pondératon automatque des requêtes par quantfcaton des CP-Nets correspondants par des valeurs d utlté. Cette quantfcaton condut à un UCP-Net qu correspond à une requête booléenne pondérée. Une utlsaton des CP-Nets est également proposée pour la représentaton des documents dans la perspectve d une évaluaton flexble des requêtes ans pondéreés. Dans notre seconde contrbuton, nous proposons une approche d ndexaton conceptuelle basée sur les CP-Nets. Nous proposons d'utlser le formalsme CP-Net comme langage d ndexaton afn de représenter les concepts et les relatons condtonnelles entre eux d'une manère relatvement compacte. Les noeuds du CP-Net sont les concepts représentatfs du contenu du document et les relatons entre ces noeuds exprment les assocatons condtonnelles qu les lent. Notre contrbuton porte sur un double aspect : d une part, nous proposons une approche d extracton des concepts en utlsant WordNet. Les concepts résultants forment les noeuds du CP-Net. D autre part, nous proposons d étendre et d utlser la technque de règles d'assocaton afn de découvrr les relatons condtonnelles entre les concepts nœuds du CP-Nets. Nous proposons enfn un mécansme d évaluaton des requêtes basé sur l apparement de graphes (les CP-Nets document et requête en l occurrence). Mots clés : Recherche d nformaton flexble, pondératon des requêtes, ndexaton sémantque, WordNet, Règles d assocaton, CP-Nets.

9

10 Table des matères Introducton générale...17 Contexte Problématque Contrbuton Publcatons dans le cadre de la thèse Organsaton du mémore PARTIE 1 De la RI classque à la RI sémantque Chaptre 1 Recherche d'nformaton Introducton La RI classque L'ndexaton Taxonome des modèles de RI Reformulaton de requêtes Concluson La RI flexble Indexaton floue des documents Formulaton de requêtes flexbles Evaluaton flexble des requêtes Evaluaton d un SRI La campagne d évaluaton TREC Autres mesures d évaluaton d un SRI Concluson Chaptre 2 Indexaton sémantque en RI Introducton Problématque L ndexaton conceptuelle L ndexaton sémantque basée sur la désambguïsaton Les approches de désambguïsaton des sens des mots (WSD) Les approches d ndexaton sémantque Concluson PARTIE 2 Modèles de RI flexbles basés sur les CP-Nets Chaptre 3 Modèle de RI flexble basé sur les CP-Nets

11 3.1 Introducton Problématque et motvatons Les CP-Nets Notatons et défntons prélmnares Le modèle CP-Net Les UCP-Nets Modèle de RI basé CP-Nets Représentaton CP-Net des requêtes préférentelles Pondératon automatque de la requête Evaluaton de la requête CP-Net Concluson Chaptre 4 Approche de RI sémantque Introducton Motvatons Les outls d ade à l ndexaton sémantque WordNet Les règles d assocaton Approche d ndexaton sémantque Aperçu général Identfcaton de concepts représentatfs du document Découverte des relatons entre concepts Constructon de l ndex conceptuel du document Illustraton Evaluaton des requêtes basée CP-Nets Défnton formelle Illustraton Évaluaton expérmentale Collecton Muchmore Protocole d évaluaton Résultats expérmentaux Concluson Concluson générale Synthèse Perspectves Valdaton expérmentale : Améloratons futures REFERENCES BIBLIOGRAPHIQUES ANNEXES Annexe A Evaluaton des technques de désambguïsaton Annexe B Les CP_Nets

12 B.1 Introducton B.2 Descrpton avancée B.2.1 Un exemple llustratf B.2.2 La sémantque du CP-Net B.2.3 Rasonner avec les CP-Nets B.2.4 Utlsaton des graphes CP-Nets Annexe C Les règles d assocaton en RI C.1 Introducton C.2 Extracton de connassances dans les bases de données (ECBD) C.2.1 Généraltés C.2.2 Le Data Mnng (DM) C.3 Extracton de connassances dans les bases de données textuelles (ECT) C.3.1 Introducton C.3.2 La foulle de texte C.3.3 Découverte de règles d assocaton C.4 CONCLUSION

13

14 Table des fgures FIGURE 1.1 : Processus en U de la RI FIGURE 1.2 : Taxonome des modèles en RI FIGURE 1.3 : Dstrbuton des documents dans une collecton face à une requête FIGURE 2.1 : Un exemple de taxonome conceptuelle FIGURE 2.2 : Exemple de vosnage du mot house FIGURE 3.1: Un exemple de CP-Net FIGURE 3.2 : Graphe de préférences ndut FIGURE 3.3 : Un exemple de UCP-Net FIGURE 3.4 : Famlle étendue de X FIGURE 3.5 : Représentaton CP-Net d une requête booléenne FIGURE 3.6 : L UCP-Net requête FIGURE 3.7 : D 1 vu comme un UCP-Net FIGURE 4.1: Sous hérarche de WordNet correspondant au concept "dog" FIGURE 4.2 : Extracton des temsets fréquents FIGURE 4.3 : Les étapes de l ndexaton conceptuelle basée CP-Nets FIGURE 4.4 : Identfcaton du context relatf d un mot dans d FIGURE 4.5 : Identfcaton des termes FIGURE 4.6 : Le CP-Net document FIGURE B.1 : Le CP-Net FIGURE B.2 : Exemple de CP-Net FIGURE B.3 : Exemple de reconfguraton du contenu FIGURE C.1 : Trells des partes assocé à I

15

16 Lste des tableaux TABLEAU 1.1 : Dstrbuton de probabltés de pertnence des termes d un corpus d apprentssage TABLEAU 3.1 : Document retourné TABLEAU 3.2 : Sous-requêtes conjonctves TABLEAU 3.3 : Pertnences partelles et totale du document D TABLEAU 4.1 : Les concepts de WordNet correspondants au mot dog TABLEAU 4.2 : Le nombre de mots et de synsets dans WordNet TABLEAU 4.3 : pseudo-code de l algorthme Apror TABLEAU 4.4 : Base transactonnelle D, avec 4 des transactons T TABLEAU 4.5 : Règles d'assocaton à 1 tem en conséquent TABLEAU 4.6 : Règles d'assocaton à 1 tem en conséquent TABLEAU 4.7 : Règles d'assocaton à 2 tems en conséquent TABLEAU 4.8 : Génératon des k-temsets fréquents TABLEAU 4.9 : Règles d assocaton générées TABLEAU 4.10 : Confances des règles TABLEAU 4.11 : Règles d assocaton sélectonnées TABLEAU 4.12 : Supports des règles d assocaton sémantques TABLEAU 4.13 : Calcul de smlarté entre les CP-Nets document et requête TABLEAU 4.14 : Résultats d évaluaton de la méthode de détecton de concepts TABLEAU 4.15 : Résultats d évaluaton de la méthode de pondératon de concepts : mpact de la méthode d ndexaton par les concepts

17

18 Introducton générale Contexte Le but prncpal d un système de recherche d nformaton (SRI) est de retrouver les documents pertnents en réponse à une requête utlsateur. Ces documents sont typquement retrournés sous forme d une lste ordonnée, où l ordre est basé sur des estmatons de pertnence. Le modèle de recherche pour un SRI ndque comment les documents et requêtes sont représentés et comment ces représentatons sont comparées pour évaluer la pertnence. Les SRI classques représentent les documents et les requêtes par les mots qu'ls contennent, et basent souvent cette comparason sur le nombre de mots qu ls ont en commun, c est l apparement lexcal. Dans cette approche, des documents pertnents, ne partageant pas de mots avec la requête ne sont pas retrouvés. Tands que des documents non pertnents, contenant des mots de la requête sont retournés à l utlsateur. Ces problèmes sont dus au fat que l apparement lexcal ne tent pas compte des sens des mots du document et de la requête. L ndexaton sémantque tente de paller ces problèmes en offrant le moyen de dstnguer ces sens, et de les utlser lors du processus d apparement. Notre traval s nscrt prncpalement dans ce contexte. En partculer, nous proposons une approche de RI sémantque basée sur l ndexaton des documents et requêtes, par les sens des mots plutôt que par les mots euxmêmes. L approche offre en outre le moyen de prendre en compte les préférences utlsateur sur les crtères de recherche, et d évaluer la pertnence d un document pour une requête en tenant compte de ces préférences. Problématque Dans les SRI classques, l évaluaton de la pertnence d un document pour une requête est basée sur la mesure de correspondance du document pour la requête. Plus la requête et le document ont de mots en commun, plus le document est consdéré comme étant pertnent. Ces systèmes présentent des nsuffsances à dfférents nveaux : au nveau du langage de requête, de la représentaton des documents et requêtes et de l apparement. 17

19 INTRODUCTION GENERALE Au nveau du langage de requêtes : une requête tradut le beson en nformaton de l utlsateur mas auss ses préférences sur les nformatons recherchées. La pondératon des termes de la requête par des pods numérques [Buell et al., 81; Bordogna et al., 91; Pas, 99] a perms d exprmer les préférences utlsateur sur les crtères de recherche. Cependant, les pods numérques des requêtes forcent l'utlsateur à quantfer le concept qualtatf et vague d'mportance. Cette tâche n est pas smple, en partculer s la requête exprme des préférences condtonnelles. D une part, car l n exste pas une bonne méthode pour pondérer correctement les termes de la requête, d autre part, lorsque le nombre de valeurs sur lesquelles portent les préférences est élevé, l est quasment mpossble d'énumérer un pods valde pour tous les termes de la requête. Ces problèmes sont d autant plus accrus que la requête exprme des préférences condtonnelles. Même s ce type de préférences n est pas spécfquement prs en charge par les SRI, l est toujours possble de les tradure en expressons booléennes. Cependant, une pondératon aléatore ou ntutve de telles requêtes préférentelles, peut condure à des énoncés qu sont complètement contradctores avec la sémantque qu elles tentent d exprmer. De ce fat, pour paller les dffcultés de la pondératon numérques des requêtes, des travaux se sont orentés vers l'utlsaton de préférences qualtatves plus smples et plus ntutves, formulées à partr de termes lngustques tels que : mportant, très mportant [Bordogna et al., 93; Bordogna et al., 95]. Cependant, le problème de la défnton des pods numérques des termes est reporté sur la défnton de la sémantque du concept flou mportant et des modulateurs lngustques très, peu, moyennement Au nveau de la représentaton des documents et requêtes, et de l apparement correspondant : dans les SRI classques, documents et requêtes sont représentés comme des lstes de mots clés, généralement pondérés. L apparement document-requête est lexcal et se base sur la présence ou l absence d un mot de la requête dans le document. Or l est ben connu que les mots de la langue sont ambgus. Un même mot peut désgner dfférents concepts (et donc exprmer dfférents sens) et dfférents mots peuvent avor une même sgnfcaton. L apparement lexcal ne consdère pas ces aspects. De ce fat, des documents pourtant pertnents, contenant des mots sémantquement équvalents mas lexcalement dfférents (synonymes) des mots de la requête, ne seront pas retrouvés. Par alleurs, des documents non pertnents, contenant des mots lexcalement dentques mas sémantquement dfférents (homonymes) des termes de la requête seront retournés à l utlsateur. L'ndexaton sémantque (ou ndexaton par les sens des mots) tente de paller les problèmes de l'apparement lexcal en utlsant pour la recherche, des ndex conceptuels ou sémantques au leu de smples mots clés. De tels ndex portent sur la sémantque des mots. Ils sont construts à partr (1) des concepts explctes des textes eux-mêmes (ndexaton conceptuelle), (2) de la sémantque latente des textes des documents (ndexaton par sémantque latente LSI [Deerwester et al., 90]), ou (3) extrats de la sémantque explcte des mots telle que défne dans les dctonnares, thésaurus ou ontologes (ndexaton sémantque). L approche d ndexaton par la sémantque latente résout les sens des mots par un clusterng des mots 18

20 INTRODUCTION GENERALE sémantquement proches va une technque de réducton de la dmensonnalté de la matrce termes-documents. L ndexaton conceptuelle tente à partr d une taxonome conceptuelle extrate du texte, de construre sa sémantque. Les lens entre les dfférents concepts d une telle taxonome sont des lens fonctonnels entre enttés lexcales. L ndexaton sémantque tente de retrouver, parm les dfférents sens possbles d un mot tels que défns dans les dctonnares, ontologes et autres ressources lngustques, le sens correct du mot dans le texte à ndexer. Les mots d un texte donné défnssent mplctement une sémantque orentée sujet (topc), du texte correspondant. Le sujet prncpal du document est porté par les termes les plus mportants. Des sujets connexes secondares sont portés par des termes mons mportants, qu s agencent dans le document en foncton de la sémantque même du topc du texte. Cet agencement des mots (et surtout des sens) dans le texte des documents défnt une dmenson sémantque du document orentée topc. Or, les approches d ndexaton sémantque classques gnorent cette dmenson. Nous nous sommes ntéressés aux problèmes partculers posés par la pondératon des termes de la requête, la représentaton basée mots-clés des documents et requêtes et l apparement lexcal, et avons proposé des technques et méthodes pour tenter d y reméder. Notre contrbuton globale consste en la défnton de deux nouvelles approches de recherche d nformaton (RI) flexble basées sur les CP-Nets. Chacune des deux approches proposées focalse sur les tros aspects d un SRI : la représentaton des documents (ndexaton), le langage de requêtes et l évaluaton. Contrbuton Notre premère contrbuton consste en un nouveau modèle de RI flexble basé sur les CP- Nets. Dans ce modèle, nous avons : 1. ntrodut un nouveau langage de requêtes exprmant les préférences qualtatves de l utlsateur. La spécfcté de ce langage concerne la prse en charge ntutve des préférences condtonnelles. Pour cela, nous explotons les CP-Nets pour la représentaton de telles requêtes préférentelles condtonnelles. 2. proposé un algorthme pour la pondératon automatque de requêtes qualtatves. L algorthme se base sur le formalsme UCP- Net, extenson des CP-Nets par des valeurs numérques de préférences (dtes valeurs d utltés). L'utlsateur est ans déchargé de cette lourde et non mons mprobable tâche, et les pods produts sont certfés corrects pusque basés sur les fondements théorques des UCP-Nets. 19

21 INTRODUCTION GENERALE 3. défn une approche de représentaton des documents par des CP-Nets. L approche est basée sur la projecton des documents sur chaque requête soumse. Le document est alors représenté par un CP-Net de même topologe que celu de la requête, facltant ans l évaluaton de la pertnence 4. proposé une approche d évaluaton des requêtes basée sur le paradgme booléen. Nous explotons pour cela l nterprétaton des CP-Nets dans le formalsme booléen, pus l évaluaton de la requête booléenne obtenue, au moyen de l opérateur d agrégaton du mnmum pondéré [ Dubos et al., 86; Yager, 87]. Notre seconde contrbuton se rapporte à la RI sémantque. Cette approche est proposée comme améloraton de notre premère contrbuton, au nveau de la représentaton des documents et au nveau de l évaluaton. En partculer, le modèle de RI proposé s affrancht d une part des lmtes de la représentaton basées mots-clés en proposant une approche d ndexaton sémantque, d autre part des lmtes de l apparement lexcal et du paradgme booléen en proposant un apparement entre représentatons sémantques des documents et requêtes. En partculer: 1. notre approche d ndexaton sémantque a pour objectf d amélorer la représentaton des documents, en se basant sur les sens des mots dans les textes correspondants, et sur les lens entre ces sens dans le texte du document consdéré. Notre approche est fondée sur deux étapes prncpales : une premère étape d extracton des sens des termes d ndexaton et une seconde étape de découverte des relatons entre ces sens. La premère étape se base sur l utlsaton de l ontologe lngustque WordNet pour dentfer, pondérer et désambguïser les sens des termes d ndexaton. La seconde étape est fondée sur l utlsaton des règles d'assocaton pour dérver des relatons de dépendance contextuelle entre les concepts menant à une représentaton plus expressve des documents. Le prncpe même de l approche n'est pas nouveau mas nous avons proposé : une nouvelle technque pour dentfer les termes d ndexaton (smples ou composés) par projecton sur l ontologe WordNet, une nouvelle approche de pondératon des termes d ndexaton tenant compte de la sémantque des termes, une approche de désambguïsaton des sens des mots basée sur la noton de dstance sémantque et tenant compte de l mportance du mot dans le texte, une nouvelle technque pour découvrr des relatons entre les concepts correspondants au moyen des règles d'assocaton sémantques proposées. Les règles d'assocaton sémantques permettent de découvrr des relatons contextuelles entre les concepts amenant à une représentaton plus expressve du document. 20

22 INTRODUCTION GENERALE 2. Notre approche d évaluaton des requêtes a pour objectf d évaluer la pertnence des documents et des requêtes représentés par des graphes CP-Nets. La requête CP-Net dérve de notre approche proposée en premère contrbuton. Tands qu un CP-Net document est construt à partr de l ndex conceptuel du document, ssu de l étape d ndexaton sémantque présentée en (1), en organsant l ensemble formé des concepts représentatfs du document d une part et des assocatons correspondantes d autre part, en un graphe condtonnel, le CP- Net document. L approche d évaluaton proposée calcule alors la pertnence d un document pour une requête donnée sur la base d'une mesure proposée de smlarté des graphes CP-Nets correspondants. L ensemble des technques ans défnes consttue alors la base théorque de notre modèle de RI sémantque basée sur les CP-Nets. 3. La valdaton expérmentale de notre approche concerne prncpalement deux aspects : la valdaton de l approche de détecton de concepts la valdaton de l approche de pondératon la valdaton du modèle de RI basé sur les CP-Nets la valdaton de l approche d ndexaton sémantque dont : - valdaton de l approche de désambguïsaton - valdaton de l approche d extracton des règles d assocaton sémantques La valdaton expérmentale de notre modèle de RI proposé dans notre premère contrbuton, nécesste l utlsaton d un cadre d évaluaton supportant des requêtes CP-Nets. Un tel envronnement est à notre connassance nexstant. Sa constructon relève d un traval de recherche à part entère, qu ndépendamment du modèle proposé peut servr de base à la prse en compte des préférences condtonnelles dans le processus de RI. Nous avons par alleurs testé notre approche d ndexaton sémantque. Les résultats expérmentaux obtenus ont montré l ntérêt d une ndexaton sémantque par les concepts de WordNet. Nous n avons cependant pas expérmenté le modèle dans sa totalté. En partculer, la technque de découverte des règles d assocaton sémantques n a pas été expérmentée. Publcatons dans le cadre de la thèse 1. Dans le cadre de notre proposton d un modèle de RI flexble basé sur les CP-Nets 1. Fatha Boubekeur, Lynda Tamne. Recherche d Informaton flexble basée CP-Nets. Dans : Conférence francophone en Recherche d'informaton et Applcatons (CORIA 2006), Lyon, 15/03/06-17/03/06, 21

23 INTRODUCTION GENERALE Assocaton Francophone de Recherche d'informaton et Applcatons (ARIA), p , mars Fatha Boubekeur, Mohand Boughanem, Lynda Tamne. Towards Flexble Informaton Retreval Based on CP-Nets. Dans : Flexble Query Answerng (FQAS 2006), Mlan, Itale, 07/01/06-10/06/06, Henrk Legnd Larsen, Gabrella Pas, Danel Ortz-Arroyo (Eds.), World Scentfc Publshng, Advances n Artfcal Intellgence, p , jun Lynda Tamne, Fatha Boubekeur, Mohand Boughanem. On Usng Graphcal Models for Supportng Context-Aware Informaton Retreval. Dans : Internatonal Conference on the Theory of Informaton Retreval (ICTIR 2007), Budapest (Hungary), 18/10/07-20/10/07, Foundaton for Informaton Socety, p , octobre Dans le cadre de notre proposton de modèle de RI sémantque basé sur les CP-Nets Fatha Boubekeur, Mohand Boughanem, Lynda Tamne. Semantc Informaton Retreval Based on CP-Nets. Dans : IEEE Internatonal Conference on Fuzzy Systems (FUZZ-IEEE 2007), London, 23/07/07-26/07/07, IEEE, (support électronque), jullet Fatha Boubekeur, Mohand Boughanem, Lynda Tamne. Une approche d ndexton conceptuelle de documents basée sur les graphes CP_Nets. Dans: cnquème édton du colloque sur l optmsaton et les systèmes d nformaton COSI 08, 8-10 jun 08, Tz-Ouzou, Algére. 6. Fatha Boubekeur, Mohand Boughanem, Lynda Tamne. Explotng assocaton rules and ontology for semantc document ndexng. Dans: 12th Internatonal conference IPMU08, Informaton Processng and Management of Uncertanty n knowledge-based Systems, Malaga, 22-27, june 08, Span. Organsaton du mémore Ce mémore est organsé en deux partes prncpales. La premère parte, composée de deux chaptres, est dédée à la présentaton de la RI classque (chaptre 1) et de l ndexaton sémantque (chaptre 2). La seconde parte présente nos contrbutons. Elle est dvsée en deux 22

24 INTRODUCTION GENERALE chaptres 3 et 4, dédés respectvement à la présentaton de notre modèle de RI flexble et de notre modèle de RI sémantque basés sur les CP-Nets. Le détal de cette organsaton est donné comme sut : Dans le chaptre 1, nous présentons les dfférents aspects lés à la RI et aux SRI. Nous nous attacherons en partculer à défnr les modèles de recherche tant classques (booléen, vectorel et probablste) que des modèles plus flexbles (extensons floues du modèle booléen). L ndexaton automatque est auss explctée ans que les mécansmes de raffnement des requêtes. Enfn, nous rappellerons les mesures d évaluaton courantes d un SRI et présenterons les technques d évaluaton des SRI mses en œuvre dans le cadre des campagnes d évaluaton. Le chaptre 2 sera dédé à la présentaton des approches d ndexaton sémantque des documents. L objectf de telles approches est d ndexer les documents par les sens des mots ou par les concepts, plutôt que par les mots eux-mêmes. Le but est de paller les problèmes d apparement lexcal des SRI classques et pouvor ans trater avec l ambguïté naturelle de la langue. L approche d ndexaton basée sur les concepts (ndexaton conceptuelle) est présentée en secton 2.2. Les approches d ndexaton basées sur les sens des mots (ndexaton sémantque) sont présentées en secton 2.3. Ces dernères s appuent sur des technques lngustques de désambguïsaton des sens des mots. Nous dédons alors la secton à la présentaton des travaux en désambguïsaton lngustque avant de présenter l état de l art sur l ndexaton sémantque en secton En chaptre 3, nous présentons notre premère contrbuton à la défnton d un modèle de RI flexble basé sur les CP-Nets. Le chaptre s artcule autour de tros sectons. La secton 3.1 présente nos motvatons. En secton 3.2, nous présentons le formalsme CP-Net sur lequel se basent nos modèles. La secton 3.3 présente notre modèle de RI basé sur les CP-Nets. En partculer, nous y défnssons (1) notre approche de pondératon automatque de requêtes qualtatves, (2) la technque de représentaton CP-Net des documents et (3) notre méthode d évaluaton des requêtes CP-Nets. Le chaptre 4, présente notre seconde contrbuton à travers un nouveau modèle de RI sémantque basé sur les CP-Nets. Le chaptre s artcule autour de 4 sectons. En secton 4.2, nous présentons les motvatons qu ont été à l orgne de nos propostons. En secton 4.3, nous présentons les outls sur lesquels est basée notre approche d ndexaton sémantque, à savor WordNet et les règles d assocaton. Les fondements théorques de notre approche d ndexaton sémantque, un exemple llustratf ans que quelques résultats expérmentaux sont donnés en secton 4.4. La secton 4.5 présente notre approche d évaluaton des requêtes CP-Nets. Quelques résultats expérmentaux sont donnés en secton 4.6. Enfn, en concluson générale, nous présentons les perspectves de nos présentes propostons. 23

25

26 PARTIE 1 De la RI classque à la RI sémantque

27

28 Chaptre 1 Recherche d nformaton 1.1 Introducton La recherche d nformaton (RI) trate de la représentaton, du stockage, de l organsaton et de l accès à l nformaton. Le but d'un système SRI est de retrouver, parm une collecton de documents préalablement stockés, les documents qu répondent au beson utlsateur exprmé sous forme de requête. Pour cela, un SRI met en oeuvre un ensemble de processus de sélecton des documents pertnents pour la requête. Le but de ce chaptre est de présenter les concepts de base de la RI. Dans une premère parte, nous nous ntéressons aux approches de RI classque, pus nous présentons les approches de RI basées sur la logque floue. Ce chaptre est organsé comme sut : en secton 1.2, nous présentons les concepts de base de la RI classque. Nous y décrvons notamment le processus d ndexaton en paragraphe 1.2.1, pus la taxonome de modèles en paragraphe Les technques de reformulaton des requêtes sont présentées en paragraphe Le paragraphe présente les outls et méthodes d évaluaton d un SRI. En secton 1.3, nous présentons les approches de RI flexble. 1.2 La RI classque De manère générale, la recherche dans un SRI consste à comparer la représentaton nterne de la requête aux représentatons nternes des documents de la collecton. La requête est formulée, par l utlsateur, dans un langage de requêtes qu peut être le langage naturel, un langage à base de mots clés ou le langage booléen. Elle sera transformée en une représentaton nterne équvalente, lors d un processus d nterprétaton. Un processus smlare, dt ndexaton, permet de construre la représentaton nterne des documents de la base documentare. Le processus de recherche consste alors à mettre 27

29 CHAPITRE 1. RECHERCHE D INFORMATION en correspondance et à calculer le degré d apparement des représentatons nternes des documents et de la requête. Les documents qu correspondent au meux à la requête, ou documents dts pertnents, sont alors retournés à l utlsateur, dans une lste ordonnée par ordre décrossant de degré de pertnence lorsque le système le permet. Afn d amélorer les résultats de la recherche, le système peut être doté d un mécansme d améloraton et de raffnement de la requête par reformulaton. Le fonctonnement général d'un SRI est donnée au travers du processus de recherche communément appelé processus en U [Belkn et al., 92], présenté en fgure 1.1. Ce processus fat ressortr tros mécansmes de base : le processus d ndexaton (quelques fos dt processus d nterprétaton pour les requêtes), le processus de recherche et le processus de reformulaton des requêtes. Nous les détallons dans les paragraphes suvants. FIGURE 1.1 : Processus en U de la RI L'ndexaton L'ndexaton est une phase très mportante pour un SRI car de sa qualté dépend la qualté des réponses du système et donc les performances de ce derner. Une bonne ndexaton dot permettre de retrouver tous les documents pertnents au beson de l'utlsateur et pas (ou peu) de documents non pertnents pour celu-c. 28

30 CHAPITRE 1. RECHERCHE D INFORMATION En phase d'ndexaton, le document (ou la requête) est analysé(e) et les mots clés caractérsant son contenu nformatonnel, sont extrats. Un mot clé peut-être sot un mot smple ou un groupe de mots. Les mots-clés descrptfs du contenu sémantque d'un document sont dts termes d'ndexaton. L ensemble de tous les termes d'ndexaton consttue le langage d'ndexaton. Ce langage peut être lbre ou contrôlé. Un langage ndexaton lbre est construt à partr des termes extrats du document analysé. Un langage d ndexaton contrôlé est construt à partr d un ensemble de termes préalablement défns et organsés généralement dans un thésaurus. Lorsqu'un document est analysé, on ne garde que les mots clés qu appartennent à ce thésaurus Approches d ndexaton Technquement, l'ndexaton peut-être manuelle, automatque ou sem-automatque [Salton, 88; Salton et al., 88]. En ndexaton manuelle, c'est un opérateur human, généralement expert du domane, qu se charge de caractérser, selon ses connassances propres, le contenu sémantque d'un document. Cette approche présente deux nconvénents : 1. elle est subjectve, pusque le chox des termes d'ndexaton dépend de l'ndexeur et de ses connassances du domane, 2. elle est pratquement napplcable aux corpus de textes volumneux. Néanmons, tel que rapporté dans [Savoy, 05], elle est plus performante que l'ndexaton automatque en termes de précson moyenne des documents retrouvés en réponse à une requête utlsateur donnée. En ndexaton automatque [Luhn, 57; Maron, 60; Salton, 68], c'est un processus complètement automatsé qu se charge d'extrare les termes caractérstques du document. L'ntérêt d'une telle approche résde dans sa capacté à trater les textes nettement plus rapdement que l'approche précédente, et de ce fat, elle est partculèrement adaptée aux corpus volumneux. L'ndexaton automatque est l approche la plus étudée en RI, nous la détallons en secton suvante. L ndexaton sem-automatque [Manez et al., 91; Balpe et al., 95; Jacquemn et al., 02], appelée auss ndexaton supervsée, est une combnason des deux approches d ndexaton précédentes. Dans ce cas, les ndexeurs utlsent un vocabulare contrôlé sous forme de thésaurus ou de base termnologque. Le chox fnal des termes d ndexaton à partr du vocabulare fourn, est lassé ans à l ndexeur human (généralement spécalste du domane). 29

31 CHAPITRE 1. RECHERCHE D INFORMATION Dans la secton suvante, nous nous ntéressons partculèrement à l approche d ndexaton automatque, plus répandue, pusque c est celle qu nous ntéresse dans le cadre de notre traval L ndexaton automatque L'ndexaton automatque classque est fondée sur l'analyse des documents en vue de l'extracton des termes (mots-clés smples ou composés) représentatfs de leur contenu nformatonnel. Elle repose sur les étapes suvantes : l'extracton des termes d'ndexaton, la réducton du langage d ndexaton et la pondératon des termes d'ndexaton. 1. L'extracton des termes d ndexaton repose sur une analyse lngustque du texte du document. Pluseurs nveaux d analyse peuvent être dstngués : le nveau lexcal, syntaxque et sémantque. - En analyse lexcale, les mots composant le texte sont extrats et les mots vdes (prépostons, pronoms personnels, ) élmnés. Une étape supplémentare peut être nécessare en vue d'élmner les varantes morphologques (genre, nombre, dérvatons,...) des mots. Le tratement assocé repose sur deux procédures : la lemmatsaton et la troncature (ou racnsaton). La racnsaton consste à supprmer le suffxe (et plus rarement le préfxe) des mots sgnfcatfs du texte ndexé. La lemmatsaton (stemmng en anglas) a pour objectf de prendre la forme canonque du mot. Des expérences ont montré que la racnsaton et la lemmatsaton amélorent sgnfcatvement les performances pour les langues rches morphologquement (ex. le franças, l talen, etc.) [Gausser et al., 1997; Gausser et al., 2000]. - En analyse syntaxque, l s'agt de repérer les groupes de mots ou des mots composés [Fagan, 87; Salton, 88]. L'utlsaton des termes composés dot permettre d'augmenter la précson de réponse dans la mesure où le crtère possède une sgnfcaton plus précse et un usage plus restrent (plus spécfque) que les mots qu le composent. Les approches d analyse syntaxque se basent en général sur l'utlsaton de patrons (templates) syntaxques [Bourgault, 96; Aussenac-Glles et al., 00; Jacquemn, 01; Jones et al., 02] pour détecter les termes composés. - L'analyse sémantque s'ntéresse à reconnaître les sens des mots, les mots synonymes, les concepts représentatfs de ces mots, et plus généralement les relatons sémantques entre les mots. Le chaptre 2 sera dédé à cette dernère approche (.e. l ndexaton sémantque) pusque c'est celle qu nous ntéresse dans le cadre de notre traval de thèse. 30

32 CHAPITRE 1. RECHERCHE D INFORMATION La réducton du langage d ndexaton vse à rédure le nombre de termes d ndexaton en élmnant tous les mots non mportants (mots rares ou mots trop fréquents) du langage d ndexaton. Pour mesurer l'mportance d'un mot dans un document, l'ndexaton s appue sur la fréquence d'occurrence de ce mot dans le document. Les mots de fréquences quas nulles et les mots à fréquences trop élevées peuvent être élmnés de l'ndex. Cette hypothèse tre ses orgnes de la conjecture de Luhn [Luhn, 58] qu, pratquement, défnt un seul de fréquence mnmal S mn et un seul de fréquence maxmal S max tels que, tout terme d ndexaton t de fréquence ntermédare ( Smn freq( t) Smax ), est consdéré comme sgnfcatf et appartent donc au langage d ndexaton. La pondératon des termes d ndexaton consste à assocer un pods d mportance (ou valeur de représentatvté) w j à chaque terme t j d un document d. De manère générale, les formules de pondératon utlsées sont basées sur la combnason d un facteur de pondératon local quantfant la représentatvté locale du terme dans le document, et d un facteur de pondératon global quantfant la représentatvté globale du terme vs-à-vs de la collecton de documents. Pluseurs formules exstent, dont : tf j 1 w j = = tf j = tf j df df df j j j [Salton et al., 73] Où : tf j est la fréquence d occurrences du terme t j dans le document d. df j est la fréquence documentare du terme t j (.e. la proporton de documents de la collecton qu contennent t j ) et df j sa fréquence documentare nverse. La mesure tf* df est une bonne approxmaton de l'mportance d'un terme dans un document, partculèrement dans des corpus de documents de talles ntermédares. Pour des documents plus longs des normalsatons ont été proposées, dont : - La normalsaton pvotée de Snghal [Snghal et al., 96] Où : w j = 1+ ( 1 slope) tf j * df slope * * pvot j ( tf j * df j ) tf j est le nombre d occurrences du terme t j dans l unté documentare d df j est la fréquence documentare nverse défne classquement par : log(n/n j ) tel que n est le nombre de documents de la collecton et N j le nombre de documents ndexés par le terme t j. j 2 31

33 CHAPITRE 1. RECHERCHE D INFORMATION pvot est une constante qu représente l écart nul entre la probablté de pertnence et la probablté de sélecton des documents. slope est un facteur de normalsaton fxé emprquement, de sorte à mnmser l écart entre la pertnence et la sélecton. La formule de Robertson [Robertson et al., 97] w j = K 1 tf j * ( K + 1) dl l ( 1 b) + b * + tf j Où : w j est le pods du terme t j dans le document d. K 1 constante qu permet de contrôler l nfluence de la fréquence du terme t j dans le document d. Sa valeur dépend de la longueur des documents dans la collecton. Le plus souvent, sa valeur est fxée à 1,2. b constante qu permet de contrôler l effet de la longueur du document. Sa valeur la plus souvent utlsée est : 0,75. dl est la longueur du document d. l est la longueur moyenne des documents dans la collecton entère Taxonome des modèles de RI S c est l ndexaton qu permet de détermner les termes représentatfs des documents et requêtes, c est le modèle qu assure leur nterprétaton dans un formalsme de représentaton propre et qu offre le mécansme de leur apparement en vue de calculer les degrés de pertnence des documents pour les requêtes. La fgure 1.2 présente une classfcaton des dfférents modèles de RI [Baeza-Yates et al., 99]. Les modèles de RI se déclnent en tros grandes catégores qu sont les modèles booléens, les modèles vectorels et les modèles probablstes. Les modèles vectorels sont des modèles algébrques. Les documents et requêtes sont représentés par des vecteurs de pods dans un espace vectorel composé de tous les termes d ndexaton. La pertnence d'un document vs à vs d'une requête est défne par des mesures de dstances entre vecteurs. Pluseurs modèles proposés en RI se basent sur le modèle vectorel, dont : le modèle connexonnste et le modèle LSI (Latent Semantc Indexng). Les modèles probablstes s'appuent sur la théore des probabltés. La pertnence d'un document vs à vs d'une requête est vue comme une probablté de pertnence document/requête. Les modèles de RI basés sur le modèle probablste sont le modèle BIR (Bnary Independance retreval), le modèle nférentel Bayésen et le 1 32

34 CHAPITRE 1. RECHERCHE D INFORMATION modèle de langue. Dans ce qu sut, nous décrvons pour chacune de ces classes, le modèle de base et quelques modèles assocés. FIGURE 1.2 : Taxonome des modèles en RI Les modèles booléens Le modèle booléen de base Dans ce modèle, basé sur la théore des ensembles, le document est représenté par un ensemble de termes. La requête est représentée par un ensemble de mots clés relés par des opérateurs booléens (AND, OR et NOT). L apparement requête-document est strct et se base sur des opératons ensemblstes selon les règles suvantes : RSV RSV RSV RSV ( d, t ) = 1 s t d, snon ( d, t AND t j ) = 1 s ( t d ) ( t j d ), ( d, t OR t ) = 1 s ( t d ) ( t d ), ( d, NOT t ) = 1 s t d, 0 snon. j 0 j 0 snon 0 snon Ben que ce modèle sot smple à mettre en oeuvre, l présente néanmons tros nconvénents majeurs : l'apparement est strct et ne permet de classer les documents que dans deux catégores, l ensemble des documents pertnents et l ensemble des documents non pertnents, dont les éléments ne sont pas ordonnables, tous les termes d un document ou d'une requête sont d égales mportances (pondérés à 0 ou 1), ce qu n est pas le cas en réalté, 33

35 CHAPITRE 1. RECHERCHE D INFORMATION les expressons booléennes ne sont pas accessbles à un large publc et des confusons exstent du fat de la dfférence de «sens» des opérateurs logques AND et OR et de leurs connotatons respectves en langage naturel. Le modèle booléen étendu et modèle basé sur les ensembles flous dérvent du modèle booléen Modèle booléen étendu Le modèle booléen étendu a été ntrodut par Salton [Salton et al., 1983]. C est une extenson du modèle précédent qu vse à tenr compte d une pondératon des termes dans le corpus. Cela permet de paller les problèmes du modèle de base en ordonnant les documents retrouvés par le SRI. La requête demeure une expresson booléenne classque. Tands que les termes d un document sont mantenant pondérés. En général le pods d un terme dans un document est foncton du nombre d occurrences de ce terme dans le document. L apparement requête_document est le plus souvent détermné par les relatons ntrodutes dans le modèle p-norm basées sur les les p-dstances, avec 1 p. La valeur de p est ndquée au moment de la requête. S m est le nombre de termes dans la requête, les fonctons de smlarté se calculent comme sut : RSV RSV ( d, Q ) ou ( d, Q ) et p p x1 + x2 + K+ x = m = 1 S p = 1, on se ramène au modèle booléen Les modèles vectorels Le modèle vectorel de base p m 1 p p p p p ( 1 x ) + ( 1 x ) + K+ ( 1 x ) 1 Dans ce modèle, un document est représenté sous forme d un vecteur dans l espace vectorel composé de tous les termes d ndexaton. Les coordonnées d un vecteur document représentent les pods des termes correspondants. Formellement, un document d est représenté par un vecteur de dmenson n, d = (w 1, w 2,..., w n ) pour = 1, 2,, m. Où w j est le pods du terme t j dans le document d, m est le nombre de documents dans la collecton, n est le nombre de termes d ndexaton. 2 m m 1 34

36 CHAPITRE 1. RECHERCHE D INFORMATION Une requête Q est auss représentée par un vecteur de mots-clés défn dans le même espace vectorel que le document. Q = (w Q1, w Q2,..., w Qn ) Où w Qj est le pods de terme t j dans la requête Q. Ce pods peut être sot une forme de tf*df, sot un pods attrbué manuellement par l utlsateur. La pertnence du document d pour la requête Q est mesurée comme le degré de corrélaton des vecteurs correspondants. Cette corrélaton peut être exprmée par l une des mesures suvantes : Le produt scalare : n Sm d, Q = w * w ( ) Sm d, Q La mesure du cosnus: ( ) 1/ 2 1/ 2 La mesure de Dce : Sm( d, Q) La mesure de Jacard : Sm( d, Q) j= 1 = n j= 1 Qj w n 2 Qj n j= 1 2 * w j w Qj j j= 1 = n 2 wqj n j= 1 j= 1 = n * w * * w Qj + w n j= 1 n w 2 j n j j= 1 w Qj 2 j 2 2 wqj + wj j= 1 j= 1 j= 1 j * w n w j * w Qj Le coeffcent de superposton : Sm( d, Q) = mn n j= 1 n n 2 wqj, j= 1 j= 1 w j * w Qj w 2 j L un des avantages du modèle vectorel résde dans sa smplcté conceptuelle et de mse en oeuvre. En outre, l permet de trer les résultats d une recherche à travers une mesure de smlarté document/requête, en plaçant en tête les documents jugés les plus smlares à la requête. Cependant, ce modèle ne permet pas de modélser les assocatons entre les termes 35

37 CHAPITRE 1. RECHERCHE D INFORMATION d ndexaton. Chacun des termes est consdéré comme ndépendant des autres. Le modèle vectorel généralsé (Generalzed Vector Space Model) [Wong et al, 1985] permet cependant de résoudre le problème d ndépendance des termes Le modèle connexonnste Les SRI basés sur l'approche connexonnste utlsent le fondement des réseaux de neurones, tant pour la modélsaton des untés textuelles que pour la mse en œuvre du processus de RI. L dée de base est que la RI est un processus assocatf qu peut être représenté par les mécansmes de propagaton d actvaton des réseaux de neurones. De plus, les capactés d apprentssage de ces modèles peuvent permettre d obtenr des SRI adaptatfs. Deux modèles théorques ont été utlsés : les modèles à auto-organsaton et les modèles à couches. Les modèles à auto-organsaton [Ln et al., 91] permettent à partr de la descrpton des documents, d en réalser une classfcaton par l apprentssage du réseau de neurones. Ces modèles sont basés sur les cartes auto-organsatrces de Kohonen [Kohonen, 89]. Les modèles à couches : Les SRI basés sur un modèle connexonnste à couches [Kwok, 89; Belew, 89; Boughanem, 92a-b; Mothe, 94] sont représentés par un mnmum de tros couches de neurones nterconnectées : la couche requête (Q), la couche termes (T) et la couche documents (D). Le mécansme de recherche est basé sur une actvaton ntale des neurones termes ndute par une requête, et qu se propage vers les documents à travers les connexons du réseau. Dans le modèle MERCURE [Boughanem, 92], une requête Q est représentée par un vecteur de pods sous forme : Q = ( t) u ( t) ( t) ( t) ( q, q,..., q ) u1 Les pods des termes dans la requête sont affectés aux lens requête-termes. L'actvté ntale du réseau correspond à l'actvaton d'un nœud requête en envoyant un sgnal de valeur 1 à travers les lens requête-termes. Chaque neurone terme t j affecté par la requête, reçot une entrée In(t j ) et fournt une sorte Out(t j ) respectvement défnes par : u2 ( t) ( t ) = q Out( t ) g( In( t ) In = j uj Un document d qu a des termes t j en commun avec la requête recevra une entrée In(d) et calculera sa sorte Out(d) telles que : j ut j 36

38 CHAPITRE 1. RECHERCHE D INFORMATION T ( d ) Out( t )* w Out( d ) g In( d ) In = j j = =1 Où w j est le pods du terme t j dans le document d. ( ) Les valeurs de sorte des dfférents documents correspondent à leurs degrés de pertnence pour la requête donnée Modèle d ndexaton sémantque latente (LSI) L objectf du modèle LSI est de construre des ndex conceptuels portant sur la sémantque des mots dans les documents. Ces ndex sont trés à partr de la structure sémantque latente des textes des documents. Pour ce fare, partant de l espace vectorel de tous les termes d ndexaton, le modèle LSI construt un espace d ndexaton de talle rédute k, par applcaton de la décomposton en valeurs sngulères (SVD) de la matrce termes-documents [Deerwester et al., 90]. Ces k dmensons capturent une parte mportante de la structure sémantque des documents [Berry et al., 94 ] portée par les assocatons des termes et documents, et élmnent le brut dû à la varablté dans l'usage des mots. Chaque vecteur document est au fnal représenté dans l'espace k-dmensonnel rédut des termes non brutés. Les documents qu partagent des termes co-occurrents ont des représentatons proches. La requête utlsateur est auss représentée par un vecteur dans l'espace k-dmensonnel. Une mesure de smlarté est ensute calculée entre le k-vecteur requête et chacun des k-vecteurs documents de la collecton. A l ssue de la recherche, le système sélectonne les documents pertnents même s ls ne contennent aucun mot de la requête Les modèles probablstes Le modèle probablste de base Le premer modèle probablste a été proposé par Maron et Kuhns [Maron et al., 60] au début des années 60. Le prncpe de base consste à présenter les résultats d un SRI dans un ordre basé sur la probablté de pertnence d un document vs-à-vs d une requête. Robertson [Robertson, 77] défnt son modèle PRP (Probablty Rankng Prncple), sur ce même prncpe. Etant donné une requête utlsateur notée Q et un document d, le modèle probablste tente d estmer la probablté que le document d appartenne à la classe des documents pertnents (non pertnents). Un document est alors sélectonné s la probablté qu l sot pertnent à Q, notée P(R/d), est supéreure à la probablté qu l sot non pertnent à Q, notée P(NR/d). Le score d apparement entre le document d et la requête Q, noté RSV (d,q), est donné par [Robertson, 94b]: 37

39 RSV CHAPITRE 1. RECHERCHE D INFORMATION P, = P ( d Q) ( R / d ) ( NR / d ) Ce qu donne, d après le théorème de Bayes et après smplfcaton : RSV ( d Q) ( R / d ) ( NR / d ) P, = P ( d / R) ( d / NR) tel que P(d/R) (respectvement P(d/NR)) est la probablté que le document appartenne à l ensemble R des documents pertnents (respectvement à l ensemble NR des documents non pertnents). Dfférentes méthodes sont utlsées pour estmer ces dfférentes probabltés. Nous décrvons partculèrement le modèle d ndépendance bnare, connu sous le modèle BIR (Bnary Independance Retreval). On consdère dans ce modèle que la varable document d(t 1 = x 1, t 2 =x 2,.., t n = x n ) est représenté par un ensemble d événements qu dénotent la présence (x = 1) ou l absence (x = 0) d un terme dans un document. En supposant que ces événements soent ndépendants, d où l appellaton BIR, les probabltés de pertnence (resp. de non pertnence) d un document, notées P(dD/R) (resp. P(d/NR)), sont données par : P( d / R) = P( t1 = x1, t 2 = x2, t3 = x3,.../ R) = P( t = x / R) P P P ( d / NR) = P( t = x, t = x, t = x,.../ NR) = P( t = x / NR) t est le ème terme utlsé pour décrre le document d, et x est sa valeur 0 s le terme est absent, 1 s le terme est présent dans le document. La dstrbuton des termes sut une lo de Bernoull ; P(d/R) peut s écrre : P x 1 x ( d / R) = P( t = x / R) = P( t = 1/ R) * P( t = 0 / R) On fat le même développement pour P(d/NR). Notons P(t = 1/R), par p, et P(t = 1/NR) par q, RSV(d,Q) peut s écrre, après transformaton, comme sut : RSV ( d, Q) 3 ( ) ( 1 x ) * 1 p ( ) ( x ) 1 q x p = x 1 q En se ramenant à la foncton log et après un pett développement, la foncton RSV s écrt alors : RSV ( d, Q) = p log ( 1 q ) ( p ) ; x = 1 q 1 S en outre, on suppose connus l ensemble R des documents pertnents et l ensemble NR des documents non pertnents, alors on peut asément estmer les probabltés p et q, en utlsant les proportons défnes en Tableau 1.1, comme sut : 38

40 CHAPITRE 1. RECHERCHE D INFORMATION p r = n et q = R N r n #doc. pert. contenant t r #doc. pert. ne contenant pas t n - r #doc. pert. n #doc.non-pert. contenant t R - r #doc. non-pert. ne contenant pas t N-R n + r #doc.non-pert. N-n #doc. contenant t R #doc. ne contenant pas t N-R #échantllons N TABLEAU 1.1 : Dstrbuton de probabltés de pertnence des termes d un corpus d apprentssage Ans la RSV se rédut à : RSV ( d, Q) = r log ( N R n + r ) ( n r )( R r ) ; x = 1 Un des nconvénents de ce modèle est l mpossblté d estmer ses paramètres s des collectons d entraînement ne sont pas dsponbles. Pour paller cet nconvénent, Roberston a proposé le modèle 2-posson basé notamment sur la noton de termes éltes [Robertson 94a ; Robertson, 94b]. Le résultat de ces travaux est la formule BM25, largement utlsée dans les travaux actuels de RI Le modèle de langue Le prncpe des approches utlsant un modèle de langue est dfférent des approches classques en RI. En effet, plutôt que d évaluer le degré de smlarté des documents et requêtes, le modèle de langue consdère que la pertnence d un document pour une requête est en rapport avec la probablté que la requête pusse être générée par le document [Ponte et al., 98 ; Boughanem et al., 04]. Formellement, sot M d, le modèle de langue du document d; la pertnence de d vs-à-vs d une requête Q revent à estmer P(Q/M d ), c est-à-dre, la probablté que la requête Q sot générée par M d. Etant donné une requête Q, cette pertnence est mesurée par : ( d Q) = P( Q = ( t, t, t )/ M ) P( t d ) RSV = /, 1 2 K n P(t /d) peut être estmé en se basant sur l estmaton maxmale de vrasemblance (maxmum lkelhood estmaton). Elle est donnée par : P ( t / d ) = tf t d ( t / d ) tf ( t / d ) 39

41 où tf (t /d) est la fréquence du terme t dans le document d. CHAPITRE 1. RECHERCHE D INFORMATION Dans ce type d estmaton que lorsqu un terme de la requête est absent du document, on a systématquement RSV(d,Q) = 0. Afn de paller cet nconvénent, des technques de lssage (smoothng parameter) peuvent être utlsées. Le lssage consste à assgner des probabltés non nulles aux termes, qu n apparassent pas dans les documents. Dfférentes technques de lssage exstent dont le lssage de Laplace, le lssage de Good-turng ou le lssage de Backoff. Une descrpton de ces technques est donnée dans [Boughanem et al.,04] Reformulaton de requêtes La reformulaton de requête consste, à partr d une requête ntale formulée par l utlsateur, à construre une requête qu répond meux à son beson nformatonnel. Les technques de reformulaton de requête se classfent en méthodes locales et méthodes globales. Les méthodes locales ajustent une requête relatvement aux documents qu sont retournés comme documents pertnents pour la requête ntale. Elles se basent sur la technque dte de rénjecton de pertnence (relevance feedback). Les méthodes globales se basent sur l expanson de requête en s appuyant sur des ressources lngustques (thésaurus ou ontologes), ou sur des technques d assocatons de termes telles que les règles d assocaton. Dans ce qu sut, nous donnons un aperçu de ces approches Méthodes locales Les méthodes locales s appuent sur la technque de rénjecton de pertnence [Buckley et al., 94; Harman,92; Robertson et al., 97; Roccho, 71]. L'dée de la rénjecton de pertnence est de fare partcper l'utlsateur dans le processus de recherche de sorte à amélorer l'ensemble fnal de résultats. Le procédé de base est le suvant : - l'utlsateur formule sa requête, - le système renvoe un premer ensemble de résultats de recherche, - l'utlsateur marque quelques documents retournés comme pertnents ou non pertnents, - le système calcule une melleure représentaton du beson en l'nformaton sur la base de la rétroacton utlsateur, - le système vsualse un ensemble révsé de résultats de la recherche. La rénjecton de pertnence peut passer par une ou pluseurs tératons de ce type. Le système utlse l nformaton sur la pertnence utlsateur pour reconstrure la requête. La nouvelle requête Q m est obtenue à partr de la requête ntale Q 0 en applquant un 40

42 CHAPITRE 1. RECHERCHE D INFORMATION algorthme spécfque de rénjecton de pertnence, dont par exemple, l algorthme de Roccho [Salton et al., 1983; Salton, 1989]. Formellement : Q m = α Q + 1 d 0 β p γ R d p R 1 NR d np dnp NR Où : d p (respectvement d np ) est le vecteur assocé à un document pertnent (respectvement non pertnent), R est l ensemble des documents pertnents, NR est l ensemble des documents non pertnents, α, β, γ étant des constantes telles que α + β + γ =1. Les paramètres α, β et γ sont choss en foncton de l mportance que l on souhate donner à la requête ntale (respectvement aux jugements de pertnence) Méthodes globales Les méthodes globales se basent sur l expanson de requête. La forme la plus commune d'expanson de requête est l analyse globale, en utlsant un thesaurus [Qu, 93] ou une ontologe [Mandala et al., 91; Voorhees, 94; Navgl et al., 03; Moldovan et al., 00; Bazz et al., 03a ; Bazz et al., 03b]. Pour chaque terme t, la requête peut être automatquement étendue avec des mots du thésaurus synonymes ou lés au terme t. Le système peut ans apparer la requête à des documents pertnents qu ne contennent aucun des mots de la requête orgnale. Outre les relatons sémantques, les termes de la requête peuvent être étendus par des termes qu leur sont autrement lés par des relatons de co-occurrence [Schutze et al., 97] ou des relatons contextuelles [Mtra et al., 98; Xu et al., 96] qu un thesaurus ne peut exhber. Parm les technques d extracton des relatons contextuelles entre termes, les règles d assocaton on été largement utlsées en RI pour l expanson de requêtes [We et al., 00; Haddad, 02; Song et al., 07]. Nous les présenterons en chaptre Concluson Nous avons présenté dans cette secton les concepts fondateurs de la RI. Nous y avons en partculer exposé les technques d ndexaton automatque, les prncpaux modèles de recherche et les mécansmes de reformulaton des requêtes. Les premers modèles ms en place sont des modèles booléens, smples et ntutfs, basés sur la théore des ensembles. L apparement utlsé est strct et ne permet de classer les documents que dans deux catégores : l ensemble des documents pertnents et l ensemble des documents non pertnents. Les modèles vectorels, algébrques, offrent la possblté d ordonner les documents retrouvés selon leurs degrés de smlarté avec la requête. La robustesse du modèle et ses bonnes performances dans les tests l ont propulsé au rang des modèles les plus 41

43 CHAPITRE 1. RECHERCHE D INFORMATION populares de RI. Les modèles probablstes, basés sur la théore des probabltés, sont plus effcaces que les modèles booléens. Les documents y sont ordonnés selon leurs probabltés de pertnence pour la requête. Ces modèles ont une base théorque sane [Croft et al., 92] et se sont montrés partculèrement performants dans TREC (à l exemple du système OKAPI [Robertson et al., 92]). L nconvénent, cependant, avec ces modèles est de trouver des méthodes effcaces pour estmer les probabltés utlsées pour l évaluaton de la pertnence [Crestan et al., 98]. Les modèles de RI présentés dans cette secton représentent la grande majorté des systèmes exstants. Ces modèles strcts pour les uns (booléens) et flexbles pour les autres (vectorels et probablstes), ne prennent cependant pas en compte les préférences utlsateur sur les crtères de recherche. En outre, l agrégaton utlsée est exclusvement de type conjonctf (AND) et/ou dsjonctf (OR). La RI flexble permet de paller à ces deux nconvénents en ntrodusant une flexblté au nveau des requêtes. Nous présentons cette approche de la RI dans la secton suvante. 1.3 La RI flexble La RI flexble se réfère à l utlsaton de mécansmes de formulaton des requêtes, d ndexaton et d évaluaton non strctes (floues). 1. Des mécansmes de formulaton de requêtes flexbles ont été ntroduts permettant d une part d exprmer les préférences utlsateur sur les crtères de recherche, et d autre part de défnr une agrégaton plus souple (flexble) entre les crtères de recherche. En ndexaton, des pods ont été assocés aux termes d ndexaton permettant ans de les dfférencer selon leur degré de représentatvté dans le document. Les pods sont ensute utlsés pour une évaluaton flexble de la pertnence du document pour la requête. L évaluaton flexble permet de défnr pour un document donné, son degré de pertnence pour la requête et de classer les documents par ordre de pertnence. Dans ce contexte, des opérateurs d agrégaton flexbles ont été défnes permettant de relaxer les évaluatons classques par le mnmum et le maxmum. Et des méthodes d ordonnancement flexble des documents, basées sur des méthodes d analyse multcrtères ont été proposées. Nous présentons dans ce qu sut les extensons flexbles du modèle booléen. 42

44 CHAPITRE 1. RECHERCHE D INFORMATION Indexaton floue des documents Dans ce modèle, la requête est exprmée par un ensemble de mots clés non pondérés relés par des opérateurs booléens (AND, OR et NOT). Le document est représenté comme un ensemble flou de termes [Radeck, 79]. { t d} ( d ) = ( t, µ ( t) ) R d tel que µ d (t) défnt le degré d'appartenance du terme t au document d. Concrètement, cette valeur équvaut au pods w d (t) du terme t dans le document d. L évaluaton de la pertnence d un document d pour une requête booléenne est alors donnée par : RSV RSV RSV RSV ( d, t ) = wd ( t ) ( d, t ANDt j ) = mn( wd ( t ), wd ( t j ) ( d, t ORt ) = max( w ( t ), w ( t ) j ( d, NOT t ) = 1 w ( t ) En assocant des pods aux termes d ndexaton, le modèle booléen basé sur les ensembles flous est capable d ordonner les documents par ordre décrossant de leur pertnence vs-àvs de la requête Formulaton de requêtes flexbles Dans les requêtes, la flexblté a été ntrodute à deux nveaux : Au nveau des crtères de recherche : Pour permettre l expresson des préférences utlsateur sur les crtères de recherche, les termes de la requête ont été pondérés [Buell et al., 1981; Bordogna et al., 1991; Pas, 1999]. Des pods numérques ont d abord été utlsés. Pus, des pods qualtatfs, plus smples et plus ntutfs, ont été formulés à partr de termes lngustques tels que : mportant, très mportant [Bordogna et al., 1993]. Au nveau des opérateurs lant les crtères de recherche: des opérateurs flous, ntermédares entre le AND et le OR ont été proposés, et des quantfcateurs lngustques tels que : tous (all), au mons k (at least k), ont été ntroduts dans le langage de requête [Bordogna et al., 95] comme opérateurs d agrégaton flous qualtatfs. Nous présentons c-après les mécansmes ms en œuvre dans chaque cas. d d d j 43

45 CHAPITRE 1. RECHERCHE D INFORMATION Prse en compte des préférences utlsateur dans le langage de requête En assocant des pods aux termes de la requête, l utlsateur peut ans fournr une descrpton plus précse de son beson nformatonnel [Herrera-Vedma, 99]. Une requête est alors défne comme une expresson booléenne dont les composants élémentares sont des couples <t, w> où t est un crtère de recherche et w est le pods qu lu est assocé [Herrera-Vedma, 00]. Les pods de requête permettent à l utlsateur de spécfer des restrctons qu dovent être satsfates par la représentaton floue des documents retrouvés par le SRI. Les pods de requête ont d abord été formalsés comme des valeurs numérques [Booksten, 80], [Bordogna et al., 91a], [Buell et al., 81b], [Kantor, 81], [Salton et al., 83a], [Waller et al., 79], pus des pods lngustques plus ntutfs ont été défns [Bordogna et al., 91b]. Les pods numérques de requête ndquent une contrante qu dot être satsfate par la représentaton des documents de la collecton ndexée. La nature de la contrante mposée par le crtère de sélecton pondéré dépend de la sémantque assocée au pods [Bordogna et al., 91a ; Kraft et al., 95]. Dans la lttérature, dfférentes sémantques des pods de requête ont été proposées. Le pods peut être nterprété comme pods d'mportance, comme seul, ou comme descrpton du document déal. La sémantque d mportance [Booksten, 80; Waller et al., 79; Booksten, 80; Radeck, 79; Crestan et al., 99; Yager, 87] défnt les pods de requête comme des mesures de l mportance relatve de chaque terme de la requête par rapport aux autres termes (de la requête). En assocant des pods d mportance relatve aux termes dans une requête, l utlsateur spécfe qu l recherche plus les documents contenant le crtère le plus mportant (pods le plus élevé) que ceux contenant des crtères mons mportants (pods mons élevés). La sémantque du seul [Buell et al., 81a; Buell et al., 81b; Kraft et al., 83] défnt les pods des requêtes comme des condtons à satsfare pour chaque terme de la requête consdéré dans l apparement document-requête. Autrement dt, le seul ndque le nveau d acceptaton du degré de sgnfcaton d un terme dans un document pour qu l sot sélectonné. La sémantque de la perfecton [Bordogna et al., 91a; Cater et al., 89; Bordogna et al., 91a; Kraft et al., 95] consste à consdérer la requête pondérée comme une descrpton du document déal souhaté par l utlsateur. En assocant des pods aux termes de la requête, l utlsateur souhate rechercher tous les documents dont le contenu satsfat ou est plus ou mons proche du beson nformatonnel déal représenté par la requête pondérée. 44

46 CHAPITRE 1. RECHERCHE D INFORMATION La lmtaton prncpale des pods numérques de requête est de forcer l'utlsateur à quantfer le concept qualtatf et flou d mportance alors qu l est plus naturel d utlser des quantfcateurs lngustque (tels que mportant, très mportant, assez mportant ). Bordogna et Pas [Bordogna et al., 91b] ont défn un modèle flou de recherche dans lequel les descrpteurs lngustques sont formalsés dans le cadre de la théore des ensembles flous [Zadeh, 75] par des varables lngustques. Un crtère élémentare de recherche est un couple <t, w> où t est un terme et w est une valeur qualtatve appartenant à l ensemble des termes de la varable lngustque Important. Par exemple, l'ensemble des termes de la varable lngustque pourrat être l ensemble défn par : T(Important)= {mportant, très mportant, assez mportant, peu mportant, }. Dans ce cas, le terme lngustque est dt prmare, alors que les termes modulés par les modfcateurs lngustques très, peu, assez (sot très mportant, assez mportant, ) sont dts termes non prmares. Les sgnfcatons des termes non prmares dans T(Important) sont obtenus en défnssant d abord la foncton de compatblté assocée au terme prmare mportant, µ mportant, et pus en modfant µ mportant, selon la sémantque du modfcateur lngustque utlsé [Crestan et al., 99] Agrégaton lngustque des crtères de recherche Des opérateurs d agrégaton lngustques flexbles (tels que au mons n, la plupart de, tous, ), plus smples et plus ntutfs que les opérateurs booléens classques, ont été défns [Bordogna et al., 91b]. Les condtons d une requête booléenne complexe sont plus faclement et ntutvement formulées. Les opérateurs de moyenne pondérée ordonnée (OWA) [Yager, 88] ont été utlsés pour défnr les quantfcateurs lngustques. Exemple S l on souhate qu'au mons 3 des quatre termes clmat, satellte, météorologe et mage soent satsfats, la requête booléenne devra être formulée comme sut : (clmat AND satellte AND météorologe) OR (clmat AND satellte AND mage) OR (clmat AND météorologe AND mage) OR (météorologe AND mage AND satellte). En utlsant des quantfcateurs lngustques, la même requête est plus smplement exprmée par : au mons 3 (clmat, satellte, météorologe, mage) Outre le quantfcateur au mons k qu est défn comme un seul strct, d'autres quantfcateurs avec une sgnfcaton vague peuvent être défns. Le quantfcateur presque k est nterprété comme seul flou sur le nombre de crtères à satsfare. L'utlsateur obtent une certane satsfacton égale quand mons de k crtères sont 45

47 CHAPITRE 1. RECHERCHE D INFORMATION satsfats. Le quantfcateur plus de k spécfe que plus le nombre de crtères satsfats est supéreur à k, plus la valeur globale de satsfacton est élevée. La valeur de pertnence d un document d pour une requête q = quantfcateur (q 1,, q n ) est calculée comme sut : RSV ( d, q) = OWA ( e( d, q1 ), K, e( d, )) quantfer q n dans laquelle OWA quantfer est l'opérateur OWA lé au quantfcateur quantfer. Les q sont les crtères élémentares de recherche. L'opérateur AND Possble (possbly and) [Bordogna et al., 91b], permet de spécfer des crtères de sélecton optonnels par rapport à des crtères essentels. Exemple Pour exprmer l ntérêt pour les documents tratant des «systèmes experts» (crtères essentels), tands qu on déclare un mons grand ntérêt pour les documents tratant également de «fuzzy" ou «ANN» (crtères facultatfs), la requête suvante peut être formulée : tous (expert, systems) AND possble au mons 1 (fuzzy, ANN) L'opérateur AND Possble fournt un autre nveau de flexblté du mécansme de recherche, permettant de ne pas gnorer les documents qu satsfont seulement les crtères essentels Evaluaton flexble des requêtes L évaluaton des requêtes a pour objet de calculer la pertnence des documents pour une requête donnée pus de classer les documents retournés par ordre de pertnence décrossant. Les méthodes d agrégaton de RI classque utlsent des opérateurs de conjoncton (ou dsjoncton) pondérés. Les requêtes conjonctves (respectvement dsjonctons) sont évaluées par des opérateurs conjonctfs (respectvement dsjonctfs). Ces opérateurs peuvent être le mnmum (respectvement le maxmum) pondéré ou la moyenne pondérée. Cependant, ce type d'agrégaton est trop restrctf. En partculer, dans le cas de requêtes conjonctves par exemple, la non satsfacton d un seul crtère par un document donné, mplque que le document n est pas sélectonné. Pour relaxer la conjoncton, des opérateurs plus flexbles tels que la moyenne pondérée ordonnée (OWA [Yager, 88]) ou le mnmum pondéré ordonné (OWmn [Dubos et al., 96]) ont été ntroduts. L dée derrère ce type d agrégaton est de donner une fable mportance aux pods les plus fables dans le vecteur d évaluaton, mnmsant ans l'mpact des fables termes pour évter de pénalser un document contenant de fables termes. 46

48 CHAPITRE 1. RECHERCHE D INFORMATION Cependant, le problème avec les opérateurs d agrégaton, qu ls soent strcts ou flexbles, est qu ls ne permettent pas de dstnguer entre des documents ayant une même pertnence globale. Une conséquence est qu'l est mpossble de dstnguer des documents ayant la même valeur de pertnence globale. Comme exemple, consdérons une requête à tros termes, agrégés par la moyenne (les mêmes remarques s'applquent à d'autres opérateurs d'agrégaton) : rsv rsv ( ) = ( ) / 3 = 0.5 ( ) = ( ) / 3 = 0. 5 ( d1, q) = wd ( t1 ) + w ( 2 ) ( 3 ) 1 d t + w 1 d t 1 ( d, q) = w ( t ) + w ( t ) + w ( t ) 2 d 2 1 d 2 2 Le problème est alors de savor s l on préfère un document avec une pertnence moyenne pour tous les crtères ou ceux ayant une forte pertnence pour la plupart d entre eux. Dans les approches proposées dans [Boughanem et al., 05; 07], l ne s agt plus d agréger les pods en une valeur unque, mas plutôt d ordonner les documents drectement sur la base des vecteurs de pods des termes présents dans la requête. Dans [Boughanem et al., 07], deux fonctons de tr avancé sont consdérées. Ces méthodes, basées sur l'ordre lexcographque, sont le dscrmn et le lexmn. Elles raffnent le mnmum classque et permettent ans de départager des vecteurs dont le mnmum serat égal. d 2 3 Dscrmn : Concrétement, on compare les vecteurs deux à deux par la valeur de l'agrégaton de leurs éléments dstncts. Ans, les valeurs communes pour un même rang dans les deux vecteurs sont élmnées avant de cumuler les valeurs restantes par un opérateur d'agrégaton conjonctf (mn ou OW mn pondéré). Cec permet de n'effectuer le tr que sur les valeurs réellement détermnantes. Applqué à la recherche d'nformaton, cet opérateur permet donc de ne pas tenr compte des termes de la requête qu ont le même pods dans deux documents afn de détermner l'ordre de ceux-c. Par exemple, soent les deux vecteurs à comparer suvants : rsv rsv ( d1, q) = ( 1; 0.5; 0.1; 0.3) ( d, q) = ( 0.2; 0.7; 0.1; 1) 2 Ces vecteurs représentent les degrés des termes de la requête q pour les documents d 1 et d 2. En utlsant le mn comme opérateur d'agrégaton des composantes du vecteur, ce qu revent à consdérer la requête comme une conjoncton, les deux vecteurs sont à 0.1, et ne peuvent donc pas être dstngués. L'utlsaton du dscrmn permet d'élmner le trosème terme qu est commun aux deux vecteurs et n'est donc pas dscrmnant dans leur comparason relatve. Ans, la valeur pour rsv(d 1, q) devent 0.3 contre 0.2 pour rsv(d 2,q), ce qu permet de les trer. Le dscrmn permet donc un tr plus précs que le smple mn. 47

49 CHAPITRE 1. RECHERCHE D INFORMATION Lexmn : Il revent à applquer le dscrmn sur des vecteurs préalablement réordonnés. La consdératon des valeurs communes est ans ndépendante de leur place dans le vecteur. Dans le cas de l'utlsaton du mnmum comme foncton d'agrégaton, ce tr est équvalent à un tr lexcographque des vecteurs trés. Par alleurs l opérateur somme a auss été raffné en gardant la trace des nformatons sur les pods ndvduels des termes de la requête dans le document, dans une certane mesure. L'opérateur utlsé est une somme tronquée (dte LexSum) qu élmne progressvement les pods selon leurs valeurs. Étant donné le vecteur ordonné de pods des termes W = (w 1..., w n ), l s apparente à l'ordre lexcographque des vecteurs de la forme ( w1 + w2 + K + wn, w1 + w2 + K + wn 1, K, w1 + w2, w1 ). Ans, on consdère d'abord la somme de tous les pods comme dans des systèmes classques, la somme de n - 1 pods s les deux sommes sont égales, etc. Pluseurs varantes ont auss été ntrodutes, dont LexSumR qu utlse le vecteur ( w 1 + w2 + K + wn, w2 + K+ wn, K, wn 1 + wn, wn ) qu supprme les petts pods d'abord. En comparant les résultats obtenus d une part avec l'agrégaton par la somme pondérée à la base de l'approche classque (utlsé dans Mercure [Boughanem, 92]) et d autre part avec les dfférents raffnements vectorels de la somme, et la méthode de classement basée lexmn qu raffne le mnmum (éventuellement applqué avec un OWmn), l a été rapporté que plupart de procédures d'ordre raffnées n'apportent pas d améloratons sgnfcatves en termes de fonctonnement en comparason avec la somme classque, pour des requêtes tant courtes que longues, à part LexsumR dans le cas de longues requêtes où une améloraton de 4.8 % sur la précson à 10 a été constatée. Ces résultats prélmnares ont montré que l ordonnancement des documents peut trer avantage des vecteurs des pods des termes complets, plutôt que de les agréger en une valeur unque. 1.4 Evaluaton d un SRI L évaluaton consttue une étape mportante dans la mse en oeuvre d un SRI. Cette étape permet de mesurer les caractérstques du système en termes de qualté de servce et de faclté d utlsaton. Cleverdon [Cleverdon, 70] défnt sx prncpales mesures de la qualté d un SRI : l unvers du dscours de la collecton, le temps de réponse, la présentaton des résultats, l effort requs de l utlsateur pour retrouver, parm les documents retournés, ceux qu répondent à son beson, le taux de rappel du système, la précson du système. 48

50 CHAPITRE 1. RECHERCHE D INFORMATION Le premer pont se réfère au degré auquel le document nclut l nformaton pertnente. Le temps de réponse, la prestaton de sorte et l effort requs de l utlsateur sont autant de mesures de la qualté du servce rendu à l utlsateur. Le but d un SRI est de retrouver l nformaton recherchée par l utlsateur et de la lu retourner dans un déla acceptable, en la lu présentant sous une forme asément explotable. Cec mplque notamment la manère de présenter les résultats, l accès aux documents complets, et l nterfaçage en général. Les mesures de rappel et de précson sont ntrnsèques au modèle de recherche du système et couvrent une pertnence dte algorthmque ou système. On retrouve dans [Borlund, 03] une défnton plus large de la noton de pertnence, dépendant de nombreux crtères examnés lés au contexte de la recherche, tels que : le degré de correspondance (aboutness), l utlté (usefulness/ utlty), rentablté (usablty), l mportance, sur les résultats retournés par rapport aux objectfs, aux ntérêts, à la stuaton ntrnsèque du moment. Ces dfférents crtères ont amené à la catégorsaton de la pertnence utlsateur en 4 classes de pertnence : la pertnence thématque, la pertnence cogntve, la pertnence stuatonnelle et la pertnence motvatonnelle (ou affectve [Saracevc, 96]). 1. la pertnence thématque tradut le degré d adéquaton de l nformaton retrouvée au thème (et non au contenu) de la requête; c est la pertnence classque telle que défne dans le paradgme de Cleverdon [Cleverdon, 70], 2. la pertnence cogntve représente la relaton ntellectuelle entre le beson nformatonnel ntrnsèque de l utlsateur et l nformaton portée par les documents telle qu nterprétée par l utlsateur, 3. la pertnence stuatonnelle est vue comme l utlté de l nformaton retrouvée par rapport au but de la recherche tel que par l utlsateur, 4. la pertnence motvatonnelle ou affectve décrt la relaton entre les ntentons, les buts et les motvatons de la recherche tels que fxés par l utlsateur d une part et les nformatons retrouvées d autre part. La mesure communément utlsée dans les campagnes d évaluaton classque en RI est sans doute la pertnence thématque. On adopte pour cela, une approche quanttatve des SRI qu s attache à mesurer le degré d'adéquaton du document à la requête. Pour mesurer cette adéquaton, le SRI procède à la comparason de la représentaton nterne de la requête et de la représentaton nterne des documents. Le degré de smltude du document et de la requête mesure la pertnence du document pour cette requête. Il s agt là de la pertnence système, ou pertnence algorthmque [Saracevc, 96] (ou pertnence logque [Cooper, 71]). Pour évaluer cette pertnence, nous devons connaître a pror l ensemble des documents qu sont pertnents pour une 49

51 CHAPITRE 1. RECHERCHE D INFORMATION requête donnée. C est à cette fn que des collectons de tests ont été élaborées. Une collecton de tests comprend : 1. un ensemble de documents (ou collecton de documents) à ndexer, sur lesquels le système sera évalué, 2. une lste de requêtes prédéfnes, 3. les jugements de pertnence, manuellement établs, pour chaque requête. Il s agt, pour chaque requête, de la lste des documents pertnents pour cette requête. Les collectons de tests sont, le plus généralement, mses en place dans le cadre de campagnes d évaluaton des SRI, dont les campagnes TREC 1 (Text Retreval Conference) [Harman 1992] qu consttuent la référence en ce qu concerne l évaluaton des SRI, les campagnes CLEF (Cross-Language Evaluaton Forum) qu se rattachent plus partculèrement aux systèmes multlngues, les campagnes NTCIR sur les langues asatques et les campagnes Amarylls ( ) spécalsées dans les systèmes franças. Nous présentons dans ce qu sut la campagne d évaluaton TREC, et explquons le protocole d évaluaton d un SRI utlsé dans le cadre de cette campagne. Pus, nous ntrodusons quelques mesures d évaluaton de la pertnence algorthmque d un système La campagne d évaluaton TREC TREC est un projet nternatonal, nté au début des années 90 par le NIST (Natonal Insttute of Standards and Technology) aux Etats-Uns, dans le but de proposer des moyens homogènes d'évaluaton de systèmes documentares sur des bases de documents conséquentes. Il est aujourd'hu co-sponsorsé par le NIST et l ARPA (ex- DARPA/ITO, pour Defense Advanced Research Projects Agency - Informaton Technology Offce, qu mène pluseurs actons dans le domane des technologes de l'nformatque et de la communcaton, et qu dépend du mnstère de la défense). Le projet TREC consste en une sére d évaluatons annuelles des technologes pour la RI, dont l objectf est : 1. d une part, d offrr aux chercheurs le moyen de mesurer sur des procédures d évaluaton unformes, l effcacté de leurs systèmes, 2. d autre part, de leur permettre de comparer les résultats de leurs systèmes. Les pstes explorées par TREC sont entre autres, la recherche (ou tâche ad-hoc), le fltrage, la queston-réponse, la vdéo, le web La tâche ad-hoc est la tâche prncpale dans TREC. Elle vse à évaluer les performances d un SRI sur des ensembles statques de documents, seules les requêtes

52 CHAPITRE 1. RECHERCHE D INFORMATION changent. Pour cette tâche, les partcpants du TREC dsposent d une collecton d envron 02 ggaoctets de texte, sur un CD-ROM fourn par le NIST. Avec ces documents, le NIST procure également aux partcpants un ensemble de 50 requêtes en langage naturel. Les partcpants testent leurs systèmes sur les documents fourns, recherchant les réponses aux requêtes données, pus classent les documents de la collecton par ordre de pertnence, pour chaque requête. Les 1000 premers documents retrouvés pour chaque requête sont soums au NIST, chargé de l évaluaton. Le protocole d évaluaton utlsé se base sur deux prncpales métrques qu sont les taux de rappel et de précson. Nous les défnssons en secton suvante Les mesures d évaluaton d un SRI Etant donnée une requête Q, les documents de la collecton peuvent être globalement classfés en foncton de leur rapport à la requête (pertnents/non pertnents) comme le montre la fgure 1.3. FIGURE 1.3 : Dstrbuton des documents dans une collecton face à une requête Où DP est l ensemble des documents pertnents pour la requête Q, DPR l ensemble des documents pertnents retrouvés, DPNR l ensemble des documents pertnents non retrouvés, DNP l ensemble des documents non pertnents pour Q, DNPR l ensemble des documents non pertnents retrouvés et DNPNR l ensemble des documents non pertnents non retrouvés On défnt les mesures de rappel et de précson d un SRI par les proportons suvantes : Précson : DPR P = Rappel : DPR DNPR R = DPR DP La précson est la proporton de documents retrouvés qu sont pertnents. Une précson égale à 1 sgnfe que le système n a retrouvé que des documents pertnents. Le rappel est la proporton de documents pertnents qu sont retrouvés. Un rappel égal à 1 sgnfe que tous les documents pertnents ont été retrouvés. L déal serat d avor une précson et un 51

53 CHAPITRE 1. RECHERCHE D INFORMATION rappel égaux à 1, sgnfant que tous les documents pertnents sont retrouvés et qu aucun document non pertnent n a été retrouvé. En pratque, cet déal n est jamas attent pusque ces deux quanttés évoluent en sens nverse. Intutvement, s on augmente le rappel en retrouvant plus de documents pertnents, on dmnue la précson en retrouvant auss plus de documents non pertnents. Inversement, une plus grande précson rsque de rejeter des documents pertnents dmnuant ans le rappel Protocole d évaluaton TREC Pour chaque requête, les 1000 premers documents resttués par le système sont examnés et des précsons sont calculées à dfférents ponts (à 5, 10, 15, 30, 100 et 1000 premers documents resttués). La précson exacte découle de ces précsons. C est la précson à x, x étant le nombre total de documents pertnents dans la collecton, pour la requête examnée. Pus, une précson moyenne MAP est calculée pour chaque requête. Il s agt de la moyenne des précsons de chaque document pertnent pour cette requête. La précson d un document est la précson à x, tel que x est le rang de ce document dans l ensemble des documents pertnents retrouvés. Fnalement, les précsons moyennes pour l ensemble des requêtes sont calculées permettant d obtenr une mesure de la performance globale du système Autres mesures d évaluaton d un SRI D autres mesures d évaluaton d un SRI exstent. Ans, des mesures complémentares au rappel et à la précson, respectvement le brut et le slence ont été défnes comme sut : Brut : DNPR B = Slence : DPR DNPR S = DPNR DP L ndce de Fallout (ou Hallucnaton d après C. Berrut 2 ) peut être utlsé à la place du rappel [Ishoka, 03]. Il défnt le pourcentage de documents non pertnents qu ont été retrouvés ([Kraft et al., 78] cté dans [Ishoka, 03]). Il exprme l erreur du système. Formellement : Fallout : a = DNPR DNP L élmnaton est la mesure complémentare du Fallout. Elle défnt le pourcentage de documents non pertnents non retrouvés. Elle est défne par : 2 mars supports.pdf 52

54 CHAPITRE 1. RECHERCHE D INFORMATION Elmnaton : E = DNPNR DNP Par alleurs, Van Rjsbergen [Van Rjsbergen, 79] a ntrodut la F-mesure comme combnason du rappel et de la précson. La F-mesure est défne à travers la formule suvante : F β = 2 ( β + 1) β 2 * P * R * P + R Où β tradut l mportance relatve du rappel et de la précson. Par exemple, β=2 représente une précson deux fos plus mportante que le rappel. Dans le cas partculer où β=1, la F-mesure défnt la moyenne harmonque du rappel et de la précson: F 1 2* P * R = P + R En pratque, plus grande est la valeur de la F-mesure, melleure est la recherche [Ishoka, 03]. 1.5 Concluson Nous avons présenté dans ce chaptre les concepts fondamentaux de la RI. Le but d'un SRI est de rechercher l'nformaton pertnente pour une requête utlsateur. Son effcacté est mesurée par des paramètres qu reflètent sa capacté à accomplr un tel but. Ce but est par nature non détermnste. Les SRI classques ncapables de prendre en compte une telle mprécson. Pour paller à ce manque, de nouveaux modèles flexbles ont été proposés. Néanmons, l mprécson ne caractérse pas unquement le processus de recherche ou le langage de requête. En effet, l mprécson est auss portée par les mots même de la langue du fat de leur ambguïté naturelle. L ndexaton par les mots clés est de ce fat mprécse. De nouvelles technques d ndexaton sont nécessares pour paller l ambguïté de la langue et pouvor trater avec la sémantque des documents et requêtes. C est l objet de l ndexaton sémantque que nous présentons dans le chaptre suvant. 53

55

56 Chaptre 2 Indexaton sémantque en RI 2.1 Introducton L ndexaton sémantque s ntéresse prncpalement à la représentaton des documents et requêtes par les sens des mots qu ls contennent plutôt que par les mots eux mêmes. L objectf sous-jacent est d amélorer la représentaton des enttés ndexées et de paller aux problèmes de l ndexaton classque basée mots. L objectf du présent chaptre est de présenter les prncpales approches d ndexaton sémantque. En secton 2.2, nous présentons la problématque de l ndexaton classque basée mots_clés. Le reste du chaptre est dédé à la présentaton des approches d ndexaton sémantque. Ans, l approche d ndexaton conceptuelle est décrte en secton 2.3. La secton 2.4 est dédée à la présentaton des approches d ndexaton sémantque basées sur la désambguïsaton. Tout d abord, un aperçu des méthodes de désambguïsaton est présenté en paragraphe 2.4.1, pus les approches d ndexaton sémantque en paragraphe Ces approches sont basées sot sur la désambguïsaton basée corpus, ou sur la désambguïsaton basée sur les ressources externes. Les premères sont présentées en paragraphe , les secondes en paragraphe Problématque En ndexaton classque, les enttés textuelles (documents et requêtes) sont représentées par des mots clés ssus de leurs contenus. L utlsaton des mots pour représenter le contenu des documents et requêtes pose deux problèmes, l ambguïté des mots et leur dsparté. L ambguïté des mots, dte ambguïté lexcale, se rapporte à des mots lexcalement dentques et portant des sens dfférents. Elle est généralement dvsée en deux types [Krovetz, 97; Krovetz et al, 92] : l ambguïté syntaxque et l ambguïté sémantque. 55

57 CHAPITRE 2. INDEXATION SEMANTIQUE EN RI L'ambguïté syntaxque se rapporte à des dfférences dans la catégore syntaxque. Par exemple, «play» peut apparaître en tant que nom ou verbe. L'ambguïté sémantque se rapporte à des dfférences dans la sgnfcaton, et est décomposée en homonyme et polyséme selon que les sens sont lés ou non [Krovetz, 97]. Le problème d ambguïté mplque que des documents non pertnents, contenant les mêmes mots que la requête sont retrouvés. Par exemple, dans une recherche à l ade du mot clé AIDS (SIDA en franças), Krovetz et al. [Krovetz et al., 92] rapportent que 34 références contenant le mot AIDS ont été retrouvées mas toutes ne trataent pas de la malade. La dsparté des mots (word msmatch) se réfère à des mots lexcalement dfférents mas portant un même sens. Cec mplque que des documents, pourtant pertnents, ne partagent pas de mots avec la requête, ne sont pas retrouvés. Dans le même contexte de recherche sur AIDS, des documents portant sur le VIH, pourtant pertnents ne seront pas retrouvés. Les travaux du domane ont d abord adressé ces problèmes séparément en apportant des solutons spécfques à chacun d eux, pus une soluton globale s est dégagée. (1) Solutons spécfques - une réponse au premer problème, en l occurrence l ambguïté des mots, est d utlser les expressons ou termes composés, pour rédure l'ambguïté. Cependant, l n'est pas toujours possble de fournr une expresson dans laquelle le mot apparaît seulement avec le sens désré, et la formulaton des expressons exge un effort cogntf de la part de l'utlsateur. - une réponse au second problème, en l occurrence la dsparté des mots, consste à étendre la requête à l ade de mots synonymes d'un thésaurus [Salton et al., 83]. Cette extenson n est pas aléatore. Pour enrchr un mot dans la requête par ses synonymes, on dot non seulement connaître le sens du mot dans la requête, mas auss le sens du mot qu est utlsé pour l'étendre [Krovetz et al., 92]. (2) Soluton globale La soluton globale permettant de répondre à ces deux problèmes consste en l ndexaton sémantque. L ndexaton sémantque tente d apporter des solutons au nveau de la représentaton des documents et des requêtes. L objectf est d ndexer par les sens des mots plutôt que par les mots. Dans un contexte où l ambguïté est présente, l ndexaton sémantque est sensée amélorer les performances du SRI. 56

58 CHAPITRE 2. INDEXATION SEMANTIQUE EN RI L ndexaton sémantque s ntéresse à deux prncpaux ponts : d abord retrouver le sens correct de chaque mot dans le document (respectvement de la requête), ensute représenter ce document (respectvement cette requête). En réponse au premer pont portant sur l dentfcaton du sens des mots, l ndexaton sémantque s appue sur des technques dtes de désambguïsaton des mots ou WSD (Word Sense Dsambguaton). Deux prncpales approches de désambguïsaton exstent : les approches endogènes et les approches exogènes [Audbert, 03]. Les premères se basent sur des corpus d entraînement pour calculer le sens correct d un mot [Wess, 73; Schütze, 92 ;98], alors que les secondes s appuent sur l explotaton du contexte local et des défntons ssues de ressources lngustques externes telles que les dctonnares nformatsés ou MRD (Machne Readable Dctonnary), [Lesk, 86 ; Verons et al., 90 ; Ide et al., 90 ; Wlks et al., 90 ; Guthre et al., 91], les thésaurus [Yarowsky, 92], les ontologes [Sussna, 93 ; Resnk, 93a ; 93b ; 95] ou une combnason d entre elles [Agrre et al., 01]. A ces approches de désambguïsaton sont donc assocées deux approches d ndexaton sémantque que l on nommera respectvement les approches basées sur le corpus et approches basées sur les ressources externes en rapport avec la technque de désambguïsaton utlsée. En réponse au second pont portant sur la représentaton sémantque des documents et requêtes, l ndexaton sémantque s ntéresse à leur représentaton en se basant sur les sens des mots qu ls contennent. Dans ce contexte, deux prncpales approches de représentaton exstent: la représentaton basée sur les sens et la représentaton combnée mots-clés/sens. Dans la premère, les mots des documents et requêtes sont désambguïsés et ce sont les sens correspondants calculés, qu sont fnalement utlsés comme termes d ndexaton. Dans la seconde approche, les sens sont utlsés conjontement avec les mots clés qu ls représentent. Un terme d ndexaton est alors représenté par le couple (mot-clé, sens assocé). Notons enfn, qu l exste une approche d ndexaton sémantque dte ndexaton conceptuelle 3, qu s affrancht des problèmes de désambguïsaton et qu tente plutôt d ndexer les documents et requêtes par des enttés conceptuelles qu sont extrates des textes correspondants. 3 Notons que souvent l ndexaton conceptuelle est défne comme une ndexaton sémantque pusque les concepts véhculent la sémantque. Ben que nous adhérons à ce pont de vue, nous avons chos de suvre la classfcaton donnée dans [Mhalcea et al., 00] selon laquelle l ndexaton conceptuelle réfère prncpalement à l approche de Woods, tands que toute ndexaton basée sur les sens des mots relève de l ndexaton sémantque. 57

59 2.3 L ndexaton conceptuelle CHAPITRE 2. INDEXATION SEMANTIQUE EN RI L ndexaton conceptuelle se réfère à la constructon de taxonomes conceptuelles à partr des textes. Cette approche est due à Woods [Woods, 97]. Le système conceptuel d'ndexaton et de recherche proposé extrat automatquement des mots et des expressons de textes et les organse en un réseau sémantque (taxonome conceptuelle) qu ntègre des relatons syntaxques, sémantques et morphologques. La constructon d une taxonome de concepts à partr des textes est le plus souvent réalsée en parsant automatquement chaque expresson en une ou pluseurs structures conceptuelles qu représentent comment les éléments de l'expresson sont réuns pour construre son sens(s). Cec permet à un système de détermner automatquement quand le sens d'une expresson est plus général que celu d une autre étant donnée sa connassance des rapports de généralté entre les dfférents éléments qu composent l'expresson. Exemple Etant donnée l'nformaton que voture est un genre-de automoble et que lavage est un genre-de Nettoyage (fgure 2.1), un système peut automatquement détermner que lavage de voture est un genre-de nettoyage d automoble. FIGURE 2.1 : Un exemple de taxonome conceptuelle. Ans, un système peut automatquement détermner des rapports de généralté entre les concepts structurés s'l a une connassance de base sur les rapports de subsumpton (rapports de génércté/spécfcté) entre des concepts de base. L approche d ndexaton conceptuelle de Woods a été testée sur de pettes collectons de texte (dont les pages du manuel UNIX composé de 1819 fchers et occupant une talle d envron 10MB). La comparason des résultats de ce système avec ceux obtenus en utlsant des technques classques de recherche, a montré une améloraton du rappel de l ordre de 0.3% par rapport aux SRI classques. 58

60 CHAPITRE 2. INDEXATION SEMANTIQUE EN RI 2.4 L ndexaton sémantque basée sur la désambguïsaton Même s les mots de la langue sont par nature ambgus, l n en demeure pas mons qu l a été nécessare d étuder l mpact de l ambguïté sur la RI et l opportunté d ntrodure les technques de désambguïsaton en ndexaton des documents. Les travaux de Krovetz et Croft [Krovetz et al., 92; Krovetz, 93] ont été les premers à étuder l mpact de l ambguïté sur les performances du processus de recherche d nformaton et à nter l dée que la désambguïsaton pouvat ader à amélorer la RI. Les études ont été menées prncpalement à deux nveaux: d abord détermner le degré d'ambguïté lexcale dans les collectons de test en RI, ensute détermner l'utlté des sens des mots dans la séparaton des documents pertnents et non pertnents. Pour détermner le degré d ambguïté dans les collectons de test, des statstques sur les sens des mots qu elles contennent ont été étables. Le nombre moyen de sens dans les documents et requêtes est détermné par un processus de consultaton d un dctonnare. Les statstques rapportées par Krovetz et Croft sur les collectons CACM 4 et TIME 5 ndquent que ces deux collectons ont un fort taux d ambguïté (le nombre moyen de sens pour la collecton CACM est de 4.7 et de 3.7 pour la collecton TIME) et par conséquent présentent un fort potentel pour bénéfcer de la désambguïsaton. Par alleurs, les résultats rapportés ndquent que les mots dans les requêtes sont ben plus ambgus que ceux dans les documents. Pour étuder l mpact de l'ndexaton par les sens des mots sur l effcacté de la recherche, des statstques sur le nombre de dspartés de sens dans les documents pertnents ont été étables. Les résultats rapportés ont montré que la dsparté des sens est fable dans les documents pertnents. Les sens permettent ben de séparer les documents pertnents des documents non pertnents. Les travaux qu s en sont suvs [Sanderson, 94 ; Krovetz, 97; Gonzalo et al., 98], ont montré que l'mpact de l'ambguïté des sens sur l'effcacté de la recherche n'état pas dramatque, mas qu une désambguïsaton précse (précson de plus de 90% selon [Sanderson, 94], de 60% selon [Gonzalo et al., 99]) des mots amélorerat probablement l effcacté de la recherche lorsque peu de mots de la requête apparassent dans le document. De là, l ndexaton par les sens des mots (ou ndexaton sémantque) a été 4 http : :// 5 https : ://sserver11.prnceton.edu/ 59

61 CHAPITRE 2. INDEXATION SEMANTIQUE EN RI pressente comme un moyen qu permettrat d amélorer les performances de la recherche. Pour retrouver les sens corrects des mots dans un document, l ndexaton sémantque a recours aux technques de désambguïsaton des sens des mots. Avant de décrre les approches d ndexaton par les sens des mots, nous présentons d abord les prncpes fondateurs des approches de désambguïsaton pus les travaux les plus sgnfcatfs dans le domane Les approches de désambguïsaton des sens des mots (WSD) Un certan nombre d approches de désambguïsaton des sens des mots exstent, qu sont prncpalement dvsées en approches exogènes et approches basées sur les corpus. Les approches exogènes utlsent des bases de connassances externes (dctonnares, thesaurus, lexques, ontologes, ) pour désambguïser des mots ambgus. Les approches basées sur le corpus sont généralement de type statstque et utlsent de gros corpus de textes pour construre la connassance nécessare à la désambguïsaton. Nous présentons dans ce qu sut les travaux les plus représentatfs de chacune d elles. Notons toutefos, qu l exste auss des approches mxtes qu combnent pluseurs technques Les approches exogènes Partant de l hypothèse que «quand pluseurs mots co-occurrent dans un contexte, le sens le plus probable pour chacun de ces mots est celu qu maxmse ses relatons avec les sens des mots co-occurrents» [Audbert, 03; Ide et al., 98], les approches exogènes se basent sur l explotaton du contexte et des défntons ssues de ressources lngustques externes telles que les dctonnares nformatsés ou MRD (Machne Readable Dctonnary), [Lesk, 86; Verons et al., 90; Ide et al., 90; Wlks et al., 90; Guthre et al., 91], les thésaurus [Yarowsky, 92], les ontologes [Sussna, 93; Resnk, 93a; Resnk, 93b; Resnk, 95] ou une combnason d entre elles [Agrre et al., 01] Les approches basées sur les dctonnares nformatsés En s appuyant sur un dctonnare nformatsé, Lesk [Lesk, 86] a construt l un des premers systèmes de désambguïsaton basés sur un MRD 6. Le prncpe de désambguïsaton de Lesk peut être défn comme sut : 6 Lesk a testé son approche sur tros MRD : le Webster s 7th Collegate, le Collns Englsh Dctonary et le Oxford Advanced Learner s Dctonary of Current Englsh. 60

62 CHAPITRE 2. INDEXATION SEMANTIQUE EN RI 1. Pour chaque occurrence de mot ambgu, retrouver tous les sens du mot dans un dctonnare. 2. Pour chaque sens S du mot à désambguïser : - Consulter sa défnton, - Score (S) = le nombre de mots en commun entre la défnton du mot à désambguïser et les défntons des mots cooccurrents dans son contexte}. - Retenr le sens S qu maxmse Score(S). Cette méthode permet de désambguïser correctement dans 50% à 70% des cas. Cependant, elle présente l nconvénent (cté dans [Sanderson, 97]) d être très sensble aux mots qu se trouvent dans chaque défnton. En effet, le chox des sens basés sur un nombre restrent de mots communs peut être source d erreurs. Ans par exemple, ben que sémantquement lés, les mots sandwch et Breakfast n ont pas de mots en commun dans leurs défntons respectves suvantes : - Two (or more) slces of bread a fllng between them, - The frst meal of the day (usually n the mornng). L algorthme de Lesk les consdérant de ce fat comme totalement sémantquement ndépendants. Par alleurs, la présence ou l absence d un mot donné peut radcalement changer le résultat. En effet, dans les cas où aucun mot ne co-occurre entre le contexte et les défntons ambguës de l occurrence à désambguïser, l approche de Lesk ne permet pas de désambguïser. La méthode de Lesk servt tout de même de base pour la plupart des travaux postéreurs en désambguïsaton basée sur les dctonnares nformatsés. La méthode de Lesk a été étendue par Vérons et Ide [Verons et al., 90; Ide et al., 90] en générant un réseau de neurones à partr des défntons du dctonnare anglas Collns (Collns Englsh Dctonary ou CED). Dans ce réseau, chaque entrée lexcale est représentée par un regroupement complexe de noeuds se composant de : un noeud central (ou nœud mot) qu représente l'entrée lexcale (mot) elle-même. des nœuds sens qu représentent les dfférents sens de ce mot dans le CED des nœuds mots Le noeud central est relé à un certan nombre de nœuds sens. Chacun de ces nœuds sens est relé aux nœuds mots représentant les mots qu apparassent dans sa défnton. Ces mots sont à leur tour relés aux nœuds sens selon leurs défntons dans le CED... etc. La structure ans étable est un réseau hautement complexe, dans lequel les mots sémantquement lés sont connectés va un ou pluseurs chemns dans 61

63 CHAPITRE 2. INDEXATION SEMANTIQUE EN RI le réseau. Les expérences menées sur 23 mots polysémques ont montré des résultats prometteurs [Ide et al., 90; Vérons et al., 90]. Pour résoudre le problème des défntons courtes posées par Lesk, Wlks et al. [Wlks et al., 90] ont utlsé l approche de désambguïsaton de Lesk avec le dctonnare LDOCE (Longman Dctonary of Contemporary Englsh) [Longman, 88], dont les défntons ont été manuellement étendues. La technque d expanson utlsée consste à enrchr toutes les défntons du dctonnare LDOCE avec les mots qu co-occurrent généralement avec les texte de ces défntons. Cette nformaton de co-occurrence a été dérvée de toutes les défntons du dctonnare. Wlks a examné la précson de son désambguïseur sur le mot 'bank' qu apparaît dans envrons 200 phrases du dctonnare LDOCE. Pour évaluer son désambguïseur, Wlks a d abord désambguïsé manuellement ces phrases. Pus les résultats de la désambguïsaton automatque sont comparés à ceux de la désambguïsaton manuelle. Wlks a rapporté que son système retrouvat le sens correct du mot bank ' dans plus de 50% des cas. Dans une approche dentque à celle de Wlks, Guthre et al. [Guthre et al., 91] ont exploté un ensemble de catégores de sujets 7 exstantes, assgnées à pluseurs défntons de sens dans le LDOCE, pendant le processus d'expanson de défntons. A la dfférence de Wlks, dans l approche de Guthre et al., une défnton assgnée à une certane catégore est étendue avec les seuls mots co-occurrents dans les autres défntons assgnées à la même catégore. Aucun test n'a cependant été rapporté pour ce désambguïseur Les approches basées sur un thésaurus Yarowsky [Yarowsky, 92], se basant sur l'encyclopéde Groler multméda [Groler] et sur les 1042 catégores sémantques 8 dans lesquelles tous les mots du thésaurus Roget [Krkpatrck, 88] sont placés, propose une approche de désambguïsaton en deux étapes: la premère consste à assgner une catégore (parm les 1024 ctées c-dessus) au mot à désambguïser, la seconde consste à assgner le sens correct à l occurrence de ce mot dans la catégore ans détermnée. Pour décder à quelle catégore sémantque une occurrence de mot ambgu dot être assgnée, un ensemble de mots ndces (ou mots détermnants selon la termnologe de [Rcart, 06]), est construt pour chaque catégore sémantque, en utlsant l encyclopéde Groler. Pour dérver l ensemble des mots détermnants d une catégore Ώ donnée : 7 Le LDOCE comporte 124 catégores de sujets majeures dont certanes contennent des sous-catégores (par exemple, economcs, engneerng, ). 8 Il s agt de larges catégores couvrant des domanes comme, les machnes/outls ou les nsectes/anmaux 62

64 CHAPITRE 2. INDEXATION SEMANTIQUE EN RI - Rechercher dans l encyclopéde, toutes les occurrences m j de chacun des mots m de Ώ, - Pour chaque occurrence m j ans trouvée, recuellr son contexte ζ j. Le contexte est défn par l ensemble des 100 mots entourant l'occurrence, sot 50 mots à drote et 50 mots à gauche. Sot donc C l ensemble de tous les contextes lés à la catégore Ώ, défn par : C = U Uζ j j - Pour chaque mot m dans C, calculer Score(m ) sur la base du résultat de la comparason de sa fréquence d'occurrence dans C à sa fréquence d'occurrence dans toute l'encyclopéde. - Les mots de scores les plus élevés sont utlsés comme mots détermnants pour leur catégore sémantque. Pour désambguïser un mot dans une catégore donnée, on examne son contexte. S un mot détermnant apparaît dans ce contexte, le mot ambgu appartent probablement à la catégore du mot détermnant. Dans ses tests, Yarowsky a applqué son désambguïseur sur 12 mots ambgus. Pluseurs centanes d'occurrences de ces mots ont été manuellement désambguïsés servant de base d évaluaton de la désambguïsaton automatque. La précson moyenne du désambguïseur est de 92%. Cependant, comme l a rapporté Sanderson [Sanderson, 97], aucune comparason n est possble entre ce traval et d autres travaux antéreurs de désambguïsaton en partculer car aucun n'avat utlsé le thésaurus Roget Les approches basées sur un lexque L approche de désambguïsaton de Sussna [Sussna, 93] s appue sur WordNet et sur le contexte local du mot à désambguïser. Le prncpe de l approche est smple : pour désambguïser un mot ambgu apparassant dans un certan contexte, on recherche tous les synsets de WordNet contenant ce mot. Chaque synset est affecté d un score égal à la somme des dstances sémantques entre les mots du contexte et ce synset. Le synset qu maxmse le score est retenu comme sens de l'occurrence ambguë du mot. Pour calculer la dstance sémantque entre deux mots quelconques dans le réseau WordNet, Sussna a assgné un pods à toutes les relatons entre synsets de WordNet. Le plus fort pods assgné à une relaton reflète la proxmté sémantque exprmée par cette relaton. Par exemple, l a assgné le pods le plus élevé aux relatons de synonyme dans un synset, tands que des relatons d'antonyme ont eu le pods le 63

65 CHAPITRE 2. INDEXATION SEMANTIQUE EN RI plus fable. La dstance sémantque entre deux synsets est alors calculée comme la somme des pods des relatons sur le chemn le plus court entre ces deux synsets. Sussna a testé sa technque de désambguïsaton sur dx documents extrats de la collecton TIME, à partr desquels 319 occurrences de mots ambgus ont été examnées. Ces occurrences ont d abord été manuellement désambguïsées servant de référence à l évaluaton du désambguïseur. Le désambguïseur a résolu ces occurrences avec une précson de 56%. Resnk dans [Resnk, 93a ; 93b; 95] explore une mesure de smlarté sémantque construte à partr de la taxnome s-a des noms de WordNet. Le prncpe qu sous-tend cette mesure est que plus deux mots sont sémantquement proches, plus le concept qu les subsume est spécfque. La méthode de Resnk approche les performances de désambguïsaton humane Approches basées sur le corpus (approches endogènes) Le prncpe de base de l acquston de connassances à partr des corpus pour la désambguïsaton lexcale est smple. En étudant un grand nombre de contextes de chacune des occurrences d un mot polysémque, l est possble d dentfer statstquement des ndces récurrents se démarquant (des ndces sallants selon la termnologe de [Audbert, 03]) pour chacune d elles. Cette phase d dentfcaton automatque des connassances est appelée apprentssage. À l ssue de cette phase, l algorthme de désambguïsaton est capable d assgner le terme adéquat aux mots apparassant dans une nouvelle phrase en se basant sur les connassances acquses durant la phase d apprentssage. Les approches basées sur le corpus se dvsent en approches supervsées [Wess, 73; Kelly et al., 75] et approches non supervsées [Small et al., 82; Schütze, 92;98]. Les premères s appuent sur des corpus manuellement étquetés tands que les secondes s affranchssent de cette lmtaton Approches basées sur les corpus étquetés En examnant 20 occurrences d'un mot ambgu, Wess [Wess, 73] a manuellement construt deux types de règles permettant la désambguïsaton. Il s agt de règles générales de contexte et de règles de modèle. 1. Une règle générale de contexte établt qu'une occurrence de mot ambgu a un certan sens s un mot partculer apparaît près de cette occurrence du mot ambgu. Par exemple, s le mot 'prnt' apparaît près du mot 'type' alors son sens est probablement lé à l'mpresson. 2. Un règle de modèle établt qu'une occurrence d un mot ambgu a un certan sens s un mot partculer apparaît à un endrot spécfque relatf à cette occurrence. Par 64

66 CHAPITRE 2. INDEXATION SEMANTIQUE EN RI exemple, s le mot 'of apparaît juste après le mot 'type', alors le sens de cette occurrence est probablement «varety of». L ensemble des règles ans construtes a été testé sur 30 occurrences de plus du mot ambgu. La précson du désambguïseur résultant est de l'ordre de 90%. Utlsant une approche smlare à celle de Wess, Kelly et Stone [Kelly et Stone, 75] ont manuellement créé un ensemble de règles pour mots. Ces règles sont composées de : 1. règles contextuelles semblables à celles créées par Wess, 2. règles de vérfcaton des aspects grammatcaux d'une occurrence de mot. La catégore grammatcale d'un mot est en effet, parfos, un ndcateur fort de son sens comme dans l exemple 'the tran' et 'to tran'. Les règles de grammare et de contexte ont été regroupées en deux ensembles de sorte que seules certanes règles sont applquées dans certanes stuatons. Des hypothèses condtonnelles contrôlent l'applcaton des ensembles de règle. À la dfférence du système de Wess, ce désambguïseur a été conçu pour trater une phrase entère en même temps. Le système n'a cependant pas eu de succès, et Kelly et Stone ont ben rapporté que cette technque ne peut pas réussr à échelle réelle. Une autre approche de désambguïsaton a été tentée par Small et Reger [Small et al., 82] employant des programmes appelés 'experts de mots. L dée état de construre un expert pour chaque mot ambgu. En désambguïsant des mots dans une phrase (qu consttue alors le contexte du mot à désambguïser), l'expert de chacun de ses mots sera appelé. Un expert examne le contexte de son mot, prend des décsons au sujet des sens possbles de ce mot et communque ces décsons aux autres experts. S, en tratant sa connassance, un expert ne peut ren fare de plus, l devent 'dormant' et attend que d'autres experts de mots lu communquent leurs décsons. Cette connassance addtonnelle fournra d'autres ndces à l'expert dormant pour lu permettre de 'se réveller' et fnr de désambguïser son mot. Aucun test n résultat n ont été rapportés pour ce désambguïseur [Sanderson, 97]. Le prncpal nconvénent des approches décrtes jusqu'c est qu elles sont basées sur des règles manuellement créées pour détermner les sens des mots. Quand ces approches étaent testées sur de plus grands vocabulares, les résultats obtenus étaent peu concluants [Kelly et al., 75; Small et al., 82]. 65

67 CHAPITRE 2. INDEXATION SEMANTIQUE EN RI Approches basées sur les corpus non étquetés Dans ce type d approche, la noton de sens est généralement drectement ndute du corpus. Schütze [Schütze, 92; 98] propose une méthode basée sur le modèle vectorel utlsé en RI [Salton et al., 75]. Dans cette approche, chaque mot m du corpus d apprentssage est représenté par un vecteur dans un espace de grande dmenson. Un vecteur pour un mot m est dérvé à partr des mots qu co-occurrent dans le contexte de m. Le contexte d une occurrence est défn par une fenêtre de cnquante mots autour de l occurrence en queston. Une entrée d un mot m dans le vecteur assocé à m correspond au nombre de cooccurrences de m dans le contexte de m. On défnt alors le vecteur de contexte d une occurrence de mot donné comme la moyenne des vecteurs assocés aux mots de son contexte. Le processus de désambguïsaton consste d abord à dentfer, pour chaque mot m du corpus, tous les vecteurs de contexte assocés à toutes les occurrences de m. Ces vecteurs de contexte sont ensute regroupés en clusters en foncton de leur degré de smltude. Chaque cluster défnssant un sens possble du mot m. Pour chaque cluster obtenu, on calcule son barycentre (centre de gravté) et on lu assoce le sens représenté par le cluster. Pour désambguïser une nouvelle occurrence du mot m, on calcule la dstance de son vecteur de contexte à chacun des barycentres des clusters assocés à m. Le sens correspondant au barycentre le plus proche est retenu. Les méthodes basés sur les corpus non étquetés possèdent l avantage de la dsponblté des corpus, mas véhculent un nconvénent majeur : les sens ne correspondent à aucun ensemble de sens ben défn. Les dstnctons de sens peuvent parfos s avérer déroutantes et sont, de plus, souvent dffclement utlsables par d autres applcatons que celle pour laquelle ls ont été défns [Wlks et al., 97] Les approches d ndexaton sémantque L ndexaton sémantque s ntéresse à la représentaton des documents et requêtes par les sens des mots qu ls contennent. Les sens des mots sont retrouvés par applcaton d une méthode de désambguïsaton. Dans ce su sut, nous dstnguons les approches d ndexaton basées sur la désambguïsaton endogène (basée sur le corpus), des approches d ndexaton basées sur la désambguïsaton exogène (basée sur les ressources externes). Les premères sont présentées en secton , tands que les secondes sont défnes en secton

68 CHAPITRE 2. INDEXATION SEMANTIQUE EN RI Indexaton sémantque basée sur la désambguïsaton endogène Dans ce cas, des corpus d apprentssage sont d abord utlsés pour construre la connassance nécessare à la désambguïsaton. Les mots d ndex sont ensute dentfés dans la collecton à ndexer, pus désambguïsés. Fnalement, les textes de la collecton sont ndexés en utlsant les sens ans retrouvés. Pour construre la connassance nécessare à la désambguïsaton, un grand nombre de contextes de chacune des occurrences d un mot ambgu est examné à partr d un corpus d entraînement, à l ssue de quo une connassance sur les règles d agencement et de fonctonnement des mots [Wess, 73], ou sur les usages des mots [Schütze et al., 95] est extrate. Cette connassance est ensute utlsée pour assgner le sens adéquat aux mots apparassant dans un nouveau contexte. Les systèmes de désambguïsaton de Wess [Wess, 73] et de Schütze et Pedersen [Schütze et al., 95] sont basés sur ce prncpe. Le désambguïseur de Wess se base sur des règles de désambguïsaton manuellement construtes par apprentssage à partr des contextes assocées à dfférents mots d un corpus. En désambguïsant tous les mots ambgus dans une collecton de documents et en ndexant la collecton par les sens adéquats, les résultats rapportés par le système SMART [Salton, 83], état une améloraton de seulement 1% sur la précson de la recherche. Le désambguïseur de Schütze et Pedersen [Schütze et al., 95] se base sur le degré de recouvrement du contexte de l occurrence du mot à désambguïser, et des usages possbles de ce mot dans le corpus examné. Les usages sont obtenus en regroupant des contextes smlares. Un usage de mot (word usage) défnt alors un sens ndvduel pour ce mot. En ndexant la collecton TREC-1 catégore B, avec seulement 25 requêtes, Schütze et Pedersen ont rapporté que l ndexaton basée sur la combnason des mots-clés et de leur tros melleurs usages du mot apportat un gan en précson de 14% Indexaton sémantque basée sur la désambguïsaton exogène Le prncpe de base des approches d ndexaton basées sur la désambguïsaton exogène, dffère des approches d ndexaton précédentes (secton ), prncpalement dans la méthode utlsée pour la désambguïsaton. Ic, la connassance nécessare à la désambguïsaton n est plus apprse à partr d un corpus, mas est extrate de la ressource lngustque externe utlsée. Formellement, cette connassance se tradut par des scores assocés aux dfférents sens d un mot, sur la base de : 67

69 CHAPITRE 2. INDEXATION SEMANTIQUE EN RI la dstance sémantque de ce sens aux dfférents sens assocés aux autres termes dans le document (contexte global) [Mhalcea et al., 00 ; Khan et al., 04 ; Bazz et al., 04 ; 05a,b,c], degré de recouvrement entre d une part, le contexte local de ce mot et d autre part le vosnage [Voorhees, 93] de ce sens ou la défnton de ce sens (ensemble de synonymes) [Katz et al., 98] dans la ressource lngustque utlsée. La plupart des approches d ndexaton sémantque basées sur la désambguïsaton exogène, s appuent en général sur des ontologes pour détermner les dfférents sens du mot mas auss pour désambguïser les sens des mots. Le prncpe de base de l ndexaton consste alors à extrare dans un premer temps, l ensemble des termes descrpteurs du document. Il s agt c d une ndexaton classque. Ces termes sont ensute désambguïsés. Pour ce fare, les sens de chaque terme d ndexaton sont d abord retrouvés à partr de la ressource externe. Pus, des scores sont assocés aux dfférents sens ans retrouvés. Le sens qu maxmse le score est alors retenu comme sens adéquat du terme d ndexaton correspondant. Une fos les termes d ndexaton désambguïsés, la représentaton des textes ndexés se fat sot à partr des seuls sens (ou concepts) dentfés lors de l étape de désambguïsaton, sot à partr d une combnason des mots-clés et sens corrects assocés. Les approches d ndexaton de [Bazz et al., 04; 05 ; Khan et al., 04 ; Mhalcea et al., 00 ; Voorhees, 93; Katz et al., 98] sont basées sur ce prncpe. Dans l approche d ndexaton de Voorhees, les textes à ndexer sont analysés phrase par phrase. La phrase défnt alors le contexte local de chacun des mots qu y apparassent. A chaque mot non vde rencontré dans la phrase, on recherche dans WordNet le (ou les) concepts (synsets ou ensembles de sens dans WordNet) qu lu correspondent. Un mot ambgu correspond à pluseurs synsets dans Wordnet. Pour détermner le synset (sens) adéquat pour un mot ambgu dans une phrase, chaque synset de ce mot est classé en se basant sur le nombre de mots co-occurrents entre un vosnage (Voorhees l'a appelé hood) de ce synset et le contexte local du mot ambgu correspondant. Le synset le meux classé est alors consdéré comme sens adéquat de l occurrence analysée du mot ambgu. En consdérant l'ensemble des synsets et les relatons d'hyperonyme et hyponyme dans WordNet comme les sommets et les arcs orentés d'un graphe, Voorhees défnt le vosnage d un synset s comme : " le plus large sous graphe connexe qu content s, content seulement les descendants d'un ancêtre de s et ne content aucun synset ayant un descendant qu nclut une autre nstance d'un membre (c. à d. un mot) de s." 68

70 CHAPITRE 2. INDEXATION SEMANTIQUE EN RI A ttre d'exemple, à partr du fragment de la structure de WordNet donnée par la fgure 2.2, le vosnage du premer sens de "house" nclurat les termes housng, lodgng, apartment, flat, cabn, gatehouse, bungalow, cottage. Les termes structure et constructon (stué en haut de la hérarche), ne seraent pas nclus pusque un des descendants de leur synset content un autre sens du terme house. FIGURE 2.2 : Exemple de vosnage du mot house. En utlsant une verson modfée su système SMART [Salton, 83], Voorhees a expérmenté cette approche sur une collecton de test désambguïsée (les requêtes de la collecton de test sont auss désambguïsées manuellement) par rapport aux performances du même processus sur la même collecton dans son état d'orgne (ambgu). Les tests ont été effectués sur les collectons CACM, CISI, CRANFIELD 1400, MEDLINE, et TIME. Les résultats de ses expérmentatons ont montré pour chacune de ces collectons, une nette dmnuton des performances du SRI dans le cas d'utlsaton des collectons désambguïsées. Une rason possble est que le taux de désambguïsaton n'est pas assez élevé. La technque de désambguïsaton pourrat auss être en cause. Dans une approche smlare, Katz et al [Katz et al., 98] analysent les textes à ndexer mot par mot. Chaque mot non vde rencontré est projeté sur WordNet dans l objectf d dentfer le (ou les) synset(s) correspondant(s). S un mot appare pluseurs synsets, l est ambgu. Pour désambguïser, Katz et al proposent auss une approche basée sur le contexte local. Le contexte local d'un mot est défn comme étant la lste ordonnée des mots démarrant du mot utle le plus proche du vosnage gauche ou drot jusqu'au mot cble. Exemple Dans le texte "... the jury had been charged to nvestgate reports of rregulartes n the prmary ", le contexte local drot de charged est X to nvestgate. Son contexte local gauche est the jury has been X. 69

71 CHAPITRE 2. INDEXATION SEMANTIQUE EN RI L hypothèse de Katz et al., est que des mots utlsés dans le même contexte local (appelés sélecteurs), ont souvent des sens proches. Les sélecteurs des mots d entrée sont extrats des contextes locaux gauche et drot, pus l ensemble S de tous les sélecteurs obtenus est comparé avec les synsets de WordNet. Le synset qu a le plus de mots en commun avec S est sélectonné comme sens adéquat du mot cble. Katz et al. ont testé leur désambguïseur sur le corpus Semcor. La précson rapportée est de 60%. En ncorporant ce désambguïseur au système SMART, Katz et al. ont rapporté que leur algorthme n'amélorat pas les performances du système. Cec pourrat être du aux erreurs de désambguïsaton. Dans l approche d ndexaton de Khan, les termes d ndexaton sont d abord extrats par une approche classque d ndexaton (tokensaton, élmnaton des mots vdes, pus lemmatsaton). Les termes d ndexaton dentfés sont ensute projetés sur une ontologe de domane (du sport), en utlsant une lste de synonymes. L objectf est de sélectonner les concepts de l ontologe correspondants à ces termes. Un terme d ndexaton qu s appare à plus d un concept de l ontologe est ambgu. Pour désambguïser, on détermne le degré de corrélaton des concepts sélectonnés, sur la base de leur proxmté sémantque. La proxmté sémantque de deux concepts est calculée par un score basé sur leur dstance mnmale mutuelle dans l'ontologe. Les concepts ambgus qu ont les plus hauts scores sont alors retenus. La requête est alors étendue avec les concepts ans sélectonnés. En ndexant ans des paragraphes annotant des passages audo dans le domane du sport, Khan et al. ont rapporté que leur modèle, comparé à un modèle vectorel classque basé mots-clés, assurat un haut degré de précson et de rappel (de l ordre de 90% chacun). Dans une approche smlare, Bazz et al. [Bazz et al., 04 ; 05a,b,c] proposent une technque d ndexaton sémantque des documents à base de concepts et de relatons entre concepts. Les termes d ndexaton sont d abord extrats du document par une approche classque d ndexaton. Les termes d ndexaton sont ensute projetés sur l ontologe lngustque WordNet afn d dentfer les concepts (ou sens) correspondants dans l ontologe. Lorsqu un terme d ndexaton appare plus d un concept dans WordNet, l est ambgu. Il faut le désambguïser. L approche de désambguïsaton proposée est basée sur le prncpe que, parm les dfférents sens possbles (dts concepts canddats) d un terme donné, le plus adéquat est celu qu a le plus de lens avec les autres concepts du même document. Formellement, l approche consste à affecter un score à chaque concept canddat d un terme d ndexaton donné. Le score d'un concept canddat est obtenu en sommant les valeurs de smlarté qu'l a avec les autres concepts canddats (correspondant aux dfférents sens des autres termes du document). Le concept canddat ayant le plus haut score est alors retenu comme sens adéquat du terme d ndexaton assocé. 70

72 CHAPITRE 2. INDEXATION SEMANTIQUE EN RI Fnalement, le document est représenté comme un réseau de concepts et de lens entre concepts. Les lens (arcs) entre les dfférents concepts sont pondérés par les valeurs de smlarté sémantque (ou proxmté sémantque [Leacock et al., 94; Ln, 98;Resnk, 99; Lesk, 86]) entre concepts lés. L approche d ndexaton sémantque ans proposée (dte approche DocCore) a été évaluée d une part dans le cadre de la collecton de test MuchMore 9 [Butelaar et al., 04], d autre part dans le cadre de la campagne CLEF Dans les deux cas, un SRI basé sur le modèle connexonnste est utlsé [Boughanem et al, 92]. Les résultats rapportés montrent que l'utlsaton des sens (concepts de WordNet) seuls pour représenter les documents ne permet pas d'amélorer les résultats comparatvement à la méthode classque basée sur les mots clés. Cependant, la combnason de l'ndexaton classque et de l ndexaton sémantque apporte une nette améloraton de la précson. Dans l approche DocTree [Bazz et al., 05] complémentant l approche DocCore, une fos les réseaux sémantques de la requête et des documents construts (à partr de la méthode DocCore), la requête et le document sont ensute projetés sur le sous réseau conceptuel de l'ontologe WordNet, consttué unquement de la relaton de subsompton (IS-A). La requête et le document sont donc représentés par des sous hérarches formées par les concepts qu'ls contennent et qu apparent ceux de l'ontologe. Les deux représentatons sont comparées en utlsant des opérateurs flous et une valeur de pertnence est alors calculée. Cette valeur exprme jusqu'à quel pont le document content les thèmes (features) exprmés dans la requête. 2.5 Concluson Nous avons consacré ce chaptre à l'état de l'art sur l ndexaton sémantque en RI. L ndexaton conceptuelle se base sur la représentaton des textes par des taxonomes conceptuelles, tands que l ndexaton sémantque ndexe par les sens des mots et se fonde sur des technques de désambguïsaton des sens. Nous avons passé en revue les dfférentes approches d ndexaton sémantque qu ont apporté la preuve que la désambguïsaton par les sens des mots état bénéfque à la RI [Schütze et al., 95]. En partculer, dans [Mhalcea et al., 00 ; Bazz et al., 04 ; 05] l a été montré que l'ndexaton par des synsets de WordNet, en plus de l'ndexaton basée mots-clés classque, peut réellement amélorer l'effcacté de la RI. Les sens des mots, les synonymes ne sont pas les seuls éléments susceptbles de porter la sémantque d un texte. En effet, déjà comme le montrat Deerwester à travers sa technque LSI, la sémantque du texte peut être latente, cachée dans le texte, et pas seulement

73 CHAPITRE 2. INDEXATION SEMANTIQUE EN RI explcte, donnée par un dctonnare ou autre ressource lngustque. En rejognant presque l dée de cette dmenson sémantque latente, les technques de foulle de textes vsent à explorer la connassance enfoue dans le texte. Cette connassance, exprmée sous forme de lens de co-occurrence condtonnelle entre les dfférents composants du texte d un document ou entre dfférents documents d un corpus, est un bon ndcateur d une sémantque que n un dctonnare n thesaurus ne peut exhber. C est cette dée qu a été à la base de nos recherches sur l ndexaton sémantque qu sera détallée dans le chaptre 4. La parte suvante de la thèse est dédée à la défnton de notre contrbuton à la défnton de modèles de RI flexbles basés sur les CP-Nets. 72

74 PARTIE 2 Modèles de RI flexbles basés sur les CP-Nets

75

76 Chaptre 3 Modèle de RI flexble basé sur les CP- Nets 3.1 Introducton Dans les modèles de RI flexbles, les termes de la requête ont été pondérés et des quantfcateurs lngustques tels que : tous, au mons k, ont été ntroduts dans le langage de requête comme opérateurs d agrégaton flous qualtatfs, offrant par là même un langage de requête plus souple que la smple utlsaton mots-clés connectés par les opérateurs AND et OR. La pondératon des termes de la requête a perms la formulaton de préférences utlsateur sur les crtères de recherche. Des pods numérques ont d abord été utlsés. Pus, des pods qualtatfs, plus smples et plus ntutfs, ont été formulés à partr de termes lngustques tels que: mportant, très mportant. Notre traval s nscrt dans cette optque, et nous proposons dans ce contexte une approche de RI flexble basée sur l utlsaton des graphes CP-Nets (Condtonal Preferences Networks). Plus partculèrement, nous proposons outre un langage de requête graphque basé sur les CP-Nets, et permettant la formulaton des préférences utlsateur de manère smple et ntutve, une méthode d agrégaton flexble basée sur les CP-Nets. Ce chaptre est organsé comme sut : En secton 3.2, nous décrvons le formalsme CP-Net sur lequel se base notre approche. La secton se déclne en tros sous sectons. Dans la sous- secton 3.2.1, nous défnssons les notatons et les concepts utlsés dans la défnton des CP-Nets. La sous-secton est dédée à la présentaton du modèle CP-Net. En secton nous présentons le modèle UCP-Net, extenson du modèle CP-Net avec des valeurs d utlté. La secton 3.3 présente notre modèle de pondératon des requêtes basé CP-Nets. En ntégrant l dée de la défnton d un modèle entèrement basé sur les CP-Nets, nous défnssons en secton 3.4 une approche d nterprétaton CP-Nets des documents ndexés, pus nous présentons en secton 3.5 un modèle d évaluaton flexble des requêtes CP-Nets. 75

77 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS 3.2 Problématque et motvatons L ntroducton des pods dans les termes de la requête [Buell et al., 81; Bordogna et al., 91; Pas, 99] a perms d exprmer les préférences utlsateur sur les crtères de recherche. L utlsateur peut ans fournr une descrpton plus précse de son beson nformatonnel. Cependant, les approches classques de pondératon des requêtes posent les problèmes suvants : 1. La pondératon force l utlsateur à quantfer le concept qualtatf et vague d mportance. Cette tâche n est pas évdente en partculer lorsque le nombre de crtères de recherche est élevé et que la requête est complexe, d une part car l n exste pas de bonne méthode pour pondérer correctement les termes de la requête, d autre part, lorsque le nombre de valeurs sur lesquelles portent les préférences est élevé, l est quasment mpossble d'énumérer un pods valde pour tous les termes de la requête. Cec est d autant plus vra pour les requêtes portant sur les préférences condtonnelles. 2. Les préférences condtonnelles ne sont pas spécfquement prses en charge dans les langages de requêtes classques. De tels énoncés préférentels peuvent certes être traduts dans le langage booléen, cependant leur pondératon n est pas une tâche évdente et peut condure à des ncohérences. Nous llustrons le problème posé pour les préférences condtonnelles à travers l exemple qu sut. Etant donné le beson utlsateur exprmé à travers l énoncé suvant : "I am lookng for housng n Pars or Lyon of studos or unversty room type. Knowng that I prefer to be n Pars rather than to be n Lyon, f I should go to Pars, I wll prefer beng nto resdence hall (RH), whereas f I should go to Lyon, a studo s more preferable to me than a room n resdence hall. Moreover the Center town of Pars s more preferable to me than ts suburbs; whereas f I must go to Lyon, I wll rather prefer to resde n suburbs that n the center". Une telle requête fat ressortr des préférences condtonnelles. En tradusant les préférences qu y sont exprmées en valeurs numérques, une requête correspondante possble serat : (Pars 0.9 (RH 0.6 Studo 0.3) (Center 0.5 Suburbs 0.4)) (Lyon 0.8 (RH 0.5 Studo 0.8) (Center 0.7 Suburbs 0.8)). 76

78 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS Dans cette représentaton, les pods des termes R.H et Studo, Center et Suburbs, sont dfférents lorsqu ls sont assocés avec Pars ou Lyon respectvement. Cec tradut exactement les préférences condtonnelles exprmées dans l énoncé du beson utlsateur. La forme normale dsjonctve de cette requête est donnée par : (Pars 0.9 RH 0.6 Center 0.5) (Pars 0.9 Studo 0.3 Center 0.5) (Pars 0.9 RH 0.6 Suburbs 0.4) (Pars 0.9 Studo 0.3 Suburbs 0.4) (Lyon 0.8 RH 0.5 Center 0.7) (Lyon 0.8 Studo 0.8 Center 0.7) (Lyon 0.8 RH 0.5 Suburbs 0.8) (Lyon 0.8 Studo 0.8 Suburbs 0.8) (3.1) Même s cette représentaton supporte naturellement les préférences condtonnelles, elle reste problématque s quelques précautons ne sont pas prses au préalable. En effet, en supposant que chaque sous requête conjonctve de la requête globale possède un pods d mportance total, calculé par agrégaton des pods ndvduels de ses propres termes (en utlsant l opérateur mn ou l opérateur OWA [Dubos et al., 86; Yager, 87] ou smplement en moyennant les pods par exemple), on obtent un pods d mportance de (Pars Studo Center) égal à 0.56 tands que le pods d mportance de (Lyon Studo Center) est de 0.76 mplquant que la dernère alternatve est préférée à la premère. Ce résultat est contradctore avec les préférences formulées par l utlsateur. La pondératon que nous avons donnée, de façon tout à fat aléatore et ntutve, est ncorrecte. Cet exemple fat ressortr l mpact d une pondératon aléatore ou ntutve d une requête qualtatve, sur la précson et l exacttude de la sémantque qu elle tente d exprmer. Cec llustre la tâche dffcle de la pondératon des requêtes qualtatves. De ce fat, des travaux se sont orentés vers l'utlsaton de préférences qualtatves plus smples et plus ntutves, formulées à partr de termes lngustques tels : mportant, très mportant [Bordogna et al., 93 ; Bordogna et al., 95]. Cependant, le problème de la défnton des pods numérques des termes est reporté sur la défnton de la sémantque du concept flou mportant et des modulateurs lngustques très, peu, moyennement. Pour paller ces nconvénents, nous proposons, au travers de cette contrbuton [Boubekeur et al., 06a ;b], une approche mxte d expresson des préférences utlsateur combnant l expressvté et la smplcté du formalsme qualtatf à la pussance calculatore du formalsme quanttatf. Nous nous ntéressons partculèrement aux préférences condtonnelles. Une représentaton qualtatve, naturelle, smple et compacte de telles formes de préférences est supportée par les CP-Nets [Boutler et al., 99]. Nous proposons un modèle de RI basé sur les CP-Nets. Plus partculèrement, nous proposons : 1. une approche de formulaton des requêtes utlsateur flexbles (portant sur les préférences condtonnelles) à base de CP-Nets, 2. une méthode de pondératon automatque de la requête. Cette pondératon correspond à la quantfcaton du CP-Net par des valeurs de préférence (ou 77

79 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS valeurs d utlté). L extenson des CP-Nets par assocaton de valeurs d utltés, condut à un UCP-Net [Boutler et al., 01], correspondant à une requête pondérée correcte. La requête CP-Net ans pondérée dot être évaluée. 3. une approche d évaluaton flexble des requêtes basée sur la sémantque des CP- Nets. 3.3 Les CP-Nets Les CP-Nets (Condtonal Preference Networks) ont été ntroduts en 1999 par Boutler et al. [Boutler et al., 99], comme outl de représentaton compacte des relatons de préférences qualtatves. Ce modèle graphque explote l'ndépendance préférentelle condtonnelle dans la structuraton des préférences utlsateur sous l'hypothèse ceters-parbus 10. Nous défnssons ces notons en paragraphe suvant, avant d ntrodure le modèle CP-Net Notatons et défntons prélmnares = 1, 2, X n, un ensemble de varables (caractérstques ou attrbuts) sur lesquelles les préférences utlsateur sont défnes, étant donné un problème décsonnel fxé, et sot V un sous ensemble de V. Selon la termnologe de [Boutler et al., 99; Boutler et al., 01a; Brafman et al., 02b], on note : Sot V { X X..., } - Dom ( X ) = { x x..., x }, le domane de valeurs de la varable X, 1, 2, m - Asst(V ), l ensemble de toutes les nstancatons possbles de V. Une nstancaton de V résulte de l affectaton d une valeur à chaque varable dans V. - Asst(V), l espace de toutes les nstancatons possbles sur les varables de V. - Chaque élément dans Asst(V) défnt une alternatve. - O = Asst( V ) = Dom( X ) Dom( X )... Dom( ) alternatves possbles, 1 2 X n l ensemble de toutes les - Une assgnaton de valeur d'un sous-ensemble X de V est notée x. - La concaténaton de deux assgnatons partelles dsjontes respectvement de X et de Y est notée xy. 10 Toutes choses égales par alleurs (all else beng equal) 78

80 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS - S X Y = V, alors xy est un résultat complet (ou alternatve). Il est dt «compléton» de l'assgnaton partelle x. comp(x) est l'ensemble des complétons de x. Défnton d un préordre complet : Une relaton R sur un ensemble Ω donné défnt un préordre complet (total) sur Ω, s et seulement s : 1. f est réflexve ( x Ω, x R x ) 2. f est transtve ( x y, z Ω, ( x R y) ( y R z) ( x R z) 3. f est complète ( x, y Ω x y, ( x R y) ( y R x) ), ) Défnton de la relaton de préférence : Une relaton de préférence, notée f, défne sur l ensemble des alternatves O, est un préordre complet sur O. D où, tel que o. o, o' O, o f o' ou o' f o o f o' sgnfe que l alternatve o est au mons auss préférée que l alternatve Défnton de l ndépendance préférentelle : Un ensemble de caractérstques X est préférentellement ndépendant de son complément Y=V-X s et seulement s : ( X ), y y Asst( Y ) x1, x2 Asst 1, 2, x1 y1 f x2 y1 x1 y2 f x2 y2 S X est préférentellement ndépendant de son complément Y= V- X, on notera PI(X, Y). Cec équvaut à dre que l'ordre de préférence sur les éléments x 1 et x 2 de X reste nchangé quelques soent les valeurs des éléments y de Y. On dt que x 1 est préférable à x 2 ceters parbus (e. toutes choses égales par alleurs). Remarque : Une varable X est préférentellement dépendante d'une varable Y lorsque les préférences sur les valeurs de X dépendent des valeurs de Y. Y est dt parent de X, et on note Y= Pa(X). Le couple (X, Pa(X)) défnt une famlle de V. Défnton de l ndépendance préférentelle condtonnelle : Soent X, Y et Z des ensembles non vdes qu parttonnent V. X est condtonnellement préférentellement ndépendant de Y étant donné z Z (et on note CPI(X, z, Y)) s et seulement s : ( X ), y y Asst( Y ) x1, x2 Asst 1, 2, x1 y1z f x2 y1z x1 y2z f x2 y2z En d autres termes, l ndépendance préférentelle de X et de Y ne se produt que z Z, CPI X, z, Y, alors X est lorsque Z prend la valeur z. S de plus, ( ) 79

81 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS condtonnellement préférentellement ndépendant de Y étant donné Z (on CPI X, Z, Y ). note ( ) Défnton d une foncton d utlté : Une foncton d utlté u pour l ordre de préférence f défn sur O, est une foncton à valeur réelle sur O, u : O R o u( o ) telle que : o, 1 o2 O, o ( ) ( ) 1 f o2 u o1 u o2 Défnton de l ndépendance généralsée addtve (Generalzed Addtve Independance) [Bacchus et al., 95] : Soent X 1, X 2,..., X k des ensembles de varables non nécessarement dsjonts, et V = U X. X 1, X 2,..., X k sont ndépendants généralsés =1.. k addtfs (ou GAI) pour la foncton d utlté u s et seulement s u peut être décomposée en une somme de facteurs d utlté f défns sur chacun des ensembles X (= 1.. k). Formellement, f u V f X Le modèle CP-Net ( = 1.. k ) / ( ) = ( ) Etant donné un problème décsonnel défn sur un ensemble de N varables (ou attrbuts) X 1, X 2, X n sur lesquelles l utlsateur exprme ses préférences, chaque varable X est défne sur son propre domane de valeurs Dom ( X ) = { x 1, x2,..., xm}. Durant la formulaton des préférences, pour chaque varable X, l'utlsateur dot spécfer une lste de varables parentes de X (noté Pa(X)), qu vont affecter ses préférences sur les valeurs de X. Ans, pour chaque valeur de Pa(X), l'utlsateur dot spécfer un ordre de préférence total sur les valeurs de X ceters parbus. Cette nformaton est utlsée pour créer un graphe dans lequel chaque noeud X possède Pa(X) comme prédécesseur mmédat. Chaque nœud X dans le graphe est annoté par une table de préférences condtonnelles (Condtonal Preference Table) CPT(X), décrvant les préférences utlsateur sur les valeurs x de X, étant donnée chaque assgnaton de ses parents. La structure des énoncés d ndépendance préférentelle condtonnelle ans obtenus consttue le graphe CP-Net. = 1.. k 80

82 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS Exemple Etant donné un ensemble de 3 varables (ou attrbuts) V= {A, B, C} bnares défnes par Dom(A)= {a 1, a 2 }, Dom(B)= {b 1, b 2 } et Dom(C)= {c 1, c 2 }. Mes préférences sur les valeurs de ces tros attrbuts sont défnes comme sut : 1. je préfère ncondtonnellement a 1 à a 2 (.e a1 f a2 ), 2. mes préférences sur les valeurs de B dépendent des valeurs prses par A. Ans, s A prend la valeur a 1, je préfère b 1 à b 2, snon je préfère b 2 à b 1. Ces préférences condtonnelles se notent comme sut a a 1 2 : b 1 : b 2 f b2 f b1, et servront à annoter le noeud B dans le graphe CP-Net. La varable A qu détermne mes préférences sur les valeurs de B, est le parent de B dans le graphe CP-Net. De manère smlare, mes préférences sur les valeurs de C dépendent de celles de A, et s écrvent comme sut : a a 1 2 : c 1 : c 2 f c2 f c Le CP-Net qu encode mes préférences sur les varables A, B et C est ans défn à travers le graphe llustré en fgure FIGURE 3.1: Un exemple de CP-Net La relaton de préférence capturée par un CP-Net ndut un ordre de préférence partel sur l ensemble des assgnatons aux varables du CP-Net. Cet ordre partel peut être représenté par un graphe de préférences orenté et acyclque. Les nœuds du graphe sont des alternatves (.e. des assgnatons à toutes les varables) du CP-Net. Une relaton du nœud o vers le nœud o j sgnfe que o j est l alternatve mmédatement plus préférable à o. Par conventon, le graphe des préférences ndut est ans ordonné par ordre de préférence qualtatf décrossant : 1. le sommet du graphe de préférences représente l alternatve la mons préférable, 2. la feulle du graphe représente l alternatve la plus préférable. 81

83 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS A ttre d exemple, le graphe des préférences ndut par le CP-Net de la fgure 3.1 est donné en fgure 3.2. Dans ce cas, le melleur chox de l utlsateur (.e. l alternatve correspondant à sa plus haute préférence) est a 1 b 1 c 1 alors que le résultat correspondant à l alternatve la mons préférable est a 2 b 1 c 1. Les lens nternes sont construts de proche en proche en en flppant 11 une varable à la fos (en commençant par les nœuds les plus nternes du CP-Net) de sa valeur actuelle à sa valeur mmédatement plus préférable étant donnée la valeur de ses parents. Ans de a 2 b 1 c 1, en flppant la varable B de sa valeur actuelle b 1 à sa valeur mmédatement plus préférable étant donnée a 2, sot b 2, on obtent a 2 b 2 c 1. En flppant la valeur C de sa valeur c 1 à sa valeur mmédatement plus préférable étant donnée a 2, sot donc c 2, on obtent a 2 b 1 c 2. L alternatve mmédatement plus préférable à a 2 b 2 c 1 s obtent alors en flppant la valeur de C, de c 1 à c 2, ce qu donne l alternatve a 2 b 2 c 1. Cette même sorte est mmédatement plus préférable à a 2 b 1 c 2. A partr de a 2 b 2 c 2, on construt l alternatve mmédatement plus préférable en flppant A, de sa valeur courante a 2 à sa valeur mmédatement plus préférable a 1, ce qu donne l alternatve a 1 b 2 c 2, à partr de laquelle, en procédant comme précédemment, on construt de proche en proche les alternatves mmédatement plus préférables en flppant une à une les varables à leurs plus préférables valeurs étant donnée la valeur de leur parent A, ce qu nous mène à l alternatve la plus préférable du CP-Net., sot a 1 b 1 c 1. La sémantque des CP-Nets est smple, défne en termes d'ensembles d ordres de préférence qu sont consstants avec l'ensemble des contrantes mposées par les tables CPT. FIGURE 3.2 : Graphe de préférences ndut. 11 Le terme est utlsé dans [Boutler et al., 99] pour désgner une transton de la valeur actuelle d une varable à sa valeur mmédatement plus préférable (mprovng flppng) ou mmédatement mons préférable (worsenng flppng) 82

84 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS Les UCP-Nets Le formalsme UCP-Net (Utlty CP-Net) [Boutler et al., 01b] est une extenson du modèle CP-Net qu permet de représenter l nformaton sur l utlté quanttatve plutôt que de smples ordres qualtatfs. Le formalsme est basé sur la noton d ndépendance généralsée addtve. = un ensemble de f, (tel que U = Pa(X )) une quantfcaton défne pour, et u une foncton d utlté sur un ordre de préférences f. Un UCP-Net est un graphe orenté acyclque (ou DAG) G sur V qu vérfe les condtons suvantes : 1. u( X 1, X 2,..., X n ) = f X ( X, U ) = 1.. k 2. Le DAG G est un CP-Net valde pour f (.e. f satsfat le CP-Net). Défnton formelle d un UCP-Net Soent V { X 1, X 2,..., X k } varables donné, X ( X U ) chaque famlle ( X, U ) Exemple Le CP-Net de la fgure 3.1 peut être étendu en ncluant un facteur pour chaque famlle du graphe : f A ( A), f B ( B, A), fc ( C, A) tels que f B ( B, A) (respectvement f C ( C, A) ) s nterprète comme l utlté de B (respectvement de C) étant donné A. En partculer, nous avons : f f f A B C ( a1 ) = 0.97 ; f A ( a2 ) = 0.56 ( b2 a1 ) = 0.13 ; f B ( b2 a2 ) = 0.56 ( c a ) = 0.76 ; f ( b a ) = Sémantquement, ces dfférents facteurs sont GAI, d où : Plus partculèrement : u u 1 1 ( A, B, C) = f ( A) + f ( B, A) + f ( C A) B A B C, ( a b c ) = f ( a ) + f ( b a ) + f ( c a ), a Dom( A), b Dom( B), c Dom( C) j k A B j C k 2 1 j k d où : ( a1 b2 c1 ) = f A ( a1 ) + f B ( b2 a1 ) + fc ( c1 a1 ) = = ( a b c ) = f ( a ) + f ( b a ) + f ( c a ) = u u A 2 B 2 2 C 1 2 = Chacun des facteurs sert à quantfer la table CPT dans le graphe. Le graphe UCP-Net obtenu est donné en fgure

85 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS FIGURE 3.3 : Un exemple de UCP-Net. Une condton nécessare et suffsante pour qu un DAG quantfé sot un UCP-Net valde est donnée par la proposton suvante [Boutler et al., 01b] : Proposton : Sot G un DAG sur X 1, X 2,..., X n dont les facteurs reflètent la structure GAI d une foncton d utlté u. Alors G est un UCP-Net valde ss chaque varable X domne ses descendants. La relaton de domnance est formellement défne à travers la défnton suvante : étant donnée une varable X dans un DAG quantfé, tel que pour la famlle (X, U) / U = Pa( X ) est l ensemble des parents de X, on défnt la quantfcaton f X ( X, U ). Et soent Y= {Y 1, Y 2,..., Y m } l ensemble des descendants de X, Z = Pa(Y ) l ensemble des parents de Y excluant X et tout élément dans U, Z = U Z, et U un sous ensemble de varables dans U qu sont parentes de Y (la relaton entre ces varables est montrée en fgure 3.4). FIGURE 3.4 : Famlle étendue de X Défnton de la domnance X domne ses descendants étant donné u Dom( U ) s: x1, x2 Dom( X )/ f X ( x1, u) f X ( x2, u), z Dom( Z ), y ( = 1.. n) Dom( Y ), f ( x u) f ( x, u) f ( y, x, u, z ) f ( y, x, u z ) X 1, X 1 Y 2 Y 1, (3.2) X domne ses descendants s la relaton (3.2) est vrae u Dom( U ). 84

86 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS Détermner s un DAG quantfé est un UCP-Net mplque d examner chaque famlle étendue du CP-Net (Une famlle étendue désgne une varable du CP-Net, l ensemble de ses parents et l ensemble de ses descendants). Le nombre de tests mplqués est exponentel en talle des famlles étendues du CP-Net. Pluseurs condtons suffsantes fortes exstent cependant pour démontrer plus smplement qu'un DAG est un UCP-Net valde. Une de ces condtons suffsantes est donnée dans [Boutler et al., 01b] comme sut : Proposton : Sot G un DAG quantfé sur un ensemble de varables V = { X 1, X 2,..., X n }. Pour chaque varable X, sot U l'ensemble de ses parents : Pour x 1, x 2 appartenant à Dom(X), on défnt : Mnspan Mnspan Maxspan Maxspan ( ) ( x1, x2 ) = mn u Dom( U ) f X ( x1, u) f X ( x2, u) ( X ) = mn x, ( ) ( 1, 2 ) 1 x2 Dom X Mnspan x x ( x1, x2 ) = max u Dom( U ) f X ( x1, u) f X ( x2, u) ( X ) = max ( ) Maxspan( x, x ) x1, x2 Dom X ( ) 1 2 (3.3) Alors G est un UCP-Net s : ( X ) Maxspan( Y ) X V, Mnspan, Y étant les descendants de X (3.4) Intutvement, l s agt de montrer que toute varable domne ses descendants. La domnance est c exprmée par le fat que la plus pette dfférence entre deux valeurs quelconques de X, étant donnée n mporte quelle valeur de ses parents, est supéreure ou égale à la somme des plus grandes dfférences entre deux valeurs quelconques de chacun de ses descendants. Nous avons présenté dans cette secton les fondements théorques du modèle CP-Net, et explcté sa sémantque. Pus, nous avons défn son extenson à l utlsaton de valeurs d utlté, condusant au formalsme UCP-Net. Les CP-Nets ont été utlsés avec succès dans dvers problèmes décsonnels (vor annexe B). Nous nous proposons en secton suvante, de leur défnr un cadre d utlsaton dans le contexte de la RI. 3.4 Modèle de RI basé CP-Nets Les préférences condtonnelles consttuent la forme la plus usuelle et la plus ntutve des préférences humanes. Ces préférences ne sont pas spécfquement prses en charge dans les SRI. Il est certes possble de les tradure dans une formulaton booléenne dans laquelle les crtères de recherche sont pondérés pour tradure l ordre 85

87 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS de préférences sous-jacent. Cependant, comme nous l avons montré en secton 3.1, l n exste pas de méthode pour pondérer correctement de telles préférences, et une pondératon aléatore peut condure à des contradctons. C est dans l objectf de résoudre ce problème, que nous proposons à travers la présente contrbuton, un modèle de RI flexble basé sur les CP-Net. En partculer, nous proposons : 1. une approche de représentaton CP-Net de requêtes préférentelles exprmant des préférences qualtatves de l utlsateur, 2. une approche de pondératon automatque des requêtes CP-Nets, 3. une approche d évaluaton des requêtes CP-Nets. Nous présentons ces approches respectvement en paragraphes 3.3.1, et suvants Représentaton CP-Net des requêtes préférentelles Pour formuler sa requête, l utlsateur dot préalablement spécfer un ensemble de caractérstques (ou varables) sur lesquelles vont porter ses préférences. Chaque caractérstque est défne sur son propre domane de valeurs (une valeur est un terme de la requête). Pour chaque varable donnée X, l utlsateur dot spécfer toutes ses dépendances préférentelles, ans que l ordre de préférences correspondant sur Dom(X). Cette descrpton est utlsée pour construre le CP-Net requête : les nœuds du CP-Net sont les varables sur lesquelles portent les préférences utlsateur, les lens entre les nœuds défnssent les dépendances préférentelles spécfées par l utlsateur (On supposera dans ce qu sut que le graphe résultant est un DAG). L ordre de préférences sur un domane de valeurs est tradut en table CPT. La fgure 3.5 llustre le CP-Net correspondant à la requête (3.1) (secton 3.1). Les varables concernées sont Cty, Housng et Place telles que : Dom(Cty)={Pars, Lyon}, Dom(Housng) = {RH, Studo} Dom (Place) = {Center, Suburbs}. En outre, CPT(Cty) spécfe que Pars est ncondtonnellement préférable à Lyon (Pars f Lyon), tands que CPT(Housng) par exemple, spécfe un ordre de préférence sur les valeurs de Housng, sous la condton des valeurs prses par la varable Cty (ans par exemple, s Pars alors RH f Studo). 86

88 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS FIGURE 3.5 : Représentaton CP-Net d une requête booléenne La requête CP-Net est ensute pondérée par des facteurs d'utlté (pods de préférence). Notre processus de pondératon automatque de la requête CP-Net correspond à la génératon du UCP-Net correspondant et est basé sur la proprété de domnance (formule (3.4)) (énoncée en secton 3.3.3), nous le présentons c-après Pondératon automatque de la requête Pondérer la requête CP-Net, revent à tradure les ordres de préférences qualtatves portées par les tables CPT du CP-Net requête, en valeurs de préférences quanttatves. Cela revent donc à quantfer le CP-Net requête. L extenson naturelle des CP-Nets aux valeurs numérques de préférences est donnée par le modèle UCP-Net. Pondérer la requête CP-Net revent donc à générer le UCP-Net correspondant. Notre approche de génératon automatque du UCP-Net requête est basée sur les proprétés suvantes : 1. Toute varable X dot vérfer la proprété de domnance (formule (4)). 2. Un ordre de préférences sur Dom(X), étant donnée une valeur u Dom( Pa( X )), est tradut par une dstrbuton unforme des valeurs d utltés (ou degrés de préférence) sur Dom(X) étant donnée u. Intutvement, l s agt de dstrbuer unformément des degrés de préférences sur les valeurs x de X, de sorte à tradure numérquement les ordres de préférence qualtatfs ntroduts sur les x dans le CP-Net consdéré. Ans, s par exemple, une varable X, apparaît dans le CP-Net avec deux valeurs x 1 et x 2 telles que x1 f x2, cec se tradut dans notre approche par : f X (x 2 )=0 et f X (x 2 )=1. Pour une varable X à tros valeurs telle que x1 f x2 f x3, on obtent: f X (x 3 )=0, f X (x 2 )=1/2 et f X (x 1 )=2/2. Pour respecter la proprété de domnance à la base de tout UCP-Net, on mpose en outre une condton supplémentare sur les degrés de préférences assocés aux varables représentant les nœuds nternes du CP-Net. L approche est formellement défne dans ce qu sut. 87

89 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS Sot X un nœud de la requête CP-Net, tel que Dom(X) = k, et sot u() le degré de préférence d ordre (en supposant un degré de préférence crossant lorsque croît) sur les valeurs de X. 1. Pour tout nœud feulle X, nous générons les utltés sur Dom(X), suvant la proprété 1, comme sut : u(1) = 0 et u() = u( - 1) + (1 / k-1 ), 1 < <= k (3.5) 2. Tout nœud nterne X, possède des descendants, et dot donc respecter la proprété de domnance (proprété 2 énoncée plus haut). Pour tout nœud nterne X du CP-Net, on calcule alors la quantté : ( B ) S = Maxspan où les B sont les descendants de X. Comme X dot domner ses descendants on mpose que : Mnspan( X ) S Pluseurs valeurs répondent à la condton, nous chosssons la plus pette, S, et posons Mnspan ( X ) = S. Nous générons alors les utltés du nœud nterne X comme sut : u(1) = 0 et u() = u( - 1) + S, 1 < <= k (3.6) On calcule alors Mnspan ( X ) et Maxspan( X ) Mnspan de manère trvale comme sut: ( X ) = u( + 1 ) u( ) et Maxspan( X ) u( k) u( 1) = (3.7) Les valeurs d utlté obtenues pouvant être supéreures à 1 (cas des nœuds nternes), nous proposons une normalsaton des facteurs d utlté ndvduels du CP-Net et des utltés globales de chacune de ses alternatves en dvsant chaque valeur d utlté du CP-Net par l utlté globale de l alternatve la plus préférée. Illustraton Nous nous proposons de construre l UCP-Net correspondant au CP-Net de la Fgure 3.5, en utlsant notre algorthme de pondératon. Chacun des nœuds feulles, Housng et Place, est défn sur deux valeurs, auxquelles on assoce les degrés de préférences u(1)=0 pour la valeur la mons préférable, et u(2) = 1 pour la valeur la plus préférable. Ce qu donne respectvement : Et f f Hou sn g Hou sn g ( RH, Pars) = 1 ; f Hou sn g ( Studo, Pars) = ( RH, Lyon) = 0 ; f ( Studo, Lyon) = 1 Hou sn g 0 88

90 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS f f Place Place ( Center, Pars) = 1 ; f Place ( Suburbs, Pars) = ( Center, Lyon) = 0 ; f ( Suburbs, Lyon) = 1 Concernant le nœud racne Cty, qu possède deux descendants, Housng et Place, on S = Maxspan Housng + Maxspan Place. On a : Place calcule d abord : ( ) ( ) Maxspan( Housng) = 1 0 = 1 Maxspan( Place) = 1 0 = 1 D où S=2, ce qu mplque les degrés de préférences suvants sur les deux valeurs de la varable Cty : u(1)=0 pour la valeur la mons préférable, et u(2) = 0+S=2 pour la valeur la plus préférable. Ce qu donne : f Cty ( Pars) = 2 ; f ( Lyon) = 0 En normalsant l ensemble des quantfcatons ans obtenues par la quantfcaton de la melleure alternatve (sot donc par u ( Pars, RH, Center) = = 4 ), on obtent les valeurs suvantes : f f f f Hou sn g Hou sn g Place Place ( RH, Pars) = 0.25 ; f Hou sn g ( Studo, Pars) = ( RH, Lyon) = 0 ; f ( Studo, Lyon) = Cty Hou sn g ( Center, Pars) = 0.25 ; f Place ( Suburbs, Pars) = ( Center, Lyon) = 0 ; f ( Suburbs, Lyon) = f Cty Place ( Pars) = 0.5 ; f ( Lyon) = 0 Ces valeurs sont utlsées pour construre l UCP-Net présenté en fgure 3.6. Cty FIGURE 3.6 : L UCP-Net requête Les dfférents facteurs d utlté étant GAI (selon les fondements des UCP-Nets), nous avons alors à ttre d exemple : u(pars, Studo, Center) = 0.5 et u(lyon, studo, Center) = 0.25 tradusant le fat que la premère alternatve est préférée à la seconde (alors que la pondératon aléatore telle que présentée dans l exemple en secton 3.1 produsat un 89

91 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS résultat contradctore). L UCP-Net ans obtenu peut alors être tradut en la requête booléenne pondérée correcte suvante : (Pars 0.5 (RH 0.25 Studo 0) (Center 0.25 Suburbs 0)) (Lyon 0 (RH 0 Studo 0.25) (Center 0 Suburbs 0.25). La requête pondérée ans obtenue est alors évaluée. Nous présentons notre approche d évaluaton des requêtes en paragraphe suvant Evaluaton de la requête CP-Net Le but de l évaluaton est de calculer le degré de pertnence des documents pour la requête. L objectf est de classer les documents par ordre de pertnence et de retourner à l utlsateur, les documents les plus pertnents pour sa requête. Notre approche d évaluaton est basée sur les étapes suvantes : - le processus de recherche est lancé dans un premer temps sur l ensemble des termes de la requête CP-Net sans tenr compte de la pondératon au préalable. Le résultat est une lste de documents pertnents probables pour la requête, - les documents retrouvés sont ensute représentés par des CP-Nets, pus documents et requêtes sont reformulés en expressons booléennes. - Un processus d évaluaton calcule la valeur de pertnence de tels documents pour la requête UCP-Net, et ordonne les documents par degré de pertnence. La premère étape est une recherche classque. Les documents qu apparent des termes de la requête sont alors retournés par le système. Les étapes 2 et 3 sont propres à notre approche, nous les décrvons dans ce qu sut Le document vu comme un CP-Net Partant de la constataton que seuls les termes du document qu s apparent avec les termes de la requête partcpent à l évaluaton de la pertnence de ce document pour la requête, chaque document supposé pertnent pour une requête Q = ( V, E) est représenté par un CP-Net D = ( V, E ' ) dans le même espace de termes que la requête. On réalse ans une projecton du document sur l espace de la requête. La topologe correspondante est semblable à celle du CP-Net requête Q = ( V, E) mas les tables CPT sont dfférentes. En effet, les CPT dans le CP-Net document D = ( V, E ' ) quantfent numérquement l'mportance des termes d'ndexaton dans D. Cette mportance se tradut par les pods des termes correspondants dans D. Les pods sont généralement exprmés par une varante de tf*df. Le document (respectvement la requête) est alors tradut en expresson booléenne, comme une dsjoncton de conjonctons. Chaque conjoncton étant construte sur l ensemble des 90

92 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS éléments du produt cartésen Dom ( X ) Dom( X ) K Dom( X ) 1 2 n sont les noeuds du CP-Net document (respectvement CP-Net requête). Formellement, on a : Où ( X ), 1 n, j Dom( X ) t, j Dom 1, p, j est le pods de t, j f, j est le pods du terme t, j ( ( t p ) D j, j,, j où les X (1 n) = (3.8) ( ( t f ) Q j, j,, j = (3.9) dans D (basé sur sa fréquence d occurrence), (son utlté) dans Q étant donnée une valeur de ses parents. Sot m = Dom( X ) Dom( X )... Dom( ) 1 2 X n, en posant t j = Tk, 1 k m représentatons (2) et (3) sont respectvement rédutes à : k ( T, S ) = ( T S ) k k k k,, les D =, (3.10) k ( T, U ) = ( T U ) Q =, (3.11) k k k k Où S k et U k sont les pods agrégés des valeurs (3.8) et (3.9). S k et U k sont calculés comme sut : p, j respectvement ntroduts dans Calcul des U k Pusque les facteurs f, j dans le UCP-Net requête sont GAI, leur agrégaton est addtve et donnée par : U k = f, j (3.12) Calcul des S k Une valeur S k défnt le pods d une conjoncton de termes t, j dans le document. Ce pods est mesuré comme agrégaton des pods ndvduels des termes correspondants. Le pods d un terme dans un document est classquement défn, sur la base de ses statstques d occurrences, comme mesure de tf*df. Cependant, la projecton du document dans l espace de la requête et sa représentaton dans un espace topologque smlare, ntrodut une nouvelle dmenson d mportance pour les termes du document, selon la sémantque du CP-Net. Les nœuds parents dans un graphe CP-Net sont plus mportants que leurs descendants. Pour tenr compte de cette mportance 91

93 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS (que l on appellera mportance de poston), nous proposons de calculer les pods agrégés S k, comme moyenne pondérée des pods p, j de termes t, j dans le document, comme sut : On attrbue d abord une valeur d mportance de poston G X à chacun des noeuds X du CP-Net document selon leurs nveaux respectfs dans le graphe : 1. pour tout nœud feulle X, G = 1, X 2. pour tout nœud nterne X, notons B l les descendants de X et G B leurs ordres l d mportance respectfs, on a : ( G ) 1 G max + (3.13) X = l Bl Le pods agrégé S k ntrodut dans (3.10) est alors donné par : Où X est le noeud contenant le terme S k = ( p, j * GX ) G X t, de D. j (3.14) Illustraton En supposant par exemple, que le processus de recherche lancé ntalement sur la requête donnée en fgure 3.6, retourne le document D 1 présenté en tableau 3.1, où chaque pare (t, p) représente le terme et le pods assocé dans le document respectvement. L UCP-Net assocé au document D 1 est obtenu en représentant le document dans le même espace de termes que la requête. La topologe du graphe obtenu est dentque à celle du CP-Net requête. D 1 ((Pars, 0.7), (Lyon, 0.5), (RH, 0.2)) TABLEAU 3.1 : Document retourné Ben que la noton de préférences entre les termes du document sot c absente, nous appellerons le graphe ans obtenu, un CP-Net document par analoge au CP-Net requête à partr duquel l est calqué. Le CP-Net document correspondant est donné en fgure 3.7. FIGURE 3.7 : D 1 vu comme un UCP-Net 92

94 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS En consdérant la requête UCP-Net ntrodute en fgure 3.6 comme sut : Cette requête ans que le document UCP-Net ntrodut en fgure 3.7 sont nterprétés respectvement en utlsant les formules (3.8) et (3.9), comme sut : Q = ((Pars,0.5) ( RH,0.25) (Center,0.25)) ((Pars,0.5) (RH,0.25) (Suburbs,0)) ((Pars,0.5) (Studo,0) (Center,0.25)) ((Pars,0.5) (Studo,0) (Suburbs,0)) ((Lyon,0) (RH,0) (Center,0)) ((Lyon,0) (RH,0) (Suburbs,0.25)) ((Lyon,0) (Studo,0.25) (Center,0)) ((Lyon,0) (Studo,0.25) (Suburb,0.25)). D 1 = ((Pars, 0.7) (RH, 0.2) (center, 0)) ((Pars, 0.7) (RH, 0.2) (suburbs,0)) ((Pars, 0.7) (Studo, 0) (center, 0)) ((Pars, 0.7) (Studo, 0) (suburbs,0)) ((Lyon, 0.5) (RH, 0.2) (center, 0)) ((Lyon, 0.5) (RH, 0.2) (suburbs,0)) (Lyon, 0.5) (Studo, 0) (center, 0)) ((Lyon, 0.5) (Studo, 0) (suburbs,0)). Pour chaque conjoncton de la requête, le pods global est calculé comme la somme des facteurs d utltés ndvduels de chacun de ses termes selon la formule (3.12). Ans par exemple, le pods de la conjoncton T 1 = (Pars,0.5) ( RH,0.25) (Center,0.25) égale sot 1. Pour chaque conjoncton correspondante dans le document, le pods global est calculé selon la formule (3.14), comme somme des pods ndvduels des termes de la conjoncton pondérés par le nveau d mportance assocé au nœud correspondant dans le CP-Net document, tel que défn dans la formule (3.13). Ans pour calculer le pods d une conjoncton T k, on calcule d abord les pods d mportance assocés aux dfférents nœuds du graphe CP-Net document, sot selon la formule (3.13) : G Hou sn g = GPlace = 1 et GCty = 1+ 1 = 2 Ans par exemple, le pods de la conjoncton T 1 = (Pars,0.7) ( RH,0.2) (Center,0) égale : 93

95 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS G Cty *0.7 + G G Cty Hou sn g + G Hou sn g *0.2 + G + G Place Place * = = = 0.4 En effectuant ces calculs sur l ensemble des conjonctons tant dans la requête UCP- Net Q que dans le document UCP-Net D 1, on aboutt aux représentatons dsjonctves de la requête et du document respectvement défnes comme sut: Q = (T 1, 1) (T 2,0.75) ( T 3,0.75) ( T 4, 0.5) (T 5,0) (T 6, 0.25) (T 7, 0.25) ( T 8, 0.5). D 1 = (T 1, 0.4) ( T 2,0.4) (T 3, 0.35) (T 4, 0.35) (T 5,0.3) (T 6, 0.3) (T 7,0.25) (T 8, 0.25). Où T, 1 8 est donné dans le tableau 3.2, Les pods des T dans la requête Q (respectvement dans le document D 1 ) sont calculés en utlsant la formule (3.12) (respectvement (3.14)). T 1 = (Pars RH Center ) T 3 = (Pars Studo Center) T 5 = (Lyon RH Center ) T 2 = (Pars RH Suburbs) T 4 = (Pars Studo Suburbs) T 6 = (Lyon RH Suburbs) T 7 = (Lyon Studo Center) T 8 = (Lyon Studo Suburbs ) TABLEAU 3.2 : Sous-requêtes conjonctves Evaluaton de la requête Sot Q un CP-Net requête exprmée sous forme d une expresson booléenne en forme normale dsjonctve telle que présentée dans la formule (3.11), et D le document retourné est exprmé sous forme booléenne tel que défn dans la formule (3.10). Pour évaluer la pertnence du document D pour la requête pondérée Q, sot RSV ( D, Q), dfférentes formules de calcul peuvent être utlsés. En partculer, les opérateurs d agrégaton somme, moyenne, moyenne pondérée, moyenne pondérée ordonnée (OWA) (ntroduts en secton ), ou des opérateurs de tr tels que défns dans l approche de [Loseau et al., 07] (secton ) peuvent être utlsés. Nous proposons pour notre cas d adapter et d utlser l opérateur du mnmum pondéré [Dubos et al., 86 ; Yager, 87] comme sut : F D, T k = S le pods de T k dans le document, la foncton d évaluaton de T k pour le document D. Les Sot U K le pods d mportance de T k dans Q, ( ) k D, on note RSV k ( F( D T ), U ) T k k 94

96 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS dfférentes conjonctons pondérées (T k, U k ) étant lées par une une dsjoncton, ce qu donne: ( D Q) T ( F( D T ), U ) mn( S U ) RSV k, =, (3.15) k RSV, est alors obtenue par aggrégaton de l ensemble des pods de pertnence calculés dans (3.15) comme sut : k ( D Q) max ( mn( S U )) k k k RSV, =, (3.16) k k Illustraton En consdérant le document et la requête de l llustraton précédente (secton ), sot : Q = (T 1, 1) (T 2,0.75) ( T 3,0.75) ( T 4, 0.5) (T 5,0) (T 6, 0.25) (T 7, 0.25) ( T 8, 0.5). D 1 = (T 1, 0.4) ( T 2,0.4) (T 3, 0.35) (T 4, 0.35) (T 5,0.3) (T 6, 0.3) (T 7,0.25) (T 8, 0.25). et en utlsant les égaltés (3.15) et (3.16), on calcule les pertnences partelles du document D 1 pour chaque sous-requête T k comme sut : RSV RSV RSV RSV RSV RSV RSV RSV T1 T2 T3 T4 T5 T6 T7 T8 ( F( D, T1 ), U1 ) = mn( S1, U1 ) = mn ( 0.4; 1) = 0.4 ( F( D, T2 ), U 2 ) = mn( S 2, U 2 ) = mn ( 0.4; 0.75) = 0.4 ( F( D, T3 ), U 3 ) = mn( S3, U 3 ) = mn ( 0.35; 0.75) = ( F( D, T4 ), U 4 ) = mn( S 4, U 4 ) = mn ( 0.35; 0.5) = 0.4 ( F( D, T5 ), U 5 ) = mn( S5, U 5 ) = mn ( 0.3; 0) = 0 ( F( D, T6 ), U 6 ) = mn( S6, U 6 ) = mn ( 0.3; 0.25) = 0.25 ( F( D, T7 ), U 7 ) = mn( S7, U 7 ) = mn ( 0.25; 0.25) = ( F( D, T ), U ) = mn( S, U ) = mn ( 0.25; 0.5) = La pertnence globale du document pour la requête dsjonctve Q est alors calculé comme le maxmum des pertnences partelles ans calculés. L ensemble des résultats obtenus est résumé dans le Tableau 3.3. Le document D 1 peut ans être ordonné sot partellement selon sa pertnence partelle pour chaque sous-requête T k, ou globalement selon sa pertnence globale pour la requête Q = T k

97 CHAPITRE 3. MODELE DE RI FLEXIBLE BASE SUR LES CP-NETS T 1 T 2 T 3 T 4 T 5 T 6 T 7 T 8 GRSV 12 D TABLEAU 3.3 : Pertnences partelles et totale du document D Concluson Nous avons présenté dans ce chaptre notre approche de RI flexble basée sur les CP- Nets. Cette approche est fondée d une part sur l expresson de requêtes flexbles tradusant les préférences d'un utlsateur, utlsant les CP-Nets. Le formalsme utlsé est graphque et qualtatf ce qu permet une formulaton naturelle et ntutve et une représentaton smple et compacte des préférences. Le formalsme qualtatf possède une pussance d'expresson élevée mas déclne en pussance de calcul. Nous avons proposé de l aller aux utltés. Les utltés, représentant des pods d'mportance condtonnelle des termes de la requête, sont calculées automatquement. L utlsateur est ans déchargé de cette tâche fastdeuse et non mons mprobable de pondératon, et les pods générés sont corrects pusque basés sur des fondements théorques établs (valdté d un UCP-Net). D autre part, cette approche est fondée sur l évaluaton flexble, des requêtes dans la sémantque CP-Net basée sur l utlsaton d un opérateur d agrégaton flexble, en l occurrence le mnmum pondéré, que nous avons adapté à la sémantque CP-Net. Notons cependant que le graphe CP-Net ntrodut par l utlsateur peut être ncorrect (nconsstant). Des outls d ade à la formulaton et des outls de correcton automatque seraent nécessares pour garantr la valdté des descrptons fournes par l utlsateur. 12 Global RSV 96

98 Chaptre 4 Approche de RI sémantque 4.1 Introducton Nous avons présenté dans le chaptre précédent, notre modèle de RI flexble basé sur les CP-Nets. Les représentatons des documents et requêtes d abord formalsées en graphes CP-Nets, sont tradutes sous forme booléenne classque. L apparement document-requête est basé sur les mots clés que leurs représentatons respectves apparent. Or, les technques basées sur les mots clés (dte technque en sacs de mots) mènent aux problèmes crucaux de dsparté des termes (term msmatch) et d'ambguïté RI. Les approches d ndexaton sémantque tentent de paller ces problèmes en autorsant la représentaton du contenu nformatonnel des documents et requêtes par les sens des mots plutôt que par les mots qu ls contennent. Notre contrbuton présentée dans ce chaptre est lée à ce contexte et porte sur une nouvelle approche de RI sémantque. En partculer, nous proposons une approche d ndexaton sémantque des documents et une approche d évaluaton des requêtes. 1. Approche d ndexaton sémantque des documents : notre approche d ndexaton sémantque est basée sur l utlsaton conjonte de WordNet pour la detecton des concepts représentatfs du document, et des règles d assocaton pour la découverte des relatons entre ces concepts. Toute approche d ndexaton sémantque étant ntrnsèquement lée à la désambguïsaton, nous proposons pour notre cas, une nouvelle technque de désambguïsaton basée sur le calcul de scores dépendants d une part de la dstance sémantque des concepts dans l ontologe et d autre part de l mportance des termes correspondants dans le document. Nous proposons en outre de découvrr une certane sémantque latente du texte portée par les assocatons mplctes entre les termes du document. Une telle sémantque est découverte par une technque de foulle de textes [Ahonen et al., 97], en l occurrence les règles d assocaton. Le résultat de l ndexaton est un ensemble de concepts représentatfs du document, et de relatons entre concepts. 97

99 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE 2. Approche d évaluaton des requêtes : notre une approche d évaluaton est basée sur une mesure de smlarté des graphes. Pour cele, la requête est exprmée sous forme d un CP-Net suvant notre approche décrte dans le chaptre 3. Nous proposons alors une technque de constructon du CP-Net document à partr de l ensemble des concepts et relatons assocées découverts à l ssue de l étape d ndexaton sémantque. La correspondance requête_ document est alors évaluée comme mesure de smlarté des graphes CP-Nets correspondants. Le chaptre est structuré comme sut : En secton 4.2, nous présentons les motvatons qu ont été à l orgne de nos propostons. En secton 4.3, nous présentons les outls sur lesquels est basée notre approche d ndexaton sémantque, à savor WordNet et les règles d assocaton. Les fondements théorques de notre approche d ndexaton sémantque, un exemple llustratf ans que quelques résultats expérmentaux sont donnés en secton 4.4. Enfn, la secton 4.5 présente notre approche d évaluaton des requêtes CP-Nets. 4.2 Motvatons Les approches d ndexaton sémantque permettent de paller les nconvénents de l ndexaton classque basée mots-clés en offrant le moyen de lever l ambguïté des mots et les dspartés grâce à l utlsaton des sens des mots plutôt que des mots eux-mêmes en tant qu enttés lexcales. L ndexaton LSI permet en outre de retrouver une dmenson sémantque latente plus abstrate que les sens donnés par un dctonnare, et portée par une certane corrélaton entre les termes du document. Néanmons, l reste à notre sens deux ponts problématques dans ces approches, sur lesquels nous souhatons nous pencher : La désambguïsaton sémantque s appue sur le degré de corrélaton mutuelle des sens des mots du document. Un score est ans assocé à chaque sens sur la base de sa dstance sémantque cumulée par rapport à tous les sens des autres mots dans le document. Cette dstance sémantque ne tent compte que des relatons sémantques des sens, telles que défnes dans le dctonnare ou l ontologe. Cec est à notre sens problématque car un sens assocé à un terme peut être chos alors que son score est fortement nfluencé par sa corrélaton avec un ou pluseurs sens assocés à des termes de mondre mportance dans le document, tands que s son melleur sens est moyennement corrélé avec tous les termes mportants dans le document, l sera gnoré. Pour résoudre ce problème, nous proposons une autre approche de calcul du score de désambguïsaton, basée sur la dstance sémantque des concepts assocés dans l ontologe et tenant compte du degré d mportance des termes correspondants dans le document. Le degré d mportance des termes est calculé par une mesure de tf*df 98

100 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE adaptée aux termes composés. Les termes smples et composés sont découverts dans le document par projecton sur l ontologe. Les sens des mots fourns par un dctonnare sont statques, et ne dépendent pas du contexte local d utlsaton du mot dans le document. L approche d ndexaton par la sémantque latente tente de résoudre ce problème par un clusterng des mots smlares va une technque de réducton de la dmensonnalté de la matrce termes-documents. L ndexaton conceptuelle tente à partr d une taxonome conceptuelle extrate du texte, de construre sa sémantque. Les lens entre les dfférents concepts d une telle taxonome sont des lens fonctonnels entre enttés lexcales. Il nous paraît qu une autre dmenson sémantque, celle défnssant les lens de dépendance condtonnelle entre les sens des termes, défnssant par là même l orentaton sujet, le topc du document pourrat être une voe ntéressante pour l exploraton de la sémantque du document. Les lens mplctes entre les sens des mots (ou concepts) pourraent être explotés pour retrouver non seulement les documents qu tratent des termes ayant le même sens que la requête mas auss des documents qu tratent de sujets connexes. Nous proposons alors de découvrr la sémantque mplcte du texte par le bas d une technque de découverte de connassances, à savor des règles d assocaton. Plus partculèrement, nous décrvons dans ce chaptre, une approche d'ndexaton sémantque de documents basée sur les CP-Nets. Les nœuds du CP-Net sont des concepts. Les relatons du CP-Net tradusent des dépendances contextuelles entre concepts. En résumé, nous défnssons : 1. une approche d extracton des termes du document, 2. une formule de pondératon des termes tenant compte de leur sémantque, 3. une méthode de désambguïsaton des termes basée sur l'utlsaton de l'ontologe WordNet, 4. une approche de découverte des relatons contextuelles entre concepts va une extenson des règles d assocaton 5. une approche pour combner les concepts et les relatons correspondantes dans une représentaton graphque compacte, à savor le CP-Net. Le formalsme CP-Net est utlsé comme langage d'ndexaton, pour deux rasons. D'abord, les CP-Nets supportent naturellement l ndexaton conceptuelle et offrent un cadre unfé pour organser de manère relatvement compacte et ntutve les concepts et les relatons qu les lent. En second leu, les CP-Nets permettent une représentaton plus rche et plus précse des documents pusqu ls supportent les relatons contextuelles et sémantques entre concepts. Les relatons contextuelles sont susceptbles d'amélorer les performances du processus de recherche d nformaton. Les concepts et les relatons sémantques assocées sont susceptbles de résoudre les problèmes de dsparté et d'ambguïté des termes. 99

101 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE Par alleurs, dans l objectf de s orenter vers un modèle «tout CP-Net», et afn d évter la traducton des représentatons CP-Nets des documents et requêtes dans le paradgme booléen, tel que proposé dans notre premère contrbuton en chaptre 3, nous avons défn une approche d évaluaton de la pertnence des documents pour des requêtes, basée sur une mesure de smlarté des graphes CP-Nets correspondants. Avant de décrre notre approche de RI sémantque, nous présentons tout d abord les outls sur lesquels elle se base, sot WordNet et les règles d assocaton. 4.3 Les outls d ade à l ndexaton sémantque Notre approche d ndexaton se base sur l utlsaton de deux prncpaux outls: WordNet et les règles d assocaton. WordNet est utlsée pour la détecton de concepts et leur désambguïsaton. Les règles d assocaton permettent la découverte de relatons entre ces concepts. Cette secton est dédée à la présentaton de ces outls. La secton est dédée à la présentaton de l ontologe lngustque WordNet. La secton présente les fondements de la découverte des règles d assocaton WordNet WordNet est un réseau lexcal électronque [Fellbaum, 98] développé depus 1985 à l'unversté de Prnceton par une équpe de psycholngustes et de lngustes du laboratore des scences cogntves de l unversté de Prnceton, sous la drecton de Georges A. Mller. L avantage de WordNet résde dans la dversté des nformatons qu elle content (grande couverture de la langue anglase, défnton de chacun des sens, ensembles de synonymes, dverses relatons sémantques). En outre, WordNet est lbrement et gratutement utlsable. Nous décrvons cette ontologe lngustque que nous utlsons dans la sute de nos travaux sur l ndexaton sémantque. Structure de WordNet WordNet couvre la majorté des noms, verbes, adjectfs et adverbes de la langue Anglase, qu elle structure en un réseau de noeuds et de lens. Les noeuds sont consttués par des ensembles de termes synonymes (appelés synsets).un terme peut être un mot smple ou une collocaton (.e. deux mots ou pluseurs mots relés par des soulgnés pour consttuer le mot composé correspondant dans la langue). Un exemple de hérarche de synsets correspondant au mot «dog» est donné dans le tableau

102 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE Le tableau 4.2 donne des statstques 13 sur le nombre de mots et de concepts dans WordNet dans sa verson 3.0. Noun S : (n) dog, domestc dog, Cans famlars (a member of the genus Cans (probably descended from the common wolf) that has been domestcated by man snce prehstorc tmes; occurs n many breeds) "the dog barked all nght" S : (n) frump, dog (a dull unattractve unpleasant grl or woman) "she got a reputaton as a frump"; "she's a real dog" S : (n) dog (nformal term for a man) "you lucky dog" S : (n) cad, bounder, blackguard, dog, hound, heel (someone who s morally reprehensble) "you drty dog" S : (n) frank, frankfurter, hotdog, hot dog, dog, wener, wenerwurst, weene (a smooth-textured sausage of mnced beef or pork usually smoked; often served on a bread roll) S : (n) pawl, detent, clck, dog (a hnged catch that fts nto a notch of a ratchet to move a wheel forward or prevent t from movng backward) S : (n) andron, fredog, dog, dog-ron (metal supports for logs n a freplace) "the androns were too hot to touch" Verb S : (v) chase, chase after, tral, tal, tag, gve chase, dog, go after, track (go after wth the ntent to catch) "The polceman chased the mugger down the alley"; "the dog chased the rabbt" TABLEAU 4.1 : Les concepts de WordNet correspondants au mot dog Catégore Mots Synsets Total Pares Mot-Sens Nom Verbe Adjectf Adverbe Total TABLEAU 4.2 : Le nombre de mots et de synsets dans WordNet Statstques extrates du ste web de WordNet : http ://wordnet.prnceton.edu/man/wnstats.7wn 101

103 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE Les concepts de WordNet sont relés par des relatons sémantques. La relaton de base entre les termes d un même synset est la synonyme. Les dfférents synsets sont autrement lés par dverses relatons sémantques telles que la subsompton ou relaton d hyponymehyperonyme, et la relaton de composton méronyme-holonyme. Ces relatons sont formellement défnes comme sut : 1. la relaton taxonomque (ou relaton de subsompton), dte relaton d Hyperonyme/Hyponyme: X est un hyponyme de Y s X est un type de (knd of / s-a) Y. Y est alors dt hyperonyme de X. Exemple : {canne} a pour hyponymes {wolf, wld dog, dog} (selon fgure 4.1). 2. la relaton d Holonyme et son nverse la Méronyme : X est un méronyme de Y s X est une parte consttuante (part of), substance de (substance of) ou membre (member of) de Y. Y est alors dt un holonyme de X. Exemple : {car} a pour méronymes {wheel, engne, }. La fgure 4.1 donne un exemple de sous-hérarche de WordNet correspondant au concept dog (RFIEC 14 ). FIGURE 4.1: Sous hérarche de WordNet correspondant au concept "dog" Vu sa large couverture de la langue anglase, sa dsponblté et sa gratuté, WordNet a été largement utlsée en RI pour l étquetage sémantque de corpus (corpus Semcore 15, [Mller et al., 93]), pour l expanson des requêtes utlsateur par ajout de Le corpus SemCore (Semantc Concordance Corpus) est un sous-ensemble du corpus BROWN d'envrons 100 documents, totalsant quelques mots dont plus de sont lemmatsés et étquetés avec les sens de WordNet. 102

104 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE synonymes ou de toutes autres relatons sémantques [Smeaton et al., 95 ;Voorhees, 94 ;[Voorhees, 98], mas auss dans les travaux d ndexaton sémantque [Gonzalo et al., 98 ; Mhalcea et al., 00 ; Starmand et al., 96 ;Bazz et al., 04 ;05], en partculer pour la désambguïsaton sémantque des mots [Nastase et al., 01 ; Banerjee et al., 02 ;Voorhees, 93 ; Bazz et al., 04 ;05]. Ce sont ces mêmes rasons qu ont motvés notre chox pour cette ressource lngustque Les règles d assocaton Le concept de règles d assocaton fut ntrodut à l orgne dans [Agrawal et al., 93] pour l analyse des bases de données transactonnelles composées des transactons de ventes dans les grands magasns, afn de comprendre les habtudes de consommaton de la clentèle et ans meux gérer les ventes, les stocks, les rayons du magasn, dans l objectf d une melleure planfcaton commercale. L extracton des règles d assocaton permet de retrouver des relatons entre les artcles qu «vont souvent ensemble». Ans, s dans une base de données transactonnelle de ventes D, où chaque transacton représente l ensemble des artcles achetés par un clent, un ensemble d artcles X est souvent accompagné d un ensemble d artcles Y dans les transactons de la base, on en dédut la règle d assocaton X Y. Par exemple, les produts {pan, confture} sont présents dans les transactons qu contennent {beurre}, mplquant une règle d assocaton {beurre} {pan, confture} qu stpule que «les clents qu achètent du beurre achètent auss du pan et de la confture» Découverte des règles d assocaton Le problème de découverte des règles d assocaton consste à extrare un ensemble de règles d assocaton «ntéressantes» entre ensembles d artcles défns dans une base de données transactonnelle. Nous abordons ce problème dans la présente secton à travers les ponts suvants : 1. la défnton du contexte de découverte des règles d assocaton, 2. la défnton de l ntérêt d une règle d assocaton, 3. les algorthmes de découverte des règles d assocaton Contexte de découverte des règles d assocaton Formellement, les règles d assocaton sont découvertes dans les bases de données transactonnelles, entre ensembles d tems. Le contexte ans défn est caractérsé par les proprétés suvantes [Agrawal et al., 93] : 103

105 - I { 1, 2,..., n } - D { T T..., } = un ensemble d tems (ou artcles), CHAPITRE 4. APPROCHE DE RI SEMANTIQUE = 1, 2, T m un ensemble de transactons T j telles que T j I, - à chaque transacton est assocé un dentfcateur appelé TID (Transacton Identfcaton), - la quantté d un tem dans une transacton n est pas consdérée. Chaque tem est une varable bnare représentant le fat que l tem est concerné par la transacton ou non, - un ensemble d tems est appelé temset, - la talle d un temset est le nombre d tems qu l content, - un temset de talle k est appelé k-temset, - étant donné un temset X, une transacton T ( T I ) content X s X T, - on appelle support d un temset X, le pourcentage des transactons de D qu contennent X. ( X ) { T D / T X } support = (4.1) D Défnton d une règle d assocaton : Une règle d assocaton est une mplcaton de la forme X Y telle que X I, Y I et X Y = φ. X est dt prémsse de la règle X Y, Y sa concluson (ou son conséquent) Défnton de l ntérêt d une règle d assocaton L ntérêt d une règle d assocaton se mesure à travers deux valeurs : son support et sa confance. Le support de la règle d assocaton R : X Y défnt le pourcentage de transactons qu contennent X et Y. Le support ndque la fréquence des temsets de la règle [Chen et al., 96]. Le support est formellement défn par : ( R) { T D / T ( X Y )} support = (4.2) D La confance d une règle d assocaton R : X Y défnt le pourcentage de transactons contenant X qu contennent auss Y. Elle dénote la force de l mplcaton [Chen et al., 96]. La confance est formellement défne par : confance ( R) ( X Y ) ( X ) support = (4.3) support 104

106 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE Etant donné un ensemble de transactons D, le problème de découverte de règles d assocaton est de générer toutes les règles d assocaton qu ont un support et une confance supéreurs à un support mnmum mnsup et une confance mnmum mnconf respectvement fxés par l utlsateur. De telles règles sont des règles dtes fortes [Agrawal et al., 93 ; Patetsky-Shapro, 91] Algorthmes de découverte des règles d assocaton Les algorthmes de découverte des règles d assocaton se basent sur deux étapes [Agrawal et al., 94] : générer toutes les combnasons d tems (e. tous les temsets) dont le support est supéreur à mnsup. De tels temsets sont dts fréquents. Pour chaque temset fréquent X Y X, pour tout X Y. Y =..., générer la règle d assocaton La performance globale d un algorthme de découverte de règles d assocaton est détermnée par la premère étape. Après avor détermné les temsets fréquents, les règles d assocaton correspondantes sont extrates de manère trvale. Pluseurs algorthmes sont proposés dans la lttérature dont l un des premers et qu reste le plus utlsé est l algorthme Apror. Nous le détallons c-après. L algorthme A-pror L'algorthme Apror comprend deux étapes. La premère étape permet d extrare l ensemble des temsets fréquents de la base de données transactonnelles. La seconde est l étape de génératon des règles d assocaton entre les temsets fréquents découverts lors de la premère étape. Nous détallons le fonctonnement de chacune de ces étapes dans ce qu sut. (1) Génératon des temsets fréquents Pour générer les temsets fréquents dans une base de données transactonnelle D, Apror réalse pluseurs passes sur D. 1. Lors de la premère passe, l algorthme calcule le nombre d occurrences des dfférents tems de la base, afn de détermner l ensemble F 1 des 1-temsets fréquents. 2. Chaque nouvelle tératon k, consste en deux phases : 1 3. d abord, l'ensemble 1 K F des (k-1)-temsets fréquents calculés à l'étape précédente, est utlsé pour générer, par auto-jonture, l'ensemble C k des k-temsets canddats, 2 k 105

107 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE 4. ensute, le support de chaque k-temset canddat est calculé. Les seuls canddats fréquents, c'est-à-dre de support supéreur ou égal au seul mnmal de support mnsup sont nsérés dans l'ensemble F k. L algorthme s arrête lorsqu l n y plus de nouveaux temsets canddats à générer. 5. L ensemble F = Fk de tous les temsets fréquents est alors retourné. Le tableau 4.3 présente le pseudo-code de l algorthme Apror. Algorthme Apror : Génératon des temsets fréquents Entrée : Base de transactons D ; Support mnmum mnsup Sorte : Ensemble des temsets fréquents F Algorthme 1. F 1 {1-temsets fréquents} ; 2. pour (k 2 ; F k-1 Ø ; k++) fare 3. Construre (C k ) à partr de (F k-1 ); 4. pour toute transacton T D fare 5. C T { c C k, c T} 6. pour chaque canddat c C T fare support (c) ++ fn pour ; 7. fn pour 8. F k {c C k / support (c) mnsup}; 9. fn pour 10. Retourner F = U Fk TABLEAU 4.3 : pseudo-code de l algorthme Apror (2) Génératon des règles d assocaton Pour générer les règles d'assocaton, on consdère l'ensemble F des temsets fréquents calculés lors de la phase précédente. Pour chaque temset fréquent X de talle supéreure à 1, on consdère tous les sous ensembles non vdes de X. Pour chaque sous ensemble Y de X, dédure la règle d assocaton Y X Y s sa confance est supéreure ou égale à mnconf. Nous llustrons le fonctonnement de l algorthme Apror dans l exemple suvant. 106

108 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE Exemple Etant donnée la base de transactons D donnée en Tableau 4.4, et un support mnmum mnsup=0.4. TID T1 T2 T3 T4 D Transacton acd bce abce be TABLEAU 4.4 : Base transactonnelle D, avec 4 des transactons T (1) extracton des temsets fréquents : Les étapes de l extracton des temsets fréquents sur la base de l algorthme Apror sont schématsées à travers les tableaux de la fgure 4.2. C 1 Parcours de D C 1 Itemsets fréquents F 1 Itemset Itemset Support Itemset Support {a} {b} {c} {d} {e} {a} {b} {c} {d} {e} 2/4 3/4 3/4 1/4 3/4 {a} {b} {c} {e} 2/4 3/4 3/4 3/4 C 2 Parcours de D C 2 Itemsets fréquents F 2 Itemset temsets Support temsets Support {ab} {ac} {ae} {bc} {be} {ce} {ab} {ac} {ae} {bc} {be} {ce} 1/4 2/4 1/4 2/4 3/4 2/4 {ac} {bc} {be} {ce} 2/4 2/4 3/4 2/4 C 3 Parcours de D C 3 Itemsets fréquents F 3 temsets temsets Support temsets Support {abc} {ace} {bce} {abc} {ace} {bce} 1/4 1/4 2/4 {bce} 2/4 FIGURE 4.2 : Extracton des temsets fréquents 107

109 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE (2) Génératon des règles d assocaton : En consdérant l ensemble des k-temsets fréquents (k > 1) générés dans l exemple précédent, sot F= F 2 F 3 où F 2 = {{ac}, {bc}, {be}, {ce}} et F 3 = {{bce}}, on extrat les règles d'assocaton correspondantes en consdérant d'abord les temsets fréquents de talle 2, pus ceux de talle 3, etc. Les temsets fréquents de F 2 ont perms de générer les règles d'assocaton du tableau 4.5. Les temsets fréquents de F 3, à savor l'unque temset {bce}, ont perms de générer les règles d'assocaton, d'abord avec un conséquent à un tem fgurant dans le tableau 4.6. Pus les règles avec un conséquent de talle 2 en tableau 4.7. L exemple montre les règles d'assocaton générées pour une confance mnmum mnconf = 70%. Les règles dont le support et la confance sont supéreurs ou égaux à mnsup et mnconf respectvement sont des règles d assocaton dtes fortes. temeset N règle règle confance support forte? ac 1 a c 1 2/4 Ou 2 c a 1 2/4 Ou bc 3 b c 2/3 2/4 Non 4 c b 2/3 2/4 Non be 5 b e 1 3/4 Ou 6 e b 1 3/4 Ou ce 7 8 c e e c 2/3 2/3 2/4 2/4 Non Non TABLEAU 4.5 : Règles d'assocaton à 1 tem en conséquent. Itemset N règle règle confance support forte? Bce bc e be c ce b 1 2/3 1 2/4 2/4 2/4 Ou Non Ou TABLEAU 4.6 : Règles d'assocaton à 1 tem en conséquent. temset N règle règle confance support forte? bce b ce c be e bc 2/3 2/3 2/3 2/4 2/4 2/4 Non Non Non TABLEAU 4.7 : Règles d'assocaton à 2 tems en conséquent 108

110 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE Dans l algorthme Apror, l extracton des temsets fréquents est exponentelle en talle des temsets. En partculer, dans le cas d'un ensemble d'tems I de talle m, le nombre d'temsets fréquents potentels est 2 m. En outre, la génératon de règles d'assocaton ben que mons coûteuse que la génératon des temsets fréquents, reste néanmons exponentelle en talle des temsets fréquents (le nombre de règles pouvant être générées à partr d'un k-temset, k>1, égale à 2 k -1 [Salleb, 03]). Sachant que les bases de données transactonnelles stockent généralement des mllons de transactons sur des mllers d tems, on comprend que l algorthme Apror ne sot pas optmal. Cependant, l demeure l un des algorthmes les plus smples à mettre en œuvre Les règles d assocaton en RI L utlsaton des règles d assocaton en RI vse prncpalement la découverte de relatons non taxonomques entre les termes (mots clés ou concepts) descrpteurs des documents d une base documentare. Les relatons non taxonomques sont des relatons contextuelles entre termes. Elles sont spécfques à l usage partculer des termes dans les documents de la collecton consdérée. Il s agt plus partculèrement de relatons latentes, enfoues dans les textes, portées par la sémantque même de la cooccurrence des termes dans le document ou dans la base documentare. Les objectfs à travers la découverte des règles d assocaton en RI sont multples et varés comme en témogne la multtude d applcatons exstantes : 1. La classfcaton de textes en vue de la réducton de l espace de recherche [Ln et al., 98], 2. La génératon automatque d assocatons de termes pour l ade à l'expanson de requête [Lu et al., 98; Haddad, 02; Delgado et al., 02; Bautsta et al., 04; Song et al., 07], 3. L ndexaton [Pôssas et al., 05; Km et al., 04], 4. Le regroupement (clusterng) de textes fournt des vues d'ensemble thématques des collectons des textes [Ln et al., 98; Lu et al., 05], 5. etc. Dans le contexte de la RI, une transacton dans la problématque des règles d assocaton est une entté textuelle, généralement un document, et les tems les termes d ndexaton de ce document. Les prncpes d extracton des règles d assocaton en RI restent dentques à ceux défns en secton

111 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE 4.4 Approche d ndexaton sémantque L ndexaton sémantque a pour objectf la représentetaon des documents et requêtes par les sens des mots (ou les concepts) plutôt que par les mots d ndexaton eux même. L ntérêt d une telle approche est de lever l ambguïté des mots et de résoudre le problème de dsparté des termes. C est dans l objectf d amélorer notre approche proposée en chaptre 3, que nous nous orentons vers l ndexaton sémantque. Nous défnssons, dans cette secton, notre approche d'ndexaton sémantque de documents basée sur les CP-Nets. Documents et requêtes sont alors ndexés par des concepts. Les concepts sont extrats de WordNet, pus désambguïsés. Des relatons contextuelles sont ensute découvertes entre concepts. Et enfn, concepts et relatons assocées sont organsées en un graphe CP-Net consttuant l ndex sémantque (ou conceptuel) du document. Notre approche s artcule autour des tros caractérstques suvantes : 1. une approche d dentfcaton des concepts représentatfs du document. L approche est basée sur la projecton des termes d ndex sur l ontologe WordNet et ntègre une technque de désambguïsaton des concepts ambgus, 2. une approche d dentfcaton des relatons entre concepts. Cette approche est basée sur l utlsaton des règles d assocaton, 3. une approche qu combne les concepts et les relatons correspondantes au sen d un formalsme unfé, le CP-Net Aperçu général Nous utlsons l'ontologe WordNet et les règles d assocaton afn de construre le graphe CP-Net représentatf du document. Le processus d'ndexaton du document est effectué en tros étapes prncpales (Fgure 4.3) : l dentfcaton des concepts représentatfs du document la découverte des relatons entre concepts, et la constructon de l ndex conceptuel du document. 1. L dentfcaton des concepts représentatfs du document : les concepts sont extrats à partr des termes représentatfs du contenu sémantque du document, par projecton sur l ontologe WordNet. Lors de cette projecton, s pluseurs concepts correspondent à un terme donné, le terme est désambguïsé. Les sous étapes de cette premère étape sont : 1.1. L dentfcaton des termes : le but de cette étape est d'dentfer des mono ou mult termes dans le document. Ces termes correspondent à des entrées dans l'ontologe, 1.2. La pondératon des termes : dans cette étape, on propose une varante de tf*df, s applquant aux mono et aux mult-termes. Le but est d'élmner les termes les 110

112 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE mons fréquents dans le document et de mantenr seulement les termes les plus représentatfs, 1.3. La désambguïsaton : les termes d'ndex sont assocés à des sens (synsets) correspondants dans l'ontologe. Chaque terme extrat pouvant avor pluseurs sens possbles, le but de cette étape est de sélectonner le melleur sens du terme dans le document. 11. La découverte de relatons entre concepts : les relatons contextuelles entre les concepts extrats sont découvertes en utlsant une approche que nous proposons, basée sur la technque des règles d'assocaton, 12. La constructon de l ndex conceptuel du document : les concepts et les relatons correspondantes sont organsés en un graphe conceptuel, à savor le graphe. Les nœuds du CP-Net sont les concepts représentatfs du document. Les arcs du CP- Net tradusent les relatons entre concepts. FIGURE 4.3 : Les étapes de l ndexaton conceptuelle basée CP-Nets 111

113 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE Identfcaton de concepts représentatfs du document L objectf de cette étape est de retrouver, pour chaque terme d ndexaton d un document (ou d une requête), le concept correspondant dans WordNet. Une premère sous étape de projecton de l ndex du document (ou de la requête) sur WordNet permet d dentfer les concepts correspondants aux termes d ndexaton. Une seconde sous étape de désambguïsaton, permet de retrouver pour chacun de ces termes le seul sens correct correspondant dans le document (ou la requête). Rappelons que les sens des mots dans WordNet sont regroupés dans des synsets (correspondant à des concepts). Enfn, la sous étape de pondératon permet d assocer aux dfférents concepts ans dentfés, leur degré de représentatvté dans le document (ou la requête). Avant de décrre ces étapes, nous présentons d abord quelques défntons prélmnares Notons prélmnares a. Le terme vu comme une lste de mots Le but du processus d ndexaton est d dentfer et d extrare les termes sensés représenter au meux le contenu sémantque du document. Les termes sont généralement représentés comme des lstes de mots. Un mot étant une entté lexcale représentée par une chaîne de caractères. La longueur d un terme t, notée t, est alors défne comme le nombre de mots dans t. Un terme mono mot consste en une lste à un seul mot. Un terme mult mots consste en une lste à pluseurs mots. Sot t un terme représenté comme une lste de mots, t = ( w1, w2, K, w, K, w l ). Les éléments dans t peuvent être dentques, représentant dfférentes occurrences d un même mot de t. On note w le ème mot dans t. On défnt récursvement la poston d un mot w dans la lste t comme sut : b) Sous-terme vs Sur-terme ( w ) ; pos ( w ) = pos ( w ) + 1, 1 l 1 = 1 t = 1 post t.. Etant données deux lstes de mots L = ( w w, ) et L ( y y, ) 1, 2, 1 K w m = 1, 2, y l. 2 K Défnton d une sous lste : L 2 est une sous lste de L 1 s l ensemble de la séquence de mots dans L 1 apparaît auss dans L 2. Formellement : ( L1, p, l) s p = pos( w ), w L1 / j 0 j ( l 1) w p+ j = y + 1 L (4.4) 2 = sub, j 112

114 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE Etant donnés deux termes t 1 et t 2, représentés respectvement par les lstes de mots assocées respectvement L 1 et L 2, on défnt les notons de sous terme et de sur terme comme sut : t 2 est un sous-terme de t 1 L 2 est une sous-lste de L 1. t 1 est un sur-terme de t 2 t 2 est un sous-terme de t Identfcaton des termes d'ndex Avant tout tratement de document et en partculer avant l élmnaton des mots vdes, un processus mportant pour les étapes suvantes consste en l extracton des termes mono et mult mots (on parle auss de mult termes) qu correspondent à des entrées de WordNet. La technque que nous proposons est basée sur une analyse mot par mot du document. Elle est formellement décrte dans ce qu sut. Sot w le prochan mot (supposé non vde), à analyser dans le document d. On extrat à partr de WordNet, l ensemble S des termes contenant w. S peut être vde dans le cas où aucun terme de WordNet ne correspond à w. Dans ce cas, le mot w est sélectonné comme terme d ndexaton. Le prochan mot (supposé non vde), à analyser dans le document d est le mot w +1. Dans le cas où S est non vde, les termes retrouvés appartennent à des synsets de WordNet. Sot donc S = { C C C 1, 2,..., n}. S est composé de mono et de mult termes. On ordonne alors S par ordre décrossant de talles de ses éléments comme sut : { C C, C }, 2 S =..., () 1 ( ) ( n) où (j)=1..n est une permutaton d ndces telle que C() 1 C( 2)... C( n). Les termes de talle dentque sont placés ndfféremment l un à côté de l autre. Pour chaque élément C ( j ) dans S, on note : ( ) ( - Pos w C ( j ) la poston de w dans la lste de mots C ( j ). Il y a ans ( ) ) pos 1 C w ( j ) mots à gauche de w dans C ( j ), ( pos ( ) > 0 ), ( j ) C w - Pos d ( w ) la poston de w dans la phrase analysée du document d, vue auss comme lste de mots. Défnton du contexte relatf : Le contexte relatf d une occurrence de w dans un document d tant donné le terme C ( j ), est la lste de mots CH j défne par : CH j = sub( d, p, l) tq. l = C( j ) et p = pos ( ) 1 d w pos w j (4.5) ( ) ( ) C( ) On extrat alors le contexte relatf de w dans d, sot CH j sub( d, p, l) = (c.f. Fg. 4.4), pus on compare les lstes de mots CH j et C ( j ). S CH j C( j ), le terme C( j + 1 ) de S est analysé, snon le terme t k = C( j ) est dentfé. 113

115 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE Le mot suvant à analyser dans d est le mot w j tel que pos ( w ) p l =. d j + FIGURE 4.4 : Identfcaton du contexte relatf d un mot dans d Durant le processus d dentfcaton, tros cas, llustrés dans la fgure 4.5, peuvent se présenter: Cas a) Le terme courant dentfé t k est complètement dsjont de t k-1. Il peut être dentque mas nous ne tratons pas les denttés à ce nveau. Ce sera donc un nouveau terme qu sera retenu dans la descrpton du document. Cas b) Le terme t k recouvre partellement le terme t k-1. Les deux termes sont donc dfférents et tous deux seront retenus comme descrpteurs du document même s ls ont des mots en commun. Cas c) Le terme t k recouvre complètement un ou pluseurs termes adjacents le précédant, sot t k 1... t j, j k 1. Dans ce cas, pour permettre une désambguïsaton effcace, nous retenons le terme le plus long sot t k, comme descrpteur du document et élmnons de l ndex, les termes adjacents qu l recouvre ( t 1... t, j k 1). k j cas a) cas b) cas c) FIGURE 4.5 : Identfcaton des termes A l ssue de cette premère étape, nous aurons dentfé l ensemble ( d ) mult termes qu décrvent le document d, sot donc T ( d ) { t t..., } T des mono et = 1, 2, t n. Nous calculons fnalement la fréquence de chaque terme dans d et élmnons les termes redondants (doublons), ce qu condut à l ndex suvant : ( d ) = {( t, Occ ), ( t, Occ ),..., ( t, Occ )/ t d, Occ = count( t ), 1 m et m n} T ' m m tel que count(t ) est le nombre d occurrences de t dans d. 114

116 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE Pondératon des termes La pondératon des termes assgne à chaque terme un pods qu reflète son mportance dans le document. Dans le cas des mono termes, des varantes de la formule tf * df sont utlsées. Le pods d un terme t dans un document d est alors exprmé par W t, d = tf * df () t tel que tf est la fréquence d occurrences du terme, df est sa fréquence documentare nverse, défne comme sut : N () df t = ln (4.6) n t N étant le nombre de documents dans le corpus et n t le nombre de documents du corpus qu contennent le terme t. Dans le cas des mult termes, les approches de pondératon des termes utlsent généralement une analyse statstque et/ou syntaxque. Globalement, ls addtonnent les fréquences des mots smples ou multplent le nombre d occurrences du terme par le nombre de mots smples appartenant à ce terme. Dans le cas de [Bazz et al., 05], la fréquence d un mult terme t (qu correspond à un concept de WordNet) dans un document égale la somme du nombre des occurrences du terme lu même et du nombre d occurrences de tous ses sous termes. Formellement : tf () t count() t () t t ( t ) = + count (4.7) t sub t Où sub(t ) est l ensemble de tous les sous termes possbles t qu peuvent être dérvés de t, t représente le nombre de mots dans t et count(t) le nombre d occurrences de t dans d. Dans notre proposton, nous défnssons une nouvelle approche de pondératon qu combne une analyse statstque et une analyse sémantque. Pour cela, nous avons défn une formule de pondératon comme varante de tf*df qu prend en compte les caractérstques suvantes : 1. une mesure statstque des occurrences du terme lu même, 2. une mesure statstque des occurrences du terme dans ses sur termes, 3. une mesure probablste des occurrences du terme dans les dfférents sens assocés à ses sous termes (rappelons que le sens d un terme dans WordNet est un synset qu défnt un ensemble de termes synonymes). L dée est que la fréquence globale d un terme est quantfée sur la base de sa propre fréquence d occurrences d une part, et de sa fréquence d occurrences dans chacun de ses sur termes ans que sa fréquence d occurrence probable dans les sens de chacun de ses sous termes. La fréquence d occurrences d un terme est calculée de manère trvale comme le nombre d occurrences de ce terme dans le document, sot Occ(t). La 115

117 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE fréquence d occurrence d un terme dans ses sur termes est auss trvalement calculée comme le total des occurrences de tous ses sur termes, sot donc: f = Occ ( Sur ( t)). La fréquence probable d un terme dans les sens de son sous terme se mesure par le produt du nombre d occurrences du sous terme consdéré par la probablté que le terme sot un sens possble de son sous terme. Généralsée à l ensemble des sous termes, la fréquence probable se mesure comme la somme des fréquences probables du terme dans les sens de tous ses sous termes. Formellement, la fréquence probable est défne par: La probablté P( t S( Sub (t) ) [ P( t S( Sub ( t) ) Occ( Sub ( t )] f = ) p j j que le terme t sot un sens possble de son sous terme Sub j. (t) se mesure comme le rapport entre le nombre de sens (synsets) du sous terme qu contennent le terme t, sur le nombre total de sens du sous terme consdéré. Formellement: { j ( Sub j ( t) )/ t C} S Sub () t C S P( t S( Sub j () t ) = (4.8) ( ) j j La formule résultante tf df ( t) W t d *, = est formellement défne par : [ ( ( ) ( )] = Occ( t) + Occ( Sur ( t)) + P t S Subj ( t) Occ Sub N j ( t) * ln j nt Wt, d (4.9) Où : - W t,d : pods assocé au terme t dans le document, - Sub j () t T' ( d) - () t T' ( d) : j ème sous-terme de t, Sur : ème sur-terme de t, - N : nombre total de documents dans le corpus, - n t : fréquence documentare de t, - S(t) : ensemble des synsets (sens) assocés au terme t, ( ( ) - P t S Subj () t L ndex du document, Index ( d ) défnt la probablté que t sot un sens possble de Sub j () t., est alors construt en ne gardant que les seuls termes dont le pods est supéreur à un seul mnmal fxé. 116

118 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE Désambguïsaton des termes L objectf de la désambguïsaton est de retrouver le sens correct d un terme dans son contexte d énoncaton. Nous défnssons dans le présent paragraphe, notre approche de désambguïsaton basée sur WordNet. L approche consste à retrouver pour chaque terme dans Index ( d ), tous les sens qu lu sont assocés dans WordNet, pus à le désambguïser s nécessare. Ans, chaque terme t Index( d ) peut avor un certan nombre de sens correspondant à des synsets de WordNet. Sot S { = C1, C2,..., Cn} l ensemble de tous les synsets assocés au terme t. Ans, t possède S = n sens. Nous posons l hypothèse que chaque terme d ndex contrbue à la défnton de la sémantque du document d avec seulement un seul sens (même s cela est quelque peu erroné, pusqu un terme peut avor dfférents sens dans un même document, mas nous consdérons c le seul sens domnant). De là, nous devons chosr pour chaque terme t Index( d ), son melleur sens dans d. C est le prncpe même de la désambguïsaton. Parm les dfférentes approches de désambguïsaton proposées dans la lttérature, nous nous sommes partculèrement ntéressés à l approche proposée dans [Bazz et al.,04; 05] pour sa smplcté. Cette approche est basée sur le calcul d un score (C_Score) pour chaque concept (sens) assocé à un terme d ndex. Ans, pour chaque terme t, le score de son jème sens, noté C, est calculé par : j C _ Score ( C ) j = [.. m] [ 1 n ] l 1 k.. l l Dst( C Où m est le nombre de termes dans Index(d), n l représente le nombre de sens de WordNet l propres à chaque terme t l et Dst ( C j, Ck ) est une mesure de proxmté sémantque entre l les concepts C j et C k telle que défne dans [Resnk, 99; Leacock et al., 98; Ln, 98]. Le concept-sens qu maxmse le score est alors retenu comme le melleur sens du terme t. Notre approche dffère de celle de Bazz et al. [04; 05] dans la formule de calcul du score. En effet, nous pensons que l explotaton de la seule proxmté sémantque entre concepts est nsuffsante pour détermner le melleur sens d un terme car cette mesure est ndépendante du contexte (elle ne tent pas compte de la représentatvté des termes dans le contexte du document). Nous pensons que le melleur sens pour un terme t dans le document d dot être fortement corrélé aux sens assocés aux autres termes mportants du document d. Dans cette optque, nous avons d abord défn le pods d un concept (sens) C S comme le pods du terme correspondant t : j Pus nous proposons le score suvant : C j S W W C, d t, d j j, C l k, = (4.10) ) 117

119 L ensemble ( d ) Score CHAPITRE 4. APPROCHE DE RI SEMANTIQUE ( ) l ( C j ) = W W l * Dst( C j, Ck ) C, d C, d [.. m] l 1 1 k nl l j * (4.11) N des sens (concepts) sélectonnés représente le noyau sémantque du document d Découverte des relatons entre concepts Dans l objectf de construre le graphe conceptuel d un document conformément à la sémantque CP-Net, nous devons retrouver les relatons condtonnelles (.e. de causalté) exstantes entre les concepts du noyau sémantque. Ces relatons sont mplctes et se tradusent par des lens de co-occurrence entre les termes. De telles relatons condtonnelles mplctes sont naturellement prses en charge par la technque des règles d assocaton. Nous proposons donc d'utlser la technque des règles d'assocaton pour découvrr les relatons contextuelles latentes entre les concepts-noeuds du CP-Net. Un concept-nœud du CP-Net est un concept ssu de l ndex sémantque N ( d ) restructuré en (X, Dom(X)), tel que X est le représentant du concept et Dom(X), l ensemble de ses valeurs possbles (correspondant à un ensemble de synsets Y de N(d) tels que X subsume Y ). Les conceptsnoeuds sont des enttés sémantques. Le formalsme exstant des règles d'assocaton permet de découvrr des relatons entre enttés lexcales, à savor les termes, nous proposons alors de l étendre pour supporter des assocatons entre enttés sémantques (les concepts-nœuds). Sot donc η ( d ) = {( X, Dom( X ))} l ensemble des concept-nœuds du document CP-Net, et X, Y η d. soent ( ) Défnton d une règle d assocaton sémantque : Une règle d assocaton sémantque entre X et Y, on note X Y, est défne comme sut : sem sem k ( X ) Y j Dom( Y ) X Y j X Y X Dom, / (4.12) tel que X Y j est une assocaton entre les termes (1-temsets) X et Y j. Le sens ntutf de la règle X sem Y est que, s un document est autour (s about) du concept X, l tend auss à être autour du concept Y. L aboutness du document exprme l orentaton du sujet (topc focus) de son contenu. Cette nterprétaton s applque auss à la règle X Y j. Ans, la règle R : X Y j exprme la probablté que la sémantque du contenu du document porte sur Y j sachant qu elle porte sur X. Relatvement à cette sémantque, la confance assocée à la règle R est basée sur le degré d mportance de Y j dans le document d, sachant le degré d mportance de X dans d. Elle est formellement défne dans ce qu sut. 118

120 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE Défnton de la confance d une règle d assocaton classque: Sot la règle R : X Y j, on défnt : Confance ( R) Support ( X and Y ) ( X ) j ( W W ) X, d, X, d Y, d j = = (4.13) Support Défnton de la confance d une règle d assocaton sémantque : La confance de la règle d assocaton sémantque Rsem : X sem Y est défne par : ( ) ( ) ( ) Confance X sem Y = max Confance R : X Y j (4.14), j X Dom X, Y j Dom Y Remarque. Confance ( X Y ) sem mn est toujours égale à 1. Dans notre contexte, le support d une règle d assocaton sémantque X sem Y est basé sur le nombre de règles d assocatons ndvduelles X Y j ( X Dom( X ) et Y j Dom( Y ), ayant une confance supéreure ou égale à un seul de confance mnmal fxé mnconf=1. Le support est formellement défn dans ce qu sut. Défnton du support d une règle d assocaton sémantque : Etant donnée la règle R : X Y, on défnt : sem Support ( R) = { X Y j / Confance( X Y j ) mnconf} { X Y, ( X, Y ) Dom( X ) Dom( Y )} j j W (4.15) Nous proposons de découvrr les relatons entre les concepts de η(d) au moyen des règles d assocaton sémantques. Les règles d assocaton sémantques sont basées dans notre contexte, sur les prncpes suvants : 1. une transacton est un document, 2. les tems sont les valeurs des concept-nœuds du CP-Net, 3. un temset est un ensemble d tems appartenant à un même concept-nœud du CP-Net, 4. une règle d assocaton sémantque X sem Y défnt dans le CP-Net, un arc orenté du concept-noeud X vers le concept-noeud Y. X est le noeud parent de Y dans le graphe. En utlsant les règles d assocaton, nous vsons la constructon d une structure condtonnelle hérarchque du topc focus du contenu du document. Nous vsons ans à structurer les concepts décrvant le document, en une hérarche condtonnelle naturellement supportée par la sémantque des règles d assocaton extrates. 119

121 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE Pour découvrr les règles d assocaton entre concepts est, nous applquons l algorthme Apror [Agrawal et al., 94]. Ce qu consste d abord à dentfer tous les 1-temsets fréquents, correspondant aux concepts ndvduels. Un concept fréquent est, dans notre contexte, un concept dont le pods est supéreur ou égal à un seul mnmal fxé. En second leu, les règles d assocaton sont découvertes entre les 1-temsets fréquents (concepts). L objectf de la découverte des règles d assocaton est de retenr unquement les règles fortes, dont le support et la confance sont supéreurs ou égaux à un seul mnmal de support mnsup et de confance mnconf respectvement. Quelques problèmes peuvent cependant survenr lors de la découverte des règles tels que les redondances et les cycles. Les règles redondantes découlent généralement de la proprété de transtvté: X sem Y, Y sem Z et X sem Z. Pour élmner les redondances, nous proposons de construre la couverture mnmale de l ensemble des règles extrates (c'est-à-dre le sous-ensemble mnmal de règles non transtves. Par alleurs, l exstence de cycles est généralement due à la découverte smultanée de règles d assocaton X sem Y et Y sem X, ou de règles d assocaton telles que X sem Y, Y sem Z et Z sem X. Pour résoudre ce problème, nous élmnons la règle la plus fable (.e. ayant le support le plus fable) parm les règles ayant condut au cycle. S toutes les règles ont un même support, nous élmnons aléatorement une règle du cycle Constructon de l ndex conceptuel du document Le but de cette étape est de construre l ndex conceptuel CP-Net. Nous proposons d utlser le formalsme CP-Net comme langage d ndexaton pour deux rasons. D abord, les CP-Nets supportent naturellement les assocatons contextuelles condtonnelles. Ensute, les CP-Nets permettent une représentaton compacte tant des relatons sémantques que des relatons contextuelles entre concepts, dans un formalsme unfé, à savor le graphe CP-Net. Dans ce qu sut, nous décrvons le processus de constructon des nœuds du CP-Nets et des relatons entre eux. (1) Les noeuds du CP-Net N = 1 j le noyau sémantque du document d. Notre approche pour la constructon des noeuds du CP-Net nodes est basée sur les prncpes suvants : 1. Les noeuds du CP-Net sont des varables attachées aux concepts C du noyau sémantque du document d. Dans ce qu sut, nous désgnerons chaque varable par le concept correspondant, Sot ( d ) { C, C2,..., C,...} 2. chaque varable C prend ses valeurs dans l ensemble ( C ) { C C, C,...} 3. chaque valeur dans Dom(C ), est un concept N( d ) Dom =, 1, 2 3 C tel que j C j s a C. 120

122 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE A l ssue de cette étape, nous aurons construt l ensemble η ( d ) = {( C, Dom( C ))} notera plus smplement η ( d ) = {( X, Dom( X ))}, des concepts noeuds du CP-Net. (2) Les relatons du CP-Net Les noeuds du CP-Net sont lés par des relatons condtonnelles défnes par les règles d'assocaton correspondantes découvertes à l ssue de l étape précédente. Une fos le CP-Net construt, chaque noeud X dans le graphe est annoté par une table de valeurs, nommée CPT(X) (par analoge aux tables CPT dans un CP-Net) telle que : Illustraton ( X ), CPT ( X ) = WX d X Dom,, on (4.16) L approche d ndexaton présentée c-dessus est llustrée à travers l exemple suvant. Sot d ((Pars, 0.5), (Toulouse, 0.9), (Center, 0.1), (Studo, 0.4), (Suburbs, 0.7), ) un document décrt par un ensemble donné de concepts pondérés qu consttuent alors les nœuds du CP-Net document. En consdérant la relaton taxonomque s-a de WordNet et en supposant que nous ayons Toulouse s-a Cty et Pars s-a Cty, alors Pars et Toulouse appartennent au domane de valeurs du concept noeud Cty. De manère smlare, Center et Suburbs appartennent au domane de valeurs du concept noeud Place, tands que Studo est assocé au concept noeud Housng. Ans, nous avons: η(d) = {(Cty, Dom (Cty)), (Place, Dom(Place)), (Housng, Dom(Housng))/ Dom(Cty) = {Toulouse, Pars}, Dom(Place)= {Suburbs, Center} et Dom(Housng) = {Studo}. Nous souhatons découvrr les assocatons entre les noeuds Cty, Housng et Place. L applcaton de l algorthme Apror condut à : (1) extrare tous les 1-temsets fréquents, (2) générer les règles d assocaton entre les 1- temsets fréquents. Les relatons qu nous ntéressent étant défnes entre concepts ndvduels plutôt qu entre ensembles de concepts, nous calculons alors les seuls k-temsets pour k =1, 2. Les 1-temsets correspondent aux valeurs respectves des dfférents noeuds de η(d). Sot donc Toulouse, Pars, Center, Suburbs, Studo. Le support d un 1-temset correspond à son pods dans le document consdéré. Ans, on a: Support (Toulouse) = 0.9 ; Support(Pars) = 0.5 ; Support (Center) = etc. En supposant un seul mnmal de support mnsup = 0.1, on a Support(Center) < mnsup: le 1-temset Center n est pas fréquent, l est alors élmné. Les 2-temsets canddats sont ensute construts à partr des seuls 1-temsets fréquents. Ce qu donne les ensembles d tems suvants : {Toulouse, Studo}; {Toulouse, Suburbs}; {Pars, Studo}; {Pars, Suburbs} et {Studo, Suburbs}. 121

123 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE Les supports des 2-temsets sont alors calculés selon la formule (4.13), comme dans l exemple suvant: Support ({Toulouse, Studo}) = mn (Support(Toulouse), Support(Studo)) = mn (0.9; 0.4). Les k-temsets (k = 1, 2) fréquents extrats, et leurs supports assocés sont donnés en Tableau 4.8. Les règles d assocaton extrates à partr des 2-temsets fréquents sont données en Tableau Itemsets Itemset Support Frequent 2- temsets Toulouse 0.9 Pars 0.5 Center 0.1 Suburbs 0.7 Studo 0.4 Toulouse, Studo 0.4 Toulouse, Suburbs 0.7 Pars, Studo 0.4 Pars, Suburbs 0.5 Studo, Suburbs 0.4 TABLEAU 4.8 : Génératon des k-temsets fréquents R 1 : Toulouse Studo R 3 : Toulouse Suburbs R 5 : Pars Studo R 7 : Pars Suburbs R 9 : Studo Suburbs R 2 : Studo Toulouse R 4 : Suburbs Toulouse R 6 : Studo Pars R 8 : Suburbs Pars R 10 : Suburbs Studo TABLEAU 4.9 : Règles d assocaton générées En applquant la formule (4.13), on calcule les confances des règles d assocaton ans obtenues comme dans l exemple suvant: Confance ( R) mn = mn = 0.9 ( Support( Toulouse), Support( Studo) ) Support( Toulouse) ( 0.9; 0.4) =

124 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE Les confances calculées pour l ensemble des règles d assocaton générées sont données en Tableau TABLEAU 4.10 : Confances des règles R R 1 R 3 R 5 R 7 R 9 Confance(R ) R 2 R 4 R 6 R 8 R En supposant un seul mnmum de confance mnconf = 1, on retent les seules règles dont les confances sont supéreures ou égales à mnconf. Les règles sélectonnées sont présentées en Tableau R 2 : Studo Toulouse R 4 : Suburbs Toulouse R 6 : Studo Pars R 7 : Pars Suburbs R 9 : Studo Suburbs TABLEAU 4.11 : Règles d assocaton sélectonnées Ces règles sont tout d abord utlsées pour construre les règles d assocaton sémantques, qu correspondent aux relatons entre les concepts-nœuds du CP-Net. Ans, nous dédusons: - de R 2 : Studo Toulouse et R6 : Studo Pars, la règle : Housng sem Cty - de R 4 : Suburbs Toulouse, la règle : Place sem Cty - de R 7 : Pars Suburbs, la règle : Cty sem Place - de R 9 : Studo Suburbs, la règle : Housng sem Place Nous calculons ensute le support de chacune des règles sémantques obtenues. Le support d une règle d assocaton sémantque est calculé selon la formule (4.15) comme dans l exemple suvant: Support ( Housng Cty) sem = { X Y j / Confance( X Y j ) mnconf} { X Y, ( X, Y ) Dom( Housng) Dom( Cty) } Les seules règles d assocatons dérvées de Housng semcty sont R 2 et R 6. D où : j j 123

125 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE { X Y, ( X, Y ) Dom( Housng) Dom( Cty) } = 2 j j Par alleurs, les confances de ces deux règles sont égales à 1 (mnconf), d où : { X Y / Confance( X Y ) mnconf; ( X,Y )} Dom( Hou sn g) Dom( Cty) = 2 j j Fnalement, le support de la règle d assocaton sémantque Housng sem Cty égale 1, sot : 2 Support ( Housng sem Cty) = = 1 2 Les résultats obtenus pour l ensemble des règles d assocaton sémantques sont présentés en Tableau Housng sem Cty 1 Place sem Cty 0.5 Cty sem Place 0.5 Housng sem Place 1 TABLEAU 4.12 : Supports des règles d assocaton sémantques Nous retenons évdemment les règles dont le support égale 1. Deux assocatons exstent entre les concepts Cty et Place, avec un même support. Nous retenons aléatorement l une d elles. Supposons que c est la règle Place sem Cty qu est retenue. L ensemble des règles d assocaton sémantques est donné en Tableau Il est clar que, retenr les tros règles ménerat à un cycle dans le graphe CP-Net. Pour évter ce problème, nous élmnons la règle la plus fable (.e. la règle ayant le support le plus bas) Place Cty. Fnalement, les seules règles sémantques sélectonnées sont : sem Housng Cty et Housng Place. sem Enfn, les tables CPT sont assocées aux concepts-noeuds Housng, Cty and Place respectvement, sur la base de la formule (4.16), ce qu condut au CP-Net document donné en fgure 4.6. sem FIGURE 4.6 : Le CP-Net document 124

126 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE 4.5 Evaluaton des requêtes basée CP-Nets Cette étape a pour objectf d évaluer la pertnence d un document pour une requête. Comparatvement à notre proposton présentée dans le chaptre 3, plutôt que d nterpréter les CP-Nets document et requête en expressons booléennes pour évaluer leur degré de correspondance, nous proposons c une approche d évaluaton des requêtes basée sur l apparement des graphes CP-Net. En partculer, en combnant les résultats de nos deux contrbutons précédentes portant respectvement sur la défnton de requêtes CP-Nets pondérées (chaptre 3) et de documents CP-Nets (chaptre 4, secton 4.4), nous défnssons pour un document CP-Net d et une requête CP-Net pondérée Q, un mécansme d évaluaton de la pertnence de d pour Q basé sur la smlarté des graphes CP-Nets correspondants Défnton formelle L évaluaton des requêtes consste en la sélecton de documents (D) supposés pertnents pour une requête utlsateur (Q). Pour cela, les documents sont ordonnés selon leurs valeurs de pertnence pour la requête (RSV(D,Q)) calculées dans notre approche en utlsant une mesure de smlarté entre les graphes CP-Nets du document et de la requête respectvement. Formellement, cette valeur de smlarté est exprmée par [Boubekeur et al., 07] : RSV ( D, Q) = SIM ( GD, GQ) (4.17) Où G D et G Q sont les graphes CP-Nets correspondant respectvement au document D et à la requête Q. Cette smlarté est calculée comme agrégaton des smlartés partelles des deux graphes à travers leurs concepts communs, comme sut : SIM η( D) η( Q) η( D) η( Q) ( GD, GQ) = X * max (Sm (D, Q)) (4.18) X η(d) η(q) Où : η(gd) et η(gq) sont les concepts-nœuds respectvement du CP-Net document G D et du CP-Net requête G Q. Sm X (D,Q) est la smlarté partelle entre D et Q au nveau du concept X. En se basant sur la topologe des graphes CP-Nets, cette mesure est calculée comme combnason de la smlarté structurelle et de la smlarté relatonnelle comme sut: X X X Sm ( D, Q) = α* Sm ( D, Q) + (1 α )* Sm ( D, Q) struct relat (4.19) Où α / 0 α 1 est une valeur donnée qu spécfe l mportance de la smlarté structurelle par rapport à la smlarté relatonnelle. 125

127 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE X La smlarté structurelle Sm struct défnt la proporton de valeurs (nstances) de X communes dans D et Q. Une nstance commune dans D et Q est un terme de la requête Q qu appartent au document D. X La smlarté relatonnelle Sm relat ndque le degré de représentatvté de X correspondant à X son mportance auss ben dans le document que dans la requête. Sm relat est mesurée en foncton de la profondeur assocée au concept X dans la hérarche correspondant au graphe CP-Net. Les défntons formelles des smlartés relatonnelle et structurelle sont données dans ce qu sut. Mesure de smlatrté structurelle Sot ( D) η( Q) η l ensemble des concept-nœuds communs aux CP-Nets document et requête G D et GQ respectvement. X η( D) η( Q), consdérons les domanes Dom X, D et Dom X, Q des nstances (valeurs) assocées au concept-noeud X respectvement dans G D et G Q. La smlarté structurelle de D à Q au nveau du concept X est défne par : Sm X struct ( D, Q) DomX, D DomX, Q = (4.20) Dom Dom X, D X, Q Mesure de smlatrté relatonnelle Deg Q comme le nveau d mportance de X respectvement dans le document D et dans la requête Q. Le nveau d mportance du concept-noeud X est nversement proportonnel à la profondeur du noeud correspondant dans le graphe. Ans, pour un graphe de profondeur maxmale n, la racne du graphe est de nveau 1 et d mportance 1. Ses descendants drects sont de nveau 2 et d mportance 1/2 etc. Les éléments de nveau n ont une mportance de 1/n. Sot W X,D, W X,Q les pods assocés aux valeurs X j de X respectvement dans Q et D. W X,D est Pour un concept X, on défnt Deg D ( X ), ( X ) le pods ncondtonnel de X j dans D. Tands que le pods de X j dans Q est un pods condtonnel défn par CPT ( X j / U k ) étant donnée une valeur U k de ses parents dans le graphe CP-Net requête. Dans un premer temps, nous défnssons smplement : X,Q k ( CPT ( X / U ) W j = Average (4.21) La smlarté relatonnelle de D à Q au nveau du concept X est d abord défne au nveau de chaque valeur X j de X comme le mnmum entre son degré d mportance dans le document et dans la requête, normalsé par la somme de ses degrés d mportance dans le document et la requête CP-Net. Le degré d mportance de la valeur X j de X est défn comme le produt de son pods de représentatvté dans le j k 126

128 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE document ou dans la requête, et de son degré d mportance (défn par rapport à la poston du noeud correspondant dans le graphe CP-Net) dans le CP-Net correspondant. Formellement: Sm X j relat ( D Q) ( X ) WXj D, Q DegQ ( X ) ( X ) + WXj, Q Deg ( X ) mn WXj, D Deg,, = (4.22) ( WXj, D Deg ) D Pour toute valeur X j de X dont les pods respectfs dans D et Q sont nuls, X Sm ( D, Q) j relat = 0. La smlarté relatonnelle de D à Q au nveau du concept X est alors calculée comme la somme des smlartés structurelles de D et Q au nveau de toute nstance X j de X. Formellement : X X j Sm ( D, Q) = Sm ( D, Q) (4.23) Illustraton relat j Consdérons le CP-Net document présenté en Fgure 4.6 et l'ucp-net requête donné en Fgure 3.6, reprs respectvement c-après: relat Q CP-Net document UCP-Net requête On a: η(g D )= η(g Q )= {Cty, Housng, Place}, Dom Cty, Q ={Pars, Lyon}, Dom Cty, D ={Pars, Toulouse}, Dom Housng, Q = {RH, Studo}, Dom Housng, D = { Studo}, 127

129 Dom Place, Q = Dom Place, D = {Center, Suburbs}. CHAPITRE 4. APPROCHE DE RI SEMANTIQUE On calcule la pertnence du document D pour la requête Q suvant les étapes décrtes en secton (1) Calcul de la smlarté structurelle (selon la formule (4.20)) Au nveau du noeud Cty, on a: Dom Dom = Pars, Lyon Dom Sm { } { Pars, Toulouse} 1 { Pars, Lyon} { Pars, Toulouse} 3 Cty, D Cty, Q = Cty, D DomCty, Q = = Cty struct ( D, Q) = Dom Dom Cty, D Cty, D Dom Dom Cty, Q Cty, Q = 1 3 Au nveau du noeud Housng: Dom sn Hou sn g, D Dom Hou g Sm struct ( D, Q) = Dom Hou sn g, D Dom Au nveau du noeud Place: DomPlace, D Dom Place Place, Q Sm struct ( D, Q) = Dom Dom Place, D Place, Q Hou sn g, Q Hou sn g, Q = 2 2 = 1 2 (2) Calcul de la smlarté relatonnelle: Au nveau du noeud Cty, on a: Cty X j Sm ( D, Q) = Sm D, Q, X relat j relat ( ) Dom( Cty) j Cette smlarté étant foncton du degré d mportance de chaque noeud tant dans le document que dans la requête CP-Net, nous calculons d abord ces degrés d mportances assocés aux noeuds comme sut: (1) Dans le document: Deg D ( ) = 1 ; Deg ( Place) = Deg ( Cty) Housng = (2) Dans la requête: Deg Q ( ) = 1 ; Deg ( Place) = Deg ( Housng) D Cty = D D D On calcule alors la smlarté relatonnelle par rapport à chaque nstance de Cty selon la formule (4.22), ce qu donne:

130 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE Sm Pars relat Sm Lyon relat Sm Toulouse relat ( D, Q) mn = mn = = = ( D, Q) = 0 ( D, Q) W j, D Deg ( Cty), W j, ( ) Pars D Pars Q DegQ Cty j, D Deg ( Cty) + W j Pars D Pars, Q DegQ ( Cty) ( 0.5*0.5; 0.5*1) ( W ) 0.5* mn W = + 0.5*1 j Toulouse, D ( Cty), W j D Toulouse, Q DegQ ( Cty) ( Cty) + W, Q Deg ( Cty) ( W j, D Deg ) Toulouse ( 0.9 * 0.5; 0) Deg mn = = * D où, d aprés la formule (4.23): Cty X j Smrelat ( D, Q) = Smrelat D, Q ; X j Dom Cty j = Sm = = 0.33 Pars relat D ( ) ( ) Toulouse Lyon Toulouse ( D, Q) + Sm ( D, Q) + Sm ( D, Q) relat relat Q On consdère dans l exemple que les smlartés structurelle et relatonnelle ont la même mportance dans l évaluaton de la pertnence du document pour la requête, ans nous fxons le paramètre α à la valeur 0.5, ce qu donne, selon la formule (4.19): Cty Cty Cty Sm ( D, Q) = 0.5* Sm ( D, Q) + 0.5* Sm ( D, Q) struct 1 = 0.5* + 0.5* = 0.33 relat Ces calculs sont reproduts pour chacun des concepts des CP-Nets document et requête. Les résultats correspondants sont donnés en tableau Ans, nous avons: Housng Sm ( D, Q) = et Sm Plcae ( D, Q) = D où la smlarté globale du document pour la requête calculée selon la formule (4.18) comme sut : 129

131 SIM( G D, G Q η( D) η( Q) ) = * max η( D) η( Q) = 3 3 * max = 1* max = CHAPITRE 4. APPROCHE DE RI SEMANTIQUE (Sm X (D,Q)) X η(d) η(q) ( ) sn Cty Hou g Sm D, Q ; Sm ( D, Q) ; Sm Plcae( D, Q) ( 0.33;0.317;0.795) TABLEAU 4.13 : Calcul de smlarté entre les CP-Nets document et requête 4.6 Évaluaton expérmentale L objectf de ces expérmentatons est de mesurer les performances et la vablté de notre approche de RI sémantque. L évaluaton complète de notre approche conssterat à (1) tester le modèle de RI flexble basé sur les CP-Nets (2) tester l approche d ndexaton sémantque proposée et enfn (3) tester l approche d évaluaton des requêtes CP-Nets. Compte tenu de l absence d un cadre d évaluaton adéquat pour mener les évaluatons (1) et (3), nous nous sommes focalsés dans le cadre de ce traval, sur l évaluaton de la seule approche d ndexaton sémantque proposée. Nous présentons dans ce qu sut le cadre d évaluaton (collecton de test et protocole d évaluaton) ans que les résultats expérmentaux prélmnares Collecton Muchmore Vu la complexté des calculs nduts par les méthodes d dentfcaton de concepts, de pondératon et de désambguïsaton nhérentes à notre approche, nous avons opté pour 130

132 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE une collecton de test de talle moyenne, la collecton Muchmore 16 en l occurrence [Butelaar et al., 04]. Le corpus MuchMore est un corpus parallèle de résumés médcaux scentfques anglas-allemands obtenus à partr du ste web de Sprnger. Le corpus se compose d envrons 1 mllon de termes pour chaque langue. Il comporte des résumés ssus de 41 revues médcales de dverses spécaltés. Il se déclne en deux versons dont l une annotée et l autre sans annotatons. Seule la collecton des textes anglas non annotée a été utlsée. Cette dernère collecton est composée de 7823 documents et de 25 requêtes, le tout formant 2.8 MB de données. Toutes les requêtes ont été utlsées. Un document est dentfé comme sut : / Nom-revue suv par dentfcateur-revue / à l exemple du document Arthroskope/ eng.abstr. Des jugements de pertnence sont assocés aux requêtes selon le format suvant : Numéro de requête / 0 (non pertnent) / Nom-revue suv par dentfcateur-revue / 1 (non pertnent) Les documents et les requêtes sont composés de textes smples. En voc quelques exemples. Exemple de document (Arthroskope/ eng.abstr) «The posteror crucate lgament (PCL) s the strongest lgament of the human knee jont. Its orgn s at the lateral wall of the medal femoral condyle and the nserton s located n the posteror part of the ntercondylar area. The posteror crucate lgament conssts of multple small fber bundles. From a functonal pont of vew, one can dfferentate fber bundles wth an anteror orgn and fber bundles wth a posteror orgn at the femur. The anteror fbers nsert n the anterolateral part of the tbal nserton zone. These fbers become tense when the knee s flexed. The posteror fbers nsert n the posteromedal part of the tbal nserton and become tense when the knee s extended. The man part of the posteror crucate lgament conssts of type I collagen postve dense connectve tssue. The longtudnal fbrls of type I collagen are dvded nto small bundles by thn type III collagen postve fbrls. In the center of the mddle thrd regon, the structure of the tssue vares from the typcal structure of a lgament. In ths regon, the structure of the tssue resembles fbrocartlage. Oval-shaped cells surrounded by a metachromatc extracellular matrx le between the longtudnal collagen fbrls. The femoral orgn and the tbal nserton have the structure of chondral apophyseal enthess. Near the anchorng regon at the femur and tba there should be varous mechanoreceptors whch mght have an mportant functon for the knematcs of the knee jont. The blood supply of the PCL arses

133 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE from the mddle genculate artery. The lgament s covered by a synoval fold where the termnal branches of the mddle and the nferor genculate artery form a perlgamentous network. From the synoval sheath, the blood vessels penetrate the lgament n a transverse drecton and anastomose wth a longtudnally orentated ntralgamentous network. The dstrbuton of blood vessels wthn the PCL s not homogeneous. We detected three avascular areas wthn the lgament: Both fbrocartlagnous entheses of the PCL are devod of blood vessels. A thrd avascular zone s located n the central zone of fbrocartlage of the mddle thrd regon. Exemples de requêtes : N Requête Texte de la requête 1 Arthroscopc treatment of crucate lgament njures. 6 HIV Epdemology, Rsk Assessment. 9 Patent-controlled analgesa ndcatons and lmts. 108 Cause of dysphaga. 109 Treatment of sensorneural hearng loss (SNHL). 124 New approach n crucate lgament surgery. Exemples de jugements de pertnence : 1 0 Arthroskope/ DerChrurg/ DerUnfallchrurg/ DerUnfallchrurg/ DerChrurg/ DerOrthopaede/ DerOrthopaede/ DerRadologe/ DerUnfallchrurg/ DerUnfallchrurg/ Arthroskope/ Arthroskope/ Bundesgesundhetsblatt/0043s Protocole d évaluaton L approche est évaluée en utlsant le système Mercure [Boughanem, 92]. L évaluaton est effectuée selon le protocole TREC. Plus précsément, chaque requête est soumse au système de RI avec les paramètres fxés. Le système renvoe les 1000 premers documents pour chaque requête. Les valeurs de précson P5, P10, P15, P20, P30, P100 et P1000, ans que R-Prec (précson réelle ou exacte) et MAP (précson 132

134 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE moyenne) sont calculées. La précson au pont 5, P5, est le rato des documents pertnents parm les 5 premers documents resttués. R-Prec et MAP sont les précsons exacte et moyenne respectvement. Nous comparons ensute les résultats obtenus à partr de notre approche à la baselne consttuée de l ensemble des résultats obtenus en utlsant le modèle de recherche de base, fondé sur les mots clés et une pondératon tf*df classque Résultats expérmentaux Notre évaluaton expérmentale vse deux prncpaux objectfs : le premer objectf consste à mesurer la vablté de notre approche de détecton de concepts. Pour cela, nous avons effectué une sére d expérmentatons dont le but est de comparer l ndexaton basée concepts par rapport à l ndexaton smple basée mots clés. La formule de pondératon utlsée est une formule classque tf*df, tant pour les mots-clés smples que pour les concepts, le second objectf se rapporte à la vablté de notre approche de pondératon. Dans ce cas, dans l objectf de meux comprendre l mpact (négatf ou postf) de notre pondératon, nous avons comparé notre approche basée sur les concepts pondérés par TF*df (TF proposée), à la même approche utlsant une pondératon des concepts par tf*df (classque) Evaluaton de la méthode d dentfcaton de concepts Les premères expérmentatons menées concernent l approche d ndexaton par les concepts détectés selon notre approche (décrte en secton 4.3.1), sans tenr compte de la pondératon proposée au préalable. Le tableau 4.14 présente les résultats obtenus pour l ensemble des requêtes tests. Les résultats montrent que notre approche est à l orgne d un accrossement sgnfcatf des performances pour 52% des requêtes de test, avec des taux d accrossement varables. Plus précsément, les taux sgnfcatfs (supéreurs à 5%) varent de 25% à 100%, de 33% à 100%, de 20,01% à 200% et de 8,83 à 101,98 pour respectvement la P5, P10, P15 et MAP. Pour les autres requêtes, on note cependant une dmnuton des performances qu peut être due au fat que, lors de la projecton du document sur l ontologe, seuls les mots effectvement présents dans l ontologe sont retenus dans le descrpteur sémantque du document. Les termes absents dans l ontologe sont ans gnorés. Même s certans de ces mots peuvent se retrouver dans le contexte relatf d un mot adjacent, certans autres peuvent être complètement oms. 133

135 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE Mots-clés-tf_df_calssque Concepts_tf-df-classque Requête P5 P10 P15 MAP P5 P10 P15 MAP TABLEAU 4.14 : Résultats d évaluaton de la méthode de détecton de concepts Evaluaton de la méthode de pondératon des concepts La deuxème sére d expérmentatons menées concerne l évaluaton de notre approche de pondératon des concepts (décrte en secton 4.3.1). Le tableau 4.15 présente les résultats obtenus par comparason à notre méthode d ndexaton basée sur les concepts smplement pondérés. Les résultats révèlent que seules sept (7) requêtes ont présenté des taux d accrossement sgnfcatfs relatvement à une pondératon smple par tf*df. Les autres requêtes ont cependant présenté des résultats non concluants. Cec peut s nterpréter en parte par le fat que la prse en compte de la fréquence d occurrences d un terme d ndexaton donné dans l ensemble des sens de son sous terme, peut produre du brut. En 134

136 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE effet, s le terme est ambgu, l est possble que le sens du sous terme prs en compte ne corresponde pas au sens réel du terme dans le document. Cec augmente alors sa fréquence sans corrélaton avec le sens adéquat, et donc avec sa représentatvté réelle dans le document. Cec étant, l serat ntéressant en perspectve de ce traval de s orenter vers une méthode de pondératon basée sur la même approche, mas applquée à des concepts préalablement désambguïsés Concluson Nous avons décrt dans ce chaptre, une nouvelle approche de RI flexble basée sur un formalsme unfé, le formalsme CP-Net, à travers les tâches prncpales entreprses dans un SRI : l'ndexaton de documents, la formulaton des requêtes et l évaluaton des requêtes. L approche focalse sur deux aspects prncpaux. Le premer consste en une ndexaton conceptuelle basée sur les CP-Nets. Le second concerne une nouvelle approche d évaluaton des requêtes CP-Nets. L'approche d ndexaton sémantque proposée est fondée sur l'utlsaton conjonte de (1) l'ontologe WordNet pour dentfer les concepts correspondants aus dfférents termes descrptfs du document, et (2) des règles d'assocaton pour dérver des relatons de dépendance contextuelle entre les concepts menant à une représentaton plus expressve des documents. Le prncpe même de l approche n'est pas nouveau mas nous avons proposé de nouvelles technques pour dentfer, pondérer et désambguïser les termes et pour découvrr des relatons entre les concepts correspondants au moyen des règles d'assocaton sémantques proposées. Les règles d'assocaton sémantques permettent de découvrr des relatons contextuelles entre les concepts condusant à une représentaton plus expressve de document. Concepts_tf_df Concepts_TF_df Requête P5 P10 P15 MAP P5 P10 P15 MAP

137 CHAPITRE 4. APPROCHE DE RI SEMANTIQUE TABLEAU 4.15 : Résultats d évaluaton de la méthode de pondératon de concepts : mpact de la méthode d ndexaton par les concepts L approche d évaluaton proposée vse à évaluer la pertnence d un document pour une requête donnée sur la base d'une mesure proposée de smlarté des graphes CP-Nets correspondants. Nous avons expérmenté notre approche d ndexaton sémantque par les concepts de WordNet. Les premers résultats concernant l apport de l ndexaton par les concepts ont montré des améloratons sgnfcatves en précson moyenne et en précson exacte par rapport à l approche d ndexaton par les mots clés. 136

138 Concluson générale Synthèse Les travaux présentés dans le cadre de cette thèse s nscrvent dans tros axes dfférents mas néanmons complémentares d un SRI : 1. l améloraton de la représentaton des requêtes par la prse en compte des préférences utlsateur, 2. l améloraton de la représentaton des documents par l ndexaton sémantque, 3. l évaluaton flexble des requêtes. Notre premère contrbuton porte sur la prse en compte des préférences utlsateur dans le processus de recherche. Classquement, les préférences utlsateur sont smplement exprmées par la pondératon des crtères de recherche. L attrbuton des pods numérques de requêtes n est pas sans problèmes, d une part car les pods numérques des termes de la requête peuvent être nterprétés de dfférentes manères (vu que dfférentes sémantques sont assocées aux pods) condusant à des évaluatons ncorrectes, et d autre part, car l n exste pas de bonnes méthodes pour pondérer correctement les termes d une requête. Des pods lngustques, plus naturels et plus ntutfs, ont ben été ntroduts à travers le concept qualtatf et flou d mportance, néanmons le problème de défnton des pods numérques de requêtes est reporté à la défnton du concept flou d mportance. Ces problèmes sont d autant plus vras pour les préférences condtonnelles qu, comme nous l avons montré en ntroducton, peuvent condure à des contradctons s quelques précautons ne sont pas prses en compte lors de la pondératon. Nous avons alors proposé une approche qu : 1. permet de prendre en compte les préférences condtonnelles, 2. permet d aller l expressvté de la pondératon ntutve qualtatve, à la pussance calculatore de la pondératon quanttatve numérque. L approche proposée défnt le formalsme CP-Net comme langage d expresson des requêtes utlsateur portant sur des préférences qualtatves. L utlsaton des CP-Nets offre pluseurs avantages : 1. les CP-Nets supportent tout naturellement les préférences condtonnelles qualtatves,

139 CONCLUSION GENERALE 2. ls offrent un formalsme graphque smple et ntutf qu permet de structurer ces dernères de manère compacte, 3. les fondements théorques des UCP-Nets permettent la traducton correcte des valeurs de préférences qualtatves en valeurs numérques correspondantes, offrant ans le moyen de pondérer automatquement des requêtes exprmant les préférences qualtatves de l utlsateur. La pondératon automatque des requêtes et l améloraton de la représentaton des requêtes ne sont pas nos seules propostons dans le cadre de cette premère contrbuton. Nous avons en effet proposé une approche d nterprétaton des documents ndexés en CP-Nets par projecton dans l espace des termes de la requête. Pus, nous avons proposé une approche d évaluaton des requêtes CP-Nets. L approche consste à : 1. retrouver les documents qu apparent les termes de la requête par une approche de recherche classque, 2. tradure les documents retrouvés dans le formalsme CP-Net. L approche utlsée c consste à projeter le document sur le même espace que la requête, et à le représenter par un CP-Net de même topologe que le CP-Net requête, 3. tradure les CP-Nets document et requête dans le paradgme booléen, 4. calculer la pertnence du document pour la requête booléenne en utlsant u opérateur d agrégaton flexble. La proposton dans sa globalté défnt ans un modèle théorque de RI flexble basé sur les CP-Nets. Notons cependant, que faute d exstence d un cadre d évaluaton adéquat, l approche n a pas été testée expérmentalement. Notre seconde contrbuton dans le cadre de la présente thèse, a pour objectf d amélorer le modèle précédent au nveau de la représentaton des documents et au nveau de l évaluaton. Au nveau de la représentaton des documents : Les SRI classques ndexent les documents et requêtes par les mots clés qu ls contennent. Pour calculer la pertnence document-requête, ces systèmes basent leur comparason sur le nombre de mots que le document partage avec la requête. Dans une telle approche un document contenant des termes de la requête et pourtant non pertnent est retrouvé, alors que des documents pourtant pertnents ne partageant pas de mots avec la requête sont gnorés. L ndexaton sémantque offre un moyen pour paller ce problème en autorsant l ndexaton des documents et requêtes par les sens des mots plutôt que par les mots qu ls contennent. Pour dentfer le sens correct d un mot dans un texte, les approches d ndexaton sémantque se basent sot sur le contexte local du mot et sur 138

140 CONCLUSION GENERALE des ressources externes, sot sur une certane dmenson sémantque latente entre les mots du texte comme c'est le cas dans la technque LSI. En rejognant ces dées, nous avons proposé une approche d'ndexaton sémantque comme combnason des approches d'ndexaton par les sens des mots et par sémantque latente entre les mots du texte. Pour extrare cette dmenson sémantque, nous nous sommes basés sur les règles d assocaton. Les règles d assocaton permettent la découverte de relatons mplctes, enfoues dans le texte, entre les termes du document. Notre approche d ndexaton sémantque s appue sur deux étapes : une premère étape d extracton des sens des mots, et une seconde étape de découverte des relatons latentes entre ces sens. (1) La premère étape s appue sur le contexte local et sur une ressource lngustque externe (WordNet en l occurrence) pour détermner le sens correcte d un mot dans le document. La nouveauté de notre approche par rapport aux approches exogènes classques d ndexaton sémantque résde dans: 1. une nouvelle technque d extracton des termes d ndexaton par mappng sur l ontologe WordNet, 2. une nouvelle technque de pondératon des concepts ntrodusant le concept d occurrence probable d un terme dans les sens possbles de ses sous termes, 3. une approche de désambguïsaton proposée et en partculer le calcul du score de smlarté symétrque basé tant sur le degré de corrélaton des concepts dans l ontologe que de l mportance des termes assocés dans le document. (2) La seconde étape concerne la découverte de relatons contextuelles mplctes entre les concepts ssus de l étape précédente. Le formalsme des règles d assocaton dans le contexte de la RI est classquement défn pour découvrr des relatons entre enttés lexcales, à savor les termes. Nous avons proposé un nouveau modèle de règles d assocaton dtes règles d assocaton sémantques, portant sur les relatons d assocaton entre enttés sémantques du document, à savor les concepts. Les règles d assocaton nterprétées dans ce modèle, permettent de structurer les concepts représentatfs du document en fasant ressortr son topc. Les règles d assocaton sémantques ans défnes permettent ans de découvrr les assocatons sémantques latentes entre les concepts représentatfs du document. L ensemble formé des concepts représentatfs du document d une part et des assocatons correspondantes d autre part, est organsé en un graphe condtonnel, le CP-Net document. Au nveau de l évaluaton Nous avons proposé une approche d évaluaton des requêtes basée sur l apparement des graphes. En partculer, pour des requêtes CP-Nets (défnes selon l approche que nous avons proposée dans notre premère 139

141 CONCLUSION GENERALE contrbuton), et des documents CP-Nets (défns par l approche d ndexaton sémantque proposée dans notre seconde contrbuton), la pertnence d un document pour une requête se tradut par le degré de smlarté des graphes CP-Nets correspondants. Cette approche d évaluaton, comparatvement à celle proposée dans notre modèle de RI flexble basé sur les CP-Nets (premère contrbuton), s affrancht du paradgme booléen et offre un mécansme plus flexble d évaluaton. Nous aurons ans posé les bases théorques d un modèle de RI flexble entèrement basé sur les CP-Nets. Dans son état actuel, même s quelques résultats sont dsponbles et confortent certanes de nos propostons (en l occurrence celles concernant l ndexaton sémantque), notre contrbuton reste globalement un modèle théorque de RI. Perspectves Les perspectves pour notre traval se déclnent en deux prncpaux ponts, le premer concerne la valdaton expérmentale des approches proposées, le second porte sur les améloratons possbles de ces approches. Valdaton expérmentale : La valdaton expérmentale d un modèle de RI a pour objectf de tester et d évaluer la vablté du modèle et de le comparer par rapport à d autres approches et modèles de référence. La valdaton expérmentale de notre modèle de RI proposé dans notre premère contrbuton, nécesste la constructon d un cadre d évaluaton supportant des requêtes CP- Nets. La constructon d un tel envronnement relève d un traval de recherche à part entère, qu ndépendamment du modèle proposé peut servr de base à la prse en compte des préférences condtonnelles dans le processus de RI. Concernant notre second modèle proposé dans notre deuxème contrbuton, nous avons obtenu quelques résultats prélmnares qu montrent l ntérêt de notre approche d ndexaton sémantque par la combnason des concepts de WordNet et des règles d assocaton. Nous n avons cependant pas expérmenté le modèle dans sa totalté. Il serat ntéressant dans le futur de se pencher en partculer, sur la valdaton expérmentale de notre approche d ndexaton sémantque en comparant l apport de l assocaton concepts/assocatons correspondantes à une approche smplement basée sur les concepts. Il serat auss ntéressant de tester l apport des règles d assocaton pour le SRI par rapport à des relatons sémantques classques ssues de l ontologe (telles que celles utlsées dans [Bazz et al., 04 ;05]). Par alleurs, comme le modèle enter est auss basé sur les CP-Nets, 140

142 CONCLUSION GENERALE et en partculer sur les requêtes CP-Nets, on dot auss construre le cadre d évaluaton adéquat pour expérmenter cette seconde approche. Améloratons futures Concernant notre modèle de RI flexble proposé en chaptre 3, l améloraton prncpale que l on pourrat apporter concerne la technque de pondératon automatque des requêtes, en partculer la traducton des ordres de préférences qualtatfs en valeurs d utltés correspondantes. L approche proposée suggère des ordres de préférences unformément dstrbués sur un domane de valeurs donnés selon l ordre de préférence qu y est spécfé. Il est alors mpossble de prendre en compte des énoncés préférentels modulés par des opérateurs lngustques «extrêmes» (à l exemple de : «je préfère de lon le jus d orange au jus de pomme»). Pour pouvor moduler ans les préférences utlsateur et en tenr compte lors de la pondératon, les ordres de préférences qualtatfs devraent être traduts en ensembles flous de valeurs d utltés. Cec permettrat de fuzzyfer le langage de requête et fournrat le moyen pour une plus large expressvté des requêtes utlsateur. Par alleurs, notre modèle de RI flexble est basé sur la projecton des documents sur l espace de la requête. Un même document aurat alors dfférentes représentatons qu lu sont assocées à rason d une par requête consdérée. L ndexaton est ans un processus coûteux en temps et en espace mémore. En outre, l apparement dans ce modèle est basé mots-clés, et est fondé sur le paradgme booléen pour calculer la pertnence des documents pour la requête. Ce sont ces rasons et d autres qu nous ont conduts à la proposton d un second modèle de RI (à travers notre seconde contrbuton). Ce derner est une améloraton de notre premère proposton, pour les ponts suvants : 1. La représentaton des documents : notre modèle de RI sémantque s affrancht des lmtatons des modèles basés mots-clés et propose une ndexaton par les concepts. Par alleurs, chaque document possède une seule représentaton CP-Net, ndépendante de la requête, 2. l apparement s affrancht du paradgme booléen, en se basant sur une mesure proposée de smlarté des graphes. Fnalement, notre second modèle de RI basé sur la sémantque, peut auss être améloré partculèrement au nveau de la découverte des règles d assocaton utlsé. En effet, notre approche de découverte des règles d assocaton préconse la découverte d assocatons entre concepts ndvduels. Une améloraton possble conssterat à découvrr les relatons entre ensembles de concepts, permettant ans de créer un réseau sémantque du document, certanement plus complexe mas auss plus rche que celu que nous construsons à travers notre approche proposée en chaptre

143 CONCLUSION GENERALE Cette approche a été à l orgne de notre proposton dans [Boubekeur et al., 07], mas nous l avons vte abandonnée à cause de la complexté des calculs mplqués. Néanmons, nous restons convancus qu elle mènerat à une melleure représentaton des documents. Par alleurs, vu le nombre de concepts qu peuvent ndexer les documents, et vu la complexté des calculs mplqués dans la découverte des règles d assocaton, une autre améloraton possble conssterat à regrouper au sen de clusters, des concepts sémantquement proches dans l ontologe, pus à adapter les règles d assocaton sémantques à ce nouveau modèle de concepts. La représentaton obtenue pourrat alors consttuer une sorte d abstracton orentée topc du document ndexé. 142

144 Références bblographques [Agrre et al., 01] E. Agrre and D. Martnez. Knowledge sources for Word Sense Dsambguaton. In Proceedngs of the Fourth Internatonal Conference TSD 2001, Plzen (Plsen), Czech Republc. Publshed n the Sprnger Verlag Lecture Notes n Computer Scence seres. Václav Matousek, Pavel Mautner, Roman Moucek, Karel Tauser (eds.) Copyrght Sprnger-Verlag. [Agrawal et al., 93] Rakesh Agrawal, Tomasz Imelnsk And Arun Swam : Mnng Assocaton Rules Between Sets Of Items In Large Databases. In Proc. Of The ACM SIGMOD Internatonal Conference Management Of Data, pp , Washngton, D.C., 1993 [Agrawal et al., 94] R. Agrawal And R. Srkant. Fast Algorthms For Mnng Assocaton Rules In Large Databases (Santago, Chle) In Proceedngs Of The 20th Conference On Very Large Data Bases (VLDB'94), Pages Morgan Kaufmann, Internatonal Conference September [Ahonen et al., 97] H. Ahonen, O. Henonen, M. Klemettnen, And A. Verkamo. Applyng Data Mnng Technques In Text Analyss. Techncal Report, Department Of Computer Scence, Unversty Of Helsnk, [Albrecht et al., 98] Albrecht, R. and Merkl, D Knowledge Dscovery In Lterature Data Bases. In Lbrary And Informaton Servces In Astronomy III. (ASP Conference Seres, Vol. 153.) Http :// [Alvarez et al., 03] Alvarez C., Langlas P., J.Y- Ne. Word Pars n Language Modelng for Informaton Retreval. Rapport nterne, RALI. (2003). [Ambrozak, 97] J. Ambrozak. Conceptually asssted Web browsng. In the sxth Internatonal World Wde Web Conference. Santa Clara, CA.(1997). http :// [Apte et al., 94] Apte, C., Damerau, F., And Wess, S. M., Automated Learnng Of Decson Rules For Text Categorzaton, ACM Transactons On Informaton Systems, Vol. 12. No. 3, July 1994, Pp I. [Audbert, 03] Audbert L., Outls d exploraton de corpus et désambguïsaton lexcale automatque. Thèse de Doctorat en Informatque de l Unversté de Provence. Décembre [Audbert, 03] L. Audbert. Outls d exploraton de corpus Et désambguïsaton lexcale automatque. Thèse de Doctorat en Informatque de l Unversté de Marselle. Décembre [Aussenac-Glles et al., 00] Aussenac-Glles N., Bébow B., Szulman N., Revstng Ontology Desgn : a method based on corpus analyss. Knowledge engneerng and knowledge management : methods, models and tools, Proc. of the 12th Internatonal Conference on Knowledge Engneerng and Knowledge Management. Juan-Les-Pns (F). Oct R 143

145 REFERENCES BIBLIOGRAPHIQUES Deng and O. Corby (Eds). Lecture Notes n Artfcal Intellgence Vol Berln : Sprnger Verlag. pp [Azé et al., 02] Azé J. et Kodratoff Y. (2002), Evaluaton de la résstance au brut de quelques mesures d'extracton de règles d'assocaton. In spécal revue ECA, Actes Colloque EGC 2002, Montpeller, pp [Baeza-Yates et al., 99] Rcardo A. Baeza-Yates, Berther A. Rbero-Neto: Modern Informaton Retreval ACM Press. Addson-Wesley 1999 [Balpe et al., 95] Balpe, J., Lelu, A., and Saleh, I. Hypertextes et hypermédas : réalsatons, outls et méthodes. Pars : Hermès, [Banerjee et al., 02] Banerjee, Satanjeev and Ted Pedersen. ``An Adapted Lesk Algorthm for Word Sense Dsambguaton Usng WordNet'' In: Proceedngs of the Thrd Internatonal Conference on Intellgent Text Processng and Computatonal Lngustcs (CICLING-02), Mexco Cty, February, [Banerjee et al., 03] BANERJEE S. & PEDERSEN T. Extended gloss overlaps as a measure of semantc relatedness. In Eghteenth Internatonal Conference on Artfcal Intellgence (IJCAI-03), p , Acapulco, Mexco. (2003). [Bartsch, 85] Bartsch, M. (1985). Overvew of Informaton Retreval Subjects. IEEE Computer. I&S, 67-84; [Bautsta et al., 04] M.J. Martn-Bautsta, D. Sanchez, J. Chamorro-Martnez, J.M. Serrano, M.A. Vla. Mnng Web Documents To Fnd Addtonal Query Terms Usng Fuzzy Assocaton Rules. Fuzzy Sets And Systems 148 (2004) ) [Bayardo et al., 98] R. J. Bayardo. Effcently Mnng Long Patterns From Databases. In Pro- Ceedngs Of The 1998 ACM SIGMOD Internatonal Conference On Mana- Gement Of Data (SIGMOD'98), Pages ACM Press, June [Bazz et al., 03a] M. Bazz, N. Aussenac-Glles, M. Boughanem. Désambgusaton et Expanson de Requêtes dans un SRI, Etude de l'apport des lens sémantques. Dans : Revue des Scences et Technologes de l'informaton (RSTI) sére ISI, Hermes, 11, rue Lavoser, F Pars, V. 8, N. 4/2003, p , décembre [Bazz et al., 03b] M. Bazz, N. Aussenac-Glles, M. Boughanem. Explotaton des Lens Sémantques pour l Expanson de Requêtes dans un Système de Recherche d'informaton. Dans : XXIème Congrès INFORSID 2003, Nancy, France, 3 janver 6 jun INFORSID, Inforsd, 20 rue Axel Duboul Toulouse, p [Bazz et al., 04] Mustapha Bazz, Mohand Boughanem, Nathale Aussenac-Glles. The Use of Ontology for Semantc Representaton of Documents. Dans : The 2nd Semantc Web and Informaton Retreval Workshop(SWIR), SIGIR 2004, Sheffeld UK, 29 jullet Yng Dng, Keth van Rjsbergen, Iad Ouns, Joemon Jose (Eds.), pp [Bazz et al., 05a] Mustapha Bazz, Mohand Boughanem, Nathale Aussenac-Glles, Claude Chrsment. Semantc Cores for Representng Documents n IR. Dans : SAC' th ACM Symposum on Appled Computng, Santa Fe, New Mexco, USA, 13 mars 17 mars ACM Press, New York, NY, USA, p [Bazz et al., 05b] Mustapha Bazz, Mohand Boughanem, Nathale Aussenac-Glles. A Conceptual Indexng Approach based on Document Content Representaton. Dans : CoLIS5 : Ffth Internatonal Conference on Conceptons of Lbrares and Informaton Scence, Glasgow, UK, 4 jun 8 jun F. Crestan, I. Ruthven (Eds.), Lecture Notes n Computer 144

146 REFERENCES BIBLIOGRAPHIQUES Scence LNCS Volume 3507/2005, Sprnger-Verlag, Berln Hedelberg, p [Bazz et al., 05c] Bazz M., Indexaton Conceptuelle Gudée Par Ontologe Pour La Recherche d'informaton. Thèse de Doctorat en Informatque de l'unversté Paul Sabater de Toulouse (Scences). Décembre [Beale et al., 95] Stephen Beale, Serge Nrenburg and Kav Mahesh Semantc Analyss n the Mkrokosmos Machne Translaton Project. In Proc. of the 2nd Symposum on Natural Language Processng, Bangkok, Thaland. [Bédard, 07] Y. Bédard. Notes de Cours. (2007). http ://yvanbedard.scg.ulaval.ca/ensegne/ SCG66124/DMSpatal.ppt [Belew, 89] Belew R (1989) : Adaptve Informaton Retreval : Usng a Connectonst Representaton to Retreve and Learn about Documents. In : Belkn and Rjsbergen pp [Belkn et al., 87] BELKIN, N., AND CROFT, W B Retreval Technques. Annual Revew of Informaton Scence and Technology ( ARIST), 22, (1987), [Belkn et al., 92] Ncholas J. Belkn, Peter Ingwersen, Annelse Mark Pejtersen : Proceedngs of the 15th Annual Internatonal ACM SIGIR Conference on Research and Development n Informaton Retreval. Copenhagen, Denmark, June 21-24, 1992 ACM 1992 [Berger, 99] A. Berger and J. Lafferty, Informaton Retreval as Statstcal Translaton, Research and Development n Informaton Retreval, Proc. ACM-SIGIR 99, pp , [Berrut, 97] Berrut C., Indexaton des Données Multméda, Utlsaton dans le Cadre d'un Système de Recherche d'nformatons. H.D.R. en Informatque de l'unversté Joseph Fourer - Grenoble I. Octobre [Berry et al., 94] M.W. Berry, S. T. Dumas, G. W. O Bren, Usng lnear algebra for Intellgent Informaton Retreval, [Berzal et al., 02] F. Berzal, I. Blanco, D. S&Anchez, M.A. Vla, Measurng The Accuracy And Importance Of Assocaton Rules : A New Framework, Intell. Data Anal. 6 (2002) [Blar et al., 85] Davd C. Blar, M. E. Maron : An Evaluaton of Retreval Effectveness for a Full- Text Document-Retreval System. Commun. ACM 28(3) : (1985) [Bodner et al., 96] C. Bodner And Fe Song.Knowledge-Based Approaches To Query Expanson In Informaton Retreval Rchard (1996) Knowledge-Based Approaches To Query Expanson In Informaton Retreval. In Mccalla, G. (Ed.), Advances In Artfcal Intellgence (Pp ). New York : Sprnger. [Booksten, 80] Booksten, A. Fuzzy requests : an approach to weghted boolean searches. Journal of the Amercan Socety for Informaton Scence, 31(4), , [Bordogna et al., 91] Bordogna G., Carrara P., and Pas G., Query term weghts as constrants n fuzzy nformaton retreval, Informaton Processng and Management, 27[1], 1991, p [Bordogna et al., 91b] Bordogna G., and Pas G. Lngustc aggregaton operators of selecton crteran fuzzy nformaton retreval, Internatonal Journal of Intellgent Systems, 10, , [Bordogna et al., 93] Bordogna G., Pas G., A fuzzy lngustc approach generalzng Boolean nformaton retreval : a model and ts evaluaton, Journal of the Amercan Socety for 145

147 REFERENCES BIBLIOGRAPHIQUES Informaton Scence, 44[2], Mars 1993, p [Bordogna et al., 95] Bordogna G., Pas G., Lngustc aggregaton operators of selecton crtera n fuzzy nformaton retreval, Internatonal Journal of Intellgent Systems, 10, 1995, p [Borlund, 03] Pa Borlund. The concept of relevance n IR. In Journal of the Amercan Socety for Informaton Scence and Technology. Volume 54, Issue 10 (August 2003). [Boughanem et al., 92] Mohand Boughanem, C. Soulé-Dupuy : A Connexonst Model for Informaton Retreval. DEXA 1992 : [Boughanem, 92] Mohand Boughanem: les Systèmes de Recherche d Informaton : d un modèle classque à un modèle connexonnste. Thèse de Doctorat de l Unversté Paul Sabater, [Boughanem et al., 05] M. Boughanem, Y. Loseau, and H. Prade. Rank-orderng documents accordng to ther relevance n nformaton retreval usng refnements of orderedweghted aggregatons. In Proc. of the 3rd Internatonal Workshop on Adaptve Multmeda Retreval (AMR 05), Glasgow, UK, 28/07/05-29/07/05, pages LECTURE NOTES IN COMPUTER SCIENCE, Sprnger, jullet [Boughanem et al., 07] Mohand Boughanem, Yannck Loseau, Henr Prade. Refnng Aggregaton Functons for Improvng Document Rankng n Informaton Retreval. Dans : Internatonal Conference on Scalable Uncertanty Management (SUM 2007), Washngton,DC, USA, 10/10/07-12/10/07, Vol. 4772/2007, Sprnger-Verlag, p , octobre [Bourgault, 96] Bourgault D. (1996) : " Lexter, a Natural Language Processng Tool for Termnology Extracton ". Proceedngs of Euralex 96, Göteborg Unversty, Department of Swedsh, 1996, pp [Boutler et al., 01a] C. Boutler R. I. Brafman C. Domshlak H. H. Hoos and D. Poole. Preference-Based Constraned Optmzaton wth CP-nets. Computatonal Intellgence, 20(2): , [Boutler et al., 01b] Crag Boutler Fahem Bacchus and Ronen I. Brafman. UCP-Networks: A Drected Graphcal Representaton of Condtonal Utltes.. In UAI, pages 56-64, [Boutler et al., 04b] C. Boutler R. I. Brafman C. Domshlak H. H. Hoos and D. Poole. CP-Nets: A Tool for Representng and Reasonng wth Condtonal Ceters Parbus Preference Statements. Journal of Artfcal Intellgence Research (JAIR), 21, [Boutler et al., 97] Crag Boutler, Ronen Brafman, Chrs Geb, Davd Poole. A Constrant- Based Approach to Preference Elctaton and Decson Makng. In AAAI Sprng Symposum on Qualtatve Preferences n Delberaton and Practcal Reasonng [Boutler et al., 99] C. Boutler R. I. Brafman H. H. Hoos and D. Poole. Reasonng wth Condtonal Ceters Parbus Preference Statements. In UAI`99, pages 71-80, [Brafman et al., 02a] R. Brafman and C. Domshlak. Introducng Varable Importance Tradeoffs nto CP-Nets. In Workshop on Plannng and Schedulng wth Multple Crtera, Aprl [Brafman et al., 02b] R. Brafman and C. Domshlak. Introducng Varable Importance Tradeoffs nto CP-Nets. In Proc. 18th Conf. on Uncertanty n AI (UAI`02), [Brafman et al., 04] R. Brafman C. Domshlak and E. S. Shmony. Qualtatve Decson Makng n 146

148 REFERENCES BIBLIOGRAPHIQUES Adaptve Presentaton of Structured Informaton. ACM Transacton on Informaton Systems, 22(4): , [Brn et al., 97 ] Brn S., Motwan R. et Slversten C. (1997a), Beyond market baskets : generalzed assocatons rules to correlatons. In Proceedngs of ACM SIGMOD'97, [Brscoe, 91] Brscoe, T. "Lexcal Issues n NLP", en E. Klen & F. Veltman (eds.) Natural Language and Speech. The Netherlands: Sprnger-Verlag. (1991). [Bruce et al., 92] Bruce, R., Wlks, Y., Guthre, L., Slator, B., Dunnng, T. : NounSense - A Dsambguated Noun Taxonomy wth a Sense of Humour. Research Report MCCS Computng Research Laboratory, New Mexco State Unversty (1992) [Buckley et al., 94] Buckley C., Salton G. and Allan J., The Effect of addng nformaton n a relevance Feedback envronment, n the Proceedngs of the ACM SIGIR Conference On Research and Development n Informaton Retreval (SIGIR), pp , [Buell et al., 81a] Buell, D.A.; Kraft, D.H. Threshold Values and Boolean Retreval Systems. Informaton Processng & Management, f7, ; [Buell et al., 81b] Buell, D. A. and Kraft, D. H. A model for a weghted retreval system. Journal of the Amercan Socety for Informaton Scence, 32(3), May, , [Buell, 82] Buell, D.A. An Analyss of some Fuzzy Subset Applcatons to Informaton Retreval Systems. Fuzzy Sets and Systems, 7, 35-42; [Butelaar et al., 04] Butelaar, P., Steffen D., Volk, M., Wddows, D., Sacaleanu, B., Vntar, S., Peters, S., Uszkoret, H., Evaluaton Resources for Concept-based Cross-Lngual IR n the Medcal Doman In Proc. of LREC2004, Lssabon, Portugal, May [Butelaar, 98] P. Butelaar CoreLex : systematc polysemy and underspecfcaton. Ph.D. thess, Department of Computer Scence, Brandes Unversty, Boston. [Callan et al., 92] J. Callan, B. Croft, and S. Hardng The INQUERY retreval system. In Proceedngs of the 3rd Int. Conference on Database and Expert Systems applcatons. DEXA 1992 : [carroll et al., 89] Carroll, J. and C. Grover (1989) The dervaton of a large Computatonal lexcon for Englsh from LDOCE n B. Boguraev and E. J. Brscoe (ed.), Computatonal lexcography for natural language processng, Longman, London, pp [Cater et al., 89] Cater, S.C.; Kraft, D.H. A generalzaton and clarfcaton of the Waler-&aft Wsh Lst. Informaton Processng & Management, 25(l), 15-25; [Ceglar et al., 06] A. Ceglar and J. F. Roddck. Assocaton Mnng. ACM Computng Surveys, Vol. 38, No. 2, Artcle 5, Publcaton Date : July [Chang et al., 99] Chang, C.H., Hsu, C.C. Enablng Concept-Based Relevance Feedback For Informaton Retreval On The WWW. IEEE Transactons On Knowledge And Data Engneerng, Vol. 11, No.4, [Cheeseman et al., 96] P. Cheeseman And J. Stutz. Bayesan Classfcaton (Autoclass) : Theory And Results. In U. M. Fayyad, G. Patetsky-Shapro, P. Smyth, And R. Uthurusamy, Edtors, Advances In Knowledge Dscovery And Data Mnng, Pages AAI Press, [Chen et al., 96] M. S. Chen, J. Han, And P. S. Yu, Data Mnng : An Overvew From Database Perspectve, IEEE Trans. On Knowledge And Data Engneerng, Vol. 8, No. 6, Dec. 147

149 REFERENCES BIBLIOGRAPHIQUES 1996, Pp [Chen, 01] Chen, H Knowledge Management Systems : A Text Mnng Perspectve. Unversty Of Arzona (Knowledge Computng Corporaton), Tucson, Arzona. [Cherf et al., 02] H. Cherf, Y. Toussant. Adéquaton D'ndces Statstques A L'nterprétaton De Règles D'assocaton. JADT 2002 : 6es Journées Internatonales d Analysestatstque Des Données Textuelles Mars Palas Du Grand Large Sant-Malo. France. [Cherf, 04] Hacène Cherf. «Etude Et Réalsaton D un Système D extracton De Connassances A Partr De Textes». THESE De DOCTORAT DE L UNIVERSITE HENRI POINCARE. Nancy 1. Dscplne : Informatque. Novembre [Chevaler, 02] Chevaler M., Interface Adaptatve pour l Ade à la Recherche d Informaton sur le Web. Thèse de Doctorat en Informatque de l'unversté Paul Sabater de Toulouse (Scences). Décembre [Chevallet, 97] Chevallet J. P., Bruandet M. F., Ne J. Y., Impact De L'utlsaton De Mult Termes Sur La Qualté Des Réponses D'un Système De Recherche D'nformaton. n Organsaton des connassances en vue de leur ntégraton dans les systèmes de représentaton et de recherche d'nformaton Collecton UL3 Llles, Premère Journées du Chaptre Franças de l'isko à Llle. USBN , Llle, France, pp , octobre, [Church et al., 90] K. Church and P. Hanks. Word assocaton norms, mutual nformaton and lexcography. In proceedngs of the 28th Annual Meetng of the Assocaton for Computatonal Lngustcs. Pages [Church, 92] K. W. Church (1992). A stochastc parts program and noun phrase parser for unrestrcted text. Second Conference on Appled Natural Language Processng, Austn, Texas. pp [Cleverdon, 67] Cleverdon, C.. The cranfeld tests on ndex language devces. In Aslb Proceedngs, volume 19, pages , (1967). [Cleverdon, 70] Cleverdon, C. Progress n documentaton. evaluaton of nformaton retreval systems. Journal of Documentaton 26 (1970), [Cooper, 71] Cooper, W.S. (1971). A defnton of relevance for nformaton retreval. Informaton Storage and Retreval, 7, [Couturer, 05] Olver Couturer. «Contrbuton A La Foulle De Données : Règles D'assocaton Et Interactvté Au Sen D'un Processus D'extracton De Connassances Dans Les Données». THESE En Vue De L'obtenton Du Doctorat De l'unversté d'artos (Spécalté Informatque). Décembre 2005 [Crestan et al., 03] CRESTAN E., EL-BÈZE M. & DE LOUPY C. (2003). Peut-on trouver la talle de contexte optmale en désambguïsaton sémantque? In 10e conférence TALN, p , Batz-sur-mer, France. [Crestan et al., 98] Crestan, F., Lalmas, M., Campbell, I. and van Rsbergen, C.J. Is ths document relevant?...probably. A survey of probablstc models n nformaton retreval.acm Computng Surveys [Crestan et al., 99] F. Crestan and G. Pas, "Soft Informaton Retreval : Applcatons of Fuzzy Set Theory and Neural Networks", "Neuro-fuzzy tools and technques", N.Kasabov Edtor, Physca-Verlag, Sprnger-Verlag Group, 1999, pp [Croft et al., 91] W. Bruce Croft, Howard R. Turtle, Davd D. Lews : The Use of Phrases and 148

150 REFERENCES BIBLIOGRAPHIQUES Structured Queres n Informaton Retreval. SIGIR 1991 : [Davd et al., 06] Jérôme Davd, Fabrce Gullet, Régs Gras, Henr Brand. Algnement De Taxonomes Documentares : Une Méthode Asymétrque Et Extensonnelle. Sdc Semane De La Connassance. Nantes - 26 Au 30 Jun 2006 [Davd et al., 96] Davd A. Evans and Chengxang Zha. Noun-phrase analyss n unrestrcted text for nformaton retreval. In Proceedngs of the 34th Annual Meetng of the Assocaton for Computatonal Lngustcs, pages , Santa Cruz, CA, [De Mantaras et al., 90] De Mantaras, R. L., Cortes, U., Manero, J., and Plaza, E. Knowledge engneerng for a document retreval system. Fuzzy Sets and Systems, 38(2), November,1990. [Deerwester et al., 90] Scott C. Deerwester, Susan T. Dumas, Thomas K. Landauer, George W. Furnas and Rchard A. Harshman, "Indexng by Latent Semantc Analyss". In Journal of the Amercan Socety of Informaton Scence, Vol. 41 :6, [Delagado et al., 07] M. Delgado, M.J. Martín-Bautsta, D.Sánchez, J.M. Serrano, M.A. Vla. Fuzzy Assocaton Rules for Query Refnement n Web Retreval. Book Chapter. In Studes n Fuzzness and Soft Computng book seres. PublsherSprnger Berln / Hedelberg ISSN (Prnt) (Onlne) VolumeVolume 218/2008 Copyrght2008 ISBN DOI / _17 Pages [Delgado et al., 02a] M. Delgado, M. J. Martn-Bautsta, D. Sanchez Et M.A. Vla. Mnng Text Data : Specal Features And Patterns. Dans Pattern Detecton And Dscovery : Proc. Of ESF Exploratory Workshop, Rédacteurs D.J. Hand, N.M. Adams Et R.J. Bolton, Volume 2447 De Lecture Notes In Artfcal Intellgence LNAI, Pages , London, Sprnger-Verlag. [Delgado et al., 02b] M. Delgado, M.J. Martín-Bautsta, D. Sánchez, J.M. Serrano, M.A. Vla. Assocaton Rule Extracton For Text Mnng. In Proceedngs Of Flexble Query Answerng Systems : 5th Internatonal Conference, FQAS Copenhagen, Denmark, October 27-29, Pages [Denoyer, 04] Denoyer L., Apprentssage et Inférence Statstque dans les Bases de Documents Structurés : Applcaton aux Corpus de Documents Textuels. Thèse de Doctorat en Informatque de l Unversté de Pars 6. Décembre [Dxon, 97] Mark Dxon, (1997), An Overvew Of Document Mnng Technology, Http :// [Domshlak et al., 00a] C. Domshlak and R. I. Brafman. CP-nets - Reasonng and Consstency Testng. In Proc. 8th Int. Conf. on KR&R, pages , [Domshlak et al., 00b] Carmel Domshlak, Samr Genam and Ronen Brafman. Preference-based Confguraton of Web Page Content. In Proceedngs of 3rd Workshop on Confguraton, ECAI-2000, pages 19-22, August [Domshlak et al., 01] C. Domshlak, R. I. Brafman and E. S. Shmony. Preference-Based Confguraton of Web Page Content. In Proc. 17th Internatonal Jont Conference on AI (IJCAI`01), pages , [Domshlak, 02] C. Domshlak. Modelng and Reasonng about Preferences wth CP-Nets. Thess submtted n Partal Fullfllment of the Requerements of the Degree of Doctor of Phlosophy of Ben-Guron Unversty of the Negev, Israël

151 REFERENCES BIBLIOGRAPHIQUES [Doprado, 07] Hércules Antono Do Prado. Emergng Technologes Of Text Mnng : Technques And Applcatons / Hercules Antono Do Prado & Edlson Ferneda, Edtors. ISBN (Hardcover) -- ISBN (Ebook) [Doyle et al., 94] J. Doyle and M.P. Wellman. Representng Preferences as ceters parbus comparatves. In Workng Notes of the AAAI Symposum on Decson-Theorc Plannng. AAAI, [Edmonds et al., 03] Journal of Natural Language Engneerng (specal ssue based on Senseval-2) Edtors : Phl Edmonds and Adam Klgarrff. vol.9 no. 1, Jan [Efthmads, 96] Efthmads, R. Query Expanson. Annual Revew Of Informaton Systems And Technology, Vol. 31, Pp , [El Wakl, 02] Mohamed M. El Wakl. Introducng Text Mnng. In 9th Scentfc Conference For Informaton Systems And Informaton Technology (ISIT02), Feb [Ester et al., 95] Martn Ester, Hans-Peter Kregel, Xaowe Xu. Knowledge Dscovery In Large Spatal Databases : Focusng Technques For Effcent Class Identfcaton (1995). In Advances In Spatal Databases, 4th Internatonal Symposum, SSD'95. [Fagan, 87] Fagan, Joel L Experments n Automatc Phrase Indexng for Document Retreval : A Comparson of Syntactc and Non-syntactc methods, PhD thess, Dept. of Computer Scence, Cornell Unversty, Sept [Fayet et al., 98] A. Fayet, A. Gacomett, D. Laurent, And N. Spyratos. Découverte De Règles Pertnentes Dans Les Bases De Données. In Actes Des 14èmes Journées Bases De Données Avancées (BDA'98), Pages , Octobre [Fayyad et al., 96] U.M. Fayyad, G. Patetsky-Shapro, P. Smyth, From Data Mnng To Knowledge Dscovery : An Overvew, In : U.M. Fayyad, G. Patetsky-Shapro, P. Smyth, R. Uthurusamy (Eds.), Advances In Knowledge Dscovery And Data Mnng, AAAI /MIT Press, Calforna, USA, Pages 1_35. [Fayyad et al., 98] U. Fayyad, G. Patetsky-Shapro, And P. Smyth. From Data Mnng To Knowledge Dscovery : An Overvew. Advances In Knowledge Dscovery And Data Mnng, MIT Press, 1 :1 36, [Feldman et al., 07] Ronen Feldman And James Sanger. THE TEXT MINING HANDBOOK. Advanced Approaches In Analyzng Unstructured Data. CAMBRIDGE UNIVERSITY PRESS. The Ednburgh Buldng, Cambrdge CB2 8RU, UK. ISBN Ebook (Netlbrary). ISBN Ebook (Netlbrary). ISBN Hardback ISBN Hardback Ronen Feldman And James Sanger 2007 [Feldman et al., 95] R. Feldman Et I. Dagan. Knowledge Dscovery In Textual Databases (KDT). Dans In Proceedngs Of The Frst Internatonal Conference On Knowledge Dscovery And Data Mnng (KDD-95), Rédacteurs U. M. Fayyad Et R. Uthurusamy, Pages , Montréal, Canada, AAAI Press. [Feldman et al., 98] R. Feldman, M. Fresko, Y. Knar, Y. Lndell, O. Lphstat, M. Rajman, Y. Schler Et O. Zamr. Text Mnng At The Term Level. Dans Proc. Of The 2nd Eur. Symp. On Prncples Of Data Mnng And Knowledge Dscovery (PKDD 98), J. M. Zytkow Et M. Quafafou Edtors, Volume Lecture Notes In Artfcal Intellgence LNAI, Pages 65 73, Nantes, 1998 [Fellbaum, 98] FELLBAUM, Chrstane, ed. (1998). Wordnet An Electronc Lexcal Database, 150

152 REFERENCES BIBLIOGRAPHIQUES The MIT Press, Cambrdge, Massachusetts. [Fonseca et al., 05] Bruno M. Fonseca. Paulo Golgher. Bruno Pôssas. Berther Rberoneto. Nvo Zvan. Concept Based Interactve Query Expanson.CIKM 05, October 31 November 5, 2005, Bremen, Germany. Copyrght 2005 ACM / [Fox, 92] Fox, C. Lexcal analyss and stoplsts. Informaton Retreval : Data Structures and Algorthms (1992), [Frakes, 92] Frakes, W. Stemmng algorthms. Informaton Retreval : Data Structures and algorthms (1992), [Gale et al., 92a] Gale, W., Church, K. & Yarowsky, D. (1992). Usng blngual materals to develop word sense dsambguaton methods. Internatonal Conference on Theoretcal and Methodologcal Issues n Machne Translaton, [Gale et al., 92b] Gale, W., Church, K. & Yarowsky, D. (1992). A method for dsambguatng word senses n a large corpus. In Computers and the humantes (Vol. 26, pp ). Kluwer Academc Publshers. [Ganter et al., 99] B. Ganter et R. Wlle. Formal Concept Analyss. Edton Sprnger-Verlag, Hedelberg, [Gauch et al., 93] Gauch, S., Smth, J.B. An Expert System For Automatc Query Reformulaton. Journal Of The Amercan Socety For Informaton Scence, 44(3), Pp [Gausser et al., 1997] E. Gausser, G. Grefenstette, et M. Schulze. Tratement du langage naturel et recherche d nformatons : quelques expérences sur le franças. In Premères Journées Scentfques et Technques du Réseau Francophone de l Ingénere de la Langue de l AUPELF-UREF, [Gausser et al., 2000] E. Gausser, G. Grefenstette, D. Hull, et C. Roux. Recherche d nformaton en franças et tratement automatque des langues. revue Tratement Automatque des Langues (TAL), 41(2) : , [Gonzalo et al., 98] J. Gonzalo, F. Verdejo, I. Chugur, and J. Cgarran Indexng wth WordNet synsets can mprove text retreval. In Proceedngs of COLING-ACL '98 Workshop on Usage of Word.Net n Natural Language Processng Systems, Montreal, Canada, August. [Gonzalo et al., 99] J. Gonzalo, A. Pefas, and F. Verdejo. Lexcal ambguty and nformaton retreval revsted. In Proceedngs of EMNLP/VLC, [Gras et al., 01]. Gras R., Kuntz P., Couturer R. Et Gullet F. (2001), Une Verson Entropque De L'ntensté D'mplcaton Pour Les Corpus Volumneux, Revue ECA, Extracton Des Connassances Et Apprentssage, Hermès, Vol. 1, 2001, Pp [Grshman et al., 94] Ralph Grshman, Catherne Macleod, and Adam Meyers. COMLEX syntax : Buldng a computatonal lexcon. In Proceedngs of COLING-94, Kyoto, Japan [Grobelnk Et Al., 00] Marko Grobelnk Dunja Mladenc Natasa Mlc-Fraylng Text Mnng As Integraton Of Several Related Research Areas : Report On KDD'2000 Workshop On Text Mnng (SIGKDD Exploratons. Volume 2, Issue 2) [Groler] Groler Multmeda Encyclopeda CD-ROM. Groler nteractve Inc., 90 Sherman Turnpke, Danbury, CT 06816, USA. [Gruber, 93] T.R. Gruber, A translaton approach to portable ontology specfcatons, Knowledge Acquston, 5 (2), pp ,

153 REFERENCES BIBLIOGRAPHIQUES [Gruber, 95] Gruber, T. R., Toward Prncples for the Desgn of Ontologes Used for Knowledge Sharng. Internatonal Journal Human-Computer Studes, 43(5-6) : , [Guarno et al., 01] N. Guarno, C. Welty, Identty and Subsumpton, In The Semantcs of Relatonshps : an Interdscplnary Perspectve, R. Green, C.A. Bean, S. Hyon Myseng (Eds), Kluwer, pp , [Guthre et al., 91] J.A. Guthre, L. Guthre, Y. Wlks, H. Adnejad (1991). Subject-dependant cooccurrence and word sense dsambguaton. In Proceedngs of the 29th Annual Meetng of the Assocaton for Computatonal Lngustcs, Berkley, CA. : [Haddad et al., 00] H. Haddad, J.P. Chevallet and M. F. Bruandet, Relatons between Terms Dscovered by Assocaton Rules, 4th European conference on Prncples and Practces of Knowledge Dscovery n Databases PKDD 2000, Workshop on Machne Learnng and Textual Informaton Access, France (2000). [Haddad, 02] Mohamed Hatem HADDAD. «Extracton Et Impact Des Connassances Sur Les Performances Des Systèmes De Recherche d Informaton». Thèse De Doctorat De L unverst E Joseph Fourer. Dscplne : Informatque. Septembre [Haddad, 03] Hatem Haddad : French Noun Phrase Indexng And Mnng For An Informaton Retreval System. SPIRE 2003 : [Han et al., 95] J. Han and Y. Fu. Dscovery Of Multple-Level Assocaton Rules From Large Databases. In Proceedngs Of The 21st Internatonal Conference On Very Large Data Bases (VLDB'95), Pages Morgan Kaufmann, September [Hansson, 85] S.O Hansson. What s ceters parbus preference. Journal of Phlosphcal Logc, 25(3): , [Harman, 92] Donna Harman : Relevance Feedback Revsted, n the Proceedngs of the ACM SIGIR Conference On Research and Development n Informaton Retreval (SIGIR), pp 1-10, [Hayash et al., 91] Hayash, I., Nato, E., Wakam, N., Terano, T., Sugeno, M., Mukadono, M., and Shgemasu, K. A proposal of fuzzy connectve wth learnng functon and ts applcaton to fuzzy nformaton retreval. In Fuzzy Engneerng Toward Human Frendly Systems, November, Yokohama, Japan, Amsterdam, The Netherlands, IOS Press, , [Hayes, 90] Hayes PJ. Intellgent hgh volume text processng usng shallow, doman specfc technques. Workng Notes, AAAI Sprng Symposum on Text-Based Intellgent Systems, 1990 : [Hearst, 98] Hearst, M. A. (1998). Automated dscovery of WordNet relatons. In C. FELLBAUM, Ed., WordNet: an electronc lexcal database, Language, Speech and Communcaton, chapter 5, pp Cambrdge, Massachusetts: The MIT Press. [Hernandez, 05] Hernandez N., Ontologes de Domane pour la Modélsaton du Contexte en Recherche d Informaton. Thèse de Doctorat en Informatque de l'unversté Paul Sabater de Toulouse (Scences). Spécalté Informatque. Décembre 2005?. [Herrera-Vedma, 00] E. Herrera-Vedma. An Informaton Retreval System wth Ordnal Lngustc Weghted Queres Based on Two Weghtng Semantc. 7th Internatonal Conference on Informaton Processng and Management of Uncertanty n Knowledge- Bases Systems. IPMU'2000. Madrd, (España), 2000, Vol. I, pp

154 REFERENCES BIBLIOGRAPHIQUES [Herrera-Vedma, 99] E. Herrera-Vedma. Modellng the Query Subsystem of an Informaton Retreval System Usng Lngustc Varables. IV Congrés ISKO-Espagne EOCONSID IV, Aprl 1999, Grenade, Espagne pp [Hemstra, 98] D. Hemstra, A lngustcally motvated probablstc model of nformaton retreval, dans Chrstos N and Stephandes C. (eds), Proc. European Conference of Dgtal Lbrary (ECDL98), Sept. 1998, Sprnger Verlag. [Hrst, 97] Hrst, G. : Semantc Interpretaton and the Resoluton of Ambguty. Cambrdge Unversty Press. Cambrdge, England (1987) [Holt et al., 99] John D. Holt and Soon M. Chung. Effcent Mnng Of Assocaton Rules In Text Databases. CIKM Kansas Cty, MO, USA D 1999 ACM L /99/0010 [Hornby, 74]. HORNBY, A. S. (ed), Oxford Advanced Learner's Dctonary of Contemporary Englsh, 3e édton, London, OUP.1974,. [Hull, 96] Hull D. A., "Stemmng Algorthms : A Case Study for Detaled Evaluaton" Journal of the Amercan Socety for Informaton Scence No 47(1) pp [Ide et al., 90] Ide, N., & Vérons, J. Mappng Dctonares : A Spreadng Actvaton Approach, Sxth Annual Conference of the UW Centre for the New Oxford Englsh Dctonary (pp ). Waterloo (Canada). (1990). [Ide et al., 98] Ide, N. & Vérons, J. (1998). Word sense dsambguaton : The state of the art. Computatonal Lngustcs : Specal Issue on Word Sense Dsambguaton, 24, [Imafouo, 06] Améle IMAFOUO et Mchel BEIGBEDER. Evaluer le passage à l échelle dans des envronnements à pertnence multvaluée. DansAZctes de la Trosème Conférence en Rercherche d Informaton et Applcatons. Cora Lyon Mars [Ishoka, 03] Ishoka, T. Evaluaton of crtera for nformaton retreval. Web Intellgence, WI Proceedngs. IEEE/WIC Internatonal Conference on Volume, Issue, Oct Page(s) : [Jacquemn et al., 02] Jacquemn, C., Dalle, B., Royanté, J., and Polanco, X In vtro evaluaton of a program for machne-aded ndexng. Inf. Process. Manage. 38, 6 (Nov. 2002), [Jones et al., 02] Steve Jones, Gordon W. Paynter : Human evaluaton of Kea, an automatc keyphrasng system. JCDL 2001 : [Kamel et al., 90] Kamel, M., Hadfeld, B., and Ismal, M. Fuzzy query processng usng clusterng technques. Informaton Processng and Management, 26(2), , [Kantor, 81] P.B. Kantor, The Logc of Weghted Queres, IEEE Transactons on systems Man and Cybernetcs 11 (1981), pp [Katz et al., 98] Özlem Uzuner, Bors Katz, Denz Yuret : Word Sense Dsambguaton for Informaton Retreval. AAAI/IAAI 1999 : 985 [Keefer, 94] X.A. Lu and R.B. Keefer Query expanson/reducton and ts mpact on retreval effectveness. In The Text Retreval Conference (TREC-3), pages [Kelly et al., 75] Kelly, E. F. & Stone, P. J. (1975). Computer recognton of englsh word senses. North-Holland Publshng. North-Holland, Amsterdam. [Khan et al., 03] L. Khan, D. McLeod, E. Hovy, Retreval effectveness of an ontology-based 153

155 REFERENCES BIBLIOGRAPHIQUES model for nformaton selecton. Edted by F. Lochovsky. Receved : October 7, 2002 / Accepted : May 20, Publshed onlne : September 30, 2003 c_ Sprnger-Verlag The VLDB Journal (2004) 13 : / Dgtal Object Identfer (DOI) /s [Khan et al., 04] Latfur Khan, Dens Mc Leod, Eduard Hovy. Retreval effectveness of an ontology-based model for nformaton selecton. The VLDB Journal (2004)13 : [Klgarrf et al., 99] Adam Klgarrff and Martha Palmer Computers and the Humantes (specal ssue based on Senseval-1) Edtors : Adam Klgarrff and Martha Palmer vol.34 no. 1-2, [Klgarrf, 98] Klgarrf, A SENSEVAL : An Exercse n Evaluatng Word Sense Dsambguaton Programs. In Proceedngs from Frst Internatonal Conference on Language Resources and Evaluaton pp , Granada, Spanen. [Km et al., 04] Hee-Soo Km Ikkyu Cho Mnkoo Km.Refnng Term Weghts Of Documents Usng Term Dependences.SIGIR 04, July 25 29, 2004, Sheffeld, South Yorkshre, UK. ACM /04/ [Krkpatrck, 87] Krkpatrck, Betty. (1987). Roget s Thesaurus of Englsh Words and Phrases. Harmondsworth, Mddlesex, England : Pengun. [Krkpatrck, 88] Roget s thesaurus of Englsh words and phrases (1988). New edton. Prepared by N. Krkpatrck.Harmondsworth : Pengun. [Knght, 94] Knght K. and S.K. Luk. (1994). Buldng a Large-Scale Knowledge Base for Machne Translaton. Proceedngs of the AAAI Conference, [Kodratoff, 98] Yves KODRATOFF. Technques Et Outls De L extracton De Connassances à Partr Des Données. Revue Sgnaux N 92 - Mars [Kodratoff, 99] Kodratoff Y. (1999), Quelques Contrantes Symbolques Sur Le Numérque En ECD Et En ECT, Ecole Modulad/Sfds-Inra, [Kohonen, 89] T. Kohonen. Self_Organzaton and Assocatve Memory. Sprnger Verlag. ISBN , [Kraft et al., 03] D.H. Kraft, M.J. Martn-Bautsta, J. Chen, D. Sanchez. Rules And Fuzzy Rules In Text : Concept, Extracton And Usage. In Internatonal Journal Of Approxmate Reasonng 34 (2003) [Kraft et al., 78] D. E. Kraft, A. Booksten. Evaluaton of Informaton Retreval System : A Decson Theory approach, Journal of the Amercan Socety for Informaton Scence, 29 : 31 40, [Kraft et al., 83] Kraft, D. H. and Buell, D. A. Fuzzy sets and generalzed Boolean retreval systems. Internatonal Journal of Man-Machne Studes, 19(1), July, 45-56, [Kraft et al., 95] Kraft, D. H., Bordogna, G. and Pas, G. An extended fuzzy lngustc approach to generalze Boolean nformaton retreval, Journal of Informaton Scences -Applcatons, 2(3), 1995, pp [KROEZE et al., 03] JAN H. KROEZE, MACHDEL C. MATTHEE AND THEO J.D. BOTHMA. Dfferentatng Data- And Text-Mnng Termnology. Proceedngs Of SAICSIT 2003, Pages [Krovetz et al., 92] R. KROVETZ and W. B. CROFT. Lexcal Ambguty and Informaton 154

156 REFERENCES BIBLIOGRAPHIQUES Retreval. ACM Transactons on Informaton Systems, Vol. 10, No 2, pp. 115_141. Aprl [Krovetz, 93] Krovetz R, "Vewng Morphology as an Inference Process", n Proceedngs of the Sxteenth Annual Internatonal ACM SIGIR Conference on Research and Development n Informaton Retreval, pp , [Krovetz, 97] R. Krovetz Homonymy and polysemy n nformaton retreval. In Proceedngs of the 35th Annual Meetng of the Assocaton for Computatonal Lngustcs (A CL-97}, pages [Kwok, 89] Kwok K. L. (1989) : A Neural Network for Probablstc Informaton Retreval. In : Belkn and Rjsbergen pp [Lallch et al., 04]. S. Lallch, O. Teytaud. Évaluaton Et Valdaton De L ntérêt Des Règles D'assocaton, Revue RNTI, Http :// & ID= ,2004. Http ://Perso.Wanadoo.Fr/Olver.Teytaud/Publs/Evaluatonetvaldatondelnteretdesreglesdas socaton.pdf [Lang et al., 05] J. Lang, J. Goldsmth, M. Truszczynsk, N. Wlson. The computatonal complexty of domnance and consstency n CP-nets- n Proceedngs of IJCAI-05, [Latr et al., 03] C. Ch. Latr And S. Ben Yaha And J.P. Chevallet And A. Jaoua 3, Query Expanson Usng Fuzzy Assocaton Rules Between Terms, In JIM'2003 Conference Journées De l'informatque Messne, Metz, France, September 3-6, [Lauer, 95] Lauer, Mark Corpus statstcs meet the noun compound : some emprcal results. Proceedngs of the 33rd Annual Meetng of the Assocaton for Computatonal Lngustcs, pp [Lavrenko01] V. Lavrenko and W.B. Croft, Relevance-based Language Models, Research and Development n Informaton Retreval, Proc ACM-SIGIR 2001, pp , [Leacock et al., 98] Leacock, C., Mller, G. A., and Chodorow, M Usng corpus statstcs and WordNet relatons for sense dentfcaton. Comput. Lngust. 24, 1 (Mar. 1998), [Lent et al., 97] B. Lent, R. Agrawal, And R. Srkant. Dscoverng Trends In Text Databases. In Proceedngs Of The 3rd Internatonal Conference On Knowledge Dscovery And Data Mnng (KDD'97), Pages AAAI Press, August [Lesk, 86] Lesk M.E., Automatc sense dsambguaton usng machne readable dctonares : How to tell a pne cone from a nce cream cone. In Proceedngs of the SIGDOC Conference. Toronto, [Lews, 91] Lews DD. Representaton and learnng n nformaton retreval. PhD Thess, COINS Techncal Report Department of Computer and Informaton Scence, Unversty of Massachusetts, Amherst, MA 01003, 1991 [Ln et al. 91] Ln, X., Soerge, D., and Marchonn, G. (1991) A self-organzng semantc map for nformaton retreval. Proceedngs of the Fourteenth Annual Internatonal ACM/SIGIR Conference on Research and Development n Informaton Retreval, (Chcago, IL, USA), pp [Ln et al., 96] Ln, S. H.. Chen, M. C., Ho, J. M.. And Huang, Y. M., The Desgn Of An Automatc Classfer For Internet Resource Dscovery, Internatonal Symposum On 155

157 REFERENCES BIBLIOGRAPHIQUES Multtechnology And Informaton Processng (ISMIP 96), December 1996, Pp [Ln et al., 98] S.H. Ln, C.S. Shh, M.C. Chen, J.M. Ho, M.T. Ko, Y.M. Huang, Extractng Classfcaton Knowledge Of Internet Documents Wth Mnng Term Assocatons : A Semantc Approach, In : Proc. ACM/SIGIR 98, Melbourne, Australa, 1998, Pp [Ln, 98] D. Ln. (1998) An nformaton-theoretc defnton of smlarty. In Proceedngs of 15th Internatonal Conference On Machne Learnng, [Lu et al., 03] Rey-Long Lu, Wan-Jung Ln. Mnng For Interactve Identfcaton Of Users Informaton Needs. Informaton Systems 28 (2003) [Lu et al., 05] Xangwe Lu and Plan He. A Study on Text Clusterng Algorthms Based on Frequent Term Sets. In Advanced Data Mnng and Applcatons. Lecture Notes n Computer Scence Book seres. Volume 3584/2005. August, [Lu et al., 98] Ye Lu, Hanxong Chen, Jeffrey Xu Yu, Nobuo Ohbo : Usng Stem Rules To Refne Document Retreval Queres. FQAS 1998 : [Loseau, 04] Loseau Y., Recherche Flexble d'nformaton par Fltrage qualtatf Flou. Thèse de Doctorat en Informatque de l'unversté Paul Sabater de Toulouse (Scences). Décembre [Longman, 88] Longman Dctonary of Contemporary Englsh, New Edton, Longman [Lu et Keefer, 94] Lu X. A. and Keefer R. B. (1994). Query expanson/reducton and ts mpact on Retreval effectveness. Overvew of the Thrd Text Retreval Conference (TREC-3), NIST Specal Publcaton , edted by D.K. Harman, [Lucas, 99/00] LUCAS, M. 1999/2000. Mnng In Textual Mountans, An Intervew Wth Mart Hearst. Mappa Mund Magazne, Trp-M, 005, 1 3. Http ://Mappa.Mund.Net/Trp- M/Hearst/. [Luhn, 57] Luhn, H. A statstcal approach to mechanzed encodng and searchng of lterary nformaton. IBM Journal of Research and Development 4, 1(1957), [Luhn, 58] Luhn, H. The automatc creaton of lterature abstracts. IBM Journal of Research and Development 24, 2 (1958), [Lungsawang et al., 99] A. Rungsawang, A. Tangpong, P. Laohawee, T. Khampachua, Novel Query Expanson Technque Usng Apror Algorthm, In : Proceedngs Of The Eghth Text Retreval Conference (TREC 8), 1999, Pp [Maedche et al., 00] Alexander Maedche, Steffen Staab : Dscoverng Conceptual Relatons From Text. ECAI 2000 : [Mahgoub et al., 07] Hany Mahgoub, Detmar Rösner, Nabl Ismal, Fawzy Torkey. A Text Mnng Technque Usng Assocaton Rules Extracton. INTERNATIONAL JOURNAL OF COMPUTATIONAL INTELLIGENCE VOLUME 4 NUMBER ISSN [Mandala et al., 72] Mandala, R., Tokunaga, T., and Tanaka, H. Combnng multple evdence from dfferent types of thesaurus for query expanson. Proc. Of the Internatonal ACM- SIGIR Conference, 1 (1972), [Mandala et al., 99] Mandala, Rla, Takenobu Tokunaga and Hozum Tanaka (1999). Complementng WordNet wth Roget and Corpus-based Automatcally Constructed Thesaur for Informaton Retreval Proceedngs of the Nnth Conference of the European 156

158 REFERENCES BIBLIOGRAPHIQUES Chapter of the Assocaton for Computatonal Lngustcs, Bergen. [Manez et al., 91] Manez, J., and de Groler, E. A decade of research n classfcaton. Internatonal Classfcaton 18, 2 (1991), [Mannla et al., 94] H. Mannla, H. Tovonen, And A. I. Verkamo. EffCent Algorthms For Dscoverng Assocaton Rules. In AAAI'94 Workshop On Knowledge Dscovery In databases, Pages AAAI Press, July [Mannng et al., 07] Mannng C. D., R. Prabhakar, Schütze H., An Introducton to Informaton Retreval Cambrdge Unversty Press. Cambrdge, England [Maron et al., 60] Maron, M., and Kuhns, J. On relevance, probablstc ndexng and nformaton retreval. Journal of the Assocaton for Computng Machnery 7 (1960), pages [Masterman, 57] Masterman, M. (1957). The thesaurus n syntax and semantcs. Mechancal Translaton, 4, 1 2. [McGeache, 02] McGeache, M. Utlty functons for ceters parbus preferences. Master's Thess. Massachusetts Insttute of Technology, Cambrdge, Massachusetts [McRoy, 92] McRoy, S. : Usng Multple Knowledge Sources for Word Sense Dscrmnaton. Computatonal Lngustcs, 18(1) (1992) [Medelyan, 06] Medelyan O., Wtten I. H., Thesaurus Based Automatc Keyphrase Indexng, n Proceedngs of JCDL 06, June 11 15, 2006, Chapel Hll, North Carolna, USA. [Mhalcea et al., 00] Mhalcea, R. and Moldovan, D. : Semantc ndexng usng WordNet senses. In Proceedngs of ACL Workshop on IR & NLP, Hong Kong, October 2000 [Mller 95,] Mller G. (1995) WordNet : A Lexcal database for Englsh.. Actes de ACM 38, pp [Mller et al., 93] George A MlLLer, Clauda Leacock, Randee Tengl, and Ross T Bunker 1993 A semantc concordance In Proceedngs o/the ARPA Human Language Technology Workshop, pages [Mller, 90] Mller, G. A. (ed.), WordNet : An on-lne lexcal database. Internatonal Journal of Lexcography (specal ssue), 3(4) : , [Mtra et al., 98] Mtra, A. Snghal, M., C. Buckley. Improvng automatc query expanson. In the Proceedngs of the ACM/SIGIR Conference on Research and Development n Informaton Retreval, pp [Myamoto et al., 86] Myamoto, S. and Nakayama, K. Fuzzy nformaton retreval based on a fuzzy pseudothesaurus. IEEE Transactons on Systems, Man and Cybernetcs, SMC- 16(2), March-Aprl 1986 [Myamoto, 90] Myamoto, S. Fuzzy sets n Informaton Retreval and Cluster Analyss. Kluwer Academc Publshers, [Mobasher et al., 01] Bamshad Mobasher, Honghua Da, Tao Luo, Mk Nakagawa. Effectve Personalzaton Based On Assocaton Rule Dscovery From Web Usage Data. WIDM01, 3rd ACM Workshop On Web Informaton And Data Management, November 9, 2001, Atlanta, Georga, USA. [Moldovan et al., 00] D. Moldovan and R. Mhalcea. Usng WordNet and lexcal operators to mprove Internet searches. IEEE Internet Computng, 4(1) : [Mothe, 94] Mothe J., Modèle Connexonnste Pour la Recherche d 'Informatons. Expanson 157

159 REFERENCES BIBLIOGRAPHIQUES Drgée de Requêtes et Apprentssage. Thèse de Doctorat en Informatque de l'unversté Paul Sabater de Toulouse (Scences). Octobre [Mothe, 94a] Mothe J (1994) : Search Mechansms Usng a Neural Network Model. In : Intellgent Multmeda Informaton Retreval Systems and Management. Proc. of RIAO 94. New York. pp [Mothe, 00] Mothe J., Recherche et Exploraton d Informatons. Découverte de Connassances pour l Accés à l Informaton. HDR en Informatque de l'unversté Paul Sabater de Toulouse (Scences). Décembre [Mutlum, 05] B. Mutlum. Word Sense Dsambguaton Based on Sense Smlarty and Syntactc Context. Master Thess of Scence n Computer Engneerng. Koc Unversty September [Nanas et al., 03] Nkolaos Nanas, Vctora Uren, And Anne De Roeck. Buldng And Applyng A Concept Herarchy Representaton Of A User Profle. In 26th Internatonal ACM SIGIR Conference On Research And Development In Informaton Retreval, [Nastase et al., 01] Nastase, Vv and Stan Szpakowcz. ``Word sense dsambguaton n Roget's thesaurus usng WordNet.'' In: Proceedngs of the NAACL 2001 Workshop on WordNet and Other Lexcal Resources, Pttsburgh, June [Nasukawa et al., 01] NASUKAWA, T. AND NAGANO, T Text Analyss And Knowledge Mnng System. IBM Systems Journal 40(4), [Navgl et al., 03] Roberto Navgl and Paola Velard. An Analyss of Ontology-based Query Expanson Strateges. In 2003 Workshop on Adaptve Text Extracton and Mnng held n conjuncton wth : 14th European Conference on Machne Learnng (ECML). pubs/ecml_2003_navgl_velard.pdf [Negota, 73] Negota, C.V. (1973). On the applcaton of the fuzzy sets separaton theorem for automatc classfcaton n formaton retreval systems. Informaton Scence, 5, ; [Neuwrth et al., 82] Neuwrth, E. and Resnger, L. Dssmlarty and dstance coe_cents n automaton- supported thesaur. Informaton Systems, 7(1), [Ng et al., 94] Raymond T. Ng and J. Han. Effcent And Effectve Clusterng Methods For Spatal Data Mnng. In Proceedngs Of The 20th VLDB Conference Santago, Chle, [Pace, 84] Pace, C. D. Soft evaluaton of Boolean search queres n nformaton retreval systems. Informaton Technology : Research Development Applcatons, 3(1), January, 33-41, [Park et al., 95] J. S. Park, M.-S. Chen, And P. S. Yu. An E-Cent Hash Based Algorthm For Mnng Assocaton Rules. In Proceedngs Of The 1995 ACM SIGMOD Internatonal Conference On Management Of Data (SIGMOD'95), Pages ACM Press, May [Pas, 99] Pas. G., A logcal formulaton of the boolean model and of weghted boolean model, Proceedngs of the Workshop on Logcal and Uncertanty Models for Informaton Systems, London, UK, 1999, p [Pasquer et al., 98] N. Pasquer, Y. Bastde, R. Taoul, And L. Lakhal. Prunng Closed Itemset Lattces For Assocaton Rules. In Actes Des 14èmes Journées Bases De Données Avancées (BDA'98), Pages , Octobre

160 REFERENCES BIBLIOGRAPHIQUES [Pasquer et al., 99a] N. Pasquer, Y. Bastde, R. Taoul Et L. Lakhal. Effcent Mnng Of Assocaton Rules Usng Closed Itemset Lattces. Informaton Systems, 24(1) :25 46, [Pasquer et al., 99b] N. Pasquer, Y. Bastde, R. Taoul, And L. Lakhal. Dscoverng Frequent Closed Itemsets For Assocaton Rules. In Proceedngs Of The 7th Bennal Internatonal Conference On Database Theory (ICDT'99), Lecture Notes In Computer Scence, Vol. 1540, Pages Sprnger-Verlag, January [Pasquer, 00a] Ncolas Pasquer. Mnnng Assocaton Rules Usng Formal Concept Analyss. In : Proceedngs Of The ICCS 2000 Internatonal Conference On Conceptual Structures, Pages , Sprnger, [Pasquer, 00b] Ncolas Pasquer. Thèse Docteur D'unversté Unversté Clermont-Ferrand II Ecole Doctorale Scences Pour L'ngéneur de Clermont-Ferrand. Spécalté : INFORMATIQUE. «Data Mnng : Algorthmes d'extracton Et De Réducton Des Règles d'assocaton Dans Les Bases De Données». Janver [Peters et al., 04] Martn Braschler, Gorgo Mara D Nunzo, Ncola Ferro, Carol Peters : CLEF 2004 : Ad Hoc Track Overvew and Results Analyss. CLEF 2004 : [Patetsky-Shapro et al., 96] G. Patetsky-Shapro, U. Fayyad, And P. Smth. From Data Mnng To Knowledge Dscovery : An Overvew. In : U.M. Fayyad, G. Patetsky-Shapro, P. Smyth, R. Uthurusamy (Eds.), Advances In Knowledge Dscovery And Data Mnng, AAAI /MIT Press, Calforna, USA, Pp1_35. [Patetsky-Shapro, 91] Patetsky-Shapro G. (1991), Dscovery, Analyss, And Presentaton Of Strong Rules. In G.Patetsky-Shapro And W. J. Frawley, Edtors, Knowledge Dscovery In Databases, Pp AAAI Press / The MIT Press, [Ponçot, 99] Ponçot P., Classfcaton et Recherche d'informaton Bblographque par l'utlsaton des Cartes Auto-Organsatrces, Applcatons en Astronome. Thèse de Doctorat en Informatque de l'unversté de Strasbourg. Décembre [Pons-Porrata et al., 07] Aurora Pons-Porrata, Rafael Berlanga-Llavor, José Ruz- Shulcloper.Topc Dscovery Based On Text Mnng Technques. Informaton Processng And Management 43 (2007) [Ponte et al., 98] Ponte, J. M., and Croft, W. B. A language modelng approach to nformaton retreval. research and development n nformaton retreval. In Proc. of the Internatonal ACM-SIGIR Conference (1998), Proc. Of the Internatonal ACM-SIGIR Conference, pp [Porter, 80] M. Porter An algorthm for suffx strppng. Program, 14(3) : , July, [PÔSSAS et al., 05] BRUNO PÔSSAS, NIVIO ZIVIANI, And WAGNER MEIRA, JR. Set-Based Vector Model : An Effcent Approach For Correlaton-Based Rankng. ACM Transactons On Informaton Systems, Vol. 23, No. 4, October 2005, Pp [Prestwch et al., 04] S. Prestwch, F. Ross, K. B. Venable, T. Walsh. Constraned CP-Nets. Preprnt n , Department of Pure and Appled Mathematcs, Unversty of Padova, Italy. [Pré et al., 00] Pré, Y. " Sur la pste de l'ndexaton conceptuelle de documents. Une approche par l'annotaton ". Document Numérque, numéro spécal " L'ndexaton ", 162 (4), p

161 REFERENCES BIBLIOGRAPHIQUES [Procter, 78] PROCTER P., I LSON R., Eds., Longman Dctonary of Contemporary Englsh. Longman Harlow, Essex, [Pustejovsky, 95] Pustejovsky, J., Boguraev, B. & Johnston, M. A core lexcal engne : The contextual determnaton of word sense (Tech. Rep.). Department of Computer Scence, Brandes Unversty. (1995). [Qn et al., 04] Z. Qn, L. Lu, S. Zhang, Mnng Term Assocaton Rules For Heurstc Query Constructon, In : PAKDD, 2004, Pp [Qng et al., 04] Qng Ma; Enomoto, K.; Murata, M., Self-organzng documentary maps for nformaton retreval. Neural Networks, Proceedngs IEEE Internatonal Jont Conference on Volume 1, Issue, Page(s) : July 2004 [Qu et al., 93] Y. Qu and H. P. Fer, Concept Based Query Expanson, n Proc. of the Sxteenth Annual Internatonal ACM-SIGIR Conference on Research and Development n Informaton Retreval, pp , [Qullan, 68] M. Qullan. Semantc Memory. In M. Mnsky (Ed.), Semantc nformaton Processng. The MIT Press, Cambrdge, MA, Also PhD Thess, Carnege Insttute of Technology, [Radeck, 79] Radeck, T. Fuzzy set theoretcal approach to document retreval. Informaton Processng and Management, 15(5), , [Rajman et al., 97] M. Rajman And R. Besancon. Text Mnng : Natural Language Technques And Text Mnng Applcatons. In Proc. Of The 7th IFIP 2.6 Workng Conference On Database Semantcs (DS-7), Chapam And Hall IFIP Proceedngs Sere,Leysn, Susse, Octobre [Ralescu et al., 96] Ralescu A.L., Bouchon-Meuner B., Ralescu D.A. Combnng Fuzzy Quantfers, RR LAFORIA96/08, févrer [Resnk, 93a] Resnk, P. Selecton and nformaton : A class-based approach to lexcal relatonshps. Unpublshed doctoral dssertaton, Unversty of Pennsylvana. (1993). [Resnk, 93b] Resnk, P. Semantc classes and syntactc ambguty. ARPA Workshop on Human Language Technology, (1993). [Resnk, 95] Resnk, P. Dsambguatng noun groupngs wth repect to WordNet senses. 3thWorkshop on Very Large Corpora, (1995). [Resnk, 99] Resnk, P., "Semantc Smlarty n a Taxonomy : An Informaton-Based Measure and ts Applcaton to Problems of Ambguty n Natural Language", Journal of Artfcal Intellgence Research (JAIR), 11, pp , [Rcart, 06] M. B. Rcart. Désambguïsaton par propagaton d'actvaton dans un thésaurus. rapport de DEA, Groupe MRIM - CLIPS-IMAG, jun, [Rchardson et al., 95] Rchardson R. and Smeaton A.F. (1995). Usng WordNet n a knowledgebased approach to nformaton retreval, n Dubln Cty Unversty Techncal Reportn, (CA-0395). [Rgau et al., 97] Rgau, G., Atseras, J., Agrre, E. : Combnng Unsupervsed Lexcal Knowledge Methods for Word Sense Dsambguaton. Proceedngs of ACL-EACL, Madrd, Span. (1997) [Robertson et al., 76] Robertson, S. E., & Sparck Jones, K. (1976). Relevance weghtng of search 160

162 REFERENCES BIBLIOGRAPHIQUES terms. Journal of the Amercan Socety for Informaton Scence, 27, [Robertson et al., 92] Stephen E. Robertson, Steve Walker, Mchelne Hancock-Beauleu, Aarron Gull, Maranna Lau : Okap at TREC. TREC 1992 : [Robertson et al., 97] S. E. Robertson and S. Walker. On relevance weghts wth lttle relevance nformaton. In Proceedngs of the 20th annual nternatonal ACM SIGIR conference on Research and development n nformaton retreval, pages ACM Press, [Robertson, 04] Robertson S., Understandng Document Frequency : On theorcal argument for IDF. In Journal of Documentaton 60, n 5, pp [Robertson, 77] Robertson, S. E. (1977). The probablty rankng prncple n IR. Journal of Documentaton, 33 (4), [Robertson, 94a] ROBERTSON S., WALKER S., JONES S., GATFORD M. H.-B., «Okap at 3», Proceedngs of the 3rd Text REtreval Conference (-3), p , [Robertson, 94b] ROBERTSON S. E., WALKER S., «Some Smple Effectve Approxmatons to the2-posson Model for Probablstc Weghted Retreval», Proceedngs of SIGIR 1994, p , [Roccho, 71a] Roccho, J. J. Relevance feedback n nformaton retreval. In The SMART Retreval System, n Experments n Automatc Document Processng G. Salton, edtor, Prentce-Hall, Englewood Clffs, NJ,pp , [Rocho, 71b] J.J. Roccho, Jr. The SMART Retreval System : Experments n Automatc Document Processng, chapter Relevance Feedback n Informaton Retreval, pages Prentce- Hall, [Rosaro, 00] Rosaro B. Latent Semantc Indexng : An overvew. INFOSYS 240. Sprng [Ross et al., 04] Francesca Ross, Krsten Brent Venable, Toby Walsh. mcp Nets: Representng and Reasonng wth Preferences of Multple Agents. In Proceedng of the Natonal Conference on Artfcal Intellgence (AAAI 04). San Jose, CA, USA. pages July [Rumelhart et al., 86] Rumelhart, D.E., McClelland, J.L. and PDP Research Group. Parallel Dstrbuted Processng : exploraton n the mcrostructure of cognton. MIT Press,Cambrdge, [Rungsawang et al., 99] A. Rungsawang, A. Tangpong, P. Laohawee, And T. Khampachua. Novel Query Expanson Technque Usng Apror Algorthm. In TREC, Gathersburg, Maryland, [Sabah et al., 00] Gérard Sabah et Brgtte Grau, Compréhenson automatque de textes, 2000, chap. 13, pp , Ingénére des langues, sous la drecton de J.M.Perrel, Hermes. [Salleb, 03] Ansaf Salleb «Recherche De Motfs Fréquents Pour L'extracton De Règles D'assocaton Et De Caractérsaton». THESE De DOCTORAT DE L UNIVERSITE d Orleans. Dscplne : Informatque. Décembre [Salton et al, 83a] Salton, G., E.A. Fox, H. Wu. Extended Boolean nformaton retreval system. CACM 26(11), pp , [Salton et al., 73] Salton, G., and Yang, C. On the specfcaton of term values n automatc ndexng. In Journal of Documentaton, 29 (1973), [Salton et al., 75] Salton, G., Wong, A. & Yang, C. S. (1975). A vector space for nformaton 161

163 REFERENCES BIBLIOGRAPHIQUES retreval. Communcaton of the Assocaton for Computng Machnery (ACM), 18 (11), [Salton et al., 83a] Salton, G., Fox, E., and Wu, H. Extended Boolean nformaton retreval. Communcatons of the ACM, 26(12), [Salton et al., 83b] SALTON, G., AND McGILL, M. Introducton to Modern Informaton Retreval McGraw-Hll, New York, [Salton et al., 88] Salton, G., and Buckley, C. Term-weghtng approaches n automatc text retreval. Informaton Processng & Management (IPM) 24, 5 (1988), [Salton et al.,90] Salton, G., and Buckley, C. Improvng retreval performance by relevance feedback. Journal of the Amercan Socety for Informaton Scence (JASIS) 44, 4 (1990), [Salton, 00] Salton G., Automatc text ndexng usng complex dentfers. Proceedngs of the ACM conference on Document processng systems. Santa Fe, New Mexco, Unted States. pp [Salton, 68] Salton, G. Automatc Informaton Organzaton and Retreval. New York : McGraw.Hll Book Company, [Salton, 70] G. Salton, The SMART retreval system : Experments n automatc document processng. Prentce Hall, [Salton, 71] Salton, G. (1971). A comparson between manual and automatc ndexng methods. Journal of Amercan Documentaton, 20(1) :61{71. [Salton, 88] Salton, G. Syntactc approaches to automatc book ndexng. In Proc. of the annual meetng on Assocaton for Computatonal Lngustcs (ACL) (1988), Department of Computer Scence, Cornell Unversty, Ithaca, New York, pp [Salton, 89] Salton, G., Automatc Text Processng, Addson Wesley, [Sanchez, 89] Sanchez, E. Importance n knowledge systems. Informaton Systems, 14(6), [Sanderson, 00] M. Sanderson Retrevng wth good sense. Informaton Retreval, 2(1) : [Sanderson, 94] M. Sanderson Word sense dsambguaton and nformaton retreval. In Proceedngs of the 17th Annual Internatonal ACM-SIGIR Conference on Research and Development n Informaton Retreval, pages , Sprnger- Verlag. [Sanderson, 97] Word Sense Dsambguaton and Informaton Retreval, M. Sanderson, PhD Thess, Techncal Report (TR ) of the Department of Computng Scence at the Unversty of Glasgow, Glasgow G12 8QQ, UK, [Saracevc, 96] Saracevc, T. (1996). Relevance Reconsdered '96. In P. Ingwersen, & N.O. Pors (Eds.), Proceedngs of CoLIS 2, second nternatonal conference on conceptons of lbrary and nformaton scence : Integraton n perspectve, Copenhagen (pp ). Copenhagen : Royal School of Lbraranshp. [Sauvagnat, 05] Sauvagnat K., Modèle flexble pour la Recherche d Informaton dans des corpus de documents sem-structurés. Thèse de Doctorat en Informatque de l'unversté Paul Sabater de Toulouse (Scences). Jun [Savarese et al., 95] A. Savasere, E. Omecnsk, And S. Navathe. An E-Cent Algorthm For Mnng Assocaton Rules In Larges Databases. In Proceedngs Of The 21st Internatonal 162

164 REFERENCES BIBLIOGRAPHIQUES Conference On Very Large Data Bases (VLDB'95), Pages Morgan Kaufmann, September [Savoy, 05] J.Savoy. Indexaton manuelle et automatque : une évaluaton comparatve basée sur un corpus en langue françase. Dans proceedng de la 2ème Conférence Francophone en Recherche d'informaton et Applcatons - CORIA Grenoble 9_11 Mars [Schütze et al., 95] H. Schütze and J. Pedersen Informaton retreval based on word senses. In Proceedngs of the 4th Annual Symposum on Document Analyss and Informaton Retreval, pages [Schütze, 92] Schütze H. (1992). Dmensons of meanng. Supercomputng-1992, [Schütze, 98] Schütze, H. (1998). Automatc word sense dscrmnaton. Computatonal Lngustcs : Specal Issue on Word Sense Dsambguaton, 24 (1), [Senseval-2] SENSEVAL-2 : Second Internatonal Workshop on Evaluatng Word Sense Dsambguaton Systems 5-6 July 2001, Toulouse, France [Senseval-3] Thrd Internatonal Workshop on the Evaluaton of Systems for the Semantc Analyss of Text An ACL 2004 workshop, Barcelona, Span, July 25-26, [Senseval-4] Senseval-4/SemEval-1. ACL th Internatonal Workshop on Semantc Evaluatons, February 26th to Aprl 1st, [Sherdan et al., 92] Parac Sherdan, Alan F. Smeaton : The Applcaton of Morpho-Syntactc Language Processng to Effectve Phrase Matchng. Inf. Process. Manage. 28(3) : (1992). [Shortlde et al., 75] E. Shortlde, B. Buchanan, A Model Of Inexact Reasonng In Medcne, Math. Bosc. 23 (1975) [Smon, 00] A. Smon. Outls Classfcatores Par Objets Pour L extracton De Connassances Dans Les Bases De Données. Thèse De Doctorat, Unversté Henr Poncaré - Nancy 1, Nancy, [Smpson et al., 89] Smpson J. and Wener E. The oxford Englsh dctonary, 2nd edton, Oxford unversty Press, [Snclar, 87] SINCLAIR, John. M. Lookng up : an account of the COBUILD Project n lexcal computng and the development of the Collns COBUILD Englsh language dctonary, London : Collns ELT, [Snghal et al., 96] A. Snghal, C. Buckley, M. Mtra. Pvoted document length normalzaton. In Proceedngs of the 19th annual nternatonal ACM SIGIR conference on Research and development n nformaton retreval. Zurch, Swtzerland.Pages: [Svanandam et al., 06] Sumath, S., Svanandam, S.N. Introducton To Data Mnng And Its Applcatons. Seres : Studes In Computatonal Intellgence, Vol , XXII, 828 P. 108 Illus., Hardcover. ISBN : [Small et al., 82] Small, S. & Reger, C. (1982). Parsng and comprehencng wth word experts (a theory and ts realzaton). In L. Wendy & R. Martn (Eds.), Strateges for natural language processng (pp ). Hllsdale, New Jersey : Lawrence Erlbaum and Assocates. [Smeaton et al., 95] Smeaton, Alan F., F. Kelledy and R. O'Donnell. TREC-4 Experments at Dubln Cty Unversty: Thresholdng Postng Lsts, Query Expanson wth WordNet and POS Taggng of Spansh. Workng paper CA-2295, School of Computer Applcatons, 163

165 REFERENCES BIBLIOGRAPHIQUES Dubln Cty Unversty, Dubln, [Song et al., 05] Mn Song, Il-Yeol Song, Xaohua Hu, Robert B. Allen : Semantc Query Expanson Combnng Assocaton Rules Wth Ontologes And Informaton Retreval Technques. Dawak 2005 : [Song et al., 07] Mn Song, Il-Yeol Song B, Xaohua Hu B, Robert B. Allen B. Integraton Of Assocaton Rules And Ontologes For Semantc Query Expanson. In Data & Knowledge Engneerng 63 (2007) [Song et al., 99] Fe Song, W. Bruce Croft : A General Language Model for Informaton Retreval. CIKM 1999 : [Soualma et al., 04] Soualma LF., Darmon SJ. Combnng Knowledge-Based Methods To Refne And Expand Queres In Medcne. FQAS, Flexble Query Answerng Systems 2004, Jun 2004, Lyon France; Pp 14 (2004) [Soulé-Dupuy, 90] Soulé-Dupuy C. Systèmes de recherche d nformatons : mécansmes d ndexaton et d nterrogaton. Thèse de Doctorat de l Unversté Paul Sabater, n 612, Toulouse III, févrer [Sparck Jones, 64] Sparck Jones, Karen (1964). Synonymy and Semantc Classfcaton. Ph.D. thess, Unversty of Cambrdge, Cambrdge, England. [Sparck Jones, 86] Sparck Jones, K. (1986). Synonymy and semantc classfcaton. Ednburgh, England : Ednburgh Unversty Press. [Srkant et al., 95] R. Srkant and R. Agrawal. Mnng Generalzed Assocaton Rules. In Proceedngs Of The 21st Int l Conference On Very Large Databases (VLDB95), Zurch, Swtzerland, September [Srnvasan et al., 01] P. Srnvasan, M.E. Ruz, D.H. Kraft, J. Chen, Vocabulary Mnng For Informaton Retreval : Rough Sets And Fuzzy Sets, Inform. Process. Manage. 37 (2001) [Starmand et al., 96] Starmand, Mark A. and W. J. Black. ``Contextual and conceptual ndexng usng WordNet-derved lexcal chans.'' In: Proceedngs of the 18th BCS-IRSG Colloquum on Informaton Retreval Research, 1996, pp [Stevenson et al., 01 : ]STEVENSON M. & WILKS Y. The nteracton of knowledge sources n word sense dsambguaton. Computatonal Lngustcs, 27(3), (2001). [Studer et al., 98] R. Studer, R. Benjamns, D. Fensel, Knowledge Engneerng : Prncples and Methods, Data and Knowledge Engneerng, 25(1-2) pp , [Sullvan, 00] SULLIVAN, D The Need For Text Mnng In Busness Intellgence. DM Revew, Dec Http :// [Sun et al., 06] Renxu Sun And Cha-Huat Ong And Tat-Seng Chua. Mnng Dependency Relatons For Query Expanson In Passage Retreval. SIGIR 2006.Pp [Sussna, 93] Sussna, M. (1993). Word sense dsambguaton for free-text ndexng usng a massve semantc network. 2nd Internatonal Conference on Informaton and Knowledge Management (CIKM-1993), [Tamne et al., 08] L. Tamne-Lechan et S. Calabretto. RI contextuelle et web. chaptre d ouvrage. Edtons Hermes. À paratre [Tan, 99] A.-H. Tan. Text Mnng : The State Of The Art And The Challenges. Dans Proc. Of The 164

166 REFERENCES BIBLIOGRAPHIQUES WorkshopOn Knowledge Dscovery From Advanced Databases, Pages 65 70, Bejng, Chna, In Conjuncton The thrd Pacfc-Asa Conf. On Knowledge Dscovery And Data Mnng (PAKDD 99). [Thurasngham, 99]. Thurasngham, B Data Mnng : Technologes, Technques, Tools, And Trends. CRC Press, Boca Raton, Florda. [Tovonen et al., 96] H. Tovonen. Samplng Large Databases For Assocaton Rules. In Proceedngs Of The 22nd Internatonal Conference On Very Large Data Bases (VLDB'96), Pages Morgan Kaufmann, September [Tommas et al., 00] Marc Tommas Rém Glleron. Découverte De Connassances A Partr De Données. Cours Maîtrse MIAGE LIFL. Unversté Llle 3. [2000, Jun]. Http :// [Turtle et al., 90] Turtle, H. and Croft, W. B. Inference networks for document retreval. In Proceedngs of the 13th Annual nternatonal ACM SIGIR Conference on Research and Development n nformaton Retreval (Brussels, Belgum, September 05-07, 1990). J. Vdck, Ed. SIGIR '90. ACM Press, New York, NY, [Turtle, 91] Turtle H. R., Inference Networks for Document Retreval. PHD Thess of the Unversty of Massachusetts. February [Uschold et al., 95] M. Uschold, M. Kng, Towards a Methodology for Buldng Ontologes. In Proceedngs of the Workshop on Basc Ontologcal Issues n Knowledge Sharng at the Internatonal Jont Conference on Artfcal Intellgence (IJCAI 1995), [Uzuner, 98] Uzuner, O. (1998). "Word Sense Dsambguaton Appled to Informaton Retreval". Master's Thess. MIT. May [Van Rjsbergen, 77] C. J. Van Rjsbergen. A theoretcal bass for the use of co-occurrence data n nformaton retreval. Journal of Documentaton, 33 : [Van Rjsbergen, 79] Van Rjsbergen, C.. Informaton Retreval. Butterworths & Co., Ltd, London. (1979) [Vaslescu et al., 04] F. Vaslescu et P. Langlas. Désambguïsaton de corpus monolngues par des approches de type Lesk. TALN 2004, Fès, avrl [Verons et al., 90] Vérons, J. and Ide, N. Word sense dsambguaton wth very large neural networks extracted from machne readable dctonares. 13th Internatonal Conference on Computatonal Lngustcs (COLING-1990), 2, [Vrgna dsc 90] The Vrgna dsc one CD-ROM, publshed by Vrgna Polytechnc Insttute and State unversty Press. Edtor, Project Drector, Prncpal Investgator Edwadr A. Fox, Dept. of Computer Scence 562 McBryde Hall, VPU&SU, VA [Voorhees, 93] Voorhees, E. M. Usng WordNet to dsambguate word senses for text retreval. Assocaton for Computng Machnery Specal Interest Group on Informaton Retreval. (ACM-SIGIR-1993) : 16thAnnual Internatonal Conference on Research and Development n Informaton Retreval, (1993). [Voorhees, 94] E. M. Voorhees, Query expanson usng lexcal-semantc relatons, n Annuel Internatonal ACM SIGIR conference on research and development n nformaton retreval (SIGIR'94), (pp pages 63 69). ACM press, Dubln, Ireland. [Voorhees, 98] Voorhees, Ellen M.. (1998). Usng WordNet for text retreval. In C. FELLBAUM, Ed., WordNet: an electronc lexcal database, Language, Speech and 165

167 REFERENCES BIBLIOGRAPHIQUES Communcaton, chapter 12, pp Cambrdge, Massachusetts: The MIT Press. [Voorhees, 99] E.M. Voorhees. Natural language processng and nformaton retreval. In Informaton Extracton : towards scalable, adaptable systems. Lecture notes n Artfcal Intellgence, #1714, pages [Vossen et al., 97] Vossen, P., Dez-Orzas, P., Peters, W. : The Multlngual Desgn of EuroWordNet. In : P. Vossen, N. Calzolar, G.Adraens, A. Sanflppo, Y. Wlks (eds.) Proceedngs of the ACL/EACL-97 workshop Automatc Informaton Extracton and Buldng of Lexcal Semantc Resources for NLP Applcatons, Madrd, July 12th, [Waller et al., 79] Waller, W. G. and Kraft, D. H. A mathematcal model of a weghted Boolean retreval system. Informaton Processng and Management, 15, , [We et al., 00] J. We, S. Bressan, B.C. Oo, Mnng Term Assocaton Rules For Automatc Global Query Expanson : Methodology And Prelmnary Results, In : Frst Internatonal Conference On Web Informaton Systems Engneerng (WISE 00)-Volume 1, 2000, P [Wess et al., 91] S. M. Wess And C.A. Kulkowsky. Computer Systems That Learn : Classfcaton And Predcton Methods From Statstcs, Neural Nets, Machne Learnng, And Expert Systems. Morgan Kaufman, [Wess, 73] Wess, S. F. (1973). Learnng to dsambguate. Informaton Storage and Retreval, 9, 33_41. [Wlks et al., 90] Y. Wlks, D. Fass, C. Guo, J.E. Mcdonald, T. Plate, B.M. Slator. Provdng Machne Tractable Dctonary Tools. In Machne Translaton, 5 : (1990) [Wlks et al., 97] Wlks, Y. & Stevenson, M. (1997). Combnng ndependent knowledge source for word sense dsambguaton. Conference «Recent Advances n Natural Language Processng», 1 7. [Wong et al., 85] Wong, S., Zarko, W. etwong, P. (1985). Generalzed vector spaces model n nformaton retreval. In Proc. of the 8th ACM-SIGIR conference, pages Montreal, Quebec. [Woods, 00] Wllam A. Woods Aggressve morphology for robust ]excal coverage. In (these proceedngs). [Woods, 91] Wllam A. Woods Understandng subsumpton and taxonomy : A framework for progress. In John Sowa, edtor, Prncples of Semantc Networks : Exploratons n the Representaton of Knowledge, pages Morgan Kaufmann, San Mateo, CA. [Woods, 97] Wllam A. Woods Conceptual ndexng : A better way to organze knowledge. Techncal Report SMLI TR-97-61, Sun Mcrosystems Laboratores, Mountan Vew, CA, Aprl. ww.sun.com/research/techrep/1997/abstract-61.html. [Xu et al., 96] Xu J. and W.B. Croft. Query Expanson Usng Local and Global Document Analyss. In the Proceedngs of the ACM/SIGIR Conference on Research and Development n Informaton Retreval, pp. 4-11, Zurch, [Yager, 87] Yager, R. R. A note on weghted queres n nformaton retreval systems. Journal of the Amercan Socety for Informaton Scence, 38(1) [Yager, 88] Yager, R. R. On ordered weghted averagng aggregaton operators n multcrtera decson makng. IEEE Transactons on Systems, Man and Cybernetcs,18(1), ,

168 REFERENCES BIBLIOGRAPHIQUES [Yarowsk, 95] YAROWSKY D. Unsupervsed word sense dsambguaton rvalng supervsed methods. In 33rd Meetng of the Assocaton for Computatonal Lngustcs, p [Yarowsky, 92] Yarowsky, Davd (1992). "Word-Sense Dsambguaton Usng Statstcal Models of Roget's Categores Traned on Large Corpora" Proceedngs of the 14th Internatonal Conference on Computatonal Lngustcs (COLING-92). Nantes, France, August, [Yarowsky, 93] D. Yarowsky One sense per collocaton. In Proceedngs of the ARPA Human Language Technology Workshop. [Yu et al., 82] Yu C.T., Lam K., Salton G., Term Weghtng n Informaton Retreval Usng the Term Precson Model. In Journal of the Assocaton for Computng Machnery. Vol 29, January 1982, pp [Zadeh, 65] Zadeh, L. A. Fuzzy sets. Informaton and control, 8, , [Zadeh, 75] Zadeh, L. A. The concept of a lngustc varable and ts applcaton to approxmate reasonng, parts I, II. Informaton Scence, 8, , , [Zadeh, 75] Zadeh, L. A. The concept of a lngustc varable and ts applcaton to approxmate reasonng, parts I, II. Informaton Scence, 8, , , [Zak et al., 97] M. J. Zak, S. Parthasarathy, M. Oghara, And W. L. New Algorthms For Fast Dscovery Of Assocaton Rules. In Proceedngs Of The 3rd Internatonal Conference On Knowledge Dscovery And Data Mnng (KDD'97), Pages AAAI Press, August [Zak et al., 98] M. J. Zak. Scalable Data Mnng For Rules. Phd Thess, Unversty Of Rochester, [Zha, 04] C. Zha and J. Lafferty. A study of smoothng methods for language models appled to nformaton retreval. n ACM Transactons on Informaton Systems, Vol. 2, Issue [Zhang et al., 96] T. Zhang, R. Ramakrshnan, And M. Lvny. Brch : An Effcent Data Clusterng Method For Very Large Databases. In Proceedngs Of The 1996 ACM SIGMOD Internatonal Conference On Management Of Data (SIG- MOD'96), Pages ACM Press, June [Zpf, 49] Zpf, H. Human behavour and the prncple of least effort. Addson- Wesley, Cambrdge, Massachusetts,

169

170 ANNEXES

171 170

172 A. Evaluaton des approches de désambguïsaton Le succès de tout projet en WSD est clarement lé à l'évaluaton du système de désambguïsaton utlsé. Pour ce fare, un corpus de test, pré-désambguïsé est nécessare d une part pour évaluer la précson d un système de désambguïsaton et d autre part pour comparer les performances de dfférents systèmes. Les premers chercheurs en WSD étaent, du fat de l absence de corpus pré-désambguïsé standard, souvent confrontés à la tâche fastdeuse de désambguïsaton manuelle de toutes les occurrences des mots à tester. Pour adresser ce problème, Yarowsky [Yarowsky, 93] a rapporté une nouvelle technque complètement automatque. La méthode comporte l'ntroducton dans un corpus, de mots ambgus artfcellement créés, appelés pseudomots. Un pseudo-mot est créé en remplaçant toutes les occurrences de deux mots, par exemple 'banana' et 'kalashnkov', par un nouveau pseudo-mot ambgu 'banana/ kalashnkov'. Le corpus ans obtenu est utlsé comme corpus standard de test. L'évaluaton des résultats d un désambguïseur est alors trvale pusque l'on connaît à l'avance les pseudo-sens corrects de chaque occurrence d un pseudo-mot. Cependant, comme l ont rapporté Gonzalo et al [Gonzalo et al., 99], la pseudo ambguïté a un comportement dfférent de l ambguïté réelle. En effet, à la dfférence des composants d'un pseudo-mot, les dfférents sens d'un vra mot polysémque sont souvent lés. L ambguïté réelle s est avérée de ce fat plus tolérante aux erreurs que la pseudo ambguïté. On comprend alors pourquo les corpus à base de pseudo-ambguïté ne peuvent consttuer un standard de test. Partant de ces constats, Klgarrf [Klgarrf, 98] a proposé en 1998, de construre un standard à partr duquel tous les modèles de désambguïsaton pussent se mesurer. C est la premère campagne de Senseval. La campagne Senseval est à notre connassance le précurseur et la seule compagne d évaluaton standard des systèmes de WSD. Sa msson est d'organser et de gérer l'évaluaton et les actvtés relatves pour examner les forces et les fablesses des systèmes des systèmes de désambguïsaton en ce qu concerne dfférents mots, dfférents aspects de langue, et dfférentes langues. Senseval est organsée par un pett comté sous les auspces d ACL-SIGLEX (the Specal Interest Group on the Lexcon of the Assocaton for Computatonal Lngustcs). Depus son lancement en 1998, pluseurs campagnes d évaluaton ont eu leu: 171

173 ANNEXE A. EVALUATION DES APPROCHES DE DESAMBIGUISATION (1) Senseval-1 a eu leu en septembre 1998 en Angleterre. Lors de cette premère campagne, l n y a eu qu une tâche évaluée («lexcal sample task»), la désambguïsaton d un nombre lmté de mots, sur tros langues, l anglas, le franças et l talen. Cette évaluaton est fate sur 15 noms, 13 verbes, 8 adjectfs et 5 adverbes. (2) Senseval-2 a eu leu en l été de 2001, et a été suv d'un ateler tenu en jullet 2001 à Toulouse. Senseval-2 a nclut des tâches pour le Chnos, le danos, le Néerlandas, l anglas, l talen, le japonas, l espagnol, et autres suédos. (3) Senseval-3 a eu leu en Mars-Avrl 2004, suve d'un ateler tenu en jullet 2004 à Barcelone. Senseval-3 a nclut 14 tâches dfférentes pour la désambguïsaton, mas auss pour l'dentfcaton des rôles sémantques, les annotatons multlngues, l acquston de sous-catégores... On retrouve les tâches «all words» et «lexcal sample», qu correspondent respectvement aux modèles capables de désambguïser automatquement n mporte quel mot du texte et ceux adaptés à une lste lmtée de mots. Les données utlsées pour la tâche «lexcal sample» sont des exemples extrats du BNC (Brtsh Natonal Corpus) et annotés sémantquement à l ade de WordNet Il y a 60 mots à désambguïser (noms, adjectfs, verbes ambgus). (4) Semeval-2007 / Senseval-4 a eu leu en jun 2007 à Prague, ncluant 19 taches dont la tâche SemEval-2007 s exécutant en collaboraton avec CLEF (the Cross-Language Evaluaton Forum). Il s agt là d une premère tentatve où la WSD est évaluée dans le cadre de la recherche documentare et recherche documentare nter lngustque (CLIR). Du pont de vue de la WSD, cette tâche évaluera des systèmes de WSD ndrectement sur une tâche réelle. Du pont de vue de CLIR, cette tâche évaluera s les systèmes et les stratéges de WSD fonctonnent meux, car comme on le verra dans le paragraphe suvant, l ambguïté lexcale est effectvement un problème en recherche d nformaton. Des corpus de référence ont été rendus dsponbles dans le cadre de chacune des campagnes d évaluaton. 172

174 B. Les CP-Nets B.1 Introducton La capacté de prendre des décsons et d'assumer des actons potentelles est un pont-clé dans la majorté des problèmes d'ntellgence artfcelle ncluant les systèmes experts, les systèmes à la décson, les systèmes recommandeurs, les outls de confguraton etc. [Brafman et al., 02a]. De nombreux outls automatsés d ade à la décson ont été développés, certans pouvant prendre des décsons et les communquer à l'utlsateur, d'autres adant smplement l'utlsateur dans le processus de formulaton et de prse de décson [Boutler et al., 97]. Le but de la prse de décson est d entreprendre l acton qu mplque le melleur résultat (.e. le résultat le plus préférable). Les actons et les préférences sont représentées par un ensemble de contrantes sur un ensemble de varables (attrbuts) décsonnelles. Dans de nombreux domanes d'applcaton, l ensemble des actons possbles et des décsons potentelles est fxe et dépend d'une dynamque ben étable. Les seuls composants varables dans le processus de décson sont les préférences de l'utlsateur qu dovent être prses en compte lors de la prse de décson [Boutler et al., 99]. En effet, tands que des utlsateurs peuvent être confrontés à un problème décsonnel, leurs préférences sur les actons à entreprendre aux dfférents résultats décsonnels ne sont en général pas dentques. Les fonctons d'utlté consttuent un outl déal pour la représentaton et le rasonnement sur les préférences utlsateur [Brafman et al.,02a]. La représentaton des préférences par une foncton d'utlté est prmordale pour le succès de nombreuses applcatons en ntellgence artfcelle. Une bonne foncton de préférence dot permettre de capturer des énoncés qu sont naturels, smples et ntutfs pour l'utlsateur. Cependant, les fonctons d'utlté peuvent être très dffcles à formuler et un effort consdérable est requs de l'utlsateur [Brafman et al., 04]. Une dffculté majeure rencontrée dans l extracton, la représentaton et le rasonnement sur les préférences et les utltés concerne la talle de l'espace des résultats qu est exponentelle en nombre de varables caractérstques du problème. De ce fat, l'expresson drecte de la foncton de préférence (foncton d utlté) est quasment nfasable. De ce fat, les systèmes d ade à la décson ont éms dfférentes hypothèses sur la structure des préférences. L hypothèse la plus souvent applquée est 173

175 ANNEXE B. LES CP-NETS celle d ndépendance préférentelle (dont l'ndépendance préférentelle, l'ndépendance préférentelle condtonnelle et l'ndépendance d'utlté mutuelle, ) [Boutler et al., 01b], permettant de décomposer la foncton d utlté sur les alternatves en une somme ou un produt de fonctons de valeurs partelles sur les caractérstques ndvduelles composant les alternatves. L hypothèse d ndépendance permet ans de rédure le nombre d alternatves à consdérer, et de construre des fonctons d utlté mons complexes. Une alternatve à cette approche consste à rasonner en termes d ordres de préférence qualtatfs plutôt qu avec des fonctons de préférences numérques. Pour de nombreux domanes, en effet, les ordres qualtatfs sont plus naturels que les ordres quanttatfs [McGeache, 02]. En se basant sur l hypothèse d ndépendance préférentelle, les alternatves sont alors décomposées en leurs caractérstques qualtatves ndvduelles ndépendantes et le rasonnement se fasant sur ces ordres de préférence partels. Par alleurs, Doyle et Wellman [Doyle et al., 94] ont observé que les représentatons qualtatves de préférences sont une approxmaton rasonnable d au mons un type de préférences humanes : les préférences Ceters Parbus et ont développé des formalsatons mathématques pour de tels énoncés. Une préférence Ceters Parbus spécfe des ordres de préférence sur certanes caractérstques (ou attrbuts) tout en gnorant les caractérstques restantes (supposées constantes). Ans, consdérons l énoncé suvant (extrat de [Domshlak, 02]) : «I prefer red wne to whte wne f served fsh soup followed steak» Cec sgnfe que, étant donnés deux repas qu dffèrent seulement dans le type de vn et qu contennent tous les deux une soupe de posson et du steak, je préfère le repas avec du vn rouge au repas avec du vn blanc. Cette préférence est ceters parbus (toutes autres choses étant égales par alleurs). Hansson [Hansson, 85] a établ que la plupart des préférences humanes semblent être de ce type. Domshlak dans [Domshlak, 02], a énoncé que les énoncés préférentels qualtatfs ceters parbus sont les melleurs canddats pour la constructon de modèles pratques et utles de préférences utlsateurs à cause de leur nature ntutve. Des travaux récents ont exploté la structure d ndépendance préférentelle pour construre des modèles graphques de représentaton des énoncés de préférences Ceters Parbus. Les premers travaux dans ce sens ont été entreprs par Boutler, Brafman, Hoos et Pool dans [Boutler et al., 99]. Les auteurs ont proposé un graphe de représentaton compacte de préférences qualtatves, le graphe CP-Net (Condtonal Preference Network), qu explote l ndépendance préférentelle condtonnelle pour la structuraton des préférences utlsateur sous l hypothèse Ceters Parbus. Boutler, Bacchus et Brafman [Boutler et al., 99] proposent le modèle UCP-Net, qu étend le modèle CP-Net en permettant la représentaton quanttatve d'nformatons d'utlté 174

176 ANNEXE B. LES CP-NETS plutôt que de smples ordres qualtatfs de préférence. Prestwch, Venable, Ross et Walsh [Prestwch et al., 04] ont proposé une nouvelle approche graphque étendant le modèle CP-Net à l'utlsaton de contrantes fortes et souples. Brafman et Domshlak dans [Brafman et al., 02a] et [Brafman et al., 02b], étendent le modèle CP-Net à la manpulaton de la noton d'mportance entre varable condusant au modèle TCP-Net. Fnalement, les mcp-nets proposés dans [Ross et al., 04] étendent le formalsme CP- Net pour modélser et supporter les préférences de multples agents. Nous nous ntéressons dans ce qu sut aux CP-Nets. Nous ntrodurons d'abord quelques défntons utles sur les relatons de préférence et l ndépendance préférentelle, pus nous explctons modèle CP-Net et son extenson aux valeurs d utlté : le UCP-Net. B.2 Descrpton avancée Les CP-Nets ont été ntroduts en 1999 par Boutler et al. dans [Boutler et al., 99], comme outl de représentaton compacte des relatons de préférences qualtatves. Ce modèle graphque explote l'ndépendance préférentelle condtonnelle dans la structuraton des préférences utlsateur sous l'hypothèse ceters-parbus. B.2.1 Un exemple llustratf Cet exemple (extrat de [Boutler et al., 04a]) spécfe les préférences utlsateur sur son costume de sorée. Le graphe consste en 3 varables J, P et S correspondant respectvement à Jacket (jaquette), Pants (pantalons) et Shrt (Tee-Shrt) respectvement. L auteur préfère ncondtonnellement la couleur nore (black) à la couleur blanche (whte) tant pour la jaquette que pour le pantalon, tands que ses préférences entre les tee-shrt rouge (red) et blanc (whte), est condtonnée par la combnason (jaquette, pantalons). S les deux sont de même couleur, alors l préfère un tee-shrt rouge. S les deux sont de couleurs dfférentes, l auteur préfère le teeshrt blanc. Les préférences sont encodées dans le graphe CP-Net suvant (fgure B.1): 175

177 ANNEXE B. LES CP-NETS FIGURE B.1 : Le CP-Net B.2.2 La sémantque du CP-Net La sémantque de CP-nets est smple, défne en termes d'ensembles d ordres de préférence qu sont consstants avec l'ensemble des contrantes mposées par les CPT [Boutler et al., 04b]. Défnton Sot N un CP-Net sur des varables V. X V une varable, et U V l ensemble des parents de X dans N. Sot Y = V - (U {X}). Sot f u l ordre de préférence sur Dom(X) dcté par CPT(X) pour une nstancaton u de Dom(U) des parents de X. Et sot f un ordre de préférence sur Dom ( V ) = Dom( X 1 ) Dom( X 2 )... Dom( X n ). Un ordre de préférence f satsfat f u ss y Dom( Y ) : x f u x j yux f yux j Un ordre de préférence f satsfat CPT(X) ss l satsfat u Dom U f pour tout ( ) Un ordre de préférence f satsfat le CP-Net N ss l satsfat CPT(X) pour toute varable X V. u Défnton : Un CP-Net N est satsfable, s l exste un ordre de préférence f qu le satsfat. Théorème 1 : Tout CP-Net acyclque est satsfable. Remarque : Même s ren dans la sémantque des CP-Nets n mpose l acyclcté, les CP-Nets cyclques peuvent fournr des ordres nconsstants [Domshlak et al., 00a], [Lang et al., 05]. Nous les gnorons volontarement pour ces rasons, et nous consdérons dans la sute des CP-Nets acyclques. 176

178 ANNEXE B. LES CP-NETS Généralement, la plupart des CP-Nets acyclques satsfables sont satsfats par plus d un ordre de préférences. Ans, dans l exemple 1 précédent (Fgure B.1), l exste quatre ordres de préférences qu satsfont le CP-Net : a 1b1c1 f a1b1c 2 f a1b2c1 f a1b2c2 f a2b2c2 f a2b1c 2 f a2b2c1 f a2b1c1 a 1b1c1 f a1b2c1 f a1b1c 2 f a1b2c2 f a2b2c2 f a2b1c 2 f a2b2c1 f a2b1c1 a 1b1c1 f a1b1c 2 f a1b2c1 f a1b2c2 f a2b2c2 f a2b2c1 f a2b1c 2 f a2b1c1 a 1b1c1 f a1b2c1 f a1b1c 2 f a1b2c2 f a2b2c2 f a2b2c1 f a2b1c 2 f a2b1c1 La déducton préférentelle dans les CP-Nets est défne de manère standard. Défnton : Sot N un CP-Net sur un ensemble de varables V. o o' Dom( V ), deux alternatves quelconques. N ndut o f o', et on note N o f o' ss o f o' dans tout ordre qu satsfat N. Ans, dans le cas du CP-Net précédent (Fgure B.2), on a : N a1b2c2 f a2b2c2 1b1c 2 a1b2c 1b2c1 a1b1c 2 Mas N a f 1 car l exste un ordre de préférences dans lequel a f. La déducton préférentelle pour un CP-Net est transtve : S N o f o' et N o' f o' ' Alors N o f o' ' La sémantque ceters parbus du CP-Net mplque que les préférences sur les parents ont une prorté supéreure à celles de leurs descendants. Ans par exemple, dans le CP-Net de l exemple 1, on a a1b2c2 f a2b2c2 : la plus préférable valeur de A combnée avec les valeurs les mons préférables de B et C, donne une alternatve plus préférable que celle combnant la valeur la mons préférable de A avec les valeurs les plus préférables pour B et C étant donnée cette valeur de A. B.2.3 Rasonner avec les CP-Nets Comme tout modèle de représentaton des préférences, le CP-Net permet deux types de rasonnement sur les préférences [Boutler et al., 04b]: 177

179 ANNEXE B. LES CP-NETS 3. Le premer concerne la recherche de la melleure alternatve possble: C est l optmsaton des résultats. 4. Le second consste à établr une comparason préférentelle entre deux alternatves données : C est le test de domnance. 1. Optmsaton des résultats Etant donné un CP-Net acyclque, on peut asément détermner la melleure alternatve possble sur les ordres de préférence qu satsfont le CP-Net. Il sufft pour cela de parcourr le graphe des préférences du sommet vers les feulles, en ntalsant chaque varable parcourue à sa plus préférable valeur étant données les nstancatons de ses parents. En fat, même s le CP-Net ne détermne pas un ordre de préférence unque, l détermne une melleure alternatve unque. De façon plus générale, étant donnée une contrante sur quelques varables Z V, sous forme d une nstancaton donnée z de Z, détermner l alternatve la plus préférable consste à parcourr, comme précédemment, le graphe des préférences de haut en bas, en assgnant à chaque varable X Z, sa plus préférable valeur étant donnée l nstancaton de ses parents. 2. Le test de domnance Le problème de domnance dans un CP-Net N, d une alternatve o sur une alternatve o, peut être posé comme sut: N o f o'? Dans [Boutler et al., 99], l a été montré que la sémantque ceters parbus du CP- Net, autorsat l utlsaton drecte de l nformaton contenue dans la CPT d une varable donnée X, pour changer (flppng) la valeur de X dans une alternatve o=uxy, pour obtenr l alternatve o '= ux' y mmédatement plus préférable s x' f x (ou mmédatement mons préférable dans le cas où x f x' ). Une séquence de flppng amélorant mprovng flppng sequence- (repectvement déterorant worsenng flppng sequence-) d une alternatve o vers une alternatve o est toute sute d alternatves o 1, o2,..., ok telle que o 1 = o, o k = o' et = 1.. k, o +1 est un flppng amélorant (respectvement un flppng déterorant) de o. Dans [Boutler et al., 04b], l a été montré qu l exste une relaton étrote entre l exstence d une séquence de flppng entre une pare d alternatves, et la relaton de domnance entre elles. Plus précsément, une séquence de flppng amélorant mprovng flppng sequence- (respectvement détérorant worsenng flppng sequence- ) d une alternatve o vers une alternatve o fournt la preuve que o est plus préférable 178

180 ANNEXE B. LES CP-NETS (respectvement mons préférable) à o dans tous les ordres qu satsfont le CP-Net [Domshlak, 02]. B.2.4 Utlsaton des graphes CP-Nets B Introducton Une utlsaton ntéressante des graphes CP-Nets concerne la présentaton adaptatve d nformatons structurées. Un objectf mportant est de fournr une personnalsaton orentée utlsateur (vewer) de l nformaton vsualsée. Les approches proposées dans [Domshlak et al., 00b], [Domshlak et al., 01], [Brafman et al., 04] vsent respectvement la présentaton adaptatve des contenus des pages Web, et plus généralement des documents structurés retournés par un provder de contenus. Contrarement aux approches classques d IA dans les hypermédas adaptatfs qu se basent sur l apprentssage du profl utlsateur et ne sont effectvement applcables que pour les utlsateurs fréquents, les approches proposées par les auteurs dans, offrent une présentaton dynamque en réponse aux sollctatons d un utlsateur, sans avor à apprendre son profl au préalable. Une présentaton ntale est confgurée selon les préférences de l auteur, qu consttue l expert du contenu. Les approches ans proposées se basent sur les graphes CP-Nets pour, d une part structurer les préférences de l auteur et offrr ans la présentaton ntale, et d autre part, pour assurer l adaptablté due la présentaton en réponse à la sollctaton de l utlsateur (vewer) va des algorthmes spécfques des CP-Nets, pour la recherche de la confguraton optmale (optmsaton des alternatves). Nous présentons c-après le formalsme donné dans [Domshlak et al., 00b] et généralsé en [Brafman et al., 04], pour la présentaton adaptatve du contenu des pages Web B Le formalsme Toute page web peut être consdérée comme un ensemble de composantsc 1, C2,..., Cn. Chaque composant est assocé à son contenu. Par exemple, le contenu d un composant peut être un bloc de texte, une mage, etc. Chaque composant peut être sot présenté à l utlsateur vewer, sot caché. Ces optons de présentaton d un composant C consttuent ses valeurs possbles, elles sont ' représentées respectvement par c et c. L ensemble des composants d une page web ' consttue ans un espace de confguraton ζ = { c } { ' } { ' 1, c1 c2, c2... c n, cn}. Chaque élément σ dans cet espace consttue une confguraton possble du contenu de la page web. En théore de la décson, l ensemble des composants de la page web, V = { C1, C2,..., C n } est un ensemble de varables, et chaque élément σ ζ défnt une 179

181 ANNEXE B. LES CP-NETS alternatve. Le concepteur de la page web spécfe pour chaque composant C de la page, l ensemble des composants Π ( C ) qu nfluencent ses préférences sur les optons de présentaton de C. Pour chaque confguraton π Π( C ), le concepteur dot spécfer ses ordres de préférences sur les optons { c, ' c } de C étant donnée π. Formellement, s C = { C, 1..., C n }\{ C, Π( C )}, alors C et C sont condtonnellement préférentellement ndépendants étant donné Π ( C ). Cette nformaton est utlsée pour construre le graphe CP-Net, qu structure ans les préférences de concepteur sur la présentaton de la page web. Ce CP-Net défnt un ordre de préférence f sur ζ, tel que σ1, σ 2 ζ, σ1 f σ 2 sgnfe que le concepteur (auteur) de la page web vot σ 1 comme au mons auss préférable que σ 2. Une confguraton optmale étant ' ' donné cet ordre de préférences sur ζ, est une alternatve σ telle que σf σ, σ ζ. Cet ordre de préférences est statque et ne dépend nullement de l utlsateur (vewer). Pour assurer une présentaton adaptatve du contenu de la page web, on dot tenr compte des préférences de ce derner. L approche consste dans un premer temps, à présenter la page dans sa melleure confguraton, à l utlsateur. Ce derner peut décder de vsualser un composant caché ou au contrare cacher un composant présenté (l utlsateur peut par exemple nteragr ans par smple clck sur les composants). Ces préférences utlsateur consttuent une contrante que le système utlse pour reconstrure la melleure alternatve possble en respect aux préférences utlsateur. B Un exemple Le processus décrt c-dessus est llustré à travers l exemple suvant extrat de [Domshlak et al., 00b]. La page web conçue est consttuée de sept composants : quatre artcles courts, et tros publctés. Les artcles portent sur les électons en cours (Electons), un accdent router (Trafc Accdent), un nouveau arbag de voture (New arbag), et les résultats des récents jeux de NBA (NBA). Les publctés pour le magazne New York Tmes (NY Tmes), les votures Volvo (Volvo), et les chaussures Nke (Nke). Après spécfcaton du contenu de la page web, le concepteur exprme ses préférences sur la présentaton du contenu : Par défaut, la présentaton de l artcle central Electons (C1) est préférée à son masquage (.e. C1 on est préférée à C1 off). Pour le second artcle Traffc Accdent, C2 off est préférée à on. L artcle New arbag (C3) : C3 on est préféré seulement s Traffc Accdent (C2) on et Electons (C1) est off. L artcle NBA (C4) on est préféré seulement s Traffc Accdent n est pas présenté. 180

182 ANNEXE B. LES CP-NETS 181 La publcté NY Tmes (C5) est préférée seulement s Electons et Traffc Accdent sont présentés. La publcté Volvo (C6) on est préférée s New arbag ou Traffc Accdent sont présentés. La publcté Nke (C7) on est préférée seulement s NBA est on. FIGURE B.2 : Exemple de CP-Net Le graphe CP-Net correspondant est donné en fgure B.2 et les tables CPT sont données comme sut : ( ) ( ) ( ) ( ) ( ) ( ) 7 ' 7 ' 4 ' ' 6 ' 3 ' 2 ' ' 5 ' 2 ' 1 ' ' 4 4 ' 2 4 ' ' 3 ' 2 1 ' ' 1 3 ' ' ; ; ; ; ; c c c c c c C c c c c c c c c C c c c c c c c c C c c c c c c C c c c c c c c c C c c C c c C f f f f f f f f f f f f Au téléchargement de cette page web, la présentaton ntale de son contenu, donnée en fgure B.3 (a), est détermnée par une procédure de reconfguraton. Dans la fgure, les nœuds grsés représentent des composants vsbles, les autres des composants nvsbles (cachés). En supposant que le vewer clque sur le len de Traffc Accdent pour le vsualser, toute la structure du CP-Net orgnal est repensée en foncton de cette nouvelle contrante. Le résultat de le reconfguraton est donné en fgure B.3 (b).

183 ANNEXE B. LES CP-NETS (a) FIGURE B.3 : Exemple de reconfguraton du contenu (b) Nous avons présenté dans cette annexe les fondements théorques du modèle CP-Net, et explcté sa sémantque. Pus, nous avons défn son extenson à l utlsaton de valeurs d utlté, condusant au formalsme UCP-Net. Les CP-Nets ont été utlsés avec succès dans dvers problèmes décsonnels. 182

184 C. La découverte de connassances en RI C.1 Introducton Dans cette parte, nous présentons le processus d extracton de connassances dans les textes ou ECT (en anglas KDT, acronyme de Knowledge Dscovery n Texts). L ECT tre ses orgnes de l ECBD, acronyme d Extracton de Connassances dans les Bases de Données (en anglas, KDD pour Knowledge Dscovery n Databases), dont l hérte les technques et méthodes. Nous ntrodusons dans un premer temps, le concept d extracton de connassances dans les bases de données, pus nous détallons les méthodes d extracton des connassances dans les textes et ses applcatons en RI. C.2 Extracton de connassances dans les bases de données (ECBD) C.2.1 Généraltés L ECBD désgne le processus de découverte non trvale d nformatons mplctes, précédemment nconnues et potentellement utles à partr de données dans les bases de données [Patetsky-Shapro et al., 96]. Par le processus de KDD, les nformatons ntéressantes et les régulartés peuvent être extrates à partr d un ensemble de données pertnentes contenues dans les bases de données et peuvent être analysées de dfférents ponts de vue. L extracton de connassances à partr de grandes bases de données a été reconnue par de nombreux chercheurs comme un pont clé dans les systèmes de base de données, et par de nombreuses compagnes ndustrelles comme un domane mportant ayant des retombées captales sur leur geston. Les champs d applcaton du KDD sont vastes et varés allant de la geston d nformatons, le tratement des requêtes, la prse de décson, et autres analyse documentare. Ans par exemple, l extracton des connassances d une BDD transactonnelle des achats clentèle d un super marché 183

185 ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI permettrat de connaître les habtudes de consommaton des clents. Ces connassances servront pour l ade à la décson dans la réorgansaton du rayonnage et dans la révson de la poltque de marketng en foncton des produts les plus vendus, et ce dans l objectf d amélorer les ventes. En analyse documentare, le KDD permettrat par exemple de regrouper des documents par topcs, ou encore de classfer des documents smlares. Un système de KDD s artcule autour de quatre composants [Cherf, 04 ; Smon, 00] : 1. Une ou pluseurs bases de données et leurs systèmes de geston respectfs. Un système de KDD dot être capable d une part, de trater des masses de données volumneuses et de dfférents types (données temporelles, données spatales, données légales, données transactonnelles, données multméda, ), et d autre part d assurer la scalablté (ou passage à l échelle) de façon transparente pour l analyste. 2. Un système à base de connassances qu permet la geston des connassances. En partculer, dfférents types de connassances peuvent être découvertes à partr de grandes bases de données. Le système de KDD dot adopter des technques expressves de représentaton des connassances de sorte que les connassances découvertes pussent être présentées à l utlsateur dans une forme compréhensble et drectement explotable. 3. Un système de foulle de données (ou de Data Mnng) qu permet l exploraton ou l analyse des données de la base et la découverte de connassances mplctes précédemment enfoues. La foulle de données est le coeur du processus de KDD. 4. Une nterface servant à l nteracton entre le système et l analyste, et à la vsualsaton des résultats obtenus. L analyste est chargé de guder les recherches et de valder les connassances extrates. C.2.2 Le Data Mnng (DM) L expresson de DM réfère souvent à l ensemble des outls et méthodes permettant d accéder aux donnés et de les analyser afn d en extrare des modèles mplctes, en prévson d une utlsaton future. C est le processus automatque d extracton non trvale de connassances mplctes, précédemment nconnues, et potentellement utles à partr de grandes bases de données. La défnton la plus communément admse est donnée par [Fayyad et al., 98] : «le Data Mnng est un processus non trval qu consste à dentfer, dans des données, des schémas nouveaux, valdes, potentellement utles et surtout compréhensbles et utlsables» 184

186 ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI Les méthodes et technques de Data Mnng sont multples et varées. Néanmons, les méthodes les plus novatrces concernent les règles d assocaton dans les bases de données relatonnelles ou transactonnelles [Agrawal et al., 93 ; Agrawal et al., 94; Srkant et al., 95 ; Savarese et al., 95 ; Mannla et al., 94 ; Park et al., 95 ; Han et al., 95]. Nous examnons cette approche en secton suvante. Le Data Mnng a été appplqué dans dvers domanes allant de a grande dstrbuton, la vente par correspondance, les opérateurs de télécommuncatons, les banques et assurances, etc... Le domane majeur où le Data Mnng a prouvé son effcacté est la geston de la relaton clent (CRM ou Customer Relatonshp Management). En effet, le Data Mnng permet par une melleure connassance de la clentèle d'accroître les ventes. Un domane d applcaton plus récent concerne la geston de connassances dans les corpus textuels. Le text mnng est ans né de l applcaton des technques du Data mnng aux textes. C est cette applcaton partculère que nous détallerons en secton 4.4. C.3 Extracton de connassances dans les bases de données textuelles (ECT) C.3.1 Introducton Du fat de l'mportance crossante du contenu électronque et des médas électronques pour le stockage et l échange de documents textuels, est apparu un ntérêt, de plus en plus crossant, pour les outls qu peuvent ader à retrouver l'nformaton enfoue dans les textes de documents. La «découverte de connassances à partr de bases de données textuelles» (DCT) [Haddad, 02]) ou l extracton de connassances à partr de textes (ECT) [Cherf, 04] ou encore le KDT «knowledge dscovery n textual databases» [Feldman et al., 95], est une technologe nassante pour analyser de grandes collectons de documents non structurés dans le but d'extrare des modèles (ou connassances) ntéressants, non trvaux et potentellement utles. Comme la forme la plus trvale de stockage de l'nformaton est le texte, le KDT est censée avor un plus haut potentel commercal que l'explotaton de données structurées. Une étude récente a ndqué que 80% de l'nformaton d'une compagne est contenue dans des documents textuels tels que les emals, les notes, les correspondances de clents et les rapports. Les capactés pour dstller cette source nexplotée d'nformaton, ces documents à textes lbres, fournssent des avantages concurrentels substantels pour une compagne pour réussr à l'ère de l économe basée sur la connassance.

187 C.3.2 La foulle de texte ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI L expresson foulle de textes ou text mnng suggère qu l s agt de l exploraton de textes dans le but de retrouver l nformaton utle enfoue dans le texte. Quelques défntons ctées c-après explctent le concept : - "La foulle de textes (ou text mnng) peut être défne comme l applcaton de méthodes calculatores et de technques sur des données textuelles dans le but de retrouver l nformaton pertnente, ntrnsèque et la connassance précédemment nconnue" [Doprado, 07]. - "La foulle de textes dot prospecter des péptes de nouvelles connassances dans les montagnes de textes qu sont devenues accessbles aux recherches sur ordnateur grâce à la révoluton de l'nformaton et à l'nterconnexon des réseaux " [Lucas, 99/00]. - "La foulle de textes est l'établssement de relatons précédemment nconnues et nsoupçonnées entre caractérstques dans les bases de données textuelles..." [Albrecht et al., 98]. - "Nous défnssons le texte mnng comme étant le Data Mnng sur des données textuelles. La foulle de textes est tout ce qu porte sur l'extracton de modèles et d assocatons précédemment nconnus à partr de grandes bases de données textuelles" [Thurasngham 99; Nasukawa et al., 01]. Il ressort de ces défntons que le text mnng peut être vu comme un champ d applcaton du Data Mnng aux textes ou du KDD aux textes [Ahonen et al., 97], [El Wakl, 02]. Le text mnng réfère ans à l ensemble des technques et méthodes du Data Mnng, en vue de retrouver, dans les textes de documents de grandes bases de données textuelles, l nformaton pertnente, utle, et précédemment nconnue. C Cadre du text mnng La foulle de textes est étrotement lée aux domanes du Data Mnng, du tratement de la langue naturelle (NLP), de la geston de connassances (knowledge management), de l'extracton de l'nformaton (IE), et la recherche d nformaton. Un système de foulle de données textuelles combne ans des technques du Data Mnng avec des technques de tratement de la langue naturelle et d extracton d nformaton et de recherche d nformaton. L objectf est d obtenr des connassances utles, précédemment nconnues et enfoues dans les textes [Haddad, 02]. Par dfférence aux systèmes de recherche d nformaton, les systèmes de text mnng retrouvent l nformaton latente (cachée) et précédemment nconnue dans le texte alors que les SRI focalsent sur l nformaton vsble, connue, contenue dans le texte. Chen dans [Chen, 01] rajoute que le text mnng réalse dfférentes fonctons de recherche, d analyse lngustque et de catégorsaton. Les moteurs de recherche 186

188 ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI eux, focalsent sur la recherche du texte, et plus partculèrement orentés sur la recherche par le contenu [Kroeze et al., 03]. C Les étapes du text mnng La foulle de textes mplque le prétratement des collectons de document (catégorsaton des textes, extracton de l'nformaton, extracton de terme), le stockage des représentatons ntermédares, les technques pour analyser ces représentatons ntermédares (telles que l analyse des dstrbutons, le regroupement, l analyse de tendances, et les règles d'assocaton), et la vsualsaton des résultats [Feldman et al., 07]. Un système de foulle de textes sut les tros étapes prncpales suvantes [Cherf, 04] : (1) la modélsaton du contenu des textes, (2) la foulle de données, (3) l analyse des résultats et valdaton. L étape de modélsaton du contenu correspond à l étape de préparaton des données textuelles. La modélsaton du contenu des textes permet d extrare des données à partr de textes et les organser dans une forme ntermédare chose. Elle correspond ans à une ndexaton termnologque des textes. L étape de foulle de données peut être lancée sur la base de données consttuée. La forme ntermédare basée-document permet de dédure des modèles et rapports entre documents. Le regroupement (clusterng)/vsualzaton et la catégorsaton de documents sont des technques du text mnng fondées sur des représentatons ntermédares basées-document. Les représentatons ntermédares basées-concepts permettent de dédure des modèles entre des concepts. Les travaux de foulle de données, telles que la modélsaton prédctve et la découverte d assocatons, sont basés sur cette catégore [Tan, 99]. Dans le cas typque de la découverte d assocatons, l s agt d extrare les règles d assocaton entre les termes-ndex dentfés, de classer ces règles selon des mesures de qualté et de les nterpréter. C Les technques du text mnng 1. Technques de prétratement Les technques de prétratement extraent des représentatons structurées à partr de données textuelles non structurées [Feldman et al., 07]. Une grande varété de technques de prétratement des textes exste. Toutes tentent d'une certane manère, de structurer des documents et, par extenson, des collectons de document. On dstngue :

189 ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI Les technques de tratement du langage naturel (NLP) Ces technques utlsent et produsent les caractérstques lngustques ndépendantes du domane (dans le sens que leur résultat n'est pas spécfque à problème partculer). Les tâches mplquées peuvent nclure la tokénzaton, l'analyse morphologque, l étquetage syntaxque (Pos taggng), et l'analyse syntaxque. La catégorsaton des textes les tâches de catégorsaton (ou classfcaton) des textes étquettent chaque document avec un nombre restrent de concepts ou de mots-clés. L'ensemble de tous les concepts ou mots-clés possbles est le plus souvent préparé manuellement. Les technques d'extracton d nformaton (EI) L'EI est peut-être la technque la plus utlsée dans des opératons de prétratement des textes. Sans technques d'ei, les systèmes de foulle de textes auraent des possbltés plus lmtées de découverte de la connassance. L'EI dot être dstngué de la recherche documentare (ou recherche d nformaton). La recherche documentare renvoe les documents qu apparent une requête donnée mas exge toujours de l'utlsateur de lre ces documents pour localser l'nformaton pertnente. L'EI, vse pour sa part, à ndquer exactement l'nformaton pertnente et à la présenter dans un format structuré. 2. Technques de foulle de textes Le noyau d un processus de foulle de textes se compose de dvers mécansmes pour découvrr des modèles d'occurrence de concepts dans une collecton de document ou dans un sous-ensemble donné de cette collecton. Les tros types de modèles les plus communs en foulle de textes sont : les dstrbutons (et les proportons), les ensembles fréquents et fréquents proches et les assocatons. Les dstrbutons Les systèmes de foulle des textes permettent d dentfer la proporton de documents d une collecton donnée D, ndexés avec un concept partculer K d un ensemble de concepts K. On peut également dentfer la proporton de documents ndexés avec un concept K 2 qu sont également ndexés par K 1. Cette dernère proporton est connue sous le nom de : proporton condtonnelle de concepts. Généralement, un système de foulle des textes dot analyser la dstrbuton des concepts qu sont des descendants d'un noeud partculer dans une hérarche de concepts. Une dstrbuton mportante de concept pour des opératons de découverte de la connassance est la dstrbuton de 188

190 ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI proportons de concept qu donne la proporton de documents dans une certane collecton qu sont ndexés avec chacun des concepts d'un ensemble donné de concepts. Les ensembles fréquents et fréquents proches En plus des proportons et des dstrbutons, un autre type de base de modèle qu peut être dérvé d'une collecton de document est un ensemble fréquents de concepts. Cec est défn comme un ensemble de concepts représentés dans la collecton de document avec des cooccurrences égales ou supéreures à un seul mnmal de support s (c.-à-d., tous les concepts de l'ensemble fréquent de concepts apparassent dans au mons dans s documents). Essentellement, un document peut être vu comme une transacton, et l ensemble de ses caractérstques (termes ou concepts représentatfs) comme des tems. La découverte des ensembles fréquents peut être utle comme type de recherche des modèles à elle seule et comme étape préparatore dans la découverte des assocatons. Les ensembles de concepts fréquents Proches établssent une relaton non orentée entre deux ensembles fréquents de concepts. Cette relaton peut être mesurée comme degré de recouvrement par exemple, sur la base du nombre de documents ncluant tous les concepts des deux ensembles de concepts fréquents proches, ou comme foncton de dstance entre les ensembles de concepts. Des relatons orentées entre les ensembles de concepts peuvent également être dentfées. On parle alors d assocatons. Les assocatons Une descrpton formelle des règles d'assocaton a été présentée pour la premère fos dans les recherche sur le problème" du paner du marché ou paner de la ménagère". Elle est spécfquement basée sur l'dentfcaton des ensembles fréquents. Dans la foulle de textes, les règles d assocaton ont été applquées afn d apprendre des relatons de corrélatons entre des éléments textuels, par exemple les termes consttuant les mots-clés d un texte [Feldman et al., 98; Kodratoff, 99; Delgado et al., 02]. 3. Technques de vsualsaton Les approches de vsualsaton pour la foulle de textes supportent généralement un ensemble de buts dfférents de ceux des nterfaces classques. Ben que les deux vsent à rendre l'nteracton avec les données possble, les outls de vsualsaton sont des nterfaces graphques plus sophstquées ncluant les hérarches de concepts, les graphes d assocatons entre concepts, les hstogrammes, les courbes, les graphes crculares, les cartes à auto-organsaton

191 ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI Les règles d assocaton consttuent, tant dans le data mnng que dans le text mnng, la technque la plus utlsée. Nous la décrvons c-après. C.3.3 Découverte de règles d assocaton La tâche d'assocaton pour la foulle de données consste à trouver quels attrbuts d une base de données (relatonnelle ou transactonnelle) "vont ensemble". La tâche d assocatons auss connue sous l appellaton d analyse d'affntés ou analyse du paner de la ménagère a pour objectf de découvrr des règles pour mesurer le rapport entre deux ou pluseurs artcles (tems). Les règles d'assocaton sont de la forme "s antécédent alors conséquent". Des mesures de support et de confance, lées à la règle, sont défnes pour détermner un ensemble de règles fortes respectant un seul mnmal de support et de confance respectvement. C Algorthmes de découverte des règles d assocaton Les algorthmes de découverte des règles d assocaton se basent sur deux étapes [Agrawal et al., 94] : générer tous les temsets fréquents pour chaque temset fréquent Y =..., générer toutes les règles d assocaton X Y X, X Y. 1 2 k La performance globale d un algorthme de découverte de règles d assocaton est détermnée par la premère étape. Après avor détermné les temsets fréquents, les règles d assocaton correspondantes sont extrates de manère trvale. Pluseurs algorthmes pour la découverte des temsets fréquents, nous le détallons c-après. Algorthmes de découverte des temsets fréquents Etant donné un ensemble I, d tems de talle m. L ensemble des partes de I (de talle 2 m ), mun de la relaton d ncluson (relaton d ordre) défnt un trells d temsets de hauteur (m+1). Par exemple, le trells des partes de l'ensemble d'tems I = {a, b, c, d, e} est représenté en fgure C.1 suvante. L'ensemble I contenant 5 tems, ce trells content 32 temsets et sa hauteur est égale à sx. 190

192 ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI FIGURE C.1 : Trells des partes assocé à I L'temset fréquent Φ n'est pas consdéré lors de la recherche car les règles d'assocaton générées à partr de ce derner ne sont pas des règles nformatves. Les dfférents algorthmes de recherche des temsets fréquents tentent d optmser le nombre de parcours du trells des temsets potentellement fréquents. En pratque, tros approches ont été proposées: Les algorthmes par nveau pour l extracton d temsets fréquents, les algorthmes pour l extracton d temsets fréquents maxmaux et les algorthmes pour l extracton d temsets fréquents fermés. 1. Algorthmes par nveaux pour l extracton d temsets fréquents Ces algorthmes réalsent un balayage du trells des temsets, par nveaux, de bas en haut. A chaque tératon k, un ensemble de k-temsets canddats (temsets fréquents potentels) est généré à partr des (k-1)-temsets fréquents découverts lors de l tératon précédente. Pluseurs algorthmes d extracton des temsets fréquents, par nveaux, ont été proposés dans la lttérature. L algorthme AIS [Agrawal et al., 93] par exemple crée l ensemble F k des k-temsets fréquents à partr de F k-1 en parcourant la base de données transactonnelle D. Pour chaque transacton lue o, et pour chaque temset a V k 1, s a o alors l algorthme étend a avec chacun des tems de o qu co-occurent après le derner tem de a étant donné l ordre lexcographque entre les tems de chaque transacton. On génère ans un ensemble C k d temsets canddats. Chaque temset canddat c k ans généré est alors examné. S c C, alors son k k

193 ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI nombre d occurrences (count(c k )) est ncrémenté de 1, snon c k est rajouté à C k avec count(c k )=1. L ensemble des temsets fréquents F k est le sous ensemble de C k obtenu en ne retenant que les temsetys canddats c k tels que count(c k ) est supéreur ou égal à un seul mnmal de support mnsup. L nconvénent d une telle approche est la génératon de trop nombreux temsets canddats qu en réalté sont ben mons nombreux. L algorthme Apror [Agrawal et al. 94] apporte une soluton à un tel problème en offrant une technque de réducton de l espace de recherche. Apror est également un algorthme d extracton des temsets fréquents, par nveaux. Les k- temsets canddats sont générés à partr des (k-1) temsets fréquents extrats lors de la (k-1)ème tératon. En pratque, pour lmter le nombre d temsets examnés lors de chaque tératon, l algorthme Apror se base sur 2 proprétés fondamentales : Proprété 1: Tous les sur-ensembles d un temset non fréquent sont non fréquents. Cette proprété permet d gnorer, lors de la génératon des k-temsets canddats, les (k-1)-temsets non fréquents. Proprété 2 : Tous les sous-ensembles d un temset fréquent sont fréquents. Cette proprété permet de lmter les k-temsets canddats examnés aux seuls temsets qu contennent les (k-1)-temsets fréquents découverts lors de la précédente tératon. Ans, les temsets canddats à k tems peuvent être générés par jonture des temsets fréquents de talle k-1, et en supprmant ceux qu contennent un sous ensemble quelconque non fréquent. Cette procédure mplque la génératon d un nombre d temsets canddats mons grand que l algorthme AIS par exemple. L algorthme AprorTID [Agrawal et al., 94] étend Apror en élmnant les parcours multples de la base de données, à travers la constructon d un ensemble de comptage de base C k, durant la constructon de l ensemble des 1-temsets fréquents F 1. L ensemble C k possède la structure suvante : <TID, {c k }> où TID est l dentfcateur de la transacton de la base transactonnelle D, et {c k } dénote l ensemble des k-temsets canddats contenus dans la transacton dentfée par TID. Le support d un temset canddat c k correspond au nombre d apparton de ce derner dans l ensemble C k. L ensemble C 1 est d abord généré en transformant chaque tem en l temset {}. L ensemble F 1 des 1-temsets fréquents est détermné après un parcours de la base D. Pus, à chaque nouvelle tératon k (k>=2), l ensemble C k est généré par auto-jonture de F k-1. L ensemble C k est détermné à partr de C k 1 et de C k tel que chaque élément de C k correspond à un objet o de C k 1 et content son TID et la lste des k-temsets canddats de C k contenus dans o. L ensemble F k est construt en détermnant pour chaque canddat de C k son nombre d occurrences dans C k et en ne gardant que les k- 192

194 ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI temsets canddats dont le support est supéreur ou égal à un seul mnmal de support mnsup. Ben d autres algorthmes par nveaux exstent proposant pour les uns d autres optmsatons de l algorthme Apror, tels l algorthme DHP (Drect Hashng and Prunng) proposé par Park et al. [Park et al., 95] qu utlse des tables de hachage afn de dmnuer le nombre de canddats générés, la parallélsaton du calcul étudée par Zak [Zak et al., 98], ou proposant de nouvelles technques pour l'extracton des temsets fréquents tels les algorthmes Partton [Savarese et al., 95] et Samplng [Tovonen et al., 96]. Dans l'algorthme Partton, le contexte est décomposé en parttons qu tennent en mémore. Pour chaque partton, tous les temsets fréquents dans la partton sont détermnés pus fusonnés et un balayage de la totalté du contexte est réalsé pour calculer leurs supports sur l'ensemble du contexte. L'algorthme Samplng utlse les technques d'échantllonnage pour extrare les temsets fréquents dans un échantllon du contexte et vérfer leurs supports en réalsant un balayage de l'ensemble du contexte [Pasquer, 00]. 2. Algorthmes d extracton des temsets fréquents maxmaux L'objectf de ces algorthmes est de rédure l'espace de recherche, et donc le nombre d'temsets canddats consdérés pendant l'extracton. Le prncpe consste à extrare les temsets fréquents maxmaux, c'est-à-dre les temsets fréquents pour lesquels l n exste pas de sur-ensemble fréquent. L extracton des temsets fréquents maxmaux est effectuée par un parcours tératf du trells des temsets pour : extrare les temsets fréquents maxmaux dans la base, c'est à dre les temsets dont le support est supéreur ou égal à mnsup et dont tous les sur-ensembles sont non fréquents, détermner les supports de tous les sous-ensembles des temsets fréquents maxmaux en réalsant un balayage de la base, élmner les temsets dont au mons un sous-ensemble est non fréquent. Pluseurs algorthmes d'extracton des temsets fréquents maxmaux ont été proposés dans la lttérature dont les algorthmes MaxClque et Max-Eclat [Zak et al., 97], et Max-Mner [Bayardo et al., 98]. Ces algorthmes rédusent le nombre d tératons, et dmnuent ans le nombre de scans et le nombre d opératons CPU réalsées en comparason aux algorthmes à nveaux. 3. Algorthmes pour l extracton d temsets fréquents fermés Les temsets fréquents fermés sont défns sur la base de l opérateur de fermeture de la connexon de Galos [Ganter et al., 99]. Ils forment alors le trells des temsets fermés, et des temsets fermés fréquents. L'ensemble des temsets fermés fréquents consttuent un ensemble générateur, également appelé base, pour l'ensemble des temsets fréquents. Cela sgnfe que les temsets fréquents et leurs supports peuvent être générés à partr des temsets fermés fréquents et leurs supports sans accéder à la base de données. Le problème de l'extracton de règles d'assocaton consstant alors à

195 ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI extrare les temsets fermés fréquents au leu des temsets fréquents. Cette décomposton permet d'amélorer les temps de réponse car le nombre d'temsets fermés fréquents est ben souvent nféreur au nombre d'temsets fréquents. En utlsant les temsets fermés fréquents, des bases pour les règles d'assocaton sont auss défnes. Ces bases, qu sont des sous-ensembles de l'ensemble des règles d'assocaton valdes, permettent d'amélorer la pertnence et l'utlté de l'ensemble de règles extrates. Les algorthmes Close [Pasquer et al., 98 ; Pasquer et al., 99c] et A- close [Pasquer et al., 99b], réalsent un parcours du trells des temsets en largeur d abord, à la recherche de générateurs (fréquents) des temsets fréquents fermés par nveaux. Durant l tératon k, l'algorthme Close consdère un ensemble de générateurs de canddats de talle k, l détermne leurs supports et leurs fermetures qu consttuent les temsets fermés fréquents, et pus supprme tous les générateurs peu fréquents. Pendant l tératon (k+1), les (k+1)-générateurs de canddats sont construts en jognant deux k-générateurs fréquents s leurs k-1 premers tems sont dentques, et les (k+1)-générateurs de canddats obtenus sont élmnés s'ls sont non fréquents ou leur fermeture est déjà calculée. Dans l'algorthme A-Close, les temsets générateurs sont dentfés selon leurs supports seulement, pusque le support d'un temset générateur est dfférent des supports de tous ses sous-ensembles, et un passage supplémentare de la base de données est ensute réalsé à la fn de l'algorthme pour calculer les fermetures de tous les générateurs fréquents découverts. Les résultats expérmentaux ont montré que ces algorthmes sont partculèrement effcaces pour l extracton de règles d'assocaton à partr de données denses ou corrélées qu représentent une parte mportante de bases de données réelles. Sur de telles données, close surpasse A-Close, et tous deux surpassent clarement les algorthmes d extracton des temsets fréquents par nveaux, tands que pour les données fablement corrélées, A-Close surpasse Close [Pasquer, 00a]. C Mesure de l ntérêt d une règle d assocaton Par delà le grand ntérêt des mesures de support et de confance comme crtères d'extracton, on nsstera d'abord sur une mportante qualté de ces mesures qu est leur grande ntellgblté. Le sens concret des valeurs du support et de la confance est parfatement assmlable par l'utlsateur non spécalste. Toutefos, les algorthmes lés à cette approche engendrent un très grand nombre de règles qu sont dffcles à gérer et dont beaucoup n'ont que peu d'ntérêt. La condton de support qu est le moteur même du processus d'extracton écarte les règles ayant un pett support alors que certanes peuvent avor une très forte confance et présenter un réel ntérêt. S l'on basse le seul de support pour reméder à cet nconvénent, les ensembles fréquents sont trop nombreux et les algorthmes d'extracton sont asphyxés. Enfn, les seules condtons de support et de confance ne suffsent pas à assurer le réel ntérêt d'une règle. En effet, une règle A B 194

196 ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI dont la confance est égale à la probablté de B, sot P(B/A) = P(B) ce qu est la défnton de l'ndépendance de A et B, n'apporte aucune nformaton. Par exemple, s P(A) = 80% et P(B) = 90%, la règle A B a un support égal à 72 % et une confance de 90 % en cas d'ndépendance. En résumé, l faut au mnmum prendre en compte d'autres mesures d'ntérêt des règles que le support et la confance. Une multtude de mesures d'ntérêt sont proposées dans la lttérature dont un récaptulatf est donné dans [Lallch et al., 04]. On ctera à ttre d exemple : La mesure de Patetsky-Shapro : np( A) ( P( B A) P( B) ) P( AB) Le lft : P( A) P( B) La surprse : P / [Patetsky-Shapro, 91] ( AB) P( AB ) P ( B) [Brn et al., 97] [Azé et al., 02] (où n est le nombre total de transactons). Une mesure dot dstnguer les dfférentes règles assocant A et B. En partculer : 1. La mesure dot mpératvement permette de chosr entre A B et A B, les exemples de l'une étant les contre-exemples de l'autre. 2. On préférera les mesures dssymétrques qu respectent la nature des règles d'assocaton transactonnelles : "s tels artcles (A) sont dans le paner, alors le plus souvent tels autres (B) y sont". Les mesures symétrques comme le support, la mesure de Patetsky-Shapro ou le lft évaluent de la même façon les règles A B et B A, alors que celles-c ont les mêmes exemples mas pas les mêmes contreexemples [Lallch et al., 04]. C Applcaton des règles d assocaton en RI L objectf prncpal d un SRI est de rechercher l nformaton pertnente pour une requête utlsateur à partr d un ensemble de documents préalablement tratés pus stockés dans une base documentare. Le tratement des documents ou ndexaton, consttue une étape fondamentale dans tout SRI. De la qualté de l ndexaton dépend en effet la qualté des résultats (ou la performance du SRI). L ndexaton consste à construre une représentaton ntermédare du contenu du document. Dans les approches classques d ndexaton, le document est représenté par un ensemble de mots clés. Dans des approches plus évoluées dtes d ndexaton sémantque, le document est représenté par un ensemble de concepts et de lens entre concepts. Les lens entre concepts sont des relatons taxonomques extrates de thésaurus ou d ontologes. L utlsaton des règles d assocaton en RI vse prncpalement la découverte de relatons non taxonomques entre les termes (mots clés ou concepts) descrpteurs des

197 ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI documents d une base documentare. Les relatons non taxonomques sont des relatons contextuelles entre termes. Elles sont spécfques à l usage partculer des termes dans les documents du corpus consdéré. Il s agt plus partculèrement de relatons latentes, enfoues dans les textes, portées par la sémantque même de la cooccurrence des termes dans le document ou dans la base documentare. Les objectfs à travers la découverte des règles d assocaton en RI sont multples et varés comme en témogne la multtude d applcatons exstantes : 1. Le regoupement (clusterng) de textes fournt des vues d'ensemble thématques des collectons des textes, 2. La classfcaton de textes en vue de la réducton de l espace de recherche, 3. La génératon automatque d assocatons de termes pour l ade à l'expanson de requête, 4. L ndexaton, etc. Dans ce qu sut, nous explctons quelques travaux en applcaton des règles d assocaton dans le contexte de la RI. Applcaton des règles d assocaton pour la classfcaton des documents La classfcaton thématque applquée aux documents, permet de regrouper les textes tratant de la même thématque. Deux textes de documents tratent de thématques dfférentes s ls appartennent à des classes dstnctes. L objectf est de regrouper autour d un même thème (.e. au sen d une même classe) des documents smlares. Cec permet de retrouver, pour une requête portant sur un mot clé d une classe donnée, tous les documents de la classe, mas auss de les classer ensemble comme documents pertnents. Le but vsé est de pouvor dmnuer effcacement la talle de recherche et d augmenter la sémantque de classement des documents retournés à l utlsateur. Dans cette perspectve, les auteurs dans [Ln et al., 98], proposent un système (le système ACIRD _Automatc Classfer for Internet Resource Dscovery_) qu extrat et généralse des termes des documents Internet pour représenter la classfcaton d'une hérarche de classes donnée. La mesure de support est proposée pour évaluer l'mportance d'un terme dans une classe de la hérarche de classes. Avec un seul donné, des termes avec des supports élevés sont fltrés comme mots-clés de la classe, et les termes avec des supports bas sont élmnés. Pour augmenter le taux de rappel de cette approche, la technque d extracton de règles d'assocaton est applquée pour découvrr les assocatons entre termes. Les règles d assocaton permettent de découvrr les termes exclus mas qu sont cependant représentatfs. Un modèle 196

198 ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI d nférence des termes permet alors de les promouvor au rang de termes représentatfs. Le système, ACIRD, est conçu pour classfer automatquement les documents collectés par le serveur web Yam 17. Le système a pour but d'amélorer les fables performances de la classfcaton manuelle actuelle. Le processus de classfcaton de ACIRD se compose de deux phases, une phase d'apprentssage et une phase expérmentale. Dans la premère phase, les documents avec leurs classes 18 manuellement assgnées dans Yam sont utlsés comme ensemble d'apprentssage pour apprendre la connassance sur la classfcaton des classes. Pus les documents nouvellement collectés, manuellement classés par catégore par les experts de Yam, sont applqués pour vérfer la connassance de classfcaton apprse en seconde phase. La connassance sur la classfcaton d'une classe est représentée par un groupe de mots-clés. L'objet correspond à un document Internet (page Web). Le terme est le mot ou l'expresson extrate à partr des objets ou généralsée dans des classes par apprentssage. Le support défnt le degré d'mportance d'un terme qu supporte un certan objet ou classe. La valeur est normalsée sur [0 1]. Pour un seul mnmum de support, les termes sont dvsés en termes représentatfs (ou mots-clés), et non représentatfs. Les termes sont applqués pour découvrr les règles d assocaton entre termes appartenant aux documents d une même classe plutôt qu à tous les documents de la base de données. Les termes correspondent aux tems. Les documents dans la classe correspondent aux transactons. La classe correspond à la base de données transactonnelle. La concentraton sur des documents d'une classe au leu de toutes les classes permet de trer proft de la pette talle de la base de données. S la talle de la base de données n'est pas très grande, un algorthme d'extracton smple, tel qu'apror [Agrawal et al., 94], peut être effcacement applqué au système. La confance et le support sont utlsés respectvement pour promouvor les termes non représentatfs afn d affner la connassance de classfcaton, et comme seul pour élmner des assocatons de termes bruyantes. Des expérmentatons ont été réalsées afn de vérfer que ACIRD peut apprendre et promouvor des termes représentatfs (mots-clés), qu se rapprochent des concepts des experts humans pour chaque classe. Le rappel et la précson des mots-clés extrats par ACIRD sont comparés aux motsclés manuellement choss par les experts. Sur les résultas rapportés, les auteurs concluent que la découverte d assocaton entre termes de documents est effcace pour l affnement de la classfcaton. 17 http : ://tawan.s.snca.edu.tw/en/yam/ 18 (Il exste 12 catégores prncpales dans la homepage de Yam correspondant chacune à une classe dstncte : :. Ce sont : : : : Arts, Humantes, Socal Scences, Socety and Culture, Natural Scences, Computer and Internet, Health, News and Informaton. Educaton. Government and State, Companes. And Entertanment and Recreaton.

199 ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI Applcaton des règles d assocaton pour l ndexaton des documents Dans le domane de la RI les modèles les plus populares d ordonnancement des documents d une collecton sont le modèle vectorel, le modèle probablste et le modèle de langue. Les dfférences entre ces modèles concernent les représentatons des documents et requêtes les schémas de pondératon et la formule d évaluaton des requêtes (d ordonnancement des documents). La concepton de schémas de pondératon effcace est une étape crtque pour l améloraton des résultats obtenus. Les melleurs schémas de pondératon sont connus sous le générque de tf*d. Ces schémas supposent que les termes sont mutuellement ndépendants. Une telle hypothèse est certes erronée. Par alleurs, l est clarement établ que la prse en compte de relatons de co-occurrences entre termes amélore l effcacté de la recherche dans les SRI. C est dans cette optque que les auteurs dans [Pôssas et al., 05] proposent un nouveau modèle de RI basé sur les termsets et les règles d assocaton. La nouveauté concerne deux aspects : D'abord, des modèles de Cooccurrence des termes sont prs en compte lors de l ndexaton des documents. Les descrpteurs du modèle ne sont plus des termes mas des ensembles de termes d'ndex (ou termsets), où un termset est un ensemble de termes d'ndex. Les termsets capturent l'ntuton que les termes sémantquement lés apparassent près l'un de l'autre dans un document. En second leu, les pods des termes sont produts en utlsant la technque de découverte des règles d assocaton. Cec mène à un nouveau mécansme d évaluaton appelé le modèle vectorel basé sur les ensembles. Les résultats expérmentaux montrent que le modèle proposé amélore la précson moyenne pour toutes les collectons et types de requêtes évaluées, tout en mantenant des coûts nformatques bas. Pour la collecton à 2-ggabyte TREC-8, le modèle a produt un gan en précson moyenne de 14,7% et de 16,4% pour les requêtes dsjonctves et conjonctves, respectvement, par rapport au modèle vectorel standard. Dans le même contexte d ndexaton des documents, une approche pour l améloraton des pods des termes des documents est proposée dans [Km et al., 04]. Partant de l hypothèse que l'utlsaton des dépendances de termes est un facteur qu affecte l'exacttude des pods des termes, les auteurs proposent d utlser les dépendances pour amélorer la performance du système de recherche. Afn de calculer les dépendances de termes, les auteurs adoptent la méthode des règles d'assocaton proposée dans [Agrawal et al., 93]. La méthode proposée est composée de deux étapes. La premère étape consste à découvrr les dépendances entre termes d un ensemble de documents en utlsant la découverte des règles d'assocaton. Les documents sont des transactons et les termes des tems. En recherchant les assocatons entre termes, seules les dépendances entre termes ndvduels sont 198

200 ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI consdérées. Dans la deuxème étape, les pods des termes de tous les documents sont ms à jour par les dépendances entre termes. L dée est que les termes sont mutuellement affectés par les autres termes dans le document consdéré. Un graphe d'assocaton (Fgure C.2) des termes est d abord construt pour chaque document. Les termes du document sont les nœuds du graphe d assocatons. Les arcs entre les nœuds du graphe dénotent les assocatons découvertes entre les termes correspondants. Les arcs sont pondérés par une valeur représentant la confance de la règle d assocaton qu le les termes représentant les deux nœuds de l arc. t C j C l C j C l t j C jl t l C lj FIGURE C.2 : Graphe d assocaton Les pods des termes dans les documents sont alors ms à jour selon la formule suvante: D : la base documentare d k : le kème document t : le ème terme de D C,j : la valeur de confance de «t t j» w,k : le ème terme de d k dl k : la talle de d k w j, k * c j, j t j d k w' k = /, dlk Chaque pods de terme est transféré à l'autre pods de terme dans une proporton égale à la valeur de la confance entre les deux termes. En conséquence, W devent le pods du terme nfluencé par d'autres termes. Ans, le pods améloré NewWeght est calculé par combnason lnéare du pods orgnal du terme consdéré et de son pods basé sur la dépendance des termes. newweght t, k = α * wt, k + β* w' t, k ( où α + β = 1)

201 ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI Dans leurs expérmentatons, les auteurs ont utlsé documents de TREC et dx topcs (65, 66, 68, 82, 83, 96, 102, 111, 134 et 135) de TREC-1 en tant que requêtes. Afn d'évaluer les pods amélorés des termes, les auteurs ont comparé les performances de recherche dans le cas d'utlsaton du pods améloré avec les performances obtenues avec les pods orgnaux, dans un SRI vectorel et dans SRI basé sur un modèle de langue, respectvement. Dans le modèle vectorel et dans le modèle de langue, les pods des termes sont respectvement calculés par le schéma tf*df et par les probabltés que ces termes se produsent dans un document. Globalement, les résultats obtenus ndquent que l'utlsaton des dépendances entre termes rend les pods des termes plus précs. Applcaton des règles d assocaton pour l expanson de requêtes Un autre aspect de la RI largement concerné par l utlsaton des règles d assocaton concerne l expanson de requêtes. La tache de formulaton d une requête effcace est dffcle dans ce sens qu elle exge de l utlsateur, n ayant aucune connassance sur la collecton de documents, de prédre les mots clés qu apparaîtrons dans les documents qu l souhate avor. L expanson de requête et la rénjecton de pertnence ont été proposées en vue de prendre en compte les relatons de smlarté entre les mots clés. L expanson de requête est basée sur l hypothèse qu un terme d ndex est un bon dscrmnant des documents pertnents et non pertnents, et qu ans tout terme d ndex qu lu est symétrquement proche est probablement un auss bon dscrmnant. Par alleurs la rénjecton de pertnence est une méthode dans laquelle les requêtes sont étendues en utlsant les mots clés obtenus à partr de l ensemble des documents résultats s ces derners sont sémantquement proches des mots-clés de la requête. Dans [Lu et al., 98], les auteurs proposent d utlser les règles d assocaton afn de découvrr les relatons de co-occurrences entre termes. Les règles d assocaton contrarement à la co-occurrence ne sont pas symétrques. Dans l approche proposée un document (une requête) est vu comme une lste de mots-clés. Une telle lste de mot-clés a le même rôle qu une transacton dans les bases de données transactonnelles. Une règle d assocaton de la forme X Y sgnfe que le document qu content tous les motsclés de X content auss tous les mots-clés dey. Les règles d assocaton sélectonnées sont celles dont le support et la confance dépassent respectvement un seul mnmum de support et un seul mnmum de confance. Lorsqu une règle d assocaton X Y est sélectonnée les mots-clés de Y sont rajoutés à la requête s X y apparaît. Une approche smlare est utlsée dans [Haddad, 02] où deux scénaros pour exploter les assocatons entre termes dans un SRI sont proposés. (1) L expanson automatque de la requête à l ade des règles d assocaton extrates. Pour chaque terme d une requête, l ensemble des assocatons relatves à ce terme 200

202 ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI (appelé son profl relatonnel) dans le corpus est ajouté dans la requête d orgne. Par exemple, la neuvème requête de INIST 19 content les termes système de scolarté. Les termes système et scolare sont assocés à d autres termes avec les règles d assocaton suvantes découvertes dans la collecton INIST : système structure système nfrastructure scolarté collège scolarté lycée Les termes structure, nfrastructure, collège et lycée sont ajoutés à la requête. La requête enrche, élogne des premères réponses le sens système de blanchment par exemple. (2) Le second scénaro concerne l expanson nteractve des requêtes (IQE). Le procédé consste d abord à lancer une requête orgnale. A partr des résultats de la requête, l utlsateur peut sélectonner des ensembles de termes ou des termes pour les ajouter à sa requête. Dans [Delgado et al., 02], les auteurs ntrodusent en plus la noton de généralsaton/spécalsaton des requêtes. Le prncpe de reformulaton des requêtes est défn comme sut : À partr d'un premer ensemble de documents recherchés pour une requête ntale, la découverte des règles d'assocaton est applquée afn de retrouver les relatons entre les termes de cet ensemble de documents. Les règles les plus précses qu ncluent les mots orgnaux de la requête dans l'antécédent et/ou le conséquent de la règle, sont utlsés pour étendre automatquement la requête en lu ajoutant ces termes ou, en présentant à l'utlsateur les termes correspondant dans ces règles, afn qu l pusse chosr les termes à rajouter à la requête orgnale. Cette suggeston des termes ade l'utlsateur à rédure l'ensemble de documents en drgeant la recherche à travers la drecton désrée. S un terme de requête apparaît dans l'antécédent d'une règle, et on consdère les termes apparassant dans le conséquent de la règle pour étendre la requête, une généralsaton de la requête est effectuée. Par conséquent, une généralsaton d'une requête nous donne une requête sur le même sujet (topc) que l'orgnale, mas recherche des nformatons plus générales. Cependant, s le terme de la requête apparaît dans le conséquent de la règle, et on reformule la requête en ajoutant les termes apparassant dans l'antécédent de la règle, alors une spécalsaton de la requête sera effectuée, et la précson du système devrat augmenter. La spécalsaton d'une requête recherche une nformaton plus spécfque que la requête orgnale mas dans le même sujet. Afn d'obtenr autant de documents que possble, les termes apparassant des deux côtés des règles peuvent également être consdérés. Une fos la requête étendue, elle est à nouveau soumse au système. 19 INIST est la collecton de l'insttut d'informatque Scentfque et technque (INIST). Cette collecton content documents en franças dans tous les domanes scentfques.

203 ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI Les auteurs dans [Bautsta et al., 04], proposent d'utlser les règles d'assocaton floues et un cadre d'évaluaton dfférent des mesures classques de confance/support pour l'améloraton des requêtes. Les avantages des règles d assocaton floues sont : - les règles floues tennent compte du degré d'mportance des termes dans la représentaton des documents. les mesures utlsées sont plus approprées pour détermner quelles règles sont utles pour cet objectf. Les auteurs ont par alleurs montré que la confance peut donner des résultats fallaceux dans certans cas. Fondamentalement, le problème avec la confance est qu'elle ne tent pas compte du support de I2 et par conséquent elle ne peut pas détecter l'ndépendance statstque c.-à-d., une valeur élevée de confance peut être obtenue dans ce cas. S l on suppose par exemple un temset IC, tel que supp(ic =1), chaque règle de la forme IA IC sera forte à condton que supp (IA) > mnsup. La mesure de certtude [Shortlde et al.,75] a été utlsée comme alternatve à la confance. Dans le cadre flou, le document est une transacton représentée par une vecteur de pods w = {w1,, wm}. Deux schémas de pondératon flous normalsés dans l'ntervalle unté sont utlsés. Il s agt de la pondératon par la fréquence et de la pondératon par tf*df. Une transacton textuelle floue est correspond alors à un document d dans lequel les termes sont assocés aux pods w = {w1,, wm} ssus d un schéma de pondératon flou. Avant qu un enrchssement de la requête pusse être applqué, un procédé de recherche est préalablement lancé sur une requête orgnale. Un ensemble des documents pertnents pour cette requête est alors obtenu. Les documents sont ensute ndexés comme en recherche documentare classque, pus leur représentaton sous forme transactonnelle est effectuée. Les transactons sont tratées pour extrare des règles d'assocaton (floues dans ce cas). Une lste de termes de certanes de ces règles est obtenue. Fnalement, l'utlsateur chost dans cette lste, les termes à ajouter à la requête. Le processus d nterrogaton du système est ensute relancé avec la requête étendue. Le chox des termes utles pour l'améloraton de la requête dépend, comme dans l approche précédente, de la présence des termes dans l antécédent et/ou dans le conséquent. Une approche dfférente est propose dans [Song et al., 07]. En effet, dans ce cas, les auteurs proposent une nouvelle technque d'expanson sémantque de requête qu combne des règles d'assocaton avec une ontologe et des technques de tratement de la langue naturelle. La technque proposée dffère des autres car (1) elle utlse la sémantque explcte auss ben que d'autres proprétés lngustques de corpus des textes non structurés, (2) elle utlse les proprétés contextuelles des termes mportants, découvertes par les règles d'assocaton, et (3) des entrées d'ontologe sont ajoutées à la queston en désambguïsant les sens des mot. Pour applquer l'extracton de règles d'assocatons à l'expanson de requête, chaque document est vu comme transacton tands que chaque mot dans le document est vu 202

204 ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI comme tem. Un ensemble de mots séparés du document consttue un wordset. Le composant de sélecton de caractérstques (d ndexaton) trate les documents en entrée pour sélectonner les termes mportants. Les mots non mportants tels que des mots fonctonnels et les mots vdes sont exclus. Une technque d'extracton des motscomposés est applquée et les expressons mportantes sont extrates. Par alleurs, un étquetage de poston, par le Brll Tagger, est opéré pour élmner les termes non mportants syntaxquement. L ensemble des termes et expressons retenus est désambguïsé en utlsant WordNet. WordNet est accédée pour trouver les entrées approprées sémantquement et syntaxquement. Le processus global de l expanson de requête basé sur l utlsaton conjonte des règles d assocaton et de l ontologe, dte approche SemanQE, est défn par les étapes suvantes : Étape 1: Commençant par un ensemble d'exemples fourn par l'utlsateur, le système retourne un échantllon de documents dans une base de documents ndexé, va un moteur de recherche. Étape 2: Chacun des documents retrouvés est ensute parsé en phrases pus ndexé dans le but d'extrare les phrases et les termes les plus mportants dans le document. Étape 3: Applquant un algorthme de hybrde d'expanson de requête qu combne des règles d'assocaton et des ontologes pour dérver des requêtes capables d'apparer et de retrouver des documents addtonnels semblables aux exemples postfs (pertnents). Étape 4 : Reformulaton de la requête sur la base des résultats de l'étape 3 et nouvelle nterrogaton du moteur de recherche pour retrouver les ensembles de résultats amélorés pertnents pour les requêtes ntales. Les auteurs ont entreprs une sére d'expérmentatons pour tester l'effcacté de la recherche basée sur l'expanson de requête ans proposée, avec des collectons de TREC. La technque dte SemanQE+Ontologe a été comparée à un certan nombre d'approches dont Okap BM25, et SemanQE sans Ontologe. Les résultats ont montré que SemanQE+Ontologe surpasse les autres technques de 8,39% à 14,22% en termes de F-mesure. En outre, en termes de P@20, la méthode de SemanQE+Ontologe est sensblement melleure que les autres technques de 13,41% à 32,39%.

205 C.4 CONCLUSION ANNEXE C. LA DECOUVERTE DE CONNAISSANCES EN RI Nous avons présenté dans cette parte les concepts de base de la découverte de connassances telles qu ntrodutes ntalement dans les bases de données, à travers notamment le concept des règles d assocaton et des algorthmes de découverte de ces règles. Nous avons dscuté ensute l applcaton de la découverte des connassances aux textes (ou text mnng). La foulle de textes a été largement utlsées en RI comme l ont prouvés la multtude de travaux que nous avons présenté. Cette technque a été en effet utlsée, en ndexaton et en partculer dans la redéfnton des pods d ndexaton, et elle s est avérée partculèrement effcace dans l expanson de requêtes. 204

206 205

207

208 AUTEUR: Fatha BOUBEKEUR-AMIROUCHE TITRE: CONTRIBUTION A LA DEFINITION DE MODELES DE RECHERCHE D'INFORMATION FLEXIBLES BASES SUR LES CP-NETS DIRECTEUR DE THESE: MOHAND BOUGHANEM / LYNDA TAMINE-LECHANI LIEU ET DATE DE SOUTENANCE: IRIT. UNIVERSITE TOULOUSE III - PAUL SABATIER. JUILLET RESUME: Ce traval de thèse trate deux prncpaux problèmes en recherche d nformaton : la pondératon des requêtes et l ndexaton sémantque des documents. Notre contrbuton globale consste en la défnton d'un modèle théorque de RI basé sur les CP-Nets. Le formalsme CP-Net est utlsé d une part, pour la représentaton graphque de requêtes flexbles exprmant des préférences qualtatves, et pour la pondératon automatque de telles requêtes. D'autre part, le formalsme CP-Net est utlsé comme langage d ndexaton graphque pour représenter les concepts descrptfs d'un document et les relatons correspondantes, d'une manère relatvement compacte. Les concepts sont dentfés par projecton du document sur WordNet. Les relatons entre concepts sont découvertes au moyen des règles d'assocaton sémantques. Un mécansme d évaluaton des requêtes basé sur l apparement de graphes CP- Nets est auss proposé. TITLE: CONTRIBUTION TO THE DEFINITION OF FLEXIBLE INFORMATION RETRIEVAL MODELS BASED ON CP-NETS ABSTRACT: Ths thess addresses two man problems n IR: automatc query weghtng and document semantc ndexng. Our global contrbuton conssts on the defnton of a theoretcal flexble nformaton retreval (IR) model based on CP-Nets. The CP-Net formalsm s used for the graphcal representaton of flexble queres expressng qualtatve preferences and for automatc weghtng of such queres. Furthermore, the CP-Net formalsm s used as an ndexng language n order to represent document representatve concepts and related relatons n a roughly compact way. Concepts are dentfed by projecton on WordNet. Concept relatons are dscovered by means of semantc assocaton rules. A query evaluaton mechansm based on CP-Nets graph smlarty s also proposed. MOTS CLES : Recherche d nformaton flexble, pondératon des requêtes, ndexaton sémantque, WordNet, Règles d assocaton, CP-Nets. DISCIPLINE ADMINISTRATIVE: INFORMATIQUE ADRESSE DU LABORATOIRE: IRIT, Unversté Paul Sabater, 118 Route de Narbonne, F TOULOUSE CEDEX 9 207

Montrer encore