Une Approche d Indexation Conceptuelle de Documents Basée sur les Graphes CP-Nets

Documents pareils
METHODE AUTOMATIQUE POUR CORRIGER LA VARIATION LINGUISTIQUE LORS DE L INTERROGATION DE DOCUMENTS XML DE STRUCTURES HETEROGENES

Les jeunes économistes

Mesure avec une règle

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

Editions ENI. Project Collection Référence Bureautique. Extrait

hal , version 1-14 Aug 2009

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

Exercices d Électrocinétique

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr

COMPARAISON DE MÉTHODES POUR LA CORRECTION

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES

Remboursement d un emprunt par annuités constantes

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Système solaire combiné Estimation des besoins énergétiques

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

En vue de l'obtention du. Présentée et soutenue par Meva DODO Le 06 novembre 2008

Dirigeant de SAS : Laisser le choix du statut social

Séparation de Sources par lissage cepstral des masques binaires

STATISTIQUE AVEC EXCEL

Généralités sur les fonctions 1ES

TD 1. Statistiques à une variable.

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

Calcul de tableaux d amortissement

1.0 Probabilité vs statistique Expérience aléatoire et espace échantillonnal Événement...2

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

INTERNET. Initiation à

Prise en compte des politiques de transport dans le choix des fournisseurs

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

Pour plus d'informations, veuillez nous contacter au ou à

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE

Grandeur physique, chiffres significatifs

Analyse des Performances et Modélisation d un Serveur Web

santé Les arrêts de travail des séniors en emploi

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

Montage émetteur commun

EURIsCO. Cahiers de recherche. Cahier n L épargne des ménages au Maroc : Une analyse macroéconomique et microéconomique.

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

Terminal numérique TM 13 raccordé aux installations Integral 33

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

Documents de travail. «La taxe Tobin : une synthèse des travaux basés sur la théorie des jeux et l économétrie» Auteurs

Professionnel de santé équipé de Médiclick!

Stéganographie Adaptative par Oracle (ASO)

GATE Groupe d Analyse et de Théorie Économique DOCUMENTS DE TRAVAIL - WORKING PAPERS W.P Préférences temporelles et recherche d emploi

GUIDE D ÉLABORATION D UN PLAN D INTERVENTION POUR LE RENOUVELLEMENT DES CONDUITES D EAU POTABLE, D ÉGOUTS ET DES CHAUSSÉES

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

Pro2030 GUIDE D UTILISATION. Français

Avez-vous vous aperçu cette drôle de trogne? Entre nature et histoire autour de Mondoubleau

Page 5 TABLE DES MATIÈRES

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

Prêt de groupe et sanction sociale Group lending and social fine

La Quantification du Risque Opérationnel des Institutions Bancaires

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

INTRODUCTION. Jean-Pierre MAGNAN Chef de la section des ouvrages en terre Département des sols et fondations Laboratoire central

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

Be inspired. Numéro Vert. Via Caracciolo Milano tel fax

VIELLE Marc. CEA-IDEI Janvier La nomenclature retenue 3. 2 Vue d ensemble du modèle 4

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

Ecole Polytechnique de Montréal C.P. 6079, succ. Centre-ville Montréal (QC), Canada H3C3A7

Réseau RRFR pour la surveillance dynamique : application en e-maintenance.

Le Prêt Efficience Fioul

CHAPITRE DEUX : FORMALISME GEOMETRIQUE

Performances de la classification par les Séparateurs à Vaste Marge (SVM): application au diagnostic vibratoire automatisé

TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE. MEMOIRE Présentée à

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

Paquets. Paquets nationaux 1. Paquets internationaux 11

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

PREMIERS PAS en REGRESSION LINEAIRE avec SAS. Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSE- UMR8174)

Comparative performance for isolated points detection operators: application on surface defects extraction

LA SURVIE DES ENTREPRISES DÉPEND-ELLE DU TERRITOIRE D'IMPLANTATION?

Interface OneNote 2013

THESE. Khalid LEKOUCH

Projet de fin d études

OPTIMALITÉ DU MÉCANISME DE RATIONNEMENT DE CRÉDIT DANS LE MODÈLE ISLAMIQUE DE FINANCEMENT

1. Les enjeux de la prévision du risque de défaut de paiement

Evaluation de performances d'ethernet commuté pour des applications temps réel

APPROXIMATION PAR RÉSEAUX À FONCTIONS RADIALES DE BASE APPLICATION À LA DÉTERMINATION DU PRIX D ACHAT D UNE

Qualité de service 7. Ordonnanceurs de paquets. Contexte. Intégration de services. Plan. Multiplexage. FIFO/DropTail. Priorités

Pourquoi LICIEL? Avec LICIEL passez à la vitesse supérieure EPROUVE TECHNICITE CONNECTE STABILITE SUIVIE COMMUNAUTE

ErP : éco-conception et étiquetage énergétique. Les solutions Vaillant. Pour dépasser la performance. La satisfaction de faire le bon choix.

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

Chapitre 1.5a Le champ électrique généré par plusieurs particules

Intégration financière et croissance économique : évidence empirique dans. la région MENA

MINISTERE DE L ECONOMIE ET DES FINANCES

Corrigé du problème de Mathématiques générales Partie I

Une analyse économique et expérimentale de la fraude à l assurance et de l audit

Surveillance temps-réel des systèmes Homme-Machine. Application à l assistance à la conduite automobile

MODÈLE D ISING À UNE ET DEUX DIMENSIONS.

Transcription:

Tz-Ouzou, Algére 439 Une Approche d Indexaton Conceptuelle de Documents Basée sur les Graphes CP-Nets Fatha Boubekeur 1, 2, Mohand Boughanem 1, Lynda Tamne-Lechan 1 1 IRIT-SIG/RFI, Unversté Paul Sabater, 31062 Toulouse, France 2 Unversté Mouloud Mammer, 15000 Tz Ouzou, Algére boubekeu@rt.fr, boughane@rt.fr, lynda.lechan@rt.fr Résumé. Ce paper décrt une approche d ndexaton conceptuelle basée sur les CP-Nets (Condtonal Preferences Networks). Nous proposons d'utlser le formalsme CP-Net comme langage d ndexaton afn de représenter les concepts et les relatons condtonnelles entre eux d'une manère relatvement compacte. Les noeuds du CP-Net sont les concepts représentatfs du contenu du document et les relatons entre ces nœuds exprment les assocatons condtonnelles qu les lent. Notre contrbuton porte sur un double aspect: d une part, nous proposons une approche d extracton des concepts en utlsant WordNet. Les concepts résultants forment les noeuds du CP-Net. D autre part, nous proposons d étendre et d utlser la technque de règles d'assocaton afn de découvrr les relatons condtonnelles entre les concepts nœuds du CP-Nets. Mots-clés: Recherche d nformaton, Indexaton conceptuelle, CP-Nets, WordNet, Règles d assocaton 1 Introducton Le but prncpal d'un système de recherche d'nformaton (SRI) est de retrouver l'nformaton pertnente pour une requête utlsateur. Requêtes et documents sont généralement exprmés par un ensemble de mots-clés (sacs de mots) smples sensés représenter au meux leurs contenus sémantques. Les termes sont automatquement extrats ou manuellement assgnés aux documents et aux requêtes. L évaluaton consste alors à apparer requête et documents pour retrouver les documents qu correspondent au meux à la requête. Une caractérstque clé de tels systèmes est que le degré d apparement de la requête et du document dépend du nombre de termes communs. Il est ben connu qu'une requête est habtuellement une descrpton vague et ncomplète du beson en nformaton de l utlsateur et les auteurs des documents utlsent un vocabulare très dversfé pour exprmer les mêmes concepts. Cec mène aux problèmes crucaux de dsparté des termes (term msmatch) et d'ambguïté en recherche d nformaton (RI). Ce paper trate ces problèmes en proposant une soluton au nveau de l'ndexaton des documents. Plus précsément, nous proposons d'utlser (1) l ontologe générale WordNet afn d dentfer les concepts représentatfs d'un document, (2) les règles d'assocaton pour découvrr des relatons

440 COSI 08 condtonnelles entre ces concepts, (3) les CP-Nets pour organser concepts et relatons en une représentaton graphque. Le formalsme CP-Net est utlsé comme langage d'ndexaton, pour deux rasons. D'abord, les CP-Nets offrent un cadre unfé pour organser de manère compacte et ntutve les concepts et les relatons qu les lent. Ensute, les CP-Nets permettent une représentaton plus rche des documents pusqu ls supportent les relatons contextuelles et sémantques entre concepts. Les concepts et les relatons assocées sont susceptbles de résoudre les problèmes de dsparté et d'ambguïté des termes et d amélorer ans les résultats de la RI. Le paper est structuré comme sut : en secton 2, nous présentons les problèmes que nous souhatons aborder, à savor la dsparté des termes et l'ambguïté en RI, ans que les travaux qu permettent d y apporter des solutons. Un résumé de notre contrbuton suvra. En secton 3, nous détallons notre approche d'ndexaton conceptuelle basée sur les CP-Nets. Une llustraton de notre approche est présentée en secton 4. La secton 5 conclut le paper. 2 Problématque La représentaton des documents et requêtes est un problème fondamental en RI. La plupart des modèles de RI classques utlsent touours la technque usuelle en sac de mots. Cette technque présente cependant deux nconvénents maeurs qu mènent à de mauvases performances du SRI: - La dsparté des termes: Les utlsateurs de SRI utlsent souvent pour décrre les concepts de leurs requêtes, des termes dfférents de ceux qu utlsent les auteurs pour décrre les mêmes concepts dans leurs documents. Ans, un document peut être pertnent même s l n utlse pas les mêmes mots que ceux de la requête. Cependant, dans les SRI classques, un document pertnent ne sera pas retrouvé en réponse à une requête s les représentatons du document et de la requête ne partagent pas au mons un terme [7]. C est ans par exemple qu un document sur la peur pourtant pertnent pour une requête sur la crante, ne sera pas retrouvé s le mot crante est absent de ce document. La dsparté des termes mplque un slence documentare. - L ambguïté: La plupart des SRI représente les documents et les requêtes par les termes qu'ls contennent. Cependant, les termes sont ambgus. Cette ambguïté est dvsée en homonyme et polyséme. L homonyme tradut la proprété qu ont certans termes à être représentés par une même chaîne de caractères, et assocés à dfférents sens. La polyséme est lée à la proprété qu ont certans termes à exprmer dfférents sens. The bark of a dog versus the bark of a tree est un exemple d homonyme, openng a door versus openng a book est un exemple de polyséme [7]. Dans les SRI classques, l'ambguïté mplque que des documents non pertnents sont retrouvés. Ans, un document qu trate de l aboement des chens (bark of dogs) sera retrouvé comme pertnent pour une requête portant sur l écorce des arbres (bark of trees) s le mot bark fgure dans le document et la requête. L ambguïté des termes mplque un brut documentare. Les SRI basés sur la technque classque en " sacs de mots " présentent ans de séreux problèmes au nveau performance du fat de leur ncapacté à trater avec l ambguïté de la langue et l mprécson sémantque des mots smples. Dans les

Tz-Ouzou, Algére 441 dernères décennes, de nombreux travaux de recherche en RI se sont orentés vers la prse en compte de la sémantque des mots dans le processus d ndexaton. Les méthodes utlsées sont sensées amélorer les performances d un SRI en termes de rappel et de précson en le rendant capable de trater avec l ambguïté des mots. Deux grandes tendances exstent : l ndexaton sémantque et l ndexaton conceptuelle. L'ndexaton sémantque se base sur des technques de désambguïsaton contextuelle des mots dans les documents et requêtes. L dée est que le sens d un mot est complètement détermné par les autres mots occurrant dans le même contexte. Yarowsky dans [11], assoce aux mots d ndex, des mots du contexte qu adent à détermner leur sens. Tands que Voorhees dans [10], en se basant sur WordNet comme outl de désambguïsaton des mots, calcule la dstance sémantque entre chaque synset (sens assocé dans WordNet) possble du mot à désambguïser avec les synsets des mots occurant dans la même phrase. Le synset qu est le plus proche des autres mots de la phrase est alors chos. L'ndexaton conceptuelle se base sur des concepts trés d'ontologes et de taxonomes pour ndexer les documents contrarement aux lstes de mots smples. Une ontologe souvent utlsée dans ce sens est l ontologe générale WordNet. Khan dans [6], utlsant la noton de concept, propose un algorthme permettant d'attacher les termes d'un texte aux concepts de l'ontologe en se basant sur la noton de régon d'ontologe et de dstance sémantque entre concepts. Une approche smlare est proposée dans [2], dans laquelle les termes d'un texte sont attachés aux concepts de Wordnet en se basant sur la noton de smlarté sémantque entre concepts. Un document est fnalement représenté par un réseau sémantque de concepts et de relatons sémantques entre eux. L'utlsaton des relatons entre termes est une ssue prometteuse pour de melleures performances de RI. Prncpalement, l utlsaton des relatons entre termes permet d amélorer le rappel du SRI, c.-à-d. le nombre de documents pertnents retrouvés. Le SRI retrouvera non seulement les documents qu contennent les mots de la requête mas également des documents contenant les mots qu sont en relaton avec les mots de la requête. Les relatons entre termes étant extrates d ontologes [6], [2], ou découvertes dans le contexte du document, au moyen de règles d'assocaton [5]. Nous proposons, dans ce paper, une approche d'ndexaton conceptuelle de documents basée sur les CP-Nets. Les nœuds du CP-Net sont des concepts. Les relatons du CP-Net tradusent des dépendances contextuelles entre concepts. Nous défnssons alors : (1) une approche d extracton des termes du document, (2) une formule de pondératon des termes tenant compte de leur sémantque, (3) une méthode de désambguïsaton des termes basée sur l'utlsaton de WordNet, (4) une approche pour découvrr les relatons contextuelles entre concepts par les règles d assocaton et (5) une approche pour combner les concepts et les relatons correspondantes dans une représentaton graphque compacte, à savor le CP-Net. 3 Approche d Indexaton Conceptuelle Basée sur les CP-Nets Nous utlsons WordNet et les règles d assocaton afn de construre le graphe CP- Net représentatf du document. Le processus d'ndexaton du document est effectué en quatre étapes prncpales. Nous les décrvons dans les paragraphes suvants.

442 COSI 08 Notons prélmnares. Le but du processus d'ndexaton est d'dentfer et d extrare les termes qu sont susceptbles de représenter le contenu sémantque du document. Les termes sont généralement représentés comme lstes de mots. La longueur d'un terme t notée t est alors défne comme le nombre de mots dans t. Un terme mono-mot consste en une lste d'un seul mot. Un mult-terme est une lste de pluseurs mots. Sot t un terme représenté comme lste de mots w, t = [ w1, w2, K, w n ]. Les éléments dans t peuvent être dentques, représentant dfférentes occurrences d'un même mot. On note w le ème mot dans t. Nous défnssons la poston du mot w dans la lste t comme sut: post ( w1 ) = 1; pos ( w+ 1 ) = post ( w ) + 1, = 1.. l. t Défnton 1. Soent L = [ w w, ], L [ y y, ] 1 1, 2, K w m 2 = 1, 2, K y n, deux lstes de mots données. L 2 est une sous lste de L 1 s la séquence de mots dans L 2 apparaît auss L sub L, p l s w L tel que p = pos et dans L 1. Formellement: 2 = ( 1, ) 1 ( w ), 0 ( l 1), w p + = y + 1. Soent t 1, t 2 deux termes donnés par les lstes de mots respectves L 1 et L 2 : t 2 est un sous-terme de t 1 s L 2 est une sous lste de L 1. t 1 est un sur-terme de t 2 t 2 est un sous-terme de t 1. Identfcaton des Termes du Document. Etant donné un document d, nous procédons dans cette étape à l extracton de l ensemble de ses termes représentatfs. Pour cela, et avant toute élmnaton de mots vdes, nous procédons à une analyse mot par mot du document d. Sot w, le prochan mot, non vde, à analyser dans d. On extrat de WordNet l ensemble S des termes C qu contennent (au sens ncluson de chaînes de caractères) le mot w. Sot donc S { C, C2,, C } = 1 K m cet ensemble. S est composé de mono et de mult-termes. On ordonne alors S comme sut : donc S = S = { C() 1, C( 2), K, C( m) } tel que ()=(1) (m), est une permutaton d ndces telle que m C() 1 C( 2) K C( ). Les termes ayant des longueurs égales sont ndfféremment placés l un à côté de l autre. Pour chaque élément C( ) de S, = 1..m, on note Pos la poston de w dans la lste de mots ( ) C ( w ) ( ) C. Sot ( ) pos la poston de d w w dans d. On appellera contexte relatf du mot w dans d par rapport au terme C ( ), la sous p = ( ) d pos w 1 C( ). On extrat alors le contexte relatf de w dans d, sot CH = sub(d, p,l) (Fgure 1), pus on compare les lstes de mots CH et C ( ). S CH C( ), le terme suvant chaîne de caractères CH = sub( d, p, l), l= C () et pos ( w ) C( +1 ) S est analysé, snon le terme t k = C( ), est dentfé. S t k recouvre totalement un ou pluseurs termes adacents le précédant (t k-1 à t, k-1), ces termes sont

Tz-Ouzou, Algére 443 élmnés de la descrpton du document. Le prochan mot de d à analyser est w, tel que pos ( w ) = p l. d + Fg. 1. Extracton du contexte relatf d un terme A l ssue de cette premère étape, nous aurons dentfé les termes t qu caractérsent le document d. En assocant chacun d eux à sa fréquence d occurrence, on obtent l ensemble T(d) = {( t 1,Occ 1 ), (t 2,Occ 2 ),, (t n,occ n ) / t d, Occ = Occ(t ) la fréquence d occurrence de t dans d, 1 n }. Pondératon des Termes d Index. La pondératon permet d assgner à chaque terme de l ndex son pods d mportance dans le document. Dans le cas des monotermes (mots smples), des varantes de tf*df sont utlsées. Le pods d un terme t dans le document d est alors exprmé par : W t,d = tf(t)*df(t), tf est la fréquence du N terme, df sa fréquence documentare nverse telle que df () t = log df () t, N étant le nombre de documents dans le corpus et df(t), fréquence documentare du terme t, le nombre de documents du corpus qu contennent t. Dans le cas des mult-termes, les approches de pondératon des termes proposées dans la lttérature s appuent en général sur une analyse statstque et/ou syntaxque. Globalement, l s agt d addtonner les fréquences de mots smples, ou multpler le nombre d'occurrences du terme par le nombre de mots smples qu l content. Bazz et al. dans [2], proposent de calculer la fréquence d un mult-terme t dans un document d, en addtonnant le nombre d occurrences du terme lu-même et le nombre d occurrences de ses sous - termes. Formellement, s sub(t ) est l ensemble de tous les sous-termes possbles t qu peuvent être dérvés de t, et long(t ) le nombre de mots dans t, alors : long( t ) tf () t = Occ() t + Occ( t ). t sub() t long () t Pour notre part, nous proposons une nouvelle approche de pondératon qu se base sur une analyse statstque et une analyse sémantque. Nous défnssons alors une varante de tf*df qu combne: (1) une mesure statstque des occurrences lexcales du terme lu-même, (2) une mesure statstque des occurrences lexcales du terme dans ses sur-termes, (3) une mesure probablste des occurrences du terme dans les sens de ses sous-termes. La formule proposée est défne comme sut : Sot T(d) l'ensemble des termes descrpteurs de d ; t, t' T(d) ; Sub (t) T(d) un sous-terme de t, et Sur (t) T(d) un sur-terme de t. On pose S(t) l'ensemble des concepts (synsets ou

444 COSI 08 sens) assocés à t dans WordNet et C un synset donné. Nous défnssons la probablté que t sot un sens possble de Sub (t) par : { ( ( )) } C S Sub t / t C (1) P(t S(Sub (t))) = S( Sub () t ) Le pods W t,d du terme t dans le document d est alors défn par: W t,d = tf(t) * df(t), tel que : W t, d = Occ( t) + Occ( Sur ( t)) + [ ( ( ) ( )] N P t S Sub ( t) Occ Sub ( t) *ln df ( t) Où : N est le nombre de documents dans le corpus, df(t) (fréquence documentare) est le nombre de documents du corpus qu contennent le terme t. L'ndex, Index(d), du document d sera construt sur la base des seuls termes dont les pods sont supéreurs à un seul fxé. Désambguïsaton des Termes. Tout terme t dans Index(d) peut avor pluseurs sens (synsets de WordNet) lu correspondant. Sot S { = C1, C2, K, Cn } l ensemble des synsets assocés au terme t. Ans, t possède S = n sens. Nous admettons que chaque terme contrbue à la représentaton du contenu de d avec seulement un sens. Ans, nous devons chosr, pour chaque t Index( d ), son melleur sens dans d. C est la désambguïsaton. Parm les dfférentes méthodes de désambguïsaton proposées dans la lttérature, nous nous sommes ntéressés à l'approche proposée dans [2] pour sa smplcté. Cette approche se base sur le calcul d un score (C_Score) pour chaque concept (ou sens) lé à un terme d'ndex. Ans, pour un terme t, le score de son ème sens, noté C est l donné par C _ Score( C ) = Dst( C, Ck ) l [ 1.. m] k [ 1.. n ] l l Où m est le nombre de termes dans Index(d), nl représente le nombre de sens de l Dst C, C est une mesure de smlarté WordNet propres à chaque terme tl et ( ) sémantque entre les concepts C et k (2) l C k telle que défne dans [9] et [8]. Le concept C qu maxmse le score est alors retenu comme melleur sens du terme t. Notre approche dffère prncpalement de celle en [2] dans la formule utlsée pour le calcul du score d un concept. En effet, nous pensons que l utlsaton de la seule smlarté sémantque entre concepts est nsuffsante pour détermner le melleur sens d'un terme car cette mesure est ndépendante du contexte (elle ne tent pas compte de la représentatvté des termes dans le contexte de document). Nous croyons que le melleur sens pour un terme t dans le document d est celu qu fortement corrélé avec les sens des termes mportants dans d. Pour cela, nous défnssons d'abord le pods

Tz-Ouzou, Algére 445 d'un concept (sens) C S, W = W C, d t, d C S comme pods du terme correspondant t : Nous proposons alors de calculer le score comme sut: Score C ( ) = [,.., m] l 1 1 k nl l W l ( C C ) l C, d WC, d Dst k, Le concept C m S tel que Score (C m ) = max (Score (C )) sera retenu comme melleur sens du terme t dans d. L ensemble des concepts retenus consttuera le noyau sémantque N(d) du document d. Représentaton CP-Net d un Document. Le but de cette étape est de construre l ndex conceptuel CP-Net. Les CP-Nets ont été ntroduts dans [4] comme outl de représentaton compacte des relatons de dépendances préférentelles condtonnelles entre des varables (caractérstques) données. Nous proposons d'utlser le formalsme CP-Net comme langage d'ndexaton, d une part car les CP-Nets supportent naturellement les dépendances contextuelles, d autre part les CP-Nets permettent une représentaton compacte des relatons sémantques et contextuelles entre concepts, dans un formalsme graphque unfé. Dans ce qu sut, nous décrvons le processus de constructon des noeuds et des relatons du CP-Net. Les Noeuds du CP-Net. Sot N ( d ) { C, C2,, } 1 K C n k (3) = le noyau sémantque du document d. Notre approche pour construre les noeuds du CP-Net est basée sur les prncpes suvants : - Les noeuds du CP-Net sont des varables attachées aux concepts C du noyau sémantque du document d. Dans ce qu sut, nous désgnerons une varable noeud du CP-Net par le concept correspondant. - Chaque varable C prend des valeurs dans l'ensemble Dom ( C ) = { C1, C2, C3,... }. - Chaque valeur dans Dom(C ) est un concept C N( d ) tel que C est un C (est-un défnt la relaton de subsumpton de WordNet). A l ssue de cette étape, nous aurons construt l ensemble η(d) = {(C, Dom(C )}, on notera plus smplement η(d) = {(X, Dom (X))}, des nœuds du CP-Net document. Les Relatons du CP-Net. Nous proposons d'utlser les règles d'assocaton pour découvrr les relatons contextuelles latentes entre les concepts noeuds du CP-Net. Les règles d assocaton furent ntalement ntrodutes dans [1], dans le but de générer les assocatons sgnfcatves entre ensembles d tems dans une base de données transactonnelle. Elles ont été utlsées en RI pour découvrr des relatons sgnfcatves entre termes d ndexaton [5]. Dans notre contexte, les règles d assocaton sont utlsées pour découvrr les relatons sgnfcatves entre concepts représentatfs du contenu d un document. Le formalsme des règles d'assocaton est alors étendu pour supporter les assocatons entre concepts. Le modèle formel est défn dans ce qu sut : sot η(d) = {(X, Dom(X))} l ensemble des concepts nœuds du X, Y η d. CP-Net document. ( )

446 COSI 08 Défnton 2. Une règle d'assocaton sémantque entre les concepts X et Y, notée X Y, est défne comme sut : sem ( X ) Y Dom ( Y ) X Y X sem Y X Dom, /, tel que X Y est une assocaton entre les termes X et Y. La sgnfcaton ntutve de la règle X sem Y est que s un document porte sur (s about) le concept X, l tend également à porter sur le concept Y. L aboutness du document exprme le focus de son contenu. Cette nterprétaton s applquant auss à la règle X Y. Ans, la règle R : X Y exprme la probablté que le document sot autour de Y sachant qu l est autour de X. La confance assocée à R se rapporte alors au degré d mportance de Y dans le document d, sachant le degré d mportance de X dans d. Elle est formellement défne dans ce qu sut. Défnton 3. La confance de la règle Confance ( R) Support = Support R : X Y est formellement donnée par: ( X Y ) ( X ) mn = ( W W ) X, d, Défnton 4. La confance de la règle d assocaton sémantque Rsem : X sem Y est défne comme sut: Confance( X ) sem Y = max Confance R : X X, ( ) ( ) X Dom X, Y Dom Y Remarque. Confance ( X Y ) sem est touours égale 1. Dans notre contexte, le support de la règle d assocaton sémantque X sem Y se rapporte à la proporton de règles d assocatons Y X Dom X et X ( ( ) Y Dom( Y ), qu ont une confance supéreure ou égale à un seul mnmal de W X, d Y, d confance mnconf=1. Le support est formellement défn dans ce qu sut. Défnton 5. Le support de la règle R : X Y est donné par: Support ( R) = sem { X Y / Confance( X Y ) mn conf } { X Y, ( X, Y ) Dom( X ) Dom( Y )} Nous proposons de découvrr les relatons entre concepts de η(d) au moyen de règles d'assocaton sémantques. Les règles d'assocaton sémantques sont basées, dans notre contexte, sur les prncpes suvants: (1) une transacton est un document, (2) les tems sont les valeurs des concepts noeuds du CP-Net (3) un temset est un concept représentant un nœud du CP-Net, (4) une règle d assocaton X Y défnt dans le CP-Net, un arc orenté du noeud X vers le sem

Tz-Ouzou, Algére 447 noeud Y. En utlsant les règles d'assocaton, nous vsons la constructon d une structure hérarchque condtonnelle du focus du contenu de document. C'est-à-dre que nous vsons à structurer des concepts décrvant le document, dans une hérarche condtonnelle correspondant à la sémantque des règles d assocaton extrates. Le problème de découverte des règles d'assocaton entre les concepts est dvsé en deux étapes, suvant le prncpe de l'algorthme A-pror (ntrodut en [1]). D abord dentfer les 1-temsets fréquents, correspondant à des concepts fréquents. Un concept fréquent est dans notre contexte, un concept qu a un pods plus grand qu'un seul mnmum fxé. Ensute, extrare les règles d assocatons entre les temsets fréquents. L'obectf est de ne garder que les seules règles qu ont un support et une confance supéreurs à un seul mnmal de support mnsup et un seul mnmal de confance mnconf respectvement. Des problèmes peuvent surgr lors de la découverte des règles d'assocaton, tels que les redondances et les cycles. Les règles redondantes découlent généralement des proprétés transtves : X sem Y, Y sem Z et X sem Z. Pour élmner la redondance, nous proposons de construre la couverture mnmale de l'ensemble de règles extrates (l s agt de l ensemble mnmal de règles d assocaton non transtves). L'exstence des cycles dans le graphe est due à la découverte smultanée des règles d'assocaton X sem Y et Y sem X, ou des règles d'assocaton telles que X sem Y, Y sem Z et Z sem X. Pour résoudre ce problème, nous élmnons la règle de plus fable support parm celles qu ont condut au cycle. Dans le cas de support égal, nous élmnons aléatorement une règle dans le cycle. Une fos le CP-Net construt, les noeuds du CP- Net sont annotés par une table ncondtonnelle notée CPT(Y) dont les valeurs défnssent les pods (ncondtonnels) d mportance des termes dans le document correspondant : ( X ), CPT ( X ) = W X d (4) X Dom, 4 Illustraton Sot d ((Toulouse, 0.9), (Pars, 0.5), (Center, 0.1), (Studo, 0.4), (Suburbs, 0.7)...) un document décrt par les concepts pondérés donnés. Toulouse et Pars appartennent au domane de valeurs du concept noeud Cty. De même, Center et Suburbs appartennent au domane du concept nœud Place, tands que Studo est assocé au concept noeud Housng. Ans η(d) = {(Cty, Dom (Cty)), (Place, Dom(Place)), (Housng, Dom(Housng))}/ Dom(Cty) ={Toulouse, Pars}, Dom(Place) = {Suburbs, Center}, Dom(Housng) = {Studo}. Nous vsons à découvrr des assocatons entre les noeuds Cty, Housng, et Place. L applcaton de l'algorthme Apror mène à: (1) l extracton des temsets fréquents, et (2) la génératon des règles d'assocaton entre les 1-temsets fréquents. Nous nous ntéressons aux relatons entre les concepts ndvduels dans le document (plutôt qu'entre les ensembles de concepts), ans nous calculons seulement les k- temsets pour k = 1, 2. En supposant un seul mnmum de support mnsup = 0.1, les k-temsets (k = 1, 2) fréquent extrats sont donnés en Table 1. Support(Center) <

448 COSI 08 mnsup, ans le 1-temset Center n'est pas fréquent, l est alors élmné. Les règles d'assocaton extrates sont données en Table 2. Table 1. Gératon des k-temsets fréquents 1-temset fréquent 2-temsets fréquents Itemset Support Toulouse 0.9 Pars 0.5 Center 0.1 Suburbs 0.7 Studo 0.4 Toulouse, Studo 0.4 Toulouse, Suburbs 0.7 Pars, Studo 0.4 Pars, Suburbs 0.5 Studo, Suburbs 0.4 Table 2. Les règles d assocaton découvertes R 1 : Toulouse Studo R 3 : Toulouse Suburbs R 5 : Pars Studo R 7 : Pars Suburbs R 9 : Studo Suburbs R 2 : Studo Toulouse R 4 : Suburbs Toulouse R 6 : Studo Pars R 8 : Suburbs Pars R 10 : Suburbs Studo En applquant la formule donnée en défnton 3, les confances des règles produtes sont calculées condusant aux résultats de la Table 3. Table 3. Confances des règles d assocaton générées R R 1 R 3 R 5 R 7 R 9 Confance(R ) 0.57 0.77 0.8 1 1 R 2 R 4 R 6 R 8 R 10 1 1 1 0.71 0.57 S nous supposons un seul de confance mnmal mnconf =1, nous retenons seulement les règles dont la confance est supéreure ou égale à mnconf. Les règles ans sélectonnées sont données en Table 4. Ces règles sont d abord utlsées pour construre les règles d assocaton sémantques qu correspondent aux relatons entre les noeuds du CP-Net. Ans, on dédut : - de R 2 : Studo Toulouse et R 6 : Studo Pars: Housng sem Cty - de R 4 : Suburbs Toulouse : Place sem Cty - de R 7 : Pars Suburbs : Cty sem Place - de R 9 : Studo Suburbs : Housng sem Place

Tz-Ouzou, Algére 449 Nous calculons alors le support de chaque règle sémantque. Les résultats sont donnés en Table 5. Table 4. Règles d assocaton sélectonnées R 2 : Studo Toulouse R 4 : Suburbs Toulouse R 6 : Studo Pars R 7 : Pars Suburbs R 9 : Studo Suburbs Table 5. Supports des règles d assocaton sémantques Housng sem Cty 1 Place sem Cty 0.5 Ct y sem Place 0.5 Housng sem Place 1 Nous retenons évdemment les règles Housng sem Cty et Housng sem Place dont le support égale 1. Deux assocatons exstent entre les concepts Cty et Place avec un même support. Nous gardons aléatorement l une des deux règles correspondantes. Supposons Place sem Cty est retenue. Il est clar que retenr les tros règles ans obtenues mènerat à un cycle dans le graphe CP-Net. Pour évter cec, nous élmnons la règle la plus fable (C est à dre possédant le plus pett support), sot Place sem Cty. En concluson, les seules règles sémantques sélectonnées sont les suvantes: Housng sem Cty et Housng sem Place. Les tables CPT sont alors assocées aux nœuds correspondants, en utlsant la formule (4), ce qu mène au CP-Net document donné en Fgure 2. Fg. 2. Le CP-Net document 5 Concluson Nous avons présenté dans ce paper, une approche d ndexaton conceptuelle basée sur les CP-Nets. Le formalsme CP-Net supporte naturellement concepts et assocatons contextuelles entre concepts, permettant ans une représentaton plus rche et plus précse des documents. Cec est susceptble de résoudre les problèmes de dsparté et d'ambguïté des termes en RI. En vue de paller ces problèmes, nous

450 COSI 08 avons tenté de présenter des défntons formelles de contexte de terme, de conceptnoeud, de relaton entre concepts-noeuds, et de règles d'assocaton sémantques. Nous avons également présenté des technques en vue d une ndexaton conceptuelle graphque des documents. Notre contrbuton porte sur deux aspects prncpaux. Le premer consste en l ndexaton conceptuelle basée sur l'ontologe WordNet. L'approche n'est certes pas nouvelle mas nous avons proposé de nouvelles technques pour dentfer, pondérer et désambguïser les termes. Le deuxème aspect de notre contrbuton consste en une nouvelle approche d'organsaton et de représentaton de l ndex conceptuel d un document, en un graphe compact basé sur le formalsme CP- Net. Pour découvrr les assocatons entre concepts nous avons proposé une varante des règles d'assocaton à savor les règles d assocaton sémantques. Les règles d'assocaton sémantques entre concepts permettent la découverte de relatons dépendantes du contexte mplquant une représentaton plus expressve du document. En perspectve, nous proetons de valder emprquement notre approche sur une collecton de test de RI. Références 1. Agrawal R., Imelnsk T., Swam A. : «Mnng assocaton rules between sets of tems n large databases», In Proceedngs of the ACMSIGMOd Conference on Management of data, Washngton, USA, ACM Press, 1993, (p. 207 216). 2. Bazz M., Boughanem M., Aussenac-Glles N. : «The Use of Ontology for Semantc Representaton of documents», In The 2nd Semantc Web and Informaton Retreval workshop(swir), SIGIR 2004, Sheffeld UK., Yng dng, Keth van Rsbergen, Iad Ouns, Joemon Jose (Eds.), 2004, (p. 38-45). 3. Boubekeur F., Boughanem M., Tamne L. : «Towards Flexble Informaton Retreval Based on CP-Nets». Dans : Flexble Query Answerng (FQAS), Mlan, Itale, 07/01/06-10/06/06, Henrk Legnd Larsen, Gabrella Pas, Danel Ortz-Arroyo (Eds.), World Scentfc Publshng, Advances n Artfcal Intellgence, p. 222-231, un 2006. 4. Boutler C., Brafman R., Hoos H., Poole D. : «Reasonng wth Condtonal Ceters Parbus Preference Statements», In Proceedngs of UAI-1999, (p.71 80). 5. Haddad M.H. : Extracton et Impact des connassances sur les performances des Systèmes de Recherche d'informaton, Thèse de Doctorat en Informatque de L'Unversté Joseph Fourer, Grenoble, 2002. 6. Khan L.R: Ontologe-based Informaton Selecton, Phd Thess, Faculty of the Graduate School, Unversty of Southern Calforna, 2000. 7. Krovetz R.: «Homonomy and Polysemy n Informaton Retreval», In the Proceedngs of the COLING/ACL '97 conference. 8. Ln D.: «An nformaton-theoretc defnton of smlarty», In Proceedngs of 15th Internatonal Conference On Machne Learnng, 1998. 9. Resnk P. : «Semantc Smlarty n a Taxonomy: An Informaton-Based Measure and ts Applcaton to Problems of Ambguty n Natural Language», Journal of Artfcal Intellgence Research (JAIR), 11, 1999, (p. 95-130). 10. Voorhees E.M.: «Usng WordNet to dsambguate Word Senses for Text Retreval», In Proceedngs of the 16thAnnual Conference on Research and development n Informaton Retreval, SIGIR'93, Pttsburgh, PA, 1993. 11. Yarowsky D. : «Unsupervsed word sense dsambguaton rvalng supervsed methods», In 33rd Annual Meetng, Assocaton for Computatonal Lngustcs, Cambrdge, Massachusetts, USA, 1995, (p189-196).