METHODE AUTOMATIQUE POUR CORRIGER LA VARIATION LINGUISTIQUE LORS DE L INTERROGATION DE DOCUMENTS XML DE STRUCTURES HETEROGENES Ourda Boudghaghen(*),Mohand Boughanem(**) yugo_doudou@yahoo.fr, bougha@rt.fr (*)Unversté M hamed Bougara-Boumerdes, 26 rue le la gare 06200, Algére (**)Unversté Paul Sabater, IRIT-SIG-RI, 118 Route de Narbonne, 31062 Toulouse Cedex 9, France. Mots clés : XML, structure hétérogène, varaton lngustque, recherche d nformaton, ontologe. Key words: XML, heterogeneous structures, lngustc varaton, Informaton Retreval ontology Palabras clave : XML, las estructuras heterogéneas, la varacón lngüístca, la Recuperacón de nformacón, la ontología Résumé Dans cet artcle, nous abordons la problématque de l nterrogaton de corpus de documents XML de structures hétérogènes. En effet, vu la lberté qu offre XML lors de la concepton des DTD (Document Type Defnton), des documents se rapportant au même domane comportent des balses pouvant être dfférentes d une structure à l autre. Cette hétérogénété peut se déclner aux nveaux de dfférence morphologque entre des balses sémantquement dentques et/ou de dfférence dans leur agencement dans les sources dsparates des documents. De plus, les langages actuels d nterrogaton des documents XML, ben qu ls soent très pussants pour la recherche du contenu des documents en se basant sur la structure, ls ne reflètent que cette dernère et ne permettent pas ans des requêtes sémantques. Nous nous sommes ntéressés en partculer, au problème de la varaton lngustque entre les noms des balses. Nous proposons donc une méthode permettant de reméder à ce problème en procédant au regroupement automatque des balses sémantquement proches dans la même classe. Ce regroupement est effectué en se basant sur les relatons sémantques fournes par une ressource lngustque. Ans, lors de la phase d nterrogaton, chaque balse de la requête est alors étendue par ajout de synonymes de la classe assocée.
1 Introducton Aujourd hu, XML est largement accepté comme format standard pour le partage et l échange de données dans dvers domanes comme les BDs, le Web, les ntranets, XML dot prncpalement son succès à sa flexblté : toute personne peut écrre une DTD (Document Type Defnton) pour défnr la structure de ses documents sous le format XML. Une structure qu représente les nformatons dans la forme que la personne désre. Cependant, cette lberté de concepton de DTD condut de fat à l élaboraton de structures décrvant souvent les mêmes éléments mas avec des noms de balses dfférents et/ou agencés dfféremment. Cec cause de réels problèmes au nveau du stockage, de l ntégraton et de l nterrogaton de données dans ces larges collectons de documents hétérogènes. La problématque engendrée par ce type de document dans le domane de la recherche d nformaton, est lée à la nature de leur contenu. En effet, comme ces documents comportent de l'nformaton (du texte) et des contrantes structurelles (des balses), ls ne peuvent pas être effcacement explotés par les technques classques de RI, qu consdèrent le document comme un granule d'nformaton ndvsble. Or, dans un document XML toute parte du document peut être consdérée comme réponse potentelle à la requête de l utlsateur. La parte concernée peut être spécfée drectement dans la requête de l utlsateur ou calculée automatquement par le système de RIS. Les requêtes dans les systèmes de RIS peuvent en effet avor deux formes : une forme «contenu seulement», la requête est dans ce cas composée que de mots clés et une forme combnant la structure et le contenu. Dans le cas où les documents ont des structures hétérogènes l écrture d une requête de type contenu et structure devent très dffcle, car d une part, l utlsateur ne connaît pas forcément toutes les structures des documents et d autre part l n est pas possble d exprmer la noton de synonyme structurelle dans aucun langage exstant aujourd hu. Comme l n exste aucun standard unversel pour la représentaton des données arbtrares sous XML, l hétérogénété des structures des documents est névtable. Or, cette hétérogénété de structures peut être seulement lée à des nformatons sémantquement smlares mas codées dans des structures XML très varées : - Varaton lngustque, c est-à-dre utlsaton de dfférents noms de balses pour désgner un même concept dans les dverses sources d nformaton. - Varaton de la structuraton (ou hérarchsaton) des balses, c'est-à-dre dfférence de leur agencement et leur nombre dans les dverses sources d nformaton. La problématque consdérée c, est donc comment surpasser ces dfférences? Par quel procédé est-l possble de réconcler d une façon automatque ces documents, pour permettre une nterrogaton smplfée et une recherche effcace aboutssant à des résultats couvrant tous les documents.
C est dans la perspectve de s affranchr de ces structures hétérogènes que se stuent nos travaux [1]. Notre objectf est de construre un moyen permettant de manpuler les structures «smlares» de manère transparente. Nous nous sommes ntéressés en partculer à résoudre la problématque de la varaton lngustque. Pour cela, nous proposons une méthode permettant le matchng de balses morphologquement dfférentes mas qu désgnent le même concept. L dée est d exploter la sémantque portée par les balses XML et les relatons pouvant exster entre ces balses pour fare correspondre les condtons de structure exprmées dans les requêtes avec tous les éléments présents dans la collecton. La soluton que nous proposons se base sur la constructon et l utlsaton lors de l nterrogaton d un dctonnare regroupant les balses sémantquement équvalentes en utlsant une ressource lngustque, c en l occurrence WordNet [2]. De façon générale, comme l llustre la fgure 1, l approche que nous avons mse au pont comprend tros étapes prncpales, qu sont comme sut : (1) : La premère étape correspond à l extracton des concepts canddats pour chaque balse d une DTD par une projecton sur l ontologe. (2) : Dans cette étape, l s agt d un tratement de désambguïsaton qu permettra, sur la base d un calcul de la proxmté sémantque entre concepts, de chosr les concepts adéquats aux sens des balses telles qu elles sont utlsées dans les documents de la collecton. (3) : La dernère étape, consste en la constructon d un dctonnare des synonymes. Cela se fat en défnssant une entrée pour chaque concept retenu dans l étape précédente et où sera sauvegardée de plus, la lste des balses qu lu correspond dans la collecton. Le reste de ce paper présente en détal notre approche. La secton 2 présente d abord le modèle de représentaton des documents sur lequel se base notre approche pour détermner rapdement les relatons ancêtres-descendants. La secton 3 présente la phase de projecton sur l ontologe. La secton 4 présente la phase de désambguïsaton. La secton 5 présente la dernère phase qu consste en la constructon du dctonnare des balses synonymes. La secton 6 présente un exemple montrant le ben fondé de l approche.
Désambguïsaton Ontologe (1) Balses XML B 1 B 2... B n Projecton Détecton des concepts B 1 {c 11,, c 1n } B 2 {c 21,, c 2m } B k {c k1,, ck n } Balses XML avec les concepts canddats Calcul de smlarté (3) Constructon du Dctonnare des Synonymes B, sens 1<>B j, sens 1= 4 B, sens 1<>B j, sens 2 = 3 B n, sens k<>b m, sens l = 4 (2) Sélecton des concepts Fgure 1 : Schéma général de l approche.
2 Modèle de représentaton de la structure des documents Les documents XML possèdent des structures arborescentes décrtes par des DTD. On explotera cette structure pour représenter chaque DTD de la collecton sous forme d arbre. Une DTD sera donc représentée par un arbre (ds), défn par les ensembles N, A et L : ds = (N, A, L). Avec N = {n 1, n 2,...} l ensemble des nœuds éléments, A = {a 1, a 2,...} l ensemble des attrbuts et L est un ensemble d arcs orentés. Un arc orenté est une pare (u, v) formée de deux éléments des ensembles N ou A tels que : u est parent de v chaque n N appartent au mons une fos à L en tant que premer composant d une pare formant un arc. chaque n N, a A excepté le nœud racne appartent une et une seule fos à L en tant que second composant d une pare formant un arc. Les nœuds sont ans relés entre eux par des arcs qu forment les relatons parent/enfant. Tous les noeuds excepté le noeud racne ont exactement un nœud parent. De cette façon, l sera facle de détermner rapdement les relatons de hérarche entre les balses de la même DTD. Dans la sute, on désgnera par une balse un nom d un élément (qu l sot composé ou smple) ou d un attrbut XML. Pour chaque balse on dsposera des nformatons sur sa balse mère et éventuellement ses balses flles et/ou attrbuts. 3 Projecton sur l ontologe Toutes les balses XML dentfées dans la collecton sont projetées sur l ontologe pour obtenr les concepts auxquels elles sont assocées. Les nomnatons des balses sont généralement sous forme de noms ou d abrévaton de noms. Pour les balses abrégées, l faudra d abord nterroger un dctonnare des abrévatons pour avor les noms approprés. Cependant, comme chaque nom de balse peut avor pluseurs sens, et ans correspondre à pluseurs synsets (ou concepts) de l ontologe, des mesures de smlarté entre les dfférents sens des noms, sont calculées en vue de sélectonner, pour chaque balse, le melleur sens correspondant dans l ontologe. La mesure de smlarté entre deux noeuds représente une valeur condensée résultant de la comparason de deux sens possbles pour deux termes (donc deux concepts canddats) en utlsant la dstance entre les postons des deux concepts canddats dans l'ontologe ou encore les relatons sémantques de l ontologe. Cette valeur n a pas de sens précs mas exprme le degré du len entre les deux concepts canddats. Nous l explctons dans la secton suvante.
4 Le tratement de désambguïsaton Se déroule en deux phases : 1) Calcul de la smlarté entre concepts L ontologe n offre pas une quantfcaton des lens sémantques entre les dfférents concepts qu elle défnt. Pour cela, dverses mesures permettant de calculer la valeur de la proxmté sémantque entre concepts sont proposées dans la lttérature. On peut dstnguer : 1. Les mesures se basant sur le chemn (Path based measures) entre deux concepts à comparer, telles que défnes par exemple dans [3] [4] [5]. 2. Les mesures se basant sur la noton de contenu d nformaton (Informaton Content IC), telles que défnes dans [6]. 3. Les mesures se basant sur une combnason du chemn et du contenu d'nformaton [7] ou sur l'algorthme de Lesk adapté à WordNet dans [8]. Nous décrrons la mesure de Lesk adaptée à WordNet dans [8]. Elle représente le nombre de mots communs entre deux concepts. Formellement elle est décrte comme sut : étant donné un ensemble de relatons R = {R 1, R 2,., R n } et deux mots b et b j auxquels sont affectés deux sens S α et S j β. La smlarté sémantque entre S α et S j β, notée : Sm (S α, S j β ) est défnt comme sut : Sm j ( S, S ) Rk ( S ) l, k 1,..., n R ( S l j ) Les relatons dépendent de l ontologe utlsée. Dans le cas de WordNet, on trouve par exemple : les relatons de synonyme, d hypéronyme, d hyponyme, de méronyme et d holonyme plus les relatons de glossare et les relatons de domanes, L utlsaton de ce nombre relatvement élevé de relatons a pour but de couvrr au maxmum les dfférents types de lens que deux concepts peuvent partager.
De plus, l faudra dentfer le contexte de chaque balse qu servra pour le chox du sens qu lu sot le plus appropré. Une premère dée, serat de consdérer le cotexte formé de toutes les balses de la DTD à laquelle elle appartent, donc on pourra penser à évaluer la proxmté sémantque avec chacun des concepts relatfs à ces balses. Une autre façon est de consdérer le contexte local d une balse en se restregnant à l ensemble formé de sa balse mère et éventuellement la lste de ses balses flles et attrbuts. Dans ce cas, l suffra de calculer la proxmté sémantque avec les concepts relatfs à ce seul ensemble. 2) Sélecton des concepts A cette étape, nous connassons pour chaque balse son sens représenté par l ensemble des concepts assocés (les synsets de WordNet), noté : S = {S 1, S 2,, Sn }, ans que les valeurs de sa proxmté sémantque calculées avec les balses du même contexte. Il reste unquement à chosr pour chaque balse le melleur concept parm tous les sens canddats extrats de l ontologe. Le prncpe de la désambguïsaton consste à supposer que, parm les dfférents concepts canddats (sens) pour une balse donnée, le plus adéquat (vrasemblable) est celu qu a le plus de lens avec les autres concepts du même contexte qu elle. En généralsant cette règle à toutes les balses, on se retrouve avec des balses qu se désambguïsent mutuellement et de manère globale par rapport au contexte de chaque DTD. Pour formalser cette dée, on affecte à chaque concept canddat (ou sens d'une balse) un score (C_score). Le score d un concept canddat est égal à la somme des valeurs de smlarté qu'l a obtenu avec les autres concepts canddats des balses de son contexte sauf ceux qu sont dans le même ensemble de sens que le sen : pour une balse b, le score de son k ème sens est alors calculé comme sut : j C _ score( S ) Sm( S, S ) (*) k j [1.. m], j l [1.. n] k l Où m représente le nombre des balses formant le contexte d une balse et n le nombre de sens qu est propre à chaque balse b. Le melleur concept (synset) S retenu est celu qu représente au meux le sens de la balse b. C est celu qu maxmse C_score : S Best _ score( b ) ArgMax k 1.. n C _ score( S Le concept ans sélectonné, représentera une entrée dans le dctonnare des synonymes qu sera construt dans l étape suvante. k )
5 Constructon du dctonnare des concepts La dernère étape de l approche concerne la constructon du dctonnare des concepts. Pour chaque concept sélectonné à l ssue de la phase de désambguïsaton, on lu crée une entrée dans le dctonnare des balses synonymes. On lu assoce de plus, la lste des balses le référençant dans la collecton. Pour chaque balse, on gardera une référence vers son concept. Ans, pour chaque requête d un utlsateur contenant des condtons de structure formulées dans les termes d une quelconque DTD de la collecton, l sera possble de chercher pour chaque balse qu y fgure, le concept correspondant dans le dctonnare et d dentfer la lste des balses synonymes pour étendre la requête aux autres documents de la collecton qu suvent d autres DTD et les nclure dans la recherche. 6 Un exemple Nous llustrons les étapes précédentes en les applquant sur deux smples DTD (représentées dans la fgure c-dessous sous forme d arbres) : Papers DTD1 Wrters DTD2 Paper+ Wrter+ Author Headng [1..10] Name Wrter s name Ttle Artcle+ Fgure 2 : Deux DTD dfférentes décrvant le même domane.
En premer leu, toutes les balses contenues dans les documents (représentés c par les DTD), sont extrates et projetées sur l ontologe WordNet pour avor leurs sens. Vu la polyséme des sens, les noms de balses se voent attrbuer pluseurs synsets, par exemple la balse "name" possède 6 sens, la balse "paper" 7 sens, etc. (comme le montre la fgure 3 suvante). The noun name has 6 senses (frst 6 from tagged texts) 1. (698) name -- (a language unt by whch a person or thng s known; "hs name really s George Washngton"; "those are two names for the same thng") 2. (44) name -- (by the sancton or authorty of; "halt n the name of the law") 3. (26) name -- (a person's reputaton; "he wanted to protect hs good name") 4. (15) name, fgure, publc fgure -- (a well-known or notable person; "they studed all the great names n the hstory of France"; "she s an mportant fgure n modern musc") 5. (6) name, gens -- (famly based on male descent; "he had no sons and there was no one to carry on hs name") 6. (2) name, epthet -- (a defamatory or abusve word or phrase) The noun paper has 7 senses (frst 6 from tagged texts) 1. (31) paper -- (a materal made of cellulose pulp derved manly from wood or rags or certan grasses) 2. (21) composton, paper, report, theme -- (an essay (especally one wrtten as an assgnment); "he got an A on hs composton") 3. (12) newspaper, paper -- (a daly or weekly publcaton on folded sheets; contans news and artcles and advertsements; "he read hs newspaper at breakfast") 4. (5) paper -- (a scholarly artcle descrbng the results of observatons or statng hypotheses; "he has wrtten many scentfc papers") 5. (4) paper -- (medum for wrtten communcaton; "the noton of an offce runnng wthout paper s absurd") 6. (2) newspaper, paper, newspaper publsher -- (a busness frm that publshes newspapers; "Murdoch owns many newspapers") 7. newspaper, paper -- (the physcal object that s the product of a newspaper publsher; "when t began to ran he covered hs head wth a newspaper") Fgure 3 : Les dfférents sens que peut avor un mot comme "name" ou "paper". En second leu, les smlartés sémantques sont calculées entre tous les concepts canddats, c est-à-dre : les sens possbles des balses dentfées précédemment, en utlsant les dfférentes mesures de smlarté sémantque. Ic, et en guse d llustraton, nous avons utlsé la mesure de Lesk décrte dans (la secton 4) avec les relatons de synonyme et de glossare. Par exemple, (comme on le vot dans la fgure 4), la premère lgne de la deuxème colonne veut dre que la smlarté entre le sens1 du nom "headng" et le sens4 du nom "paper" est égale à 4.
author#n#1 <> name#n#1=3 paper#n#4<>headng#n#1=4 author#n#1 <> name#n#3=1 paper#n#4<>headng#n#3=0 author#n#2 <> name#n#1=1 paper#n#5<>headng#n#1=1 author#n#2 <> name#n#3=1 paper#n#5<>headng#n#3=0 ttle#n#1 <> artcle#n#1=3 wrter #n#1<> artcle #n#1=4 ttle#n#1<> artcle#n#4=0 wrter #n#1<> artcle #n#4=0 ttle#n#6 <> artcle#n#1=0 wrter #n#2<> artcle #n#1=1 ttle#n#6 <> artcle#n#4=0 wrter #n#2<> artcle #n#4=0 Fgure 4 : la smlarté calculée entre les concepts. Pus, vent l étape de sélecton du concept qu représente au meux le sens d une balse. Pour chaque concept canddat, son sens ayant le plus grand score cumulé calculé avec la formule (*), est retenu comme le concept appropré. Les résultats pour notre exemple sont llustrés c-dessous : name#n#1=16 paper#n#4= 25 artcle#n#1=22 headng#n#1=17 ttle#n#1= 20 wrter #n#1=30 author#n#1=32 wrter s name #n#1=19 Fgure 5 : Le melleur score cumulé des concepts retenus. Par exemple pour la balse "artcle" possédant 4 sens, le sens1 qu est sélectonné, correspond effectvement au sens appropré dans le contexte de la DTD à laquelle elle appartent. De même pour toutes les autres balses.
Enfn, on crée pour chaque concept retenu une entrée dans le dctonnare des balses où on gardera une lste de ses balses synonymes. Par exemple la balse "author" est dentfée comme synonyme de la balse "wrter", elles correspondent au même concept de l ontologe, à savor "wrter#n#1", elles seront nsérées dans la lste de ses synonymes. On fera de même pour toutes les autres balses, on obtendra à la fn de cette opératon l ensemble des classes suvantes : 1 Name#n #1 Name Wrters name 3 Artcle# n#1 Artcle Paper 2 Wrter# n#1 Wrter Author 4 Headng# n#1 Headng Ttle Fgure 6 : Ensemble des concepts nsérés dans le dctonnare des synonymes. Ans, un utlsateur pourra utlser l un ou l autre vocabulare des DTD pour formuler ses requêtes, l suffra de garder un ponteur pour chaque balse vers son concept dans le dctonnare, et le système se chargera d aller chercher ses éventuels synonymes dans le dctonnare, pour lancer une recherche dans les termes des autres DTD. 7 Bblographe [1] Ourda Boudghaghen, Prse en compte de l hétérogénété structurelle en recherche d nformaton sem-structurée, mémore de magster de l unversté de M HAMED BOUGARA, Boumerdes, Avrl 2007. [2] A.G. Mller, WordNet, A lexcal Database for Englsh, ACM 38 (11), 39-41, 1995. [3] Rada, R., Ml, H., Bcknell, E., and Blettner, M. Development and applcaton of a metrc on semantc nets. IEEE Transacton on Systems, Man, and Cybernetcs, 19(1):17 30. [4] Leacock, C., Mller, G. A., and Chodorow, M. Usng corpus statstcs and WordNet relatons for sense dentfcaton. Comput. Lngust.24, 1(Mar.98), 147-165. [5] Jang J.and Conrath D. Semantc smlarty based on corpus statstcs and lexcal taxonomy.in Proceedngs on Internatonal Conference on Research n Computatonal Lngustcs, Tawan, 1997. [6] Resnk, P., "Semantc Smlarty n a Taxonomy: An Informaton-Based Measure and ts Applcaton to Problems of Ambguty n Natural Language", Journal of Artfcal Intellgence Research (JAIR), 11, pp. 95-130, 1999. [7] D. Ln. An nformaton-theoretc defnton of smlarty. In Proceedngs of 15th Internatonal Conference on Machne Learnng, 1998. [8] S. Patwardhan,S. Banerjee, and T. Pedersen : Usng measures of semantc relatedness for word sense dsambguaton. In Proceedngs of the 4 th Internatonal Conference on Intellgent Text Processng and Computatonal Lngustcs CICLING, Mexco Cty, 2003.