Alignement approximatif d arbres pour la recherche d information en contexte dans les données XML hétérogènes



Documents pareils
Remboursement d un emprunt par annuités constantes

Les jeunes économistes

Editions ENI. Project Collection Référence Bureautique. Extrait

METHODE AUTOMATIQUE POUR CORRIGER LA VARIATION LINGUISTIQUE LORS DE L INTERROGATION DE DOCUMENTS XML DE STRUCTURES HETEROGENES

Mesure avec une règle

Dirigeant de SAS : Laisser le choix du statut social

hal , version 1-14 Aug 2009

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

Stéganographie Adaptative par Oracle (ASO)

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

En vue de l'obtention du. Présentée et soutenue par Meva DODO Le 06 novembre 2008

TD 1. Statistiques à une variable.

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

Exercices d Électrocinétique

Paquets. Paquets nationaux 1. Paquets internationaux 11

STATISTIQUE AVEC EXCEL

Pourquoi LICIEL? Avec LICIEL passez à la vitesse supérieure EPROUVE TECHNICITE CONNECTE STABILITE SUIVIE COMMUNAUTE

Prise en compte des politiques de transport dans le choix des fournisseurs

Montage émetteur commun

Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr

Séparation de Sources par lissage cepstral des masques binaires

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

COMPARAISON DE MÉTHODES POUR LA CORRECTION

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

Interface OneNote 2013

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

Professionnel de santé équipé de Médiclick!

Analyse des Performances et Modélisation d un Serveur Web

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

Système solaire combiné Estimation des besoins énergétiques

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

Terminal numérique TM 13 raccordé aux installations Integral 33

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe

Calcul de tableaux d amortissement

INTERNET. Initiation à

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

Des solutions globales fi ables et innovantes.

Le Prêt Efficience Fioul

GUIDE D ÉLABORATION D UN PLAN D INTERVENTION POUR LE RENOUVELLEMENT DES CONDUITES D EAU POTABLE, D ÉGOUTS ET DES CHAUSSÉES

VIELLE Marc. CEA-IDEI Janvier La nomenclature retenue 3. 2 Vue d ensemble du modèle 4

Qualité de service 7. Ordonnanceurs de paquets. Contexte. Intégration de services. Plan. Multiplexage. FIFO/DropTail. Priorités

Réseau RRFR pour la surveillance dynamique : application en e-maintenance.

Comparative performance for isolated points detection operators: application on surface defects extraction

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

P R I S E E N M A I N R A P I D E O L I V E 4 H D

Pro2030 GUIDE D UTILISATION. Français

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

Faire des régimes TNS les laboratoires de la protection sociale de demain appelle des évolutions à deux niveaux :

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD

Ecole Polytechnique de Montréal C.P. 6079, succ. Centre-ville Montréal (QC), Canada H3C3A7

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

ErP : éco-conception et étiquetage énergétique. Les solutions Vaillant. Pour dépasser la performance. La satisfaction de faire le bon choix.

Généralités sur les fonctions 1ES

Prêt de groupe et sanction sociale Group lending and social fine

Projet de fin d études

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

Grandeur physique, chiffres significatifs

Surveillance temps-réel des systèmes Homme-Machine. Application à l assistance à la conduite automobile

Et pour vos clients, bénéficiez de services

Mots-clés : Système multicapteurs, Réseau local, Réseaux de neurones, Supervision, Domotique. xigences système d'une nouvelle

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

Pour plus d'informations, veuillez nous contacter au ou à

Parlons. retraite. au service du «bien vieillir» L Assurance retraite. en chiffres* retraités payés pour un montant de 4,2 milliards d euros

Be inspired. Numéro Vert. Via Caracciolo Milano tel fax

CATALOGUE EXCLUSIF TOUCH MEDIA CATALOGUE DE SITES FORMATS GLOSSAIRE. Notre sélection de supports en représentation exclusive au Maroc

TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1

La Quantification du Risque Opérationnel des Institutions Bancaires

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

TRAVAUX PRATIQUES SPECTRO- COLORIMETRIE

Table des Matières RÉSUMÉ ANALYTIQUE... 1 I. CONTEXTE La dette publique du Gouvernement Contexte institutionnel de gestion de la

Performances de la classification par les Séparateurs à Vaste Marge (SVM): application au diagnostic vibratoire automatisé

santé Les arrêts de travail des séniors en emploi

1. Les enjeux de la prévision du risque de défaut de paiement

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

INTRODUCTION. Jean-Pierre MAGNAN Chef de la section des ouvrages en terre Département des sols et fondations Laboratoire central

1.0 Probabilité vs statistique Expérience aléatoire et espace échantillonnal Événement...2

Une analyse économique et expérimentale de la fraude à l assurance et de l audit

La théorie classique de l information. 1 ère partie : le point de vue de Kolmogorov.

Page 5 TABLE DES MATIÈRES

EURIsCO. Cahiers de recherche. Cahier n L épargne des ménages au Maroc : Une analyse macroéconomique et microéconomique.

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE. MEMOIRE Présentée à

APPROXIMATION PAR RÉSEAUX À FONCTIONS RADIALES DE BASE APPLICATION À LA DÉTERMINATION DU PRIX D ACHAT D UNE

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE

MEMOIRE. Présenté au département des sciences de la matière Faculté des sciences

CHAPITRE DEUX : FORMALISME GEOMETRIQUE

MODÈLE D ISING À UNE ET DEUX DIMENSIONS.

Documents de travail. «La taxe Tobin : une synthèse des travaux basés sur la théorie des jeux et l économétrie» Auteurs

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

Transcription:

Algnement approxmatf d arbres pour la recherche d nformaton en contexte dans les données XML hétérogènes Fuson d nformaton structurées et textuelles Perre-Franços Marteau & Gldas Méner VALOIA Unversté de Bretagne Sud ue Yves Manguy, 56 000 Vannes ÉSUMÉ. Nous proposons des algorthmes dédées à l'ndexaton et à la recherche approxmatve d'nformaton dans les banques de données hétérogènes sem-structurées XML. Le modèle d'ndexaton proposé est ben adapté à la caractérsaton de la recherche de contenu peu structuré (texte, mage, séres temporelles) dans les contextes XML défns par les structures d'arbres assocées aux documents ndexés. Les mécansmes de recherche ms en œuvre s'appuent sur des prncpes d'algnement quas-optmaux d'arbres qu explotent une dstance de Levensten modfée et sur des heurstques de fuson d'nformaton. La complexté des algorthmes proposés est étudée. Une mplémentaton qu explote smultanément l'nformaton structurée,.e. l arborescence des éléments XML, les relatons attrbut/valeur qu sont attachés à ces éléments, et le contenu texte lbre des documents ndexés est décrte. Une analyse prélmnare de performance est présentée pour cette mplémentaton. MOTS-CLÉS : XML, Base de données hétérogènes, recherche et extracton d'nformaton, fuson d'nformaton, dstance d'édton de Levensten, opérateurs de recherche basés sur des heurstques. ABSTACT. We propose specfc data structures desgned to the ndexng and retreval of nformaton elements n heterogeneous XML data bases (orgnated from a set of WEB pages for nstance). The ndexng scheme s well suted to the management of varous contextual searches, expressed ether at a structural level or at an nformaton content level. Search mechansms are based on context tree matchng algorthms that nvolve a modfed Levensten edtng dstance and nformaton fuson heurstcs. Complexty of man algorthms s studed and performance analyzed. The mplementaton that s fnally descrbed hghlghts the mxng of structured nformaton presented as feld/value nstances and free text elements. KEYWOS: XML, Heterogeneous data base, nformaton retreval, nformaton fuson, Levensten edton dstance, heurstc based operators. Technque et scences nformatques. Volume 22 n 7-8/2003, Pages 1011-1034

2 Technque et scences nformatques. Volume 22 n 7-8/2003, Pages 1011-1034 1 Introducton La socété de l'nformaton engendre un nombre consdérable de documents hétérogènes, tant en forme qu'en nature. Une part crossante de ces documents est accessble sur la tole (web) consttuée par l'nterconnexon de sources d'nformaton plus ou mons ndépendantes. En contreparte, la qualté des accès à ces sources dstrbuées lmte de manère mportante l'explotaton des contenus documentares dsponbles. Les moteurs de recherche actfs sur la tole se heurtent en effet à une sorte de facteur d'ncerttude consttué du produt des grandeurs 'précson' (le rapport entre le nombre de réponses pertnentes ramenées par le système et le nombre total de réponse) et 'rappel' (le rapport entre le nombre de réponses pertnentes ramenées par le système et le nombre total de réponses pertnentes) nhérent à la recherche d'nformatons non ou peu structurées tel que les textes, les mages ou encore les séres temporelles. 'autres causes, telles que l'aspect volatl de l'nformaton, la topologe du réseau d'nterconnexons consttué par la tole, et la qualté ntrnsèque du contenu des sources d'nformaton elles-mêmes consttuent autant de facteurs aggravants. Face à l'hétérogénété des sources d'nformaton et de leurs contenus, l'émergence d'xml (Bray & al., 2000) tradut un effort crossant qu vse à normalser la présentaton et l'archvage de l'nformaton. ans nombre de domanes de spécalté comme la chme, la bologe, la santé, ou encore dans le cadre de la geston des processus ndustrels (geston de producton, geston des 'back offce', CAO, etc.) des structures de documents standardsés (ocument Type efnton) sont proposées pour amélorer le partage, l'échange d'nformaton et l'nteropérablté des applcatons. Cet effort de normalsaton, s'l permet d'espérer une améloraton de la qualté de l'nformaton accessble en lgne ne résout pas cependant l'ensemble des dffcultés concernant l'accès à l'nformaton. On ne peut pas en effet magner que l'utlsateur pusse dsposer d'une connassance suffsante sur la structure des documents accessbles pour orenter sa recherche d'nformaton. es outls spécalsés dovent être ms en œuvre pour guder et navguer effcacement dans les contenus nformatonnels sem-structurés pour rentablser l'effort de structuraton et encourager les développeurs de ste web à partcper à cet effort. Cet effort de normalsaton s'accompagne donc de développements de systèmes de geston de l'nformaton sem-structurée (Zhao et al., 1999), ( XQuery, 2000), (Bonfat et al., 2000) etc. ans cet artcle, en fasant le par d'xml, nous proposons plus précsément une améloraton de la qualté d'accès à l'nformaton en développant des prncpes algorthmques susceptbles de s'appuyer sur les éléments structurants des documents sem-structurés pour affner l'analyse et la recherche des contenus non structurés. La sute de cet artcle présente un modèle d'ndexaton de documents sem-structurés

Algnement approxmatfs d arbres pour la recherche d nformaton en contexte 3 XML et le paradgme de recherche d'nformaton qu lu est assocé. Une mplémentaton de ce modèle est fnalement décrte. 2 Indexaton en contexte XML <?xml verson="1.0" encodng="so-8859-1"?> <newstem temd="15569" d="root" date="1996-08-27" xml:lang="en"> <ttle>uk: UK shares start weaker as Wall Street weghs.</ttle> <headlne>uk shares start weaker as Wall Street weghs.</headlne> <datelne>lonon 1996-08-27</datelne> <text> <p>london shares started sharply lower on Tuesday after the long holday weekend as a dsappontng performance on Wall Street and techncal postons n the market sparked an early markdown, traders sad.</p> <p>the FTSE 100 opened some 18.0 ponts lower at 3,889.5 as shares retrenched after the strng of all-tme hghs last week.</p> </text> <copyrght>(c) euters Lmted 1996</copyrght> <metadata> <codes class="bp:countres:1.0"> <code code="uk"> <edtdetal attrbuton="euters BIP Codng Group" acton="confrmed" date="1996-08-27" /> </code> </codes> <dc element="dc.date.created" value="1996-08-27" /> <dc element="dc.publsher" value="euters Plc" /> <dc element="dc.date.publshed" value="1996-08-27" /> <dc element="dc.source" value="euters" /> <dc element="dc.creator.locaton" value="lonon" /> <dc element="dc.creator.locaton.country.name" value="uk" /> <dc element="dc.source" value="euters" /> </metadata> </newstem> Fgure 1. Exemple de fcher XML extrat du corpus euters (euters 2000). Un document XML est appréhendable sous la forme d une structure arborescente appelée OM (ocument Object Model) dont les feulles contennent des éléments d nformaton textuels ou bnares (TEXT ou CATA) et dont les nœuds correspondent à des éléments XML auxquels sont éventuellement assocés des couples (attrbuts, valeurs).

4 Technque et scences nformatques. Volume 22 n 7-8/2003, Pages 1011-1034 Les feulles de cet arbre peuvent fare référence à des éléments externes tels que des mages, des bandes sonores, des vdéos ou du texte. Pour tout document XML ben formé, cet arbre peut-être extrat en utlsant un analyseur syntaxque (parseur) XML (IBM, 2000), (XECES, 2002). Un exemple de document XML est présenté en fgure 1, l arbre OM qu lu correspond est présenté en fgure 2. copyrght newstem dc ttle dc headlne dc datelne text metadata dc p p codes dc PCATA PCATA code dc edtdetal dc Fgure 2. Arbre OM correspondant à l exemple présenté en fgure 1. L élément PCATA correspond à des feulles décomposables (éléments textuels par exemple) La structure des documents XML vare en général d'un document à l'autre. Elle est mplctement véhculée par le document lu-même et pas systématquement détermnée par une organsaton structurelle globale stable (T). Pour cette rason, les documents XML sont consdérés plutôt comme des documents semstructurés, par opposton aux documents structurés pour lesquels aucune rrégularté structurelle n'exste (Abteboul, 1997). Il exste bon nombre d approches qu se sont hstorquement ntéressées à la queston de l nterrogaton de banques de données sem-structurées. Certanes relèvent du modèle relatonnel (Codd, 1983) : par exemple (Stonebraker et al.), d autres mettent en exergue les modèles classques de recherche et d nformaton

Algnement approxmatfs d arbres pour la recherche d nformaton en contexte 5 (modèle booléen, vectorel, etc.) (Salton et McGll 1983, Frakes et Baeza-Yates 1992), d autres proposent des modèles d hyperdocument (Conkln 1987), ou encore des modèles orentés objets (Km et Lochovsk 1989, Cattell 1991). Aucune de ces approches ntales ne permettent de gérer de manère coordonnée les éléments de structures et les données non structurées. Plus récemment, de nouvelles approches ont été développées pour trater cette queston de la recherche d nformaton en contexte structurel, ce type de recherche pouvant tenr compte plus ou mons précsément de la localsaton dans la structure du document de l occurrence de l nformaton non structurée recherchée. Les travaux de Baeza-Yates (Baeza-yates et al., 1997), de Sung Hyon Myaeng (Sung Hyon Myaeng et al., 1998) ou encore de Bremer (Bremer et Gertz, 2000) et Wolf (Wolff et al., 1999) vsent tout partculèrement le développement d'algorthmes de recherche d'nformaton semstructurée effcaces basés sur une explotaton des contextes structurels d'occurrence des éléments nformatonnels et sur des heurstques de classement des réponses. Ces approches ntrodusent des algèbres sur des ensembles d éléments structurels hérarchques qu correspondent à la structure arborescente de la base documentare tratée. La nécessté d une connassance parfate de la structure arborescente de la base documentare pour exploter la rchesse des fonctons de recherche consttue la prncpale lmte rencontrée par ces dernères approches. ans cette dynamque, nous proposons également des prncpes d'ndexaton et de recherche d'nformaton sem-structurée qu mettent en œuvre des mécansmes de recherche qu explote smultanément les éléments des structures documentares ndexées et les contenus non structurés. L nnovaton proposée par rapport aux dernères approches référencées repose sur l ntroducton de mécansmes d algnement approxmatf des éléments structurels ndexés. Ces mécansmes ont pour objectfs d assouplr les crtères de recherche portant sur le contexte structuré pour permettre à l utlsateur d nterroger une bases d nformaton en fasant appel à une connassance nulle, ncomplète, mprécse ou totale de la structure de la base documentare explotée. Ces prncpes sont détallés dans les paragraphes qu suvent. 2.1 Contexte XML ans la structure de l arbre OM, chaque nœud n (en partculer chaque feulle) peut être rattachée à la racne de l arbre par l ntermédare du chemn p(n. Ce chemn est une sute ordonnée d éléments XML. Il consttue le contexte d occurrence du nœud n dans le document consdéré. ans le cas où une feulle l de l arbre OM peut être décomposée en sous éléments {e }, on consdérera que chaque sous élément e est rattaché au contexte XML p(l). En partculer, s une feulle de l arbre OM est dentfée à une entté textuelle, chaque mot e (lemme ou chaîne de caractères) présent dans l entté textuelle pourra être également rattaché au contexte XML p(l). Ce contexte XML assocé à la poston de e dans la feulle l caractérse l occurrence de e dans le document.

6 Technque et scences nformatques. Volume 22 n 7-8/2003, Pages 1011-1034 Plus précsément, p(n) est dentfable à une séquence ordonnée de nœuds p( n) n0n1... nd n, où n 0 est le nœud racne, et d+2 est la longueur de la séquence de nœuds contenus dans le chemn p(n). Un ensemble de couples <attrbut, valeur> A(n ) est attaché à chaque nœud n de la séquence ordonnée, de telle sorte que p(n) peut être représenté sous la forme suvante : p n) n, A( n ) n, A( n )... n, A( ) ( 0 0 1 1 n n sera appelé dans la sute le nœud extrémté du chemn p(n). ans le cas où le nœud consdéré est une feulle l décomposable, chaque sousélément e qu l content est consdéré comme un nœud termnal ne possédant pas d attrbut. ans ce cas, on consdèrera que le contexte d occurrence de e est le chemn suvant : p e ) n, A( n ) n, A( n )... l, A( n) e, ( 0 0 1 1 2.2 Modèle d ndexaton Nous proposons un modèle d ndexaton basé sur la noton de lstes nverses pour la prse en compte des contextes XML. La noton de lste nverse est une structure de données qu, à l nverse des documents, prends en entrées des éléments de contenus documentares et fournt en sorte les références documentares qu contennent ces élément de contenus. Pour le modèle proposé, les entrées de la lste nverse sont sot: des sous-éléments d une feulle des nœuds de l arbre OM Pour un sous élément e d une feulle l, tros éléments d nformatons sont rattachés : un len vers l adresse permettant de localser le document (Unform esource Locator : UL). Ce len permet de retrouver la source du document ndexé, un ndex spécfant la localsaton de l élément à l ntéreur de la feulle, un len vers le contexte XML p(l) caractérsant l occurrence de la feulle l dans l arbre OM. Pour un nœud n de l arbre OM, seul le len sur l UL du document et le len vers le contexte XML p(n) d occurrence du nœud n sont requs. Les arbres de recherches bnares aléatores appelés TEAP (Sedel et al., 1996) assocés à des tables de hachage consttuent des structures algorthmques partculèrement effcaces pour encoder les lstes nverses résultantes d un processus d ndexaton. Les TEAP sont des structures dynamques qu peuvent entre autres être

Algnement approxmatfs d arbres pour la recherche d nformaton en contexte 7 rééqulbrées en foncton de paramètres tels que la fréquence d apparton des tems consttutfs des requêtes soumses, ce qu permet des temps de réponse melleurs comparatvement à l utlsaton de tables de hachage pures par exemple. 3 Paradgme de recherche d nformaton u fat de l hétérogénété des structures et des contenus des documents dsponbles au format XML, l n est pas envsageable d magner que l utlsateur pusse être à même de connaître l ensemble des structures OM correspondantes. Par sute, l utlsateur n est pas à même de spécfer de manère systématque une requête précse, tant dans sa structure que dans son contenu sémantque. ans une telle stuaton, l semble rasonnable de proposer des prncpes de recherche d nformaton exacts et approchés pour gérer au meux l ncerttude nhérente à la requête de l utlsateur. Le format des documents ndexés étant XML, l n est pas restrctf de concevor que la requête elle même pusse être représentée par un arbre OM : la requête elle même peut être d une manère générale tradute sous la forme de document XML dont la T (ocument Type efnton) reprodut la syntaxe du langage de requête. S tel est le cas, la recherche de bas nveau peut être appréhendée par le bas d algorthmes d algnement approxmatf d arbres, dans le but de fare correspondre de manère approchée certanes branches de l arbre OM ssu de la requête avec les arbres OM ssus des documents ndexés. C est l opton conceptuelle que nous avons adoptée. Les algorthmes d algnement approxmatfs d arbres décrts dans la lttérature sont basés sur des dstances d édton et des fonctons d assocaton ou de correspondance (Ta, 1979) (Wang et al., 1998). Pour (Ta, 1979) l algnement de deux arbres T 1 et T 2, est caractérsé par une complexté qu s exprme a mnma en O( T 1. T 2 ) où T est le nombre de nœuds contenus dans T. Cette complexté est ben supéreure pour (Wang et al., 1998). Ces prncpes d algnement d arbres ne sont pas adaptés à la tâche que l on envsage c. En premer leu, la complexté algorthmque est trop élevée au regard du grand volume documentare qu l est nécessare de consdérer pour une explotaton à grande échelle. En deuxème leu, la sémantque du langage d nterrogaton qu découle de tels algorthmes est trop lmtée comparatvement aux langages d nterrogaton plus spécfques tels que XQL (obe et al., 1998) Nous recherchons plutôt des prncpes de recherche de bas nveau capables d algner approxmatvement des sous chemns de type p(n) contenus dans les arbres OM des documents ndexés avec un ou des sous chemn p(r) contenus dans la spécfcaton d une requête. Plus précsément, plutôt que d envsager des algnements portant sur des arbres complets, nous recherchons des algnements de chemns de type «racne-feulle» ou «racne-nœud». A plus haut nveau nous recherchons à défnr un langage de requête plus évolué, qu ntègre des expressons élémentares {p(n)} et des expressons complexes, consttuées à partr de

8 Technque et scences nformatques. Volume 22 n 7-8/2003, Pages 1011-1034 l assemblage d expressons élémentares qu explotent des opérateurs booléens classques ou ensemblstes, des opérateurs flous ou encore des opérateurs basés sur des heurstques dédées. 3.1 Algnement approxmatf des sous-structures p(n) Sot une requête élémentare exprmée sous la forme d un chemn p, pour lequel les couples <attrbuts, valeur> sont remplacés par des condtons ou contrantes Cd qu portent sur les valeurs d attrbuts. p n Cd( n ) n, Cd( n )... n, Cd( ) 0, 0 1 1 n Nous proposons d évaluer la smlarté entre un chemn p représentant une requête élémentare et l arbre OM, noté T, correspondant à un document ndexé de la manère suvante : ( p, T ) Mn où L s apparente à une pseudo dstance d édton de type Levensten (Levensten, 1966) et { p } est l ensemble des chemns de la racne de l arbre OM à un nœud quelconque de l arbre OM. Cette pseudo dstance est explctée au paragraphe 3.2.1 La complexté d un tel algorthme est : L ( p, p O(l(p ).prf(t ). { p } ), avec { p } le cardnal de l ensemble des chemns { p },.e. le nombre de nœuds contenus de l arbre T, l(p) la longueur du chemn p et prf(t) la profondeur de l'arbre T. Pour des documents engendrant des arbres OM de pette talle, cette complexté est parfatement gérable, même lorsque le nombre de documents ndexés est grand à condton que le nombre de feulles de l arbre OM reste rasonnable. Cependant, pour la plupart des documents produts quotdennement, les arbres OM équvalents sont caractérsés par une profondeur très pette comparatvement à leur largeur très grande, mplquant un nombre de feulles souvent très sgnfcatf. Cec condut à une dffculté mportante pusque la complexté augmente lnéarement avec le terme : { p }. Pour contourner cet obstacle, une approche consste à rédure { p } en l ensemble { } des chemns ssus de la racne de l arbre OM du document et dont le nœud extrémté correspond de manère strcte ou approxmatve au nœud extrémté du chemn p correspondant à la requête. En )

Algnement approxmatfs d arbres pour la recherche d nformaton en contexte 9 effectuant cette réducton de { p } en { smlarté :, ( T ) Mn ( p ) Chaque fos que { L } on aboutt au nouveau calcul de } << { p }), ce qu se produt lorsque la requête engendre un arbre OM sgnfcatvement plus rédut que ceux engendrés par les documents ndexés la complexté Cx de l algorthme d algnement sera contrante par la relaton suvante :, : O(l(p ).prf(t ). { }) Cx << O(l(p ).prf(t ). { p }) Cec se vérfera en partculer pour les documents qu engendrent des arbres OM très larges comme les documents textuels par exemple. Cet algorthme favorse donc la recherche des éléments assocés aux feulles dans le contexte d un arbre OM donné. 3.2 Calcul de la smlarté entre un chemn ssu d une requête élémentare p et un arbre T engendré par un document : δ(t ) 3.2.1 stance d édton entre deux chemns p et, : δl(p,p ) Sot P le chemn correspondant à la requête élémentare et { } l ensemble des chemns retenus pour la recherche de smlarté ssus de l arbre OM T engendré par et dont les extrémtés correspondent au nœud de l extrémté du chemn p. Nous proposons une pseudo-dstance d édton (Wagner et al., 1974) (Méner et al., 2002) en explotant une matrce de coût paramétrable pour calculer la smlarté entre un chemn et le chemn correspondant à la requête élémentare p. une manère générale, une dstance d édton est caractérsée par un trplet (A, B, c) où A et B sont deux alphabets et c une foncton coût c : E +, où + est l ensemble des réels postfs et E = E s E E e est l ensemble des opératons élémentares d édtons : E s = AxB est l ensemble des substtutons, E e = Ax{} est l ensemble des élmnaton et E = {}xb est l ensemble des nsertons, avec représentant le caractère vde. Chaque trplet (A, B, c) engendre une pseudo dstance c : A*xB* + qu à toute pare de chaînes de caractères ssue de A*xB* assoce un nombre réel postf (A* désgne l ensemble des chaînes de caractères construtes sur A). S l on désgne par A t le sous ensemble de A* consttué des chaînes de longueur t, et x t le caractère stué en t ème poston dans la chaîne x, alors la dstance c (x t, y v ) entre deux chaînes x t A t et y v B v est défne de manère récursve de la manère suvante :

10 Technque et scences nformatques. Volume 22 n 7-8/2003, Pages 1011-1034 c mn ( x, y ) ( x, y 1 ), ), 1 ) t1 v t v c t v t1 v c( x, y ) c( xt, ) c( x, y [1] t v c(, yv) c( x, y avec c (,) = 0. On parle de pseudo dstance dans la mesure où la proprété de symétre n est pas assurée quelque sot la foncton coût c envsagée. Transposé au problème d algnement des chemns et p qu nous ntéresse, l alphabet A est dentfé à l ensemble N consttué de l unon des ensembles de nœuds (ou de leur dentfcaton) assocés aux arbres OM engendrés par les documents ndexés et l alphabet B est dentfé à l ensemble N consttué par l unon des ensembles de nœuds (ou de leur dentfcaton) assocés aux arbres OM engendrés par les requêtes formulées. Les opératons élémentares d édton envsagées pour notre pseudo dstance et la foncton coût c qu leur est assocée sont défns de la manère suvante : La substtuton : un nœud n du chemn P est remplacé par (ou algné sur) un nœud n du chemn avec un coût élémentare c( n, n). Pusqu un nœud n fat référence à la fos à un élément XML et à l ensemble des condtons portant sur les attrbuts qu lu sont rattachés, le calcul de c t ( n, n) se décompose de la manère suvante : c( n, n) h( ( n, n), ( Cn ( n))) (n, n) est le coût de substtuton des nœuds n et n sans tenr compte des condtons sur les attrbuts : (n, n)[0,1] et (Cn ( n)) est le degré de satsfacton des condtons spécfées dans le nœud n, Cn, par les attrbuts du nœud n: (Cn ( n))[0,1] h la foncton de fuson des coûts de substtuton des éléments XML et des degrés de satsfacton des condtons portant sur les attrbuts. On mpose que h((n, n), (Cn ( n))) [0,1], avec, c( n, n) varant entre max 0 (correspondance parfate) et c = 1 (aucune correspondance). Les heurstques et sont détallées au paragraphe 3.4.2 L élmnaton : un nœud n du chemn est élmné avec un coût c(n,) que l'on consdère pouvor varer entre 0 et max c = 1.

Algnement approxmatfs d arbres pour la recherche d nformaton en contexte 11 L nserton : un nœud n est nséré dans le chemn max consdère pouvor varer entre 0 et c = 1. avec un coût c(,n) que l'on Sot l ensemble T p des transformatons décomposables en une séquence de transformatons élémentares (nserton, suppresson ou substtuton) et permettant de transformer le chemn en p. A toute transformaton de l ensemble T p on assoce un coût global noté C() assmlé à la somme des coûts des transformatons élémentares qu composent. La dstance c défnt récursvement selon l équaton (1) permet de détermner parm les transformatons de l ensemble T p la transformaton de coût mnmum notée * (transformaton optmale) avec une complexté O(l( ). l(p )) comme précsé précédemment (Wagner et al., 1974). Nous conjecturons que cette approche est adéquate pour le tratement de la plupart des pages web ou des documents qu y sont référencés prncpalement parce que la profondeur des arbres OM engendrés par ces données est relatvement fable. es études statstques récentes sur les documents XML accessbles sur le WEB (Mgnet & al, 2002) montrent que le nveau moyen de profondeur pour les arbres OM est de 4, et 99% des documents analysés ont une profondeur nféreure à 8. 3.2.2 Procédure de normalsaton fuson des heurstques d algnement des attrbuts et des séquences d éléments XML est : Sot C * le coût mnmum d'algnement du chemn C * = C() = C (*) Etant donnés C max(, p ) = Mn, Tp p sur le chemn p : et p quelconques, la plus grande valeur possble pour C * max c.mn(l( ), l(p )) + = Max(l( ), l(p )) max c.( l( ) l(p ) ) C max est obtenu lorsque tous les nœuds des chemns et p sont dfférents et lorsque aucune condton spécfée sur les attrbuts n'est satsfate, ce qu condut au coût de la transformaton consttuée de Mn(l( ), l(p )) substtutons et de l( ) l(p ) nsertons ou suppressons. Nous parlerons d algnement médan lorsque l ensemble des nœuds des chemns et p sont dentques de l orgne à l extrémté, mas lorsque aucune des condtons sur les attrbuts n est vérfée : C med (, p ) = h. l(p ) = h.l( )

12 Technque et scences nformatques. Volume 22 n 7-8/2003, Pages 1011-1034 Autrement dt : les chemns et p ont le même nombre de nœuds, les mêmes éléments XML, mas les attrbuts contenus dans les éléments de pas les condtons spécfées dans les éléments du chemn p. ne vérfent Naturellement, pour une concordance totale (mêmes éléments XML avec condtons satsfates sur les attrbuts) on aura un coût mnmumc 0 (, p ) = 0. La dstance d(, P ) est ensute calculée en projetant les valeurs possbles de C* sur l ntervalle [0,1], de manère à fare correspondre à la valeur médane C med, et C max à la valeur 1. 1 d(c*) 0 C 0 C med C max C* Fgure 3. foncton de normalsaton : le coût C med correspond à une dstance normalsée de [0,1] et C max à une dstance normalsée de 1. Enfn, la smlarté entre deux chemns suvante : (, p ) = 1- d(c * ) et p est obtenue de la manère Ce qu condut fnalement à la smlarté entre un arbre OM T et une requête élémentare p : ( p, T ) Mn Mn, Tp p C() où énumère les chemns de l arbre T. 3.3 Les heurstques (n,n) (n,n) est dédé à la prse en compte des varatons termnologques ou lngustques au nveau des dentfcateurs d éléments XML (par exemple chaptre, secton ) ou au nveau de la langue explotée dans les éléments textuels. Tros relatons qu relèvent d une forme de sémantque lexcale sont proposées pour

Algnement approxmatfs d arbres pour la recherche d nformaton en contexte 13 mplémenter l heurstque (n,n) ; ces relatons permettent de développer des thesaurus reconfgurables par l utlsateur : La relaton de synonyme : sy arg 1 arg 2 arg n Pour cette relaton, arg 1, arg 2,, et arg n appartennent à la même classe de synonyme La relaton d hyponyme: ho arg 1 (arg 2 arg n ) ho spécfe que arg1 a pour hyponymes (termes plus spécalsés) arg 2,, et arg n. La relaton d hyperonyme, symétrque de la relaton d hyponyme : hr arg 1 (arg 2 arg n ) hr établt que arg1 a pour hyperonymes (termes plus générques) arg 2,, et arg n. e plus, l explotaton d automates smples permet d encoder des relatons plus complexes de synonyme. Par exemple, état, naton et pays peuvent être consdéré plus ou mons comme synonymes dans le contexte des adjectfs européen ou scandnave. Ans, l est envsageable de créer des classes de mots tels que {pays, état, naton} qu lorsque ms en présence d un contexte spécfque comme européen va les règles de réécrtures actvent un concept composte comme pays_européen. e tels mécansmes permettent d élargr la noton de synonyme à des expressons ou à des assocatons de concepts lexcaux. Parm les approches les plus pertnentes sur ce thème on peut cter entres autres les travaux de (Sowa, 1984, 1999), Chanod (Chanod, 1999) et ceux de Todrascu (Todracu, 2000) qu relèvent de logques descrptves. Autour de ces relatons conceptuelles smples, on peut défnr les valeurs de (n,n) en tenant compte des relatons partagées par n et n. Par exemple : (n,n)=w sy s n et n sont synonymes, (n,n)=w hr s n est hyperonymes de n, (n,n)=w ho s n est hyponymes de n. es heurstques plus complexes peuvent être explotées pour prendre en compte un facteur d atténuaton qu dépend de l élognement dans la hérarche conceptuelle de n et n (evault, 2002) 3.4 Expressons des contrantes sur les attrbuts et heurstque (Cn(n)) ( Cn (n)) regroupe les heurstques d algnement des attrbuts. Il exste un grand nombre d approches permettant de tradure une satsfacton approxmatve de

14 Technque et scences nformatques. Volume 22 n 7-8/2003, Pages 1011-1034 condtons ou contrantes portant sur des attrbuts. Pour les attrbuts à valeurs numérques les modèles dérvés de la logque floue (Zadeh, 1965) sont ben adaptés. Pour les attrbuts à valeurs lngustques des modèles basés sur les heurstques (n,n) peuvent être mplémentés. Notons que ( Cn (n)) est nécessarement une foncton composte qu fusonne les degrés de satsfacton des condtons spécfées sur le nœud n. Certans éléments XML sont susceptbles de contenr des attrbuts comme l extrat présenté en fgure 4 : <edtdetal attrbuton="euters BIP Codng Group" acton="confrmed" date="1996-08-27" /> Fgure 4. Un élément XML et ses attrbuts assocés. Il est très utle de pouvor défnr des fltres sur les valeurs des attrbuts dans la recherche d nformaton en contexte, cec afn de trer les données fournes en réponse à une requête, ou pour élmner les réponses ne satsfasant pas un crtère de sélecton portant sur les attrbuts (Le champ date par exemple peut fare l objet d un fltrage contrôlé par l utlsateur). Les fltres que nous proposons sont basés sur la spécfcaton de contrantes (ou condtons) portant sur les attrbuts. Le degré de satsfacton de ces contrantes est estmée par l ntermédare d heurstque. Contrante ::= Op n-are Séquence_de_contrantes Op unare Contrante Op 1 Attrbut Valeur Op 2 Attrbut Op 3 Séquence_de _valeurs Séquence_de_contrantes ::= Contrante Contrante Séquence_de_contrantes Séquence_de_valeurs ::= Valeur Valeur Séquence_de_valeurs Op n-are ::= and or Op unare ::= not Op 1 ::= == > < near Op 2 ::= exst Op 3 ::= n Attrbut : := Identfcateur d attrbut Valeur : := enter réel caractère chaîne-de-caractères Fgure 5. BNF pour la spécfcaton des contrantes sur les attrbuts. La BNF décrte en fgure 5 présente la syntaxe élémentare des contrantes que nous envsageons à ce jour. La lste des opérateurs proposés pour la constructon des

Algnement approxmatfs d arbres pour la recherche d nformaton en contexte 15 contrantes complexes n est pas exhaustve 1, mas donne un aperçu des mécansmes en jeu. Le degré de satsfacton de ces contrantes est évalué au travers du calcul de l heurstque qu repose sur le calcul récursf suvant, pour lequel n représente le nœud contenant les attrbuts sur lequel les contrantes sont évaluées et C représente une contrante : (and C 1 (n), C 2 (n),,c k (n)) = Mn {(C (n)} (or C 1 (n), C 2 (n),,c k (n)) = Max {(C (n)} (not C 1 (n)) = 1 - (C (n)) (exst _attrbut) = 1 s l attrbut _attrbut exste pour le nœud n, 0 snon. (==_ attrbut _valeur) = 1 s l attrbut _attrbut exste pour le nœud n et s sa valeur est égale à _valeur, 0 snon. (> _attrbut _valeur) = 1 s l attrbut _attrbut exste pour le nœud n et s sa valeur est supéreure à _valeur, 0 snon. ( _attrbut _valeur) = 1 s l attrbut _attrbut exste pour le nœud n et s sa valeur est supéreure ou égale à _valeur, 0 snon. (< _attrbut _valeur) = 1 s l attrbut _attrbut exste pour le nœud n et s sa valeur est nféreure à _valeur, 0 snon. ( _attrbut _valeur) = 1 s l attrbut _attrbut exste pour le nœud n et s sa valeur est nféreure ou égale à _valeur, 0 snon. (n _attrbut _valeur 1 _valeur 2 _valeur j ) = 1 s l attrbut _attrbut exste pour le nœud n et s sa valeur est dentfable à _valeur 1, _valeur 2,, ou _valeur j, 0 snon. (near _attrbut _valeur) = (valeur(attrbut), _valeur) s l attrbut _attrbut exste pour le nœud n, 0 snon. (valeur(_attrbut), valeur) est une foncton qu vare entre 0 et 1 et qu exprme la proxmté entre la valeur _valeur et la valeur de l attrbut _attrbut 3.5 equêtes complexes es requêtes complexes sont construtes à partr de requêtes élémentares et d'opérateurs de composton booléens ou relevant d'heurstques spécfques : à ce jour, nous proposons 8 opérateurs pour la constructon des requêtes hors prse en compte des attrbuts, et 11 opérateurs pour la spécfcaton des contrantes portant sur les attrbuts. Ces lstes d opérateurs ne sont pas exhaustves mas présentent les 1 es opérateurs flous peuvent être ntrodut pour satsfare certanes applcatons, comme la recherche de données dans des bases de données floues (Fagn, 1998)

16 Technque et scences nformatques. Volume 22 n 7-8/2003, Pages 1011-1034 prncpes de constructon d un langage de requête et de la sémantque qu lu est assocée, cette dernère s exprmant en terme de calcul de smlarté et d heurstques (n,n) et ( n,n). 3.5.1 Opérateurs de composton pour l écrture de requêtes requêtes complexes Les hut opérateurs proposés pour la constructon du langage de requête sont les suvants : Les opérateurs booléens ou ensemblstes n-ares{or, and}, L opérateur ensemblste bnare{wthout} qu permet d'élmner de la lste des résultats en cours, les résultats d'une autre requête. L opérateur permettant de rechercher une séquence d arguments {seq} : par exemple, (seq message * erreur) recherchera les documents contenant les mots message suv par un mot quelconque (*), suv par le mot erreur. Les opérateurs de recherche en contexte : {n, same} qu permettent de rechercher une lste d arguments respectvement dans un contexte XML détermné ou dans un même contexte XML quelqu'l sot, Les deux opérateurs {+, same+} permettant de pondérer les arguments de l'opérateur en foncton d'une heurstque prédéfne, TFIF (term frequency by nverse document frequency) (Salton et al. 1988) par exemple. En s nsprant des prncpes de décson multcrtères floue (Zadeh, 1965) (Bellman et Zadeh, 1970) (Yager, 1977) le calcul de smlarté entre les expressons complexes et un document s'effectue de manère récursve de la manère suvante, où arg représente une requête élémentare ou complexe, sauf s défn autrement : (( or arg1,...,arg n ), T (( and arg1,...,arg n ), T ) Max( (arg, T ) Mn( (arg, T (( wthout arg1,arg 2 ), T ) Max 0, (arg1, T ) (arg 2, T (( seq arg1,...,arg n ), T ) 1 s arg 1,arg 2,, arg n apparassent en séquence dans l une des feulles décomposables de l arbre OM T, 0 snon. (( n ctx arg1,...,arg n ), T )) )) ) Mn( ( ctx / arg, T où ctx est un contexte XML (.e. un chemn ou sous-chemn) de recherche et ctx/arg le chemn consttué de la concaténaton de ctx et de arg.. ) )

Algnement approxmatfs d arbres pour la recherche d nformaton en contexte 17 (( same arg1,...,arg n ), T ) Max( ( ctx ctx / arg, T où ctx est un chemn quelconque de l'arbre OM extrat de. (( arg1,...,arg ), T ) ( (arg, T ) n où est un facteur de pondératon qu caractérse le pouvor dscrmnant de arg, c consdéré comme élément d une feulle décomposable de T. On peut chosr pour l'heurstque TFIF par exemple. (( same arg1,...,arg n ), T ) Max ( ( ctx ctx ) / arg où ctx est un chemn quelconque de l'arbre OM extrat de et est un facteur de pondératon qu caractérse le pouvor dscrmnant arg. On peut chosr c également pour l'heurstque TFIF par exemple., T ) 4 Premère mplémentaton pour la foulle de documents textuels semstructurés Les documents textuels sont caractérsés par un très grand nombre de chemns dfférents relant la racne de l'arbre OM aux feulles consttuées d'éléments de texte lbre décomposables en séquences de chaînes de caractères. En effet, chaque chaîne s contenue dans un élément texte lbre est étquetée dans l'arbre OM par les chemns qu caractérsent les contextes d'occurrence de s. Par sute, la réducton de l'ensemble des chemns { p } en l'ensemble { pour mantenr une complexté gérable. { } est plus que jamas nécessare } est drectement lé à la lste nverse dont les entrées sont les chaînes de caractères ou les nœuds des arbres OM assocés aux documents. 4.1 Fuson des nformatons ssues des données textuelles et des attrbuts Faute de recul suffsant à ce jour,, la fuson des heurstques (n,n),(cn (n)) est mplémentée de manère trvale grâce à l'utlsaton d'une foncton lnéare qu permet d'ajuster le pods relatf d'une source d'nformaton par rapport à l'autre : h( ( n, n), ( Cn ( n))) (1 ). ( n, n).(1 ( Cn ( n))) avec [0, 1[, facteur permettant de pondérer l'mportance des attrbuts vs-à-vs des éléments XML. La valeur a assocer à ce paramètre est lassé à l apprécaton de l utlsateur.

18 Technque et scences nformatques. Volume 22 n 7-8/2003, Pages 1011-1034 4.1.1 Heurstque (n,n) En nous appuyant sur quelques résultats ssus d expérmentatons qu vsent à ntégrer des technques de tratement automatque des langues dans les outls de recherche documentare (de Loupy, 1999), nous proposons, à défaut d autres résultats sgnfcatfs, l heurstque suvante pour pondérer les relatons conceptuelles explotées pour rapprocher les nœuds de l arbre OM ou les souséléments lngustques (termes) des feulles décomposables de cet arbre avec les spécfcatons de la requête: (n,n)=w sy = 0.8 s n et n sont synonymes, (n,n)=w hr = 0.7 s n est hyperonymes de n, (n,n)=w ho = 0.1 s n est hyponymes de n. 4.1.2 Heurstque (Cn (n)) L ensemble des opérateurs défns au paragraphe 3.4 sont mplémentés à l excepton de l opérateur de proxmté near. 4.2 Evaluatons Les évaluatons concernent l'évoluton du temps d'ndexaton et de recherche de l'nformaton en foncton du volume de données tratées. Pour assurer un mnmum d hétérogénété, les tests portent sur les bases documentares euters (euters 2000) et Le monde (Le Monde 1987) consttuée de dépêches d agence de presse et d artcles. Les données sont préalablement stockées sur dsque dur local. urées d'ndexaton en seconde 10000 1000 100 10 1 Temps CPU Temps écoulé 0,1 1 10 100 Volume ndexé en mega octets Fgure 6. urées d'ndexaton en foncton de la talle des données ndexées. Le temps CPU ndque le temps consacré par la machne mult processus à l exécuton du processus d ndexaton. Le temps écoulé absolu observé pour l éxecuton du processus.

Algnement approxmatfs d arbres pour la recherche d nformaton en contexte 19 La fgure 6 présente l'évoluton des durées d'ndexaton (temps CPU et temps écoulé sur un Pentum III, 1,2 Gga Hz de fréquence d'horloge, 256 Mega Octets de mémore AM) pour la base euters en foncton du volume des données ndexées que l'on fat varer de 100 Klo octets à 100 méga octets. Ces évolutons quas lnéares montrent que l'ndexaton de grandes bases documentares XML (de l'ordre du Gga octets) est un objectf attegnable, la parallélsaton des algorthmes d ndexaton et de recherche ne consttuant pas un obstacle technque mportant (l s agt plus d une parallélsaton des données que d une parallélsaton des tratements). Temps de réponse (mllseconde) 100000 10000 1000 100 10 1 0,1 1 10 100 volume ndexé (mega octets) Fgure 7. Temps de réponse moyen en foncton de la talle des données ndexées. Le temps de réponse moyen du système est estmé sur la base d'un jeu de requêtes complexes soums sur les données euters et Le Monde explotées (dont la talle globale vare de 100 klo octets à 100 méga octets). 50 requêtes complexes sont générées sem aléatorement pour les besons du test sur la base des structures et termes ndexés automatquement. Celles c sont enrches par utlsaton d'un thésaurus de 35000 entrées (MeSH, 2002). Un exemple de requête et d'enrchssement est donné en fgure 8. Cet exemple présente une erreur au nveau de l élément newstem codé news dans la spécfcaton qu explote l opérateur n. Il montre la possblté de mxer une connassance précse de la structure des documents recherchés va l opérateur de recherche en contexte n une connassance mparfate sur cette structure ( news à la place de newstem ) et une connassance quas nexstante va l utlsaton de l opérateur en contexte same.

20 Technque et scences nformatques. Volume 22 n 7-8/2003, Pages 1011-1034 (and (n [/news/ttle/] uk shares) (same+ wall street (seq cut rate)) [/newstem/metadata/dc(and (== element dc.date.publshed) (>= value 1995-01-01))/]) (and (n [/news/ttle/] (O angleterre uk (seq great brtan ) (SAME unted kndom ) (seq royaume un ) England Wales London (seq Channel Islands ) Guernsey Hebrdes (seq Northern Ireland ) Scotland ) Share ) (same+ wall street (seq cut rate)) [/metadata/dc(and (== element dc.date.publshed) (>= value 1995-01-01))/]) Fgure 8. Un exemple de requête complexe et le résultat de son enrchssement en caractères talques. Notez que le chemn spécfé dans l opérateur n /news/ttle/ est nexact : l aurat fallut spécfer /newstem/ttle/. L algorthme d algnement approxmatf permet de corrger en parte ce défaut de spécfcaton. La fgure 7 présente l'évoluton du temps de réponse moyen en foncton du volume des données ndexées (de 100 klo octets à 100 méga octets). Cette courbe montre également un comportement quas constant des algorthmes de recherche. La dégradaton du temps de réponse très lente (on passe de 9 secondes à 11 secondes et dem) ouvre là encore des perspectves très encourageantes pour le tratement de banques d'nformaton de grandes talles. Quant à la qualté des accès, les performances exprmées en terme de taux de rappel et de précson n ont pas pu être évaluées selon un protocole expérmental précs comme dans TEC (TEC, 2002) par exemple. Il n est pas certan que de tels protocoles soent adaptés à l extracton d nformaton dans les bases de données hétérogènes et sem structurées. es protocoles dédés non dsponbles à ce jour dovent être proposés pour valder et comparer plus précsément nos travaux. Les travaux en cours dans le cadre de la consttuton du WEB XML (Mgnet et al., 2002) et de l évaluaton des moteurs de recherche sur le WEB (TEC10, 2001) (Soboroff, 2002) devront permettre dans une certane mesure d évaluer de manère plus quanttatve l ntérêt de l approche proposée. Quoqu l en sot, les mécansmes de recherche approxmatve sur le contexte structurel d occurrence du contenu non structuré n a pas fat l objet à notre connassance de développement comparable à ce qu nous proposons, ce qu lmte à ce jour l mpact d une étude comparatve avec des systèmes exstants.

Algnement approxmatfs d arbres pour la recherche d nformaton en contexte 21 5 Concluson Nous avons présenté des algorthmes de recherche approxmatve pour retrouver des nformatons enfoues dans des bases de documents (par exemple extrats du WEB) et convert au format XML. Ces algorthmes reposent sur des mécansmes d'algnement de chemns ssus d'une nterprétaton de la requête d'une part et des sous-structures des arbres OM assocés aux documents ndexés d'autre part. La complexté des algorthmes d'algnement est mantenue auss basse que possble en ramenant un problème d'algnement d'arbre à un ensemble d'algnements de chemns smples contrants par les caractérstques de la requête. Ces mécansmes permettent la fuson de données : structurées sous la forme de pares <attrbut, valeur>, ou de chemns caractérsant l'organsaton structurelle du document (<document><ttre> <résumé><mots-clés> ) non ou peu structurées comme les données textuelles ou les séres temporelles, objet de développements à venr. La smlarté entre une requête et un document est évaluée grâce à l'utlsaton d'une dstance de Levensten qu ntègre des heurstques,.e. des fonctons de pondératon, pour prendre en compte une forme de sémantque lexcale au nveau des éléments XML ou au nveau des données structurées, et pour ntégrer des mécansmes d algnement flous au nveau des attrbuts assocés aux éléments XML. Ces mécansmes permettent de s affranchr d une connassance complète ou rgoureuse de la structure des documents explotés. Un langage de requête smple basé sur un ensemble d'opérateurs ensemblstes ou booléens, d'opérateurs qu ntègrent des heurstques type TFIF et des opérateurs permettant de spécfer des contrantes sur les attrbuts a été développé dans le cadre d'une mplémentaton qu permet de fusonner nformaton structurée et texte lbre (PCATA) contenus dans les documents XML. Les résultats obtenus qu s'exprment en terme de vtesse d'ndexaton, taux d'occupaton mémore et temps de réponse démontrent la fasablté de l'approche proposée pour le tratement de grands volumes de données. La procédure de valdaton reste néanmons lmtée. Une étude comparatve entre dfférentes approches n a pas pu être menée à ben à ce jour, faute de protocole d évaluaton adapté. Par alleurs, les mécansmes de recherche approxmatve sur les éléments structurels ms en jeux n ont pas d équvalent à notre connassance, ce qu lmte en sot toute étude comparatve. Les perspectves envsagées à ce jour concernent l'élargssement des fonctonnaltés algorthmques pour trater d'autres types de données non structurées telles que les séres temporelles ou les données séquentelles. Elles concernent également l élargssement des opérateurs dédés à la constructon des requêtes tels que les opérateurs de jonture ou encore les opérateurs de satsfacton floue des contrantes sur les attrbuts. Enfn la parallélsaton des algorthmes d ndexaton et de recherche proposés consttue un derner axe nécessare de développement pour l explotaton des prncpes proposés dans le contexte de la geston des grandes masses de données.

22 Technque et scences nformatques. Volume 22 n 7-8/2003, Pages 1011-1034 6 eferences Abteboul S. «Queryng sem-structured data». In F. Afrat and Ph. Kolats, edtors, Proc. of the 6th Int. Conf. on atabase Theory (ICT), Lecture Notes n Computer Scence 1186, pages 1-18. Sprnger, January 1997. Baeza-Yates. and Navarro G. «Proxmal Nodes: A Model to query document databases by contents and structure», ACM Transactons on Informaton Systems 15 (4), October 1997, pp. 401-435., 1997. Bellman,.E. and L.A. Zadeh.. «ecson Makng n a Fuzzy Envronment», Management Scence, 17,141-164, 1970. Bonfat A., Cer S. «Comparatve Analyss of Fve XML Query Languages» ACM SIGMO Volume 29 Issue 1 P.68-69 Mars 2000 Bray T., Paol J., Sperberg-McQueen C.M., Maler E. «Extensble Markup Language (XML)» 1.0 (Second Edton) W3C ecommendaton 6 October 2000. Chanod J.P.- «Natural Language Processng and gtal Lbrares», n Informaton Extracton, ed. M.T.Pazenza, LNAI 1714, pp.17-31, 1999. Fagn., «Fuzzy querres n multmeda database systems», Proc. ACM SIGACT-SIGMO- SIGAT symposum of database systems,, pages 1--10, June 1998. IBM (Internatonal Busness Machne Corporaton), XML Extender (Admnstraton and Programmng), 2000 Le Monde, Electronc archvng of "Le Monde" artcles started on 1 January 1987. http://www.elra.nfo/, 1987. Levensten A., «Bnary Codes Capable of Correctng eletons, Insertons and eversals». Sov.Phy. ohl. Vol.10, P.707-710, 1966 de Loupy Claude, «Évaluaton de l Apport de Connassances Lngustques en ésambguïsaton Sémantque et echerche ocumentare», Thèse de doctorat, Laboratore d Informatque d Avgnon, Unversté d Avgnon et des Pays de Vaucluse, 1999 Méner G., Marteau P.F., «Informaton retreval n heterogeneous XML knowledge bases», The 9th Internatonal Conference on Informaton Processng and Magement of Uncertanty n Knowledge-Based Systems, IEEE, 1-5 July, Annecy, France, 2002. Mgnet L, Barbosa. and Veltr P., (2002) «The XML Web: a Frst Study». In Proceedngs of the Twelfth Internatonal World Wde Web Conference. MeSH, the Natonal Lbrary of Medcne's controlled vocabulary thesaurus. http://www.nlm.nh.gov/mesh/meshhome.html euters Corpus, Englsh language, Vol. 1, 1996-08-20 to 1997-08-19, http://www.reuters.com/researchandstandards/corpus, 2000. evault J., «Propagaton of Pertnence Indcator usng stance Models», The 9th Internatonal Conference on Informaton Processng and Magement of Uncertanty n Knowledge-Based Systems, IEEE, 1-5 July, Annecy, France, 2002.

Algnement approxmatfs d arbres pour la recherche d nformaton en contexte 23 J. obe, J. Lapp,. Schach, «XML Query Language (XQL)», W3C-QL '98 workshop paper: http://www.w3.org/tands/ql/ql98/pp/xql.html, 1998. Salton G. and Buckeley C., «Term-weghtng approaches n automatc text retreval», Informaton Processng and Management, 24, 513-523, 1988 Scheffner., Conrad. «Access Support Tree & TextArray: A Model for Physcal Storage of XML ocuments». Workshop "Web atabases" of the Annual Conference of the German and Austran Computer Socetes 26.- 28. September 2001 n Venna, Austra Sedel. and Aragon C.. «andomzed Bnary Search Trees». Algorthmca, 16(4/5):464-497, 1996. Soboroff I., oes «WT10g look lke the web?» Proceedngs of the 25th annual nternatonal ACM SIGI conference on esearch and development n nformaton retreval, 2002, Tampere, Fnland Sowa J.F.- «eadng Template to Language and Logc, ed. Pazenza», Informaton Extracton, LNAI, 1714, pp.95-119, Sprnger-Verlag, 1999 Sung Hyon Myaeng and ong-hyun Jang. «A flexble model for retreval of sgml documents». SIGI98, 1998. Ta, K.C «The tree to tree correcton problem». J.ACM, 26(3):422-433, 1979. Todrascu A., de Beuvron F., «Usng escrpton Logcs for Ontology Extracton», Conférence TALN 2000, Lausanne, 16-18 octobre, 2000 TEC, The Text Etreval Conference (TEC), http://trec.nst.gov/, 2002. TEC 10, http://trec.nst.gov/pubs/trec10/t10_proceedngs.html, 2001 Wagner., Fsher M. «The Strng-to-Strng Correcton Problem». Journal of the Assocaton for Computng Machnery, Vol.12, No.1, p.168-173, 1974 Wang T.L.J, Shapro B., Shasha., Zhang K., Currey K.M.. «An algorthm for fndng the largest approxmately common substructures of two trees». In J. IEEE Pattern Analyss and Machne Intellgence, vol.20, N 8, August 1998. J.E. Wolff, H. Flörke, A.B. Cremers: "XPES: a ankng Approach to etreval on Structured ocuments". Techncal eport IAI-T-99-12, Unversty of Bonn, ftp://ftp3.nformatk.un-bonn.de/pub/paper/tr/iai-t-99-12.ps.gz, July 1999. Xerces- XML parsers n Java, C++ (wth Perl and COM bndngs). http://xml.apache.org/, 2002. XQuery by Xhve http://www.xhve.com/ Yager,.. «Multple Objectve ecson-makng Usng Fuzzy Sets» Intl. J. Man-Machne Studes, 9, 375-382, 1977. Zadeh. L.A.. «Fuzzy Sets» Informaton and Control, 8, 338-353, 1965 Zhao B. Y., Anthony Joseph, «XSet: A Lghtweght XML Search Engne for Internet Applcatons», http://www.cs.berkeley.edu/~ravenben/xset/, 1999.

24 Technque et scences nformatques. Volume 22 n 7-8/2003, Pages 1011-1034 Bographe Perre-Franços Marteau est professeur des unverstés à l'unversté de Bretagne Sud. Il est ngéneur de l Ecole Natonale Supéreure d Electronque, d Informatque et de adoélectrcté de Bordeaux, docteur de l Insttut Natonal Polytechnque de Grenoble. Il anme le thème «Apprentssage et echerche d Informaton» (APIME) au sen du laboratore de recherche VALOIA. Ses recherches sont centrées sur la modélsaton et le tratement de données numérques et symbolques. Gldas Méner est Maître de conférences au laboratore Valora de L'Unversté de Bretagne Sud et partcpe à l'anmaton du groupe APIME (Apprentssage echerche d'informaton et Modélsaton de l'expertse). Il est ttulare d'un doctorat de ennes, IISA dans le domane de l'nterprétaton de forme par méthode évolutonnste. Ses centres d'ntérêt regroupent les méthodes d'apprentssage automatque et l'ntellgence artfcelle non symbolque et les applcatons dans le domane de la recherche d'nformaton.