Participation de Saint-Étienne à la compétition INEX2006

Participation de Saint-Étienne à la compétition INEX2006 Université Jean Monnet (UJM) - Ecole Nationale Supérieure des Mines (EMSE) Saint-Étienne 12 octobre 2006 1/16

INEX-2006 INitiative for the Evaluation of XML Retrieval http://inex.is.informatik.uni-duisburg.de/2006/ Participants : 80 centres de recherche (dont 7 français) Contexte : Recherche d information Content-oriented XML retrieval Objet : Évaluation et comparaison des performances des systèmes de recherche d information (SRI) des participants Modalités : Construction collaborative d une collection de test 2/16

INEX-2006 Déroulement de la compétition 1) Constitution du corpus de documents XML : Wikipédia 2) Proposition de plusieurs défis 3) Proposition de topics par les participants 4) Sélection des topics par INEX 5) Expérimentations : traitement des topics par les SRI 6) Évaluation par les participants des réponses fournies par les SRI (pooling) 7) Évaluation des SRI par INEX 3/16

1) Corpus de documents XML : Wikipédia 2002 : Journaux scientifiques (IEEE, Computer Society) 2006 : Collection de documents issus de Wikipédia Volume (anglais) : 4,5 Go (txt + XML), 1,5 Go (txt) Nombre de documents : 659.388 articles Nombre moyen de noeuds par article : 161,35 Nombre de noeuds XML : 106 Millions Profondeur moyenne d un article : 6,72 4/16

Exemple d article Geraldton, Western Australia 5/16

2) Différents défis 9 défis (tracks) : Adhoc Natural language processing (NLP) Mais aussi : Relevance feedback (RF), Heterogeneous collection (Het.), Interactive (itrack), Multimedia (MM), XML Document mining (XDM), User-case studies (UCS), XML Entity Ranking (XER). Un défi peut contenir plusieurs tâches (tasks). Ex. Ad-Hoc : classer tous les éléments de tous les articles / retrouver le meilleur élément pour chaque article 6/16

Le défi Adhoc (EURISE + ENSM.SE) http://inex.is.informatik.uni-duisburg.de/2006/inex06/adhoc.jsp Topics : conditions relatives au contenu et à la structure Requête Content-Only (CO) : utilisation du contenu Requête Content + Structure (CO+S) : utilisation du contenu et des contraintes précisant : le type d éléments pertinents où rechercher les éléments pertinents Exemple : Je recherche des paragraphes extraits de documents dont le titre contient le mot Lyon Résultats retournés par les SRI : parties de documents (article, sections, paragraphes,...) 7/16

Les 4 tâches du défi Adhoc Thorough : classer tous les éléments de tous les articles Focused : pas de recouvrement Relevant in context : éléments groupés par article Best in context : retrouver le meilleur élément pour chaque article 8/16

Le défi NLP, tâche NLQ2NEXI (Xavier Tannier ENSM.SE) Construction de requêtes en NEXI à partir de topic formulé en langue naturelle. Exemple : We are searching paragraphs dealing with version management in articles about object databases. //article[about(.,"object databases")] //p[about(.,"version management")] 9/16

3) Proposition de topics par les participants Proposition par les participants de topics intéressants Interface basée sur Top-X (SRI XML d INEX) An Efficient and Versatile Query Engine for TopX Search, M. Theobald et al., VLDB 05 Sélection de 125 topics par INEX Exemple de topic 10/16

Exemple de Topic Australia s involvement in Echelon spy network <?xml version= 1.0 encoding= ISO-8859-1?> <!DOCTYPE inex topic SYSTEM topic.dtd > <inex topic topic id= 373 ct no= 144 > <title>australia s involvement in Echelon spy network</title> <castitle>//article[about(., spy network )]//*[about(., Australia Echelon)]</castitle> <description>any documents or document elements that mention or discuss Australia s involvement in the Echelon spy network.</description> <narrative>as an Australian computer scientist interested in the use and abuse of information technology, I am interested in all references to Australia s involvement in the Echelon spy network. To be relevant answers must specifically mention Australia s involvement in Echelon or provide details of Australian ground stations used by Echelon. </narrative> <ontopic keywords> spy network, Australia, Echelon </ontopic keywords> </inex topic> 11/16

5) Expérimentations : traitement des topics par les SRI Propagation de pondération, requêtes Content-Only Un modèle d hyperdocument en contexte pour la recherche d information structurée sur le Web, M. Géry, Revue ISI, 2002 Indexation d un document structuré arborescent : Indexation des éléments feuilles (modèle vectoriel, tf*idf, pondération BM25) Remontée des pondérations Prise en compte du chemin de lecture : propagation transversale 12/16

5) Expérimentations : traitement des topics par les SRI Utilisation de proximité et de requêtes booléennes, requêtes Content-Only Texte plat : XXXXAXXXBXXXXX A X X X X A X X X B X X B X X X X A X X X B X X A & B X X X X A X X X B X X vs structuré : <section><title>xxxxa</title>xxxbxxxxx</section> title A X X X X A X X X B X X B X X X X A X X X B X X A & B X X X X A X X X B X X 13/16

6) Évaluation des réponses des SRI (réalisée par les participants) 3 topics par participant Jugement de pertinence : éléments des articles dont au moins un des éléments a été retourné par un des SRI 1,500 éléments retournés par topic et par SRI Un topic = un juge : maîtrise du besoin d information, consistance des jugements Interface : surligner les fragments de texte pertinents préciser le best entry point (BEP) 14/16

7) Évaluation des SRI par INEX Rappel / Précision : un bon SRI est un SRI qui renvoie tous les éléments pertinents et uniquement les éléments pertinents Évaluation RI XML en fonction : de la pertinence des réponses (contenu) du niveau de granularité de l élément retourné (structure) Un bon élément est un élément exhaustif et spécifique (e/s) à l aide de la mesure XCG (extended Cumulated Gain) INEX 2005 Evaluation Metrics, G. Kazai, M. Lalmas, INEX Workshop 2005 15/16

Conclusion Données réelles (type, taille) Différents défis Contexte motivant : compétition, workshop Évaluation par rapport à l état de l art Évaluation / validation des idées à un coût abordable 16/16