Participation de Saint-Étienne à la compétition INEX2006

Documents pareils
Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

PRODUCTS LIST (updated 11th January 2010)

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Métiers - informatique et Internet Jobs - IT and Internet

Notice Technique / Technical Manual

Instructions Mozilla Thunderbird Page 1

Forthcoming Database

Editing and managing Systems engineering processes at Snecma

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne *** Online Applications Tutorial

Application Form/ Formulaire de demande

Distinguer les requêtes pour améliorer la recherche d information XML

SYLLABS Claude de Loupy

Hervé Couturier EVP, SAP Technology Development

MANUEL MARKETING ET SURVIE PDF

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF

Mise en place d un système de cabotage maritime au sud ouest de l Ocean Indien. 10 Septembre 2012

Recherche d information textuelle

DOCUMENTATION - FRANCAIS... 2

Proposition des cadres d évaluation adaptés à un système de RI personnalisé

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

AccuRead OCR. Guide de l'administrateur

RI sociale : intégration de propriétés sociales dans un modèle de recherche

Une méthode d apprentissage pour la composition de services web

Introduction à la Recherche d information

SQL Server et Active Directory

Discours du Ministre Tassarajen Pillay Chedumbrum. Ministre des Technologies de l'information et de la Communication (TIC) Worshop on Dot.

CEST POUR MIEUX PLACER MES PDF

McGILL UNIVERSITY MARTLET CLASSIC UNIVERSITE McGILL CLASSIQUE MARTLET

Adaptation du modèle de langue pour le tri des réponses dans les BD

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

Recherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus

2011 Hakim Benameurlaine 1

Digital Marketing : 14 et 15 septembre Retargeting : Garder le contact avec son audience

Completed Projects / Projets terminés

Contents Windows

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

Flottes privatives Une gestion maîtrisée Fleet management The management expert

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Gestion des références bibliographiques. Comment simplifier la gestion des références bibliographiques?

Embases pour raccordement G1/8 - G1/4

Installation d'un serveur RADIUS

Practice Direction. Class Proceedings

Offre SEO/SMO. Le référencement au cœur de votre stratégie web marketing. Tous droits réservés Emencia

Forge. Présentation ( )

SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL

affichage en français Nom de l'employeur *: Lions Village of Greater Edmonton Society

Offre SEO/SMO. Le référencement au cœur de votre stratégie web marketing. Tous droits réservés Emencia

FÉDÉRATION INTERNATIONALE DE NATATION Diving

FTP : File TRansfer Protocol => permets d envoyer des gros fichiers sur un serveur (ou de télécharger depuis le serveur)

Enhancing cybersecurity in LDCs thru multi-stakeholder networking and free software

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

ICA Congress, Brisbane 2012 Thème général : Les temps qui changent. La confiance et les archives*

Must Today s Risk Be Tomorrow s Disaster? The Use of Knowledge in Disaster Risk Reduction

Extended communication server 4.1 : VoIP SIP service- Administration

Titulaires de marques

DOSSIER DE CANDIDATURE APPLICATION FORM

RETHINKING JACQUES ELLUL AND THE TECHNOLOGICAL SOCIETY IN THE 21ST CENTURY REPENSER JACQUES ELLUL ET LA SOCIETE TECHNICIENNE AU 21EME SIECLE

Data issues in species monitoring: where are the traps?

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Google AdWords : le Guide complet Optimisez vos campagnes pour gagner plus!

DOCUMENTATION - FRANCAIS... 2

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

The UNITECH Advantage. Copyright UNITECH International Society All rights reserved. Page 1

Supervision et infrastructure - Accès aux applications JAVA. Document FAQ. Page: 1 / 9 Dernière mise à jour: 15/04/12 16:14

Déploiement OOo en environnement Windows Terminal Server

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

THE EVOLUTION OF CONTENT CONSUMPTION ON MOBILE AND TABLETS

Règlement sur le télémarketing et les centres d'appel. Call Centres Telemarketing Sales Regulation

CETTE FOIS CEST DIFFERENT PDF

L installation a quelque peu changée depuis les derniers tutos, voici une actualisation.

F1 Security Requirement Check List (SRCL)

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Paxton. ins Net2 desktop reader USB

SparkInData. Place de Marché des applications Spatiales

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

PHOTO ROYAUME DE BELGIQUE /KINDOM OF BELGIUM /KONINKRIJK BELGIE. Données personnelles / personal data

VMware : De la Virtualisation. au Cloud Computing

Stratégie DataCenters Société Générale Enjeux, objectifs et rôle d un partenaire comme Data4

AGROBASE : un système de gestion de données expérimentales

JES Report Broker. Campus Technologies. SAE de CHALEMBERT 1 Rue Blaise PASCAL JAUNAY-CLAN info@campustec.

Les Portfolios et Moodle Petit inventaire

SQL Parser XML Xquery : Approche de détection des injections SQL

PeTEX Plateforme pour e-learning et expérimentation télémétrique

WordPress Référencement naturel (SEO) Optimiser. son référencement. Daniel Roch. Préface d Olivier Andrieu

Etre visible et Performant en E Tourisme. 13:31:39 Posez vos questions aux intervenants, réagissez sur #ADLW

Marketing et responsabilité sociétale de l entreprise : entre civisme et cynisme

Les journées SQL Server 2013

UML : Unified Modeling Language

E-Health evaluation at stake

APPENDIX 6 BONUS RING FORMAT

Utiliser un proxy sous linux

COPYRIGHT Danish Standards. NOT FOR COMMERCIAL USE OR REPRODUCTION. DS/EN 61303:1997

SERVEUR DÉDIÉ DOCUMENTATION

MODERN LANGUAGES DEPARTMENT

Language requirement: Bilingual non-mandatory - Level 222/222. Chosen candidate will be required to undertake second language training.

CRÉER UN DVD VIDEO avec DVD FLICK (avec ou sans menu)

Transcription:

Participation de Saint-Étienne à la compétition INEX2006 Université Jean Monnet (UJM) - Ecole Nationale Supérieure des Mines (EMSE) Saint-Étienne 12 octobre 2006 1/16

INEX-2006 INitiative for the Evaluation of XML Retrieval http://inex.is.informatik.uni-duisburg.de/2006/ Participants : 80 centres de recherche (dont 7 français) Contexte : Recherche d information Content-oriented XML retrieval Objet : Évaluation et comparaison des performances des systèmes de recherche d information (SRI) des participants Modalités : Construction collaborative d une collection de test 2/16

INEX-2006 Déroulement de la compétition 1) Constitution du corpus de documents XML : Wikipédia 2) Proposition de plusieurs défis 3) Proposition de topics par les participants 4) Sélection des topics par INEX 5) Expérimentations : traitement des topics par les SRI 6) Évaluation par les participants des réponses fournies par les SRI (pooling) 7) Évaluation des SRI par INEX 3/16

1) Corpus de documents XML : Wikipédia 2002 : Journaux scientifiques (IEEE, Computer Society) 2006 : Collection de documents issus de Wikipédia Volume (anglais) : 4,5 Go (txt + XML), 1,5 Go (txt) Nombre de documents : 659.388 articles Nombre moyen de noeuds par article : 161,35 Nombre de noeuds XML : 106 Millions Profondeur moyenne d un article : 6,72 4/16

Exemple d article Geraldton, Western Australia 5/16

2) Différents défis 9 défis (tracks) : Adhoc Natural language processing (NLP) Mais aussi : Relevance feedback (RF), Heterogeneous collection (Het.), Interactive (itrack), Multimedia (MM), XML Document mining (XDM), User-case studies (UCS), XML Entity Ranking (XER). Un défi peut contenir plusieurs tâches (tasks). Ex. Ad-Hoc : classer tous les éléments de tous les articles / retrouver le meilleur élément pour chaque article 6/16

Le défi Adhoc (EURISE + ENSM.SE) http://inex.is.informatik.uni-duisburg.de/2006/inex06/adhoc.jsp Topics : conditions relatives au contenu et à la structure Requête Content-Only (CO) : utilisation du contenu Requête Content + Structure (CO+S) : utilisation du contenu et des contraintes précisant : le type d éléments pertinents où rechercher les éléments pertinents Exemple : Je recherche des paragraphes extraits de documents dont le titre contient le mot Lyon Résultats retournés par les SRI : parties de documents (article, sections, paragraphes,...) 7/16

Les 4 tâches du défi Adhoc Thorough : classer tous les éléments de tous les articles Focused : pas de recouvrement Relevant in context : éléments groupés par article Best in context : retrouver le meilleur élément pour chaque article 8/16

Le défi NLP, tâche NLQ2NEXI (Xavier Tannier ENSM.SE) Construction de requêtes en NEXI à partir de topic formulé en langue naturelle. Exemple : We are searching paragraphs dealing with version management in articles about object databases. //article[about(.,"object databases")] //p[about(.,"version management")] 9/16

3) Proposition de topics par les participants Proposition par les participants de topics intéressants Interface basée sur Top-X (SRI XML d INEX) An Efficient and Versatile Query Engine for TopX Search, M. Theobald et al., VLDB 05 Sélection de 125 topics par INEX Exemple de topic 10/16

Exemple de Topic Australia s involvement in Echelon spy network <?xml version= 1.0 encoding= ISO-8859-1?> <!DOCTYPE inex topic SYSTEM topic.dtd > <inex topic topic id= 373 ct no= 144 > <title>australia s involvement in Echelon spy network</title> <castitle>//article[about(., spy network )]//*[about(., Australia Echelon)]</castitle> <description>any documents or document elements that mention or discuss Australia s involvement in the Echelon spy network.</description> <narrative>as an Australian computer scientist interested in the use and abuse of information technology, I am interested in all references to Australia s involvement in the Echelon spy network. To be relevant answers must specifically mention Australia s involvement in Echelon or provide details of Australian ground stations used by Echelon. </narrative> <ontopic keywords> spy network, Australia, Echelon </ontopic keywords> </inex topic> 11/16

5) Expérimentations : traitement des topics par les SRI Propagation de pondération, requêtes Content-Only Un modèle d hyperdocument en contexte pour la recherche d information structurée sur le Web, M. Géry, Revue ISI, 2002 Indexation d un document structuré arborescent : Indexation des éléments feuilles (modèle vectoriel, tf*idf, pondération BM25) Remontée des pondérations Prise en compte du chemin de lecture : propagation transversale 12/16

5) Expérimentations : traitement des topics par les SRI Utilisation de proximité et de requêtes booléennes, requêtes Content-Only Texte plat : XXXXAXXXBXXXXX A X X X X A X X X B X X B X X X X A X X X B X X A & B X X X X A X X X B X X vs structuré : <section><title>xxxxa</title>xxxbxxxxx</section> title A X X X X A X X X B X X B X X X X A X X X B X X A & B X X X X A X X X B X X 13/16

6) Évaluation des réponses des SRI (réalisée par les participants) 3 topics par participant Jugement de pertinence : éléments des articles dont au moins un des éléments a été retourné par un des SRI 1,500 éléments retournés par topic et par SRI Un topic = un juge : maîtrise du besoin d information, consistance des jugements Interface : surligner les fragments de texte pertinents préciser le best entry point (BEP) 14/16

7) Évaluation des SRI par INEX Rappel / Précision : un bon SRI est un SRI qui renvoie tous les éléments pertinents et uniquement les éléments pertinents Évaluation RI XML en fonction : de la pertinence des réponses (contenu) du niveau de granularité de l élément retourné (structure) Un bon élément est un élément exhaustif et spécifique (e/s) à l aide de la mesure XCG (extended Cumulated Gain) INEX 2005 Evaluation Metrics, G. Kazai, M. Lalmas, INEX Workshop 2005 15/16

Conclusion Données réelles (type, taille) Différents défis Contexte motivant : compétition, workshop Évaluation par rapport à l état de l art Évaluation / validation des idées à un coût abordable 16/16