Rapport OUTILEX. 1 Introduction. Laboratoire d'informatique de Paris 6 B. Piwowarski. September 18, 2006



Documents pareils
Dans cette définition, il y a trois notions clés: documents, requête, pertinence.

Chapitre 1 : Introduction aux bases de données

Langage HTML (2 partie) <HyperText Markup Language> <tv>lt La Salle Avignon BTS IRIS</tv>

Gestion collaborative de documents

TEXT MINING von 7

Distinguer les requêtes pour améliorer la recherche d information XML

Architecture N-Tier. Ces données peuvent être saisies interactivement via l interface ou lues depuis un disque. Application

Brève introduction à la recherche d!information sur le Web à base d!agents logiciels

LA QUALITE DU LOGICIEL

Éléments d'architecture des ordinateurs

Problème : Calcul d'échéanciers de prêt bancaire (15 pt)

Architecture d'entreprise : Guide Pratique de l'architecture Logique

Livre Blanc WebSphere Transcoding Publisher

Guide DinkeyWeb. DinkeyWeb solutions d authentification et de contrôle d accès WEB

TP : Shell Scripts. 1 Remarque générale. 2 Mise en jambe. 3 Avec des si. Systèmes et scripts

Conservation des documents numériques

OASIS Date de publication

Information utiles. webpage : Google+ : digiusto/

Conduite et Gestion de Projet - Cahier des charges

Nouveau Web Client marquant, Cumulus Video Cloud, optimisations de la base de données, et plus..

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Compte-rendu de projet de Système de gestion de base de données

Observation des modalités et performances d'accès à Internet

MEDIAplus elearning. version 6.6

Cours Langage C/C++ Programmation modulaire

7 S'abonner aux notifications des nouveaux appels

Introduction aux SGBDR

Université de Lausanne

Recherche dans un tableau

PROSOP : un système de gestion de bases de données prosopographiques

L'évolution de VISUAL MESSAGE CENTER Architecture et intégration

(VM(t i ),Q(t i+j ),VM(t i+j ))

Serveur de travail collaboratif Michaël Hoste -

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

Systèmes d'alarme intrusion AMAX Simple et fiables


INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE

TIC. Panorama. L'industrie de l'information et de la communication la première industrie japonaise

1 JBoss Entreprise Middleware

Bases de Données. Plan

Ecole Préparatoire SNV Université d Oran Semestre /2015 Matière : Travaux d Initiative Personnelle Encadrés (TIPE) Prof. M. Z.

CONCEPTION Support de cours n 3 DE BASES DE DONNEES

Conditions : stage indemnisé, aide au logement possible, transport CEA en Ile-de-France gratuit.

I.1 Introduction. I.2 La recherche d information. I.2.1 Définitions

FOIRE AUX QUESTIONS PAIEMENT PAR INTERNET. Nom de fichier : Monetico_Paiement_Foire_aux_Questions_v1.7 Numéro de version : 1.7 Date :

Programmation Web. Madalina Croitoru IUT Montpellier

GUIDE DE L UTILISATEUR Recoveo Récupérateur de données

Télécom Nancy Année

Optimiser le référencement naturel de son site web

Mémoire DEA Système d'information Management and Technology of Information Systems

Utiliser Access ou Excel pour gérer vos données

PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS

Nécessité de concevoir un outil de recherche PDF Présentation des fonctionnalités d'indexation et de recherche... 3

En savoir plus pour bâtir le Système d'information de votre Entreprise

Guide de configuration de SQL Server pour BusinessObjects Planning

Exploration des technologies web pour créer une interaction entre Mahara et les plateformes professionnelles et sociales

Qu'est-ce qu'un moteur de recherche. Moteur de recherche sur Internet

Gestion electronique de document

Projet E-formation. Système MOODLE_ COLLABORATIF. Spécifications fonctionnelles

ADDENDA AU CONTRAT BLACKBERRY SOLUTION DE LICENCE POUR WATCHDOX CLOUD DE BLACKBERRY («le ADDENDA»)

La gestion électronique de documents

Manuel d Utilisateur - Logiciel ModAFi. Jonathan ANJOU - Maud EYZAT - Kévin NAVARRO

Raja Bases de données distribuées A Lire - Tutoriel

TP 1 : 1 Calculs en binaire, octal et hexadécimal

Recherche d information textuelle

Initiation à la recherche documentaire

Annexe A de la norme 110

SweetyPix, mode d'emploi

Speexx Basic Anglais, Français, Allemand, Italien, Espagnol,

ACCECIA Avenue André Malraux, ZI de Cana BRIVE LA GAILLARDE Tél : +33 (0) Fax +33 (0)

chapitre 4 Nombres de Catalan

PFE Télécommunications. Pré-rapport à l'issue des 6 premières semaines de stage. Page 1 sur 5 1 %

Maxpho Web Services. Maxpho Cloud Services. Date: 20 Septembre 2013 Version: 1.2 Auteur: Maxpho Ltd

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Répondre à un courrier - Transférer un courrier 20

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e :

WebDAV en 2 minutes. Tous ces objectifs sont complémentaires et ils sont atteints grâce au seul protocole WebDAV. Scénarii

Cours Base de données relationnelles. M. Boughanem, IUP STRI

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Pluridisciplinarité. Classe de BTS DATR

Formateur : Jackie DAÖN

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie

MOTEUR DE WORKFLOW Mise en oeuvre d'openwfe Version septembre 2006

MySQL. (Administrateur) (Dernière édition) Programme de formation. France, Belgique, Suisse, Roumanie - Canada

GUIDE PRATIQUE DU REFERENCEMENT NATUREL

ERP5. Gestion des Services Techniques des Collectivités Locales

Politique de gestion documentaire

Les modules SI5 et PPE2

ISTEX, vers des services innovants d accès à la connaissance

Manuel utilisateur. des. listes de diffusion. Sympa. l'université Lille 3

Climat Scolaire - Manuel utilisateur - Chapitre 2 : «Créer, Editer et suivi d un texte»

RTDS G3. Emmanuel Gaudin

Deuxième partie. Approche globale d'implémentation d'un projet PLM

Spécifications de l'offre Surveillance d'infrastructure à distance

Transcription:

Rapport OUTILEX Laboratoire d'informatique de Paris 6 B. Piwowarski September 18, 2006 1 Introduction Les systèmes de Recherche d'information (RI), permettent de rechercher dans de grand corpus électronique les documents les plus pertinents pour des demandes d'information généralement exprimées sous forme de mots-clé par des utilisateurs. Ces systèmes, popularisés par des moteurs de recherche tel que Google ou Yahoo, permettent un accès à une information dont l'unité indivisible la plus petite est le document. Cette dernière décennie, la notion de document électronique a considérablement évolué. Nous sommes passés en peu de temps d'un monde où le concept dominant était celui du document plat à savoir d'un texte constitué d'une suite de mots sans aucune information de structure à un monde où le document est devenu un objet plus complexe, structuré, et pouvant comporter diérentes médias. Cette évolution a été accélérée par le développement du Web qui propose lui même ces formats structurés pour organiser et décrire ses propres ressources. Avec cette évolution de la nature des sources d'information, sont apparus de nouveaux besoins qui visent à exploiter la richesse présente dans ces documents. Le format d'un document est aujourd'hui déni par une structure logique décrite par des instances du langages XML. Le format XML permet par exemple de structurer un document de manière logique, par exemple sous forme de chapitres, sections, et paragraphes. Chaque document XML est ainsi déni par une arborescence logique formée d'éléments (e.g. l'information structurelle) et de son contenu (image, texte, etc.). L'arborescence du document donne la possibilité d'accéder à des éléments plus n que le document entier et permet d'envisager une recherche plus précise et focalisée. Des formats particuliers ont été proposés pour standardiser certains types de documents et en faciliter ainsi leur exploitation. Le traitement de ces nouvelles sources d'information transforme profondément les domaines traditionnels de l'accès à l'information. Il faut forger de nouveaux concepts pour la représentation, le stockage, le traitement de cette information, pour l'interaction avec l'utilisateur, pour la manipulation de très grosses masses de données à fort contenu sémantique. Les outils classiques pour le traitement des informations 1

textuelles sont mal adaptés à l'exploitation de cette information bien plus riche et doivent être adaptés ou plus probablement redénis. Une première initiative internationale (INEX [1], INitiative for the Evaluation of XML Retrieval) ayant pour but de constituer un corpus de documents XML qui permette l'évaluation de systèmes de Recherche d'information Structurée (RIS) a vu le jour en avril 2002. Chaque année, un corpus de documents structurés sert de base à la constitution d'un ensemble de questions et des jugements de pertinence associés : ces derniers associent à un ensemble d'éléments du corpus un jugement qui déni la pertinence d'un élément par rapport à la question posée. Le projet Outilex vise à mettre à la disposition de la recherche, du développement et de l'industrie une plate-forme logicielle de traitement des langues naturelles ouverte et compatible avec l'utilisation de XML, d'automates nis et de ressources linguistiques. Le travail eectuée par le LIP6 a été le suivant: Développement d'un module python permettant d'utiliser certaines fonctions d'outilex depuis un programme écrit en Python; Développement d'une extension de la plateforme SIRXQL (plateforme pour l'accès à l'information structurée développée au LIP6) pour la Recherche d'information Structurée. Il a été développé les fonctionnalités suivantes: Indexation de la structure des documents XML. Pré-traitements linguistiques utilisant un lemmatiseur (TreeTagger) et Outilex pour détecter les mots-composés. Constitution de l'index permettant une recherche plus rapide dans les documents structurés. Serveur permettant de répondre à des questions composées de motsclé. 2 Modèle de recherche Le modèle de recherche utilisé dans notre projet est une version d'okapi [4] adaptée à la recherche dans des corpus structurés. Okapi est un des modèles de recherche documentaire les plus performants et est basé sur un formalisme probabiliste. Avec ce système de RI, le score attribué à un élément X pour une question q donnée est déni par: Okapi(q, X ) = longueur(q) j=1 ω j,x (k 1 + 1)tf X,j K X + tf X,j (k 3 + 1)qtf j k 3 + qtf j (1) où k 1 et k 3 sont des constantes 1, longueur(q) est le nombre de termes de la question q. L'équation (1) est similaire à celle du modèle Okapi original à 0.75) 1 Nous avons utilisé les valeurs standard des paramètres d'okapi (k3 =1.2, k 3 = 7 et b= 2

l'exception de l'indice X qui est présent dans les termes ω j,x, K X et tf X,j : Okapi utilise diérentes statistiques liées à la collection de documents et à la question pour calculer le score entre un document et une question. Parmi cellesci, la longueur moyenne d'un document et le nombre de documents dans lequel apparaît un terme doivent être adaptés à la recherche structurée. Les termes ω j,x et K X ont donc été déni de la manière suivante : ω j,x = log( N nj+0.5 n j+0.5 ). Pour Okapi N est le nombre de documents dans la collection et n j le nombre de documents contenant le terme j. Il y a diérentes possibilités pour adapter n j à la recherche structurée: il est possible de compter le nombre de documents, mais également le nombre d'éléments ou de la calculer pour les éléments d'un type donné (par exemple, calculer une statistique pour les paragraphes, une autre pour les sections, etc.). K X = k 1 ((1 b) + b dl avdl ) où b est une constante, dl la longueur du document et advdl la longueur moyenne des documents. Comme pour ω, la statistique advdl peut être calculée de diérentes manières dans un corpus structuré : il est possible de calculer la longueur moyenne des éléments, des éléments de même type ou bien encore des éléments qui sont apparaissent au même niveau de la hiérarchie. Les résultats obtenus avec le corpus d'inex 2004 ont montré qu'un des meilleurs modèles combinait : Le calcul de n j comme le nombre d'éléments dans lequel apparaît un terme donné. Le calcul de advdl comme la moyenne des éléments de même type. C'est ce modèle qui a été développé dans SIRXQL. Notons qu'il serait facile d'intégrer des variations de ce modèle au sein de ce projet, ainsi que de proposer des modèles plus complexes comme par exemple des modèles capables d'apprendre leurs paramètres. Pour le pré-traitement, nous avons utilisé tree tagger [3], un lemmatiseur basé sur un modèle d'arbre de décision probabiliste. Outilex a été utilisé pour la détection de mots composés : la Figure 1 est une représentation graphique de la (très simple) grammaire utilisée pour la détection de mots-clé. Dans le futur, il sera facile de détecter d'autres formes composées utiles pour la recherche d'information. 3 Implémentation Le module décrit dans la section précédente a été dans l'environnement SIRXQL, une plateforme pour l'accès à l'information structurée qui s'appuie sur un ensemble de scripts qui manipulent des tables stockées dans une base de données (BDD) telle que MySQL. Voici l'ensemble des scripts développés dans le cadre du projet Outilex: 3

Figure 1: Grammaire WRTN utilisée pour détecter les mots-clé 1. Copie un ensemble de chiers XML dans la BDD. 2. Indexation structurelle des chiers XML en employant le codage presize, où chaque élément du corpus XML est identié par un entier. Ce codage permet une identication rapide des éléments qui contiennent ou contenant un ou des éléments de référence, permettant ainsi une recherche plus rapide. 3. Indexation linguistique, en utilisant TreeTagger et optionnellement Outilex pour la détection des mots-clefs. Une interface en Python a été spécialement développée an de permettre l'appel aux fonctions de l'api d'outilex. 4. Recherche structurée: l'algorithme Okapi décrit dans la sections précédente. 5. Serveur XMLRPC: Un serveur permettant de répondre à des appels XML- RPC, permettant ainsi d'avoir un serveur de recherche structuré. 4 Expériences Des expériences ont été conduites pour déterminer l'inuence de l'utilisation d'outilex pour détecter les mots-clé sur les performances. La collection utilisée est celle d'inex 2005, constituée de 16819 documents de revues de IEEE pour une période allant de 1995 à 2004, pour un total de 11 million d'éléments et de 764Mo. Les documents sont de tailles variées et leur contenu couvre l'intégralité des domaines de recherche en informatique. Deux expériences ont été conduites, l'une en utilisant uniquement TreeTagger pour l'indexation, l'autre utilisant TreeTagger et Outilex. Parmi l'ensemble des questions d'inex 2005, celles composées de mots-clé uniquement ont été utilisées. La mesure d'évaluation utilisée pour comparer les performances des deux systèmes de recherche d'information ainsi obtenus est la mesure ocielle d'inex 2005 décrite dans [2]: il s'agit d'une métrique spécique à la recherche d'information structurée. Les évaluations eectuées avec cette métrique se représentent sous forme de courbes eort - gain. Le gain (entre 0 et 1, en ordonnée) correspond au pourcentage d'éléments pertinents retrouvés par le moteur de recherche. 4

0.08 0.07 Outilex + TreeTagger TreeTagger 0.06 0.05 0.04 0.03 0.02 0.01 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Figure 2: Comparaison des performances du système de recherche avec et sans l'utilisation d'outilex pour la détection des mots clefs. La courbe est un graphe eort (abcisse)-gain (ordonnée) L'eort, entre 0 et 1 également, correspond à la proportion d'eort supplémentaire nécessaire par rapport à un système idéal. Par exemple, le point de gain 0.2 et d'eort 0.05 signie que pour retrouver 20% des éléments pertinents pour la demande d'information de l'utilisateur, celui-ci devra considérer 20 fois plus d'items dans la liste retourner que si celui-ci avait utilisé le meilleur de recherche qu'il est possible d'imaginer. La gure 2 compare les performances de deux systèmes dont la seule différence tient dans l'indexation pour une des tâches d'inex où le but est de retourner les éléments pertinents, en plaçant ceux qui ont la meilleure taille en premier (ainsi, un paragraphe ne contenant que du texte pertinent doit être placé avant la section qui le contient). Les courbes montrent une légère diérence à l'avantage de l'indexation des mots-clé, en particulier pour des niveaux de gains faibles: il y a bien là un gain dans la précision des éléments renvoyés. Nous avons également eectué un test statistique an de vérier la diérence entre les deux modèles au niveau de l'eort moyen (équivalent de la précision moyenne utilisée couramment en recherche d'information), mais sans arriver à aucune conclusion dénitive. Le test utilisé est le t-test de Student avec un niveau de conance de 0,95. Il faudrait plus de questions avant de pouvoir armer que statistiquement la détection des mots-clé est un avantage au niveau de l'eort moyen. Avant de mener des expériences plus approfondies, il serait bon d'aner les paramètres du modèle an de l'amener au niveau des meilleurs modèles de recherche d'information structurée. 5 Conclusions Ce rapport a présenté le travail eectué par le LIP6 dans le cadre du projet Outilex. L'apport principal du LIP6 est le développement d'un moteur de recherche 5

d'information capable de travailler avec des corpus de documents structurés tels que les documents XML. Des expériences permettant d'étudier l'apport de traitements linguistiques plus poussés, tel la détection de mots-clé, ont été conduites. Les premières expériences montrent que ce type de pré-traitement améliore la précision du moteur de recherche. Des expériences supplémentaires sont nécessaires pour valider statistiquement l'amélioration. References [1] Norbert Fuhr, Mounia Lalmas, Saadia Malik, and Gabriella Kazai, editors. INEX 2005 Proceedings, 2005. [2] Gabriella Kazai, Lalmas Mounia, and Arjen de Vries. Reliability tests for the xcg and INEX 2002 metrics. In Norbert Fuhr, Mounia Lalmas, Saadia Malik, and Zoltán Szlávik, editors, INEX 2004 Proceedings, 2004. [3] Helmut Schmid. Probabilistic part-of-speech tagging using decision trees. In International Conferenceon New Methods in Language Processing, Manchester, UK, 1994. [4] S. Walker and Stephen E. Robertson. Okapi/keenbow at TREC-8. In E. M. Voorhees and D. K. Harman, editors, NIST Special Publication 500-246: The Eighth Text REtrieval Conference (TREC-8), Gaithersburg, Maryland, USA, November 1999. 6