Expansion sémantique de requêtes



Documents pareils
De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie

Concevoir sa stratégie de recherche d information

Formation à la recherche documentaire sur le web

Hervé Couturier EVP, SAP Technology Development

Présentation générale du projet data.bnf.fr

Table des matières. Préface...5. Introduction...9

Cognit Ive Cas d utilisation

N. Paparoditis, Laboratoire MATIS

Recherche bibliographique

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

TEXT MINING Tour d Horizon

Apprentissage Automatique

Ressources lexicales au service de recherche et d indexation des images

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

1 Description générale. Résumé

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Une plate-forme open-source de recherche d information sémantique

Exploitation de hiérarchies sémantiques construites à partir du Trésor de la Langue Française informatisé (TLFi) pour la recherche d images

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Initiation à la recherche documentaire

Évaluation d une architecture de stockage RDF distribuée

Quels apprentissages info-documentaires au collège?

ISTEX, vers des services innovants d accès à la connaissance

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Proposition des cadres d évaluation adaptés à un système de RI personnalisé

TiLT : plate-forme pour le traitement automatique des langues naturelles

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

TYPO3 & Synomia Cédric Tempestini <ctempestini@archriss.com>

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

Indexation sémantique au moyen de coupes de redondance minimale dans une ontologie

Qu'est-ce qu'un moteur de recherche. Moteur de recherche sur Internet

Vue Générale et Cas d Usage

La recherche documentaire et la recherche d informations professionnelles. BU Sciences BIU Montpellier PPE 2012

Intégration de la dimension sémantique dans les réseaux sociaux

Le bénéfice maximal de votre documentation

La recherche d'information sur Internet

OASIS Date de publication

Initiation à la recherche documentaire LA RECHERCHE SUR INTERNET

D origine destiné à la conception de blog, WordPress est devenu l outil incontournable dans la liste des systèmes de gestion de contenus..

Sécurisation du stockage de données sur le Cloud Michel Kheirallah

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Ecole Préparatoire SNV Université d Oran Semestre /2015 Matière : Travaux d Initiative Personnelle Encadrés (TIPE) Prof. M. Z.

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

Description de Produit Logiciel. AMI News Monitor v2.0. SPD-AMINM-10 v1.0

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

SITE INTERNET BLOG SITE E-COMMERCE GRILLE D ANALYSE / AUDIT PREMIERE ANALYSE. Entreprises. o Public spécialisé o Etudiants o Enfants

Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

Recherche d information textuelle

Application de K-means à la définition du nombre de VM optimal dans un cloud

En 2010, on compte environ 1,65 milliard d utilisateurs d internet, Introduction

Learning Object Metadata

Compte-rendu de Hamma B., La préposition en français

METTRE LE NUMÉRIQUE AU SERVICE D UN NOUVEAU MODÈLE DE BIBLIOTHÈQUE

Vocabulaire juridique multilingue comparé. Caroline Reichling Direction générale de la Traduction Cour de justice de l Union européenne

Construction et maintenance d une ressource lexicale basées sur l usage

Banque d outils d aide à l évaluation diagnostique

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Chapitre 1: Introduction générale

Open Data. Enjeux et perspectives dans les télécommunications

Le signalement des acquisitions numériques à l échelle nationale Le rôle du hub de métadonnées scénarios et prototype

04/05/2011 Amundi Liquidity A creative market introduction Date

Séminaire «Maîtrise de l information scientifique» Exploitation de l information : optimiser sa gestion documentaire

Perspectives en matière de portails géographiques et de 3D

Une approche pour l extraction automatique de structures sémantiques de documents XML

Réseaux Locaux. Objectif du module. Plan du Cours #3. Réseaux Informatiques. Acquérir un... Réseaux Informatiques. Savoir.

Fiche méthodologique Rédiger un cahier des charges

Eurateach labellisé par la région et le FAFIEC. Si vous remplissez les conditions suivantes : Votre entreprise compte moins de 250 salariés

LabCom SMILK. Social Media Intelligence and Linked Knowledge. ISTE 2013 Keynote thumb wrestling

Application de la méthode QFD comme outil d'extraction des connaissances métier en conception intégrée

La solution pour gérer vos connaissances techniques et scientifiques

Mémoire DEA Système d'information Management and Technology of Information Systems

«Innovation Intelligence» La valorisation des données massives au service des partenariats R&D. Expernova Université d été GFII

Faculté de Médecine Comité des thèses Année 2012 Séminaire-Atelier n 1

LECTURE, RECHERCHE DOCUMENTAIRE ET INDEXATION

Une méthode d apprentissage pour la composition de services web

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Formula Negator, Outil de négation de formule.

Un logiciel de contrôle parental, c est quoi?

Contrôle parental NOTE AUX PARENTS. Vita avant d autoriser votre enfant à jouer. Régler le contrôle parental sur le système PlayStation

Mercredi 15 Janvier 2014

Glossaire. ( themanualpage.org) soumises à la licence GNU FDL.

Méthode de classification des réponses d un moteur de recherche

Le mot de l équipe. Une Triple compétence pour nos intervenants AMOS. L alternance MANAGER DES ORGANISATIONS SPORTIVES

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

Catalogue des formations Edition 2015

Brève introduction à la recherche d!information sur le Web à base d!agents logiciels

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

Transcription:

Expansion sémantique de requêtes Orange Labs Jean-Léon Bouraoui, Emilie Guimier de Neef, Benoît Gaillard, Malek Boualem, Olivier Collin Mercredi 31 mars 2010

SOMMAIRE Problématique et état de l art Contribution principale Contributions complémentaires 2 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Expansion de requête : enjeux En Recherche d'information, près d'1 terme de requête sur 5 est inadéquat! 20% de mots communs à deux personnes pour désigner un même concept (études de Bates (1986) et de Furnace (1987)) 10 à 25% des documents pertinents ne contiennent aucun terme d'une requête donnée (études sur TREC: Billerbeck (2005, p. 4)) Faible similarité entre l'espace des requêtes et l'espace des documents (Cui et al. (2002, p. 327) ) 3 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Problématique Limitations possibles de la requête initiale: Générique VS spécifique Musique rock, rap ; sport football, basket, Sigles VS mots complets OM Olympique de Marseille; TV télévision Utilisation d'une seule forme lexicale chat chats, chattes Objectif: augmentation du nombre de réponses pertinentes modifier la requête de l'usager en proposant des mots voisins de ceux employés initialement 4 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Expansion de requêtes: Avantages et risques Avantages: Augmentation du rappel et/ou précision Suggestion à l utilisateur de termes qu il ne connaissait pas Risque: "Query drift" : déviation par rapport à l intention initiale de l usager Exemple: java (programmation) java (île) = Indonésie, javanais, etc. 5 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Expansion de requêtes: ne pas confondre avec Désambiguïsation : choisir le ou les concepts auquel réfère l'usager à partir des termes qu'il a entré. Interprétation de requêtes : déterminer les intentions de l usager, à partir des termes employés dans sa requête. Suggestion de termes : comme son nom l indique Différences: mode d obtention et d utilisation des termes 6 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Principales approches Statistiques: corrélation entre les mots basée sur leurs cooccurences. Approche globale: à partir de l'ensemble des documents indexés Approche locale: à partir de documents résultants d'une première requête expansion aveugle, relevance feedback, etc. A partir de logs de requêtes: résultats de requêtes précédentes et similaires, ou requêtes elles-mêmes Linguistiques: ressources linguistiques: ontologies, thesaurus, relations syntaxiques ou morphologiques 7 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Approches statistiques Approche locale: Relevance feedback: l'usager fait une première requête, et indique parmi les documents retournés lesquels sont le plus pertinents; à partir de ceux-ci des mots clés sont extraits afin de mener une deuxième requête "étendue". Expansion aveugle: même principe, mais la pertinence est basée sur le classement du moteur de recherche (d'où le terme "aveugle") Approche globale: terms clustering, matrice de similarité, PhraseFinder, Avantages Limites Robustesse Travail semi-automatique Dépendant de la taille des ressources Pas de sémantique associée Moins efficace pour les documents du Web "moderne" (informations parasites: cadres, publicités, etc. ) 8 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Approches à partir de logs Plusieurs méthodes possibles: Calcul de similarité entre la requête courante et d'anciennes requêtes, puis approche statistique Association entre les requêtes et les documents retournés Considérer les requêtes précédentes comme des documents, puis techniques statistiques de relevance feedback ou d'expansion aveugle Avantages Adaptation aux requêtes Limites Nécessite de disposer d'une quantité importante de logs, de même type (public, thèmes) que le moteur cible 9 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Approches linguistiques Ressources sémantiques: Wordnet, Lexique Génératif de Pustejovsky, ConceptNet, ontologies et réseaux sémantiques divers Parcours du réseau selon diverses modalités: relations sémantiques (hyperonymie, méronymie, synonymie, etc.), opérations logiques (inférences par exemple) Ressources lexico-syntaxiques: Voisinage distributionnel, variantes morphologiques, lemmes, etc. Avantages Expansions précises et adaptées à la requête initiale Limites Travail de préparation et d'étude en amont 10 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Modes d'utilisation de l'expansion de requêtes Expansion de requêtes automatique: Formation automatique d'une deuxième requête à partir des expansions proposées Mode le plus ancien et le plus répandu Risque de bruit dans les résultats (query drift) Problématiques de la pondération des termes et/ou de l'utilisation de booléens Expansion de requêtes interactive: Proposition à l'utilisateur de choisir parmi les propositions d'expansions A priori, moins de risques de bruit Problématiques d'ergonomie 11 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Exemples d'interfaces d'expansion de requêtes interactive Joho et al. (2004) White et al. (2006) 12 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Utilisation dans des moteurs de recherche: Google 13 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Utilisation dans des moteurs de recherche: Yahoo 14 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Utilisation dans des moteurs de recherche: Exalead 15 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

SOMMAIRE Problématique et état de l art Contribution principale Principes Applications: moteur de recommandation Applications: CLIR Contributions complémentaires 16 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Approche choisie Utilisation de ressources linguistiques Ressources existantes: Lexicales: 100 000 lemmes Sémantiques: 100 000 sens + informations transverses structurées Logicielles: plateforme TiLT (Heinecke et al. (2008)) Geonames: base de données géographiques (8 millions d'entrées, 20 champs descriptifs): http://www.geonames.org/) 17 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Axes d'expansion Flexions: joueur joueurs, joueuse, joueuses Synonymes: télévision télé, tv, petit écran, téléviseur Voisins sémantiques: football footballeur, entraîneur, goal Génériques-spécifiques: moto quad, trail. Sigles: JO Jeux Olympiques, Journal Officiel Géographie: Bretagne Côtes-d'armor, Finistère Finistère Anteren, Ar-veuzid 18 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Autres caractéristiques Filtrage des expansions Termes de l application: à inclure Termes à supprimer Relations à supprimer Adaptation aux données de l application Intégration dans un moteur de recherche de contenus vidéos 19 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Architecture 20 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Evolutions souhaitées Optimisation du lexique Nettoyage Enrichissement Evaluation Ergonomie de la présentation des résultats Ajout de nouvelles fonctionnalités d expansion 21 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

SOMMAIRE Problématique et état de l art Contribution principale Principes Applications: moteur de recommandation Applications: CLIR Contributions complémentaires 22 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Recommandation Intégration dans un module de recommandation de contenu Objectif: proposer à l utilisateur des contenus (vidéos) susceptibles de l intéresser. L expansion augmente le nombre de contenus pertinents Résultats à venir 23 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

SOMMAIRE Problématique et état de l art Contribution principale Principes Applications: moteur de recommandation Applications: CLIR (collab. B. Gaillard, Orange Labs) Contributions complémentaires 24 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Cross Language Information Retrieval : principes Accéder à des documents pertinents pour la recherche, mais dans une autre langue que celle de la requêtes 2 approches: Traduction automatique des requêtes Traduction automatique des documents Cadre de travail: Moteur de recherche de contenus vidéos d'actualité Indexation des métadonnées Traduction des métadonnées 25 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

CLIR et défaut de couverture lexicale 26 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Calcul du taux de défaut de couverture lexicale Méthodologie: Filtrage d un corpus de requêtes avec deux lexiques français élimination des Entités Nommées, urls, fautes d orthographes = 34 070 mots différents Croisement avec le corpus de métadonnées 2800 mots absents 27 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Expansion de requête : valeur ajoutée au CLIR Liens étroits entre CLIR et expansion de requêtes Tous les avantages "monolingues" de l'expansion de requêtes plus: Réduction du taux de défaut de couverture lexicale (cf. Bellachia et al. (2008), Gaillard et Bouraoui, à paraître) Désambiguïsation (Ballesteros et al. (1998)). Exemple; chocolate (espagnol) chocolate cocoa blood (anglais) Problématiques spécifiques: Quand intervient l'expansion: avant/après la traduction? Risque : Problème du "query drift" encore plus important 28 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Expansion de requêtes: un pont vers le vocabulaire des contenus traduits 29 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Expansion de requêtes et CLIR : architecture 30 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Expansion de requêtes et CLIR : validation Réduction du silence: Moyenne de 124 documents retournés sans expansion, 193 avec hausse de près 50 % Maintien de la précision: Calcul sur les 400 requêtes les plus fréquentes du corpus Précision à 10 (P 10 ) Sans expansion P 10 = 59%; Avec expansion P 10 = 55%; 31 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Conclusions et perspectives sur le CLIR Approche prometteuse et innovante Evaluer le rappel Améliorer l'expansion 32 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

SOMMAIRE Problématique et état de l art Contribution principale Contributions complémentaires Expansion encyclopédique Expansion sur l actualité 33 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

SOMMAIRE Problématique et état de l art Contribution principale Contributions complémentaires Expansion encyclopédique Expansion sur l actualité 34 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Wikipédia: Une base pour l expansion? Objectif: proposer des expansions à partir de et vers des termes «encyclopédiques» : Entités Nommées, termes absents du thesaurus Moyen: utilisation de Wikipedia ressource multilingue, exhaustive, et libre 2 approches utilisant les catégories de Wikipédia (sur la base d un travail d O. Collin, Orange Labs): Directement, comme «descripteurs» Indirectement, dans des treillis de Galois 35 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Wikipédia: utilisation directe des catégories 36 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Wikipédia; utilisation des treillis de Gallois Principes généraux (T. Girault) Notions d'intension et d'extension: L extension est une énumération de l ensemble des membres d une même catégorie. L intension est l ensemble des propriétés partagées par les membres d une même catégorie Un nœud du treillis = un "concept formel", défini par son intension et son extension 37 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Wikipédia; utilisation des treillis de Gallois Principes généraux (T. Girault) 38 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Wikipédia; utilisation des treillis de Gallois Application pour l expansion Sous-ensemble consacré à l informatique 25 140 pages Chaque page est représentée par un vecteur de catégories contenant l'ensemble de toutes ses catégories parentes atteignant la catégorie terminale Formalisme des treillis de Galois: Le nom d une page = une extension, Chaque élément du vecteur associé = une intension 293 636 concepts formels 39 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Wikipédia; utilisation des treillis de Gallois résultats Regroupements de pages partageant des catégories communes "Navigation" dans le treillis en fonction du nombre d'intensions et d'extensions des concepts formels Exemple avec "Ethernet" extensions associées: Chiffreur IP, RS-232, IEEE 802.3, Protocole réseau,informatique, Réseau informatique, Matériel informatique, IEEE 802, Segment de réseau,architecture informatique, Carrier Sense Multiple Access with Collision Detection, Medium Attachment Unit Utilisation de tout ou partie des extensions comme "termes voisins" 40 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Wikipédia; utilisation des treillis de Gallois résultats Structuration des termes voisins en catégories plus génériques. Exemple pour les jeux vidéos : type de jeu, époque, etc. 41 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

SOMMAIRE Problématique et état de l art Contribution principale Contributions complémentaires Expansion encyclopédique Expansion sur l actualité 42 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Expansion sur l'actualité Objectif: générer des expansions qui varient dynamiquement en fonction de l'actualité. Xynthia tempête, victimes, passage PSG match, supporteurs, Foot L1, Lens Moyens: Corpus de dépêches d'actualité Sélection de n-grammes comportant au moins une Entité Nommée (test de Student) 43 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Conclusions et perspectives Approches variées de l'expansion sémantique de requêtes Les intégrer dans un seul module Les évaluer Utilisation de l'interprétation de requêtes en amont (désambiguïsation, identification des locutions) 44 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Eléments de bibliographie Ballesteros L., Croft W. B. "Resolving ambiguity for cross language retrieval". Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Melbourne, Australia, 6471, 1998. Billerbeck B., Efficient Query Expansion, PhD Thesis, Melbourne, Australie, September 2005. Cui H., Wen J.R., Nie J.Y, Ma W.Y, Probabilistic Query Expansion Using Query Logs, WWW2002, May 7-11, 2002, p. 325-332, Honolulu, Hawaii, USA. Efthimiadis E., "Query Expansion", Williams, Martha E., ed. Annual Review of Information Systems and Technology (ARIST), v31, pp 121-187, 1996. Johannes Heinecke, Grégory Smits, Christine Chardenon, Emilie Guimier De Neef, Estelle Maillebuau, Malek Boualem, "TiLT : plateforme pour le Traitement Automatique des Langues Naturelles". In: TAL, 2008 Volume 49 Numéro 2. Joho, H., Sanderson, M. and Beaulieu, M. (2004) A study of user interaction with a concept-based interactive query expansion support tool. Advances in Information Retrieval : 26th European Conference on IR Research (ECIR 2004), Sunderland, UK, p. 42-56, April 5-7, 2004. White R. Y., Marchionini G., A Study of Real-Time Query Expansion Effectiveness, Annual ACM Conference on Research and Development in Information Retrieval archive, Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, 2006, p. 715-716. 45 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

Publications sur ces travaux Bouraoui J.-L., Etat de l'art sur l'expansion de requêtes, Rapport interne Orange Labs, 2009 Olivier Collin, Benoît Gaillard, J.-L. Bouraoui, Thomas Girault, Semantic resource extraction from the Wikipedia category lattice, Article long, FLaReNet Acquisition Workshop, LREC 2010, Malte, Mai 2010, (accepté, à paraître) B. Gaillard, J.-L. Bouraoui, E. Guimier de Neef, M. Boualem Query Expansion for Cross Language Information Retrieval Improvement, Article long, Fourth International Conference on Research Challenges in Information Science (RCIS), Nice, 19-21 Mai 2010, (accepté, à paraître) B. Gaillard, J.-L. Bouraoui, Expansion de requêtes pour l'optimisation de la recherche d'information multilingue basée sur la traduction des contenus, Article long, Septième édition de la COnférence en Recherche d'information et Applications (CORIA 2010), 18-20 mars 2010, (accepté, à paraître) 46 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010

MERCI 47 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010