Expansion sémantique de requêtes Orange Labs Jean-Léon Bouraoui, Emilie Guimier de Neef, Benoît Gaillard, Malek Boualem, Olivier Collin Mercredi 31 mars 2010
SOMMAIRE Problématique et état de l art Contribution principale Contributions complémentaires 2 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Expansion de requête : enjeux En Recherche d'information, près d'1 terme de requête sur 5 est inadéquat! 20% de mots communs à deux personnes pour désigner un même concept (études de Bates (1986) et de Furnace (1987)) 10 à 25% des documents pertinents ne contiennent aucun terme d'une requête donnée (études sur TREC: Billerbeck (2005, p. 4)) Faible similarité entre l'espace des requêtes et l'espace des documents (Cui et al. (2002, p. 327) ) 3 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Problématique Limitations possibles de la requête initiale: Générique VS spécifique Musique rock, rap ; sport football, basket, Sigles VS mots complets OM Olympique de Marseille; TV télévision Utilisation d'une seule forme lexicale chat chats, chattes Objectif: augmentation du nombre de réponses pertinentes modifier la requête de l'usager en proposant des mots voisins de ceux employés initialement 4 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Expansion de requêtes: Avantages et risques Avantages: Augmentation du rappel et/ou précision Suggestion à l utilisateur de termes qu il ne connaissait pas Risque: "Query drift" : déviation par rapport à l intention initiale de l usager Exemple: java (programmation) java (île) = Indonésie, javanais, etc. 5 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Expansion de requêtes: ne pas confondre avec Désambiguïsation : choisir le ou les concepts auquel réfère l'usager à partir des termes qu'il a entré. Interprétation de requêtes : déterminer les intentions de l usager, à partir des termes employés dans sa requête. Suggestion de termes : comme son nom l indique Différences: mode d obtention et d utilisation des termes 6 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Principales approches Statistiques: corrélation entre les mots basée sur leurs cooccurences. Approche globale: à partir de l'ensemble des documents indexés Approche locale: à partir de documents résultants d'une première requête expansion aveugle, relevance feedback, etc. A partir de logs de requêtes: résultats de requêtes précédentes et similaires, ou requêtes elles-mêmes Linguistiques: ressources linguistiques: ontologies, thesaurus, relations syntaxiques ou morphologiques 7 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Approches statistiques Approche locale: Relevance feedback: l'usager fait une première requête, et indique parmi les documents retournés lesquels sont le plus pertinents; à partir de ceux-ci des mots clés sont extraits afin de mener une deuxième requête "étendue". Expansion aveugle: même principe, mais la pertinence est basée sur le classement du moteur de recherche (d'où le terme "aveugle") Approche globale: terms clustering, matrice de similarité, PhraseFinder, Avantages Limites Robustesse Travail semi-automatique Dépendant de la taille des ressources Pas de sémantique associée Moins efficace pour les documents du Web "moderne" (informations parasites: cadres, publicités, etc. ) 8 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Approches à partir de logs Plusieurs méthodes possibles: Calcul de similarité entre la requête courante et d'anciennes requêtes, puis approche statistique Association entre les requêtes et les documents retournés Considérer les requêtes précédentes comme des documents, puis techniques statistiques de relevance feedback ou d'expansion aveugle Avantages Adaptation aux requêtes Limites Nécessite de disposer d'une quantité importante de logs, de même type (public, thèmes) que le moteur cible 9 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Approches linguistiques Ressources sémantiques: Wordnet, Lexique Génératif de Pustejovsky, ConceptNet, ontologies et réseaux sémantiques divers Parcours du réseau selon diverses modalités: relations sémantiques (hyperonymie, méronymie, synonymie, etc.), opérations logiques (inférences par exemple) Ressources lexico-syntaxiques: Voisinage distributionnel, variantes morphologiques, lemmes, etc. Avantages Expansions précises et adaptées à la requête initiale Limites Travail de préparation et d'étude en amont 10 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Modes d'utilisation de l'expansion de requêtes Expansion de requêtes automatique: Formation automatique d'une deuxième requête à partir des expansions proposées Mode le plus ancien et le plus répandu Risque de bruit dans les résultats (query drift) Problématiques de la pondération des termes et/ou de l'utilisation de booléens Expansion de requêtes interactive: Proposition à l'utilisateur de choisir parmi les propositions d'expansions A priori, moins de risques de bruit Problématiques d'ergonomie 11 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Exemples d'interfaces d'expansion de requêtes interactive Joho et al. (2004) White et al. (2006) 12 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Utilisation dans des moteurs de recherche: Google 13 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Utilisation dans des moteurs de recherche: Yahoo 14 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Utilisation dans des moteurs de recherche: Exalead 15 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
SOMMAIRE Problématique et état de l art Contribution principale Principes Applications: moteur de recommandation Applications: CLIR Contributions complémentaires 16 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Approche choisie Utilisation de ressources linguistiques Ressources existantes: Lexicales: 100 000 lemmes Sémantiques: 100 000 sens + informations transverses structurées Logicielles: plateforme TiLT (Heinecke et al. (2008)) Geonames: base de données géographiques (8 millions d'entrées, 20 champs descriptifs): http://www.geonames.org/) 17 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Axes d'expansion Flexions: joueur joueurs, joueuse, joueuses Synonymes: télévision télé, tv, petit écran, téléviseur Voisins sémantiques: football footballeur, entraîneur, goal Génériques-spécifiques: moto quad, trail. Sigles: JO Jeux Olympiques, Journal Officiel Géographie: Bretagne Côtes-d'armor, Finistère Finistère Anteren, Ar-veuzid 18 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Autres caractéristiques Filtrage des expansions Termes de l application: à inclure Termes à supprimer Relations à supprimer Adaptation aux données de l application Intégration dans un moteur de recherche de contenus vidéos 19 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Architecture 20 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Evolutions souhaitées Optimisation du lexique Nettoyage Enrichissement Evaluation Ergonomie de la présentation des résultats Ajout de nouvelles fonctionnalités d expansion 21 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
SOMMAIRE Problématique et état de l art Contribution principale Principes Applications: moteur de recommandation Applications: CLIR Contributions complémentaires 22 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Recommandation Intégration dans un module de recommandation de contenu Objectif: proposer à l utilisateur des contenus (vidéos) susceptibles de l intéresser. L expansion augmente le nombre de contenus pertinents Résultats à venir 23 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
SOMMAIRE Problématique et état de l art Contribution principale Principes Applications: moteur de recommandation Applications: CLIR (collab. B. Gaillard, Orange Labs) Contributions complémentaires 24 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Cross Language Information Retrieval : principes Accéder à des documents pertinents pour la recherche, mais dans une autre langue que celle de la requêtes 2 approches: Traduction automatique des requêtes Traduction automatique des documents Cadre de travail: Moteur de recherche de contenus vidéos d'actualité Indexation des métadonnées Traduction des métadonnées 25 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
CLIR et défaut de couverture lexicale 26 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Calcul du taux de défaut de couverture lexicale Méthodologie: Filtrage d un corpus de requêtes avec deux lexiques français élimination des Entités Nommées, urls, fautes d orthographes = 34 070 mots différents Croisement avec le corpus de métadonnées 2800 mots absents 27 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Expansion de requête : valeur ajoutée au CLIR Liens étroits entre CLIR et expansion de requêtes Tous les avantages "monolingues" de l'expansion de requêtes plus: Réduction du taux de défaut de couverture lexicale (cf. Bellachia et al. (2008), Gaillard et Bouraoui, à paraître) Désambiguïsation (Ballesteros et al. (1998)). Exemple; chocolate (espagnol) chocolate cocoa blood (anglais) Problématiques spécifiques: Quand intervient l'expansion: avant/après la traduction? Risque : Problème du "query drift" encore plus important 28 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Expansion de requêtes: un pont vers le vocabulaire des contenus traduits 29 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Expansion de requêtes et CLIR : architecture 30 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Expansion de requêtes et CLIR : validation Réduction du silence: Moyenne de 124 documents retournés sans expansion, 193 avec hausse de près 50 % Maintien de la précision: Calcul sur les 400 requêtes les plus fréquentes du corpus Précision à 10 (P 10 ) Sans expansion P 10 = 59%; Avec expansion P 10 = 55%; 31 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Conclusions et perspectives sur le CLIR Approche prometteuse et innovante Evaluer le rappel Améliorer l'expansion 32 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
SOMMAIRE Problématique et état de l art Contribution principale Contributions complémentaires Expansion encyclopédique Expansion sur l actualité 33 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
SOMMAIRE Problématique et état de l art Contribution principale Contributions complémentaires Expansion encyclopédique Expansion sur l actualité 34 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Wikipédia: Une base pour l expansion? Objectif: proposer des expansions à partir de et vers des termes «encyclopédiques» : Entités Nommées, termes absents du thesaurus Moyen: utilisation de Wikipedia ressource multilingue, exhaustive, et libre 2 approches utilisant les catégories de Wikipédia (sur la base d un travail d O. Collin, Orange Labs): Directement, comme «descripteurs» Indirectement, dans des treillis de Galois 35 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Wikipédia: utilisation directe des catégories 36 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Wikipédia; utilisation des treillis de Gallois Principes généraux (T. Girault) Notions d'intension et d'extension: L extension est une énumération de l ensemble des membres d une même catégorie. L intension est l ensemble des propriétés partagées par les membres d une même catégorie Un nœud du treillis = un "concept formel", défini par son intension et son extension 37 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Wikipédia; utilisation des treillis de Gallois Principes généraux (T. Girault) 38 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Wikipédia; utilisation des treillis de Gallois Application pour l expansion Sous-ensemble consacré à l informatique 25 140 pages Chaque page est représentée par un vecteur de catégories contenant l'ensemble de toutes ses catégories parentes atteignant la catégorie terminale Formalisme des treillis de Galois: Le nom d une page = une extension, Chaque élément du vecteur associé = une intension 293 636 concepts formels 39 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Wikipédia; utilisation des treillis de Gallois résultats Regroupements de pages partageant des catégories communes "Navigation" dans le treillis en fonction du nombre d'intensions et d'extensions des concepts formels Exemple avec "Ethernet" extensions associées: Chiffreur IP, RS-232, IEEE 802.3, Protocole réseau,informatique, Réseau informatique, Matériel informatique, IEEE 802, Segment de réseau,architecture informatique, Carrier Sense Multiple Access with Collision Detection, Medium Attachment Unit Utilisation de tout ou partie des extensions comme "termes voisins" 40 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Wikipédia; utilisation des treillis de Gallois résultats Structuration des termes voisins en catégories plus génériques. Exemple pour les jeux vidéos : type de jeu, époque, etc. 41 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
SOMMAIRE Problématique et état de l art Contribution principale Contributions complémentaires Expansion encyclopédique Expansion sur l actualité 42 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Expansion sur l'actualité Objectif: générer des expansions qui varient dynamiquement en fonction de l'actualité. Xynthia tempête, victimes, passage PSG match, supporteurs, Foot L1, Lens Moyens: Corpus de dépêches d'actualité Sélection de n-grammes comportant au moins une Entité Nommée (test de Student) 43 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Conclusions et perspectives Approches variées de l'expansion sémantique de requêtes Les intégrer dans un seul module Les évaluer Utilisation de l'interprétation de requêtes en amont (désambiguïsation, identification des locutions) 44 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Eléments de bibliographie Ballesteros L., Croft W. B. "Resolving ambiguity for cross language retrieval". Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Melbourne, Australia, 6471, 1998. Billerbeck B., Efficient Query Expansion, PhD Thesis, Melbourne, Australie, September 2005. Cui H., Wen J.R., Nie J.Y, Ma W.Y, Probabilistic Query Expansion Using Query Logs, WWW2002, May 7-11, 2002, p. 325-332, Honolulu, Hawaii, USA. Efthimiadis E., "Query Expansion", Williams, Martha E., ed. Annual Review of Information Systems and Technology (ARIST), v31, pp 121-187, 1996. Johannes Heinecke, Grégory Smits, Christine Chardenon, Emilie Guimier De Neef, Estelle Maillebuau, Malek Boualem, "TiLT : plateforme pour le Traitement Automatique des Langues Naturelles". In: TAL, 2008 Volume 49 Numéro 2. Joho, H., Sanderson, M. and Beaulieu, M. (2004) A study of user interaction with a concept-based interactive query expansion support tool. Advances in Information Retrieval : 26th European Conference on IR Research (ECIR 2004), Sunderland, UK, p. 42-56, April 5-7, 2004. White R. Y., Marchionini G., A Study of Real-Time Query Expansion Effectiveness, Annual ACM Conference on Research and Development in Information Retrieval archive, Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, 2006, p. 715-716. 45 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
Publications sur ces travaux Bouraoui J.-L., Etat de l'art sur l'expansion de requêtes, Rapport interne Orange Labs, 2009 Olivier Collin, Benoît Gaillard, J.-L. Bouraoui, Thomas Girault, Semantic resource extraction from the Wikipedia category lattice, Article long, FLaReNet Acquisition Workshop, LREC 2010, Malte, Mai 2010, (accepté, à paraître) B. Gaillard, J.-L. Bouraoui, E. Guimier de Neef, M. Boualem Query Expansion for Cross Language Information Retrieval Improvement, Article long, Fourth International Conference on Research Challenges in Information Science (RCIS), Nice, 19-21 Mai 2010, (accepté, à paraître) B. Gaillard, J.-L. Bouraoui, Expansion de requêtes pour l'optimisation de la recherche d'information multilingue basée sur la traduction des contenus, Article long, Septième édition de la COnférence en Recherche d'information et Applications (CORIA 2010), 18-20 mars 2010, (accepté, à paraître) 46 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010
MERCI 47 Orange Labs - Recherche & Développement Expansion de requête 31/03/2010